CN113742926A - 一种基于时空聚类的气象观测数据质量控制方法 - Google Patents
一种基于时空聚类的气象观测数据质量控制方法 Download PDFInfo
- Publication number
- CN113742926A CN113742926A CN202111047528.0A CN202111047528A CN113742926A CN 113742926 A CN113742926 A CN 113742926A CN 202111047528 A CN202111047528 A CN 202111047528A CN 113742926 A CN113742926 A CN 113742926A
- Authority
- CN
- China
- Prior art keywords
- time
- space
- data
- cluster
- meteorological
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000003908 quality control method Methods 0.000 title claims abstract description 16
- 230000002159 abnormal effect Effects 0.000 claims abstract description 16
- 238000012937 correction Methods 0.000 claims abstract description 5
- 238000012360 testing method Methods 0.000 claims description 7
- 238000013450 outlier detection Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 3
- 238000000034 method Methods 0.000 abstract description 7
- 238000005516 engineering process Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012731 temporal analysis Methods 0.000 description 1
- 238000000700 time series analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2119/00—Details relating to the type or aim of the analysis or the optimisation
- G06F2119/02—Reliability analysis or reliability optimisation; Failure analysis, e.g. worst case scenario performance, failure mode and effects analysis [FMEA]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
本发明属于气象服务技术领域,具体涉及一种基于时空聚类的气象观测数据质量控制方法。本发明采用ST‑DBSCAN时空聚类算法,将一定时间距离和空间距离的气象数据分组,在组内进行缺失值填补、异常值检测和离群点校正,综合考虑了气象数据在时空范围内聚集趋势和变化特性,针对性的校正缺失值和离群值,使校正结果更加准确,提高了气象观测数据的数据质量。
Description
技术领域
本发明属于气象服务技术领域,具体涉及一种基于时空聚类的气象观测数据质量控制方法。
背景技术
随着气象自动观测站在全国范围内的广泛建立,气象观测数据的数据量呈指数级增长。由于气象观测数据都要经历仪器观测、采集器采集、测报软件记录、编码、传输、解码等重要环节,受仪器设备稳定性和观测环境影响,这些环节都有可能引入误差,进而导致数据错误。而气象观测数据质量的好坏直接影响到天气预报以及气候预测的准确性,因此对于气象观测数据的质量控制势在必行。
现有的质量控制技术大多综合了传统质量控制方法和人工监测判别,根据历史资料得出气候界限值以及各气象要素的允许值对观测值进行质控,灵敏度不高,并且没有考虑气象要素的时空关联性。也有部分研究运用关联规则、贝叶斯网络、支持向量机、k-means聚类、时间序列分析等数据挖掘方法用于气象要素之间的相关性分析、天气现象分类和气象预报业务等方面,但在气象观测数据质量控制方面却少有研究。
发明内容
针对现有的气象观测数据质控技术存在的不足,本发明提供的一种基于时空聚类的气象观测数据质量控制方法,采用基于密度的时空聚类算法ST-DBSCAN将气象观测数据按照时间和空间维度进行聚类分组,然后计算各组观测数据的一致性因子FC,并基于贝叶斯原理和假设检验方法判断是否存在异常数据组,在异常数据组中采用离群点检测算法检测出离群点,最后对离群点进行校正处理。本发明综合考虑了气象要素在一定时间和空间范围内的气象聚集趋势和变化规律,同时对气象离群值进行检测和修正,提高了气象观测数据的准确度,为气象预报工作带来方便。
为实现上述目的,本发明采用如下技术方案:
一种基于时空聚类的气象观测数据质量控制方法,如图1所示,包括以下步骤:
S1、获取原始气象观测数据;
S2、采用三维的时空聚类ST-DBSCAN算法对气象观测数据各要素进行时空聚类分组,具体为:
S21、建立一个三维的气象要素时空数据集D,数据集D中气象要素对象的经度为x,纬度为y,观测时间为z,一条气象观测数据对应一个对象点Pi={xi,yi,zi},i为观测数据序号,1≤i≤n,n为观测数据样本总量;
S22、从数据集D中依次选取对象点Pi,判断其是否属于现有簇中,是则重新选择下一个对象点Pi+1,否则进入步骤S23,其中,簇为聚类分组后对象点的集合,不属于任何簇的点为时空孤立点,每个簇具有不同的标签;
S23、判断Pi是否为时空核心对象:设定最小相邻点阈值MinPts,若在时空对象点P的时空邻域内,P的时空相邻点数量ΔN满足ΔN≥MinPts,则称P为时空核心对象;所述时空邻域的定义为,给定一个时空对象点P,P的所有时空相邻点构成的时空范围即为对象点P的时空邻域;所述时空相邻点的定义为,设定时间阈值tt和空间阈值st,对于时空对象Pt,若Pw到Pt的时间距离ΔT满足:
ΔT=|zw-zt|≤tt
空间距离ΔS满足公式:
ΔS=|Distance((xw,yw)-(xt,yt))|≤st
则Pw为Pt的时空相邻点;
S24、搜寻时空核心对象点Pi的所有时空相邻点Qi,若Qi不属于任何现有簇,则将Qi放入新建的簇C中,否则不进行操作,其中,簇C中的C为簇的标签;
S25、判断新簇C中的各对象是否为时空核心对象,若不是时空核心对象,则将其标为边缘时空对象,否则将该时空核心对象作为目标进行步骤S24的操作;
S26、重复步骤S22到步骤S25,直至数据集D中所有对象都属于某个簇,或者为时空孤立点;
S3、对各个气象要素时空聚类后的各个簇进行缺失值处理,统计各簇内缺失值个数,当缺失值个数小于设定值时,通过两个最近邻时空相邻点数据的平均值填补,当缺失值个数大于或等于设定值时,删除该簇;
S4、簇内一致性检验,计算各簇数据的一致性因子FC:
其中Gs(t)={g1,…,gN}为N个在时隙t内且在空间范围S内采集到的某气象要素的观测数据,i,j=1,…,N,时隙t=1,…,T,T为将观测时间划分为等长时隙的个数;
基于贝叶斯决策和假设检验方法判断该簇数据在时间维度上是否发生显著改变,若发生显著改变,则将该簇数据标为异常数据组,具体为:
建立假设检验模型:
{H0:FC(1)=…=FC(t0-1)=FC(t0)=…=FC(T)}
{H1:FC(1)=…=FC(t0-1)≠FC(t0)=…=FC(T)}
其中,ΘT={FC(1),…,FC(T)}为当前簇在时间1,…,T上的一致性因子向量,H0表示一致性因子未发生显著变化,H1表示一致性因子在时间t0发生显著变化;
根据贝叶斯原理,采用后验概率计算一致性因子FC在时间t上发生显著变化的概率:
其中q∈{0,1},P(Hq|ΘT)为似然函数,P(Hq)为先验概率;当似然函数满足logP(H1|ΘT)/logP(H0|ΘT)>1时,该簇数据在时间维度上发生显著改变,Gs(t)为异常数据组;
S5、在异常数据组中进行时空离群点检测并校正:
检测离群点:
校正离群值:
若离群点最近邻的两个数据点为正常值,则通过异常值前后临近的气象观测数据的平均值替换该离群点;若最近邻的两个数据点也为离群点,则采用该组内数据的平均值替换离群点。
本发明的有益效果为,与现有技术相比,本发明着眼于气象数据在时间和空间上的关联性,采用ST-DBSCAN时空聚类方法,综合考虑了气象要素在一定时间和空间范围内的气象聚集趋势和变化规律,借助气象要素在时空上的变化特性,对缺失值和离群值进行针对性的校正,提高了气象观测数据的数据质量,为后期的气象预报业务带来了便利。
附图说明
图1为本发明的逻辑顺序示意图;
具体实施方式
下面对本发明的方案进行详细描述:
本发明的方法主要包括以下步骤:
S1、获取原始气象观测数据;
S2、采用三维的时空聚类ST-DBSCAN算法对气象观测数据各要素进行时空聚类分组,具体为:
S21、建立一个三维的气象要素时空数据集D,数据集D中气象要素对象的经度为x,纬度为y,观测时间为z,一条气象观测数据对应一个对象点Pi={xi,yi,zi},i为观测数据序号,1≤i≤n,n为观测数据样本总量;
S22、从数据集D中依次选取对象点Pi,判断其是否属于现有簇中,是则重新选择下一个对象点Pi+1,否则进入步骤S23,其中,簇为聚类分组后对象点的集合,不属于任何簇的点为时空孤立点,每个簇具有不同的标签;
S23、判断Pi是否为时空核心对象:设定最小相邻点阈值MinPts,若在时空对象点P的时空邻域内,P的时空相邻点数量ΔN满足ΔN≥MinPts,则称P为时空核心对象;所述时空邻域的定义为,给定一个时空对象点P,P的所有时空相邻点构成的时空范围即为对象点P的时空邻域;所述时空相邻点的定义为,设定时间阈值tt和空间阈值st,对于时空对象Pt,若Pw到Pt的时间距离ΔT满足:
ΔT=|zw-zt|≤tt
空间距离ΔS满足公式:
ΔS=|Distance((xw,yw)-(xt,yt))|≤st
则Pw为Pt的时空相邻点;
S24、搜寻时空核心对象点Pi的所有时空相邻点Qi,若Qi不属于任何现有簇,则将Qi放入新建的簇C中,否则不进行操作,其中,簇C中的C为簇的标签;
S25、判断新簇C中的各对象是否为时空核心对象,若不是时空核心对象,则将其标为边缘时空对象,否则将该时空核心对象作为目标进行步骤S24的操作;
S26、重复步骤S22到步骤S25,直至数据集D中所有对象都属于某个簇,或者为时空孤立点;
S3、对各个气象要素时空聚类后的各个簇进行缺失值处理,统计各簇内缺失值个数,当缺失值个数小于设定值时,通过两个最近邻时空相邻点数据的平均值填补,当缺失值个数大于或等于设定值时,删除该簇;
S4、簇内一致性检验,计算各簇数据的一致性因子FC:
其中Gs(t)={g1,…,gN}为N个在时隙t内且在空间范围S内采集到的某气象要素的观测数据,i,j=1,…,N,时隙t=1,…,T,T为将观测时间划分为等长时隙的个数;
基于贝叶斯决策和假设检验方法判断该簇数据在时间维度上是否发生显著改变,若发生显著改变,则将该簇数据标为异常数据组,具体为:
建立假设检验模型:
{H0:FC(l)=…=FC(t0-1)=FC(t0)=…=FC(T)}
{H1:FC(1)=…=FC(t0-1)≠FC(t0)=…=FC(T)}
其中,ΘT={FC(1),…,FC(T)}为当前簇在时间1,…,T上的一致性因子向量,H0表示一致性因子未发生显著变化,H1表示一致性因子在时间t0发生显著变化;
根据贝叶斯原理,采用后验概率计算一致性因子FC在时间t上发生显著变化的概率:
其中q∈{0,1},P(Hq|ΘT)为似然函数,P(Hq)为先验概率;当似然函数满足logP(H1|ΘT)/logP(H0|ΘT)>1时,该簇数据在时间维度上发生显著改变,Gs(t)为异常数据组;
S5、在异常数据组中进行时空离群点检测并校正:
检测离群点:
校正离群值:
若离群点最近邻的两个数据点为正常值,则通过异常值前后临近的气象观测数据的平均值替换该离群点;若最近邻的两个数据点也为离群点,则采用该组内数据的平均值替换离群点。
现有气象观测数据的质量控制技术大多是传统质量控制方法和人工判别相结合,传统质量控制方法主要通过界限值检测、极值检测等方法,没有考虑到气象数据的时空关联性。本发明采用ST-DBSCAN时空聚类算法,将一定时间距离和空间距离的气象数据分组,在组内进行缺失值填补、异常值检测和离群点校正,综合考虑了气象数据在时空范围内聚集趋势和变化特性,针对性的校正缺失值和离群值,使校正结果更加准确,提高了气象观测数据的数据质量。
Claims (1)
1.一种基于时空聚类的气象观测数据质量控制方法,其特征在于,包括以下步骤:
S1、获取原始气象观测数据;
S2、采用三维的时空聚类ST-DBSCAN算法对气象观测数据各要素进行时空聚类分组,具体为:
S21、建立一个三维的气象要素时空数据集D,数据集D中气象要素对象的经度为x,纬度为y,观测时间为z,一条气象观测数据对应一个对象点Pi={xi,yi,zi},i为观测数据序号,1≤i≤n,n为观测数据样本总量;
S22、从数据集D中依次选取对象点Pi,判断其是否属于现有簇中,是则重新选择下一个对象点Pi+1,否则进入步骤S23,其中,簇为聚类分组后对象点的集合,不属于任何簇的点为时空孤立点,每个簇具有不同的标签;
S23、判断Pi是否为时空核心对象:设定最小相邻点阈值MinPts,若在时空对象点P的时空邻域内,P的时空相邻点数量ΔN满足ΔN≥MinPts,则称P为时空核心对象;所述时空邻域的定义为,给定一个时空对象点P,P的所有时空相邻点构成的时空范围即为对象点P的时空邻域;所述时空相邻点的定义为,设定时间阈值tt和空间阈值st,对于时空对象Pt,若Pw到Pt的时间距离ΔT满足:
ΔT=|zw-zt|≤tt
空间距离ΔS满足公式:
ΔS=|Distance((xw,yw)-(xt,yt))|≤st
则Pw为Pt的时空相邻点;
S24、搜寻时空核心对象点Pi的所有时空相邻点Qi,若Qi不属于任何现有簇,则将Qi放入新建的簇C中,否则不进行操作,其中,簇C中的C为簇的标签;
S25、判断新簇C中的各对象是否为时空核心对象,若不是时空核心对象,则将其标为边缘时空对象,否则将该时空核心对象作为目标进行步骤S24的操作;
S26、重复步骤S22到步骤S25,直至数据集D中所有对象都属于某个簇,或者为时空孤立点;
S3、对各个气象要素时空聚类后的各个簇进行缺失值处理,统计各簇内缺失值个数,当缺失值个数小于设定值时,通过两个最近邻时空相邻点数据的平均值填补,当缺失值个数大于或等于设定值时,删除该簇;
S4、簇内一致性检验,计算各簇数据的一致性因子FC:
其中Gs(t)={g1,…,gN}为N个在时隙t内且在空间范围S内采集到的某气象要素的观测数据,i,j=1,…,N,时隙t=1,…,T,T为将观测时间划分为等长时隙的个数;
基于贝叶斯决策和假设检验方法判断该簇数据在时间维度上是否发生显著改变,若发生显著改变,则将该簇数据标为异常数据组,具体为:
建立假设检验模型:
{H0:FC(1)=…=FC(t0-1)=FC(t0)=…=FC(T)}
{H1:FC(1)=…=FC(t0-1)≠FC(t0)=…=FC(T)}
其中,ΘT={FC(1),…,FC(T)}为当前簇在时间1,…,T上的一致性因子向量,H0表示一致性因子未发生显著变化,H1表示一致性因子在时间t0发生显著变化;
根据贝叶斯原理,采用后验概率计算一致性因子FC在时间t上发生显著变化的概率:
其中q∈{0,1},P(Hq|ΘT)为似然函数,P(Hq)为先验概率;当似然函数满足logP(H1|ΘT)/logP(H0|ΘT)>1时,该簇数据在时间维度上发生显著改变,Gs(t)为异常数据组;
S5、在异常数据组中进行时空离群点检测并校正:
检测离群点:
校正离群值:
若离群点最近邻的两个数据点为正常值,则通过异常值前后临近的气象观测数据的平均值替换该离群点;若最近邻的两个数据点也为离群点,则采用该组内数据的平均值替换离群点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111047528.0A CN113742926A (zh) | 2021-09-08 | 2021-09-08 | 一种基于时空聚类的气象观测数据质量控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111047528.0A CN113742926A (zh) | 2021-09-08 | 2021-09-08 | 一种基于时空聚类的气象观测数据质量控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113742926A true CN113742926A (zh) | 2021-12-03 |
Family
ID=78736843
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111047528.0A Withdrawn CN113742926A (zh) | 2021-09-08 | 2021-09-08 | 一种基于时空聚类的气象观测数据质量控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113742926A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114814991A (zh) * | 2022-06-28 | 2022-07-29 | 成都信息工程大学 | 一种气象要素场空间分布区域的识别方法及装置 |
-
2021
- 2021-09-08 CN CN202111047528.0A patent/CN113742926A/zh not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114814991A (zh) * | 2022-06-28 | 2022-07-29 | 成都信息工程大学 | 一种气象要素场空间分布区域的识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108304287B (zh) | 一种磁盘故障检测方法、装置以及相关设备 | |
CN110213724B (zh) | 一种伪基站运动轨迹的识别方法 | |
CN111327377B (zh) | 场强预测方法、装置、设备及存储介质 | |
CN109495327B (zh) | 一种基于大数据分析的用户活动异常检测和流量预测方法 | |
CN113709779B (zh) | 一种蜂窝网络故障诊断方法 | |
CN108268901B (zh) | 一种基于动态时间弯曲距离发现环境监测异常数据的方法 | |
CN111046968B (zh) | 一种基于改进dpc算法的道路网络轨迹聚类分析方法 | |
CN111405585B (zh) | 一种基于卷积神经网络的邻区关系预测方法 | |
CN115982602B (zh) | 一种光伏变压器电故障检测方法 | |
CN110062410B (zh) | 一种基于自适应谐振理论的小区中断检测定位方法 | |
CN113742926A (zh) | 一种基于时空聚类的气象观测数据质量控制方法 | |
CN112257963A (zh) | 基于航天软件缺陷数据分布离群点的缺陷预测方法及装置 | |
CN115659284B (zh) | 一种大数据融合平台 | |
CN111444233B (zh) | 基于复制器神经网络模型发现环境监测异常数据的方法 | |
CN112598199A (zh) | 一种基于决策树算法的监测预警方法 | |
CN116882587A (zh) | 一种基于雷电灾害情况下电力电网系统故障预测分析方法 | |
CN114091790B (zh) | 一种融合现场数据和两阶段加速退化数据的寿命预测方法 | |
CN116804668B (zh) | 一种食盐碘含量检测数据标识方法及系统 | |
CN111343664B (zh) | 用户定位方法、装置、设备及介质 | |
CN116933136A (zh) | 一种在线生态观测数据异常检测方法及系统 | |
CN117235632A (zh) | 一种大型蒸发传感器水位异常数据检测方法 | |
CN114881540B (zh) | 确定水源治理方案的方法和装置、电子设备和存储介质 | |
CN114019139B (zh) | 一种农用地土壤重金属异常数据的探测方法 | |
CN112765219B (zh) | 一种跳过平稳区域的流数据异常检测方法 | |
CN115209343A (zh) | 基于mr数据定位的异常指纹识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20211203 |
|
WW01 | Invention patent application withdrawn after publication |