CN113157684B - 一种水利海量数据的查错方法 - Google Patents

一种水利海量数据的查错方法 Download PDF

Info

Publication number
CN113157684B
CN113157684B CN202110523475.9A CN202110523475A CN113157684B CN 113157684 B CN113157684 B CN 113157684B CN 202110523475 A CN202110523475 A CN 202110523475A CN 113157684 B CN113157684 B CN 113157684B
Authority
CN
China
Prior art keywords
data
water conservancy
target water
abnormal
test
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110523475.9A
Other languages
English (en)
Other versions
CN113157684A (zh
Inventor
陈晓宏
曾小红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202110523475.9A priority Critical patent/CN113157684B/zh
Publication of CN113157684A publication Critical patent/CN113157684A/zh
Application granted granted Critical
Publication of CN113157684B publication Critical patent/CN113157684B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Quality & Reliability (AREA)
  • Examining Or Testing Airtightness (AREA)

Abstract

本发明公开了一种水利海量数据的查错方法,包括:对目标站点对应的目标水利数据进行分类,得到分类后的各类数据;根据每一类数据的属性信息,确定与每一类数据对应的质量控制方法;针对每一类数据,运用对应的质量控制方法进行数据检验,得到检验结果,所述检验结果包括数据是否存在异常;基于所述检验结果,对于存在异常的数据,基于所述目标站点的历史水利数据,和/或所述目标站点的相邻站点的水利数据,对所述异常的数据进行复核。本发明通过上述过程为各类水利数据针对性地采用相应的质量控制方法对水利数据进行检验,并且在检验基础上进一步对其进行复核,高效、可靠地检验出水利数据中的异常数据,从而提高了水利数据的质量。

Description

一种水利海量数据的查错方法
技术领域
本发明涉及数据质量监控技术领域,更具体的说,是涉及一种水利海量数据的查错方法。
背景技术
水利自动测报系统在近30几年的发展下取得了重大成果。所建系统在不同的历史时期中及时地采集数据,为防汛和水利调度管理决策提供了依据和参考,产生了相当大的社会经济效益。
随着经济社会的飞速发展,对水利信息技术提出了新要求,具体体现在水利观测项目和内容不断增加和扩充,对观测方法和手段以及水利监测技术的研发和应用提出了更高的要求。此外,传感技术、计算机技术、通信技术和现代电子技术的飞速发展,也加速了水利监测技术自动化的发展。
目前自动化技术主要应用在水利监测中,利用了各类先进的传感器对水位流速(流量)、水质、摘情、泥沙和降雨量等水利数据进行采集和传输。除了常规水雨情信息外,闸门开度、温度、湿度、灌区水位流量、风向、风速、土壤墒情、大坝渗压渗流、地下水位以及在线水质参数监视等功能和应用相继纳入到遥测系统中,极大地扩展了水利自动测报系统的功能,为防汛、水环境管理和水利调度等应用服务提供更丰富的实时数据。
水利数据的可靠性是水利社会服务以及水利工程设计的关键基础,而海量数据中由于监测仪器故障、环境条件变化等原因而出现一些异常数据是不可避免的。对于海量数据依靠人工方式去搜寻、发现异常数据是不可行的,现有技术也无法在水利的数据中判别观测值是否异常,导致水利数据的质量得不到保障。
发明内容
有鉴于此,本发明提供了一种水利海量数据的查错方法,以克服现有技术无法在水利数据中进行自动查错的问题。
为实现上述目的,本发明提供如下技术方案:
一种水利海量数据的查错方法,包括:
对目标站点对应的目标水利数据进行分类,得到分类后的各类数据;
根据每一类数据的属性信息,确定与每一类数据对应的质量控制方法;
针对每一类数据,运用对应的质量控制方法进行数据检验,得到检验结果,所述检验结果包括数据是否存在异常;
基于所述检验结果,对于存在异常的数据,基于所述目标站点的历史水利数据,和/或所述目标站点的相邻站点的水利数据,对所述异常的数据进行复核。
优选地,所述对目标站点对应的目标水利数据进行分类,包括:
根据属性信息是否包含气象特有属性,将所述目标水利数据划分为气象型数据和通用型数据;
根据是否受人为影响,将所述目标水利数据划分为受人为影响数据和不受人为影响数据;
根据空间分布是否具有均一性,将所述目标水利数据划分为空间分布均一性数据和空间分布非均一性数据;
根据变化规律是否稳定,将所述目标水利数据划分为稳定变化数据和跳动变化数据;
根据单位时间内的观测次数,将所述目标水利数据划分为第一观测频次数据和第二观测频次数据,其中,所述第一观测频次数据单位时间内的观测次数大于设定的频率阈值,所述第二观测频次数据单位时间内的观测次数少于所述设定的频率阈值。
优选地,所述质量控制方法包括通用型检验方法和气象型数据检验方法;
所述通用型检验方法包括极值检验法、时变检验法、内部一致性检验法、莱茵达检验法、肖维勒检验法、格拉布斯检验法和Cochran检验法;
所述气象型数据检验方法包括空间一致性检验法和Benford检验法。
优选地,所述针对每一类数据,运用对应的质量控制方法进行数据检验,包括:
对于所述通用型数据,采用所述通用型检验方法对其进行检验;
对于所述气象型数据,采用所述通用型检验方法和/或所述气象型数据检验方法对其进行检验;
对于所述不受人为影响数据,采用所述Benford检验法对其进行检验;
对于所述受人为影响数据,采用非Benford检验法对其进行检验;
对于所述空间分布均一性数据,采用所述空间一致性检验法对其进行检验;
对于所述空间分布非均一性数据,采用非空间一致性检验法对其进行检验;
对于所述稳定变化数据,采用所述莱茵达检验法对其进行检验;
对于所述跳动变化数据,采用所述肖维勒检验法和/或所述格拉布斯检验法对其进行检验;
对于所述第一观测频次数据,将其进行分组,针对每一组数据采用Cochran检验法对其进行整体判断,检验出存在异常值的数据组,再采用所述莱茵达检验法对所述存在异常值的数据组进行检验,检验出具体的异常值;
对于所述第二观测频次数据,采用所述肖维勒检验法和/或所述格拉布斯检验法对其进行检验。
优选地,所述针对每一类数据,运用对应的质量控制方法进行数据检验,还包括:
针对数据量大于预设数据量阈值的所述目标水利数据,当采用所述时变检验法对其进行检验,若得到的数据异常率低于预设的异常率阈值,则以该检验结果为最终检验结果;
针对数据量大于预设数据量阈值的所述目标水利数据,若采用所述格拉布斯检验法和所述莱茵达检验法分别对其进行检验,分别得到第一数据异常率和第二数据异常率,若所述第一数据异常率和所述第二数据异常率均小于预设的异常率阈值,并所述第一数据异常率和所述第二数据异常率的差异小于预设的第一差异阈值,则以所述莱茵达检验法检验得出的检验结果为最终检验结果;
针对数据量大于预设数据量阈值的所述目标水利数据,若采用所述时变检验法和所述格拉布斯检验法分别对其进行检验,分别得到第三数据异常率和第四数据异常率;若所述第三数据异常率和所述第四数据异常率的差异大于预设的第二差异阈值,则进一步采用所述莱茵达检验法和所述肖维勒检验法对其进行检验,分别得到第五数据异常率和第六数据异常率;若所述第五数据异常率和第六数据异常率的差异小于预设的第三差异阈值,则以所述莱茵达检验法或所述肖维勒检验法的检验结果作为最终检验结果;若所述第五数据异常率和第六数据异常率的差异大于所述预设的第三差异阈值,则采用所述空间一致性检验法对其进行检验,并以所述空间一致性检验法的检验结果作为最终检验结果。
优选地,所述对所述异常的数据进行复核,包括:
基于所述目标站点的历史水利数据,采用所述时变检验法对所述异常的数据进行复核,得到第一复核结果;
若所述第一复核结果的异常率低于预设的异常率阈值,则确定所述第一复核结果为最终检验结果;
若所述第一复核结果的异常率高于预设的异常率阈值,则基于所述相邻站点的水利数据,结合所述格拉布斯检验法和所述空间一致性检验法分别对所述异常的数据进行复核,分别得到第二复核结果和第三复核结果;
若所述第二复核结果和所述第三复核结果中的异常率差异小于预设的第四差异阈值,则确定所述第二复核结果或所述第三复核结果为最终检验结果;
若所述第二复核结果和所述第三复核结果中的异常率差异大于预设的第四差异阈值,则采用所述肖维勒检验法和所述莱茵达检验法对所述异常的数据进行复核,分别得到第四复核结果和第五复核结果;
若所述第四复核结果和所述第五复核结果中的异常率差异小于预设的第五差异阈值,则确定所述第四复核结果或所述第五复核结果为最终检验结果;
若所述第四复核结果和所述第五复核结果中的异常率差异大于预设的第五差异阈值,则确定所述第五复核结果为最终检验结果。
优选地,运用所述极值检验法对所述目标水利数据进行数据检验,包括:
判断所述目标水利数据是否超出期望数值范围;
若是,则确定所述目标水利数据为异常值;
其中,所述期望数值范围为根据所述目标水利数据的气候学界限和所述目标站点所在地的气候特点而设定。
优选地,运用所述时变检验法对所述目标水利数据进行检验,包括:
判断所述目标水利数据中的连续测量的数据的变化值是否超出预设的变化允许范围;
若是,则确定所述连续测量的数据均为异常值;
其中,所述预设的变化允许范围根据所述目标水利数据的属性信息及其所处的地区进行设定。
优选地,运用所述内部一致性检验法对所述目标水利数据进行检验,包括:
根据同一地区、同一时间所测的各类水利数据必须满足一致性原则,对所述目标水利数据进行一致性检验;
若所述目标水利数据不满足所述一致性原则,则确定所述目标水利数据为异常值。
优选地,运用所述莱茵达检验法对所述目标水利数据进行检验,包括:
定义所述目标水利数据为x,对第i次观测到的所述目标水利数据xi,若满足以下公式,则确定其为异常值:
Figure GDA0003336363150000051
其中,
Figure GDA0003336363150000052
为所述目标水利数据xi的真值,vi为所述目标水利数据x的残差,S的计算公式为:
Figure GDA0003336363150000053
其中,N为所述目标水利数据x的观测次数,
Figure GDA0003336363150000054
的计算公式为:
Figure GDA0003336363150000055
优选地,运用所述肖维勒检验法进行检验,包括:
在对所述目标水利数据的N次重复测量中,若出现一个概率等于或小于
Figure GDA0003336363150000056
的剩余误差,则认为所述目标水利数据为过失误差。
优选地,运用所述格拉布斯检验法对所述目标水利数据进行检验,包括:
对于所述目标水利数据,定义其测量数据分别为x1、x2、…、xn,对一潜在异常值xi,i∈1,2,…,n,构建统计量C,其中所述统计量C的计算公式为:
Figure GDA0003336363150000057
其中,
Figure GDA0003336363150000058
为所述目标水利数据的均值,标准差S的计算公式为:
Figure GDA0003336363150000059
其中,vi为所述目标水利数据x的残差;
将显著性水平α设定为0.05或0.01,计算临界值G(α,n),其中,G(α,n)的计算公式为:
Figure GDA0003336363150000061
Figure GDA0003336363150000062
则确定数据xi为异常值。
优选地,运用所述Cochran检验法对所述目标水利数据进行检验,包括:
对于所述目标水利数据,将其划分为L组数据,每一组数据的测量次数为n,各组对应的标准差分别为S1、S2、…、SL
将所述L个标准差S1、S2、…、SL从小到大进行排序,将最大值标记为Smax
计算统计量D,其中,所述统计量D的计算公式为:
Figure GDA0003336363150000063
将显著性水平α设定为0.05或0.01,根据所述显著性水平α、组数L以及所述测量次数n,计算出临界值Dα,其中,所述临界值Dα的计算公式为:
Figure GDA0003336363150000064
其中,FD为F分布的临界值;
若D>Dα,则判定Smax是异常值,确定Smax所对应的分组的数据存在异常值。
优选地,运用所述空间一致性检验法对所述目标水利数据进行检验,包括:
利用所述目标站点j的相邻站点中,同一时刻的所述目标水利数据的25%分位值、中值和75%分位值,计算出统计量Tjt
Tjt=(Xjt-Mt)/(qt,75-qt,25)
其中,Xjt为t时刻站点j的所述目标水利数据的值,Mt为N个相邻站点t时刻所述目标水利数据的中值,qt,75和qt,25分别为N个相邻站点t时刻所述目标水利数据的25%分位值和75%分位值;
根据所述统计量Tjt来判断站点j的所述目标水利数据是否异常。
优选地,运用所述Benford检验法对所述目标水利数据进行检验,包括:
将所述目标水利数据的数字分布规律与基于Benford法则的标准分布规律进行比较;
运用非参数统计中的x2检验法去估计每个数字出现的实际次数与期望次数之间分布的整体拟合程度;
根据所述拟合程度判断所述目标水利数据是否存在异常值。
经由上述的技术方案可知,与现有技术相比,本发明公开了一种水利海量数据的查错方法。对目标站点对应的目标水利数据进行分类,并为每一类水利数据确定了合适的质量控制方法对其进行数据检验,最后结合所述目标站点的历史水利数据,和/或所述目标站点的相邻站点的水利数据,对存在异常的数据进行复核,以此实现比较高效且可靠的检验,最终提高了水利数据的数据质量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明一实施例中水利海量数据的查错方法的流程图。
具体实施方式
为了引用和清楚起见,下文中使用的技术名词的说明、简写或缩写总结如下:
肖维勒准则:Chauvenet Criterion;
格拉布斯检验法:Grubbs。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明公开了一种水利海量数据的查错方法,如图1所述,本发明一实施例公开的水利海量数据的查错方法的过程主要包括以下步骤:
步骤S100,对目标站点的水利数据进行分类。
具体地,对目标站点对应的目标水利数据进行分类,得到分类后的各类数据。其中,对数据的分类最终目的是为各类数据寻求适配的质量控制方法,分类过程具体可依据数据属性、数据来源以及数据的获取途径等方式来进行。
步骤S200,根据每一类数据,确定与其对应的质量控制方法。
具体地,根据每一类数据的属性信息,确定与每一类数据对应的质量控制方法。其中,每一种质量控制方法都有一定的适用范围,针对各类数据采用相匹配的质量控制方法可提高数据检验的有效性及可靠性。
步骤S300,针对每一类数据,运用对应的质量控制方法进行数据检验。
具体地,针对每一类数据,运用对应的质量控制方法进行数据检验,得到检验结果。其中,所述检验结果可以包括数据是否存在异常以及异常值的分布情况。
步骤S400,对于检验出异常的数据,基于历史水利数据,和/或相邻站点的水利数据,对其进行复核。
具体地,基于所述检验结果,对于存在异常的数据,基于所述目标站点的历史水利数据,和/或所述目标站点的相邻站点的水利数据,对所述异常的数据进行复核。其中,数据复核是在异常值基础上考虑是否对其进一步采取保留、修正、剔除的处理方式,通过数据复核可以进一步提高数据检验的有效性。
通过对目标站点对应的目标水利数据进行上述检验流程,为每一类水利数据确定了合适的质量控制方法对其进行数据检验,最后结合所述目标站点的历史水利数据,和/或所述目标站点的相邻站点的水利数据,对存在异常的数据进行复核,以此实现比较高效且可靠的检验,最终提高了水利数据的数据质量。
在上述本发明实施例公开的技术方案的基础上,在一个可选的实施例中,对目标站点对应的目标水利数据进行分类的过程,可以包括以下步骤:
步骤S101,根据属性信息是否包含气象特有属性,将所述目标水利数据划分为气象型数据和通用型数据。
步骤S102,根据是否受人为影响,将所述目标水利数据划分为受人为影响数据和不受人为影响数据。
例如,水位、流量和水质数据受人工干预因素较大,可将其归类为受人为影响数据;而降雨量、蒸发量等水利要素受人工干预影响较小,可将其归类为不受人为影响数据。
步骤S103,根据空间分布是否具有均一性,将所述目标水利数据划分为空间分布均一性数据和空间分布非均一性数据。
其中,空间分布均一性是指在某一空间范围内,要素的空间分布符合特定规律,具备正相关特性。
例如,对于相邻站点的水利数据,如果降雨量数据序列的总水平、离散程度、不对称程度等特征较为相似,则从侧面上证明了该流域日降雨量的空间分布较为均一,各站点的降水规律相似。
步骤S104,根据变化规律是否稳定,将所述目标水利数据划分为稳定变化数据和跳动变化数据。
其中,可以用标准差来衡量数据的变化程度,标准差大于预设值的数据可认为是跳动变化的数据。
步骤S105,根据单位时间内的观测次数,将所述目标水利数据划分为第一观测频次数据和第二观测频次数据,其中,所述第一观测频次数据单位时间内的观测次数大于设定的频率阈值,所述第二观测频次数据单位时间内的观测次数少于所述设定的频率阈值。
通过上述的数据分类,为后续针对各类数据采用相适配的质量控制方法作好了准备。
在上述本发明实施例公开的技术方案的基础上,在一个可选的实施例中,所述质量控制方法可以包括通用型检验方法和气象型数据检验方法。
其中,所述通用型检验方法可以包括极值检验法、时变检验法、内部一致性检验法、莱茵达检验法、肖维勒检验法、格拉布斯检验法和Cochran检验法;所述气象型数据检验方法可以包括空间一致性检验法和Benford检验法。
以下对各种检验方法进行详细的介绍:
1)极值检验法依据的是水利气象要素都有一个极大值和一个极小值的特点,不同要素的极值可能取决于各个站点各个季节的水利气象条件。当实时观测数据超出极限,则认为该数据是异常的。
目前有两类极值:固定极值和动态极值。固定极值检验是将水利气象要素数据与公认的极值作比较,任何出现在可接受范围外的观测数据都认为是错误的,并且无需再进一步用其他方法检验。各个水利气象要素的动态极值是基于各个站点所测得的极值或者是各个站点在某时段内的理论极值。
2)时变检验法为基于时间一致性的质量控制方法,其主要比较连续测量值的变化值。如果变化值超过了允许范围,则这两个连续测量值都为异常值。其中的允许范围的确定要根据不同地区不同的要素的特点而定。
3)内部一致性检验法的基本思想是利用要素之间的关系进行检查,判断要素是否正确。在同一地点和时间所测的各类水利气象要素数据必须具有一致性;否则,不一致的两类观测值都是异常的。
4)莱因达检验法采用“莱因达”准则对数据进行检验,“莱因达”准则又称“3σ”准则,该方法主要依据在一般情况下,随机误差σ服从正态分布的规律来对数据进行检验。
5)肖维勒检验法采用肖维勒准则对数据进行检验。具体地,为了使判别准则与观测次数联系起来,肖维勒提出了一种适合于观测次数较少时判别过失误差的准则。他认为在N次重复测量中,若出现一个概率等于或小于
Figure GDA0003336363150000101
的剩余误差,则认为它是过失误差,下面对该方法进行详细说明。
设观测误差中仅含随机误差,其方差为σ2。根据高斯误差定理,可知绝对值不大于v(v>0)的剩余误差vσ出现的概率为
P(|vσ|≤v)=2Φ(z) (1)
其中,z的表达式为
Figure GDA0003336363150000102
v是过失误差vσ的界限值。则标准正态的概率积分Φ(z)可表示为
Figure GDA0003336363150000103
由(1)式可得小概率事件发生的概率为
P(|vσ|≥v)=1-2Φ(z) (4)
由于上面假设出现过失误差概率的界限值为
Figure GDA0003336363150000104
故有
Figure GDA0003336363150000105
或者
Figure GDA0003336363150000106
由(2)式和(6)式可以算出过失误差的界限值。具体地,由已知的N值和(6)式计算出Φ(z),再根据(3)式计算出对应的z值,并将此z值标记为zq。此时,在肖维勒准则中,zq被称作过失误差系数。由(2)式可以计算出过失误差的界限值v:
v=zqσ (7)
由(4)式可知,如果某剩余误差vσ的绝对值大于v,即
vσ>zqσ (8)
则认为此剩余误差为过失误差。
实际计算中剩余误差vi(i=1,2,…,N)是离散的,并用的标准差S代替σ。因此,实际应用中的过失误差判别式为
vi>zqS (9)
例如,若重复测量19次,得标准差S=0.06,由(6)式得Φ(z)=0.4868,从标准正态分布表可以查得对应的zq=2.22,因此过失误差界限v=0.13。
因此,凡是剩余误差的绝对值大于0.13的,都被认为是过失误差,即异常值。
在用肖维勒准则进行检验时,若已识别出某一测量值含有过失误差,再做进一步判别前,应先把它剔除,然后用剩下的观测数据重新计算剩余误差,用新的标准差和观测次数对数据作进一步检验。
此外肖维勒准则的可靠性与测量次数N有关,若N太小,其可靠性也较差。经验表明当N大于15时,此准则检验效果较好。
6)格拉布斯检验法是依据格拉布斯准则来对数据进行检验的方法。格拉布斯准则是根据顺序统计量的某种分布规律提出的一种判别标准。
具体地,设定一个正态独立测量的样本x1,x2,…,xn,对其中的一个异常数据xi(它与
Figure GDA0003336363150000111
的残差绝对值最大),构造统计量C为
Figure GDA0003336363150000112
式中
Figure GDA0003336363150000113
为样本的平均值,标准差S的计算公式为
Figure GDA0003336363150000114
格拉布斯导出了它的理论分布。
具体地,选定显著性水平α,α通常取0.05或0.01,求得按下式意义的临界值G(α,n):
Figure GDA0003336363150000115
Figure GDA0003336363150000116
则数据xi为异常值。
该方法是比较实用和精确的一种数据质量控制方法,对于小数据量的数据可以通过查表来确定G(α,n),而对于大数据量则可以用以下公式
Figure GDA0003336363150000121
其中,
Figure GDA0003336363150000122
为N-2自由度和
Figure GDA0003336363150000123
显著水平下,t分布的上临界值。对于单侧检验则用
Figure GDA0003336363150000124
代替
Figure GDA0003336363150000125
7)Cochran检验法具体计算方式为:假设有L组数据,每组测定n次,标准差S1、S2、…、SL都由公式(11)计算得到;
将L个标准差按大小顺序排列,最大值记为Smax
计算统计量D:
Figure GDA0003336363150000126
如果n=2,即每组只有两次测定时,各组内差值分别为R1,R2,…,RL,则要按如下公式计算D:
Figure GDA0003336363150000127
根据选定的显著水平α、组数L、测定次数n确定临界值Dα,可以用以下公式计算:
Figure GDA0003336363150000128
式中,FD为F分布的临界值。
若D>Dα,则判断Smax为异常值,其对应的那组数据异常或者当中存在异常值。
8)空间一致性检验法是Madsen-Allerup方法,Madsen-Allerup方法是Madsen和Allerup两人共同发展的一种空间质量控制方法,其基本原理是基于某一空间范围内要素的空间分布是均一的假设,利用周围若干台站同一时刻观测值的25%分位值、中值和75%分位值,计算统计量Tjt
Tjt=(Xjt-Mt)/(qt,75-qt,25) (17)
公式(17)中,Xjt是t时刻台站j的观测值,Mt是N个相邻站t时刻观测值的中值,qt,75和qt,25分别为N个相邻站点t时刻观测值的25%和75%分位值。其中,N的推荐值是12。
根据统计量Tjt来判断观测值是否异常,需要靠经验确定。例如,对于降水而言,当|Tjt|>2及Xjt>4时,则认为降水值太大;当qt,75-qt,25=0时(即周围台站降水均很小),若Xjt/∑Xjt>0.6且Xjt>4时,则认为要素记录日期有错。总而言之,符合这两种情况的观测值都应认为是异常值。
9)Benford检验法为采用Benford法则对数据进行检验的方法。研究表明,一堆从实际生活得出的数据中,首位数为小数字的可能性比大数字的可能性大,这就是著名的Benford法则,它可用于检查数据是否存在质量问题。美国国家标准与技术学会给出了Benford法则的定义:在不同种类的统计数字中,首位数字是数字d1的概率为:
P(D=d1)=lg(1+1/d1)d1=1,2,…,9 (18)
其中,首位数字是指左边的第一位非零有效数字。如数字123,1.23,0.123的首位数字均为1。
根据式(18),还可以推导出第二位数字为d2、第三位数字为d2的概率分别为
Figure GDA0003336363150000131
Figure GDA0003336363150000132
根据公式(18)~(20),可以直接计算出0~9出现的概率如下表所示。
表1:基于Benford法则的数字分布概率
数字 首位数 第2位数 第3位数 第4位数
0 0.11968 0.10178 0.10018
1 0.30103 0.11389 0.10138 0.10014
2 0.17609 0.10882 0.10097 0.10010
3 0.12494 0.10433 0.10057 0.10006
4 0.09691 0.10031 0.10018 0.10002
5 0.07918 0.09668 0.09979 0.09998
6 0.06695 0.09337 0.09940 0.09994
7 0.05799 0.09035 0.09902 0.09990
8 0.05115 0.08757 0.09864 0.09986
9 0.04576 0.08500 0.09827 0.09982
Benford法则被提出以后,在大量的应用领域得到推广,然而并非所有数据都遵循Benford法则。Nigrini提出用Benford法则进行分析的数据应该满足以下几个条件:a)数据量达到一定规模,能够代表所有样本;b)数据不能有人为限定的最大值和最小值;c)数据受人为的影响较小。
依据Benford法则理论,人为的误操作、测量错误等行为将破坏水利数据中的客观分布规律,使之出现异常。因此,将目标数据的数字分布规律与基于Benford法则的标准分布规律进行比较,然后运用非参数统计中的x2检验法去估计每个数字出现的实际次数与期望次数之间分布的整体拟合程度,从而验证水利数据的前i位数字的分布与Benford法则下的期望是否相符。通过分析比较挖掘出水利数据中的异常点,从而达到控制水利数据质量的目的。
在水利数据中,由于水位、流量和水质数据受人工干预因素较大,不适宜采用Benford法则对其进行挖掘分析。降雨量、蒸发量等水利要素受人工干预影响较小,可以应用该法则进行数据质量分析。
基于上述对数据质量控制方法的相关介绍,在一个可选的实施例中,所述针对每一类数据,运用对应的质量控制方法进行数据检验的过程,可以包括:
步骤S201,对于所述通用型数据,采用所述通用型检验方法对其进行检验。
步骤S202,对于所述气象型数据,采用所述通用型检验方法和/或所述气象型数据检验方法对其进行检验。
步骤S203,对于所述不受人为影响数据,采用所述Benford检验法对其进行检验。
步骤S204,对于所述受人为影响数据,采用非Benford检验法对其进行检验。
步骤S205,对于所述空间分布均一性数据,采用所述空间一致性检验法对其进行检验。
步骤S206,对于所述空间分布非均一性数据,采用非空间一致性检验法对其进行检验。
步骤S207,对于所述稳定变化数据,采用所述莱茵达检验法对其进行检验。
步骤S208,对于所述跳动变化数据,采用所述肖维勒检验法和/或所述格拉布斯检验法对其进行检验。
步骤S209,对于所述第一观测频次数据,将其进行分组,针对每一组数据采用Cochran检验法对其进行整体判断,检验出存在异常值的数据组,再采用所述莱茵达检验法对所述存在异常值的数据组进行检验,检验出具体的异常值。
步骤S210,对于所述第二观测频次数据,采用所述肖维勒检验法和/或所述格拉布斯检验法对其进行检验。
在对数据进行检验的过程中,根据应用对象、应用场景,可以采用一种或多种质量控制方法来确保数据检验的有效性。因此,在上述本发明实施例公开的技术方案的基础上,在一个可选的实施例中,所述针对每一类数据,运用对应的质量控制方法进行数据检验的过程,还可以包括:
步骤S301,针对数据量大于预设数据量阈值的所述目标水利数据,当采用所述时变检验法对其进行检验时,若得到的数据异常率低于预设的异常率阈值,则以该检验结果为最终检验结果。
步骤S302,针对数据量大于预设数据量阈值的所述目标水利数据,若采用所述格拉布斯检验法和所述莱茵达检验法分别对其进行检验,分别得到第一数据异常率和第二数据异常率,若所述第一数据异常率和所述第二数据异常率均小于预设的异常率阈值,并所述第一数据异常率和所述第二数据异常率的差异小于预设的第一差异阈值,则以所述莱茵达检验法检验得出的检验结果为最终检验结果。
步骤S303,针对数据量大于预设数据量阈值的所述目标水利数据,若采用所述时变检验法和所述格拉布斯检验法分别对其进行检验,分别得到第三数据异常率和第四数据异常率;若所述第三数据异常率和所述第四数据异常率的差异大于预设的第二差异阈值,则进一步采用所述莱茵达检验法和所述肖维勒检验法对其进行检验,分别得到第五数据异常率和第六数据异常率;若所述第五数据异常率和第六数据异常率的差异小于预设的第三差异阈值,则以所述莱茵达检验法或所述肖维勒检验法的检验结果作为最终检验结果;若所述第五数据异常率和第六数据异常率的差异大于所述预设的第三差异阈值,则采用所述空间一致性检验法对其进行检验,并以所述空间一致性检验法的检验结果作为最终检验结果。
经过上述过程对数据进行检验后,为进一步确保检验结果的准确性,在上述本发明实施例公开的技术方案的基础上,在一个可选的实施例中,所述对所述异常的数据进行复核的过程,可以包括:
步骤S401,基于所述目标站点的历史水利数据,采用所述时变检验法对所述异常的数据进行复核,得到第一复核结果。
步骤S402,若所述第一复核结果的异常率低于预设的异常率阈值,则确定所述第一复核结果为最终检验结果。
步骤S403,若所述第一复核结果的异常率高于预设的异常率阈值,则基于所述相邻站点的水利数据,结合所述格拉布斯检验法和所述空间一致性检验法分别对所述异常的数据进行复核,分别得到第二复核结果和第三复核结果。
步骤S404,若所述第二复核结果和所述第三复核结果中的异常率差异小于预设的第四差异阈值,则确定所述第二复核结果或所述第三复核结果为最终检验结果。
步骤S405,若所述第二复核结果和所述第三复核结果中的异常率差异大于预设的第四差异阈值,则采用所述肖维勒检验法和所述莱茵达检验法对所述异常的数据进行复核,分别得到第四复核结果和第五复核结果。
步骤S406,若所述第四复核结果和所述第五复核结果中的异常率差异小于预设的第五差异阈值,则确定所述第四复核结果或所述第五复核结果为最终检验结果。
步骤S407,若所述第四复核结果和所述第五复核结果中的异常率差异大于预设的第五差异阈值,则确定所述第五复核结果为最终检验结果。
例如,水利数据序列中的异常值若出现超出气候学界限值情况,或者流域片区内的各站点的水利数据序列的异常点范围、总水平、离散程度、不对称程度特征差异较大,则认为数值可疑,然后通过与历史记录的数据、相关报告记录的数据或相邻站点记录的数据对比,判断异常值合理情况,最后确定对数值进行修正或保留。
在本申请的一些可选实施例中,对上述运用各种检验方法对目标水利数据进行数据检验的过程分别进行介绍。
1)运用极值检验法对目标水利数据进行数据检验的过程,可以包括:
判断所述目标水利数据是否超出期望数值范围;
若是,则确定所述目标水利数据为异常值;
其中,所述期望数值范围为根据所述目标水利数据的气候学界限和所述目标站点所在地的气候特点而设定。
例如,对于极值检验和时变检验法,根据广东省气候特点,3~9月份为夏半年,全年的降水大部分集中在这个区间,夏半年的月降水量不会出现0值,即当夏半年月降水量等于0时,认为该值为异常值;若长时间内数值为0,而且出现时间不符合地区气候特点,可判断该值为异常值。
2)运用所述时变检验法对所述目标水利数据进行检验的过程,可以包括:
判断所述目标水利数据中的连续测量的数据的变化值是否超出预设的变化允许范围;
若是,则确定所述连续测量的数据均为异常值;
其中,所述预设的变化允许范围根据所述目标水利数据的属性信息及其所处的地区进行设定。
例如,根据广东省区域的气象特点,连续2个月以上全月降水量为0mm时,认为观测仪器出现问题,即此时观测值为异常值。
3)运用所述内部一致性检验法对所述目标水利数据进行检验的过程,可以包括:
根据同一地区、同一时间所测的各类水利数据必须满足一致性原则,对所述目标水利数据进行一致性检验;
若所述目标水利数据不满足所述一致性原则,则确定所述目标水利数据为异常值。
例如,例如,对于气象数据来说,应该满足内部一致性条件,可用数学式表示为:
日最高气温≥当日各时次气温≥日最低气温;
日最高气压≥当日各时次气压≥日最低气压;
当日各时次相对湿度≥日最小相对湿度;
日最大风速≥10min平均风速;
最大风速≤极大风速;
瞬时风速≤极大风速;
风向方位为静风,即为“C”时,风速≤0.2m/s。
4)运用所述莱茵达检验法对所述目标水利数据进行检验的过程,可以包括:
定义所述目标水利数据为x,对第i次观测到的所述目标水利数据xi,若满足以下公式,则确定其为异常值:
Figure GDA0003336363150000181
其中,
Figure GDA0003336363150000182
为所述目标水利数据xi的真值,vi为所述目标水利数据x的残差,S的计算公式为:
Figure GDA0003336363150000183
其中,N为所述目标水利数据x的观测次数,
Figure GDA0003336363150000184
的计算公式为:
Figure GDA0003336363150000185
5)运用所述肖维勒检验法进行检验的过程,可以包括:
在对所述目标水利数据的N次重复测量中,若出现一个概率等于或小于
Figure GDA0003336363150000186
的剩余误差,则认为所述目标水利数据为过失误差。
6)运用所述格拉布斯检验法对所述目标水利数据进行检验的过程,可以包括:
对于所述目标水利数据,定义其测量数据分别为x1、x2、…、xn,对一潜在异常值xi,i∈1,2,…,n,构建统计量C,其中所述统计量C的计算公式为:
Figure GDA0003336363150000187
其中,
Figure GDA0003336363150000188
为所述目标水利数据的均值,标准差S的计算公式为:
Figure GDA0003336363150000189
其中,vi为所述目标水利数据x的残差;
将显著性水平α设定为0.05或0.01,计算临界值G(α,n),其中,G(α,n)的计算公式为:
Figure GDA00033363631500001810
Figure GDA00033363631500001811
则确定数据xi为异常值。
7)运用所述Cochran检验法对所述目标水利数据进行检验的过程,可以包括:
对于所述目标水利数据,将其划分为L组数据,每一组数据的测量次数为n,各组对应的标准差分别为S1、S2、…、SL
将L个标准差S1、S2、…、SL从小到大进行排序,将最大值标记为Smax
计算统计量D,其中,所述统计量D的计算公式为:
Figure GDA0003336363150000191
将显著性水平α设定为0.05或0.01,根据所述显著性水平α、组数L以及所述测量次数n,计算出临界值Dα,其中,所述临界值Dα的计算公式为:
Figure GDA0003336363150000192
其中,FD为F分布的临界值;
若D>Dα,则判定Smax是异常值,确定Smax所对应的分组的数据存在异常值。
8)运用所述空间一致性检验法对所述目标水利数据进行检验的过程,可以包括:
利用所述目标站点j的相邻站点中,同一时刻的所述目标水利数据的25%分位值、中值和75%分位值,计算出统计量Tjt
Tjt=(Xjt-Mt)/(qt,75-qt,25) (29)
其中,Xjt为t时刻站点j的所述目标水利数据的值,Mt为N个相邻站点t时刻所述目标水利数据的中值,qt,75和qt,25分别为N个相邻站点t时刻所述目标水利数据的25%分位值和75%分位值;
根据所述统计量Tjt来判断站点j的所述目标水利数据是否异常。
9)运用所述Benford检验法对所述目标水利数据进行检验的过程,可以包括:
将所述目标水利数据的数字分布规律与基于Benford法则的标准分布规律进行比较;
运用非参数统计中的x2检验法去估计每个数字出现的实际次数与期望次数之间分布的整体拟合程度;
根据所述拟合程度判断所述目标水利数据是否存在异常值。
综上所述:
通过上述本发明公开的实施例中的记载,对水利数据进行了分类,探讨了水利数据质量控制的一般过程,选取了可用于水利数据质量控制的数据质量控制方法,不同类型的水利数据采取不同的数据质量控制方法,可以在海量水利数据中判别观测值是否异常,得出异常值及其分布情况。进一步地,采用多种数据质量控制方法的结合对存在异常的数据进行复核,提高了数据检验的可靠性与有效性,保证了水利数据的质量。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间可以根据需要进行组合,且相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (12)

1.一种水利海量数据的查错方法,其特征在于,包括:
对目标站点对应的目标水利数据进行分类,得到分类后的各类数据;
根据每一类数据的属性信息,确定与每一类数据对应的质量控制方法;
针对每一类数据,运用对应的质量控制方法进行数据检验,得到检验结果,所述检验结果包括数据是否存在异常;
基于所述检验结果,对于存在异常的数据,基于所述目标站点的历史水利数据,和/或所述目标站点的相邻站点的水利数据,对所述异常的数据进行复核;
所述对目标站点对应的目标水利数据进行分类,包括:
根据属性信息是否包含气象特有属性,将所述目标水利数据划分为气象型数据和通用型数据;
根据是否受人为影响,将所述目标水利数据划分为受人为影响数据和不受人为影响数据;
根据空间分布是否具有均一性,将所述目标水利数据划分为空间分布均一性数据和空间分布非均一性数据;
根据变化规律是否稳定,将所述目标水利数据划分为稳定变化数据和跳动变化数据;
根据单位时间内的观测次数,将所述目标水利数据划分为第一观测频次数据和第二观测频次数据,其中,所述第一观测频次数据单位时间内的观测次数大于设定的频率阈值,所述第二观测频次数据单位时间内的观测次数少于所述设定的频率阈值;
所述质量控制方法包括通用型检验方法和气象型数据检验方法;
所述通用型检验方法包括极值检验法、时变检验法、内部一致性检验法、莱茵达检验法、肖维勒检验法、格拉布斯检验法和Cochran检验法;
所述气象型数据检验方法包括空间一致性检验法和Benford检验法;
所述针对每一类数据,运用对应的质量控制方法进行数据检验,包括:
对于所述通用型数据,采用所述通用型检验方法对其进行检验;
对于所述气象型数据,采用所述通用型检验方法和/或所述气象型数据检验方法对其进行检验;
对于所述不受人为影响数据,采用所述Benford检验法对其进行检验;
对于所述受人为影响数据,采用非Benford检验法对其进行检验;
对于所述空间分布均一性数据,采用所述空间一致性检验法对其进行检验;
对于所述空间分布非均一性数据,采用非空间一致性检验法对其进行检验;
对于所述稳定变化数据,采用所述莱茵达检验法对其进行检验;
对于所述跳动变化数据,采用所述肖维勒检验法和/或所述格拉布斯检验法对其进行检验;
对于所述第一观测频次数据,将其进行分组,针对每一组数据采用Cochran检验法对其进行整体判断,检验出存在异常值的数据组,再采用所述莱茵达检验法对所述存在异常值的数据组进行检验,检验出具体的异常值;
对于所述第二观测频次数据,采用所述肖维勒检验法和/或所述格拉布斯检验法对其进行检验。
2.根据权利要求1所述的方法,其特征在于,所述针对每一类数据,运用对应的质量控制方法进行数据检验,还包括:
针对数据量大于预设数据量阈值的所述目标水利数据,当采用所述时变检验法对其进行检验,若得到的数据异常率低于预设的异常率阈值,则以该检验结果为最终检验结果;
针对数据量大于预设数据量阈值的所述目标水利数据,若采用所述格拉布斯检验法和所述莱茵达检验法分别对其进行检验,分别得到第一数据异常率和第二数据异常率,若所述第一数据异常率和所述第二数据异常率均小于预设的异常率阈值,并所述第一数据异常率和所述第二数据异常率的差异小于预设的第一差异阈值,则以所述莱茵达检验法检验得出的检验结果为最终检验结果;
针对数据量大于预设数据量阈值的所述目标水利数据,若采用所述时变检验法和所述格拉布斯检验法分别对其进行检验,分别得到第三数据异常率和第四数据异常率;若所述第三数据异常率和所述第四数据异常率的差异大于预设的第二差异阈值,则进一步采用所述莱茵达检验法和所述肖维勒检验法对其进行检验,分别得到第五数据异常率和第六数据异常率;若所述第五数据异常率和所述第六数据异常率的差异小于预设的第三差异阈值,则以所述莱茵达检验法或所述肖维勒检验法的检验结果作为最终检验结果;若所述第五数据异常率和所述第六数据异常率的差异大于所述预设的第三差异阈值,则采用所述空间一致性检验法对其进行检验,并以所述空间一致性检验法的检验结果作为最终检验结果。
3.根据权利要求1所述的方法,其特征在于,所述对所述异常的数据进行复核,包括:
基于所述目标站点的历史水利数据,采用所述时变检验法对所述异常的数据进行复核,得到第一复核结果;
若所述第一复核结果的异常率低于预设的异常率阈值,则确定所述第一复核结果为最终检验结果;
若所述第一复核结果的异常率高于预设的异常率阈值,则基于所述相邻站点的水利数据,结合所述格拉布斯检验法和所述空间一致性检验法分别对所述异常的数据进行复核,分别得到第二复核结果和第三复核结果;
若所述第二复核结果和所述第三复核结果中的异常率差异小于预设的第四差异阈值,则确定所述第二复核结果或所述第三复核结果为最终检验结果;
若所述第二复核结果和所述第三复核结果中的异常率差异大于预设的第四差异阈值,则采用所述肖维勒检验法和所述莱茵达检验法对所述异常的数据进行复核,分别得到第四复核结果和第五复核结果;
若所述第四复核结果和所述第五复核结果中的异常率差异小于预设的第五差异阈值,则确定所述第四复核结果或所述第五复核结果为最终检验结果;
若所述第四复核结果和所述第五复核结果中的异常率差异大于预设的第五差异阈值,则确定所述第五复核结果为最终检验结果。
4.根据权利要求1所述的方法,其特征在于,运用所述极值检验法对所述目标水利数据进行数据检验,包括:
判断所述目标水利数据是否超出期望数值范围;
若是,则确定所述目标水利数据为异常值;
其中,所述期望数值范围为根据所述目标水利数据的气候学界限和所述目标站点所在地的气候特点而设定。
5.根据权利要求1所述的方法,其特征在于,运用所述时变检验法对所述目标水利数据进行检验,包括:
判断所述目标水利数据中的连续测量的数据的变化值是否超出预设的变化允许范围;
若是,则确定所述连续测量的数据均为异常值;
其中,所述预设的变化允许范围根据所述目标水利数据的属性信息及其所处的地区进行设定。
6.根据权利要求1所述的方法,其特征在于,运用所述内部一致性检验法对所述目标水利数据进行检验,包括:
根据同一地区、同一时间所测的各类水利数据必须满足一致性原则,对所述目标水利数据进行一致性检验;
若所述目标水利数据不满足所述一致性原则,则确定所述目标水利数据为异常值。
7.根据权利要求1所述的方法,其特征在于,运用所述莱茵达检验法对所述目标水利数据进行检验,包括:
定义所述目标水利数据为x,对第i次观测到的所述目标水利数据xi,若满足以下公式,则确定其为异常值:
Figure FDA0003336363140000041
其中,
Figure FDA0003336363140000042
为所述目标水利数据xi的真值,vi为所述目标水利数据x的残差,S的计算公式为:
Figure FDA0003336363140000043
其中,N为所述目标水利数据x的观测次数,
Figure FDA0003336363140000044
的计算公式为:
Figure FDA0003336363140000045
8.根据权利要求1所述的方法,其特征在于,运用所述肖维勒检验法进行检验,包括:
在对所述目标水利数据的N次重复测量中,若出现一个概率等于或小于
Figure FDA0003336363140000046
的剩余误差,则认为所述目标水利数据为过失误差。
9.根据权利要求1所述的方法,其特征在于,运用所述格拉布斯检验法对所述目标水利数据进行检验,包括:
对于所述目标水利数据,定义其测量数据分别为x1、x2、…、xn,对一潜在异常值xi,i∈1,2,…,n,构建统计量C,其中所述统计量C的计算公式为:
Figure FDA0003336363140000051
其中,
Figure FDA0003336363140000052
为所述目标水利数据的均值,标准差S的计算公式为:
Figure FDA0003336363140000053
其中,vi为所述目标水利数据x的残差;
将显著性水平α设定为0.05或0.01,计算临界值G(α,n),其中,G(α,n)的计算公式为:
Figure FDA0003336363140000054
Figure FDA0003336363140000055
则确定数据xi为异常值。
10.根据权利要求1所述的方法,其特征在于,运用所述Cochran检验法对所述目标水利数据进行检验,包括:
对于所述目标水利数据,将其划分为L组数据,每一组数据的测量次数为n,各组对应的标准差分别为S1、S2、…、SL
将L个标准差S1、S2、…、SL从小到大进行排序,将最大值标记为Smax
计算统计量D,其中,所述统计量D的计算公式为:
Figure FDA0003336363140000056
将显著性水平α设定为0.05或0.01,根据所述显著性水平α、组数L以及所述测量次数n,计算出临界值Dα,其中,所述临界值Dα的计算公式为:
Figure FDA0003336363140000057
其中,FD为F分布的临界值;
若D>Dα,则判定Smax是异常值,确定Smax所对应的分组的数据存在异常值。
11.根据权利要求1所述的方法,其特征在于,运用所述空间一致性检验法对所述目标水利数据进行检验,包括:
利用所述目标站点j的相邻站点中,同一时刻的所述目标水利数据的25%分位值、中值和75%分位值,计算出统计量Tjt
Tjt=(Xjt-Mt)/(qt,75-qt,25)
其中,Xjt为t时刻站点j的所述目标水利数据的值,Mt为N个相邻站点t时刻所述目标水利数据的中值,qt,75和qt,25分别为N个相邻站点t时刻所述目标水利数据的25%分位值和75%分位值;
根据所述统计量Tjt来判断站点j的所述目标水利数据是否异常。
12.根据权利要求1所述的方法,其特征在于,运用所述Benford检验法对所述目标水利数据进行检验,包括:
将所述目标水利数据的数字分布规律与基于Benford法则的标准分布规律进行比较;
运用非参数统计中的x2检验法去估计每个数字出现的实际次数与期望次数之间分布的整体拟合程度;
根据所述拟合程度判断所述目标水利数据是否存在异常值。
CN202110523475.9A 2021-05-13 2021-05-13 一种水利海量数据的查错方法 Active CN113157684B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110523475.9A CN113157684B (zh) 2021-05-13 2021-05-13 一种水利海量数据的查错方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110523475.9A CN113157684B (zh) 2021-05-13 2021-05-13 一种水利海量数据的查错方法

Publications (2)

Publication Number Publication Date
CN113157684A CN113157684A (zh) 2021-07-23
CN113157684B true CN113157684B (zh) 2021-12-10

Family

ID=76875275

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110523475.9A Active CN113157684B (zh) 2021-05-13 2021-05-13 一种水利海量数据的查错方法

Country Status (1)

Country Link
CN (1) CN113157684B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116167659B (zh) * 2023-02-16 2023-12-01 北京理工大学 一种碳市场碳排放数据质量评价方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108520267A (zh) * 2018-03-06 2018-09-11 河海大学 一种基于时空特征的水文遥测数据异常检测方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010041447A1 (ja) * 2008-10-09 2010-04-15 日本電気株式会社 異常検知システム、異常検知方法及び異常検知プログラム記録媒体
CN106709242B (zh) * 2016-12-07 2018-12-07 常州大学 一种鉴别污水监测数据真伪的方法
CN108205432B (zh) * 2016-12-16 2020-08-21 中国航天科工飞航技术研究院 一种观测实验数据异常值的实时剔除方法
CN107862338B (zh) * 2017-11-11 2021-07-02 四创科技有限公司 基于双检验法的海洋环境监测数据质量管理方法及系统
CN110737874B (zh) * 2019-09-02 2021-04-20 中国科学院地理科学与资源研究所 一种基于空间关系的流域水质监测异常值检测方法
CN111275307B (zh) * 2020-01-16 2023-09-05 生态环境部华南环境科学研究所 一种水质自动在线站高频连续观测数据质量控制方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108520267A (zh) * 2018-03-06 2018-09-11 河海大学 一种基于时空特征的水文遥测数据异常检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
海洋水文气象实时数据质量控制;李学坤等;《海洋预报》;19970831;第14卷(第3期);第[71]-[79]页 *

Also Published As

Publication number Publication date
CN113157684A (zh) 2021-07-23

Similar Documents

Publication Publication Date Title
Bárdossy et al. The use of personal weather station observation for improving precipitation estimation and interpolation
Peña-Arancibia et al. Streamflow rating uncertainty: Characterisation and impacts on model calibration and performance
KR101908865B1 (ko) 기온 측정 자료의 품질 분석방법
CN111104736B (zh) 基于时间序列的异常数据检测方法、装置、介质和设备
CN113095694B (zh) 一种适用于多地貌类型区的降雨输沙模型构建方法
CN114004137A (zh) 一种多源气象数据融合与预处理方法
CN113157684B (zh) 一种水利海量数据的查错方法
CN117371337B (zh) 一种基于数字孪生的水利模型构建方法及系统
KR20220093597A (ko) IoT기반 도시기상관측자료의 품질검사 시스템
Chen et al. Quality control and bias adjustment of crowdsourced wind speed observations
Sciuto et al. Quality control of daily rainfall data with neural networks
CN107403004B (zh) 一种基于地形数据的遥测雨量站点可疑数值检验方法
CN115854999A (zh) 基于场景自适应的h-adcp断面平均流速自校正方法
Tsakiris et al. Regional drought identification and assessment. Case study in Crete
CN116716927A (zh) 塔基监测方法、装置、计算机设备、存储介质和产品
CN113095579B (zh) 一种耦合伯努利-伽马-高斯分布的日尺度降水预报校正方法
CN111914424B (zh) 一种基于短期测风资料的设计风速取值方法及系统
CN115545112B (zh) 一种大量地下水实时自动监测数据自动识别和处理的方法
CN112567241A (zh) 环境传感器协同校准方法
CN113742929A (zh) 一种针对格点气象实况的数据质量评价方法
CN113836813A (zh) 一种基于数据分析的高炉风口漏水检测方法
CN112783885A (zh) 光伏出力数据异常值的剔除方法
CN112785847A (zh) 立交基本段通行能力评估模型建模方法
CN116226606B (zh) 无人值守自动气象站雨量数据质控方法及系统
CN114295778B (zh) 一种基于火电厂烟气排放质量评价方法及评价系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
OL01 Intention to license declared