CN113961548B - 用水量时序数据的异常值处理方法和异常值处理装置 - Google Patents

用水量时序数据的异常值处理方法和异常值处理装置 Download PDF

Info

Publication number
CN113961548B
CN113961548B CN202111103810.6A CN202111103810A CN113961548B CN 113961548 B CN113961548 B CN 113961548B CN 202111103810 A CN202111103810 A CN 202111103810A CN 113961548 B CN113961548 B CN 113961548B
Authority
CN
China
Prior art keywords
data
value
data set
trend
term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111103810.6A
Other languages
English (en)
Other versions
CN113961548A (zh
Inventor
杜红艳
贾福凯
王若冰
王潇茵
师博雅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aerospace Hongkang Intelligent Technology Beijing Co ltd
Original Assignee
Aerospace Hongkang Intelligent Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aerospace Hongkang Intelligent Technology Beijing Co ltd filed Critical Aerospace Hongkang Intelligent Technology Beijing Co ltd
Priority to CN202111103810.6A priority Critical patent/CN113961548B/zh
Publication of CN113961548A publication Critical patent/CN113961548A/zh
Application granted granted Critical
Publication of CN113961548B publication Critical patent/CN113961548B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/06Electricity, gas or water supply

Abstract

公开用水量时序数据的异常值处理方法和异常值处理装置,所述异常值处理方法包括:检测所述用水量时序数据中的第一类型的异常值,并对所述第一类型的异常值进行第一校正,从而获得经过第一校正的用水量时序数据作为第一数据集;将所述第一数据集分解为趋势项数据、周期项数据和残余项数据,基于趋势项数据、周期项数据和残余项数据,确定第一数据集中的第二类型的异常值,并对第二类型的异常值进行第二校正,从而获得经过第二校正的第一数据集作为第二数据集;基于所述第二数据集中的各个异常值时刻的数据及其相邻数据,对所述第二数据集中的各个异常值时刻的数据进行校正。该异常值处理方法能够准确和快速地对用水量时序数据的异常值进行校正。

Description

用水量时序数据的异常值处理方法和异常值处理装置
技术领域
本公开总体说来涉及大数据技术领域,更具体地讲,涉及一种用水量时序数据的异常值处理方法和异常值处理装置。
背景技术
随着互联网和物联网等技术的发展,大数据技术被广泛应用到各行各业,例如水资源、交通、气象和电力等行业。为了保证数据的完备性和真实性,需要对数据的异常值进行检测和校正等方面的处理。对于数据的异常值处理,其难点在于,数据的采集、传输和汇聚等过程十分复杂,很容易造成数据错误,例如数据缺失等。此外,对于同时具有一定规律性、周期性和随机性的时间序列数据,进行处理的关键在于有效地挖掘规律、检测异常并校正数据。
根据异常数据的特点,数据的异常值可分为异常大值、异常小值、零值、负值和缺失值等类型。其中,零值和负值的成因复杂,需要筛选出来进行人工鉴别,在鉴别数据中的零值和负值是否是异常值时,需结合数据的实际情况来判定;异常大值和异常小值是区别于数据正常规律的值,不是简单的在某一阈值之外的数据,因为对于正常范围内的数据,如果与邻近时刻的数据规律不一致,也应该判断为异常值;缺失值一般是由客体异常造成的,若对缺失值只进行简单的删除或置零处理,则会对缺失值邻近时刻的数据准确性造成影响,因此需要对此类异常值进行校正。
数据中直观可辨识的异常值是可以由数值的变化幅度或统计曲线趋势直接获得的异常数据。对于监控系统的数据状态,直观可辨识的异常数据如下:①数值连续为零;②数值连续不变;③数值突变过大、过低或为零。
需要说明的是,仅仅依靠数据特征来检测异常值往往都有不全面性,存在误报的情况。对于取水数据来说,基于数据特征只能找出“疑似异常值”,还需要结合取水点的其它信息以及专家知识来进行准确性判断。因此,仅从数据特征分析层面得到的“疑似异常值”,与实际异常值存在一定差异。
在用水量时序数据的异常值处理方面,现有方法常常使用已有的经典算法,例如小波变换和EMD等,这些已有的经典算法对于非线性数据的特征获取能力不足,在考虑数据的趋势性、周期性和随机性时,难以对数据进行恰当的拟合;或者使用复杂算法,例如粒子群算法和神经网络等,这些复杂算法虽然能够拟合数据特征,但是数据处理的复杂度较高,在结合实时数据的复杂特征时,难以对数据进行快速的处理。
发明内容
本公开基于对数据的趋势性、周期性以及随机性进行分析,提供一种用水量时序数据的异常值处理方法和异常值处理装置,从而准确和快速地对用水量时序数据的异常值进行处理。
在一个总的方面,提供一种用水量时序数据的异常值处理方法,所述异常值处理方法包括:检测所述用水量时序数据中的第一类型的异常值,并对所述第一类型的异常值进行第一校正,从而获得经过第一校正的所述用水量时序数据作为第一数据集;将所述第一数据集分解为趋势项数据、周期项数据和残余项数据,基于所述趋势项数据、周期项数据和残余项数据,确定所述第一数据集中的第二类型的异常值,并对所述第二类型的异常值进行第二校正,从而获得经过第二校正的所述第一数据集作为第二数据集;基于所述第二数据集中的各个异常值时刻的数据及其相邻数据,对所述第二数据集中的各个异常值时刻的数据进行校正,其中,所述异常值时刻反映所述第一类型的异常值在所述用水量时序数据中的位置以及所述第二类型的异常值在所述第一数据集中的位置。
可选地,检测所述用水量时序数据中的第一类型的异常值的步骤包括:确定所述用水量时序数据中的零值和缺失值;基于所述用水量时序数据中除了所述零值和所述缺失值之外的数据,计算所述用水量时序数据的均值和标准差;基于所述用水量时序数据的均值和标准差,利用拉伊达准则确定所述用水量时序数据中的异常大值和异常小值;将所述用水量时序数据中的所述零值、缺失值、异常大值和异常小值确定为所述第一类型的异常值。
可选地,所述第一校正包括:将所述第一类型的异常值替换为所述用水量时序数据的均值;以及所述第二校正包括:将所述第二类型的异常值替换为所述用水量时序数据的均值。
可选地,将所述第一数据集分解为趋势项数据、周期项数据和残余项数据的步骤包括:针对每个时刻中的任意一个时刻,基于所述第一数据集中与所述任意一个时刻相邻的多个数据,计算所述任意一个时刻的趋势项值;基于所述第一数据集的每个时刻的所述趋势项值,确定所述趋势项数据。
可选地,将所述第一数据集分解为趋势项数据、周期项数据和残余项数据的步骤还包括:从所述第一数据集剔除所述趋势项数据,得到第三数据集;基于所述第三数据集,计算任意一个预设周期的周期项数据,其中,所述第三数据集的整个时间序列包括多个预设周期;通过将所述任意一个预设周期的周期项数据在所述第三数据集的整个时间序列上迭代复制,得到所述周期项数据,其中,通过以下等式计算所述任意一个预设周期内的每个时刻t的周期项值
Figure 157732DEST_PATH_IMAGE001
Figure 573539DEST_PATH_IMAGE002
Figure 729713DEST_PATH_IMAGE003
Figure 464451DEST_PATH_IMAGE004
其中,所述任意一个预设周期的长度为C,第三数据集的完整周期数为N,且
Figure 73287DEST_PATH_IMAGE005
len表示时间序列的长度,[ ]表示取整操作,
Figure 682998DEST_PATH_IMAGE006
Figure 693679DEST_PATH_IMAGE007
表示时刻t在所述任意一个预设周期的位置,且
Figure 537001DEST_PATH_IMAGE008
,%表示时刻t对所述任意一个预设周期的长度C取余,V表示周期项数据的偏移值,
Figure 570816DEST_PATH_IMAGE009
表示第三数据集
Figure 16841DEST_PATH_IMAGE010
在位置
Figure 583826DEST_PATH_IMAGE007
的数据的均值;其中,基于所述任意一个预设周期内的每个时刻的所述周期项值,确定所述任意一个预设周期的周期项数据。
可选地,将所述第一数据集分解为趋势项数据、周期项数据和残余项数据的步骤还包括:从所述第一数据集剔除所述趋势项数据和所述周期项数据,得到所述残余项数据。
可选地,基于所述趋势项数据、周期项数据和残余项数据,确定所述第一数据集中的第二类型的异常值的步骤包括:基于所述趋势项数据和所述周期项数据,确定所述用水量时序数据的数据趋势序列;基于所述残余项数据针对所述数据趋势序列的偏离程度,确定所述第一数据集中的第二类型的异常值。
可选地,基于所述残余项数据针对所述数据趋势序列的偏离程度,确定所述第一数据集中的第二类型的异常值的步骤包括:针对每个时刻,计算所述残余项数据与所述数据趋势序列的偏差比率;当任意一个时刻的所述残余项数据与所述数据趋势序列的偏差比率大于预设阈值时,将所述第一数据集中的该时刻的数据确定为所述第二类型的异常值。
可选地,基于所述第二数据集中的各个异常值时刻的相邻数据,对所述第二数据集中的各个异常值时刻的数据进行校正的步骤包括:针对任意一个异常值时刻,基于所述第二数据集中的所述任意一个异常值时刻的数据及其相邻数据,计算所述任意一个异常值时刻的趋势项修正值和残余项修正值;基于所述任意一个异常值时刻的趋势项修正值和残余项修正值以及周期项值,计算所述任意一个异常值时刻的修正值;通过将所述第二数据集中的各个异常值时刻的数据替换为所述修正值,对所述第二数据集中的各个异常值时刻的数据进行校正。
在另一总的方面,提供一种用水量时序数据的异常值处理装置,所述异常值处理装置包括:数据检测单元,被配置为检测所述用水量时序数据中的第一类型的异常值,并对所述第一类型的异常值进行第一校正,从而获得经过第一校正的所述用水量时序数据作为第一数据集;数据分解单元,被配置为将所述第一数据集分解为趋势项数据、周期项数据和残余项数据,基于所述趋势项数据、周期项数据和残余项数据,确定所述第一数据集中的第二类型的异常值,并对所述第二类型的异常值进行第二校正,从而获得经过第二校正的所述第一数据集作为第二数据集;数据校正单元,被配置为基于所述第二数据集中的各个异常值时刻的数据及其相邻数据,对所述第二数据集中的各个异常值时刻的数据进行校正,其中,所述异常值时刻反映所述第一类型的异常值在所述用水量时序数据中的位置以及所述第二类型的异常值在所述第一数据集中的位置。
可选地,数据检测单元被配置为:确定所述用水量时序数据中的零值和缺失值;基于所述用水量时序数据中除了所述零值和所述缺失值之外的数据,计算所述用水量时序数据的均值和标准差;基于所述用水量时序数据的均值和标准差,利用拉伊达准则确定所述用水量时序数据中的异常大值和异常小值;将所述用水量时序数据中的所述零值、缺失值、异常大值和异常小值确定为所述第一类型的异常值。
可选地,所述第一校正包括:将所述第一类型的异常值替换为所述用水量时序数据的均值;以及所述第二校正包括:将所述第二类型的异常值替换为所述用水量时序数据的均值。
可选地,数据分解单元被配置为:针对每个时刻中的任意一个时刻,基于所述第一数据集中与所述任意一个时刻相邻的多个数据,计算所述任意一个时刻的趋势项值;基于所述第一数据集的每个时刻的所述趋势项值,确定所述趋势项数据。
可选地,数据分解单元被配置为:从所述第一数据集剔除所述趋势项数据,得到第三数据集;基于所述第三数据集,计算任意一个预设周期的周期项数据,其中,所述第三数据集的整个时间序列包括多个预设周期;通过将所述任意一个预设周期的周期项数据在所述第三数据集的整个时间序列上迭代复制,得到所述周期项数据,其中,通过以下等式计算所述任意一个预设周期内的每个时刻t的周期项值
Figure 722684DEST_PATH_IMAGE011
Figure 243795DEST_PATH_IMAGE012
Figure 493511DEST_PATH_IMAGE013
Figure 416467DEST_PATH_IMAGE014
其中,所述任意一个预设周期的长度为C,第三数据集的完整周期数为N,且
Figure 726226DEST_PATH_IMAGE015
len表示时间序列的长度,[ ]表示取整操作
Figure 796950DEST_PATH_IMAGE016
Figure 788040DEST_PATH_IMAGE017
表示时刻t在所述任意一个预设周期的位置,且
Figure 627820DEST_PATH_IMAGE018
,%表示时刻t对所述任意一个预设周期的长度C取余,V表示周期项数据的偏移值,
Figure 568136DEST_PATH_IMAGE019
表示第三数据集
Figure 860577DEST_PATH_IMAGE020
在位置
Figure 655357DEST_PATH_IMAGE021
的数据的均值;其中,基于所述任意一个预设周期内的每个时刻的所述周期项值,确定所述任意一个预设周期的周期项数据。
可选地,数据分解单元被配置为:从所述第一数据集剔除所述趋势项数据和所述周期项数据,得到所述残余项数据。
可选地,数据分解单元被配置为:基于所述趋势项数据和所述周期项数据,确定所述用水量时序数据的数据趋势序列;基于所述残余项数据针对所述数据趋势序列的偏离程度,确定所述第一数据集中的第二类型的异常值。
可选地,数据分解单元被配置为:针对每个时刻,计算所述残余项数据与所述数据趋势序列的偏差比率;当任意一个时刻的所述残余项数据与所述数据趋势序列的偏差比率大于预设阈值时,将所述第一数据集中的该时刻的数据确定为所述第二类型的异常值。
可选地,数据校正单元被配置为:针对任意一个异常值时刻,基于所述第二数据集中的所述任意一个异常值时刻的数据及其相邻数据,计算所述任意一个异常值时刻的趋势项修正值和残余项修正值;基于所述任意一个异常值时刻的趋势项修正值和残余项修正值以及周期项值,计算所述任意一个异常值时刻的修正值;通过将所述第二数据集中的各个异常值时刻的数据替换为所述修正值,对所述第二数据集中的各个异常值时刻的数据进行校正。
在另一总的方面,提供一种存储有计算机程序的计算机可读存储介质,其特征在于,当所述计算机程序被处理器执行时,实现如上所述的用水量时序数据的异常值处理方法。
在另一总的方面,提供一种计算装置,所述计算装置包括:处理器;和存储器,存储有计算机程序,当所述计算机程序被处理器执行时,实现如上所述的用水量时序数据的异常值处理方法。
根据本公开的实施例的用水量时序数据的异常值处理方法和异常值处理装置可以充分考虑到数据的趋势性、周期性和随机性等特征,在准确地拟合数据特征的基础上,得到更加接近真实值的数据异常值校正结果。此外,根据本公开的实施例的用水量时序数据的异常值处理方法和异常值处理装置,能够对数据进行分解和分层处理,从而快速地对用水量时序数据的异常值进行校正。
将在接下来的描述中部分阐述本公开总体构思另外的方面和/或优点,还有一部分通过描述将是清楚的,或者可以经过本公开总体构思的实施而得知。
附图说明
通过下面结合示出实施例的附图进行的描述,本公开的实施例的上述和其他目的和特点将会变得更加清楚,其中。
图1是示出根据本公开的实施例的用水量时序数据的异常值处理方法的流程图。
图2是示出根据本公开的实施例的检测用水量时序数据中的第一类型的异常值的方法的流程图。
图3是示出根据本公开的实施例的将第一数据集分解为趋势项数据、周期项数据和残余项数据的方法的流程图。
图4是示出根据本公开的实施例的确定第一数据集中的第二类型的异常值的方法的流程图。
图5是示出根据本公开的实施例的对第二数据集中的各个异常值时刻的数据进行校正的方法的流程图。
图6是示出根据本公开的实施例的用水量时序数据的异常值处理装置的框图。
图7是示出根据本公开的实施例的计算装置的框图。
具体实施方式
提供下面的具体实施方式以帮助读者获得对在此描述的方法、设备和/或系统的全面理解。然而,在理解本申请的公开之后,在此描述的方法、设备和/或系统的各种改变、修改和等同物将是清楚的。例如,在此描述的操作的顺序仅是示例,并且不限于在此阐述的那些顺序,而是除了必须以特定的顺序发生的操作之外,可如在理解本申请的公开之后将是清楚的那样被改变。此外,为了更加清楚和简明,本领域已知的特征的描述可被省略。
在此描述的特征可以以不同的形式来实现,而不应被解释为限于在此描述的示例。相反,已提供在此描述的示例,以仅示出实现在此描述的方法、设备和/或系统的许多可行方式中的一些可行方式,所述许多可行方式在理解本申请的公开之后将是清楚的。
如在此使用的,术语“和/或”包括相关联的所列项中的任何一个以及任何两个或更多个的任何组合。
尽管在此可使用诸如“第一”、“第二”和“第三”的术语来描述各种构件、组件、区域、层或部分,但是这些构件、组件、区域、层或部分不应被这些术语所限制。相反,这些术语仅用于将一个构件、组件、区域、层或部分与另一构件、组件、区域、层或部分进行区分。因此,在不脱离示例的教导的情况下,在此描述的示例中所称的第一构件、第一组件、第一区域、第一层或第一部分也可被称为第二构件、第二组件、第二区域、第二层或第二部分。
在说明书中,当元件(诸如,层、区域或基底)被描述为“在”另一元件上、“连接到”或“结合到”另一元件时,该元件可直接“在”另一元件上、直接“连接到”或“结合到”另一元件,或者可存在介于其间的一个或多个其他元件。相反,当元件被描述为“直接在”另一元件上、“直接连接到”或“直接结合到”另一元件时,可不存在介于其间的其他元件。
在此使用的术语仅用于描述各种示例,并不将用于限制公开。除非上下文另外清楚地指示,否则单数形式也意在包括复数形式。术语“包含”、“包括”和“具有”说明存在叙述的特征、数量、操作、构件、元件和/或它们的组合,但不排除存在或添加一个或多个其他特征、数量、操作、构件、元件和/或它们的组合。
除非另有定义,否则在此使用的所有术语(包括技术术语和科学术语)具有与由本公开所属领域的普通技术人员在理解本公开之后通常理解的含义相同的含义。除非在此明确地如此定义,否则术语(诸如,在通用词典中定义的术语)应被解释为具有与它们在相关领域的上下文和本公开中的含义一致的含义,并且不应被理想化或过于形式化地解释。
此外,在示例的描述中,当认为公知的相关结构或功能的详细描述将引起对本公开的模糊解释时,将省略这样的详细描述。
根据本公开的实施例的用水量时序数据的异常值处理方法和异常值处理装置可以充分考虑到数据的趋势性、周期性和随机性等特征,在准确地拟合数据特征的基础上,得到的数据异常值校正结果更加接近真实值;并且可以对数据进行分解和分层处理,即使在用水量时序数据不断更新变化的情况下,也能够快速地对数据中的异常值进行校正。
下面将参照图1至图7对根据本公开的实施例的用水量时序数据的异常值处理方法和异常值处理装置进行详细描述。
图1是示出根据本公开的实施例的用水量时序数据的异常值处理方法的流程图。
参照图1,在步骤S101中,可检测用水量时序数据中的第一类型的异常值,并对第一类型的异常值进行第一校正,从而获得经过第一校正的用水量时序数据作为第一数据集
Figure 349644DEST_PATH_IMAGE022
。这里,第一类型的异常值可以是直观可辨识的异常值,即,无需使用复杂的算法,通过十分简单的计算步骤就能够判断的异常值。进一步讲,第一校正可以是将第一类型的异常值替换为后面将描述的用水量时序数据的均值
Figure 938888DEST_PATH_IMAGE023
。下面参照图2描述检测用水量时序数据中的第一类型的异常值的方法。
图2是示出根据本公开的实施例的检测用水量时序数据中的第一类型的异常值的方法的流程图。
参照图2,在步骤S201中,可确定用水量时序数据中的零值和缺失值。
接下来,在步骤S202中,可基于用水量时序数据中除了零值和缺失值之外的数据,计算用水量时序数据的均值
Figure 984205DEST_PATH_IMAGE023
和标准差
Figure 379414DEST_PATH_IMAGE024
接下来,在步骤S203中,可基于用水量时序数据的均值和标准差,利用拉伊达准则(即3
Figure 865890DEST_PATH_IMAGE025
准则)确定用水量时序数据中的异常大值和异常小值。具体地讲,可假定用水量时序数据近似于正态分布,并且用水量时序数据含有随机误差,因此可按照概率确定误差区域,认定超过误差区域的数值为异常大值或异常小值。更具体地讲,根据正态分布的特性,用水量时序数据分布在
Figure 953932DEST_PATH_IMAGE026
的概率为0.9973,即超出
Figure 657183DEST_PATH_IMAGE027
范围的数据量不到0.3%,那么可以认定在
Figure 590504DEST_PATH_IMAGE026
范围之外的数值为异常大值或异常小值。
接下来,在步骤S204中,可将用水量时序数据中的零值、缺失值、异常大值和异常小值确定为第一类型的异常值。如上所述,第一类型的异常值无需使用复杂的算法,通过十分简单的计算步骤就能够确定。
返回参照图1,在步骤S102中,可将第一数据集分解为趋势项数据
Figure 197066DEST_PATH_IMAGE028
、周期项数据
Figure 456009DEST_PATH_IMAGE029
和残余项数据
Figure 882442DEST_PATH_IMAGE030
,基于趋势项数据、周期项数据和残余项数据,确定第一数据集中的第二类型的异常值,并对第二类型的异常值进行第二校正,从而获得经过第二校正的第一数据集作为第二数据集。这里,趋势项数据可表示第一数据集的趋势性成分,周期项数据可表示第一数据集的周期性成分,残余项数据可表示第一数据集的随机性成分,并且可通过等式(1)来表示第一数据集、趋势项数据、周期项数据和残余项数据的数值关系。
Figure 885033DEST_PATH_IMAGE031
(1)
进一步讲,第二类型的异常值可以是非直观可辨识的异常值,可通过数据分解的方式来确定。更进一步讲,第二校正可以是将第二类型的异常值替换为用水量时序数据的均值
Figure 346102DEST_PATH_IMAGE023
。下面参照图3和图4描述图1中的步骤S102。
图3是示出根据本公开的实施例的将第一数据集分解为趋势项数据、周期项数据和残余项数据的方法的流程图。
参照图3,在步骤S301中,可针对每个时刻中的任意一个时刻,基于第一数据集中与该任意一个时刻相邻的多个数据,计算该任意一个时刻的趋势项值。具体地讲,基于与t时刻相邻的m项数据,可以通过等式(2)得到t时刻的趋势项值。
Figure 510367DEST_PATH_IMAGE032
(2)
这里,m值可表示为
Figure 1260DEST_PATH_IMAGE033
。进一步讲,m值越大,用水量时序数据的不规则变动对趋势项值的影响越小,m值越小,用水量时序数据的不规则变动对趋势项值的影响越大;此外,k值可由本领域的技术人员根据实际情况来设置。
更进一步讲,
Figure 978181DEST_PATH_IMAGE034
可表示趋势项值在t+j时刻的权值,即
Figure 356073DEST_PATH_IMAGE035
越大,
Figure 894501DEST_PATH_IMAGE036
的值对t时刻的趋势项值的影响越大,并且
Figure 357844DEST_PATH_IMAGE037
。此外,
Figure 639920DEST_PATH_IMAGE035
的值可由本领域的技术人员根据实际情况来设置,举例来讲,若假设相邻的m项数据对t时刻的趋势项值影响相同,则
Figure 137898DEST_PATH_IMAGE035
的值可以设置为 1/(2k+1);若要突出近期数据对趋势项值的影响,则
Figure 581649DEST_PATH_IMAGE035
可以设置为
Figure 171768DEST_PATH_IMAGE038
以及
Figure 54273DEST_PATH_IMAGE039
接下来,在步骤S302中,可基于第一数据集的每个时刻的趋势项值,确定趋势项数据。
接下来,在步骤S303中,可从第一数据集剔除趋势项数据,得到第三数据集
Figure 344440DEST_PATH_IMAGE040
。这里,可以通过等式(3)来表示第三数据集中t时刻的数值。
Figure 21409DEST_PATH_IMAGE041
(3)
接下来,在步骤S304中,可基于第三数据集,计算任意一个预设周期的周期项数据。这里,第三数据集的整个时间序列包括多个预设周期。进一步讲,对于周期项数据,同一个预设周期的数据具有相同的特征,数据序列中每个预设周期的同一位置的数据取均值后加上偏移值即该位置对应的周期项值;更进一步讲,周期项数据具有对称性,即一个预设周期内的数据之和为零,因此在计算过程中还需要考虑周期项数据的偏移值,从而使最终得到的周期项数据满足一个预设周期内的数据之和为零的条件。
具体地讲,假设预设周期的长度为C,第三数据集
Figure 397027DEST_PATH_IMAGE040
的完整周期数为N,则
Figure 83223DEST_PATH_IMAGE042
,这里,len可表示时间序列的长度,方括号[ ]可表示取整操作;那么,t时刻的周期项值可表示为
Figure 726432DEST_PATH_IMAGE043
Figure 839881DEST_PATH_IMAGE044
。进一步假设时刻t对应于一个预设周期的位置
Figure 765112DEST_PATH_IMAGE045
,则
Figure 927103DEST_PATH_IMAGE046
,这里,百分号%可表示时刻t对预设周期的长度C取余。在此基础上,可以通过等式(4)、(5)和(6)求取t时刻的周期项值。
Figure 191862DEST_PATH_IMAGE047
(4)
Figure 476213DEST_PATH_IMAGE048
(5)
Figure 560844DEST_PATH_IMAGE049
(6)
这里,V可表示周期项数据的偏移值,
Figure 588843DEST_PATH_IMAGE050
可表示第三数据集
Figure 206644DEST_PATH_IMAGE051
在位置
Figure 661896DEST_PATH_IMAGE045
的数据的均值。
在计算得到该预设周期内的每个时刻t的周期项值之后,可基于该预设周期内的每个时刻的周期项值,确定该预设周期的周期项数据。换言之,可将该预设周期的每个时刻t的周期项值构成的序列作为该预设周期的周期项数据。
接下来,在步骤S305中,可通过将任意一个预设周期的周期项数据在第三数据集的整个时间序列上迭代复制,得到周期项数据。
举举例来讲,对于水资源监测点的日用水量数据,可按自然周为预设周期,即C=7;进一步地,可以计算每个周一的周期项值,即对第三数据集
Figure 499402DEST_PATH_IMAGE052
中所有周一的数据求平均值;更进一步地,可以计算一个自然周内其他时间的周期项值,从而得到一个自然周的周期项数据
Figure 65512DEST_PATH_IMAGE053
Figure 101601DEST_PATH_IMAGE054
;然后,可以将一个自然周的周期项数据
Figure 665438DEST_PATH_IMAGE055
迭代复制到第三数据集
Figure 786978DEST_PATH_IMAGE052
,从而得到整个日用水量数据的周期项数据
Figure 94462DEST_PATH_IMAGE056
接下来,在步骤S306中,可从第一数据集剔除趋势项数据和周期项数据,得到残余项数据。这里,可以用等式(7)表示残余项数据在t时刻的残余项值。
Figure 250637DEST_PATH_IMAGE057
(7)
下面参照图4描述根据本公开的实施例的确定第一数据集中的第二类型的异常值的方法。
图4是示出根据本公开的实施例的确定第一数据集中的第二类型的异常值的方法的流程图。
参照图4,在步骤S401中,可基于趋势项数据和周期项数据,确定用水量时序数据的数据趋势序列
Figure 483910DEST_PATH_IMAGE058
。这里,由于趋势项数据和周期项数据可以代表用水量时序数据的整体趋势,所以可以通过残余项数据与数据趋势序列的偏离程度来判断数据是否异常。进一步讲,可以通过等式(8)来表示数据趋势序列在t时刻的数值。
Figure 92746DEST_PATH_IMAGE059
(8)
接下来,可基于残余项数据针对数据趋势序列的偏离程度,确定第一数据集中的第二类型的异常值。下面的步骤S402和S403具体描述了这一操作过程。
具体地讲,在步骤S402中,可针对每个时刻,计算残余项数据与数据趋势序列的偏差比率
Figure 938342DEST_PATH_IMAGE060
。这里,计算残余项数据与数据趋势序列的偏差比率是为了找到用水量时序数据中的局部突变点。可以通过等式(9)来表示t时刻的偏差比率。
Figure 949023DEST_PATH_IMAGE061
(9)
在步骤S403中,当任意一个时刻的残余项数据与数据趋势序列的偏差比率大于预设阈值时,可将第一数据集中的该时刻的数据确定为第二类型的异常值。这里,由于偏差比率越大,数据异常的可能性就越大,因此可以由本领域的技术人员根据实际情况设置阈值
Figure 854663DEST_PATH_IMAGE062
Figure 950795DEST_PATH_IMAGE063
,然后可以认定偏差比率大于
Figure 662399DEST_PATH_IMAGE062
的数据为异常值。如上所述,可以对第二类型的异常值进行第二校正,从而获得经过第二校正的第一数据集作为第二数据集。
返回参照图1,在步骤S103中,可基于第二数据集中的各个异常值时刻的数据及其相邻数据,对第二数据集中的各个异常值时刻的数据进行校正。这里,异常值时刻反映第一类型的异常值在用水量时序数据中的位置以及第二类型的异常值在第一数据集中的位置。下面参照图5描述根据本公开的实施例的对第二数据集中的各个异常值时刻的数据进行校正的方法。
图5是示出根据本公开的实施例的对第二数据集中的各个异常值时刻的数据进行校正的方法的流程图。
参照图5,在步骤S501中,可针对任意一个异常值时刻,基于第二数据集中的任意一个异常值时刻的数据及其相邻数据,计算任意一个异常值时刻的趋势项修正值
Figure 730849DEST_PATH_IMAGE064
和残余项修正值
Figure 869706DEST_PATH_IMAGE065
具体地讲,对于趋势项数据
Figure 623773DEST_PATH_IMAGE066
,基于与t异常值时刻相邻的L项数据,可以通过等式(10)得到t异常值时刻的趋势项修正值。
Figure 139068DEST_PATH_IMAGE067
(10)
这里,L值与如上所述的m值的数量关系可表示为
Figure 62025DEST_PATH_IMAGE068
,并且L值为偶数;此外,L值可由本领域的技术人员根据实际情况来设置。
进一步讲,
Figure 371783DEST_PATH_IMAGE069
可表示趋势项值在t+r时刻的权值,即
Figure 380191DEST_PATH_IMAGE070
越大,
Figure 105701DEST_PATH_IMAGE071
的值对t异常值时刻的趋势项值的影响越大,并且
Figure 381700DEST_PATH_IMAGE072
。此外,
Figure 862359DEST_PATH_IMAGE069
的值可由本领域的技术人员根据实际情况来设置,举例来讲,若假设相邻的L项数据对t时刻的趋势项值影响相同,则
Figure 358063DEST_PATH_IMAGE069
的值可以设置为 1/L
同时,对于残余项数据
Figure 949581DEST_PATH_IMAGE073
,基于与t异常值时刻相邻的L项数据,可以通过等式(11)得到t异常值时刻的残余项修正值。
Figure 847130DEST_PATH_IMAGE074
(11)
这里,L值如上所述。
进一步讲,
Figure 498691DEST_PATH_IMAGE075
可表示残余项值在t+r时刻的权值,即
Figure 278428DEST_PATH_IMAGE075
越大,
Figure 876900DEST_PATH_IMAGE076
的值对t异常值时刻的残余项值的影响越大,并且
Figure 691272DEST_PATH_IMAGE077
。此外,
Figure 684374DEST_PATH_IMAGE075
的值可由本领域的技术人员根据实际情况来设置,举例来讲,若假设相邻的L项数据对t时刻的残余项值影响相同,则
Figure 951407DEST_PATH_IMAGE075
的值可以设置为 1/L
更具体地讲,由于周期项数据是在剔除趋势项数据以后得到的用水量时序数据中的平稳数据,并且周期项数据具有对称性,即一个预设周期内的数据之和为零,还考虑到周期项值相对较小,所以忽略局部的异常值造成的影响,不针对周期项数据进行校正。
接下来,在步骤S502中,可基于任意一个异常值时刻的趋势项修正值和残余项修正值以及周期项值,计算任意一个异常值时刻的修正值
Figure 87990DEST_PATH_IMAGE078
。这里,可以通过等式(12)来表示t异常值时刻的修正值。
Figure 756869DEST_PATH_IMAGE079
(12)
接下来,在步骤S503中,可通过将第二数据集中的各个异常值时刻的数据替换为修正值,对第二数据集中的各个异常值时刻的数据进行校正。
根据本公开的实施例的用水量时序数据的异常值处理方法可以充分考虑到数据的趋势性、周期性和随机性等特征,在准确地拟合数据特征的基础上,得到更加接近真实值的数据异常值校正结果;并且可以对数据进行分解和分层处理,即使在用水量时序数据不断更新变化的情况下,也能够快速地对数据中的异常值进行校正。
图6是示出根据本公开的实施例的用水量时序数据的异常值处理装置的框图。根据本公开的实施例的用水量时序数据的异常值处理装置可以在具有足够运算能力的计算装置中实现。
参照图6,根据本公开的实施例的用水量时序数据的异常值处理装置600可包括数据检测单元610、数据分解单元620和数据校正单元630。
数据检测单元单元610可检测用水量时序数据中的第一类型的异常值,并对第一类型的异常值进行第一校正,从而获得经过第一校正的用水量时序数据作为第一数据集。
数据检测单元单元610可确定用水量时序数据中的零值和缺失值;基于用水量时序数据中除了零值和缺失值之外的数据,计算用水量时序数据的均值和标准差;基于用水量时序数据的均值和标准差,利用拉伊达准则确定用水量时序数据中的异常大值和异常小值;将用水量时序数据中的零值、缺失值、异常大值和异常小值确定为第一类型的异常值。
可选择地,第一校正可以是将第一类型的异常值替换为用水量时序数据的均值。
数据分解单元620可将第一数据集分解为趋势项数据、周期项数据和残余项数据,基于趋势项数据、周期项数据和残余项数据,确定第一数据集中的第二类型的异常值,并对第二类型的异常值进行第二校正,从而获得经过第二校正的第一数据集作为第二数据集。
可选择地,第二校正可以是将第二类型的异常值替换为用水量时序数据的均值。
数据分解单元620可针对每个时刻中的任意一个时刻,基于第一数据集中与该任意一个时刻相邻的多个数据,计算该任意一个时刻的趋势项值;基于第一数据集的每个时刻的趋势项值,确定趋势项数据。
数据分解单元620可从第一数据集剔除趋势项数据,得到第三数据集;基于第三数据集,计算任意一个预设周期的周期项数据,这里,第三数据集的整个时间序列包括多个预设周期;通过将任意一个预设周期的周期项数据在第三数据集的整个时间序列上迭代复制,得到周期项数据。可选择地,可通过如上所述的等式(4)、(5)和(6)计算任意一个预设周期内的每个时刻的周期项值;可基于任意一个预设周期内的每个时刻的周期项值,确定任意一个预设周期的周期项数据。
数据分解单元620可第一数据集剔除趋势项数据和周期项数据,得到残余项数据。
数据分解单元620可基于趋势项数据和周期项数据,确定用水量时序数据的数据趋势序列;基于残余项数据针对数据趋势序列的偏离程度,确定第一数据集中的第二类型的异常值。
可选择地,数据分解单元620可针对每个时刻,计算残余项数据与数据趋势序列的偏差比率;当任意一个时刻的残余项数据与数据趋势序列的偏差比率大于预设阈值时,将第一数据集中的该时刻的数据确定为第二类型的异常值。
数据校正单元630可基于第二数据集中的各个异常值时刻的数据及其相邻数据,对第二数据集中的各个异常值时刻的数据进行校正,这里,异常值时刻反映第一类型的异常值在用水量时序数据中的位置以及第二类型的异常值在第一数据集中的位置。
数据校正单元630可针对任意一个异常值时刻,基于第二数据集中的任意一个异常值时刻的数据及其相邻数据,计算任意一个异常值时刻的趋势项修正值和残余项修正值;基于任意一个异常值时刻的趋势项修正值和残余项修正值以及周期项值,计算任意一个异常值时刻的修正值;通过将第二数据集中的各个异常值时刻的数据替换为修正值,对第二数据集中的各个异常值时刻的数据进行校正。
图7是示出根据本公开的实施例的计算装置的框图。
参照图7,根据本公开的实施例的计算装置700可包括处理器710和存储器720。处理器710可包括(但不限于)中央处理器(CPU)、数字信号处理器(DSP)、微型计算机、现场可编程门阵列(FPGA)、片上系统(SoC)、微处理器、专用集成电路(ASIC)等。存储器720存储将由处理器710执行的计算机程序。存储器720包括高速随机存取存储器和/或非易失性计算机可读存储介质。当处理器710执行存储器720中存储的计算机程序时,可实现如上所述的用水量时序数据的异常值处理方法。
根据本公开的实施例的用水量时序数据的异常值处理方法可被编写为计算机程序并被存储在计算机可读存储介质上。当所述计算机程序被处理器执行时,可实现如上所述的用水量时序数据的异常值处理方法。计算机可读存储介质的示例包括:只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如,多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置,所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。在一个示例中,计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上,使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。
根据本公开的实施例的用水量时序数据的异常值处理方法和异常值处理装置可以充分考虑到数据的趋势性、周期性和随机性等特征,在准确地拟合数据特征的基础上,得到更加接近真实值的数据异常值校正结果。此外,根据本公开的实施例的用水量时序数据的异常值处理方法和异常值处理装置,能够对数据进行分解和分层处理,从而快速地对用水量时序数据的异常值进行校正。
虽然已表示和描述了本公开的一些实施例,但本领域技术人员应该理解,在不脱离由权利要求及其等同物限定其范围的本公开的原理和精神的情况下,可以对这些实施例进行修改。

Claims (8)

1.一种用水量时序数据的异常值处理方法,其特征在于,所述异常值处理方法包括:
检测所述用水量时序数据中的第一类型的异常值,并对所述第一类型的异常值进行第一校正,从而获得经过第一校正的所述用水量时序数据作为第一数据集;
将所述第一数据集分解为趋势项数据、周期项数据和残余项数据,基于所述趋势项数据、周期项数据和残余项数据,确定所述第一数据集中的第二类型的异常值,并对所述第二类型的异常值进行第二校正,从而获得经过第二校正的所述第一数据集作为第二数据集;
基于所述第二数据集中的各个异常值时刻的数据及其相邻数据,对所述第二数据集中的各个异常值时刻的数据进行校正,其中,所述异常值时刻反映所述第一类型的异常值在所述用水量时序数据中的位置以及所述第二类型的异常值在所述第一数据集中的位置,
其中,检测所述用水量时序数据中的第一类型的异常值的步骤包括:
确定所述用水量时序数据中的零值和缺失值;
基于所述用水量时序数据中除了所述零值和所述缺失值之外的数据,计算所述用水量时序数据的均值和标准差;
基于所述用水量时序数据的均值和标准差,利用拉伊达准则确定所述用水量时序数据中的异常大值和异常小值;
将所述用水量时序数据中的所述零值、缺失值、异常大值和异常小值确定为所述第一类型的异常值,
其中,基于所述趋势项数据、周期项数据和残余项数据,确定所述第一数据集中的第二类型的异常值的步骤包括:
基于所述趋势项数据和所述周期项数据,确定所述用水量时序数据的数据趋势序列;
基于所述残余项数据针对所述数据趋势序列的偏离程度,确定所述第一数据集中的第二类型的异常值,
其中,基于所述残余项数据针对所述数据趋势序列的偏离程度,确定所述第一数据集中的第二类型的异常值的步骤包括:
针对每个时刻,计算所述残余项数据与所述数据趋势序列的偏差比率;
当任意一个时刻的所述残余项数据与所述数据趋势序列的偏差比率大于预设阈值时,将所述第一数据集中的该时刻的数据确定为所述第二类型的异常值,
其中,基于所述第二数据集中的各个异常值时刻的相邻数据,对所述第二数据集中的各个异常值时刻的数据进行校正的步骤包括:
针对任意一个异常值时刻,基于所述第二数据集中的所述任意一个异常值时刻的数据及其相邻数据,计算所述任意一个异常值时刻的趋势项修正值和残余项修正值;
基于所述任意一个异常值时刻的趋势项修正值和残余项修正值以及周期项值,计算所述任意一个异常值时刻的修正值;
通过将所述第二数据集中的各个异常值时刻的数据替换为所述修正值,对所述第二数据集中的各个异常值时刻的数据进行校正。
2.如权利要求1所述的异常值处理方法,其特征在于,所述第一校正包括:将所述第一类型的异常值替换为所述用水量时序数据的均值;以及
所述第二校正包括:将所述第二类型的异常值替换为所述用水量时序数据的均值。
3.如权利要求2所述的异常值处理方法,其特征在于,将所述第一数据集分解为趋势项数据、周期项数据和残余项数据的步骤包括:
针对每个时刻中的任意一个时刻,基于所述第一数据集中与所述任意一个时刻相邻的多个数据,计算所述任意一个时刻的趋势项值;
基于所述第一数据集的每个时刻的所述趋势项值,确定所述趋势项数据。
4.如权利要求3所述的异常值处理方法,其特征在于,将所述第一数据集分解为趋势项数据、周期项数据和残余项数据的步骤还包括:
从所述第一数据集剔除所述趋势项数据,得到第三数据集;
基于所述第三数据集,计算任意一个预设周期的周期项数据,其中,所述第三数据集的整个时间序列包括多个预设周期;
通过将所述任意一个预设周期的周期项数据在所述第三数据集的整个时间序列上迭代复制,得到所述周期项数据,
其中,通过以下等式计算所述任意一个预设周期内的每个时刻t的周期项值
Figure 108517DEST_PATH_IMAGE001
Figure 25657DEST_PATH_IMAGE002
Figure 8657DEST_PATH_IMAGE003
Figure 403866DEST_PATH_IMAGE004
其中,所述任意一个预设周期的长度为C,第三数据集的完整周期数为N,且
Figure 687080DEST_PATH_IMAGE005
len表示时间序列的长度,[ ]表示取整操作,
Figure 509542DEST_PATH_IMAGE006
Figure 226176DEST_PATH_IMAGE007
表示时刻t在所述任意一个预设周期的位置,且
Figure 425076DEST_PATH_IMAGE008
, %表示时刻t对所述任意一个预设周期的长度C取余,V表示周期项数据的偏移值,
Figure 93955DEST_PATH_IMAGE009
表示第三数据集
Figure 556160DEST_PATH_IMAGE010
在位置
Figure DEST_PATH_IMAGE011
的数据的均值;
其中,基于所述任意一个预设周期内的每个时刻的所述周期项值,确定所述任意一个预设周期的周期项数据。
5.如权利要求4所述的异常值处理方法,其特征在于,将所述第一数据集分解为趋势项数据、周期项数据和残余项数据的步骤还包括:
从所述第一数据集剔除所述趋势项数据和所述周期项数据,得到所述残余项数据。
6.一种用水量时序数据的异常值处理装置,其特征在于,所述异常值处理装置包括:
数据检测单元,被配置为检测所述用水量时序数据中的第一类型的异常值,并对所述第一类型的异常值进行第一校正,从而获得经过第一校正的所述用水量时序数据作为第一数据集;
数据分解单元,被配置为将所述第一数据集分解为趋势项数据、周期项数据和残余项数据,基于所述趋势项数据、周期项数据和残余项数据,确定所述第一数据集中的第二类型的异常值,并对所述第二类型的异常值进行第二校正,从而获得经过第二校正的所述第一数据集作为第二数据集;
数据校正单元,被配置为基于所述第二数据集中的各个异常值时刻的数据及其相邻数据,对所述第二数据集中的各个异常值时刻的数据进行校正,其中,所述异常值时刻反映所述第一类型的异常值在所述用水量时序数据中的位置以及所述第二类型的异常值在所述第一数据集中的位置,
其中,数据检测单元还被配置为:
确定所述用水量时序数据中的零值和缺失值;
基于所述用水量时序数据中除了所述零值和所述缺失值之外的数据,计算所述用水量时序数据的均值和标准差;
基于所述用水量时序数据的均值和标准差,利用拉伊达准则确定所述用水量时序数据中的异常大值和异常小值;
将所述用水量时序数据中的所述零值、缺失值、异常大值和异常小值确定为所述第一类型的异常值,
其中,数据分解单元还被配置为:
基于所述趋势项数据和所述周期项数据,确定所述用水量时序数据的数据趋势序列;
基于所述残余项数据针对所述数据趋势序列的偏离程度,确定所述第一数据集中的第二类型的异常值,
其中,数据分解单元还被配置为:
针对每个时刻,计算所述残余项数据与所述数据趋势序列的偏差比率;
当任意一个时刻的所述残余项数据与所述数据趋势序列的偏差比率大于预设阈值时,将所述第一数据集中的该时刻的数据确定为所述第二类型的异常值,
其中,数据校正单元还被配置为:
针对任意一个异常值时刻,基于所述第二数据集中的所述任意一个异常值时刻的数据及其相邻数据,计算所述任意一个异常值时刻的趋势项修正值和残余项修正值;
基于所述任意一个异常值时刻的趋势项修正值和残余项修正值以及周期项值,计算所述任意一个异常值时刻的修正值;
通过将所述第二数据集中的各个异常值时刻的数据替换为所述修正值,对所述第二数据集中的各个异常值时刻的数据进行校正。
7.一种存储有计算机程序的计算机可读存储介质,其特征在于,当所述计算机程序被处理器执行时,实现如权利要求1至5中任意一项所述的用水量时序数据的异常值处理方法。
8.一种控制器,其特征在于,所述控制器包括:
处理器;和
存储器,存储有计算机程序,当所述计算机程序被处理器执行时,实现如权利要求1至5中任意一项所述的用水量时序数据的异常值处理方法。
CN202111103810.6A 2021-09-22 2021-09-22 用水量时序数据的异常值处理方法和异常值处理装置 Active CN113961548B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111103810.6A CN113961548B (zh) 2021-09-22 2021-09-22 用水量时序数据的异常值处理方法和异常值处理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111103810.6A CN113961548B (zh) 2021-09-22 2021-09-22 用水量时序数据的异常值处理方法和异常值处理装置

Publications (2)

Publication Number Publication Date
CN113961548A CN113961548A (zh) 2022-01-21
CN113961548B true CN113961548B (zh) 2022-03-25

Family

ID=79461844

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111103810.6A Active CN113961548B (zh) 2021-09-22 2021-09-22 用水量时序数据的异常值处理方法和异常值处理装置

Country Status (1)

Country Link
CN (1) CN113961548B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106685750A (zh) * 2015-11-11 2017-05-17 华为技术有限公司 系统异常检测方法和装置
CN107273234A (zh) * 2017-05-26 2017-10-20 中国航天系统科学与工程研究院 一种基于eemd的时间序列数据异常值检测和校正方法
CN111444168A (zh) * 2020-03-26 2020-07-24 易电务(北京)科技有限公司 一种配电室变压器日最大负荷异常数据检测处理方法
CN111562996A (zh) * 2020-04-11 2020-08-21 北京交通大学 一种关键性能指标数据的时序异常检测方法及系统
CN111767930A (zh) * 2019-04-01 2020-10-13 北京百度网讯科技有限公司 物联网时序数据异常检测方法及其相关设备
CN112527788A (zh) * 2020-12-17 2021-03-19 北京中恒博瑞数字电力科技有限公司 变压器监测数据异常值检测与清洗的方法及装置
CN112668661A (zh) * 2020-12-31 2021-04-16 新奥数能科技有限公司 一种光伏功率异常数据的识别方法及装置
CN112818297A (zh) * 2021-02-05 2021-05-18 国网安徽省电力有限公司合肥供电公司 一种云环境下数据异常检测方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6941301B2 (en) * 2002-01-18 2005-09-06 Pavilion Technologies, Inc. Pre-processing input data with outlier values for a support vector machine
WO2010001966A1 (ja) * 2008-07-03 2010-01-07 日本電気株式会社 時系列データ処理装置およびその方法とプログラム
JP5424338B2 (ja) * 2010-03-18 2014-02-26 日本電気株式会社 衛星測位システムの異常値検出装置、異常値検出方法及び異常値検出プログラム
US9921937B2 (en) * 2014-01-23 2018-03-20 Microsoft Technology Licensing, Llc Behavior clustering analysis and alerting system for computer applications
US20170124464A1 (en) * 2015-10-28 2017-05-04 Fractal Industries, Inc. Rapid predictive analysis of very large data sets using the distributed computational graph
JP7031669B2 (ja) * 2017-06-28 2022-03-08 ソニーグループ株式会社 情報処理装置、情報処理方法及びプログラム
US11860971B2 (en) * 2018-05-24 2024-01-02 International Business Machines Corporation Anomaly detection
CN108846058A (zh) * 2018-06-01 2018-11-20 阿里巴巴集团控股有限公司 一种时间序列中的异常数据校正方法、装置及处理设备
CN111860897A (zh) * 2020-08-05 2020-10-30 青岛特来电新能源科技有限公司 一种异常检测方法、装置、设备及计算机可读存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106685750A (zh) * 2015-11-11 2017-05-17 华为技术有限公司 系统异常检测方法和装置
CN107273234A (zh) * 2017-05-26 2017-10-20 中国航天系统科学与工程研究院 一种基于eemd的时间序列数据异常值检测和校正方法
CN111767930A (zh) * 2019-04-01 2020-10-13 北京百度网讯科技有限公司 物联网时序数据异常检测方法及其相关设备
CN111444168A (zh) * 2020-03-26 2020-07-24 易电务(北京)科技有限公司 一种配电室变压器日最大负荷异常数据检测处理方法
CN111562996A (zh) * 2020-04-11 2020-08-21 北京交通大学 一种关键性能指标数据的时序异常检测方法及系统
CN112527788A (zh) * 2020-12-17 2021-03-19 北京中恒博瑞数字电力科技有限公司 变压器监测数据异常值检测与清洗的方法及装置
CN112668661A (zh) * 2020-12-31 2021-04-16 新奥数能科技有限公司 一种光伏功率异常数据的识别方法及装置
CN112818297A (zh) * 2021-02-05 2021-05-18 国网安徽省电力有限公司合肥供电公司 一种云环境下数据异常检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Optimization of CT protocols using cause-and-effect analysis of outliers;AlfredoSerna et al.;《Physica Medica》;20181016;第1-7页 *
取用水监测点的水量计算与变化趋势分析;方海泉等;《系统工程理论与实践》;20180925;第38卷(第09期);第2390-2400页 *
基于孤立森林算法的取用水量异常数据检测方法;赵臣啸等;《中国水利水电科学研究院学报》;20200215;第18卷(第01期);第31-39页 *

Also Published As

Publication number Publication date
CN113961548A (zh) 2022-01-21

Similar Documents

Publication Publication Date Title
JP7223839B2 (ja) 異常検出および/または予知保全のためのコンピュータ実装方法、コンピュータプログラム製品およびシステム
CN109542740B (zh) 异常检测方法及装置
CN110362612B (zh) 由电子设备执行的异常数据检测方法、装置和电子设备
US11250177B2 (en) Systems and methods for modeling, analyzing, detecting, and monitoring fluid networks
CN112188531A (zh) 异常检测方法、装置、电子设备及计算机存储介质
US11002630B2 (en) Systems and methods for modeling, analyzing, detecting, and monitoring fluid networks
Oliker et al. Minimum volume ellipsoid classification model for contamination event detection in water distribution systems
US11200352B2 (en) Systems and methods for modeling, analyzing, detecting, and monitoring fluid networks
US20130173215A1 (en) Adaptive trend-change detection and function fitting system and method
EP1820170B1 (fr) Suppression de fausses alertes parmi les alertes produites dans un systeme d'informations surveille
CN110858072B (zh) 设备运行状态的确定方法及装置
CN115329904B (zh) 一种判别人口数据的离群点检测方法、系统和存储介质
JP2020068025A (ja) 履歴及び時系列の共同分析に基づく異常の特性評価のためのシステム及び方法
CN115587670A (zh) 一种基于指标图谱的产品质量诊断方法及装置
JP2011170518A (ja) 状態監視装置及び方法
CN113961548B (zh) 用水量时序数据的异常值处理方法和异常值处理装置
Marais et al. Comparing statistical process control charts for fault detection in wastewater treatment
CN112882898B (zh) 基于大数据日志分析的异常检测方法、系统、设备及介质
CN110458713B (zh) 模型监控方法、装置、计算机设备及存储介质
CN117113247A (zh) 基于二分类和聚类算法的排水系统异常监测方法、设备及存储介质
CN115238779B (zh) 一种云盘的异常检测方法、装置、设备及介质
Du et al. Generalized polynomial chaos-based fault detection and classification for nonlinear dynamic processes
CN113296990B (zh) 时序数据的异常识别方法及装置
CN111695829B (zh) 一种指标波动周期计算方法、装置、存储介质及电子设备
Oliker et al. Comparison of two multivariate classification models for contamination event detection in water quality time series

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant