CN113961548B

CN113961548B - 用水量时序数据的异常值处理方法和异常值处理装置

Info

Publication number: CN113961548B
Application number: CN202111103810.6A
Authority: CN
Inventors: 杜红艳; 贾福凯; 王若冰; 王潇茵; 师博雅
Original assignee: Aerospace Hongkang Intelligent Technology Beijing Co ltd
Current assignee: Aerospace Hongkang Intelligent Technology Beijing Co ltd
Priority date: 2021-09-22
Filing date: 2021-09-22
Publication date: 2022-03-25
Anticipated expiration: 2041-09-22
Also published as: CN113961548A

Abstract

公开用水量时序数据的异常值处理方法和异常值处理装置，所述异常值处理方法包括：检测所述用水量时序数据中的第一类型的异常值，并对所述第一类型的异常值进行第一校正，从而获得经过第一校正的用水量时序数据作为第一数据集；将所述第一数据集分解为趋势项数据、周期项数据和残余项数据，基于趋势项数据、周期项数据和残余项数据，确定第一数据集中的第二类型的异常值，并对第二类型的异常值进行第二校正，从而获得经过第二校正的第一数据集作为第二数据集；基于所述第二数据集中的各个异常值时刻的数据及其相邻数据，对所述第二数据集中的各个异常值时刻的数据进行校正。该异常值处理方法能够准确和快速地对用水量时序数据的异常值进行校正。

Description

用水量时序数据的异常值处理方法和异常值处理装置

技术领域

本公开总体说来涉及大数据技术领域，更具体地讲，涉及一种用水量时序数据的异常值处理方法和异常值处理装置。

背景技术

随着互联网和物联网等技术的发展，大数据技术被广泛应用到各行各业，例如水资源、交通、气象和电力等行业。为了保证数据的完备性和真实性，需要对数据的异常值进行检测和校正等方面的处理。对于数据的异常值处理，其难点在于，数据的采集、传输和汇聚等过程十分复杂，很容易造成数据错误，例如数据缺失等。此外，对于同时具有一定规律性、周期性和随机性的时间序列数据，进行处理的关键在于有效地挖掘规律、检测异常并校正数据。

根据异常数据的特点，数据的异常值可分为异常大值、异常小值、零值、负值和缺失值等类型。其中，零值和负值的成因复杂，需要筛选出来进行人工鉴别，在鉴别数据中的零值和负值是否是异常值时，需结合数据的实际情况来判定；异常大值和异常小值是区别于数据正常规律的值，不是简单的在某一阈值之外的数据，因为对于正常范围内的数据，如果与邻近时刻的数据规律不一致，也应该判断为异常值；缺失值一般是由客体异常造成的，若对缺失值只进行简单的删除或置零处理，则会对缺失值邻近时刻的数据准确性造成影响，因此需要对此类异常值进行校正。

数据中直观可辨识的异常值是可以由数值的变化幅度或统计曲线趋势直接获得的异常数据。对于监控系统的数据状态，直观可辨识的异常数据如下：①数值连续为零；②数值连续不变；③数值突变过大、过低或为零。

需要说明的是，仅仅依靠数据特征来检测异常值往往都有不全面性，存在误报的情况。对于取水数据来说，基于数据特征只能找出“疑似异常值”，还需要结合取水点的其它信息以及专家知识来进行准确性判断。因此，仅从数据特征分析层面得到的“疑似异常值”，与实际异常值存在一定差异。

在用水量时序数据的异常值处理方面，现有方法常常使用已有的经典算法，例如小波变换和EMD等，这些已有的经典算法对于非线性数据的特征获取能力不足，在考虑数据的趋势性、周期性和随机性时，难以对数据进行恰当的拟合；或者使用复杂算法，例如粒子群算法和神经网络等，这些复杂算法虽然能够拟合数据特征，但是数据处理的复杂度较高，在结合实时数据的复杂特征时，难以对数据进行快速的处理。

发明内容

本公开基于对数据的趋势性、周期性以及随机性进行分析，提供一种用水量时序数据的异常值处理方法和异常值处理装置，从而准确和快速地对用水量时序数据的异常值进行处理。

在一个总的方面，提供一种用水量时序数据的异常值处理方法，所述异常值处理方法包括：检测所述用水量时序数据中的第一类型的异常值，并对所述第一类型的异常值进行第一校正，从而获得经过第一校正的所述用水量时序数据作为第一数据集；将所述第一数据集分解为趋势项数据、周期项数据和残余项数据，基于所述趋势项数据、周期项数据和残余项数据，确定所述第一数据集中的第二类型的异常值，并对所述第二类型的异常值进行第二校正，从而获得经过第二校正的所述第一数据集作为第二数据集；基于所述第二数据集中的各个异常值时刻的数据及其相邻数据，对所述第二数据集中的各个异常值时刻的数据进行校正，其中，所述异常值时刻反映所述第一类型的异常值在所述用水量时序数据中的位置以及所述第二类型的异常值在所述第一数据集中的位置。

可选地，检测所述用水量时序数据中的第一类型的异常值的步骤包括：确定所述用水量时序数据中的零值和缺失值；基于所述用水量时序数据中除了所述零值和所述缺失值之外的数据，计算所述用水量时序数据的均值和标准差；基于所述用水量时序数据的均值和标准差，利用拉伊达准则确定所述用水量时序数据中的异常大值和异常小值；将所述用水量时序数据中的所述零值、缺失值、异常大值和异常小值确定为所述第一类型的异常值。

可选地，所述第一校正包括：将所述第一类型的异常值替换为所述用水量时序数据的均值；以及所述第二校正包括：将所述第二类型的异常值替换为所述用水量时序数据的均值。

可选地，将所述第一数据集分解为趋势项数据、周期项数据和残余项数据的步骤包括：针对每个时刻中的任意一个时刻，基于所述第一数据集中与所述任意一个时刻相邻的多个数据，计算所述任意一个时刻的趋势项值；基于所述第一数据集的每个时刻的所述趋势项值，确定所述趋势项数据。

可选地，将所述第一数据集分解为趋势项数据、周期项数据和残余项数据的步骤还包括：从所述第一数据集剔除所述趋势项数据，得到第三数据集；基于所述第三数据集，计算任意一个预设周期的周期项数据，其中，所述第三数据集的整个时间序列包括多个预设周期；通过将所述任意一个预设周期的周期项数据在所述第三数据集的整个时间序列上迭代复制，得到所述周期项数据，其中，通过以下等式计算所述任意一个预设周期内的每个时刻t的周期项值

：

其中，所述任意一个预设周期的长度为C，第三数据集的完整周期数为N，且

，len表示时间序列的长度，[ ]表示取整操作，

，

表示时刻t在所述任意一个预设周期的位置，且

，%表示时刻t对所述任意一个预设周期的长度C取余，V表示周期项数据的偏移值，

表示第三数据集

在位置

的数据的均值；其中，基于所述任意一个预设周期内的每个时刻的所述周期项值，确定所述任意一个预设周期的周期项数据。

可选地，将所述第一数据集分解为趋势项数据、周期项数据和残余项数据的步骤还包括：从所述第一数据集剔除所述趋势项数据和所述周期项数据，得到所述残余项数据。

可选地，基于所述趋势项数据、周期项数据和残余项数据，确定所述第一数据集中的第二类型的异常值的步骤包括：基于所述趋势项数据和所述周期项数据，确定所述用水量时序数据的数据趋势序列；基于所述残余项数据针对所述数据趋势序列的偏离程度，确定所述第一数据集中的第二类型的异常值。

可选地，基于所述残余项数据针对所述数据趋势序列的偏离程度，确定所述第一数据集中的第二类型的异常值的步骤包括：针对每个时刻，计算所述残余项数据与所述数据趋势序列的偏差比率；当任意一个时刻的所述残余项数据与所述数据趋势序列的偏差比率大于预设阈值时，将所述第一数据集中的该时刻的数据确定为所述第二类型的异常值。

可选地，基于所述第二数据集中的各个异常值时刻的相邻数据，对所述第二数据集中的各个异常值时刻的数据进行校正的步骤包括：针对任意一个异常值时刻，基于所述第二数据集中的所述任意一个异常值时刻的数据及其相邻数据，计算所述任意一个异常值时刻的趋势项修正值和残余项修正值；基于所述任意一个异常值时刻的趋势项修正值和残余项修正值以及周期项值，计算所述任意一个异常值时刻的修正值；通过将所述第二数据集中的各个异常值时刻的数据替换为所述修正值，对所述第二数据集中的各个异常值时刻的数据进行校正。

在另一总的方面，提供一种用水量时序数据的异常值处理装置，所述异常值处理装置包括：数据检测单元，被配置为检测所述用水量时序数据中的第一类型的异常值，并对所述第一类型的异常值进行第一校正，从而获得经过第一校正的所述用水量时序数据作为第一数据集；数据分解单元，被配置为将所述第一数据集分解为趋势项数据、周期项数据和残余项数据，基于所述趋势项数据、周期项数据和残余项数据，确定所述第一数据集中的第二类型的异常值，并对所述第二类型的异常值进行第二校正，从而获得经过第二校正的所述第一数据集作为第二数据集；数据校正单元，被配置为基于所述第二数据集中的各个异常值时刻的数据及其相邻数据，对所述第二数据集中的各个异常值时刻的数据进行校正，其中，所述异常值时刻反映所述第一类型的异常值在所述用水量时序数据中的位置以及所述第二类型的异常值在所述第一数据集中的位置。

可选地，数据检测单元被配置为：确定所述用水量时序数据中的零值和缺失值；基于所述用水量时序数据中除了所述零值和所述缺失值之外的数据，计算所述用水量时序数据的均值和标准差；基于所述用水量时序数据的均值和标准差，利用拉伊达准则确定所述用水量时序数据中的异常大值和异常小值；将所述用水量时序数据中的所述零值、缺失值、异常大值和异常小值确定为所述第一类型的异常值。

可选地，数据分解单元被配置为：针对每个时刻中的任意一个时刻，基于所述第一数据集中与所述任意一个时刻相邻的多个数据，计算所述任意一个时刻的趋势项值；基于所述第一数据集的每个时刻的所述趋势项值，确定所述趋势项数据。

可选地，数据分解单元被配置为：从所述第一数据集剔除所述趋势项数据，得到第三数据集；基于所述第三数据集，计算任意一个预设周期的周期项数据，其中，所述第三数据集的整个时间序列包括多个预设周期；通过将所述任意一个预设周期的周期项数据在所述第三数据集的整个时间序列上迭代复制，得到所述周期项数据，其中，通过以下等式计算所述任意一个预设周期内的每个时刻t的周期项值

：

，len表示时间序列的长度，[ ]表示取整操作

，

表示时刻t在所述任意一个预设周期的位置，且

表示第三数据集

在位置

可选地，数据分解单元被配置为：从所述第一数据集剔除所述趋势项数据和所述周期项数据，得到所述残余项数据。

可选地，数据分解单元被配置为：基于所述趋势项数据和所述周期项数据，确定所述用水量时序数据的数据趋势序列；基于所述残余项数据针对所述数据趋势序列的偏离程度，确定所述第一数据集中的第二类型的异常值。

可选地，数据分解单元被配置为：针对每个时刻，计算所述残余项数据与所述数据趋势序列的偏差比率；当任意一个时刻的所述残余项数据与所述数据趋势序列的偏差比率大于预设阈值时，将所述第一数据集中的该时刻的数据确定为所述第二类型的异常值。

可选地，数据校正单元被配置为：针对任意一个异常值时刻，基于所述第二数据集中的所述任意一个异常值时刻的数据及其相邻数据，计算所述任意一个异常值时刻的趋势项修正值和残余项修正值；基于所述任意一个异常值时刻的趋势项修正值和残余项修正值以及周期项值，计算所述任意一个异常值时刻的修正值；通过将所述第二数据集中的各个异常值时刻的数据替换为所述修正值，对所述第二数据集中的各个异常值时刻的数据进行校正。

在另一总的方面，提供一种存储有计算机程序的计算机可读存储介质，其特征在于，当所述计算机程序被处理器执行时，实现如上所述的用水量时序数据的异常值处理方法。

在另一总的方面，提供一种计算装置，所述计算装置包括：处理器；和存储器，存储有计算机程序，当所述计算机程序被处理器执行时，实现如上所述的用水量时序数据的异常值处理方法。

根据本公开的实施例的用水量时序数据的异常值处理方法和异常值处理装置可以充分考虑到数据的趋势性、周期性和随机性等特征，在准确地拟合数据特征的基础上，得到更加接近真实值的数据异常值校正结果。此外，根据本公开的实施例的用水量时序数据的异常值处理方法和异常值处理装置，能够对数据进行分解和分层处理，从而快速地对用水量时序数据的异常值进行校正。

将在接下来的描述中部分阐述本公开总体构思另外的方面和/或优点，还有一部分通过描述将是清楚的，或者可以经过本公开总体构思的实施而得知。

附图说明

通过下面结合示出实施例的附图进行的描述，本公开的实施例的上述和其他目的和特点将会变得更加清楚，其中。

图1是示出根据本公开的实施例的用水量时序数据的异常值处理方法的流程图。

图2是示出根据本公开的实施例的检测用水量时序数据中的第一类型的异常值的方法的流程图。

图3是示出根据本公开的实施例的将第一数据集分解为趋势项数据、周期项数据和残余项数据的方法的流程图。

图4是示出根据本公开的实施例的确定第一数据集中的第二类型的异常值的方法的流程图。

图5是示出根据本公开的实施例的对第二数据集中的各个异常值时刻的数据进行校正的方法的流程图。

图6是示出根据本公开的实施例的用水量时序数据的异常值处理装置的框图。

图7是示出根据本公开的实施例的计算装置的框图。

具体实施方式

提供下面的具体实施方式以帮助读者获得对在此描述的方法、设备和/或系统的全面理解。然而，在理解本申请的公开之后，在此描述的方法、设备和/或系统的各种改变、修改和等同物将是清楚的。例如，在此描述的操作的顺序仅是示例，并且不限于在此阐述的那些顺序，而是除了必须以特定的顺序发生的操作之外，可如在理解本申请的公开之后将是清楚的那样被改变。此外，为了更加清楚和简明，本领域已知的特征的描述可被省略。

在此描述的特征可以以不同的形式来实现，而不应被解释为限于在此描述的示例。相反，已提供在此描述的示例，以仅示出实现在此描述的方法、设备和/或系统的许多可行方式中的一些可行方式，所述许多可行方式在理解本申请的公开之后将是清楚的。

如在此使用的，术语“和/或”包括相关联的所列项中的任何一个以及任何两个或更多个的任何组合。

尽管在此可使用诸如“第一”、“第二”和“第三”的术语来描述各种构件、组件、区域、层或部分，但是这些构件、组件、区域、层或部分不应被这些术语所限制。相反，这些术语仅用于将一个构件、组件、区域、层或部分与另一构件、组件、区域、层或部分进行区分。因此，在不脱离示例的教导的情况下，在此描述的示例中所称的第一构件、第一组件、第一区域、第一层或第一部分也可被称为第二构件、第二组件、第二区域、第二层或第二部分。

在说明书中，当元件（诸如，层、区域或基底）被描述为“在”另一元件上、“连接到”或“结合到”另一元件时，该元件可直接“在”另一元件上、直接“连接到”或“结合到”另一元件，或者可存在介于其间的一个或多个其他元件。相反，当元件被描述为“直接在”另一元件上、“直接连接到”或“直接结合到”另一元件时，可不存在介于其间的其他元件。

在此使用的术语仅用于描述各种示例，并不将用于限制公开。除非上下文另外清楚地指示，否则单数形式也意在包括复数形式。术语“包含”、“包括”和“具有”说明存在叙述的特征、数量、操作、构件、元件和/或它们的组合，但不排除存在或添加一个或多个其他特征、数量、操作、构件、元件和/或它们的组合。

除非另有定义，否则在此使用的所有术语（包括技术术语和科学术语）具有与由本公开所属领域的普通技术人员在理解本公开之后通常理解的含义相同的含义。除非在此明确地如此定义，否则术语（诸如，在通用词典中定义的术语）应被解释为具有与它们在相关领域的上下文和本公开中的含义一致的含义，并且不应被理想化或过于形式化地解释。

此外，在示例的描述中，当认为公知的相关结构或功能的详细描述将引起对本公开的模糊解释时，将省略这样的详细描述。

根据本公开的实施例的用水量时序数据的异常值处理方法和异常值处理装置可以充分考虑到数据的趋势性、周期性和随机性等特征，在准确地拟合数据特征的基础上，得到的数据异常值校正结果更加接近真实值；并且可以对数据进行分解和分层处理，即使在用水量时序数据不断更新变化的情况下，也能够快速地对数据中的异常值进行校正。

下面将参照图1至图7对根据本公开的实施例的用水量时序数据的异常值处理方法和异常值处理装置进行详细描述。

参照图1，在步骤S101中，可检测用水量时序数据中的第一类型的异常值，并对第一类型的异常值进行第一校正，从而获得经过第一校正的用水量时序数据作为第一数据集

。这里，第一类型的异常值可以是直观可辨识的异常值，即，无需使用复杂的算法，通过十分简单的计算步骤就能够判断的异常值。进一步讲，第一校正可以是将第一类型的异常值替换为后面将描述的用水量时序数据的均值

。下面参照图2描述检测用水量时序数据中的第一类型的异常值的方法。

参照图2，在步骤S201中，可确定用水量时序数据中的零值和缺失值。

接下来，在步骤S202中，可基于用水量时序数据中除了零值和缺失值之外的数据，计算用水量时序数据的均值

和标准差

。

接下来，在步骤S203中，可基于用水量时序数据的均值和标准差，利用拉伊达准则（即3

准则）确定用水量时序数据中的异常大值和异常小值。具体地讲，可假定用水量时序数据近似于正态分布，并且用水量时序数据含有随机误差，因此可按照概率确定误差区域，认定超过误差区域的数值为异常大值或异常小值。更具体地讲，根据正态分布的特性，用水量时序数据分布在

的概率为0.9973，即超出

范围的数据量不到0.3%，那么可以认定在

范围之外的数值为异常大值或异常小值。

接下来，在步骤S204中，可将用水量时序数据中的零值、缺失值、异常大值和异常小值确定为第一类型的异常值。如上所述，第一类型的异常值无需使用复杂的算法，通过十分简单的计算步骤就能够确定。

返回参照图1，在步骤S102中，可将第一数据集分解为趋势项数据

、周期项数据

和残余项数据

，基于趋势项数据、周期项数据和残余项数据，确定第一数据集中的第二类型的异常值，并对第二类型的异常值进行第二校正，从而获得经过第二校正的第一数据集作为第二数据集。这里，趋势项数据可表示第一数据集的趋势性成分，周期项数据可表示第一数据集的周期性成分，残余项数据可表示第一数据集的随机性成分，并且可通过等式（1）来表示第一数据集、趋势项数据、周期项数据和残余项数据的数值关系。

（1）

进一步讲，第二类型的异常值可以是非直观可辨识的异常值，可通过数据分解的方式来确定。更进一步讲，第二校正可以是将第二类型的异常值替换为用水量时序数据的均值

。下面参照图3和图4描述图1中的步骤S102。

参照图3，在步骤S301中，可针对每个时刻中的任意一个时刻，基于第一数据集中与该任意一个时刻相邻的多个数据，计算该任意一个时刻的趋势项值。具体地讲，基于与t时刻相邻的m项数据，可以通过等式（2）得到t时刻的趋势项值。

（2）

这里，m值可表示为

。进一步讲，m值越大，用水量时序数据的不规则变动对趋势项值的影响越小，m值越小，用水量时序数据的不规则变动对趋势项值的影响越大；此外，k值可由本领域的技术人员根据实际情况来设置。

更进一步讲，

可表示趋势项值在t+j时刻的权值，即

越大，

的值对t时刻的趋势项值的影响越大，并且

。此外，

的值可由本领域的技术人员根据实际情况来设置，举例来讲，若假设相邻的m项数据对t时刻的趋势项值影响相同，则

的值可以设置为 1/(2k+1)；若要突出近期数据对趋势项值的影响，则

可以设置为

以及

。

接下来，在步骤S302中，可基于第一数据集的每个时刻的趋势项值，确定趋势项数据。

接下来，在步骤S303中，可从第一数据集剔除趋势项数据，得到第三数据集

。这里，可以通过等式（3）来表示第三数据集中t时刻的数值。

（3）

接下来，在步骤S304中，可基于第三数据集，计算任意一个预设周期的周期项数据。这里，第三数据集的整个时间序列包括多个预设周期。进一步讲，对于周期项数据，同一个预设周期的数据具有相同的特征，数据序列中每个预设周期的同一位置的数据取均值后加上偏移值即该位置对应的周期项值；更进一步讲，周期项数据具有对称性，即一个预设周期内的数据之和为零，因此在计算过程中还需要考虑周期项数据的偏移值，从而使最终得到的周期项数据满足一个预设周期内的数据之和为零的条件。

具体地讲，假设预设周期的长度为C，第三数据集

的完整周期数为N，则

，这里，len可表示时间序列的长度，方括号[ ]可表示取整操作；那么，t时刻的周期项值可表示为

，

。进一步假设时刻t对应于一个预设周期的位置

，则

，这里，百分号%可表示时刻t对预设周期的长度C取余。在此基础上，可以通过等式（4）、（5）和（6）求取t时刻的周期项值。

（4）

（5）

（6）

这里，V可表示周期项数据的偏移值，

可表示第三数据集

在位置

的数据的均值。

在计算得到该预设周期内的每个时刻t的周期项值之后，可基于该预设周期内的每个时刻的周期项值，确定该预设周期的周期项数据。换言之，可将该预设周期的每个时刻t的周期项值构成的序列作为该预设周期的周期项数据。

接下来，在步骤S305中，可通过将任意一个预设周期的周期项数据在第三数据集的整个时间序列上迭代复制，得到周期项数据。

举举例来讲，对于水资源监测点的日用水量数据，可按自然周为预设周期，即C=7；进一步地，可以计算每个周一的周期项值，即对第三数据集

中所有周一的数据求平均值；更进一步地，可以计算一个自然周内其他时间的周期项值，从而得到一个自然周的周期项数据

，

；然后，可以将一个自然周的周期项数据

迭代复制到第三数据集

，从而得到整个日用水量数据的周期项数据

。

接下来，在步骤S306中，可从第一数据集剔除趋势项数据和周期项数据，得到残余项数据。这里，可以用等式（7）表示残余项数据在t时刻的残余项值。

（7）

下面参照图4描述根据本公开的实施例的确定第一数据集中的第二类型的异常值的方法。

参照图4，在步骤S401中，可基于趋势项数据和周期项数据，确定用水量时序数据的数据趋势序列

。这里，由于趋势项数据和周期项数据可以代表用水量时序数据的整体趋势，所以可以通过残余项数据与数据趋势序列的偏离程度来判断数据是否异常。进一步讲，可以通过等式（8）来表示数据趋势序列在t时刻的数值。

（8）

接下来，可基于残余项数据针对数据趋势序列的偏离程度，确定第一数据集中的第二类型的异常值。下面的步骤S402和S403具体描述了这一操作过程。

具体地讲，在步骤S402中，可针对每个时刻，计算残余项数据与数据趋势序列的偏差比率

。这里，计算残余项数据与数据趋势序列的偏差比率是为了找到用水量时序数据中的局部突变点。可以通过等式（9）来表示t时刻的偏差比率。

（9）

在步骤S403中，当任意一个时刻的残余项数据与数据趋势序列的偏差比率大于预设阈值时，可将第一数据集中的该时刻的数据确定为第二类型的异常值。这里，由于偏差比率越大，数据异常的可能性就越大，因此可以由本领域的技术人员根据实际情况设置阈值

，

，然后可以认定偏差比率大于

的数据为异常值。如上所述，可以对第二类型的异常值进行第二校正，从而获得经过第二校正的第一数据集作为第二数据集。

返回参照图1，在步骤S103中，可基于第二数据集中的各个异常值时刻的数据及其相邻数据，对第二数据集中的各个异常值时刻的数据进行校正。这里，异常值时刻反映第一类型的异常值在用水量时序数据中的位置以及第二类型的异常值在第一数据集中的位置。下面参照图5描述根据本公开的实施例的对第二数据集中的各个异常值时刻的数据进行校正的方法。

参照图5，在步骤S501中，可针对任意一个异常值时刻，基于第二数据集中的任意一个异常值时刻的数据及其相邻数据，计算任意一个异常值时刻的趋势项修正值

和残余项修正值

。

具体地讲，对于趋势项数据

，基于与t异常值时刻相邻的L项数据，可以通过等式（10）得到t异常值时刻的趋势项修正值。

（10）

这里，L值与如上所述的m值的数量关系可表示为

，并且L值为偶数；此外，L值可由本领域的技术人员根据实际情况来设置。

进一步讲，

可表示趋势项值在t+r时刻的权值，即

越大，

的值对t异常值时刻的趋势项值的影响越大，并且

。此外，

的值可由本领域的技术人员根据实际情况来设置，举例来讲，若假设相邻的L项数据对t时刻的趋势项值影响相同，则

的值可以设置为 1/L。

同时，对于残余项数据

，基于与t异常值时刻相邻的L项数据，可以通过等式（11）得到t异常值时刻的残余项修正值。

（11）

这里，L值如上所述。

进一步讲，

可表示残余项值在t+r时刻的权值，即

越大，

的值对t异常值时刻的残余项值的影响越大，并且

。此外，

的值可由本领域的技术人员根据实际情况来设置，举例来讲，若假设相邻的L项数据对t时刻的残余项值影响相同，则

的值可以设置为 1/L。

更具体地讲，由于周期项数据是在剔除趋势项数据以后得到的用水量时序数据中的平稳数据，并且周期项数据具有对称性，即一个预设周期内的数据之和为零，还考虑到周期项值相对较小，所以忽略局部的异常值造成的影响，不针对周期项数据进行校正。

接下来，在步骤S502中，可基于任意一个异常值时刻的趋势项修正值和残余项修正值以及周期项值，计算任意一个异常值时刻的修正值

。这里，可以通过等式（12）来表示t异常值时刻的修正值。

（12）

接下来，在步骤S503中，可通过将第二数据集中的各个异常值时刻的数据替换为修正值，对第二数据集中的各个异常值时刻的数据进行校正。

根据本公开的实施例的用水量时序数据的异常值处理方法可以充分考虑到数据的趋势性、周期性和随机性等特征，在准确地拟合数据特征的基础上，得到更加接近真实值的数据异常值校正结果；并且可以对数据进行分解和分层处理，即使在用水量时序数据不断更新变化的情况下，也能够快速地对数据中的异常值进行校正。

图6是示出根据本公开的实施例的用水量时序数据的异常值处理装置的框图。根据本公开的实施例的用水量时序数据的异常值处理装置可以在具有足够运算能力的计算装置中实现。

参照图6，根据本公开的实施例的用水量时序数据的异常值处理装置600可包括数据检测单元610、数据分解单元620和数据校正单元630。

数据检测单元单元610可检测用水量时序数据中的第一类型的异常值，并对第一类型的异常值进行第一校正，从而获得经过第一校正的用水量时序数据作为第一数据集。

数据检测单元单元610可确定用水量时序数据中的零值和缺失值；基于用水量时序数据中除了零值和缺失值之外的数据，计算用水量时序数据的均值和标准差；基于用水量时序数据的均值和标准差，利用拉伊达准则确定用水量时序数据中的异常大值和异常小值；将用水量时序数据中的零值、缺失值、异常大值和异常小值确定为第一类型的异常值。

可选择地，第一校正可以是将第一类型的异常值替换为用水量时序数据的均值。

数据分解单元620可将第一数据集分解为趋势项数据、周期项数据和残余项数据，基于趋势项数据、周期项数据和残余项数据，确定第一数据集中的第二类型的异常值，并对第二类型的异常值进行第二校正，从而获得经过第二校正的第一数据集作为第二数据集。

可选择地，第二校正可以是将第二类型的异常值替换为用水量时序数据的均值。

数据分解单元620可针对每个时刻中的任意一个时刻，基于第一数据集中与该任意一个时刻相邻的多个数据，计算该任意一个时刻的趋势项值；基于第一数据集的每个时刻的趋势项值，确定趋势项数据。

数据分解单元620可从第一数据集剔除趋势项数据，得到第三数据集；基于第三数据集，计算任意一个预设周期的周期项数据，这里，第三数据集的整个时间序列包括多个预设周期；通过将任意一个预设周期的周期项数据在第三数据集的整个时间序列上迭代复制，得到周期项数据。可选择地，可通过如上所述的等式（4）、（5）和（6）计算任意一个预设周期内的每个时刻的周期项值；可基于任意一个预设周期内的每个时刻的周期项值，确定任意一个预设周期的周期项数据。

数据分解单元620可第一数据集剔除趋势项数据和周期项数据，得到残余项数据。

数据分解单元620可基于趋势项数据和周期项数据，确定用水量时序数据的数据趋势序列；基于残余项数据针对数据趋势序列的偏离程度，确定第一数据集中的第二类型的异常值。

可选择地，数据分解单元620可针对每个时刻，计算残余项数据与数据趋势序列的偏差比率；当任意一个时刻的残余项数据与数据趋势序列的偏差比率大于预设阈值时，将第一数据集中的该时刻的数据确定为第二类型的异常值。

数据校正单元630可基于第二数据集中的各个异常值时刻的数据及其相邻数据，对第二数据集中的各个异常值时刻的数据进行校正，这里，异常值时刻反映第一类型的异常值在用水量时序数据中的位置以及第二类型的异常值在第一数据集中的位置。

数据校正单元630可针对任意一个异常值时刻，基于第二数据集中的任意一个异常值时刻的数据及其相邻数据，计算任意一个异常值时刻的趋势项修正值和残余项修正值；基于任意一个异常值时刻的趋势项修正值和残余项修正值以及周期项值，计算任意一个异常值时刻的修正值；通过将第二数据集中的各个异常值时刻的数据替换为修正值，对第二数据集中的各个异常值时刻的数据进行校正。

图7是示出根据本公开的实施例的计算装置的框图。

参照图7，根据本公开的实施例的计算装置700可包括处理器710和存储器720。处理器710可包括（但不限于）中央处理器（CPU）、数字信号处理器（DSP）、微型计算机、现场可编程门阵列（FPGA）、片上系统（SoC）、微处理器、专用集成电路（ASIC）等。存储器720存储将由处理器710执行的计算机程序。存储器720包括高速随机存取存储器和/或非易失性计算机可读存储介质。当处理器710执行存储器720中存储的计算机程序时，可实现如上所述的用水量时序数据的异常值处理方法。

根据本公开的实施例的用水量时序数据的异常值处理方法可被编写为计算机程序并被存储在计算机可读存储介质上。当所述计算机程序被处理器执行时，可实现如上所述的用水量时序数据的异常值处理方法。计算机可读存储介质的示例包括：只读存储器（ROM）、随机存取可编程只读存储器（PROM）、电可擦除可编程只读存储器（EEPROM）、随机存取存储器（RAM）、动态随机存取存储器（DRAM）、静态随机存取存储器（SRAM）、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器（HDD）、固态硬盘（SSD）、卡式存储器（诸如，多媒体卡、安全数字（SD）卡或极速数字（XD）卡）、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

虽然已表示和描述了本公开的一些实施例，但本领域技术人员应该理解，在不脱离由权利要求及其等同物限定其范围的本公开的原理和精神的情况下，可以对这些实施例进行修改。

Claims

1.一种用水量时序数据的异常值处理方法，其特征在于，所述异常值处理方法包括：

检测所述用水量时序数据中的第一类型的异常值，并对所述第一类型的异常值进行第一校正，从而获得经过第一校正的所述用水量时序数据作为第一数据集；

将所述第一数据集分解为趋势项数据、周期项数据和残余项数据，基于所述趋势项数据、周期项数据和残余项数据，确定所述第一数据集中的第二类型的异常值，并对所述第二类型的异常值进行第二校正，从而获得经过第二校正的所述第一数据集作为第二数据集；

基于所述第二数据集中的各个异常值时刻的数据及其相邻数据，对所述第二数据集中的各个异常值时刻的数据进行校正，其中，所述异常值时刻反映所述第一类型的异常值在所述用水量时序数据中的位置以及所述第二类型的异常值在所述第一数据集中的位置，

其中，检测所述用水量时序数据中的第一类型的异常值的步骤包括：

确定所述用水量时序数据中的零值和缺失值；

基于所述用水量时序数据中除了所述零值和所述缺失值之外的数据，计算所述用水量时序数据的均值和标准差；

基于所述用水量时序数据的均值和标准差，利用拉伊达准则确定所述用水量时序数据中的异常大值和异常小值；

将所述用水量时序数据中的所述零值、缺失值、异常大值和异常小值确定为所述第一类型的异常值，

其中，基于所述趋势项数据、周期项数据和残余项数据，确定所述第一数据集中的第二类型的异常值的步骤包括：

基于所述趋势项数据和所述周期项数据，确定所述用水量时序数据的数据趋势序列；

基于所述残余项数据针对所述数据趋势序列的偏离程度，确定所述第一数据集中的第二类型的异常值，

其中，基于所述残余项数据针对所述数据趋势序列的偏离程度，确定所述第一数据集中的第二类型的异常值的步骤包括：

针对每个时刻，计算所述残余项数据与所述数据趋势序列的偏差比率；

当任意一个时刻的所述残余项数据与所述数据趋势序列的偏差比率大于预设阈值时，将所述第一数据集中的该时刻的数据确定为所述第二类型的异常值，

其中，基于所述第二数据集中的各个异常值时刻的相邻数据，对所述第二数据集中的各个异常值时刻的数据进行校正的步骤包括：

针对任意一个异常值时刻，基于所述第二数据集中的所述任意一个异常值时刻的数据及其相邻数据，计算所述任意一个异常值时刻的趋势项修正值和残余项修正值；

基于所述任意一个异常值时刻的趋势项修正值和残余项修正值以及周期项值，计算所述任意一个异常值时刻的修正值；

通过将所述第二数据集中的各个异常值时刻的数据替换为所述修正值，对所述第二数据集中的各个异常值时刻的数据进行校正。

2.如权利要求1所述的异常值处理方法，其特征在于，所述第一校正包括：将所述第一类型的异常值替换为所述用水量时序数据的均值；以及

所述第二校正包括：将所述第二类型的异常值替换为所述用水量时序数据的均值。

3.如权利要求2所述的异常值处理方法，其特征在于，将所述第一数据集分解为趋势项数据、周期项数据和残余项数据的步骤包括：

针对每个时刻中的任意一个时刻，基于所述第一数据集中与所述任意一个时刻相邻的多个数据，计算所述任意一个时刻的趋势项值；

基于所述第一数据集的每个时刻的所述趋势项值，确定所述趋势项数据。

4.如权利要求3所述的异常值处理方法，其特征在于，将所述第一数据集分解为趋势项数据、周期项数据和残余项数据的步骤还包括：

从所述第一数据集剔除所述趋势项数据，得到第三数据集；

基于所述第三数据集，计算任意一个预设周期的周期项数据，其中，所述第三数据集的整个时间序列包括多个预设周期；

通过将所述任意一个预设周期的周期项数据在所述第三数据集的整个时间序列上迭代复制，得到所述周期项数据，

其中，通过以下等式计算所述任意一个预设周期内的每个时刻t的周期项值

：

，len表示时间序列的长度，[ ]表示取整操作，

，

表示时刻t在所述任意一个预设周期的位置，且

， %表示时刻t对所述任意一个预设周期的长度C取余，V表示周期项数据的偏移值，

表示第三数据集

在位置

的数据的均值；

其中，基于所述任意一个预设周期内的每个时刻的所述周期项值，确定所述任意一个预设周期的周期项数据。

5.如权利要求4所述的异常值处理方法，其特征在于，将所述第一数据集分解为趋势项数据、周期项数据和残余项数据的步骤还包括：

从所述第一数据集剔除所述趋势项数据和所述周期项数据，得到所述残余项数据。

6.一种用水量时序数据的异常值处理装置，其特征在于，所述异常值处理装置包括：

数据检测单元，被配置为检测所述用水量时序数据中的第一类型的异常值，并对所述第一类型的异常值进行第一校正，从而获得经过第一校正的所述用水量时序数据作为第一数据集；

数据分解单元，被配置为将所述第一数据集分解为趋势项数据、周期项数据和残余项数据，基于所述趋势项数据、周期项数据和残余项数据，确定所述第一数据集中的第二类型的异常值，并对所述第二类型的异常值进行第二校正，从而获得经过第二校正的所述第一数据集作为第二数据集；

数据校正单元，被配置为基于所述第二数据集中的各个异常值时刻的数据及其相邻数据，对所述第二数据集中的各个异常值时刻的数据进行校正，其中，所述异常值时刻反映所述第一类型的异常值在所述用水量时序数据中的位置以及所述第二类型的异常值在所述第一数据集中的位置，

其中，数据检测单元还被配置为：

确定所述用水量时序数据中的零值和缺失值；

其中，数据分解单元还被配置为：

其中，数据校正单元还被配置为：

7.一种存储有计算机程序的计算机可读存储介质，其特征在于，当所述计算机程序被处理器执行时，实现如权利要求1至5中任意一项所述的用水量时序数据的异常值处理方法。

8.一种控制器，其特征在于，所述控制器包括：

处理器；和

存储器，存储有计算机程序，当所述计算机程序被处理器执行时，实现如权利要求1至5中任意一项所述的用水量时序数据的异常值处理方法。