CN108846058A - 一种时间序列中的异常数据校正方法、装置及处理设备 - Google Patents

一种时间序列中的异常数据校正方法、装置及处理设备 Download PDF

Info

Publication number
CN108846058A
CN108846058A CN201810556799.0A CN201810556799A CN108846058A CN 108846058 A CN108846058 A CN 108846058A CN 201810556799 A CN201810556799 A CN 201810556799A CN 108846058 A CN108846058 A CN 108846058A
Authority
CN
China
Prior art keywords
time series
time
correction
abnormal data
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810556799.0A
Other languages
English (en)
Inventor
李莹洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201810556799.0A priority Critical patent/CN108846058A/zh
Publication of CN108846058A publication Critical patent/CN108846058A/zh
Pending legal-status Critical Current

Links

Abstract

本说明书的一个实施例提供一种对时间序列中的异常数据进行校正的方法、装置及处理设备,该方法包括:对时间序列进行分解,至少分解出第一时间序列和第二时间序列,所述第一时间序列反映所述时间序列的变化趋势,所述第二时间序列反映所述时间序列的不规则变动;分别校正所述第一时间序列和/或所述第二时间序列;根据校正后的所述第一时间序列和/或校正后的所述第二时间序列生成校正后的所述时间序列。利用本发明技术方案,可以自动识别时间序列中的异常数据并进行自动校正,提高了异常数据校正的效率和准确度。

Description

一种时间序列中的异常数据校正方法、装置及处理设备
技术领域
本说明书实施例涉及数据处理技术领域,特别涉及一种时间序列中的异常数据校正方法、装置及处理设备。
背景技术
时间序列分析是一种应用广泛的分析方法,其主要目的是根据已有的历史数据对未来进行预测,通常应用在国民经济宏观控制、区域综合发展规划、企业经营管理、市场潜量预测、风险业务控制、气象预报、水文预报、地震前兆预报、农作物病虫灾害预报、环境污染控制等方面。
在时间序列分析中,时间序列中的异常数据的检测与校正是该领域的一个基础且重要的问题。异常数据会影响整个时间序列分析模型预测的准确率,例如,如果一个时间序列当中存在多个有影响的异常数据,会大大降低时间序列分析模型预测的准确率。
应该注意,上面对技术背景的介绍只是为了方便对本说明书实施例的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本说明书实施例的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。
发明内容
本说明书的一个实施例提供一种对时间序列中的异常数据进行校正的方法,能够提高异常数据校正的效率和准确度。
根据本说明书实施例的一个方面,提供一种对时间序列中的异常数据进行校正的方法,所述方法包括:
对时间序列进行分解,至少分解出第一时间序列和第二时间序列,所述第一时间序列反映所述时间序列的变化趋势,所述第二时间序列反映所述时间序列的不规则变动;
分别校正所述第一时间序列和/或所述第二时间序列;
根据校正后的所述第一时间序列和/或校正后的所述第二时间序列生成校正后的所述时间序列。
根据本说明书实施例的第二方面,提供一种如第一方面所述的方法,其中,所述校正所述第一时间序列包括:
对所述第一时间序列进行线性拟合或者非线性拟合,生成校正后的第一时间序列。
根据本说明书实施例的第三方面,提供一种如第一方面所述的方法,其中,所述校正所述第二时间序列包括:
对所述第二时间序列中超过规定的置信区间的异常数据进行校正。
根据本说明书实施例的第四方面,提供一种如第三方面所述的方法,其中,对所述异常数据进行校正包括:
利用所述第二时间序列的部分或全部数据校正所述异常数据。
根据本说明书实施例的第五方面,提供一种如第四方面所述的方法,其中,在所述异常数据处于所述第二时间序列的第一个时间单位内的情况下,用所述第二时间序列的平均值替换所述异常数据;
在所述异常数据处于所述第二时间序列的最后一个时间单位内的情况下,用所述第二时间序列的平均值替换所述异常数据;
在所述异常数据不处于所述第一个时间单位内并且也不处于所述最后一个时间单位内、并且所述异常数据是其所处的时间单位中的第m个数据的情况下,用所述异常数据所处的该时间单位的前一个时间单位的第m个数据和后一个时间单位内的第m个数据的平均值替换所述异常数据,其中m为自然数。
根据本说明书实施例的第六方面,提供一种如第四方面所述的方法,其中,利用所述时间序列的全部数据的平均值替换所述异常数据。
根据本说明书实施例的第七方面,提供一种如第五方面所述的方法,其中,所述时间序列还被分解出第三时间序列,并且,根据所述第三时间序列,以及校正后的所述第一时间序列和/或校正后的所述第二时间序列生成校正后的所述时间序列,
其中,所述第三时间序列反映所述时间序列的以第一时间为周期的周期变动,所述时间单位是所述第一时间的整数倍。
根据本说明书实施例的第八方面,提供一种如第三方面所述的方法,其中,所述置信区间对应的置信度为95%或99%。
根据本说明书实施例的第九方面,提供一种如第一方面所述的方法,其中,基于加法模型或乘法模型对所述时间序列进行分解。
根据本说明书实施例的第十方面,提供一种对时间序列中的异常数据进行校正的装置,其中,所述装置包括:
分解部,其对时间序列进行分解,至少分解出第一时间序列和第二时间序列,所述第一时间序列反映所述时间序列的变化趋势,所述第二时间序列反映所述时间序列的不规则变动;
校正部,其分别校正所述第一时间序列和/或所述第二时间序列;
合成部,其根据校正后的所述第一时间序列和/或校正后的所述第二时间序列生成校正后的所述时间序列。
根据本说明书实施例的第十一方面,提供一种对时间序列中的异常数据进行校正的处理设备,包括处理器及存储处理器可执行指令的存储器,所述指令被所述处理器执行时实现包括以下步骤:
对时间序列进行分解,至少分解出第一时间序列和第二时间序列,所述第一时间序列反映所述时间序列的变化趋势,所述第二时间序列反映所述时间序列的不规则变动;
分别校正所述第一时间序列和/或所述第二时间序列;
根据校正后的所述第一时间序列和/或校正后的所述第二时间序列生成校正后的所述时间序列。
根据本说明书实施例的第十二方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在被处理器执行时实现如第一至九任一方面所述的对时间序列中的异常数据进行校正的方法。
本发明的有益效果在于:通过对时间序列数据进行分解,并分别校正反映时间序列的变化趋势的第一时间序列和反应时间序列的不规则变动的第二时间序列,根据校正后的第一时间序列和/或校正后的第二时间序列生成校正后的时间序列,由此,能够自动识别时间序列中的异常数据并进行自动校正,提高了异常数据校正的效率和准确度。
参照后文的说明和附图,详细公开了本发明的特定实施方式,指明了本发明的原理可以被采用的方式。应该理解,本发明的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内,本发明的实施方式包括许多改变、修改和等同。
针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在,但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。
附图说明
所包括的附图用来提供对本说明书实施例的进一步的理解,其构成了说明书的一部分,用于例示本发明的实施方式,并与文字描述一起来阐释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本说明书实施例1的对时间序列中的异常数据进行校正的方法的一流程示意图;
图2是本说明书实施例1的对时间序列中的异常数据进行校正的方法的一个实例的示意图;
图3是本说明书实施例1的时间序列的时序示意图;
图4是本说明书实施例1的第一时间序列的时序示意图;
图5是本说明书实施例1的第三时间序列的时序示意图;
图6是本说明书实施例1的第二时间序列的时序示意图;
图7是本说明书实施例1的第一时间序列线性拟合的时序示意图;
图8是本说明书实施例1的校正前的第二时间序列的时序示意图;
图9是本说明书实施例1的校正后的第二时间序列的时序示意图;
图10是本说明书实施例1的校正前的时间序列和校正后的时间序列的对比时序示意图;
图11是本说明书实施例2的对时间序列中的异常数据进行校正的装置的一构成示意图。
具体实施方式
参照附图,通过下面的说明书,本发明的前述以及其它特征将变得明显。在说明书和附图中,具体公开了本发明的特定实施方式,其表明了其中可以采用本发明的原则的部分实施方式,应了解的是,本发明不限于所描述的实施方式,相反,本发明包括落入所附权利要求的范围内的全部修改、变型以及等同物。
在本说明书实施例中,术语“第一”、“第二”等用于对不同元素从称谓上进行区分,但并不表示这些元素的空间排列或时间顺序等,这些元素不应被这些术语所限制。术语“和/或”包括相关联列出的术语的一种或多个中的任何一个和所有组合。术语“包含”、“包括”、“具有”等是指所陈述的特征、元素、元件或组件的存在,但并不排除存在或添加一个或多个其他特征、元素、元件或组件。
在本说明书的实施例中,单数形式“一”、“该”等包括复数形式,应广义地理解为“一种”或“一类”而并不是限定为“一个”的含义;此外术语“所述”应理解为既包括单数形式也包括复数形式,除非上下文另外明确指出。此外术语“根据”应理解为“至少部分根据……”,术语“基于”应理解为“至少部分基于……”,除非上下文另外明确指出。
实施例1
在现有技术中,在识别出时间序列的异常数据以后,往往需要人工手动校正异常数据。这样不仅影响效率,而且需要人工确定异常数据的校正方式,因此,人工的经验和业务水平会对校正结果产生一定的影响,导致校正准确率较低。本说明书的实施例1提供一种对时间序列中的异常数据进行校正的方法。图1是本实施例的对时间序列中的异常数据进行校正的方法的一个示意图。如图1所示,该方法包括:
步骤101:对时间序列进行分解,至少分解出第一时间序列和第二时间序列,该第一时间序列反映时间序列的变化趋势,该第二时间序列反映时间序列的不规则变动;
步骤102:分别校正该第一时间序列和/或该第二时间序列;
步骤103:根据校正后的第一时间序列和/或校正后的第二时间序列生成校正后的所述时间序列。
根据本实施例,通过对时间序列数据进行分解,并分别校正反映时间序列的变化趋势的第一时间序列和反应时间序列的不规则变动的第二时间序列,根据校正后的第一时间序列和/或校正后的第二时间序列生成校正后的时间序列,由此,能够自动识别时间序列中的异常数据并进行自动校正,提高了异常数据校正的效率,并且能够提高异常数据校正的准确度。
在本实施例中,时间序列(又称动态数列)是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。时间序列往往存在一定的趋势性和周期性,同时在一定范围内具有正常的波动。时间序列的变动一般可以分为如下几类:长期趋势变动、季节变动、循环变动和不规则变动。长期趋势变动反映时间序列在较长时期内的变动的趋势,即反应时间序列的趋势性变动;季节变动反映时间序列在一年内随着时间的变化而发生的有规律的周期性变动,即反应时间序列的周期性;循环变动反映时间序列以若干年为周期所呈现出的规律性的变动;不规则变动是一种无规律可循的变动,即反应时间序列的波动,例如,该不规则变动可以是严格的随机变动,或者不规则的突发性变动。
在本实施例中,在步骤101中,可以将时间序列至少分解为两种分量时间序列,例如,时间序列可以分解为第一时间序列和第二时间序列,其中,该第一时间序列反映时间序列的变化趋势,该第二时间序列反映时间序列的不规则变动。例如,第一时间序列对应于长期趋势变动,第二时间序列对应于不规则变动。但是,本申请不限于此,时间序列还可以分解为第一时间序列、第二时间序列和第三时间序列,其中,第一时间序列和第二时间序列与前述第一时间序列、第二时间序列相同,第三时间序列反映时间序列的以第一时间为周期的周期变动,例如,第三时间序列对应于季节变动。时间序列还可以分解为第一时间序列、第二时间序列、第三时间序列和第四时间序列,其中,第一时间序列至第三时间序列与前述第一时间序列至第三时间序列相同,第四时间序列反映时间序列的以若干年为周期的规律性变动,例如,第四时间序列对应于循环变动。在对时间序列进行分解时,可以根据时间序列中数据的含义、研究目的来确定一个具体的时间序列包括哪几类变动、采取哪种组合形式。
在本实施例中,在步骤101中,可以采用多种方式对时间序列进行分解,只要该分解方式能够至少分解出前述第一时间序列和第二时间序列即可,本申请对时间序列的分解方式不作具体限制。
在本实施例中,在步骤101中,可以基于加法模型或乘法模型对时间序列进行分解。
在一个实施方式中,可以采用利用局部加权回归平滑的季节-趋势分解法(Seasonal and Trend decomposition using Loess,STL)对时间序列进行时序分解。STL分解法主要由内外两层循环迭代实现,假设时间序列(Y)由趋势项(对应于长期趋势变动)、周期项(对应于季节变动)和误差项(对应于不规则变动)叠加得到:Y=T+S+I,或者,时间序列由趋势项、周期项和误差项相乘得到:Y=T*S*I,其中,Y为未分解的时间序列(即,时间序列),T为趋势项(即,第一时间序列),S为周期项(即,第三时间序列),I为误差项(即,第二时间序列)。
以上说明仅是举例,在步骤101中也可以采用其他方法对第一时间序列进行分解。
在本实施例中,在步骤102中,在对第一时间序列进行校正时,可以对该第一时间序列进行线性拟合或者非线性拟合,生成校正后的第一时间序列。
通过对第一时间序列进行拟合,得到校正后的第一时间序列。在利用校正后的第一时间序列生成校正后的时间序列时,能够去除时间序列的长期趋势变动中的噪声,提高了时间序列的准确性。
在一个实施方式中,可以利用线性回归模型对第一时间序列进行线性拟合,得到相对于时间呈线性分布的校正后的第一时间序列;还可以利用非线性回归模型对第一时间序列进行曲性拟合,得到相对于时间呈曲线分布的校正后的第一时间序列。可以根据第一时间序列的性质和分析目的确定具体采用何种拟合方式。
在本实施例中,在步骤102中,在对第二时间序列进行校正时,可以对第二时间序列中超过规定的置信区间的异常数据进行校正。
通过根据第二时间序列判断异常数据,能够排除时间序列的长期趋势和季节变动对时间序列的影响,能够提高异常数据判断的准确性。
在本实施例中,异常数据是指时间序列中与平均值的偏差超过两倍标准差的数据。其中,与平均值的偏差超过三倍标准差的数据又称为高度异常的异常数据。置信区间是指由样本统计量所构造的总体参数的估计区间,在统计学中,一个概率样本的置信区间是对该样本的某个总体参数的区间估计,置信区间展现的是该参数的真实值以一定概率(置信度)落在测量结果的周围的程度。例如,置信度为95%的置信区间为[μ-1.96σ,μ+1.96σ],其中,μ表示均值,σ表示标准差,其含义是参数的真实值落入[μ-1.645σ,μ+1.645σ]的概率为95%;置信度为99%的置信区间为[μ-2.576σ,μ+2.576σ]。
在本实施例中,可以利用95%置信度对应的置信区间来判断时间序列的异常数据,或者,可以利用99%置信度对应的置信区间来判断时间序列的异常数据,或者,可以利用在95%-99%之间的置信度对应的置信区间来判断时间序列的异常数据。例如,在第二时间序列中的某一数据超过95%置信度对应的置信区间[μ-1.96σ,μ+1.96σ](其中,μ表示第二时间序列的均值,σ表示第二时间序列标准差)的情况下,该数据被判定为异常数据。
在本实施例中,在步骤102中,对异常数据进行校正包括:利用第二时间序列的部分或全部数据校正异常数据。
在一个实施方式中,在异常数据处于第二时间序列的第一个时间单位内的情况下,用第二时间序列的平均值替换异常数据;在异常数据处于第二时间序列的最后一个时间单位内的情况下,用第二时间序列的平均值替换异常数据;在异常数据不处于第一个时间单位内并且也不处于最后一个时间单位内、并且所述异常数据是其所处的时间单位中的第m个数据的情况下,用异常数据所处的该时间单位的前一个时间单位的第m个数据和后一个时间单位内的第m个数据的平均值替换异常数据,其中m为自然数。
例如,在对第二时间序列进行校正时,按照时间顺序依次判断第二时间序列的数据是否为异常数据,在该数据为异常数据时,根据该数据所在的时刻选择不同的校正方式:在该异常数据位于第一个规定的时间单位内或者位于最后一个规定的时间单位内时,利用第二时间序列的全部数据计算得到的平均值替换该异常数据;在该异常数据不是第一个规定的时间单位内的数据并且也不是最后一个规定的时间单位内的数据、并且所述异常数据是其所处的时间单位中的第m个数据的情况下,用异常数据所处的该时间单位的前一个时间单位的第m个数据和后一个时间单位内的第m个数据的平均值替换异常数据,其中m为自然数。
在按照时间顺序进行处理时,假设第二时间序列中包括N个时间单位,每个时间单位中包括M个数据。如果在第n(n是大于1小于N的正整数)个时间单位内的第m个数据被判定为异常数据,则利用第n-1个时间单位中的第m个数据(相当于相对于异常数据的前一个时间单位的数据)以及第n+1个时间单位中的第m个数据(相当于相对于异常数据的后一个时间单位的数据)的平均值替换该异常数据。
在一个实施方式中,利用第二时间序列的全部数据的平均值替换异常数据。
例如,在对第二时间序列进行校正时,不考虑异常数据的时刻,针对出现的异常数据均采用第二时间序列的全部数据的平均值进行替换。
在本实施例中,时间序列还可以被分解出第三时间序列,并且,根据第三时间序列,以及校正后的第一时间序列和/或校正后的第二时间序列生成校正后的时间序列,其中,第三时间序列反映时间序列的以第一时间为周期的周期变动,时间单位是第一时间的整数倍。
在一个实施方式中,该第一时间可以是年、季度、月、周、天等时间长度。例如,在第三时间序列反映出时间序列以周为单位发生周期性变动的情况下,在校正第二时间序列的异常数据时,可以将一个时间单位对应于一周。例如,若异常数据是时间序列的第一周的值,则用第二时间序列的均值替换该异常数据;若异常数据是时间序列的最后一周的值,则用第二时间序列的均值替换;若异常数据不是第一周或者最后一周的值,并且,异常数据出现在一周的第3天,则用异常数据的前一周的第三天的数据和后一周的第三天的数据的均值替换。或者,也可以将时间单位设置成第一时间的整数倍,例如,第一时间为周时,将一个时间单位设置月等。
通过以参考第一时间的方式设置时间单位,能够排除时间序列的周期性变化的影响,能够更准确的校正异常数据。
在本实施例中,在步骤103中,根据校正后的第一时间序列和/或校正后的第二时间序列生成校正后的时间序列。
在一个实施方式中,如果在时间序列分解时采用相加模型,则在生成校正后的时间序列时,也采用对应的相加模型;如果在时间序列分解时采用相乘模型,则在生成校正后的时间序列时,也采用对应的相乘模型。
在一个实施方式中,在校正时,可以仅校正第一时间序列,并且在生成校正后的时间序列时,使用校正后的第一时间序列和其他分量时间序列(例如,校正前的第二时间序列、第三时间序列、第四时间序列等)进行合成;或者,在校正时,可以仅校正第二时间序列,并且使用校正后的第二时间序列和其他分量时间序列(例如,校正前的第一时间序列、第三时间序列、第四时间序列等)进行合成,本申请对此不做进一步的限制,也就是说,在本申请的实施例中,只要对第一时间序列和第二时间序列中的至少一者进行校正,都能够达到对时间序列的异常值进行校正的目的。
图2是本实施例的对时间序列中的异常数据进行校正的方法的一个实例的示意图。以分解时间序列采用相加模型、分解得到第一时间序列、第二时间序列和第三时间序列为例进行示例性的说明。
如图2所示,对时间序列中的异常数据进行校正的方法的包括:
步骤201:对时间序列进行分解,得到第一时间序列、第二时间序列和第三时间序列;其中,对时间序列的分解方式的说明可以参考步骤101中的说明,此处不再赘述。
图3是时间序列的时序示意图,图4是第一时间序列的时序示意图,图5是第三时间序列的时序示意图,图6是第二时间序列的时序示意图。图3至图6的横轴表示时间(例如,横坐标“2017-10”表示2017年10月),纵轴表示数值。如图3至图6所示,图3所示时间序列分解为图4所示的第一时间序列、图5所示的第三时间序列、图6所示的第二时间序列,其中,该第一时间序列为趋势项(对应于长期趋势变动)、第三时间序列为周期项(对应于季节变动),第二时间序列为误差项(对应于不规则变动)。第一时间序列至第三时间序列在相同时刻对应的数据相加得到该时刻的时间序列的数据。
步骤202:对第一时间序列进行拟合;其中,对第一时间序列的校正方式的说明可以参考步骤102中的说明,可以是线性拟合也可以是非线性拟合。
图7是第一时间序列线性拟合的时序示意图。如图7所示,曲线701表示校正前第一时间序列,曲线702表示校正后的第一时间序列。通过对第一时间序列(趋势项)进行线性拟合,得到平稳上升的直线702,校正后的第一时间序列的数据落在该直线702上。其中,如图7所示,在横轴为“2017-10”附近,曲线701出现较大幅度的下降,通过拟合得到的校正后的第一时间序列去除了突发的数据变化,进而能够更加准确的反应时间序列的变化趋势。由此,利用该校正后的第一时间序列合成的新时间序列具有更高的准确性。
步骤203:对第二时间序列进行异常数据校正;其中,对第二时间序列的校正方式的说明可以参考步骤102中的说明,此处不再赘述。
图8是校正前的第二时间序列的时序示意图,图9是校正后的第二时间序列的时序示意图。如图8所示,采用置信度为95%的置信区间进行异常数据的检测,其中,图8中所示的直线801对应置信区间的上限μ+1.645σ,直线802对应置信区间的下限μ-1.645σ,其中,μ表示第二时间序列的均值,σ表示第二时间序列标准差。高于直线801或低于直线802的第二时间序列的数据均被判定为异常数据。此外,如果置信度为其它值,例如90%,直线801、802的位置会相应变化。
如图9所示,在校正异常数据时,根据异常数据的时刻,采用第二时间序列的部分或全部数据进行校正。在确定时间单位时,根据图5所示的第三时间序列的时序图可知,第三时间序列呈现以周为单位的周期性变动。在判断异常数据的时刻时可以将时间单位设定为周。例如,在异常数据出现在第一周或最后一周时,采用第二时间序列的全部数据的平均值替换该异常数据,在异常数据出现在中间时段时,即该异常数据不在第一周也不在最后一周,利用相对于该异常数据所在周的前一周和后一周的第二时间序列数据中与异常数据对应的数据的平均值替换该异常数据,得到如图9所示的校正后的第二时间序列。可见,校正后的第二时间序列的数据都分布在直线801和直线802之间,因此,校正后的第二时间序列去除了异常数据,利用该校正后的第二时间序列合成的新时间序列具有更高的准确性。
步骤204:根据校正后的第一时间序列和校正后的第二时间序列生成新时间序列;其中,生成方式与步骤103的方式相同,此处不再赘述。
图10是校正前的时间序列和校正后的时间序列的对比时序示意图。如图10所示,曲线1001表示校正前的时间序列,曲线1002表示校正后的时间序列。由于在时间序列分解时采用了加法模型,因此,在合成新时间序列时,将校正后的第一时间序列、校正后的第二时间序列、第三时间序列进行相加,得到合成的新时间序列。
值得注意的是,以上图1至图10仅对本说明书的一个或多个实施例进行了示意性说明,但本发明不限于此。例如可以适当地调整各个步骤之间的执行顺序,此外还可以增加其他的一些步骤或者减少其中的某些步骤。本领域的技术人员可以根据上述内容进行适当地变型,而不仅限于以上图1至图10的记载。
由上述实施例可知,通过对时间序列数据进行分解,并分别校正反映时间序列的变化趋势的第一时间序列和反应时间序列的不规则变动的第二时间序列,根据校正后的第一时间序列和/或校正后的第二时间序列生成校正后的时间序列,由此,能够自动识别时间序列中的异常数据并进行自动校正,提高了异常数据校正的效率,并且能够提高异常数据校正的准确度。
实施例2
本说明书的另一个实施例提供一种对时间序列中的异常数据进行校正的装置,本实施例2与实施例1相同的内容不再赘述。
图11是实施例2的对时间序列中的异常数据进行校正的装置的一个构成示意图。如图11所示,对时间序列中的异常数据进行校正的装置1100包括:分解部1101,其对时间序列进行分解,至少分解出第一时间序列和第二时间序列,第一时间序列反映时间序列的变化趋势,第二时间序列反映时间序列的不规则变动;校正部1102,其分别校正第一时间序列和第二时间序列;合成部1103,其根据校正后的第一时间序列和/或校正后的第二时间序列生成校正后的时间序列。
根据本实施例,通过对时间序列数据进行分解,并分别校正反映时间序列的变化趋势的第一时间序列和反应时间序列的不规则变动的第二时间序列,根据校正后的第一时间序列和/或校正后的第二时间序列生成校正后的时间序列,由此,能够自动识别时间序列中的异常数据并进行自动校正,提高了异常数据校正的效率,并且能够提高异常数据校正的准确度。
在本实施例中,校正部1102对第一时间序列进行线性拟合或者非线性拟合,生成校正后的第一时间序列。
在本实施例中,校正部1102对第二时间序列中超过规定的置信区间的异常数据进行校正。
在本实施例中,校正部1102利用第二时间序列的部分或全部数据校正异常数据。
在本实施例中,校正部1102在异常数据是第一个时间单位内的值的情况下,用第二时间序列的平均值替换异常数据;在异常数据处于第二时间序列的第一个时间单位内的情况下,用第二时间序列的平均值替换所述异常数据;在异常数据处于第二时间序列的最后一个时间单位内的情况下,用第二时间序列的平均值替换异常数据;在异常数据不处于第一个时间单位内并且也不处于最后一个时间单位内、并且所述异常数据是其所处的时间单位中的第m个数据的情况下,用异常数据所处的该时间单位的前一个时间单位的第m个数据和后一个时间单位内的第m个数据的平均值替换异常数据,其中m为自然数。
在本实施例中,校正部1102利用第二时间序列的平均值替换异常数据。
在本实施例中,分解部1101在分解时间序列时,还可以分解出第三时间序列。根据第三时间序列,以及校正后的第一时间序列和/或校正后的第二时间序列生成校正后的时间序列,其中,第三时间序列反映时间序列的以第一时间为周期的周期变动,时间单位是所述第一时间的整数倍。
在本实施例中,置信区间对应的置信度为95%或99%。
在本实施例中,分解部1101基于加法模型或乘法模型对时间序列进行分解。
根据本实施例,通过对时间序列数据进行分解,并分别校正反映时间序列的变化趋势的第一时间序列和反应时间序列的不规则变动的第二时间序列,根据校正后的第一时间序列和/或校正后的第二时间序列生成校正后的时间序列,由此,能够自动识别时间序列中的异常数据并进行自动校正,提高了异常数据校正的效率,并且能够提高异常数据校正的准确度。
本说明书提供的上述实施例所述的方法或装置可以通过计算机程序实现业务逻辑并记录在存储介质上,所述的存储介质可以计算机读取并执行,实现本说明书实施例所描述方案的效果。因此,本说明书的另一个实施例还提供一种计算机可读程序,该计算机程序在被处理器执行时实现如实施例1所述的对时间序列中的异常数据进行校正的方法。
本说明书的另一个实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序在被处理器执行时实现如实施例1所述的对时间序列中的异常数据进行校正的方法。
所述存储介质可以包括用于存储信息的物理装置,通常是将信息数字化后再以利用电、磁或者光学等方式的媒体加以存储。所述存储介质有可以包括:利用电能方式存储信息的装置如,各式存储器,如RAM、ROM等;利用磁能方式存储信息的装置如,硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘;利用光学方式存储信息的装置如,CD或DVD。当然,还有其他方式的可读存储介质,例如量子存储器、石墨烯存储器等等。
本说明书实施例提供的方法可以在计算机中由处理器执行相应的程序指令来实现,如使用windows操作系统的c++语言在PC端实现,或其他例如Linux、android、iOS系统相对应的应用设计语言集合必要的硬件实现,或者基于量子计算机的处理逻辑实现等。因此,本说明书还提供一种对时间序列中的异常数据进行校正的处理设备,包括处理器及存储处理器可执行指令的存储器,所述指令被所述处理器执行时实现包括以下步骤:
对时间序列进行分解,至少分解出第一时间序列和第二时间序列,第一时间序列反映时间序列的变化趋势,第二时间序列反映时间序列的不规则变动;
分别校正第一时间序列和/或第二时间序列;
根据校正后的第一时间序列和/或校正后的第二时间序列生成校正后的时间序列。
需要说明的,上述所述的装置或处理设备根据方法实施例的描述还可以包括其他的实施方式。具体的实现方式可以参照相关方法实施例的描述,在此不作一一赘述。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于硬件+程序类、存储介质+程序实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
结合本说明书实施例描述的操作控制系统可直接体现为硬件、由处理器执行的软件模块或二者组合。例如,图11中所示的功能框图中的一个或多个和/或功能框图的一个或多个组合,既可以对应于计算机程序流程的各个软件模块,亦可以对应于各个硬件模块。这些软件模块,可以分别对应于实施例1所示的各个步骤。这些硬件模块例如可利用现场可编程门阵列(FPGA)将这些软件模块固化而实现。
软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域已知的任何其它形式的存储介质。可以将一种存储介质耦接至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息;或者该存储介质可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该软件模块可以存储在移动设备的存储器中,也可以存储在可插入移动设备的存储卡中。例如,若电子设备采用的是较大容量的MEGA-SIM卡或者大容量的闪存装置,则该软件模块可存储在该MEGA-SIM卡或者大容量的闪存装置中。
针对附图中描述的功能框图中的一个或多个和/或功能框图的一个或多个组合,可以实现为用于执行本发明所描述功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑器件、分立硬件组件、或者其任意适当组合。针对附图描述的功能框图中的一个或多个和/或功能框图的一个或多个组合,还可以实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器、与DSP通信结合的一个或多个微处理器或者任何其它这种配置。
以上结合具体的实施方式对本发明进行了描述,但本领域技术人员应该清楚,这些描述都是示例性的,并不是对本发明保护范围的限制。本领域技术人员可以根据本发明的原理对本发明做出各种变型和修改,这些变型和修改也在本发明的范围内。

Claims (12)

1.一种对时间序列中的异常数据进行校正的方法,所述方法包括:
对时间序列进行分解,至少分解出第一时间序列和第二时间序列,所述第一时间序列反映所述时间序列的变化趋势,所述第二时间序列反映所述时间序列的不规则变动;
分别校正所述第一时间序列和/或所述第二时间序列;
根据校正后的所述第一时间序列和/或校正后的所述第二时间序列生成校正后的所述时间序列。
2.根据权利要求1所述的方法,所述校正所述第一时间序列包括:
对所述第一时间序列进行线性拟合或者非线性拟合,生成校正后的第一时间序列。
3.根据权利要求1所述的方法,所述校正所述第二时间序列包括:
对所述第二时间序列中超过规定的置信区间的异常数据进行校正。
4.根据权利要求3所述的方法,对所述异常数据进行校正包括:
利用所述第二时间序列的部分或全部数据校正所述异常数据。
5.根据权利要求4所述的方法,其中,在所述异常数据处于所述第二时间序列的第一个时间单位内的情况下,用所述第二时间序列的平均值替换所述异常数据;
在所述异常数据处于所述第二时间序列的最后一个时间单位内的情况下,用所述第二时间序列的平均值替换所述异常数据;
在所述异常数据不处于所述第一个时间单位内并且也不处于所述最后一个时间单位内、并且所述异常数据是其所处的时间单位中的第m个数据的情况下,用所述异常数据所处的该时间单位的前一个时间单位的第m个数据和后一个时间单位内的第m个数据的平均值替换所述异常数据,其中m为自然数。
6.根据权利要求4所述的方法,其中,利用所述第二时间序列的全部数据的平均值替换所述异常数据。
7.根据权利要求5所述的方法,其中,
所述时间序列还被分解出第三时间序列,并且,根据所述第三时间序列,以及校正后的所述第一时间序列和/或校正后的所述第二时间序列生成校正后的所述时间序列,
其中,所述第三时间序列反映所述时间序列的以第一时间为周期的周期变动,所述时间单位是所述第一时间的整数倍。
8.根据权利要求3所述的方法,所述置信区间对应的置信度为95%或99%。
9.根据权利要求1所述的方法,基于加法模型或乘法模型对所述时间序列进行分解。
10.一种对时间序列中的异常数据进行校正的装置,所述装置包括:
分解部,其对时间序列进行分解,至少分解出第一时间序列和第二时间序列,所述第一时间序列反映所述时间序列的变化趋势,所述第二时间序列反映所述时间序列的不规则变动;
校正部,其分别校正所述第一时间序列和/或所述第二时间序列;
合成部,其根据校正后的所述第一时间序列和/或校正后的所述第二时间序列生成校正后的所述时间序列。
11.一种对时间序列中的异常数据进行校正的处理设备,包括处理器及存储处理器可执行指令的存储器,所述指令被所述处理器执行时实现包括以下步骤:
对时间序列进行分解,至少分解出第一时间序列和第二时间序列,所述第一时间序列反映所述时间序列的变化趋势,所述第二时间序列反映所述时间序列的不规则变动;
分别校正所述第一时间序列和/或所述第二时间序列;
根据校正后的所述第一时间序列和/或校正后的所述第二时间序列生成校正后的所述时间序列。
12.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在被处理器执行时实现如权利要求1至9中任意一项所述的对时间序列中的异常数据进行校正的方法。
CN201810556799.0A 2018-06-01 2018-06-01 一种时间序列中的异常数据校正方法、装置及处理设备 Pending CN108846058A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810556799.0A CN108846058A (zh) 2018-06-01 2018-06-01 一种时间序列中的异常数据校正方法、装置及处理设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810556799.0A CN108846058A (zh) 2018-06-01 2018-06-01 一种时间序列中的异常数据校正方法、装置及处理设备

Publications (1)

Publication Number Publication Date
CN108846058A true CN108846058A (zh) 2018-11-20

Family

ID=64211335

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810556799.0A Pending CN108846058A (zh) 2018-06-01 2018-06-01 一种时间序列中的异常数据校正方法、装置及处理设备

Country Status (1)

Country Link
CN (1) CN108846058A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008247A (zh) * 2018-12-13 2019-07-12 阿里巴巴集团控股有限公司 异常来源确定方法、装置、设备及计算机可读存储介质
CN110175637A (zh) * 2019-05-09 2019-08-27 北京工商大学 非平稳时序数据深度预测方法、系统、存储介质及设备
CN110930108A (zh) * 2019-10-21 2020-03-27 深圳技术大学 一种政务数据处理方法、系统、装置和存储介质
CN111931872A (zh) * 2020-09-27 2020-11-13 北京工业大数据创新中心有限公司 一种趋势性征兆的异常确定方法及装置
CN113961548A (zh) * 2021-09-22 2022-01-21 航天宏康智能科技(北京)有限公司 用水量时序数据的异常值处理方法和异常值处理装置
CN111291096B (zh) * 2020-03-03 2023-07-28 腾讯科技(深圳)有限公司 数据集构建方法、装置和存储介质及异常指标检测方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008247A (zh) * 2018-12-13 2019-07-12 阿里巴巴集团控股有限公司 异常来源确定方法、装置、设备及计算机可读存储介质
CN110008247B (zh) * 2018-12-13 2022-08-16 阿里巴巴集团控股有限公司 异常来源确定方法、装置、设备及计算机可读存储介质
CN110175637A (zh) * 2019-05-09 2019-08-27 北京工商大学 非平稳时序数据深度预测方法、系统、存储介质及设备
CN110930108A (zh) * 2019-10-21 2020-03-27 深圳技术大学 一种政务数据处理方法、系统、装置和存储介质
CN111291096B (zh) * 2020-03-03 2023-07-28 腾讯科技(深圳)有限公司 数据集构建方法、装置和存储介质及异常指标检测方法
CN111931872A (zh) * 2020-09-27 2020-11-13 北京工业大数据创新中心有限公司 一种趋势性征兆的异常确定方法及装置
CN111931872B (zh) * 2020-09-27 2021-11-16 北京工业大数据创新中心有限公司 一种趋势性征兆的异常确定方法及装置
CN113961548A (zh) * 2021-09-22 2022-01-21 航天宏康智能科技(北京)有限公司 用水量时序数据的异常值处理方法和异常值处理装置

Similar Documents

Publication Publication Date Title
CN108846058A (zh) 一种时间序列中的异常数据校正方法、装置及处理设备
US7865389B2 (en) Analyzing time series data that exhibits seasonal effects
Willekens Multistate analysis of life histories with R
Veloz et al. Modeling climate change impacts on tidal marsh birds: restoration and conservation planning in the face of uncertainty
Friedrich et al. Autoregressive wild bootstrap inference for nonparametric trends
Carrasco et al. Unsustainable development pathways caused by tropical deforestation
Torrielli et al. Long-term simulation of the mean wind speed
CN111176575A (zh) 基于Prophet模型的SSD寿命预测方法、系统、终端及存储介质
Lassila et al. Demographic forecasts and fiscal policy rules
Shan et al. Seasonal warranty prediction based on recurrent event data
CN112612822A (zh) 一种北斗坐标时间序列的预测方法、装置、设备和存储介质
CN116822997A (zh) 一种考虑绿色电力的实时碳排放核算方法及装置
Saracco et al. Integrating broad‐scale data to assess demographic and climatic contributions to population change in a declining songbird
CN114708007A (zh) 一种用于门店销售计划的智能分解方法及系统
Phillips Exploring the mysteries of trends and bubbles
KR20180129496A (ko) 전력 수요를 예측하는 방법 및 장치
CN116976686A (zh) 一种灾害间接经济影响评估方法、装置及计算设备
CN110390160A (zh) 一种时序信号的周期检测方法、装置及相关设备
Thorson Auxiliary and focal assessment models: a proof-of-concept involving time-varying catchability and fishery stock-status evaluation
Butterworth et al. Pretesting the likely efficacy of suggested management approaches to data-poor fisheries
CN111861259B (zh) 一种考虑时序性的负荷建模方法、系统、存储介质
De Felice Hydropower information for power system modelling: the JRC-EFAS-Hydropower dataset
Szekeres Checking the Evidence for Declining Discount Rates
Schenk The analog-method as statistical upscaling tool for meteorological field reconstructions over Northern Europe since 1850
CN111008749A (zh) 一种需求预测的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200924

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200924

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: Greater Cayman, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181120