CN105426441B - 一种时间序列自动预处理方法 - Google Patents

一种时间序列自动预处理方法 Download PDF

Info

Publication number
CN105426441B
CN105426441B CN201510750509.2A CN201510750509A CN105426441B CN 105426441 B CN105426441 B CN 105426441B CN 201510750509 A CN201510750509 A CN 201510750509A CN 105426441 B CN105426441 B CN 105426441B
Authority
CN
China
Prior art keywords
time series
data
sample
row
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510750509.2A
Other languages
English (en)
Other versions
CN105426441A (zh
Inventor
莫益军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201510750509.2A priority Critical patent/CN105426441B/zh
Publication of CN105426441A publication Critical patent/CN105426441A/zh
Application granted granted Critical
Publication of CN105426441B publication Critical patent/CN105426441B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Abstract

本发明公开了一种时间序列自动预处理方法,包括以下步骤:对待处理的时间序列进行行列扫描;提取处理后时间序列的数据模式特征;根据处理得到的不同模式特征和状态进行预处理元组合;根据预处理元组合的结果对数据清洗的数据质量进行评估。本发明能够解决现有方法中存在的自动化预处理流程复杂、预处理参数调整会影响后期数据挖掘、时空颗粒度选择产生不可预测结果的技术问题。

Description

一种时间序列自动预处理方法
技术领域
本发明属于大数据技术领域,更具体地,涉及一种时间序列自动预处理方法。
背景技术
信息技术和互联网的发展产生了海量数据,为各行各业的智能决策提供了依据。由于时序序列反映了数据随时间变化的模式、异常和趋势,用户能从中发现系统异常、挖掘行为模式、预测未来状态。单时间序列本身具有时效性、数据格式和取值标准具有较大变化、此外还存在缺失、异常和不一致等情况。因此,对时间序列数据的预处理异常重要。现有的时间序列预处理基本是人工完成,在大数据分析处理中工作量达到甚至超过百分之八十。事实上,随着互联网的发展,时序数据和流式数据动态性较大,靠人工分析通常滞后较多,无法满足数据模型构建及数据挖掘的需求。
鉴于此,业内开始研究自适应和自动数据预处理模型和挖掘算法,其重心主要集中在预处理自动参数调整和自动化预处理算法组合。包括采用领域知识、信息熵和粒子群进行参数调整,或采用遗传算法和工作流进行自动预处理算法组合。
然而,目前的自动预处理算法存在以下问题:
1、自动化预处理流程复杂:为实现时间序列的自动预处理,需遵循一套可扩展、灵活和全面的预处理流程,涵盖格式处理、数据集成、数据采样、模式提取和数据变换等各方面,但具体的组合方式与时间序列本身的模式及数据挖掘的目标密切相关;
2、预处理参数调整会影响后期数据挖掘:预处理过程中不仅涉及到流程,还涉及到每个预处理单元门限参数的设置,门限设置不仅影响到样本的归属,还将对后期的数据挖掘处理产生影响;
时空颗粒度选择会产生不可预测的结果:时间序列预处理与其他数据最大的区别在于,不同时间粒度的聚合将会产生不同的结果。如,对收入序列来说,每天的收入几乎无规律可循,但周收入则呈现明显的周期性,叠加收入将呈现明显的线性特征。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种时间序列自动预处理方法,其目的在于,解决现有方法中存在的自动化预处理流程复杂、预处理参数调整会影响后期数据挖掘、时空颗粒度选择产生不可预测结果的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种时间序列自动预处理方法,包括以下步骤:
(1)对待处理的时间序列进行行列扫描;
(2)提取步骤(1)处理后时间序列的数据模式特征;
(3)根据步骤(2)处理得到的不同模式特征和状态进行预处理元组合;
(4)根据预处理元组合的结果对数据清洗的数据质量进行评估。
优选地,步骤(1)包括以下子步骤:
(1.1)对时间序列的行进行扫描,其中若第i行中的元素个数mi与时间序列的属性个数M不一致时,则将该行直接剔除,其中i为自然数;
(1.2)对时间序列的列进行扫描,该列空值数为n,相邻的三个有值、空值和有值次数分别为ni-1,ni,ni+1,当满足下式时保留该列,否则将该列剔除;
其中,N为列总数,e为自然常数;
(1.3)对行列剔除后的时间序列进行数据格式规范的一致性检查。
优选地,步骤(1.3)包括以下子步骤:
(1.3.1)对于时间序列中的二值型数据属性,对该时间序列进行频度统计,按频度由高到低进行排名,排名第3位及以后的数据即可标示数据格式不一致;
(1.3.2)对于标签型数据,检查频度由低到高前3位,并检查其字符长度,若长度与其他标签型数据的字符长度相差超过2个字节,直接剔除,若长度与其他标签型数据的字符长度相似,则利用概念树进行剔除.
优选地,步骤(2)包括如下步骤:
(2-1)从时间序列中抽取某一属性列xi,其中0≤i≤n,判断该列是否为数值型,若是,则以小时、天、周和月为单位对样本数据进行归集合并,并对其进行基础的统计方法,以获得平均值方差σ、极大值max(xi)以及极小值min(xi),然后进入步骤(2-2),若不是数值型,则进入步骤(2-6);
(2-2)判断方差σ=0和下式是否同时成立,若成立则将该属性列的状态记为Ai,然后进入步骤(3),否则进入步骤(2-3);
(2-3)判断方差σ≠0和下式是否同时成立,若成立则将该属性列的状态记为Bi,然后进入步骤(3),否则进入步骤(2-4);
其中a为常数,其用于表示yi按照比例递增或者递减;
(2-4)分别以小时、天、周和月为单位对样本数据进行归集合并,并重复步骤(2-1)至步骤(2-3),以形成不同时间颗粒度的模式特征,若无法获取模式特征,则将该属性列的状态记为Ci
(2-5)判断步骤(2-2)或(2-3)的模式特征与步骤(2-4)中的模式特征是否一致,若不一致,则进入步骤(3),若一致则进入步骤(2-6);
(2-6)统计非数值型属性列中不同的值出现的频次Pi,并构建该属性的概率直方图特征;
(2-7)以小时、天、周和月为单位对样本数据进行归集合并,重复步骤2-6来构建新的概率直方图特征,判断新构建的概率直方图特征是否与步骤2-6构建出来的不一致,若不一致则将该属性列的状态记为Di,然后进入步骤(3),否则进入步骤(2-8);
(2-8)以标识属性为关联,统计非数值属性两个不同值同时出现的次数Pi,j
(2-9)以小时、天、周和月为单位对样本数据进行归集合并,重复步骤(2-8)来统计新出现次数,判断新统计出来的次数是否与步骤(2-8)统计出来的不一致,若不一致则将该属性列的状态记为Ei,并进入步骤(3),否则直接进入步骤(3)。
优选地,步骤(3)包括如下步骤:
(3-1)构建包括抽样Sa、差分Di、积分In、概率密度Ps、相似度Si、数据变换Tr、数据规范Un、回归Re、频繁项集Pi、分类Ca和聚类Cu在内的预处理元,其中第i个处理元记做Pro(i);
(3-2)分别设置每个预处理元的前置条件Pr(i)和后置条件Su(i);
(3-3)对于步骤(2)中的四种不同状态,分别建立可用预处理元集合;
(3-4)根据步骤(2)中确定的状态构建预处理元组合;
(3-5)若为状态Ai,引入序列xi,依次遍历Sa、Di、In、Ps、Si、Tr、Un、Re,每遍历一个预处理元,计算是否满足公式若连续不满足的次数超过10次,则将该预处理元剔除,最终形成预处理元组合Com{Pr o(i)};
(3-6)完成预处理元组合后,对不满足条件的样本xi,需对其进行清洗,清洗后的样本修正为xi',该xi'满足下式确定的平方和最小条件;
(3-7)若为状态Di和Ei,计算是否满足相似度条件或保证概率分布保持一致,若连续10次不满足,则将该预处理元剔除,最终形成预处理元组合Com{Pro(i),0≤i≤n};
(3-8)完成预处理元组合后,不满足相似度条件的样本xi,需对其进行清洗,清洗后的样本修正为xi',该xi'应是的概率相似度最大。
优选地,步骤(4)包括如下步骤:
(4-1)对于清洗后的数据评估其平稳性,具体方法为将时间序列进行等时间间隔,并判断平均值和方差是否为常数,若为常数则结束清洗,否则进入步骤(4-2);
(4-2)若上述均值发生变换,可进行n阶差分变换,若方差变化,可对其使用均方根变换或对数变换,判断是否获得稳定的时间序列,若满足则结束清洗,否则进入步骤(4-3);
(4-3)将清洗后的时间序列按皮尔逊χ2检验判断其正态性,由
判断是否满足χ2正态性条件,若满足则结束清洗,否则进入步骤(4-4);
(4-4)按下式检验清洗后时间序列的样本熵,判断其样本熵是否不再发生变化,若不再发生变化则可结束清洗,否则返回步骤(2)重新清洗;
的数目
其中,sample表示时间序列的样本熵,N表示时间长度,r为相似容限,m为维数,其中,m取1或者2,r在0.1到0.25之间任意取值;d[xm+1(i),xm+1(j)]表示两个元素xm+1(i),xm+1(j)的距离;对每一个i值,统计d[xm+1(i),xm+1(j)]<r的个数,其统计数目为Xm+1(r)就是所有i的的平均值;
(4-5)按照下式检验清洗后时间序列的离散化程度,判断离散化程度是否小于1,若小于1则可结束清洗,否则返回步骤2重新清洗;
离散化程度=log128Vamount
其中,Vamount为时间序列中出现不重复次数的值的数量。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
较强的自学习性:随着移动互联网、物联网和复杂系统运行,每天会产生大量的时间序列,时间序列属性也由数值型、标签型、离散型、文本型向更多类型发展,时间序列的颗粒度和数据样本数据也会存在不同的变化,因此,本发明的方法具有较强的自学习性;
兼容性好:本发明的兼容性主要体现为预处理方法不仅适用于已知数据样本和值,也适用于未出现的样本值。对于随系统升级的数据格式和规范变换也具有前向兼容性;
高质性:本发明在预处理过程中,以数据的稳定性、正态性和信息熵作为反馈依据,以保障数据的质量,为后期数据分析提供高质量数据。
附图说明
图1是本发明时间序列自动预处理方法的总体流程图。
图2时间序列行列及属性一致性处理流程。
图3时间序列属性一致性处理流程。
图4时间序列的模式特征提取流程。
图5时间序列预处理元组合流程。
图6预处理组合示意图。
图7数据质量评估及反馈流程。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明主要包括四个过程:
数据清洗:数据清洗主要是发现并解决数据缺失、数据噪声、字段错位、格式错误等显而易见的错误,并剔除过分稀疏的属性,为下一步预处理提供纯净无差错的原始数据。
模式提取:模式提取是在数据抽样、属性选择、数据变换和数据规范化前,应用统计和概率方法提取数据样本的平均值、极大值、极小值、差分、积分和二阶导等模式,及不同时间窗口的模式特征。
预处理元组合:预处理元组合是基于模式提取结果,选择数据抽样、积分、差分、概率密度、相似度计算、数据变换和数据规范等处理元,并根据属性不同及属性的层次逻辑关系对这些预处理元进行组合,以便以最低成本为后期数据挖掘分析提供最优的数据样本集。
质量评估:质量评估是在正式进行数据挖掘分析前,对数据的质量进行评估,若不满足数据质量要求,则返回模式提取和预处理元组合进行迭代处理,以便获取较佳的质量评估。具体的数据质量评估指标包括平稳性、正态性、离散化程度、样本熵和排列组合熵等。
如图1所示,本发明的时间序列自动预处理方法包括以下步骤:
步骤1:对待处理的时间序列进行行列扫描;具体而言,本步骤能够降低数据的稀疏性和原始数据的差错率,为后续预处理步骤提供纯净无差错的原始数据;如图2所示,本步骤具体包括以下子步骤:
步骤1.1:对时间序列的行进行扫描,其中若第i(i为自然数)行中的元素个数mi(含空值)与时间序列的属性个数M不一致时,则将该行直接剔除;
步骤1.2:对时间序列的列进行扫描,该列空值数为n,相邻的三个有值、空值和有值次数分别为ni-1,ni,ni+1,当满足下式1时保留该列,否则将该列剔除;
其中,N为列总数,e为自然常数,约为2.71828。
步骤1.3:对行列剔除后的时间序列进行数据格式规范的一致性检查;如图3所示,本步骤包括以下子步骤:
步骤1.3.1:对于时间序列中的二值型数据属性,对该时间序列进行频度统计,按频度由高到低进行排名,排名第3位及以后的数据即可标示数据格式不一致;
步骤1.3.2:对于标签型数据,则检查频度由低到高前3位,并检查其字符长度,若长度与其他标签型数据的字符长度相差超过2个字节,直接剔除,若长度与其他标签型数据的字符长度相似,则可利用概念树进行剔除;
步骤2:由步骤1剔除了空缺、错误和不一致的数据,本步骤主要是提取步骤1处理后时间序列的数据模式特征。具体包括如下步骤,如图4所示:
步骤2-1:从时间序列中抽取某一属性列xi,其中0≤i≤n,判断该列是否为数值型,若是,则以小时、天、周和月为单位对样本数据进行归集合并,并对其进行基础的统计方法,以获得平均值方差σ、极大值max(xi)以及极小值min(xi),然后进入步骤2-2,若不是数值型,则进入步骤2-6;
步骤2-2:判断方差σ=0和下式2是否同时成立,若成立则将该属性列的状态记为Ai,然后进入步骤3,否则进入步骤2-3;
步骤2-3:判断方差σ≠0和下式3是否同时成立,若成立则将该属性列的状态记为Bi,然后进入步骤3,否则进入步骤2-4;
其中a为常数,表示yi按照比例递增或者递减。
步骤2-4:分别以小时、天、周和月为单位对样本数据进行归集合并,并重复步骤2-1至步骤2-3的步骤,以形成不同时间颗粒度的模式特征,若无法获取模式特征,则将该属性列的状态记为Ci
步骤2-5:判断步骤2-2或2-3的模式特征与2-4中的模式特征是否一致,若不一致,则进入步骤3,若一致则进入步骤2-6;
步骤2-6:统计非数值型属性列中不同的值出现的频次Pi,并构建该属性的概率直方图特征;
步骤2-7:以小时、天、周和月为单位对样本数据进行归集合并,重复步骤2-6来构建新的概率直方图特征,判断新构建的概率直方图特征是否与步骤2-6构建出来的不一致,若不一致则将该属性列的状态记为Di,然后进入步骤3,否则进入步骤2-8;
步骤2-8:以标识(用户标识或设备标识)属性为关联,统计非数值属性两个不同值同时出现的次数Pi,j
步骤2-9:以小时、天、周和月为单位对样本数据进行归集合并,重复步骤2-8来统计新出现次数,判断新统计出来的次数是否与步骤2-8统计出来的不一致,若不一致则将该属性列的状态记为Ei,并进入步骤3,否则直接进入步骤3;
步骤3:根据步骤2处理得到的不同模式特征和状态进行预处理元组合,目的是进行自动最优组合,既能保证预处理任务的顺利就行,又能最大限度地降低预处理的运算复杂度,具体包括如下步骤,如图5所示:
步骤3-1:构建包括抽样(Sa)、差分(Di)、积分(In)、概率密度(Ps)、相似度(Si)、数据变换(Tr)、数据规范(Un)、回归(Re)、频繁项集(Pi)、分类(Ca)和聚类(Cu)在内的预处理元,其中第i(i为自然数)个处理元记做Pro(i);
步骤3-2:分别设置每个预处理元的前置条件Pr(i)和后置条件Su(i);
步骤3-3:对于步骤2中四种不同的状态,分别建立可用预处理元集合,如表1所示;
表1不同状态的可用预处理元集合表
步骤3-4:根据步骤2中确定的状态和表1构建预处理元组合,如图6所示;
步骤3-5:若为状态Ai,引入序列xi,依次遍历Sa、Di、In、Ps、Si、Tr、Un、Re,每遍历一个预处理元,计算是否满足式2,若连续不满足的次数超过10次,则将该预处理元剔除,最终形成预处理元组合Com{Pro(i)};
步骤3-6:完成预处理元组合后,对不满足式2条件的样本xi,需对其进行清洗,清洗后的样本修正为xi',该xi'满足公式3确定的平方和最小条件;
步骤3-7:若为状态Di和Ei,计算是否满足相似度条件或保证概率分布保持一致,若连续10次不满足,则将该预处理元剔除,最终形成预处理元组合Com{Pro(i),0≤i≤n};
步骤3-8:完成预处理元组合后,不满足相似度条件的样本xi,需对其进行清洗,清洗后的样本修正为xi',该xi'应是的概率相似度最大。
步骤4:根据预处理元组合的结果对数据清洗的数据质量进行评估。通过步骤3可完成属性及其样本的清洗,由于清洗不足会导致无法完成正常的数据挖掘分析任务,但若过分清洗将导致数据挖掘无法获得最佳结论。本步骤主要是,若数据质量不佳则返回步骤2重新进行模式提取和预处理组合,否则完成数据清洗。具体包括如下步骤,如图7所示:
步骤4-1:对于清洗后的数据评估其平稳性,具体方法为将时间序列进行等时间间隔,并判断平均值和方差是否为常数,若为常数则结束清洗,否则进入步骤4-2;
步骤4-2:若上述均值发生变换,可进行n阶差分变换,若方差变化,可对其使用均方根变换或对数变换,判断是否获得稳定的时间序列,若满足则结束清洗,否则进入步骤4-3;
步骤4-3:将清洗后的时间序列按皮尔逊χ2检验判断其正态性,
判断是否满足χ2正态性条件,若满足则结束清洗,否则进入步骤4-4;
步骤4-4:按公式5检验清洗后时间序列的样本熵,判断其样本熵是否不再发生变化,若不再发生变化则可结束清洗,否则返回步骤2重新清洗;
其中,sample表示时间序列的样本熵,N表示时间长度,r为相似容限,m为维数,一般情况下,m取1或者2,r在0.1到0.25之间任意取值;d[xm+1(i),xm+1(j)]表示两个元素xm+1(i),xm+1(j)的距离;对每一个i值,统计d[xm+1(i),xm+1(j)]<r的个数,其统计数目为Xm+1(r)就是所有i的的平均值。
步骤4-5:按照式6检验清洗后时间序列的离散化程度,判断离散化程度是否小于1,若小于1则可结束清洗,否则返回步骤2重新清洗;
离散化程度=log128Vamount (公式6)
其中,Vamount为时间序列中出现不重复次数的值的数量。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种时间序列自动预处理方法,其特征在于,包括以下步骤:
(1)对待处理的时间序列进行行列扫描;
其中,步骤(1)包括以下子步骤:
(1.1)对时间序列的行进行扫描,其中若第i行中的元素个数mi与时间序列的属性个数M不一致时,则将该行直接剔除,其中i为自然数;
(1.2)对时间序列的列进行扫描,该列空值数为n,相邻的三个有值、空值和有值次数分别为ni-1,ni,ni+1,当满足下式时保留该列,否则将该列剔除;
其中,N为列总数,e为自然常数;
(1.3)对行列剔除后的时间序列进行数据格式规范的一致性检查;
(2)提取步骤(1)处理后时间序列的数据模式特征;
(3)根据步骤(2)处理得到的不同模式特征和状态进行预处理元组合;
(4)根据预处理元组合的结果对数据清洗的数据质量进行评估。
2.根据权利要求1所述的时间序列自动预处理方法,其特征在于,步骤(1.3)包括以下子步骤:
(1.3.1)对于时间序列中的二值型数据属性,对该时间序列进行频度统计,按频度由高到低进行排名,排名第3位及以后的数据即可标示数据格式不一致;
(1.3.2)对于标签型数据,检查频度由低到高前3位,并检查其字符长度,若长度与其他标签型数据的字符长度相差超过2个字节,直接剔除,若长度与其他标签型数据的字符长度相似,则利用概念树进行剔除。
3.根据权利要求2所述的时间序列自动预处理方法,其特征在于,步骤(2)包括如下步骤:
(2-1)从时间序列中抽取某一属性列xi,其中0≤i≤n,判断该列是否为数值型,若是,则以小时、天、周和月为单位对样本数据进行归集合并,并对其进行基础的统计方法,以获得平均值方差σ、极大值max(xi)以及极小值min(xi),然后进入步骤(2-2),若不是数值型,则进入步骤(2-6);
(2-2)判断方差σ=0和下式是否同时成立,若成立则将该属性列的状态记为Ai,然后进入步骤(3),否则进入步骤(2-3);
(2-3)判断方差σ≠0和下式是否同时成立,若成立则将该属性列的状态记为Bi,然后进入步骤(3),否则进入步骤(2-4);
其中a为常数,其用于表示yi按照比例递增或者递减;
(2-4)分别以小时、天、周和月为单位对样本数据进行归集合并,并重复步骤(2-1)至步骤(2-3),以形成不同时间颗粒度的模式特征,若无法获取模式特征,则将该属性列的状态记为Ci
(2-5)判断步骤(2-2)或(2-3)的模式特征与步骤(2-4)中的模式特征是否一致,若不一致,则进入步骤(3),若一致则进入步骤(2-6);
(2-6)统计非数值型属性列中不同的值出现的频次Pi,并构建该属性的概率直方图特征;
(2-7)以小时、天、周和月为单位对样本数据进行归集合并,重复步骤2-6来构建新的概率直方图特征,判断新构建的概率直方图特征是否与步骤2-6构建出来的不一致,若不一致则将该属性列的状态记为Di,然后进入步骤(3),否则进入步骤(2-8);
(2-8)以标识属性为关联,统计非数值属性两个不同值同时出现的次数Pi,j
(2-9)以小时、天、周和月为单位对样本数据进行归集合并,重复步骤(2-8)来统计新出现次数,判断新统计出来的次数是否与步骤(2-8)统计出来的不一致,若不一致则将该属性列的状态记为Ei,并进入步骤(3),否则直接进入步骤(3)。
4.根据权利要求3所述的时间序列自动预处理方法,其特征在于,步骤(3)包括如下步骤:
(3-1)构建包括抽样Sa、差分Di、积分In、概率密度Ps、相似度Si、数据变换Tr、数据规范Un、回归Re、频繁项集Pi、分类Ca和聚类Cu在内的预处理元,其中第i个处理元记做Pro(i);
(3-2)分别设置每个预处理元的前置条件Pr(i)和后置条件Su(i);
(3-3)对于步骤(2)中的四种不同状态,分别建立可用预处理元集合;
(3-4)根据步骤(2)中确定的状态构建预处理元组合;
(3-5)若为状态Ai,引入序列xi,依次遍历Sa、Di、In、Ps、Si、Tr、Un、Re,每遍历一个预处理元,计算是否满足公式若连续不满足的次数超过10次,则将该预处理元剔除,最终形成预处理元组合Com{Pr o(i)};
(3-6)完成预处理元组合后,对不满足条件的样本xi,需对其进行清洗,清洗后的样本修正为xi',该xi'满足下式确定的平方和最小条件;
(3-7)若为状态Di和Ei,计算是否满足相似度条件或保证概率分布保持一致,若连续10次不满足,则将该预处理元剔除,最终形成预处理元组合Com{Pro(i),0≤i≤n};
(3-8)完成预处理元组合后,不满足相似度条件的样本xi,需对其进行清洗,清洗后的样本修正为xi',该xi'应是的概率相似度最大。
5.根据权利要求4所述的时间序列自动预处理方法,其特征在于,步骤(4)包括如下步骤:
(4-1)对于清洗后的数据评估其平稳性,具体方法为将时间序列进行等时间间隔,并判断平均值和方差是否为常数,若为常数则结束清洗,否则进入步骤(4-2);
(4-2)若上述均值发生变换,可进行n阶差分变换,若方差变化,可对其使用均方根变换或对数变换,判断是否获得稳定的时间序列,若满足则结束清洗,否则进入步骤(4-3);
(4-3)将清洗后的时间序列按皮尔逊χ2检验判断其正态性,由
判断是否满足χ2正态性条件,若满足则结束清洗,否则进入步骤(4-4);
(4-4)按下式检验清洗后时间序列的样本熵,判断其样本熵是否不再发生变化,若不再发生变化则可结束清洗,否则返回步骤(2)重新清洗;
的数目
其中,sample表示时间序列的样本熵,N表示时间长度,r为相似容限,m为维数,其中,m取1或者2,r在0.1到0.25之间任意取值;d[xm+1(i),xm+1(j)]表示两个元素xm+1(i),xm+1(j)的距离;对每一个i值,统计d[xm+1(i),xm+1(j)]<r的个数,其统计数目为Xm+1(r)就是所有i的的平均值;
(4-5)按照下式检验清洗后时间序列的离散化程度,判断离散化程度是否小于1,若小于1则可结束清洗,否则返回步骤2重新清洗;
离散化程度=log128Vamount
其中,Vamount为时间序列中出现不重复次数的值的数量。
CN201510750509.2A 2015-11-05 2015-11-05 一种时间序列自动预处理方法 Active CN105426441B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510750509.2A CN105426441B (zh) 2015-11-05 2015-11-05 一种时间序列自动预处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510750509.2A CN105426441B (zh) 2015-11-05 2015-11-05 一种时间序列自动预处理方法

Publications (2)

Publication Number Publication Date
CN105426441A CN105426441A (zh) 2016-03-23
CN105426441B true CN105426441B (zh) 2018-10-16

Family

ID=55504653

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510750509.2A Active CN105426441B (zh) 2015-11-05 2015-11-05 一种时间序列自动预处理方法

Country Status (1)

Country Link
CN (1) CN105426441B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108628889B (zh) * 2017-03-21 2021-05-25 北京京东尚科信息技术有限公司 基于时间片的数据抽样方法、系统和装置
CN107832348B (zh) * 2017-10-19 2020-01-21 中通服咨询设计研究院有限公司 一种基于智能采集终端到云的网络数据流的处理方法
CN107862047B (zh) * 2017-11-08 2020-06-16 爱财科技有限公司 基于多个数据源的自然人数据处理方法和系统
CN108629980B (zh) * 2018-06-27 2020-04-07 石家庄铁道大学 一种通过控制交通流量改善空气质量的方法
CN109165818B (zh) * 2018-08-02 2022-02-08 国网湖北省电力有限公司电力科学研究院 一种用于电气设备风险评估的负点计算方法
CN114039744B (zh) * 2021-09-29 2024-02-27 中孚信息股份有限公司 一种基于用户特征标签的异常行为预测方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102651093A (zh) * 2012-03-31 2012-08-29 上海海洋大学 一种基于时间序列异常检测技术的海洋信息管理系统
CN104239489A (zh) * 2014-09-05 2014-12-24 河海大学 利用相似性搜索和改进bp神经网络预测水位的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102651093A (zh) * 2012-03-31 2012-08-29 上海海洋大学 一种基于时间序列异常检测技术的海洋信息管理系统
CN104239489A (zh) * 2014-09-05 2014-12-24 河海大学 利用相似性搜索和改进bp神经网络预测水位的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
云中心海量交通数据预处理技术概述与应用实例;李敏 等;《公路交通技术》;20151031(第5期);第102-106页 *
实时数据流的数据预处理与特征分析;朱凯;《中国优秀硕士学位论文全文数据库 信息科技辑》;20110515(第5期);第I138-743页 *

Also Published As

Publication number Publication date
CN105426441A (zh) 2016-03-23

Similar Documents

Publication Publication Date Title
CN105426441B (zh) 一种时间序列自动预处理方法
CN111882446B (zh) 一种基于图卷积网络的异常账户检测方法
CN109597968B (zh) 基于smt大数据的锡膏印刷性能影响因素分析方法
CN108470022B (zh) 一种基于运维管理的智能工单质检方法
CN108985380B (zh) 一种基于聚类集成的转辙机故障识别方法
CN101826090A (zh) 基于最优模型的web舆情趋势预测方法
CN111798312A (zh) 一种基于孤立森林算法的金融交易系统异常识别方法
CN109657978A (zh) 一种风险识别方法和系统
CN110942099A (zh) 一种基于核心点保留的dbscan的异常数据识别检测方法
CN104156403A (zh) 一种基于聚类的大数据常态模式提取方法及系统
CN104850868A (zh) 一种基于k-means和神经网络聚类的客户细分方法
CN109995611B (zh) 流量分类模型建立及流量分类方法、装置、设备和服务器
CN115794803B (zh) 一种基于大数据ai技术的工程审计问题监测方法与系统
CN111191720B (zh) 一种业务场景的识别方法、装置及电子设备
Chu et al. Co-training based on semi-supervised ensemble classification approach for multi-label data stream
CN112330095A (zh) 一种基于决策树算法的质量管理方法
CN108564465A (zh) 一种企业信用管理方法
CN112149922A (zh) 高速公路隧道下行线出入口区域事故严重程度预测方法
CN111507528A (zh) 一种基于cnn-lstm的股票长期趋势预测方法
CN110348480A (zh) 一种非监督异常数据检测算法
CN106991171A (zh) 基于智慧校园信息服务平台的话题发现方法
CN105930430A (zh) 一种基于非累积属性的实时欺诈检测方法及装置
CN110968570A (zh) 面向电商平台的分布式大数据挖掘系统
CN114776304A (zh) 一种深海矿产异常区识别的方法、装置、设备及介质
CN115034762A (zh) 一种岗位推荐方法、装置、存储介质、电子设备及产品

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant