CN105426441B

CN105426441B - 一种时间序列自动预处理方法

Info

Publication number: CN105426441B
Application number: CN201510750509.2A
Authority: CN
Inventors: 莫益军
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2015-11-05
Filing date: 2015-11-05
Publication date: 2018-10-16
Anticipated expiration: 2035-11-05
Also published as: CN105426441A

Abstract

本发明公开了一种时间序列自动预处理方法，包括以下步骤：对待处理的时间序列进行行列扫描；提取处理后时间序列的数据模式特征；根据处理得到的不同模式特征和状态进行预处理元组合；根据预处理元组合的结果对数据清洗的数据质量进行评估。本发明能够解决现有方法中存在的自动化预处理流程复杂、预处理参数调整会影响后期数据挖掘、时空颗粒度选择产生不可预测结果的技术问题。

Description

一种时间序列自动预处理方法

技术领域

本发明属于大数据技术领域，更具体地，涉及一种时间序列自动预处理方法。

背景技术

信息技术和互联网的发展产生了海量数据，为各行各业的智能决策提供了依据。由于时序序列反映了数据随时间变化的模式、异常和趋势，用户能从中发现系统异常、挖掘行为模式、预测未来状态。单时间序列本身具有时效性、数据格式和取值标准具有较大变化、此外还存在缺失、异常和不一致等情况。因此，对时间序列数据的预处理异常重要。现有的时间序列预处理基本是人工完成，在大数据分析处理中工作量达到甚至超过百分之八十。事实上，随着互联网的发展，时序数据和流式数据动态性较大，靠人工分析通常滞后较多，无法满足数据模型构建及数据挖掘的需求。

鉴于此，业内开始研究自适应和自动数据预处理模型和挖掘算法，其重心主要集中在预处理自动参数调整和自动化预处理算法组合。包括采用领域知识、信息熵和粒子群进行参数调整，或采用遗传算法和工作流进行自动预处理算法组合。

然而，目前的自动预处理算法存在以下问题：

1、自动化预处理流程复杂：为实现时间序列的自动预处理，需遵循一套可扩展、灵活和全面的预处理流程，涵盖格式处理、数据集成、数据采样、模式提取和数据变换等各方面，但具体的组合方式与时间序列本身的模式及数据挖掘的目标密切相关；

2、预处理参数调整会影响后期数据挖掘：预处理过程中不仅涉及到流程，还涉及到每个预处理单元门限参数的设置，门限设置不仅影响到样本的归属，还将对后期的数据挖掘处理产生影响；

时空颗粒度选择会产生不可预测的结果：时间序列预处理与其他数据最大的区别在于，不同时间粒度的聚合将会产生不同的结果。如，对收入序列来说，每天的收入几乎无规律可循，但周收入则呈现明显的周期性，叠加收入将呈现明显的线性特征。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种时间序列自动预处理方法，其目的在于，解决现有方法中存在的自动化预处理流程复杂、预处理参数调整会影响后期数据挖掘、时空颗粒度选择产生不可预测结果的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种时间序列自动预处理方法，包括以下步骤：

(1)对待处理的时间序列进行行列扫描；

(2)提取步骤(1)处理后时间序列的数据模式特征；

(3)根据步骤(2)处理得到的不同模式特征和状态进行预处理元组合；

(4)根据预处理元组合的结果对数据清洗的数据质量进行评估。

优选地，步骤(1)包括以下子步骤：

(1.1)对时间序列的行进行扫描，其中若第i行中的元素个数m_i与时间序列的属性个数M不一致时，则将该行直接剔除，其中i为自然数；

(1.2)对时间序列的列进行扫描，该列空值数为n，相邻的三个有值、空值和有值次数分别为n_i-1，n_i，n_i+1，当满足下式时保留该列，否则将该列剔除；

其中，N为列总数，e为自然常数；

(1.3)对行列剔除后的时间序列进行数据格式规范的一致性检查。

优选地，步骤(1.3)包括以下子步骤：

(1.3.1)对于时间序列中的二值型数据属性，对该时间序列进行频度统计，按频度由高到低进行排名，排名第3位及以后的数据即可标示数据格式不一致；

(1.3.2)对于标签型数据，检查频度由低到高前3位，并检查其字符长度，若长度与其他标签型数据的字符长度相差超过2个字节，直接剔除，若长度与其他标签型数据的字符长度相似，则利用概念树进行剔除.

优选地，步骤(2)包括如下步骤：

(2-1)从时间序列中抽取某一属性列x_i，其中0≤i≤n，判断该列是否为数值型，若是，则以小时、天、周和月为单位对样本数据进行归集合并，并对其进行基础的统计方法，以获得平均值方差σ、极大值max(x_i)以及极小值min(x_i)，然后进入步骤(2-2)，若不是数值型，则进入步骤(2-6)；

(2-2)判断方差σ＝0和下式是否同时成立，若成立则将该属性列的状态记为A_i，然后进入步骤(3)，否则进入步骤(2-3)；

(2-3)判断方差σ≠0和下式是否同时成立，若成立则将该属性列的状态记为B_i，然后进入步骤(3)，否则进入步骤(2-4)；

其中a为常数，其用于表示y_i按照比例递增或者递减；

(2-4)分别以小时、天、周和月为单位对样本数据进行归集合并，并重复步骤(2-1)至步骤(2-3)，以形成不同时间颗粒度的模式特征，若无法获取模式特征，则将该属性列的状态记为C_i；

(2-5)判断步骤(2-2)或(2-3)的模式特征与步骤(2-4)中的模式特征是否一致，若不一致，则进入步骤(3)，若一致则进入步骤(2-6)；

(2-6)统计非数值型属性列中不同的值出现的频次P_i，并构建该属性的概率直方图特征；

(2-7)以小时、天、周和月为单位对样本数据进行归集合并，重复步骤2-6来构建新的概率直方图特征，判断新构建的概率直方图特征是否与步骤2-6构建出来的不一致，若不一致则将该属性列的状态记为D_i，然后进入步骤(3)，否则进入步骤(2-8)；

(2-8)以标识属性为关联，统计非数值属性两个不同值同时出现的次数P_i,j，

(2-9)以小时、天、周和月为单位对样本数据进行归集合并，重复步骤(2-8)来统计新出现次数，判断新统计出来的次数是否与步骤(2-8)统计出来的不一致，若不一致则将该属性列的状态记为E_i，并进入步骤(3)，否则直接进入步骤(3)。

优选地，步骤(3)包括如下步骤：

(3-1)构建包括抽样Sa、差分Di、积分In、概率密度Ps、相似度Si、数据变换Tr、数据规范Un、回归Re、频繁项集Pi、分类Ca和聚类Cu在内的预处理元，其中第i个处理元记做Pro(i)；

(3-2)分别设置每个预处理元的前置条件Pr(i)和后置条件Su(i)；

(3-3)对于步骤(2)中的四种不同状态，分别建立可用预处理元集合；

(3-4)根据步骤(2)中确定的状态构建预处理元组合；

(3-5)若为状态A_i，引入序列x_i，依次遍历Sa、Di、In、Ps、Si、Tr、Un、Re，每遍历一个预处理元，计算是否满足公式若连续不满足的次数超过10次，则将该预处理元剔除，最终形成预处理元组合Com{Pr o(i)}；

(3-6)完成预处理元组合后，对不满足条件的样本x_i，需对其进行清洗，清洗后的样本修正为x_i'，该x_i'满足下式确定的平方和最小条件；

(3-7)若为状态D_i和E_i，计算是否满足相似度条件或保证概率分布保持一致，若连续10次不满足，则将该预处理元剔除，最终形成预处理元组合Com{Pro(i),0≤i≤n}；

(3-8)完成预处理元组合后，不满足相似度条件的样本x_i，需对其进行清洗，清洗后的样本修正为x_i'，该x_i'应是的概率相似度最大。

优选地，步骤(4)包括如下步骤：

(4-1)对于清洗后的数据评估其平稳性，具体方法为将时间序列进行等时间间隔，并判断平均值和方差是否为常数，若为常数则结束清洗，否则进入步骤(4-2)；

(4-2)若上述均值发生变换，可进行n阶差分变换，若方差变化，可对其使用均方根变换或对数变换，判断是否获得稳定的时间序列，若满足则结束清洗，否则进入步骤(4-3)；

(4-3)将清洗后的时间序列按皮尔逊χ²检验判断其正态性，由

判断是否满足χ²正态性条件，若满足则结束清洗，否则进入步骤(4-4)；

(4-4)按下式检验清洗后时间序列的样本熵，判断其样本熵是否不再发生变化，若不再发生变化则可结束清洗，否则返回步骤(2)重新清洗；

的数目

其中，sample表示时间序列的样本熵，N表示时间长度，r为相似容限，m为维数，其中，m取1或者2，r在0.1到0.25之间任意取值；d[x_m+1(i),x_m+1(j)]表示两个元素x_m+1(i),x_m+1(j)的距离；对每一个i值，统计d[x_m+1(i),x_m+1(j)]＜r的个数，其统计数目为X^m+1(r)就是所有i的的平均值；

(4-5)按照下式检验清洗后时间序列的离散化程度，判断离散化程度是否小于1，若小于1则可结束清洗，否则返回步骤2重新清洗；

离散化程度＝log₁₂₈Vamount

其中，Vamount为时间序列中出现不重复次数的值的数量。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

较强的自学习性：随着移动互联网、物联网和复杂系统运行，每天会产生大量的时间序列，时间序列属性也由数值型、标签型、离散型、文本型向更多类型发展，时间序列的颗粒度和数据样本数据也会存在不同的变化，因此，本发明的方法具有较强的自学习性；

兼容性好：本发明的兼容性主要体现为预处理方法不仅适用于已知数据样本和值，也适用于未出现的样本值。对于随系统升级的数据格式和规范变换也具有前向兼容性；

高质性：本发明在预处理过程中，以数据的稳定性、正态性和信息熵作为反馈依据，以保障数据的质量，为后期数据分析提供高质量数据。

附图说明

图1是本发明时间序列自动预处理方法的总体流程图。

图2时间序列行列及属性一致性处理流程。

图3时间序列属性一致性处理流程。

图4时间序列的模式特征提取流程。

图5时间序列预处理元组合流程。

图6预处理组合示意图。

图7数据质量评估及反馈流程。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明主要包括四个过程：

数据清洗：数据清洗主要是发现并解决数据缺失、数据噪声、字段错位、格式错误等显而易见的错误，并剔除过分稀疏的属性，为下一步预处理提供纯净无差错的原始数据。

模式提取：模式提取是在数据抽样、属性选择、数据变换和数据规范化前，应用统计和概率方法提取数据样本的平均值、极大值、极小值、差分、积分和二阶导等模式，及不同时间窗口的模式特征。

预处理元组合：预处理元组合是基于模式提取结果，选择数据抽样、积分、差分、概率密度、相似度计算、数据变换和数据规范等处理元，并根据属性不同及属性的层次逻辑关系对这些预处理元进行组合，以便以最低成本为后期数据挖掘分析提供最优的数据样本集。

质量评估：质量评估是在正式进行数据挖掘分析前，对数据的质量进行评估，若不满足数据质量要求，则返回模式提取和预处理元组合进行迭代处理，以便获取较佳的质量评估。具体的数据质量评估指标包括平稳性、正态性、离散化程度、样本熵和排列组合熵等。

如图1所示，本发明的时间序列自动预处理方法包括以下步骤：

步骤1：对待处理的时间序列进行行列扫描；具体而言，本步骤能够降低数据的稀疏性和原始数据的差错率，为后续预处理步骤提供纯净无差错的原始数据；如图2所示，本步骤具体包括以下子步骤：

步骤1.1：对时间序列的行进行扫描，其中若第i(i为自然数)行中的元素个数m_i(含空值)与时间序列的属性个数M不一致时，则将该行直接剔除；

步骤1.2：对时间序列的列进行扫描，该列空值数为n，相邻的三个有值、空值和有值次数分别为n_i-1，n_i，n_i+1，当满足下式1时保留该列，否则将该列剔除；

其中，N为列总数，e为自然常数，约为2.71828。

步骤1.3：对行列剔除后的时间序列进行数据格式规范的一致性检查；如图3所示，本步骤包括以下子步骤：

步骤1.3.1：对于时间序列中的二值型数据属性，对该时间序列进行频度统计，按频度由高到低进行排名，排名第3位及以后的数据即可标示数据格式不一致；

步骤1.3.2：对于标签型数据，则检查频度由低到高前3位，并检查其字符长度，若长度与其他标签型数据的字符长度相差超过2个字节，直接剔除，若长度与其他标签型数据的字符长度相似，则可利用概念树进行剔除；

步骤2：由步骤1剔除了空缺、错误和不一致的数据，本步骤主要是提取步骤1处理后时间序列的数据模式特征。具体包括如下步骤，如图4所示：

步骤2-1：从时间序列中抽取某一属性列x_i，其中0≤i≤n，判断该列是否为数值型，若是，则以小时、天、周和月为单位对样本数据进行归集合并，并对其进行基础的统计方法，以获得平均值方差σ、极大值max(x_i)以及极小值min(x_i)，然后进入步骤2-2，若不是数值型，则进入步骤2-6；

步骤2-2：判断方差σ＝0和下式2是否同时成立，若成立则将该属性列的状态记为A_i，然后进入步骤3，否则进入步骤2-3；

步骤2-3：判断方差σ≠0和下式3是否同时成立，若成立则将该属性列的状态记为B_i，然后进入步骤3，否则进入步骤2-4；

其中a为常数，表示y_i按照比例递增或者递减。

步骤2-4：分别以小时、天、周和月为单位对样本数据进行归集合并，并重复步骤2-1至步骤2-3的步骤，以形成不同时间颗粒度的模式特征，若无法获取模式特征，则将该属性列的状态记为C_i；

步骤2-5：判断步骤2-2或2-3的模式特征与2-4中的模式特征是否一致，若不一致，则进入步骤3，若一致则进入步骤2-6；

步骤2-6：统计非数值型属性列中不同的值出现的频次P_i，并构建该属性的概率直方图特征；

步骤2-7：以小时、天、周和月为单位对样本数据进行归集合并，重复步骤2-6来构建新的概率直方图特征，判断新构建的概率直方图特征是否与步骤2-6构建出来的不一致，若不一致则将该属性列的状态记为D_i，然后进入步骤3，否则进入步骤2-8；

步骤2-8：以标识(用户标识或设备标识)属性为关联，统计非数值属性两个不同值同时出现的次数P_i,j，

步骤2-9：以小时、天、周和月为单位对样本数据进行归集合并，重复步骤2-8来统计新出现次数，判断新统计出来的次数是否与步骤2-8统计出来的不一致，若不一致则将该属性列的状态记为E_i，并进入步骤3，否则直接进入步骤3；

步骤3：根据步骤2处理得到的不同模式特征和状态进行预处理元组合，目的是进行自动最优组合，既能保证预处理任务的顺利就行，又能最大限度地降低预处理的运算复杂度，具体包括如下步骤，如图5所示：

步骤3-1：构建包括抽样(Sa)、差分(Di)、积分(In)、概率密度(Ps)、相似度(Si)、数据变换(Tr)、数据规范(Un)、回归(Re)、频繁项集(Pi)、分类(Ca)和聚类(Cu)在内的预处理元，其中第i(i为自然数)个处理元记做Pro(i)；

步骤3-2：分别设置每个预处理元的前置条件Pr(i)和后置条件Su(i)；

步骤3-3：对于步骤2中四种不同的状态，分别建立可用预处理元集合，如表1所示；

表1不同状态的可用预处理元集合表

步骤3-4：根据步骤2中确定的状态和表1构建预处理元组合，如图6所示；

步骤3-5：若为状态A_i，引入序列x_i，依次遍历Sa、Di、In、Ps、Si、Tr、Un、Re，每遍历一个预处理元，计算是否满足式2，若连续不满足的次数超过10次，则将该预处理元剔除，最终形成预处理元组合Com{Pro(i)}；

步骤3-6：完成预处理元组合后，对不满足式2条件的样本x_i，需对其进行清洗，清洗后的样本修正为x_i'，该x_i'满足公式3确定的平方和最小条件；

步骤3-7：若为状态D_i和E_i，计算是否满足相似度条件或保证概率分布保持一致，若连续10次不满足，则将该预处理元剔除，最终形成预处理元组合Com{Pro(i),0≤i≤n}；

步骤3-8：完成预处理元组合后，不满足相似度条件的样本x_i，需对其进行清洗，清洗后的样本修正为x_i'，该x_i'应是的概率相似度最大。

步骤4：根据预处理元组合的结果对数据清洗的数据质量进行评估。通过步骤3可完成属性及其样本的清洗，由于清洗不足会导致无法完成正常的数据挖掘分析任务，但若过分清洗将导致数据挖掘无法获得最佳结论。本步骤主要是，若数据质量不佳则返回步骤2重新进行模式提取和预处理组合，否则完成数据清洗。具体包括如下步骤，如图7所示：

步骤4-1：对于清洗后的数据评估其平稳性，具体方法为将时间序列进行等时间间隔，并判断平均值和方差是否为常数，若为常数则结束清洗，否则进入步骤4-2；

步骤4-2：若上述均值发生变换，可进行n阶差分变换，若方差变化，可对其使用均方根变换或对数变换，判断是否获得稳定的时间序列，若满足则结束清洗，否则进入步骤4-3；

步骤4-3：将清洗后的时间序列按皮尔逊χ²检验判断其正态性，

由判断是否满足χ²正态性条件，若满足则结束清洗，否则进入步骤4-4；

步骤4-4：按公式5检验清洗后时间序列的样本熵，判断其样本熵是否不再发生变化，若不再发生变化则可结束清洗，否则返回步骤2重新清洗；

其中，sample表示时间序列的样本熵，N表示时间长度，r为相似容限，m为维数，一般情况下，m取1或者2，r在0.1到0.25之间任意取值；d[x_m+1(i),x_m+1(j)]表示两个元素x_m+1(i),x_m+1(j)的距离；对每一个i值，统计d[x_m+1(i),x_m+1(j)]＜r的个数，其统计数目为X^m+1(r)就是所有i的的平均值。

步骤4-5：按照式6检验清洗后时间序列的离散化程度，判断离散化程度是否小于1，若小于1则可结束清洗，否则返回步骤2重新清洗；

离散化程度＝log₁₂₈Vamount (公式6)

其中，Vamount为时间序列中出现不重复次数的值的数量。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种时间序列自动预处理方法，其特征在于，包括以下步骤：

(1)对待处理的时间序列进行行列扫描；

其中，步骤(1)包括以下子步骤：

其中，N为列总数，e为自然常数；

(1.3)对行列剔除后的时间序列进行数据格式规范的一致性检查；

(2)提取步骤(1)处理后时间序列的数据模式特征；

2.根据权利要求1所述的时间序列自动预处理方法，其特征在于，步骤(1.3)包括以下子步骤：

(1.3.2)对于标签型数据，检查频度由低到高前3位，并检查其字符长度，若长度与其他标签型数据的字符长度相差超过2个字节，直接剔除，若长度与其他标签型数据的字符长度相似，则利用概念树进行剔除。

3.根据权利要求2所述的时间序列自动预处理方法，其特征在于，步骤(2)包括如下步骤：

其中a为常数，其用于表示y_i按照比例递增或者递减；

4.根据权利要求3所述的时间序列自动预处理方法，其特征在于，步骤(3)包括如下步骤：

(3-2)分别设置每个预处理元的前置条件Pr(i)和后置条件Su(i)；

(3-4)根据步骤(2)中确定的状态构建预处理元组合；

5.根据权利要求4所述的时间序列自动预处理方法，其特征在于，步骤(4)包括如下步骤：

(4-3)将清洗后的时间序列按皮尔逊χ²检验判断其正态性，由

的数目

离散化程度＝log₁₂₈Vamount

其中，Vamount为时间序列中出现不重复次数的值的数量。