CN105205111A

CN105205111A - 一种挖掘时序数据故障模式的系统及方法

Info

Publication number: CN105205111A
Application number: CN201510551484.3A
Authority: CN
Inventors: 鲍军鹏; 杨天社; 樊恒海; 齐勇; 高宇; 王小乐; 傅娜; 魏强
Original assignee: Xian Jiaotong University; China Xian Satellite Control Center
Current assignee: Xian Jiaotong University; China Xian Satellite Control Center
Priority date: 2015-09-01
Filing date: 2015-09-01
Publication date: 2015-12-30

Abstract

本发明公开一种挖掘时序数据故障模式的系统及方法，包括数据预处理模块、TK-Means聚类模块、统计学习模块、DBSCAN聚类模块、故障模式生成模块；本发明通过对时序数据异常信息进行分析，一方面可以挖掘出数据变化规律的共同特征，从而发现比较通用、一致的异常和故障模式；另一方面也可以挖掘出新型变化规律，从而发现未知异常和故障模式。本发明利用DBSCAN方法对异常模式进行聚类，根据聚类结果将故障模式写成形式化规则。同时，形式化规则的前件和后件也反映了对应事件的先后关系。

Description

一种挖掘时序数据故障模式的系统及方法

【技术领域】

本发明属于计算机技术和智能信息处理领域，具体涉及一种挖掘时序数据故障模式的系统及方法。

【背景技术】

时序数据就是随着时间不断变化的数据序列。时序数据产生于社会生活生产活动中对各种对象的持续观测记录，具有极其广泛的来源和重要的作用。例如，对航天器实时检测的数据、PM2.5等各种气象观测数据、股票期货等金融交易数据、各种传感器的监测数据、网络流量数据等等。时序数据遍布现代生活的方方面面，是构成大数据的主要源泉之一。

从时序数据中挖掘和发现故障模式对于维护系统正常运营，提取异常和故障知识，针对观测对象检测、发现、预测、预警异常和故障事件，建立故障诊断和健康管理系统都具有重要作用。

【发明内容】

本发明的目的在于提供一种挖掘时序数据故障模式的系统及方法，本发明解决了从海量时序观测数据中挖掘数据变化规律，发现故障模式的问题。

为了实现上述目的，本发明采用如下技术方案：

一种挖掘时序数据故障模式的系统，包括：数据预处理模块、TK-Means聚类模块、统计学习模块和DBSCAN聚类模块；

数据预处理模块，用于对原始数据进行清洗、插值处理，获得归一化数据；

TK-Means聚类模块，用于对数据预处理模块处理后的数据进行特征向量提取，然后采用TK-means方法对特征向量进行聚类，然后根据聚类结果将数据转换成特征字符串；

统计学习模块，用于对特征字符串进行统计学习，找出频繁模式和非频繁模式，所述非频繁模式对应着异常模式；

DBSCAN聚类模块，用于把多个参数的异常模式聚集在一起形成故障模式。

本发明进一步的改进在于：所述系统还包括故障模式生成模块；所述故障模式生成模块，用于把故障模式写成形式化规则。

本发明进一步的改进在于：数据预处理模块包括去野值、生成单参数文件、等间隔处理以及归一化处理步骤；去野值的步骤包括：对每个数据设定上下限，把大于上限的数值变为上限，小于下限的数值变为下限，以此去野值；等间隔处理处理步骤中，默认对数据每隔1秒进行采样，等间隔处理后的数据，每分钟都从0秒开始，59秒结束；数据经过等间隔处理之后进行归一化处理，将其取值范围转换到[0,1]区间上。

本发明进一步的改进在于：TK-Means聚类模块首先对数据预处理模块处理后的数据进行特征向量提取，然后用TK-Means方法对特征向量进行聚类，并将所得聚类结果的每一个簇表示成一个特征字符；在TK-Means方法中，簇的数目是一个范围[min,max]；设置一个最大相似度阈值t*，在聚类开始的时候，随机选择一个初始阈值t；如果第一次聚类得到的簇数目大于max，且t小于最大阈值t*，则将阈值t增大Δt，重新进行聚类，直到第一次聚类得到的簇的数目在[min,max]范围中；如果第一次聚类得到的簇的数目小于min，且阈值t大于Δt，则将阈值t减小Δt，重新进行聚类，直到第一次聚类得到的簇的数目在[min,max]范围中；TK-Means聚类的具体过程为：(1)第一次聚类；(2)如果第一次聚类得到的簇的数目在[min,max]范围中，则执行第(3)步，否则按照调整阈值t并重复执行第(1)步；(3)聚类并调整簇心，迭代次数i递增；(4)判断聚类结果是否稳定，如果聚类结果不稳定，则重复执行第(3)步，否则聚类结束；在第一次聚类中，当簇每增加一条数据时，调整簇中心，直到处理完所有数据；在第(3)步的聚类过程中，直到所有数据全部处理完后，才调整一次簇心。

本发明进一步的改进在于：统计学习模块通过寻找频繁模式的间隙来确定非频繁模式，即异常模式；正常模式被打断的地方就是异常模式；正常模式就是频繁发生的模式，对应特征字符串上的频繁模式；而异常模式不是频繁发生，把特征字符串上的频繁模式去掉之后，剩下的片段就是非频繁模式，即潜在异常模式；寻找异常模式的过程为：(1)把特征字符串划分为一系列长度为L的单词，并且统计每个单词的出现频率；(2)如果一个单词的出现频率大于给定阈值，称作频繁单词，否则为非频繁单词；(3)连续取L个字符构成当前单词；如果未达到字符串末尾，则执行下一步；否则把当前频繁模式放入频繁模式集中，输出频繁模式集，然后执行第(7)步；(4)判断当前单词是否为频繁单词；如果是执行下一步，否则执行第(6)步；(5)向后滑动L个字符并更新当前频繁模式，然后执行第(3)步；(6)向后滑动一个字符，并判断前一个单词是否为频繁单词；如果是，则更新频繁模式集，即把当前频繁模式放入频繁模式集中；然后执行第(3)步；(7)按照起始位置取出频繁模式集中相邻的两个频繁模式；(8)相邻频繁模式的间隙就是非频繁模式，即潜在异常模式；间隙就是从上一个模式末尾到下一个模式开头之间的字符串。

本发明进一步的改进在于：DBSCAN聚类模块用密度聚类方法对多个参数的异常模式进行聚类，找到在相近时刻发生异常的多个参数异常模式；在同一个簇中，异常发生的时间是相近的，认为同一个簇中的参数在这段时间构成了故障模式；故障模式就是在相近时刻出现多个异常模式；DBSCAN聚类中一个数据点就是一个潜在异常模式及其起始位置；具体过程如下：(1)扫描统计学习模块得到的所有非频繁模式，把数据点分为核心点、边界点和噪音点；核心点就是该点邻域内有足够多的其他点，即与该点距离小于指定值的数据点的个数大于等于给定阈值pt；边界点就是该点邻域内至少有1个核心点，但是数据点的个数小于阈值pt；噪音点就是除了核心点和边界点之外的其他数据点；(2)取出一个标签集为空的核心点，生成一个新簇，并将新簇的标签加入该点标签集以及该核心点邻域内所有核心点和边界点的标签集；(3)重复步骤(2)直至所有核心点和边界点的标签集都不为空；(4)合并密度联通的簇，即遍历所有核心点和边界点，如果该点标签集长度大于1，则将该标签集中所有簇标签全部映射为一个标签；具体映射过程为，首先逐一检查标签集中所有簇标签是否在映射表中已经存在；若存在，则从映射表中取出已经存在的映射目标，并将本标签集中所有簇标签映射为该目标；若不存在，则将本标签集中所有簇标签映射为一个新标签；(5)重复步骤(4)直至所有核心点和边界点的标签集中有且只有一个簇标签；(6)全部噪音点归为一个簇；(7)输出所有簇及该簇内的所有点，聚类结束。

本发明进一步的改进在于：故障模式生成模块根据DBSCAN聚类模块得到的聚类结果，将故障模式写成形式化规则；形式化规则按照时间点进行排序，时间在前的模式蕴含着时间在后的模式，时间相同的模式则彼此为合取关系。

一种挖掘时序数据故障模式的方法，包括以下步骤：

第一步：数据预处理模块对原始时序数据进行清洗、插值处理，获得归一化数据；

第二步：TK-Means聚类模块对数据预处理模块处理后的数据进行特征向量提取，然后采用TK-means方法对特征向量进行聚类，然后根据聚类结果将数据转换成特征字符串；

第三步：统计学习模块对特征字符串进行统计学习，找出频繁模式和非频繁模式，所述非频繁模式对应着异常模式；

第四步：DBSCAN聚类模块把多个参数的异常模式聚集在一起形成故障模式。

本发明进一步的改进在于：所述挖掘时序数据故障模式的方法具体包括以下步骤：

第一步：数据预处理模块对原始时序数据进行去野值、生成单参数文件、等间隔处理以及归一化；去野值的步骤包括：对每个数据设定上下限，把大于上限的数值变为上限，小于下限的数值变为下限，以此去野值；等间隔处理处理步骤中，默认对数据每隔1秒进行采样，等间隔处理后的数据，每分钟都从0秒开始，59秒结束；数据经过等间隔处理之后进行归一化处理，将其取值范围转换到[0,1]区间上；

第二步：TK-Means聚类模块首先对数据预处理模块处理后的数据进行特征向量提取，然后用TK-Means方法对特征向量进行聚类，并将所得聚类结果的每一个簇表示成一个特征字符；在TK-Means方法中，簇的数目是一个范围[min,max]；设置一个最大相似度阈值t*，在聚类开始的时候，随机选择一个初始阈值t；如果第一次聚类得到的簇数目大于max，且t小于最大阈值t*，则将阈值t增大Δt，重新进行聚类，直到第一次聚类得到的簇的数目在[min,max]范围中；如果第一次聚类得到的簇的数目小于min，且阈值t大于Δt，则将阈值t减小Δt，重新进行聚类，直到第一次聚类得到的簇的数目在[min,max]范围中；TK-Means聚类的具体过程为：(1)第一次聚类；(2)如果第一次聚类得到的簇的数目在[min,max]范围中，则执行第(3)步，否则按照调整阈值t并重复执行第(1)步；(3)聚类并调整簇心，迭代次数i递增；(4)判断聚类结果是否稳定，如果聚类结果不稳定，则重复执行第(3)步，否则聚类结束；在第一次聚类中，当簇每增加一条数据时，调整簇中心，直到处理完所有数据；在第(3)步的聚类过程中，直到所有数据全部处理完后，才调整一次簇心；

第三步：统计学习模块通过寻找频繁模式的间隙来确定非频繁模式，即异常模式；正常模式被打断的地方就是异常模式；正常模式就是频繁发生的模式，对应特征字符串上的频繁模式；而异常模式不是频繁发生，把特征字符串上的频繁模式去掉之后，剩下的片段就是非频繁模式，即潜在异常模式；寻找异常模式的过程为：(1)把特征字符串划分为一系列长度为L的单词，并且统计每个单词的出现频率；(2)如果一个单词的出现频率大于给定阈值，称作频繁单词，否则为非频繁单词；(3)连续取L个字符构成当前单词；如果未达到字符串末尾，则执行下一步；否则把当前频繁模式放入频繁模式集中，输出频繁模式集，然后执行第(7)步；(4)判断当前单词是否为频繁单词；如果是执行下一步，否则执行第(6)步；(5)向后滑动L个字符并更新当前频繁模式，然后执行第(3)步；(6)向后滑动一个字符，并判断前一个单词是否为频繁单词；如果是，则更新频繁模式集，即把当前频繁模式放入频繁模式集中；然后执行第(3)步；(7)按照起始位置取出频繁模式集中相邻的两个频繁模式；(8)相邻频繁模式的间隙就是非频繁模式，即潜在异常模式；间隙就是从上一个模式末尾到下一个模式开头之间的字符串；

第四步：DBSCAN聚类模块用密度聚类方法对多个参数的异常模式进行聚类，找到在相近时刻发生异常的多个参数异常模式；在同一个簇中，异常发生的时间是相近的，认为同一个簇中的参数在这段时间构成了故障模式；故障模式就是在相近时刻出现多个异常模式；DBSCAN聚类中一个数据点就是一个潜在异常模式及其起始位置；具体过程如下：(1)扫描统计学习模块得到的所有非频繁模式，把数据点分为核心点、边界点和噪音点；核心点就是该点邻域内有足够多的其他点，即与该点距离小于指定值的数据点的个数大于等于给定阈值pt；边界点就是该点邻域内至少有1个核心点，但是数据点的个数小于阈值pt；噪音点就是除了核心点和边界点之外的其他数据点；(2)取出一个标签集为空的核心点，生成一个新簇，并将新簇的标签加入该点标签集以及该核心点邻域内所有核心点和边界点的标签集；(3)重复步骤(2)直至所有核心点和边界点的标签集都不为空；(4)合并密度联通的簇，即遍历所有核心点和边界点，如果该点标签集长度大于1，则将该标签集中所有簇标签全部映射为一个标签；具体映射过程为，首先逐一检查标签集中所有簇标签是否在映射表中已经存在；若存在，则从映射表中取出已经存在的映射目标，并将本标签集中所有簇标签映射为该目标；若不存在，则将本标签集中所有簇标签映射为一个新标签；(5)重复步骤(4)直至所有核心点和边界点的标签集中有且只有一个簇标签；(6)全部噪音点归为一个簇；(7)输出所有簇及该簇内的所有点，聚类结束。

本发明进一步的改进在于：所述一种挖掘时序数据故障模式的方法还包括：

第五步：故障模式生成模块根据DBSCAN聚类模块得到的聚类结果，将故障模式写成形式化规则；形式化规则按照时间点进行排序，时间在前的模式蕴含着时间在后的模式，时间相同的模式则彼此为合取关系。

本发明相对于现有技术，具有以下有益效果：本发明使用聚类方法对异常模式进行聚类，根据聚类结果将故障模式写成形式化规则，并且形式化规则的前件和后件反映了对应事件的先后关系。本发明一方面可以挖掘出数据变化规律的共同特征，从而发现比较通用、一致的异常和故障模式；另一方面也可以挖掘出新型变化规律，从而发现未知异常和故障模式。

【附图说明】

图1是本发明一种挖掘时序数据故障模式的系统的模块框架图。

图2是本发明TK-Means聚类模块流程图。

图3是本发明统计学习模块流程图。

图4是本发明DBSCAN聚类模块流程图。

图5是本发明示例的A、B、C、D、E共5个参数的时序数据曲线图。

【具体实施方式】

请参阅图1所示，本发明一种挖掘时序数据故障模式的系统，包括数据预处理模块1-1、TK-Means聚类模块1-2、统计学习模块1-3、DBSCAN聚类模块1-4和故障模式生成模块1-5。

数据预处理模块，用于对原始时序数据进行清洗、插值处理，得到有效数据形式，以便进行后续挖掘工作。

TK-Means聚类模块，用于对数据预处理模块处理后的数据进行特征向量提取，然后通过TK-Means方法对特征向量进行聚类，并将得到的聚类结果表示成特征字符，把输入数据表示成特征字符串。

统计学习模块，默认待考察单词长度为4(可以人工设定，默认为4)，然后把特征字符串划分成单词序列；接着根据单词出现频率将其分为频繁单词和非频繁单词；然后连续的频繁单词就得到频繁模式，再由相邻频繁模式间隙得到非频繁模式。

DBSCAN聚类模块，为了获取异常和故障模式，对统计学习模块输出的非频繁模式按照DBSCAN算法进行聚类，如果簇中数据数目大于设定阈值，则认为存在故障模式。

故障模式生成模块，用于将DBSCAN聚类模块得到的故障模式写成形式化规则。

数据预处理模块包括去野值、生成单参数文件(清洗)、等间隔处理(差值处理)以及归一化处理工作；为了去除噪音干扰，获取有效数据值，本方法通过“去野值处理”删除原始数据中的无效野值，保留有效值。具体为，对每个数据设定上下限，把大于上限的数值变为上限，小于下限的数值变为下限，以此达到去野值的目的。本方法提取单参数特征，不考虑多参数之间的关系。因此我们将每个有效参数单独写成一个数据文件。本方法对数据进行等间隔处理以保证在连续时间段内任意两个数据点之间的时间间隔相同。等间隔处理程序中，我们默认对数据每隔1秒进行采样。等间隔处理后的数据，每分钟都从0秒开始，59秒结束。数据经过等间隔处理之后还要进行归一化处理，将其取值范围转换到[0,1]区间上，以消除量纲对结果的影响。具体采用线性归一化方法，其中最大最小值由等间隔处理后的数据统计得到，也可以人为设置。

TK-Means聚类模块，用于对数据预处理模块处理后的数据进行特征向量提取，然后TK-Means方法对特征向量进行聚类，并将所得聚类结果的每一个簇表示成一个特征字符：TK-Means方法与传统K-means方法不同，TK-Means方法不需要人工指定簇的数目，而是自适应确定簇数目；在TK-Means方法中，簇的数目不是一个固定值，而是一个范围[min,max]；设置一个最大相似度阈值t*，在聚类开始的时候，随机选择一个初始阈值t，如果第一次聚类得到的簇数目大于max，且t小于最大阈值t*，则将阈值t增大Δt，重新进行聚类，直到第一次聚类得到的簇的数目在[min,max]范围中。如果第一次聚类得到的簇的数目小于min，且阈值t大于Δt，则将阈值t减小Δt，重新进行聚类，直到第一次聚类得到的簇的数目在[min,max]范围中。TK-Means聚类的具体过程为：(1)第一次聚类；(2)如果第一次聚类得到的簇的数目在[min,max]范围中，则执行第(3)步，否则按照上述方法调整阈值t并重复执行第(1)步；(3)聚类并调整簇心，迭代次数i递增；(4)判断聚类结果是否稳定，如果聚类结果不稳定，则重复执行第(3)步，否则聚类结束。在第一次聚类中，当簇每增加一条数据时，就会调整簇中心，直到处理完所有数据。在第(3)步的聚类过程中，直到所有数据全部处理完后，才调整一次簇心。TK-Means方法对于支持度大于给定阈值的簇，用‘a’表示最大的簇(即点个数最多的簇)，用‘b’表示次大的簇，依此类推；对于支持度小于给定阈值的簇，通通用‘？’表示；对于空数据，即未记录数据的区间或者被删除的区间，则用‘#’来表示。

统计学习模块,通过寻找频繁模式的间隙来确定非频繁模式，即异常模式；也就是说，正常模式被打断的地方就是异常模式；正常模式就是频繁发生的模式，对应特征字符串上的频繁模式；而异常模式不是频繁发生，所以把特征字符串上的频繁模式去掉之后，剩下的片段就是非频繁模式，即潜在异常模式。寻找异常模式的过程为：(1)把特征字符串划分为一系列长度为L的单词(即连续L个字符)，并且统计每个单词的出现频率；(2)如果一个单词的出现频率大于给定阈值，称作频繁单词，否则为非频繁单词；(3)连续取L个字符构成当前单词；如果未达到字符串末尾，则执行下一步；否则把当前频繁模式放入频繁模式集中，输出频繁模式集，然后执行第(7)步；(4)判断当前单词是否为频繁单词；如果是执行下一步，否则执行第(6)步；(5)向后滑动L个字符并更新当前频繁模式，然后执行第(3)步；(6)向后滑动一个字符，并判断前一个单词是否为频繁单词；如果是，则更新频繁模式集，即把当前频繁模式放入频繁模式集中；然后执行第(3)步；(7)按照起始位置取出频繁模式集中相邻的两个频繁模式；(8)相邻频繁模式的间隙就是非频繁模式，即潜在异常模式；间隙就是从上一个模式末尾到下一个模式开头之间的字符串，即如下定义：

U = c ({Sf}_{i}^{e} + 1) ~ c ({Sf}_{i + 1}^{h} - 1), {Sf}_{i}, {Sf}_{i + 1} &Element; S

其中U表示一个潜在异常模式，c(Sf_i ^e+1)表示频繁模式Sf_i末尾之后的第1个字符，表示频繁模式Sf_i+1首字符之前的第1个字符，S表示频繁模式集合，Sf_i和Sf_i+1是频繁模式集合S中相邻的两个频繁模式。

DBSCAN聚类模块，用密度聚类方法对多个参数的异常模式进行聚类，找到在相近时刻发生异常的多个参数异常模式；在同一个簇中，异常发生的时间是相近的，则可以认为同一个簇中的参数在这段时间构成了故障模式；故障模式就是在相近时刻出现多个异常模式。DBSCAN聚类中一个数据点就是上述一个潜在异常模式及其起始位置(即起始时刻)。具体过程如下：(1)扫描统计学习模块得到的所有非频繁模式，把数据点分为核心点、边界点和噪音点。核心点就是该点邻域内有足够多的其他点，即与该点距离小于指定值的数据点的个数大于等于给定阈值pt。边界点就是该点邻域内至少有1个核心点，但是数据点的个数小于阈值pt。噪音点就是除了核心点和边界点之外的其他数据点。(2)取出一个标签集为空的核心点，生成一个新簇，并将新簇的标签加入该点标签集以及该核心点邻域内所有核心点和边界点的标签集。(3)重复步骤(2)直至所有核心点和边界点的标签集都不为空。(4)合并密度联通的簇，即遍历所有核心点和边界点，如果该点标签集长度大于1，则将该标签集中所有簇标签全部映射为一个标签。具体映射过程为，首先逐一检查标签集中所有簇标签是否在映射表中已经存在。若存在，则从映射表中取出已经存在的映射目标，并将本标签集中所有簇标签映射为该目标。若不存在，则将本标签集中所有簇标签映射为一个新标签。(5)重复步骤(4)直至所有核心点和边界点的标签集中有且只有一个簇标签。(6)全部噪音点归为一个簇。(7)输出所有簇及该簇内的所有点，聚类结束。

故障模式生成模块，根据DBSCAN得到的聚类结果，将故障模式写成形式化规则；形式化规则按照时间点(即潜在异常模式开始的位置)进行排序，时间在前的模式蕴含着时间在后的模式，时间相同的模式则彼此为合取关系。所以形式化规则一定程度上反映了事件发生的先后顺序。例如，DBSCAN聚类得到的一个簇，包含数据点为：

{['A',2],['B',3],['C',2],['D',4]}

其中，每个数据点包括两部分：潜在异常模式和模式的起始位置。上述方法所得形式化规则为：

['A',2]&&['C',2]→['B',3]→['D',4]

‘A’模式和‘C’模式具有相同的起始位置，并且位置最靠前，所以它们作为第一个前件。‘B’模式的起始位置落后于‘A’模式和‘C’模式，所以‘B’模式成为‘A’模式和‘C’模式的后件。又由于‘D’模式的起始位置最靠后，所以‘D’模式就成为‘B’模式的后件，即‘B’模式可以看作‘D’模式的前件。当然‘A’模式和‘C’模式可以看作‘D’模式的诱因。

本发明一种挖掘时序数据故障模式的系统及方法，包括以下步骤：

1)、数据预处理模块，对原始时序数据进行清洗、插值处理，得到有效数据形式。

2)、参照图2，TK-Means聚类模块，采用TK-means方法对特征向量进行聚类，然后根据聚类结果将数据转换成特征字符串：

首先进行步骤2-1，从预处理后的时序数据中取一条未计算数据。然后进行步骤2-2，判断数据预处理模块处理后的数据是否全部处理完。如果数据没有处理完，则进行步骤2-3，计算该数据与所有簇中心距离。步骤2-4判断数据与最近簇中心距离是否小于阈值t。如果不小于，则执行步骤2-5，把该数据单独生成一个簇，并作为簇中心，然后转至步骤2-1。如果小于，则执行步骤2-6，将该数据放入最近簇中，并调整该簇中心，然后转至步骤2-1。如果所有数据已经处理完，则执行步骤2-7，判断簇的数目是否在[min,max]中。如果簇数目不在[min,max]范围中，则执行步骤2-8，调整阈值t，然后转至步骤2-1。如果簇数目在[min,max]范围中，则执行步骤2-9，取一条未计算数据。然后执行步骤2-10，判断是否处理完所有数据。如果数据没有处理完，则执行步骤2-11，计算该数据与所有簇中心的距离。然后执行步骤2-12，把该数据放入距其最近的簇中。然后转至步骤2-9。如果所有数据都处理完，则执行步骤2-13，重新计算每个簇的中心向量。然后执行步骤2-14，判断聚类结果是否发生变化，即是否有簇中心向量发生了变化。如果有簇中心向量发生了变化，则转至步骤2-9。如果没有簇中心向量发生变化，即聚类结果不再变化，则结束聚类过程。

3)、参照图3，统计学习模块，对特征字符串进行统计学习，找出频繁模式和非频繁模式，所述非频繁模式对应着异常模式：

首先进行步骤3-1，获取TK-Means聚类结果所生成特征字符串序列。然后进行步骤3-2，在特征字符串序列中统计长度为L(可以人工设定，默认为4)的所有单词频率。然后执行步骤3-3，初始化频繁模式集和当前频繁模式。步骤3-4初始化当前字符位置。接着步骤3-5在特征字符串中从当前位置开始获取长度为L的当前特征单词。然后在步骤3-6判断特征字符串是否已经处理完。如果特征字符串未处理完，则执行步骤3-7，判断当前特征单词是否频繁。如果当前单词是频繁单词，即其频率大于给定阈值，则执行步骤3-8，更新当前频繁模式，即在当前频繁模式末尾追加当前特征单词。然后执行步骤3-9，字符位置向后滑动L个字符。然后转至步骤3-5。如果当前单词不是频繁单词，则执行步骤3-11，判断前一个单词是否频繁。如果前一个单词是频繁单词，则执行步骤3-12，更新频繁模式集，即把当前频繁模式加入频繁模式集中。然后执行步骤3-13，把当前频繁模式更新为空。接着执行步骤3-14，字符位置向后滑动一个1字符。如果前一个单词不是频繁单词，则直接执行步骤3-14。步骤3-14之后转至步骤3-5。直至特征字符串处理完，则执行步骤3-10，输出频繁模式集。然后执行步骤3-15，从频繁模式集中依次取出两个相邻的频繁模式。然后执行步骤3-16，相邻频繁模式之间的间隙就是潜在异常模式。最后输出所有潜在异常模式，统计学习模块过程结束。

4)、参照图4，DBSCAN聚类模块，把多个参数的异常模式聚集在一起形成故障模式：

首先执行步骤4-1，初始化每个数据点的簇标签集为空。然后执行步骤4-2，扫描统计学习模块得到的所有非频繁模式把数据点分为核心点、边界点和噪音点，并把噪音点和非噪音点分别放入两个集合。步骤4-3判断非噪音点集合中是否有簇标签集为空的数据点。如果有则执行步骤4-4，取一个簇标签集为空的数据点。然后步骤4-5判断该点是否为核心点。如果该点是核心点，则执行步骤4-6，把该点作为一个新簇，赋予新簇标签。然后执行步骤4-7，把刚生成的新簇标签添加给该点邻域内的所有点。之后转至步骤4-3。如果该点不是核心点，则直接转至步骤4-3。如果非噪音点集合中没有簇标签集为空的数据点，则执行步骤4-8，初始化簇标签映射表为空。接着步骤4-9判断非噪音集合中是否有簇标签集大于1的数据点。如果有簇标签集大于1的数据点，则执行步骤4-10，取一个簇标签集大于1的数据点。然后步骤4-11，初始化新簇标签为空。步骤4-12判断该点簇标签集中的标签是否处理完。如果未处理完，则执行步骤4-13，取一个未处理的簇标签。然后步骤4-14，判断簇标签映射表中是否有该标签。如果映射表中没有该标签，则执行步骤4-15，判断新簇标签是否为空。若新簇标签为空，则执行步骤4-16，生成一个新簇标签。然后执行步骤4-17。若新簇标签不为空则直接执行步骤4-17，在标签映射表中添加一个从老标签到新标签的映射。然后执行步骤4-18，从簇标签集中删除老标签，加入新标签。然后转至步骤4-12。如果簇标签映射表中已经有当前数据点的簇标签，则执行步骤4-19，取出该标签所映射的目标标签。然后步骤4-20，判断新簇标签是否为空。若新簇标签为空，则执行步骤4-21，把刚取出的目标标签赋予新簇标签。然后转至步骤4-18。如果新簇标签不为空，则执行步骤4-22，从簇标签集中删除老簇标签，加入目标标签。然后转至步骤4-12。如果当前数据点簇标签集中的老标签已经处理完，则转至步骤4-9。如果非噪音集合中没有簇标签集大于1的数据点，则执行步骤4-23，把噪音集合中的所有噪音点都标记为一个噪音簇。然后执行步骤4-24，输出所有簇及簇内所有数据点。DBSCAN聚类过程结束。

5)、参照图5，故障模式生成模块，把故障模式写成形式化规则：

参照图5，其显示了A、B、C、D、E共5个参数的时序数据曲线。这5个参数经过TK-Means聚类模块和统计学习模块后得到的潜在异常模式如表1所示。经过DBSCAN聚类模块之后得到的簇为：

簇0：

A参数('bbbc',0)，D参数('b',0)，('bb',0)

簇1：

A参数('aabbbbc',16)，B参数('ab',16)，C参数('aab',16)，D参数('abb',17)，E参数('bbb',18)

簇2：

A参数('aabbbbb',35)，B参数('aab',34)，C参数('aab',35)，D参数('abb',36)，E参数('bbb',37)

表1

在故障模式生成模块根据上述DBSCAN聚类结果生成形式化故障规则。由于在初始阶段数据不完整，容易造成错误。所以抛弃簇0及其所有模式。

由簇1生成如下形式化规则：

A＝(aabbbbc)&&B＝(ab)&&C＝(aab)→D＝(abb)→E＝(bbb)

由簇2生成如下形式化规则：

B＝(aab)→A＝(aabbbbb)&&C＝(aab)→D＝(abb)→E＝(bbb)。

Claims

1.一种挖掘时序数据故障模式的系统，其特征在于，包括：数据预处理模块、TK-Means聚类模块、统计学习模块和DBSCAN聚类模块；

2.根据权利要求1所述的一种挖掘时序数据故障模式的系统，其特征在于，所述系统还包括故障模式生成模块；所述故障模式生成模块，用于把故障模式写成形式化规则。

3.根据权利要求1所述的一种挖掘时序数据故障模式的系统，其特征在于，数据预处理模块包括去野值、生成单参数文件、等间隔处理以及归一化处理步骤；去野值的步骤包括：对每个数据设定上下限，把大于上限的数值变为上限，小于下限的数值变为下限，以此去野值；等间隔处理处理步骤中，默认对数据每隔1秒进行采样，等间隔处理后的数据，每分钟都从0秒开始，59秒结束；数据经过等间隔处理之后进行归一化处理，将其取值范围转换到[0,1]区间上。

4.根据权利要求1所述的一种挖掘时序数据故障模式的系统，其特征在于，TK-Means聚类模块首先对数据预处理模块处理后的数据进行特征向量提取，然后用TK-Means方法对特征向量进行聚类，并将所得聚类结果的每一个簇表示成一个特征字符；在TK-Means方法中，簇的数目是一个范围[min,max]；设置一个最大相似度阈值t*，在聚类开始的时候，随机选择一个初始阈值t；如果第一次聚类得到的簇数目大于max，且t小于最大阈值t*，则将阈值t增大Δt，重新进行聚类，直到第一次聚类得到的簇的数目在[min,max]范围中；如果第一次聚类得到的簇的数目小于min，且阈值t大于Δt，则将阈值t减小Δt，重新进行聚类，直到第一次聚类得到的簇的数目在[min,max]范围中；TK-Means聚类的具体过程为：(1)第一次聚类；(2)如果第一次聚类得到的簇的数目在[min,max]范围中，则执行第(3)步，否则按照调整阈值t并重复执行第(1)步；(3)聚类并调整簇心，迭代次数i递增；(4)判断聚类结果是否稳定，如果聚类结果不稳定，则重复执行第(3)步，否则聚类结束；在第一次聚类中，当簇每增加一条数据时，调整簇中心，直到处理完所有数据；在第(3)步的聚类过程中，直到所有数据全部处理完后，才调整一次簇心。

5.根据权利要求1所述的一种挖掘时序数据故障模式的系统，其特征在于，统计学习模块通过寻找频繁模式的间隙来确定非频繁模式，即异常模式；正常模式被打断的地方就是异常模式；正常模式就是频繁发生的模式，对应特征字符串上的频繁模式；而异常模式不是频繁发生，把特征字符串上的频繁模式去掉之后，剩下的片段就是非频繁模式，即潜在异常模式；寻找异常模式的过程为：(1)把特征字符串划分为一系列长度为L的单词，并且统计每个单词的出现频率；(2)如果一个单词的出现频率大于给定阈值，称作频繁单词，否则为非频繁单词；(3)连续取L个字符构成当前单词；如果未达到字符串末尾，则执行下一步；否则把当前频繁模式放入频繁模式集中，输出频繁模式集，然后执行第(7)步；(4)判断当前单词是否为频繁单词；如果是执行下一步，否则执行第(6)步；(5)向后滑动L个字符并更新当前频繁模式，然后执行第(3)步；(6)向后滑动一个字符，并判断前一个单词是否为频繁单词；如果是，则更新频繁模式集，即把当前频繁模式放入频繁模式集中；然后执行第(3)步；(7)按照起始位置取出频繁模式集中相邻的两个频繁模式；(8)相邻频繁模式的间隙就是非频繁模式，即潜在异常模式；间隙就是从上一个模式末尾到下一个模式开头之间的字符串。

6.根据权利要求1所述的一种挖掘时序数据故障模式的系统，其特征在于，DBSCAN聚类模块用密度聚类方法对多个参数的异常模式进行聚类，找到在相近时刻发生异常的多个参数异常模式；在同一个簇中，异常发生的时间是相近的，认为同一个簇中的参数在这段时间构成了故障模式；故障模式就是在相近时刻出现多个异常模式；DBSCAN聚类中一个数据点就是一个潜在异常模式及其起始位置；具体过程如下：(1)扫描统计学习模块得到的所有非频繁模式，把数据点分为核心点、边界点和噪音点；核心点就是该点邻域内有足够多的其他点，即与该点距离小于指定值的数据点的个数大于等于给定阈值pt；边界点就是该点邻域内至少有1个核心点，但是数据点的个数小于阈值pt；噪音点就是除了核心点和边界点之外的其他数据点；(2)取出一个标签集为空的核心点，生成一个新簇，并将新簇的标签加入该点标签集以及该核心点邻域内所有核心点和边界点的标签集；(3)重复步骤(2)直至所有核心点和边界点的标签集都不为空；(4)合并密度联通的簇，即遍历所有核心点和边界点，如果该点标签集长度大于1，则将该标签集中所有簇标签全部映射为一个标签；具体映射过程为，首先逐一检查标签集中所有簇标签是否在映射表中已经存在；若存在，则从映射表中取出已经存在的映射目标，并将本标签集中所有簇标签映射为该目标；若不存在，则将本标签集中所有簇标签映射为一个新标签；(5)重复步骤(4)直至所有核心点和边界点的标签集中有且只有一个簇标签；(6)全部噪音点归为一个簇；(7)输出所有簇及该簇内的所有点，聚类结束。

7.根据权利要求2所述的一种挖掘时序数据故障模式的系统，其特征在于，故障模式生成模块根据DBSCAN聚类模块得到的聚类结果，将故障模式写成形式化规则；形式化规则按照时间点进行排序，时间在前的模式蕴含着时间在后的模式，时间相同的模式则彼此为合取关系。

8.一种挖掘时序数据故障模式的方法，其特征在于，包括以下步骤：

9.根据权利要求8所述的一种挖掘时序数据故障模式的方法，其特征在于，所述挖掘时序数据故障模式的方法具体包括以下步骤：

10.根据权利要求8所述的一种挖掘时序数据故障模式的方法，其特征在于，所述一种挖掘时序数据故障模式的方法还包括：