CN107133478A

CN107133478A - 一种高速增量式航空发动机异常检测方法

Info

Publication number: CN107133478A
Application number: CN201710341070.7A
Authority: CN
Inventors: 皮德常; 唐王
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2017-05-10
Filing date: 2017-05-10
Publication date: 2017-09-05

Abstract

本发明公开了一种高速增量式航空发动机异常检测方法，包括：原始数据的参数选择；参数数据的平滑处理；基于方差的自适应分段的数据特征表示；基于自适应线段的动态时间规整算法对数据进行相似性度量；建立模式挖掘模型，形成性能参数模式库；最后，将增量数据与模式库中的各模式进行匹配，得出异常检测结果。本发明的优点是：针对航空发动机性能参数数据量大、维度高、数据长度不一致以及异常数据极少的特点，发明了一种对于增量数据非常快速的异常检测方法。

Description

一种高速增量式航空发动机异常检测方法

技术领域

本发明涉及一种高速增量式航空发动机异常检测方法，特别针对数据量大、异常数据极少背景下的一种异常检测方法，属于机械工程与信息科学的交叉领域。

背景技术

航空发动机作为飞机的心脏，是飞机最重要的部件，航空发动机的健康状态直接决定了飞机的飞行状态。随着航空事业的飞速发展，航空发动机由最初的活塞式发动机，发展到如今的涡轮轴发动机、涡扇发动机等，在大幅提升航空发动机性能的同时，其结构也越加复杂化。所以航空发动机的维修难度越来越大，而且其维修成本也越来越高。有资料显示，我国航空公司飞机维修成本中，航空发动机维修成本占总费用的近一半。一台发动机每次维修的费用，往往需要花费数百万元。因此，降低航空发动机维修成本对航空产业的发展具有十分重要的意义，能够大大提高航空公司的经济效益。另外，航空发动机的安全性同样也是一个必须要考虑的因素，据相关数据表明，一旦航空发动机发生异常，例如飞机出现空中停车等重大事故的情况下，飞机必然无法完成飞行任务，甚至会造成机毁人亡的严重事故。民航客机一旦出现该状况，后果更加不可想象。因此，对航空发动机异常检测愈发受到人们的重视。

为了在保证安全性的同时，获取更大的经济效益，发动机的维修方式已经由过去的定时维修转变为根据设备的性能参数的变化趋势进行视情维修。为了记录飞机飞行过程中机载设备的状态数据，大多数大型飞机上都装有飞行记录器和快速存储记录器(QAR)，快速存取记录器QAR是一种飞行状态数据记录设备，用来采集飞机日常飞行的飞行状态数据，包括飞机的日常飞行参数、飞机各主要机载设备的性能参数以及机舱内外的环境参数等。QAR数据的数据量大、维度高、以及对使用者的高专业要求的特点致使对该类数据的有效利用率还比较低。

作为飞机飞行状态数据的记录，QAR数据为飞机故障检测分析、事故原因的查找提供事实上的证据支持，它使得异常检测成为了飞机故障检测和预警的可行有效手段。由于发动机上零部件数量多，种类杂，发动机的性能参数信息也是多种多样的，这使得应用传统的方法管理发动机的性能参数信息效率很低，且容易出错。对于数据量巨大这一问题，我们可以对该数据进行模式表示，但因为航班航行时间不同，从而造成数据的长短不同，所以不能使用传统的模式表示方法来解决该问题。另外，传统的异常检测模型一般通过当前数据与历史QAR数据逐条匹配，效率较低。

高速增量式航空发动机异常检测方法是相对于数据量大、维度高、数据长度不一致并且异常数据极少的情形下异常检测的新方法。该方法首先通过专家知识初步筛选参数数据；数据预处理后提取数据的特征，对原始数据进行压缩表示；然后对各性能参数进行模式挖掘，建立参数数据模式库；最后，将新产生的增量数据与模式库进行比对，实现对航空发动机增量数据的异常检测。本发明解决了传统异常检测方法在数据量大、数据长度不一致并且异常数据极少情形下的效率低且效果差的问题，针对航空发动机性能参数数据给出了一种高效的异常检测的分析方法。

发明内容

本发明的目的是基于航空发动机性能参数数据，发明一个对航空发动机异常检测的方法，基于该方法，可以识别检测出航空发动机的异常，从而解决在数据量大、数据长度不一致等情形下，传统分析方法无法建模、效率低、效果差等一系列的问题。

本发明的具体技术方案包括以下几个步骤：

步骤一：利用专家知识对参数进行选择，筛除一些不相关的属性数据，以降低数据复杂度。然后利用指数平滑法对性能参数进行预处理，减少噪声对数值分析过程的影响。

步骤二：使用基于方差的自适应分段算法对性能参数进行特征表示：采用方差度量当前数据段的波动，从而达到线性时间内自适应划分的目的，在保留原始信息基本特征的同时，减少后续处理数据的规模。

步骤三：基于步骤二所提取的分段特征，利用基于自适应线段的动态时间规整(ASDTW)算法对序列段进行相似性度量：将序列段作为动态匹配的基本单位，在匹配过程中通过中值、长度、斜率等信息来进行序列段之间的距离计算。

步骤四：基于步骤三所述的序列间距离度量方法，采用基于密度的聚类算法建立性能参数模式挖掘模型，通过算法对数据区域进行划分，将分割后的高密度区域作为聚类结果，然后求出每个高密度聚类的中心序列，将所有的中心序列构建成性能参数模式库。

步骤五：将新增加的增量数据进行相同的预处理后，将其与模式库内的各模式进行匹配，得到该增量数据的异常值，若异常值超过给定阈值，则该增量数据为异常数据。

本发明的有益效果是：

本发明所提的方法从科研第四范式的角度出发，针对已有的航空发动机性能参数进行特征表示与模式提取，发明了一种新颖的异常检测方法，有效解决了数据量大、数据长度不一致且异常数据极少等情形下航空发动机的异常检测问题。该方法能够快速有效的检测增量数据的异常，弥补了传统方法在数据量大并且数据长度不一致的条件下效率低、效果差的缺点。

附图说明

图1是本发明方法的总体流程图。

具体实施方式

下面结合附图和相关算法，对本发明做进一步的说明。

本发明的总体流程如图1所示。

本发明利用航空发动机性能参数数据进行异常检测，使用指数平滑法对去除野值后的航空发动机性能参数进行处理。针对处理后的数据使用基于方差的自适应分段算法对性能参数进行特征表示。使用基于自适应线段的动态时间规整算法进行序列的相似性度量，采用基于密度的聚类算法建立性能参数模式挖掘模型，从而挖掘出性能参数模式库。将新增加的增量数据与模式库进行匹配，得到异常检测结果。具体实施步骤如下：

1.数据平滑处理

由于航空发动机常年在高温、高压等恶劣环境下工作，相关监测设备往往会含有噪声，因此本发明采用指数移动平均法对发动机的各个参数数据进行平滑处理，以消除因外部环境所导致的噪声对后续分析的影响。设时间t时，实际数据为x_t，数据的平滑值为s_t，时间t-1的平滑值为s_t-1，则指数移动平均法的计算方法为：

其中α为平滑系数，其值取决于平滑窗口大小，介于0与1之间。其具体过程如算法1所述：

算法1：数据平滑处理

输入：航空发动机性能参数数据X，平滑系数α

输出：平滑后的数据S

01：X.length＝参数数据X的长度

02：s₁＝x₁

03：for(i in 2：X.length)

04：s_i＝αx_i+(1-α)s_i-1

05：end for

2.自适应分段线性表示

本发明完成参数选择和数据平滑处理后，为了进一步降低数据的维度，使用分段线性表示对数据进行特征表示。针对分段线性表示法计算开销较大的问题，根据数据段的波动程度来进行自适应划分。为了量化数据段的波动程度，引入统计学中的方差(Variance)。给定一个离散型随机变量X＝{x₁，x₂，…，x_n}，其中n为随机变量X的长度，随机变量X的均值定义为：

随机变量X的方差Var(X)定义为：

在线性表示的过程中，若当前数据窗口的方差大于设定的阈值，则将当前窗口内的数据作为一个序列段保存下来，并重置数据窗口。

基于方差的自适应分段线性表示(Variance based Adaptive Piecewise LinearApproximation，V-APLA)的具体过程如算法2所述

算法2：基于方差的自适应分段线性表示

给定原始序列X＝{x₁，x₂，…，x_n}，根据特征表示算法将原始序列表示为P＝{p₁，p₂，…，p_m}，其中m为特征表示后序列段的个数，1≤m≤n。各序列段可表示为p_i＝＜s_i，k_i，l_i＞的三元组形式，其中1≤i≤m，s_i表示该段起始点的序列值，k_i为序列段斜率，l_i为序列段长度。

对于特征表示后的序列，使用均方根误差(Root Mean Square Error，RMSE)、平均绝对误差(Mean Absolute Difference，MAE)和压缩率(Compression Ration，CR)这三个评估指标来检测特征表示方法的性能。给定原始时间序列X＝{x₁，x₂，…，x_n}和特征表示后得到的数据时间序列集合X′＝{x′₁，x′₂，…，x′_n}，均方根误差RMSE定义如下：

平均绝对误差MAE定义如下：

给定原始时间序列X＝{x₁，x₂，…，x_n}和特征表示后的序列段集合P＝{p₁，p₂，…，p_m}，压缩率CR定义如下：

3.相似性度量

采用相似性度量来判断时间序列之间是否具有相似的趋势和形态，对于航空发动机数据而言，其自身具有传统时序数据特点的同时，也具有形态多样、周期不连续、数据量大的特点。本发明使用上述基于方差的自适应分段线性表示算法，将原始数据表示成序列段的形式，然后使用基于自适应线段的动态时间规整算法(Adaptive Segment basedDynamic Time Warping，ASDTW)对航空发动机时序数据进行相似性度量。

本发明基于序列段的中值和两序列段的夹角来度量序列段之间的近似距离，中值mid定义如下：

mid_i＝s_i+k_i*l_i/2

给定两个序列段p＝＜s_p，k_p，l_p＞和q＝＜s_q，k_q，l_q＞，定义序列段之间的距离disSeg(p，q)为：

disSeg(p，q)＝max(l_p，l_q)×|mid_p-mid_q|×(1-cosθ)

其中，θ为两序列段之间的夹角。然后根据上述距离公式计算两个序列段集合P＝{p₁，…，p_m}和Q＝{q₁，q₂…，q_m′，}之间的累积序列段距离矩阵CulMat，其元素CulMat(i，j)表示匹配到(p_i，q_j))时的最小累积距离，计算公式为：

CulMat(i，j)＝disSeg(p_i，q_i)+min{CulMat(i，j-1)，CulMat(i-1，j)，CulMat(i-1，j-1)}其中，i＝1，2，...，m，j＝1，2，...，m′，CulMat(0，0)＝0，CulMat(i，0)＝CulMat(0，j)＝+∞。CulMat(m，m′)的值即为序列P和Q之间的最小累积序列段距离。基于自适应线段的动态时间规整算法具体过程如算法3所述：

算法3：基于自适应线段的动态时间规整算法

4.模式挖掘

本发明基于算法3求得的累积序列段距离，使用基于密度的聚类算法将序列段聚合成若干个序列集合。基于密度的空间聚类算法DBSCAN(Density-Based SpatialClustering of Applications with Noise，DBSCAN)是聚类算法中一种代表性的方法，算法基于下面几个定义。

Eps领域：给定对象的半径Eps，则半径为Eps之内的邻域成为该对象的Eps领域。

核心对象：若某对象的Eps邻域内至少包括MinPts个对象，称该对象为核心对象

直接密度可达：给定一个集合W，如果点β在点α的Eps邻域，并且α是核心对象，那么可称对象β从对象α直接密度可达。

密度可达：给定一个集合W和一个对象链z₁，z₂，…，z_n，令α＝z₁，β＝z_n。对于任意z_i∈W，对象z_i从z_i-1均直接密度可达，那么称点β是从点α密度可达。

密度相连：给定集合W。对于集合中的任意一点γ，如果对象α到对象γ密度可达，并且对象β到对象γ也密度可达，则称对象α和对象β密度相连。

算法具体过程如下：

算法4：DBSCAN，一种基于密度的聚类算法

输入：目标集合W，领域半径Eps和对象的邻域至少包含的对象数目MinPts

输出：簇的集合cluster

(1)num＝size(W)

(2)m＝集合S中核心对象数目

(3)for(i in 1：num)

(4)if(p_i是核心对象)

(5)找到p_i的Eps邻域中所有密度可达点

(6)end if

(7)end for

(8)for(j in l：m)

(9)找出核心对象p_i所有直接密度可达点，确定最大密度连接集合cluster_j

(10)end for

(11)return cluster

得到各序列子集后，对于每一个序列集合，在开始阶段随机选择一条序列作为初始中心序列，然后将集合内各原始序列与当前中心序列进行匹配，根据匹配结果来更新当前中心序列，直到中心序列的变动小于阈值，得到最终的中心序列，所有子集的中心序列构成了发动机性能参数模式库。算法使用序列段来近似表示原始序列，本发明根据质心的物理概念来定义若干序列段的质心。对于给定序列段集合P＝{p₁，p₂，…，p_m}，质心定义如下：

根据上述定义可以看出，序列段集合的质心较好地保留了序列段集合的全局特征，能快速求得质心与其他序列段的距离，方便进行迭代。性能参数模式挖掘算法具体过程如下所述：

算法5：性能参数模式挖掘算法

5.增量数据模式匹配

由于航空发动机的历史数据量往往都非常大，而对于每次新增的增量数据，传统的异常检测算法都需要对以往的历史数据重新计算一遍，需要耗费非常长的时间，大大降低了算法的效率，延误了异常检测的最佳时机。本发明根据已有的大量航空发动机性能参数数据进行建模，设计了高效算法，挖掘出航空发动机性能参数模式库，并将新增的增量数据进行同样的处理后，与挖掘出的模式进行比对，最终得出增量数据的异常值，从而判定该数据是否异常。具体步骤如下

第一步：首先利用专家知识对参数进行选择，然后利用指数平滑法对增量数据进行平滑处理。

第二步：使用基于方差的自适应分段算法对增量数据进行特征表示。

第三步：利用基于自适应线段的动态时间规整算法将第二步得到的序列段与模式库中各个模式进行相似性度量，得到增量数据与各模式之间的距离D＝{d₁，d₂，…，d_t}，其中t为模式库中模式的个数。

第四步：定义增量数据的异常值为e＝min(D)＝min(d₁，d₂，…，d_t)，若e小于之前设定好的阈值，则该增量数据为正常数据，否则属于异常数据。

Claims

1.一种高速增量式航空发动机异常检测方法，其特征包括如下步骤：

(1)针对航空发动机性能参数的特点，按异常检测过程的特殊需要，对原始数据进行平滑处理；

(2)对处理后的数据进行特征表示，根据数据段的波动程度进行自适应划分，采用序列段来近似表示原始数据。

(3)利用基于自适应线段的动态时间规整算法对特征表示后的参数进行相似性度量。

(4)在步骤(3)相似性度量的基础上，使用基于密度的聚类算法建立模式挖掘模型，建立性能参数模式库。

(5)根据步骤(4)得到的模式库，将增量数据与模式库中各模式进行匹配，得到该增量数据的异常值，以此来检测数据的异常。

2.根据权利要求1所述方法，其特征在于，步骤(1)针对航空发动机的原始性能参数数据进行平滑处理，其实现方法如下：

在航空发动机的原始性能参数数据中，往往会含有噪声，为消除噪声对数值分析过程造成的影响，采用指数移动平均法对原始数据进行平滑处理，设时间t时，实际数据为x_t，数据的平滑值为s_t，则指数移动平均法的计算方法为：

<mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>s</mi> <mi>t</mi> </msub> <mo>=</mo> <msub> <mi>&alpha;x</mi> <mi>t</mi> </msub> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>&alpha;</mi> <mo>)</mo> </mrow> <msub> <mi>s</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>s</mi> <mn>1</mn> </msub> <mo>=</mo> <msub> <mi>x</mi> <mn>1</mn> </msub> </mrow> </mtd> </mtr> </mtable> </mfenced>

其中α为平滑系数，其值取决于平滑窗口大小，介于0与1之间。

3.根据权利要求1所述的方法，其特征在于，步骤(2)对处理后的数据进行特征表示，并对特征表示后的序列使用评估指标来检测特征表示方法的性能，其实现方法包括：

(31)自适应分段线性表示

为了量化数据段的波动程度，引入统计学中的方差(Variance)。给定离散型随机变量X＝{x₁，x₂，…，x_n}，其中n为随机变量X的长度，则随机变量X的均值定义为：

<mrow> <mover> <mi>x</mi> <mo>&OverBar;</mo> </mover> <mo>=</mo> <mfrac> <mrow> <msub> <mi>x</mi> <mn>1</mn> </msub> <mo>+</mo> <msub> <mi>x</mi> <mn>2</mn> </msub> <mo>+</mo> <mo>...</mo> <mo>+</mo> <msub> <mi>x</mi> <mi>n</mi> </msub> </mrow> <mi>n</mi> </mfrac> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>x</mi> <mi>k</mi> </msub> </mrow> <mi>n</mi> </mfrac> </mrow>

随机变量X的方差Var(X)定义为：

<mrow> <mi>V</mi> <mi>a</mi> <mi>r</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mi>n</mi> <mo>-</mo> <mn>1</mn> </mrow> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <mover> <mi>x</mi> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow>

给定原始序列X＝{x₁，x₂，…，x_n}，根据特征表示算法将原始序列表示为P＝{p₁，p₂，…，p_m}，其中m为特征表示后序列段的个数，且1≤m≤n。各序列段可表示为p_i＝<s_i，k_i，l_i>的三元组形式，其中1≤i≤m，s_i表示该段起始点的序列值，k_i为序列段斜率，l_i为序列段长度。

(32)特征表示方法的评估

对于特征表示后的序列，本发明使用均方根误差(Root Mean Square Error，RMSE)、平均绝对误差(Mean Absolute Difference，MAE)和压缩率(Compression Ration，CR)这三个评估指标来检测特征表示方法的性能。设原始时间序列为X＝{x₁，x₂，…，x_n}，特征表示后的数据序列为X′＝{x′₁，x′₂，…，x′_n}，均方根误差RMSE定义如下：

<mrow> <mi>R</mi> <mi>M</mi> <mi>S</mi> <mi>E</mi> <mo>=</mo> <msqrt> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mo>&prime;</mo> </msubsup> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> <mi>n</mi> </mfrac> </msqrt> </mrow>

平均绝对误差MAE定义如下：

<mrow> <mi>M</mi> <mi>A</mi> <mi>E</mi> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mo>|</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mo>&prime;</mo> </msubsup> <mo>|</mo> </mrow> <mi>n</mi> </mfrac> </mrow>

<mrow> <mi>C</mi> <mi>R</mi> <mo>=</mo> <mn>1</mn> <mo>-</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mi>l</mi> <mi>e</mi> <mi>n</mi> <mi>g</mi> <mi>t</mi> <mi>h</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mi>l</mi> <mi>e</mi> <mi>n</mi> <mi>g</mi> <mi>t</mi> <mi>h</mi> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

4.根据权利要求1所述方法，其特征在于，步骤(3)利用自适应线段的动态时间规整算法对特征表示后的参数数据进行相似性度量，得到序列间的最小累积序列段距离。本发明使用序列段的中值和两序列段的夹角来度量序列段之间的近似距离

中值mid定义如下：

mid_i＝s_i+k_i*l_i/2

给定两个序列段p＝<s_p，k_p，l_p>和q＝<s_q，k_q，l_q>，定义序列段之间的距离disSeg(p，q)为：

disSeg(p，q)＝max(l_p，l_q)×|mid_p-mid_q|×(1-cosθ)

其中，θ为两序列段之间的夹角。然后根据上述距离公式计算两个序列段集合P＝{p₁，…，p_m}和Q＝{q₁，q₂…，q_m′}之间的累积序列段距离矩阵CulMat，其元素CulMat(i，j)表示匹配到(p_i，q_j)时的最小累积距离，计算公式为：

CulMat(i，j)＝disSeg(p_i，q_j)+min{CulMat(i，j-1)，CulMat(i-1，j)，CulMat(i-1，j-1)}

其中，i＝1，2，...，m，j＝1，2，...，m′，CulMat(0，0)＝0，CulMat(i，0)＝CulMat(0，j)＝+∞。

CulMat(m，m′)的值即为序列P和Q之间的最小累积序列段距离。

5.根据权利要求1所述方法，其特征在于，步骤(4)基于步骤(3)中所求的累积序列段距离，采用基于密度的聚类算法(DBSCAN)将序列段聚合成若干个序列集合，然后求出每个序列集合的中心序列，所有的中心序列构成了性能参数模式库。算法使用序列段来近似表示原始序列，本发明根据物理质心的概念来定义若干序列段的质心。对于给定序列段集合P＝{p₁，p₂，…，p_m}，质心定义如下：

<mrow> <mi>B</mi> <mrow> <mo>(</mo> <mi>P</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>B</mi> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>p</mi> <mn>2</mn> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>p</mi> <mi>m</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mo><</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>s</mi> <msub> <mi>p</mi> <mi>i</mi> </msub> </msub> <mo>/</mo> <mi>m</mi> <mo>,</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>k</mi> <msub> <mi>p</mi> <mi>i</mi> </msub> </msub> <mo>/</mo> <mi>m</mi> <mo>,</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>l</mi> <msub> <mi>p</mi> <mi>i</mi> </msub> </msub> <mo>/</mo> <mi>m</mi> <mo>></mo> </mrow>

其中，m是当前序列中序列段的数目，序列段集合的质心保留了序列段集合的全局特征，能快速求得质心与其他序列段的距离，方便进行迭代。

6.根据权利要求1所述方法，其特征在于，步骤(5)将新增的增量数据进行相同的预处理后，与挖掘出的模式进行匹配，得出增量数据的异常值，从而判定该数据是否异常。定义增量数据的异常值为：

e＝min(D)＝min(d₁，d₂，…，d_t)

其中，D＝{d₁，d₂，…，d_t}为该增量数据与模式库中的各模式之间的距离，t为模式库中模式的个数。若e小于之前设定好的阈值，则该增量数据为正常数据，否则属于异常数据。