CN108829878B

CN108829878B - 一种工业实验数据异常点检测方法及装置

Info

Publication number: CN108829878B
Application number: CN201810669806.8A
Authority: CN
Inventors: 金福生; 金昊宸; 韩翔宇; 袁汉宁
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2018-06-26
Filing date: 2018-06-26
Publication date: 2021-10-01
Anticipated expiration: 2038-06-26
Also published as: CN108829878A

Abstract

一种工业实验数据异常点检测方法及装置，属于异常点检测技术领域。针对每一个测试变量在一次实验中随时间的数据变化曲线，根据多次历史实验中该变量的整体变化情况，确定可能表示机器启动和关闭的“状态代表时间点”，再检测测试样本中“状态代表时间点”的取值是否在正常状态范围内，对于取值异常的测试样本判定为异常；否则根据“状态代表时间点”的取值情况和历史数据，拟合出数据标准，并根据测试样本中各时间点取值相对数据标准的偏差，通过聚类算法检测出偏差程度较绝大多数样本有很大不同的时间点判定为异常点。本发明充分利用工业实验数据的特殊性，进而获得更为准确的异常点检测结果，具有较高的检测准确度。

Description

一种工业实验数据异常点检测方法及装置

技术领域

本发明涉及一种针对在时间依赖性、实验重复性等方面有着很大特殊性的工业实验数据的异常点检测方法及装置，尤其涉及一种工业实验数据异常点检测方法及装置，属于工业数据检测以及异常点检测技术领域。

背景技术

工业实验数据蕴含着对应工业系统测试和运行时的各种状态信息，数据中的异常点往往可以反映潜在的故障情况，因此为了保证设备正常运行，减小维护成本，对工业实验数据进行准确地异常点检测变得愈发重要。但目前针对工业实验数据的异常点检测主要依赖于专家经验，该方法对异常点的识别效率过低且在数据分析人员相关领域知识不足时检测精度低。此外，现有基于数据挖掘的异常点检测方法很少考虑工业实验数据在分布、可重复性等方面的特点，因此检测效果较差。

针对上述问题，本发明结合工业实验数据的特殊性和常规异常点检测方法，提出了一个适用于工业实验数据的异常点检测方法。根据历史工业实验数据的变化情况和领域知识，对工业实验数据相对常规数据在数据分布、重复性、误差容忍度、专业性和机密性等方面的特殊性进行了分析，并根据数据的特殊性提出了用于工业实验数据的特征提取流程，然后在基于密度聚类算法的基础上，构建了针对工业实验数据的异常点检测方法。

发明内容

本发明的目的是为了解决现有异常点检测方法没有结合工业实验数据的特殊性，从而直接应用于工业实验数据检测会出现异常点检测不准确甚至错误的技术缺陷，提出了一种工业实验数据异常点检测方法及装置。

本发明的核心思想是：针对每一个测试变量在一次实验中随时间的数据变化曲线，根据多次历史实验中该变量的整体变化情况，确定可能表示机器启动和关闭为主变化的“状态代表时间点”，然后检测测试样本中“状态代表时间点”的取值是否在正常状态范围内，对于取值超出正常范围内的情况，将该测试样本直接判定为异常；否则根据“状态代表时间点”的取值情况和历史数据，拟合出数据标准，并根据测试样本中各时间点取值相对数据标准的偏差，通过聚类算法检测出偏差程度较绝大多数样本有很大不同的时间点判定为异常点。

本发明的目的是通过以下技术方案实现的：

一种工业实验数据异常点检测方法及装置，包括一种工业实验数据异常点检测装置和一种工业实验数据异常点检测方法；

一种工业实验数据异常点检测装置，包括“状态代表时间点”确定模块、数据变化特征拟合模块、差异特征提取模块以及异常时间点检测模块；

其中，“状态代表时间点”确定模块又包括“状态代表时间点”判断模块和“状态代表时间点”取值检测模块；

一种工业实验数据异常点检测装置中各模块的连接关系如下：

“状态代表时间点”确定模块与数据变化特征拟合模块相连；数据变化特征拟合模块与差异特征提取模块相连，差异特征提取模块与异常时间点检测模块相连；

一种工业实验数据异常点检测装置中各模块的功能如下：

“状态代表时间点”确定模块的功能是：根据历史实验数据，确定表示该变量机器启动、关闭等状态变化的“状态代表时间点”，判断测试样本可能的状态类别，并以此检测“状态代表时间点”的取值是否在正常范围内；

数据变化特征拟合模块的功能是：对于测试样本中“状态代表时间点”处的取值在正常范围内的情况，选择历史数据中该变量在“状态代表时间点”取值和测试样本最相近的一次实验，将选取实验中数据的变化曲线作为测试样本的“数据标准”，即拟合得到的数据特征；

差异特征提取模块的功能是：计算测试样本中各个时间点处取值与数据标准之间的差值，将差值处理后作为差异特征提取；

异常时间点检测的功能是：将提取得到的差异特征用基于密度的聚类算法进行聚类分析，根据聚类结果将不属于最大样本簇的时间点判断为异常点。

依托于一种工业实验数据异常点检测装置的一种工业实验数据异常点检测方法，包括以下步骤：

步骤一、根据历史实验数据，确定该变量的“状态代表时间点”；

具体到本实施例一次实验中的“状态代表时间点”相比于其他时间点的最大特征即是“突变”，由于机器启动或关闭等操作，其变化要更明显于其他时间点；选择以每个时间点的数值相较前一时间点的数值变化的绝对值作为“变化”的衡量标准，将多次历史数据在该点的变化值的绝对值求平均值作为最终的标准，各时间点中变化平均值最大的即是“状态代表时间点”；

每次实验中变化值计算如下式(1)：

R_n＝|x_n-x_n-1| (1)

其中，R_n表示该次实验样本在时间点n的变化值，x_n表示样本在时间点n的取值；x_n-1表示样本在时间点n-1的取值；

步骤二、检测本次实验中“状态代表时间点”处的取值是否在正常范围内，如在正常范围内，则跳至步骤三；如不在正常范围内将测试样本判定为异常，跳至步骤六；

考虑到实际情况，正常的“状态代表时间点”取值可能根据实验时机器状态的不同有不同的稳定范围，对历史数据中“状态代表时间点”的取值使用Kmeans算法进行聚类，确定机器变化状态大致可以分为几种类别，其中具体聚类的簇个数可以由画图分布得到；

具体到测试样本“状态代表时间点”的归类，首先计算测试样本在该时间点的数值和上面得到的几个聚类中心的距离，判断所属类；然后分别计算对应类中所有点和聚类中心之间的距离，选择其中距离聚类中心最远的两点m和n，设两点各自到聚类中心的距离为l_m和l_n，则测试样本到聚类中心的可接受距离范围如下式(2)所示，在“状态代表时间点”处取值超出可接受范围的样本被判定为异常，跳至步骤六；如取值在可接受范围内，则跳至步骤三；

每次实验中变化值计算如下式(2)：

φ＝[0,(|l_m+l_n|+5|l_m-l_n|)/2] (2)

其中，φ表示测试样本“状态代表时间点”的合理取值范围，l_m和l_n表示同类历史数据中距离聚类中心最远的两点；

步骤三、对于“状态代表时间点”取值正常的情况，从历史数据中选择“状态代表时间点”取值和本次实验最相近的一次实验，将选取实验中数据的变化曲线作为本次实验的“数据标准”；

对于正常的情况，各个时间点对应的数据特征和其数据标准的差异程度应该大致在一个相同范围，而和数据标准的差异程度明显不同于其他时刻的点被认为是异常点，因此在历史数据上选取“状态代表时间点”取值和测试样本最接近的一个样本，将其后续数据的变化特征作为测试样本的“数据标准”；

步骤四、计算测试样本中各个时间点处取值与数据标准之间的偏差；

工业数据中误差容忍度的不同，这就导致对于历史数据中偏差范围不同，即误差容忍度不同的变量，在提取差异特征时应该有不同的约束效果，因此选择以该时间点测试样本与数据标准的差值，和历史同类数据相对数据标准的差值的平均值与该差值的和，取比值作为该时间窗的差异特征；

具体差异特征的计算如下式(3)：

其中，δ_n表示测试样本在时间点n的一项差异特征，y_n表示样本在时间点n的取值与数据标准的差值，σ_n表示测试样本对应类的历史数据在时间窗或时间点n数据特征相对数据标准的差值的平均值，Δ表示一个很小的数防止出现除以零的情况，本文中Δ取1e-10；

步骤五、通过密度聚类，将不属于最大样本簇的时间点判断为异常点；

输入：样本集D＝(x₁,x₂,…,x_m)，其中m为测试样本中所有的时间点个数，邻域参数(∈，Minpts)，∈为邻域距离阈值，Minpts为距离∈的邻域中样本个数阈值；

输出：簇划分C；

初始化核心对象集合Ω为空集，当前聚类簇数k＝0，未访问样本集Γ为样本集D；

对于j＝1,2,…,m，按下面步骤处理每个样本：

步骤(1)通过距离度量方式，找到样本x_j的∈-邻域子样本集N_∈(x_j)；

步骤(2)如果子样本集样本个数满足|N_∈(x_j)|≧MinPts，将样本x_j加入核心对象集合Ω，Ω＝Ω∪{x_j}；

步骤(3)在核心对象集合Ω中随机选择一个核心对象o，初始化当前簇核心对象队列Ω_cur＝{o}，初始化类别序号k＝k+1，初始化当前簇样本集合C_k＝{o}，更新未访问样本集合Γ＝Γ-{o}；

步骤(4)在当前簇核心对象队列Ω_cur中取出一个核心对象o′，通过邻域距离阈值∈找出所有的∈-邻域子样本集N_∈(o′)，令Δ＝N_∈(o′)∩Γ，更新当前簇样本集合C_k＝C_k∪Δ，更新Ω_cur＝Ω_cur∪(N_∈(o′)∩Ω)；

步骤(5)如果当前簇核心对象队列为空集，则当前聚类簇C_k生成完毕，更新簇划分C＝{C₁,C₂,…,C_k}，更新核心对象集合Ω＝Ω-C_k，否则重复步骤(4)；

步骤(6)如果核心对象集合Ω为空集，则算法结束，否则继续进行步骤(3)；

最后输出结果的簇划分C＝{C₁,C₂,…,C_k}即为针对工业实验数据的初步异常点检测结果；

步骤六、给出异常点检测结果的指示，完成了一种工业实验数据异常点检测方法。

有益效果

本发明一种工业实验数据异常点检测方法及装置，对比已有技术，具有如下有益效果：

1.本发明从实际工业系统的特点出发，充分利用工业实验数据相对常规数据在数据分布以及重复性为主的特殊性，进而获得更为准确的异常点检测结果；

2.本发明能够在数据分析人员缺少相关工业领域知识的情况下，考虑工业实验数据的特殊性进行异常点检测，并具有较高的检测准确度。

附图说明

图1为本发明一种工业实验数据异常点检测装置及实施例1中的模块结构图；

图2为本发明一种工业实验数据异常点检测方法及实施例2中的流程示意图；

图3为本发明一种工业实验数据异常点检测方法及实施例3中的常规数据变化曲线图；

图4为本发明一种工业实验数据异常点检测方法及实施例4中的第一类测试样本在实验中的数据变化曲线图；

图5为本发明一种工业实验数据异常点检测方法及实施例5中的第二类测试样本在实验中的数据变化曲线图；

图6为本发明一种工业实验数据异常点检测方法及实施例6中的第三类测试样本在实验中的数据变化曲线图。

具体实施方式

下面将结合附图和实施例对本发明加以详细说明，同时也叙述了本发明技术方案解决的技术问题及有益效果，需要指出的是，所描述的实施例仅旨在便于对本发明的理解，而对其不起任何限定作用。

实施例1

本实施例叙述了本发明一种工业实验数据异常点检测装置的模块结构图，如图1所示。

从图1可以看出一种工业实验数据异常点检测装置包括“状态代表时间点”确定模块、数据变化特征拟合模块、差异特征提取模块以及异常时间点检测模块，其中，“状态代表时间点”确定模块又包括“状态代表时间点”判断模块和“状态代表时间点”取值检测模块。“状态代表时间点”确定模块接收历史实验数据和测试样本，将测试样本中的“状态代表时间点”输入至数据变化特征拟合模块，拟合得到数据标准特征后输入至差异特征提取模块，根据数据标准提取差异特征，输入异常点检测模块，最后输出对测试样本的检测结果。

实施例2

本实施例叙述了本发明一种工业实验数据异常点检测方法的流程图，如图2所示。

从图2中可以看出，一种工业实验数据异常点检测方法的流程图，包括以下步骤：

步骤1、输入历史实验数据，计算各时间点的平均变化值；

步骤2、选择平均变化值最大的时间点作为“状态代表时间点”；

步骤3、通过Kmeans寻找测试样本在“状态代表时间点”处属于哪一分类；

步骤4、通过测试样本“状态代表时间点”处取值和对应聚类中心的距离，判断该时间点样本是否取值正常；如取值正常跳转至步骤5，如不正常判定测试样本为异常，跳转至步骤8；

步骤5、根据测试样本“状态代表时间点”处的取值和历史数据，拟合后续时间的数据标准；

步骤6、提取测试样本各时间点取值相对数据标准的差异特征；

步骤7、以差异特征进行密度聚类，根据聚类结果判断异常时间点：

步骤7.1、输入特征提取得到的差异特征，设置邻域参数；

步骤7.2、通过距离度量，找到每个样本的邻域子样本集；

步骤7.3、确定满足邻域条件的核心对象集；

步骤7.4、通过核心对象和其邻域子样本集不断对簇进行更新；

步骤7.5、直到所有核心对象被遍历，则聚类簇生成完毕；

步骤7.6、根据聚类结果判断测试样本各时间点是否属于异常点(不属于最大样本簇的时间点被判断为异常点)；

步骤8、给出异常指示，完成了一种工业实验数据异常点检测方法。

实施例3

图3是第一类测试样本在不同次实验中沿时间的数据变化曲线图，该类测试样本包含了工业实验数据的主要常规特征。如：存在作为“状态代表时间点”的突变点，图中变量的“状态代表时间点”为100；不同次实验中变量的取值有一定规律，但并不完全重复，图中变量在“状态代表时间点”处的取值可以大致分为两类，同类中样本的取值相近但仍有一定差别；“状态代表时间点”处的不同取值，可以代表后续数据的不同变化特征，图中在“状态代表时间点”处取值不同的两类的样本集，其对应的后续数据变化也呈现两类不同的趋势；数据取值在相对固定的标准处浮动，图中变量在不同样本中的数据变化曲线非完全连续或恒值，而是有一定波动，且大都围绕相对固定的几个标准值上下浮动。

基于工业实验数据特征，可以大概率认为当某一时间点机器或其他实验环境出现异常时，其后续的实验数据也应该会受到影响，即在进行工业实验数据异常点检测时，异常点往往不是单独而是连续出现的。针对这种情况，本发明在测试方法在常规工业数据异常点检测的效果时，选择了如图4的测试样本。其机器状态等环境因素大致符合该变量的一类历史数据，与正常数据相比在实验开始后大部分时间上的数据取值、数据变化趋势等特征都与同类历史数据规律较为相似。但在曲线的后部的一段数据(圆圈标出)，虽然单独从一次实验的数据曲线观察并没有明显异常，但根据常规工业实验数据异常出现情况，其该时间段数据取值等特征都与“状态代表时间点”处取值对应的正常变化有一定差别，因此以此来测试方法对于常规工业实验数据异常点的检测效果。

对于该类测试样本，输入对应历史实验数据和测试样本，本发明经由步骤1-8输出的检测结果如表1所示。

表1本发明对于第一类测试样本的检测效果表

对于该类常规实验数据的异常，应用本发明的方法可以基本检测出测试样本中大多数异常点，并根据异常偏离正常预期的程度将异常分为不同的类别。由于异常时间段中部分时间点在取值上仍然与预期值较为相近，因此该部分被判断为正常点

实施例4

根据工业实验数据的产生环境和数据特殊性，除了机器运转过程中的问题所造成的故障外，也存在由于测量或其他原因所造成的误差也是需要检测的异常点。而误差异常点不同于实验一中的故障异常点，往往单独出现，且通常不会对后续数据产生影响，为此本发明选择了如图5的测试样本。

该测试样本在绝大多数时间点的取值属于正常数据，随机选取十个时间点赋值为不同大小的误差数据，以此来测试方法对于常规工业实验数据误差异常点的检测效果。

对于该类测试样本,输入对应历史实验数据和测试样本，本发明经由步骤1-8输出的检测结果如表2所示。

表2本发明对于第二类测试样本的检测效果表

对于该类常规实验数据的误差异常，应用本发明的方法可以非常准确地检测出测试样本的异常点。因为聚类模型在训练时可以将占据大多数的正常样本筛选出来，其余远离整体的数据均被判断为异常，而不用考虑异常数据之间是否有某种联系。

实施例5

工业实验数据的不同变量具有不同的误差容忍度，可能对于某些变量偏离正常数据过大的情况对于另一些数据却属于可接受的波动，特别是对于某些变量，其历史数据对应时间点的取值几乎完全相同，任何在之前数据中可接受的误差对于严格稳定数据都可能被认为是异常点。因此，为了测试方法对在进行异常点检测时对工业实验数据误差容忍度的适应能力，本发明选择严格稳定的数据变量(不同次实验中对应时间点取值几乎完全相同，误差浮动情况远小于其他类数据)作为测试样本，具体样本的数据变化曲线如图6所示。

该测试样本随机选取十个时间点赋值为偏离原始数据正常范围的异常数据，为了体现该类严格稳定数据的特性，异常数据偏离原始数据的范围与实验二中不同，其偏离幅度设置为实验二中正常数据的波动范围。

对于该类测试样本，输入对应历史实验数据和测试样本，本发明经由步骤1-8输出的检测结果如表3所示。

表3本发明对于第三类测试样本的检测效果表

对于该类严格稳定数据的异常点，应用本发明的方法可以非常准确地检测出测试样本中微小变动的异常点。

以上所述为本发明的较佳实施例而已，本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改，都落入本发明保护的范围。

Claims

1.一种基于工业实验数据异常点检测装置的工业实验数据异常点检测方法，其特征在于：针对每一个测试变量在一次实验中随时间的数据变化曲线，根据多次历史实验中该变量的整体变化情况，确定可能表示机器启动和关闭为主变化的“状态代表时间点”，然后检测测试样本中“状态代表时间点”的取值是否在正常状态范围内，对于取值超出正常范围内的情况，将该测试样本直接判定为异常；否则根据“状态代表时间点”的取值情况和历史数据，拟合出数据标准，并根据测试样本中各时间点取值相对数据标准的偏差，通过聚类算法检测出偏差程度较绝大多数样本有很大不同的时间点判定为异常点；包括以下步骤：

具体到实验中的“状态代表时间点”相比于其他时间点的最大特征即是“突变”，由于机器启动或关闭操作，其变化要更明显于其他时间点；选择以每个时间点的数值相较前一时间点的数值变化的绝对值作为“变化”的衡量标准，将多次历史数据在该点的变化值的绝对值求平均值作为最终的标准，各时间点中变化平均值最大的即是“状态代表时间点”；

每次实验中变化值计算如下式(1)：

R_n＝|x_n-x_n-1| (1)

其中，R_n表示实验样本在时间点n的变化值，x_n表示样本在时间点n的取值；x_n-1表示样本在时间点n-1的取值；

考虑到实际情况，正常的“状态代表时间点”取值可能根据实验时机器状态的不同有不同的稳定范围，对历史数据中“状态代表时间点”的取值使用Kmeans算法进行聚类，确定机器变化状态可以分为几种类别，其中具体聚类的簇个数可以由画图分布得到；

每次实验中变化值计算如下式(2)：

φ＝[0，(|l_m+l_n|+5|l_m-l_n|)/2] (2)

对于正常的情况，各个时间点对应的数据特征和其数据标准的差异程度应该在一个相同范围，而和数据标准的差异程度明显不同于其他时刻的点被认为是异常点，因此在历史数据上选取“状态代表时间点”取值和测试样本最接近的一个样本，将其后续数据的变化特征作为测试样本的“数据标准”；

工业数据中误差容忍度的不同，这就导致对于历史数据中偏差范围不同，即误差容忍度不同的变量，在提取差异特征时应该有不同的约束效果，因此选择以该时间点测试样本与数据标准的差值，和历史同类数据相对数据标准的差值的平均值与该差值的和，取比值作为时间窗的差异特征；

具体差异特征的计算如下式(3)：

输入：样本集D＝(x₁，x₂，...，x_m)，其中m为测试样本中所有的时间点个数，邻域参数(∈，Minpts)，∈为邻域距离阈值，Minpts为距离∈的邻域中样本个数阈值；

输出：簇划分C；

初始化核心对象集合Ω为空集，当前聚类簇数k＝0，未访问样本集Г为样本集D；

对于j＝1，2，…，m，按下面步骤处理每个样本：

步骤(2)如果子样本集样本个数满足|N_∈(x_j)|≥MinPts，将样本x_j加入核心对象集合Ω，Ω＝Ω∪{x_j}；

步骤(3)在核心对象集合Ω中随机选择一个核心对象o，初始化当前簇核心对象队列Ω_cur＝{o}，初始化类别序号k＝k+1，初始化当前簇样本集合C_k＝{o}，更新未访问样本集合Г＝Γ-{o}；

步骤(4)在当前簇核心对象队列Ω_cur中取出一个核心对象o′，通过邻域距离阈值∈找出所有的∈-邻域子样本集N_∈(o′)，令Δ＝N_∈(o′)∩Г，更新当前簇样本集合C_k＝C_k∪Δ，更新Ω_cur＝Ω_cur∪(N_∈(o′)∩Ω)；

步骤(5)如果当前簇核心对象队列为空集，则当前聚类簇C_k生成完毕，更新簇划分C＝{C₁，C₂，...，C_k}，更新核心对象集合Ω＝Ω-C_k，否则重复步骤(4)；

最后输出结果的簇划分C＝{C₁，C₂，...，C_k}即为针对工业实验数据的初步异常点检测结果；

步骤六、给出异常点检测结果的指示，完成了一种工业实验数据异常点检测方法；

其中所基于的工业实验数据异常点检测装置，包括“状态代表时间点”确定模块、数据变化特征拟合模块、差异特征提取模块以及异常时间点检测模块；

该装置中各模块的连接关系如下：

该装置中各模块的功能如下：

“状态代表时间点”确定模块的功能是：根据历史实验数据，确定表示变量机器启动、关闭状态变化的“状态代表时间点”，判断测试样本可能的状态类别，并以此检测“状态代表时间点”的取值是否在正常范围内；