CN114386538A - 一种标记监测指标的kpi曲线的波段特征的方法 - Google Patents
一种标记监测指标的kpi曲线的波段特征的方法 Download PDFInfo
- Publication number
- CN114386538A CN114386538A CN202210292660.6A CN202210292660A CN114386538A CN 114386538 A CN114386538 A CN 114386538A CN 202210292660 A CN202210292660 A CN 202210292660A CN 114386538 A CN114386538 A CN 114386538A
- Authority
- CN
- China
- Prior art keywords
- kpi
- curve
- similarity
- wave
- kpi curve
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
Abstract
本发明公布了一种标记监测指标的KPI曲线的波段特征的方法,将KPI曲线分割为若干段等长的波段,根据波段的非时间维度聚类成多个簇,提取各个簇的基波,比较各个簇的各波段数据与基波的相似度,找出各个簇的分组边界线,将各个簇的各波段数据分组,提取各簇中连续同类波段的总时间长度,取总时间长度的最大值作为滑动窗口宽度。该窗口用于分割KPI曲线,使分割后的各窗口中波段容易聚类归类,利于将对整KPI曲线的迅速成由不同类型波段组成的波段链,然后对单独监测指标的KPI曲线进行周期检测和类型检测标记标签,再利用该窗口分割单独的KPI曲线,利用基波KPI曲线内的波段进行分组加标签。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及标记监测指标的KPI曲线的波段特征的方法,基于图像处理技术根据KPI曲线的周期和波段类型标记KPI曲线,输出结果用于关联同一系统的不同KPI曲线的。
背景技术
异常点检测(又称为离群点检测)是找出其行为不同于预期对象的一个检测过程,这些对象被称为异常点或者离群点。异常检测方式通常包括基于统计的模型、基于距离的模型、线性变换的模型、非线性变换的模型、机器学习的模型等。
KPI(key performance indicators)指的是对服务、系统等对象的监控指标 (如网络中的延迟、吞吐量等)。其存储的形式是按其发生的时间先后顺序排列而成的数列,也就是我们通常所说的时间序列。时间序列的异常检测就是通过历史的数据分析,查看当前的数据是否发生了明显偏离了正常的情况。KPI 数据异常检测有着十分重要的意义:通过实时的监控KPI数据,发现KPI数据存在的异常,及时进行相应处理,从而保证应用的正常运行。
通过对KPI数据设置阈值来进行实时异常检测的方法十分普遍,然而阈值的设置依赖用户经验,同时,随着KPI数据逐渐增多,为每一条KPI数据配置若干阈值的方法就会耗费巨大的人力。因此KPI数据异常检测应以免阈值设置、高度自动化为目标。
时间序列分解是探索时序变化规律的一种方法,主要探索周期性和趋势性。基于周期、趋势分解的时序分解算法主要有经典时序分解算法、Holt- Winters算法和STL算法。
传统的时间序列预测方法往往针对一维时间序列本身建模,难以利用额外特征。相比之下,基于神经网络的方法往往可以获得更好的检测结果。如利用变分自动编码器(VAE)的Donut方法对单个时间序列建模(训练),将重建误差较大的数据判断为异常数据;DeepAR可以利用序列在每个时间步上取值的概率分布,从相关的时间序列中有效地学习全局模型,从而学习复杂的模式。此外,还有一些有监督的异常检测方法,可以利用带标记的样本数据进行模型训练,通常也可以获得非常好的检测结果。
在实际工作中,监控指标非常多,异常的种类也非常多。有很多时序数据分析的算法,往往适用场景不明确,人们往往并不清楚应该采用哪个算法、使用什么参数。此外,数据中可能还有缺失,处理不当就会导致异常检测准确率很低。
传统机器学习主要分为监督学习和非监督学习两类,以数据级是否有标签进行区分。近年来为了降低成本,又开发了尽可能减少的人工投入的方法被称为弱监督模型,能够尽可能的减少人工标注的使用,主要有三种类型:不完全监督、不确切监督、不准确监督。分别针对部分数据标注,粗颗粒度标注以及混入错误标注的应用场景。
传统机器学习为了追求有效性,大多采用监督学习方式,在实践中异常标注难以批量获得,通过海量有标注的数据样本提高模型输出的准确度,因而需要大量业务专家进行人工标注KPI曲线,往往需要反反复复调整矫正,耗时耗力,实际中可能需要同时开始监控几百万、几千万的KPI,因此,现实中的异常检测实践中往往无法找到某一种算法可以同时满足上述要求,无法同时解决上面的挑战。而非监督学习常用聚类等技术,主要用于特征发现,数据探索等场景,因为缺乏标注,其结果需要数据科学家进行解释才能抽象的映射到业务模式,并不能直接作用结果;弱监督在具体的实现中因为分阶段的引入非监督/监督方法,循环递归的提升准确性,显得过于学术,落地困难,另一方面为了融合具体方法,需要采用向量表达来统一不同方法间的表示,结果不容易应用人员理解。
数据量越多,业务场景越复杂,引入的方式越复杂,需要投入成本/人力就越来越多样化,因而有了机器学习工业落地的经典言论“有多少人力就有多少智力”。这种循环直接限制了机器学习在全行业的推广,而集中在收益较高的行业,而导致常规行业只采用放弃抵抗,被动防守,依靠全行业平均水平来倒灌,实现业务场景迁移,具体如下:如果一个方法在其他行业特别有效,人员已经富余后借用一下观察效果,如果可行在考虑使用。而工业应用场景就是这种被动防守的行业之一。
发明内容
本发明的目的是提供一种标记监测指标的KPI曲线的波段特征的方法,将KPI曲线分割为若干段等长的波段,根据波段的非时间维度聚类成多个簇,提取各个簇的基波,比较各个簇的各波段数据与基波的相似度,找出各个簇的分组边界线,将各个簇的各波段数据分组,提取各簇中连续同类波段的总时间长度,取总时间长度的最大值作为滑动窗口宽度。该窗口用于分割KPI曲线,使分割后的各窗口中波段容易聚类归类,利于将对整个KPI曲线的迅速形成由不同类型波段组成的波段链,不同窗口的整个KPI曲线可基于波段链的排列相似性进行整体分类。本发明中还能通过对单独监测指标的KPI曲线进行周期检测和类型检测记标签,利用该窗口分割单独的KPI曲线,利用基波KPI曲线内的波段进行分组加标签。
本发明的技术方案是:一种标记监测指标的KPI曲线的波段特征的方法,其步骤包括:
步骤S1.根据同一系统中监测指标的历史数据与时间的关系,建立波形,经过滤波处理形成至少一个监测指标的KPI曲线,每个监测指标是KPI曲线数据点的一个属性,同一系统是指有直接或间接的物料供给关系、或电能传递关系、或热能传递关系、或机械能传递关系、或磁场传递关系、或能量转化关系、或信号控制关系的被监测物组成的生产物料的工艺、生产能量的工艺或控制系统;所述监测指标是被监测物上的传感器采集的物理参数;
步骤S2.将KPI曲线分割为若干段时序宽度为1s的波段,根据波段的非时间维度聚类成多个簇,提取各个簇的基波;
步骤S3.先按预设的滑动窗口,将步骤S1处理过的各个KPI曲线分割成时序宽度为总时间间隔的若干段KPI曲线窗口段,按步骤S2的分割方法将KPI曲线窗口段分割成时序宽度为1s的i段KPI曲线数据集M’ i ,每一段是一个波段;
将步骤S2得到的各基波逐一与每一条KPI曲线的每一个窗口内的各波段比较相似度,并按相似度从大到小排序,依据排序找出分组边界线,将波段分组,形成基波标签构成的标签链,获取不同KPI的模式波形,称为KPI曲线码型重排表;
步骤S4. 将不同的KPI曲线码型重排表统一时间维度放置在一个维度中,获得KPI曲线码型重排关联表。
优选地,步骤S2和S3之间还包括设置预设的滑动窗口的步骤:
步骤M1.比较步骤S2各个簇的各波段数据与基波的相似度,找出各个簇的分组边界线,将各个簇的各波段数据分组;
步骤M2.提取被分到不同分组中的各簇的时间戳,得到每个分组的时间戳列表;
步骤M3.将每组的时间戳列表做移步相减,即使用各时间戳列表中下一项的起始时间戳与本项的起始时间戳相减获得事件触发间隔列表;
步骤M4.将各簇的事件触发间隔合并成时间间隔KPI集,依据NCC计算各簇的时间间隔KPI集之间的相似度;
步骤M5.将步骤M4获得的各簇之间时间间隔KPI集的相似度展开成相似度矩阵;
步骤M6.使各簇之间时间间隔KPI集的相似度按数值大小依次排序,然后将相似度的数值拟合成平滑线,依据拐点法获得各簇之间时间间隔KPI集的相似度的分界线;
步骤M7.将相似度矩阵中数值大于拐点的且相邻的簇标记为同一个相似组,统计各相似组的簇数;
步骤M8.计算相似组中簇数最多的一组的总时间间隔,作为滑动窗口宽度。
有利地,经步骤S4处理后得到的标签信息,含有波段标签即基波类型和基波标签的时间排列信息。同时以该总时间间隔设置为滑动窗口的宽度,利用该窗口将KPI曲线分割成若干段,分割出的每一段的时间宽度覆盖了步骤S7得到的时长最大的相似组。以该滑动窗口扫描KPI曲线,能将连续出现的簇快速分割到一个窗口中,再快速聚类到同一个波形类别,减小计算量,且能对KPI曲线的波段按标签链的特征进行整体归类,减少遗漏知识的可能性。
优选地,步骤S2包括以下步骤:
步骤J2.将步骤S1处理后的全部的KPI曲线中各时序的数据点集提取到同一个曲线集合L中,设置步幅滑动窗口,步长为s,s=1秒,将曲线集合L按窗口宽度分割成时间宽度为s的若干段KPI曲线数据集M i ,i为段序号;
步骤J3.使用dbscan算法依据每段KPI曲线数据集的属性计算各段数据集之间的欧氏距离,对i段的KPI曲线数据集进行聚类,获取k个簇类和异常项,每个簇是一个分组数据集,每个分组数据集有j段KPI曲线数据集F j ;
步骤J4.计算每个分组数据集中j段KPI曲线数据集的算术平均值ΣF j /j,作为该分组的基波;
步骤M1包括以下步骤:
步骤J5.使用NCC算法计算每个分组数据集的各段KPI曲线数据集F j 与该基波的波形相似度,并从大到小排序,在波形相似度排序为前95%的KPI曲线数据集F j 中,取波形相似度的最小值作为该组的分组边界线B k ;
步骤J6.使用NCC算法计算每段KPI曲线数据集M i 与各分组的基波的波形相似度NCC Mi-Jk ,以各组的分组边界线为基准,判断各段KPI曲线数据集是否属于该分组,对于同时属于多个分组的一段KPI曲线数据集,依据分类得分Q进行排序,将KPI曲线数据集M i 分组到分类得分Q最小的分组中,得到每段KPI曲线数据集的分组信息,
Q=((1-NCC M i-J k )/(1-B k ))2。
优选地,步骤M7替换为:将相似度矩阵中数值大于拐点的相似度数值替换为1,将数值低于拐点的相似度数值替换为0;
将得到的相似度矩阵中相似度为1且相邻的簇标记为同一个相似组,统计各相似组的簇数。
优选地,步骤S3中将KPI曲线窗口段分割成波段后的步骤为:使用NCC算法依据步骤S2得到的各基波逐一与每一条KPI曲线的每一个窗口内的各波段进行相似度计算,得到,并从大到小排序,在波形相似度排序为前95%的波段中,取波形相似度的最小值作为该分组的分组边界线B’ k ,以各组的分组边界线为基准,判断各段KPI曲线数据集M’ i 是否属于该分组,对于同时属于多个分组的一段KPI曲线数据集M’ i ,依据分类得分Q’进行排序,将KPI曲线数据集M i 分组到分类得分Q’最小的分组中,形成基波标签构成的标签链,获取不同KPI的模式波形,称为KPI曲线码型重排表,
进一步地,步骤J2和步骤S1之间还包括:
Z01.用傅里叶变换提取KPI曲线的频谱强度图;
Z02.提取震动幅度最高的点计算其对应的周期,即待检验周期;
Z03.设定假设的周期,即期待周期,当且仅当待检验周期的长度为期待周期的95%到105%区间范围内时,对待检验周期进行相关强度检测,当频谱强度足够时认定待检验周期为符合要求的周期,依据KPI周期性的区别对滤波后的KPI曲线打的标签,称为KPI曲线周期标签。
进一步地,步骤J2和步骤Z03之间还包括:
Z04.将每个KPI曲线相互使用NCC算法计算两两相似度,并展开成对角的相似度矩阵,将相似度填入相似度矩阵,矩阵中行和列序号为KPI曲线的编号,相似度矩阵的行数和列数为KPI曲线的数量;
Z05.使用谱聚类算法根据上述的相似度矩阵,用簇类标记不同的KPI曲线标签,称为KPI曲线业务标签。
有利地,依据KPI曲线整体的相似性将KPI曲线进行聚类分类形成波形相近的各个簇。
进一步地,所述监测指标包括发电机和与发电机有物料供给关系、或电能传递关系、或热能传递关系、或机械能传递关系、或磁场传递关系、或能量转化关系、或信号控制关系的被监测物上的传感器采集的物理参数。
进一步地,所述物理参数包括发电机转速、实时发电量、电压、励磁电流、发电机外壳的震动信号和位移信号、以及与发电机输出线缆电连接的各个输变电线路连接端子和曲柄的温度、电气柜中的 温度和湿度。
进一步地,所有标签链依据时间维度排列后,再基于序列挖掘算法SPADE或GSP发掘在不同时间上发生的不同标签链之间的因果关系。
本发明中所述监测指标是在同一系统中有物料供给关系、或电能传递关系、或热能传递关系、或机械能传递关系、或磁场传递关系、或能量转化关系、或信号控制关系的被监测物上的传感器采集的物理参数。
同一系统是指上述的被监测物组成的生产物料的工艺、生产能量的工艺或控制系统。由于被监测物在同一系统中有直接或间接的物料供给关系、或电能传递关系、或热能传递关系、或机械能传递关系、或磁场传递关系、或能量转化关系、或信号控制关系。被监测物上的传感器采集的物理参数具有相互的因果影响,表现为各不同的物理参数因同一诱因产生的KPI曲线的波段链特征相似,为发现这样的波段链,需要采用合适宽度的滑动窗口沿KPI曲线滑动,从窗口中截取KPI曲线单元段,从KPI曲线单元段中提取的若干等长的波段,基于特征基波与波段的相似度,标记KPI曲线单元段中各波段的标签,使KPI曲线单元段成为有标签排序特征的波段链,这样每在KPI曲线上滑动一次窗口,获得一个波段链,所有的波段链等长,只是波段的分类标签排序不同,那么可以基于波段链的排序特征的不同,将通过滑动窗口获得的所有波段链依据时间维度排列后,基于序列挖掘算法SPADE、专家评定、知识图谱融合可得到不同特征的波段链在时间维度上的因果关系,有助于补充专家对于系统中故障认定的知识体系,发现之前未发现的监测指标的关联关系,从而可在操作中基于新发现的监测指标之间的关联关系建立新的预警控制关系和调控阈值,提高同一系统中各被监测物的系统稳定性。
本发明的有益效果:处理后得到的标签信息,含有全部波段的全部信息,包含波段和波形两部分表现,波段标签即基波类型和基波标签的时间排列信息,波形标签有业务标签和周期标签两种。
不同的KPI曲线如果使用同一KPI曲线业务标签,可能存在因果关系,其中属于非周期KPI比周期KPI曲线有更高的可能性。
不同的KPI曲线如果在临近时间段存在同一KPI曲线段码型基波标签,可能存在因果关系,其中重复次数更多的有着更高的可能性。
附图说明
图1是从同一系统中监测指标建立的KPI曲线;其中图1中的标准化就是将某一列数值特征的值缩放成均值为0,方差为1的状态,其纵坐标数值为实时值与均值的差除以方差;
图2为使用NCC算法比较后得出的相似度较高的两组KPI曲线;
图3为形成的基波标签构成的标签链。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述;显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。下述实施例中标签链和波段链是相同的含义,KPI曲线单元段与KPI曲线窗口段是相同的含义。
实施例1
一种标记监测指标的KPI曲线的波段特征的方法,其步骤包括:
步骤S1.如图1,根据同一系统中监测指标的历史数据与时间的关系,建立波形,获得至少一个监测指标的KPI曲线,每个监测指标是KPI曲线数据点的一个属性;
上述的属性类似于三维坐标系中y轴/z轴的值,每个轴的坐标标值是一个维度,x轴是时间。
所述监测指标是在同一系统中有物料供给关系、或电能传递关系、或热能传递关系、或机械能传递关系、或磁场传递关系、或能量转化关系、或信号控制关系的被监测物上的传感器采集的物理参数。
同一系统是指上述的被监测物组成的生产物料的工艺、生产能量的工艺或控制系统。
例如,发电系统中的汽轮机、发电机、线缆、变压器、电器柜组成的同一系统,其监测指标包括了发电机转速、实时发电量、电压、励磁电流、发电机外壳的震动信号和位移信号、以及与发电机输出线缆电连接的各个关键输变电线路连接端子和曲柄的温度、电气柜中的 温度和湿度。
步骤S2.设置步幅滑动窗口,步长为s,s=1秒,将KPI曲线按窗口宽度分割成时间宽度为s的若干段KPI曲线数据集M i ,i为段序号;
步骤S3.使用dbscan算法依据每段KPI曲线数据集的属性计算各段数据集之间的欧氏距离,对i段的KPI曲线数据集进行聚类,获取k个簇类和异常项,每个簇是一个分组数据集,每个分组数据集有j段KPI曲线数据集F j ;
步骤S4.计算每个分组数据集中j段KPI曲线数据集的算术平均值ΣF j /j,作为该分组的基波;
步骤S5.使用NCC算法计算每个分组数据集的各段KPI曲线数据集F j 与该基波的波形相似度,并从大到小排序,在波形相似度排序为前95%的KPI曲线数据集F j 中,取波形相似度的最小值作为该组的分组边界线B k ;
步骤S6.使用NCC算法计算每段KPI曲线数据集M i 与各分组的基波的波形相似度NCC Mi-Jk ,以各组的分组边界线为基准,判断各段KPI曲线数据集是否属于该分组,对于同时属于多个分组的一段KPI曲线数据集,依据分类得分Q进行排序,将KPI曲线数据集M i 分组到分类得分Q最小的分组中,得到每段KPI曲线数据集的分组信息,
Q=((1-NCC M i-J k )/(1-B k ))2;
NCC M i-Jk 越大,Q就越小,说明M i 与簇类k越相似,当KPI曲线数据集M i 与不同簇类的相似度NCC M i-Jk 相同时,B k 越小说明该簇类M i 与簇类k的相似度NCC M i-Jk 在该簇类中波形相似度排序中越靠前;通过这个公式可以计算出该KPI曲线数据集M i 在候选簇中的可能性,从而计算出最有可能是哪一类簇;
步骤S7.提取被分到不同分组中的各段KPI曲线数据集的时间戳,得到每个分组的时间戳列表;
步骤S8.将每组的时间戳列表做移步相减,即使用各时间戳列表中下一项的起始时间戳与本项的起始时间戳相减获得事件触发间隔列表;
事件触发间隔即每个分组数据集中相邻两段KPI曲线数据集的时间间隔;
步骤S9.将各簇的事件触发间隔合并成时间间隔KPI集,依据NCC计算各簇的时间间隔KPI集之间的相似度;若不同簇的时间间隔KPI集相近,说明簇的波形在时间总宽度上相近;
步骤S10.将步骤S9获得的各簇之间时间间隔KPI集的相似度展开成相似度矩阵;如表1,a~d为簇的序号,相似度矩阵的行数和列数为簇的数量,相似度矩阵中的数值为各簇之间时间间隔KPI集的相似度,相似度矩阵是一个对角矩阵;
步骤S11.使各簇之间时间间隔KPI集的相似度按数值大小依次排序,然后将相似度的数值拟合成平滑线,依据拐点法获得各簇之间时间间隔KPI集的相似度的分界线;
步骤S12.将相似度矩阵中数值大于拐点的相似度数值替换为1,将数值低于拐点的相似度数值替换为0,如表2;
步骤S13.将步骤S12得到的相似度矩阵中相似度为1且相邻的簇标记为同一个相似组,统计各相似组的簇数;
步骤S14.计算相似组中簇数最多的一组的总时间间隔;
以该总时间间隔设置为滑动窗口的宽度,利用该窗口将KPI曲线分割成若干段,分割出的每一段的时间宽度覆盖了分步骤S12得到的时长最大的相似组。以该滑动窗口扫描KPI曲线,能将连续出现的簇快速分割到一个窗口中,再快速聚类到同一个波形类别,减小计算量,且能对KPI曲线的波段按标签链的特征进行整体归类,减少遗漏知识的可能性。
上述的NCC(Normalized cross correlation)算法其定义为:
式中,xt为背景波形,yt+h为模板波形,NCC的值在-1~1之间,-1代表变换前后波形相反,0代表两波形正交,1代表完全相同。NCC只描述两波形的宏观相似程度,与波形幅值,能量衰减多少无关。
实施例2
步骤A1,根据发电站系统网络中各监测指标的历史数据与时间的关系,建立波形,例如根据某发电机的发电量与时间的关系建立波形,得到图1所示的滤波前的KPI波形图,然后经过滤波处理形成图1所示的滤波后的KPI曲线;
滤波用于去掉KPI波形图的监测指标中数值排序最大的5%和最小的5%,被去除的监测指标的数值插值填充。
实施例3
对实施例2滤波后的KPI曲线按以下步骤进行预处理,包括:
步骤A2 根据KPI曲线的周期性分类打标;
对每一条监控指标的KPI曲线进行周期性验证检查,依据KPI周期性的区别对滤波后的KPI曲线打的标签,称为KPI曲线周期标签;
周期性验证检查包括以下步骤:
Z01.用傅里叶变换提取KPI曲线的频谱强度图;
Z02.提取震动幅度最高的点计算其对应的周期,即待检验周期;
Z03.设定假设的周期,即期待周期,当且仅当待检验周期的长度为期待周期的95%到105%区间范围内时,对待检验周期进行相关强度检测,当频谱强度足够时认定待检验周期为符合要求的周期。
如图2,根据监测指标:电压进行周期性验证检查,将滤波后两条电压与时间的关系曲线标记为一次侧有效电压,和二次侧有效电压;
步骤A3 根据KPI曲线的相似度分类打标
每个KPI曲线相互使用NCC算法计算两两相似度,并展开成对角的相似度矩阵,将相似度填入相似度矩阵,矩阵中行和列序号为KPI曲线的编号,相似度矩阵的行数和列数为KPI曲线的数量,相似度矩阵中的数值为各KPI曲线之间的相似度;
使用谱聚类算法根据上述的相似度矩阵,用簇类标记不同的KPI曲线标签,称为KPI曲线业务标签;
“普聚类算法.知乎”介绍了谱聚类的分类方法,
步骤A4 将KPI曲线分割为特征不同的特征波段
初始化集合L,Ln,设置滑动窗口,宽度为m,m表示时序的宽度,根据实施例1的方法求出,m∈(12~60),满足故障判断的需要;按照实施例1的步骤S2~S4将窗口内的KPI曲线分割时序宽度为1s的波段并聚类分组,得到各分组的基波:
将步骤A3处理后的全部的KPI曲线中各时序的数据点集提取到同一个集合L中,对集合L按窗口宽度分割成若干段;
然后将各窗口内的数据点集按1s的时序宽度分割为若干小段,每个小段是一个KPI曲线数据集M i ,i为段序号;
使用dbscan算法依据每段KPI曲线数据集的属性计算各段数据集之间的欧氏距离,对i段的KPI曲线数据集进行聚类,获取k个簇类和异常项,每个簇是一个分组数据集,标记为不同的波段,每个分组数据集有j段KPI曲线数据集F j ;
计算每个分组数据集中j段KPI曲线数据集的算术平均值ΣF j /j,作为该分组的基波,称为KPI曲线段码型基波;
步骤A5依据基波标记各KPI曲线存在的波形,
先按步骤A4将步骤A3处理过的各个KPI曲线分割成时序宽度为1s的i段KPI曲线数据集M’ i ,每一段是一个波段;
使用NCC算法依据步骤A4得到的各基波逐一与每一条KPI曲线的每一个窗口内的各波段进行相似度计算,得到NCCM’ i-Jk ,并从大到小排序,在波形相似度排序为前95%的波段中,取波形相似度的最小值作为该分组的分组边界线B’ k ,以各组的分组边界线为基准,判断各段KPI曲线数据集M’ i 是否属于该分组,对于同时属于多个分组的一段KPI曲线数据集M’ i ,依据分类得分Q’进行排序,将KPI曲线数据集M i 分组到分类得分Q’最小的分组中,如图3形成基波标签构成的标签链,在KPI曲线的基波标签中加入时间信息,获取不同KPI的模式波形,称为KPI曲线码型重排表,
经步骤A5处理后得到的标签信息,含有全部波段的全部信息,包含波段和波形两部分表现,波段标签有基波类型,波形标签有业务标签和周期标签两种。
这样每在KPI曲线上滑动一次窗口,获得一个波段链,所有的波段链等长,只是波段的分类标签排序不同,本实施例将有关联关系的不同监测指标的KPI曲线的曲线特征转换为了标签链排序特征,由于有关联关系,所以这些KPI曲线的波幅虽然不同,但周期相似起伏节奏相似,也就是标签排列,这样可以将海量的有关联关系的KPI曲线统一成标准一致的标签链。
步骤A6将不同的KPI曲线码型重排表统一时间维度放置在一个维度中,获得KPI曲线码型重排关联表;
不同的KPI曲线如果使用同一KPI曲线业务标签,可能存在因果关系,其中属于非周期KPI比周期KPI曲线有更高的可能性。
不同的KPI曲线如果在临近时间段存在同一KPI曲线段码型基波标签,可能存在因果关系,其中重复次数更多的有着更高的可能性。
所有标签链依据时间维度排列后,基于序列挖掘算法SPADE或GSP可以发掘在不同时间上发生的不同标签链之间的因果关系,如果两件事总是成对发生,认为两件事存在相关,如果其中一件事总是发生在另一件之前,则认为两者之间存在因果,前因后果。有助于补充专家对于系统中故障认定的知识体系,发现之前未发现的监测指标的关联关系,从而可在操作中基于新发现的监测指标之间的关联关系建立新的预警控制关系和调控阈值,提高同一系统中各被监测物的系统稳定性。
Claims (10)
1.一种标记监测指标的KPI曲线的波段特征的方法,其步骤包括:
步骤S1.根据同一系统中监测指标的历史数据与时间的关系,建立波形,经过滤波处理形成至少一个监测指标的KPI曲线,每个监测指标是KPI曲线数据点的一个属性,同一系统是指有直接或间接的物料供给关系、或电能传递关系、或热能传递关系、或机械能传递关系、或磁场传递关系、或能量转化关系、或信号控制关系的被监测物组成的生产物料的工艺、生产能量的工艺或控制系统;所述监测指标是被监测物上的传感器采集的物理参数;
步骤S2.将KPI曲线分割为若干段时序宽度为1s的波段,根据波段的非时间维度聚类成多个簇,提取各个簇的基波;
步骤S3.先按预设的滑动窗口,将步骤S1处理过的各个KPI曲线分割成时序宽度为总时间间隔的若干段KPI曲线窗口段,按步骤S2的分割方法将KPI曲线窗口段分割成时序宽度为1s的i段KPI曲线数据集M’ i ,每一段是一个波段;
将步骤S2得到的各基波逐一与每一条KPI曲线的每一个窗口内的各波段比较相似度,并按相似度从大到小排序,依据排序找出分组边界线,将波段分组,形成基波标签构成的标签链,获取不同KPI的模式波形,称为KPI曲线码型重排表;
步骤S4. 将不同的KPI曲线码型重排表统一时间维度放置在一个维度中,获得KPI曲线码型重排关联表。
2.根据权利要求1所述的方法,其特征在于,步骤S2和S3之间还包括设置预设的滑动窗口的步骤:
步骤M1.比较步骤S2中各个簇的各波段数据与基波的相似度,找出各个簇的分组边界线,将各个簇的各波段数据分组;
步骤M2.提取被分到不同分组中的各簇的时间戳,得到每个分组的时间戳列表;
步骤M3.将每组的时间戳列表做移步相减,即使用各时间戳列表中下一项的起始时间戳与本项的起始时间戳相减获得事件触发间隔列表;
步骤M4.将各簇的事件触发间隔合并成时间间隔KPI集,依据NCC计算各簇的时间间隔KPI集之间的相似度;
步骤M5.将步骤M4获得的各簇之间时间间隔KPI集的相似度展开成相似度矩阵;
步骤M6.使各簇之间时间间隔KPI集的相似度按数值大小依次排序,然后将相似度的数值拟合成平滑线,依据拐点法获得各簇之间时间间隔KPI集的相似度的分界线;
步骤M7.将相似度矩阵中数值大于拐点的且相邻的簇标记为同一个相似组,统计各相似组的簇数;
步骤M8.计算相似组中簇数最多的一组的总时间间隔,作为滑动窗口宽度。
3.根据权利要求2所述的方法,其特征在于,步骤S2包括以下步骤:步骤J2.将步骤S1处理后的全部的KPI曲线中各时序的数据点集提取到同一个曲线集合L中,设置步幅滑动窗口,步长为s,s=1秒,将曲线集合L按窗口宽度分割成时间宽度为s的若干段KPI曲线数据集M i ,i为段序号;
步骤J3.使用dbscan算法依据每段KPI曲线数据集的属性计算各段数据集之间的欧氏距离,对i段的KPI曲线数据集进行聚类,获取k个簇类和异常项,每个簇是一个分组数据集,每个分组数据集有j段KPI曲线数据集F j ;
步骤J4.计算每个分组数据集中j段KPI曲线数据集的算术平均值ΣF j /j,作为该分组的基波;
步骤M1包括以下步骤:
步骤J5.使用NCC算法计算每个分组数据集的各段KPI曲线数据集F j 与该基波的波形相似度,并从大到小排序,在波形相似度排序为前95%的KPI曲线数据集F j 中,取波形相似度的最小值作为该组的分组边界线B k ;
步骤J6.使用NCC算法计算每段KPI曲线数据集M i 与各分组的基波的波形相似度NCC Mi-Jk ,以各组的分组边界线为基准,判断各段KPI曲线数据集是否属于该分组,对于同时属于多个分组的一段KPI曲线数据集,依据分类得分Q进行排序,将KPI曲线数据集M i 分组到分类得分Q最小的分组中,得到每段KPI曲线数据集的分组信息,
Q=((1-NCC M i-J k )/(1-B k ))2。
4.根据权利要求2所述的方法,其特征在于,步骤M7替换为:将相似度矩阵中数值大于拐点的相似度数值替换为1,将数值低于拐点的相似度数值替换为0;
将得到的相似度矩阵中相似度为1且相邻的簇标记为同一个相似组,统计各相似组的簇数。
6.根据权利要求3所述的方法,其特征在于,步骤J2和步骤S1之间还包括:
Z01.用傅里叶变换提取KPI曲线的频谱强度图;
Z02.提取震动幅度最高的点计算其对应的周期,即待检验周期;
Z03.设定假设的周期,即期待周期,当且仅当待检验周期的长度为期待周期的95%到105%区间范围内时,对待检验周期进行相关强度检测,当频谱强度足够时认定待检验周期为符合要求的周期,依据KPI周期性的区别对滤波后的KPI曲线打的标签,称为KPI曲线周期标签。
7.根据权利要求6所述的方法,其特征在于,步骤J2和步骤Z03之间还包括:
Z04.将每个KPI曲线相互使用NCC算法计算两两相似度,并展开成对角的相似度矩阵,将相似度填入相似度矩阵,矩阵中行和列序号为KPI曲线的编号,相似度矩阵的行数和列数为KPI曲线的数量;
Z05.使用谱聚类算法根据上述的相似度矩阵,用簇类标记不同的KPI曲线标签,称为KPI曲线业务标签。
8.根据权利要求2所述的方法,其特征在于,所述监测指标包括发电机和与发电机有物料供给关系、或电能传递关系、或热能传递关系、或机械能传递关系、或磁场传递关系、或能量转化关系、或信号控制关系的被监测物上的传感器采集的物理参数。
9.根据权利要求8所述的方法,其特征在于,所述物理参数包括发电机转速、实时发电量、电压、励磁电流、发电机外壳的震动信号和位移信号、以及与发电机输出线缆电连接的各个输变电线路连接端子和曲柄的温度、电气柜中的温度和湿度。
10.根据权利要求1所述的方法,其特征在于,所有标签链依据时间维度排列后,再基于序列挖掘算法SPADE或GSP发掘在不同时间上发生的不同标签链之间的因果关系。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210292660.6A CN114386538B (zh) | 2022-03-24 | 2022-03-24 | 一种标记监测指标的kpi曲线的波段特征的方法 |
PCT/CN2023/082359 WO2023174431A1 (zh) | 2022-03-18 | 2023-03-17 | 一种kpi曲线数据处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210292660.6A CN114386538B (zh) | 2022-03-24 | 2022-03-24 | 一种标记监测指标的kpi曲线的波段特征的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114386538A true CN114386538A (zh) | 2022-04-22 |
CN114386538B CN114386538B (zh) | 2022-06-10 |
Family
ID=81205154
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210292660.6A Active CN114386538B (zh) | 2022-03-18 | 2022-03-24 | 一种标记监测指标的kpi曲线的波段特征的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114386538B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116302897A (zh) * | 2023-05-15 | 2023-06-23 | 合肥联宝信息技术有限公司 | 一种数据集的建立方法、装置、电子设备及存储介质 |
WO2023174431A1 (zh) * | 2022-03-18 | 2023-09-21 | 三峡智控科技有限公司 | 一种kpi曲线数据处理方法 |
CN117318050A (zh) * | 2023-11-28 | 2023-12-29 | 国网湖北省电力有限公司 | 一种融合5g短共享的虚拟电厂负荷数据预测方法 |
CN117421616A (zh) * | 2023-12-18 | 2024-01-19 | 北京年管家信息科技有限公司 | 一种矿山竖井井筒检测系统及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190379589A1 (en) * | 2018-06-12 | 2019-12-12 | Ciena Corporation | Pattern detection in time-series data |
CN112381137A (zh) * | 2020-11-10 | 2021-02-19 | 重庆大学 | 新能源电力系统可靠性评估方法、装置、设备及存储介质 |
CN113723452A (zh) * | 2021-07-19 | 2021-11-30 | 山西三友和智慧信息技术股份有限公司 | 一种基于kpi聚类的大规模异常检测系统 |
CN113780347A (zh) * | 2021-08-09 | 2021-12-10 | 上海电力大学 | 负荷曲线多重聚类集成方法、系统及存储介质 |
-
2022
- 2022-03-24 CN CN202210292660.6A patent/CN114386538B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190379589A1 (en) * | 2018-06-12 | 2019-12-12 | Ciena Corporation | Pattern detection in time-series data |
CN112381137A (zh) * | 2020-11-10 | 2021-02-19 | 重庆大学 | 新能源电力系统可靠性评估方法、装置、设备及存储介质 |
CN113723452A (zh) * | 2021-07-19 | 2021-11-30 | 山西三友和智慧信息技术股份有限公司 | 一种基于kpi聚类的大规模异常检测系统 |
CN113780347A (zh) * | 2021-08-09 | 2021-12-10 | 上海电力大学 | 负荷曲线多重聚类集成方法、系统及存储介质 |
Non-Patent Citations (2)
Title |
---|
Z. LI,ET AL: "Robust and Rapid Clustering of KPIs for Large-Scale Anomaly Detection", 《2018 IEEE/ACM 26TH INTERNATIONAL SYMPOSIUM ON QUALITY OF SERVICE (IWQOS)》, 24 January 2019 (2019-01-24) * |
邵世宽 等: "基于无监督对抗学习的时间序列异常检测", 《南京大学学报(自然科学)》, 30 November 2021 (2021-11-30) * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023174431A1 (zh) * | 2022-03-18 | 2023-09-21 | 三峡智控科技有限公司 | 一种kpi曲线数据处理方法 |
CN116302897A (zh) * | 2023-05-15 | 2023-06-23 | 合肥联宝信息技术有限公司 | 一种数据集的建立方法、装置、电子设备及存储介质 |
CN116302897B (zh) * | 2023-05-15 | 2023-10-17 | 合肥联宝信息技术有限公司 | 一种数据集的建立方法、装置、电子设备及存储介质 |
CN117318050A (zh) * | 2023-11-28 | 2023-12-29 | 国网湖北省电力有限公司 | 一种融合5g短共享的虚拟电厂负荷数据预测方法 |
CN117318050B (zh) * | 2023-11-28 | 2024-02-20 | 国网湖北省电力有限公司 | 一种融合5g短共享的虚拟电厂负荷数据预测方法 |
CN117421616A (zh) * | 2023-12-18 | 2024-01-19 | 北京年管家信息科技有限公司 | 一种矿山竖井井筒检测系统及方法 |
CN117421616B (zh) * | 2023-12-18 | 2024-03-26 | 焦作煤业(集团)新乡能源有限公司 | 一种矿山竖井井筒检测系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114386538B (zh) | 2022-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114386538B (zh) | 一种标记监测指标的kpi曲线的波段特征的方法 | |
CN111475680A (zh) | 检测异常高密子图的方法、装置、设备及存储介质 | |
CN111614491B (zh) | 一种面向电力监控系统安全态势评估指标选取方法及系统 | |
CN110059845B (zh) | 基于时序演化基因模型的计量装置时钟误差趋势预测方法 | |
CN112819059B (zh) | 一种基于流行保持迁移学习的滚动轴承故障诊断方法 | |
CN111367777B (zh) | 告警处理的方法、装置、设备及计算机可读存储介质 | |
CN109389325B (zh) | 基于小波神经网络的变电站电子式互感器状态评估方法 | |
CN108647707B (zh) | 概率神经网络创建方法、故障诊断方法及装置、存储介质 | |
CN114398898B (zh) | 基于日志事件关系生成kpi曲线并标记波段特征的方法 | |
CN114398891B (zh) | 基于日志关键词生成kpi曲线并标记波段特征的方法 | |
Sebestyen et al. | A taxonomy and platform for anomaly detection | |
CN107679089A (zh) | 一种用于电力传感数据的清洗方法、装置和系统 | |
Guh | Real-time recognition of control chart patterns in autocorrelated processes using a learning vector quantization network-based approach | |
CN114386535B (zh) | 一种设置用于扫描kpi曲线的滑动窗口宽度的方法 | |
CN116521904B (zh) | 一种基于5g边缘计算的船舶制造数据云融合方法及系统 | |
CN117421994A (zh) | 一种边缘应用健康度的监测方法和监测系统 | |
CN112215254A (zh) | 一种基于改进案例推理的变电站故障诊断方法以及诊断装置 | |
Pan et al. | Unsupervised two-stage root-cause analysis for integrated systems | |
Song et al. | Fault diagnosis and process monitoring using a statistical pattern framework based on a self-organizing map | |
CN111239484A (zh) | 一种非居民用户非侵入式负荷用电信息采集方法 | |
CN115936389A (zh) | 一种基于大数据技术的评审专家与评审材料的匹配方法 | |
CN115935285A (zh) | 基于掩码图神经网络模型的多元时间序列异常检测方法和系统 | |
Shi et al. | An imbalanced data augmentation and assessment method for industrial process fault classification with application in air compressors | |
Ahmed et al. | Improving prediction of plant disease using k-efficient clustering and classification algorithms | |
WO2023174431A1 (zh) | 一种kpi曲线数据处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |