CN117407661B - 一种用于设备状态检测的数据增强方法 - Google Patents
一种用于设备状态检测的数据增强方法 Download PDFInfo
- Publication number
- CN117407661B CN117407661B CN202311714166.5A CN202311714166A CN117407661B CN 117407661 B CN117407661 B CN 117407661B CN 202311714166 A CN202311714166 A CN 202311714166A CN 117407661 B CN117407661 B CN 117407661B
- Authority
- CN
- China
- Prior art keywords
- data
- sequence
- abnormal
- value
- time sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000001514 detection method Methods 0.000 title claims abstract description 20
- 230000002159 abnormal effect Effects 0.000 claims abstract description 220
- 230000005856 abnormality Effects 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 9
- 238000003064 k means clustering Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 abstract description 6
- 238000013507 mapping Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002902 bimodal effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2323—Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2123/00—Data types
- G06F2123/02—Data types in the time domain, e.g. time-series data
Abstract
本发明涉及数据处理技术领域,尤其涉及一种用于设备状态检测的数据增强方法,该方法获取待检测设备的任一传感器的时序数据序列,构建时序数据序列的孤立森林;将时序数据序列中的数据划分为两个聚类簇,根据两个聚类簇分别获取时序数据序列中每个数据的权重值;针对时序数据序列中的任一数据,根据数据在每个孤立树上的路径长度和数据的权重值,获取数据的异常分数值;根据每个数据的异常分数值,获取时序数据序列中的疑似异常数据,在所有疑似异常数据中筛选出噪声数据,对噪声数据进行插值替换,得到增强后的时序数据序列,通过筛选出时序数据序列中的噪声数据,并对噪声数据进行插值替换,减少了时序数据序列中的噪声影响。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种用于设备状态检测的数据增强方法。
背景技术
随着物联网技术的迅速发展,设备状态检测在工业、医疗和其他领域变得越来越重要。设备状态检测的方法通常为:获取设备运行过程中的运行数据,对运行数据进行分析和处理,得到设备状态的检测结果。然而,由于设备运行过程中往往受到来自传感器噪声、环境干扰等因素的影响,导致设备状态的检测结果不准确。
现有技术中,在根据设备的运行数据进行设备状态检测的过程中,采用孤立森林模型将设备的运行数据中的异常数据筛选出来,然后根据异常数据获取设备状态的检测结果。但是由于噪声数据和异常数据(设备异常运行下的数据)均为非正常数据,且噪声数据和异常数据相似,容易将噪声数据当作异常数据进行设备状态检测,且孤立森林模型在进行异常数据检测时,由于其特殊的构建方式,对于噪声数据有一定的鲁棒性,想要去除噪声干扰,传统的孤立森林模型难以达到相应的要求,进而会使得设备状态的检测结果出现较大偏差。
因此,如何剔除设备的运行数据中的噪声数据,以提高设备状态检测的准确性成为亟需解决的问题。
发明内容
有鉴于此,本发明实施例提供了一种用于设备状态检测的数据增强方法,以解决如何剔除设备的运行数据中的噪声数据,以提高设备状态检测的准确性的问题。
本发明实施例中提供了一种用于设备状态检测的数据增强方法,该数据增强方法包括以下步骤:
获取待检测设备的任一传感器的时序数据序列,构建所述时序数据序列的孤立森林,所述孤立森林中包括至少一个孤立树;
通过聚类将所述时序数据序列中的数据划分为两个聚类簇,获取每个所述聚类簇的密度中心数据,根据所述两个聚类簇的密度中心数据,分别获取所述时序数据序列中每个数据的权重值;
针对所述时序数据序列中的任一数据,根据所述数据在每个所述孤立树上的路径长度和所述数据的权重值,获取所述数据的加权平均路径长度,根据所述数据的加权平均路径长度获取所述数据的异常分数值;
根据所述时序数据序列中的每个数据的异常分数值,获取所述时序数据序列中的疑似异常数据,在所有疑似异常数据中筛选出噪声数据,对所述时序数据序列中的噪声数据进行插值替换,得到增强后的时序数据序列。
进一步的,所述两个聚类簇包括正常数据聚类簇和异常数据聚类簇,则所述通过聚类将所述时序数据序列中的数据划分为两个聚类簇,获取每个所述聚类簇的密度中心数据,包括:
利用K-means聚类算法将所述时序数据序列中的数据划分为所述正常数据聚类簇和所述异常数据聚类簇;
针对所述正常数据聚类簇和所述异常数据聚类簇中的任一聚类簇,利用均值漂移聚类算法获取所述聚类簇的聚类中心,将所述聚类中心对应的数据作为所述聚类簇的密度中心数据。
进一步的,所述根据所述两个聚类簇的密度中心数据,分别获取所述时序数据序列中每个数据的权重值,包括:
针对所述时序数据序列中的任一数据,确定所述数据所属的聚类簇作为目标聚类簇,计算所述数据与所述目标聚类簇的密度中心数据之间的差值绝对值;
根据所述目标聚类簇中的每个数据与所述目标聚类簇的密度中心数据之间的差值绝对值,获取差值绝对值均值,对比所述差值绝对值和所述差值绝对值均值,得到对比结果,根据所述对比结果,获取所述数据的权重值。
进一步的,所述根据所述对比结果,获取所述数据的权重值,包括:
若所述差值绝对值小于或等于所述差值绝对值均值,则将所述差值绝对值和所述差值绝对值均值之间的比值作为所述数据的权重值;
若所述差值绝对值大于所述差值绝对值均值,则获取所述差值绝对值和所述差值绝对值均值之间的比值,对所述比值进行负映射,对应得到的映射值作为所述数据的权重值。
进一步的,所述根据所述数据的加权平均路径长度获取所述数据的异常分数值,包括:
统计所述时序数据序列的孤立森林中的孤立树数量,根据所述孤立树数量获取路径长度的期望值;
获取以所述路径长度的期望值为分母,以所述加权平均路径长度为分子的第一比值,将所述第一比值的相反数代入以自然常数2为底数的指数函数中,得到的指数函数结果作为所述数据的异常分数值。
进一步的,所述根据所述时序数据序列中的每个数据的异常分数值,获取所述时序数据序列中的疑似异常数据,包括:
根据所述时序数据序列中的每个数据的异常分数值,以异常分数值为横坐标,以异常分数值的数量为纵坐标,构建得到异常分数值的统计曲线,利用最大类间方差法在所述异常分数值的统计曲线中获取最优异常分数阈值;
针对所述时序数据序列中的任一数据,若所述数据的异常分数值大于所述最优异常分数阈值,则确定所述数据为疑似异常数据。
进一步的,所述在所有疑似异常数据中筛选出噪声数据,包括:
根据每个所述疑似异常数据的邻域数据分别获取每个所述疑似异常数据的异常可信度,根据每个所述疑似异常数据的异常可信度在所有疑似异常数据中筛选出噪声数据。
进一步的,所述根据每个所述疑似异常数据的邻域数据分别获取每个所述疑似异常数据的异常可信度,包括:
针对任一疑似异常数据,在所述时序数据序列中以所述疑似异常数据为滑窗中心点,构建预设尺寸的滑窗,统计所述滑窗中包含的疑似异常数据的第一数量,计算所述第一数量和所述滑窗中的数据总数量之间的第二比值;
获取所述滑窗中除所述疑似异常数据之外的所有数据之间的数据方差,对所述数据方差进行负映射,得到对应的映射结果,获取常数1和所述映射结果之间的相减结果;
将所述第二比值和所述相减结果之间的乘积作为所述疑似异常数据的异常可信度。
进一步的,所述根据每个所述疑似异常数据的异常可信度在所有疑似异常数据中筛选出噪声数据,包括:
获取预设的异常可信度阈值,针对任一疑似异常数据,若所述疑似异常数据的异常可信度小于或等于所述异常可信度阈值,则确定所述疑似异常数据为噪声数据。
进一步的,所述对所述时序数据序列中的噪声数据进行插值替换,得到增强后的时序数据序列,包括:
针对所述时序数据序列中的任一噪声数据,在所述时序数据序列中以所述噪声数据为窗口中心构建预设尺寸的滤波窗口,获取所述滤波窗口中的所有数据的平均值,将所述噪声数据替换为所述平均值;
遍历所述时序数据序列中的所有噪声数据,得到增强后的时序数据序列。
本发明实施例与现有技术相比存在的有益效果是:
本发明获取待检测设备的任一传感器的时序数据序列,构建所述时序数据序列的孤立森林,所述孤立森林中包括至少一个孤立树;通过聚类将所述时序数据序列中的数据划分为两个聚类簇,获取每个所述聚类簇的密度中心数据,根据所述两个聚类簇的密度中心数据,分别获取所述时序数据序列中每个数据的权重值;针对所述时序数据序列中的任一数据,根据所述数据在每个所述孤立树上的路径长度和所述数据的权重值,获取所述数据的加权平均路径长度,根据所述数据的加权平均路径长度获取所述数据的异常分数值;根据所述时序数据序列中的每个数据的异常分数值,获取所述时序数据序列中的疑似异常数据,在所有疑似异常数据中筛选出噪声数据,对所述时序数据序列中的噪声数据进行插值替换,得到增强后的时序数据序列。其中,利用孤立森林算法获取待检测设备的任一传感器的时序数据序列中的疑似异常数据,且在获取疑似异常数据的过程中,考虑到正常数据与异常数据间存在一定的差异,通过聚类可以划分为两个聚类簇,并根据每个数据至聚类簇中心点的距离获取数据点的路径长度的权重值,数据距离对应聚类簇中心点的距离越大,则其路径长度的权重值越大,因此,通过获取加权平均路径长度可以尽可能的将正常数据和异常数据分开,从而得到所有的疑似异常数据,在得到疑似异常数据之后,通过在疑似异常数据中筛选出噪声数据,以对时序数据序列中的噪声数据进行插值替换,得到增强后的时序数据序列,进而能够在后续根据时序数据序列获取待检测设备状态的检测结果时,减少噪声数据对检测结果的影响,使得设备状态的检测结果更加严谨。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的一种用于设备状态检测的数据增强方法的方法流程图;
图2是本发明实施例一提供的一种异常分数值的统计曲线的示意图。
具体实施方式
下面详细描述本公开的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本公开,而不能理解为对本公开的限制。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。为了说明本发明的技术方案,下面通过具体实施例来进行说明。
参见图1,是本发明实施例一提供的一种用于设备状态检测的数据增强方法的方法流程图,如图1所示,该数据增强方法可以包括:
步骤S101,获取待检测设备的任一传感器的时序数据序列,构建时序数据序列的孤立森林,孤立森林中包括至少一个孤立树。
设备状态检测涉及多种类型的数据,其中,主要数据类型包括传感器数据、日志数据和图像数据等。举例说明,设备状态检测所涉及的一些常见数据以及数据获取方法,具体参见如下:
传感器数据,可以通过安装各种传感器在设备上,实时采集环境数据和设备运行过程中的数据,例如:温度传感器、湿度传感器、加速度传感器、压力传感器等。
日志数据,包括设备操作日志、错误日志、事件日志等,通过记录设备运行时的各种事件和操作,通过日志文件进行收集。例如,分析设备的错误日志,检测异常操作或系统错误,以预测设备可能出现的问题。
图像数据,利用设备的摄像头捕捉的实时图像或视频流,通过安装摄像头在设备附近,定期或实时捕捉设备运行状态。例如,使用计算机视觉技术分析设备表面的裂纹、磨损或其他异常,以判断设备状态是否正常。
声音数据,设备发出的声音信号或环境中的噪声,通过使用麦克风等音频设备采集设备周围的声音。例如,通过分析设备运行时的声音模式,识别异常噪声或机械问题。
操作数据,用户对设备的操作记录,通过分析用户的操作记录,检测是否存在不当的操作或操作失误。
振动数据,是指设备振动信号,使用振动传感器采集设备振动数据。
由于设备状态检测所涉及的多种数据中容易受到噪声干扰的数据为传感器数据,因此,本发明实施例中,针对待检测设备下,主要对待检测设备的传感器数据进行数据分析处理,故,以待检测设备的一类传感器为例,获取该类传感器实时采集的时序数据序列,需要说明的是,传感器的采集频率不做限制,时序数据序列的长度也不做限制,实施者可根据实施场景自行设置。
在得到时序数据序列之后,利用孤立森林算法构建时序数据序列的孤立森林,且孤立森林中包括至少一个孤立树。其中,孤立森林算法的流程主要包括以下步骤:
初始化:选择一个随机样本子集,作为构建孤立树的初始样本集;构建孤立树:选择一个随机特征,在选定的特征上随机选择一个切分值,将当前样本集分为两个子集。递归地对子集进行切分,直到达到指定的树深度(可以是预先定义的值或自适应确定的)或子集中只有一个样本;构建多棵这样的树,形成孤立森林;异常分数计算:对于每个样本,计算其在每棵树上的路径长度(即从根节点到样本所在的叶子节点的路径长度);计算平均路径长度:通常用于衡量样本的异常程度,平均路径长度越短,样本越可能是异常值;异常判定:基于异常分数,判定哪些样本被认为是异常值。
需要说明的是,孤立森林算法属于现有技术,则利用孤立森林算法构建时序数据序列的孤立森林的具体步骤,此处不再赘述。
步骤S102,通过聚类将时序数据序列中的数据划分为两个聚类簇,获取每个聚类簇的密度中心数据,根据两个聚类簇的密度中心数据,分别获取时序数据序列中每个数据的权重值。
设备正常运行时,传感器采集的数据较为稳定,即传感器采集的数据值的分布在某个数据区间(设备正常运行的数据区间)范围内,当设备出现运行异常时,传感器采集的数据值会偏离设备正常运行的数据区间,且这些数据值的分布较为离散,即相邻异常部分的数据值间的差异较大,但异常的数据值是在一定时间周期内出现的,因此,通过聚类的方式对时序数据序列中的所有数据进行分类处理,具体的,通过聚类将时序数据序列中的数据划分为两个聚类簇,获取每个聚类簇的密度中心数据。
优选的,所述两个聚类簇包括正常数据聚类簇和异常数据聚类簇,则所述通过聚类将所述时序数据序列中的数据划分为两个聚类簇,获取每个所述聚类簇的密度中心数据,包括:
利用K-means聚类算法将所述时序数据序列中的数据划分为所述正常数据聚类簇和所述异常数据聚类簇;
针对所述正常数据聚类簇和所述异常数据聚类簇中的任一聚类簇,利用均值漂移聚类算法获取所述聚类簇的聚类中心,将所述聚类中心对应的数据作为所述聚类簇的密度中心数据。
在一实施方式中,假设时序数据序列为压力时序数据序列,则记压力时序数据序列为(a1,a2,a3,…,ab),其中,a1表示压力时序数据序列中的第1个压力值,a2表示压力时序数据序列中的第2个压力值,a3表示压力时序数据序列中的第3个压力值,ab表示压力时序数据序列中的第b个压力值。采用K-means聚类算法对压力时序数据序列中的压力值进行聚类处理,由于数据分为正常数据和异常数据,因此,令K-means聚类算法中的K值取2,K-means聚类算法聚类完成后,得到两个聚类簇,分别记为c1和c2。值得说明的是,K-means聚类算法属于现有技术,此处不再详细赘述。
由于正常数据的数据量远远大于异常数据的数据量,因此,分别统计每个聚类簇的数据量,将聚类簇c1和聚类簇c2中数据量大的记为正常数据聚类簇,数据量小的记为异常数据聚类簇/>。分别对正常数据聚类簇/>和异常数据聚类簇/>采用均值漂移聚类算法获取每个聚类簇的聚类中心,由于本发明实施例中在使用均值漂移聚类算法时,是基于二维空间中进行的,对应每个聚类簇中的数据在进行均值漂移聚类时,对应一个数据点,且数据点的横坐标代表压力值,纵坐标代表每个压力值的数量,因此,将正常数据聚类簇的聚类中心的横坐标值记为密度中心数据/>,将异常数据聚类簇的聚类中心的横坐标值记为密度中心数据/>。值得说明的是,均值漂移聚类算法属于现有技术,此处不再赘述。
优选的,所述根据所述两个聚类簇的密度中心数据,分别获取所述时序数据序列中每个数据的权重值,包括:
针对所述时序数据序列中的任一数据,确定所述数据所属的聚类簇作为目标聚类簇,计算所述数据与所述目标聚类簇的密度中心数据之间的差值绝对值;
根据所述目标聚类簇中的每个数据与所述目标聚类簇的密度中心数据之间的差值绝对值,获取差值绝对值均值,对比所述差值绝对值和所述差值绝对值均值,得到对比结果,根据所述对比结果,获取所述数据的权重值。
在一实施方式中,以时序数据序列中的第i个数据为例,通过上述聚类结果确定第i个数据属于异常数据聚类簇/>,则计算第i个数据/>与异常数据聚类簇/>的密度中心数据/>之间的差值绝对值/>,同时,分别计算异常数据聚类簇/>中的每个数据与密度中心数据/>之间的差值绝对值,得到差值绝对值均值/>,其中,/>表示异常数据聚类簇/>中的数据总数量,/>表示异常数据聚类簇/>中的第j个数据。进而对比差值绝对值/>和差值绝对值均值/>,得到对比结果,并根据对比结果,获取第i个数据/>的权重值。
需要说明的是,正常数据聚类簇中的数据的权重值的获取方法,与异常数据聚类簇/>中的数据的权重值的获取方法相同。
优选的,所述根据所述对比结果,获取所述数据的权重值,包括:
若所述差值绝对值小于或等于所述差值绝对值均值,则将所述差值绝对值和所述差值绝对值均值之间的比值作为所述数据的权重值;
若所述差值绝对值大于所述差值绝对值均值,则获取所述差值绝对值和所述差值绝对值均值之间的比值,对所述比值进行负映射,对应得到的映射值作为所述数据的权重值。
在一实施方式中,以时序数据序列中的第i个数据为例,且确定第i个数据属于异常数据聚类簇/>,则时序数据序列中第i个数据/>的权重值的计算表达式为:
其中,表示属于异常数据聚类簇/>的第i个数据的权重值,/>表示以自然常数e为底数的指数函数。
需要说明的是,第i个数据与异常数据聚类簇/>的密度中心数据/>之间的差值绝对值/>,与异常数据聚类簇/>对应的差值绝对值均值/>之间的差异越小,说明第i个数据与异常数据聚类簇中的大多数据相似,则第i个数据的权重值越大。
步骤S103,针对时序数据序列中的任一数据,根据数据在每个孤立树上的路径长度和数据的权重值,获取数据的加权平均路径长度,根据数据的加权平均路径长度获取数据的异常分数值。
本发明实施例中,在得到时序数据序列中每个数据的权重值之后,根据时序数据序列的孤立森林,能够得到时序数据序列中的每个数据在孤立森林中的每个孤立树的路径长度,也即是从根节点到数据所在的叶子节点的路径长度。同时,统计时序数据序列的孤立森林中所包含的孤立树数量N,则针对时序数据序列中的任一数据x,数据x在每个孤立树上都有一个路径长度,则根据数据x的权重值和数据x在每个孤立树上的路径长度,获取数据x的加权平均路径长度,具体为:将数据x的权重值分别乘以数据x在每个孤立树上的路径长度,然后求均值,得到的均值即为数据x的加权平均路径长度。
在得到数据x的加权平均路径长度之后,根据数据x的加权平均路径长度获取数据x的异常分数值,则根据所述数据的加权平均路径长度获取所述数据的异常分数值,包括:
统计所述时序数据序列的孤立森林中的孤立树数量,根据所述孤立树数量获取路径长度的期望值;
获取以所述路径长度的期望值为分母,以所述加权平均路径长度为分子的第一比值,将所述第一比值的相反数代入以自然常数2为底数的指数函数中,得到的指数函数结果作为所述数据的异常分数值。
在一实施方式中,数据x的异常分数值的计算表达式为:
其中,表示数据x的异常分数值,/>表示数据x在孤立树上的路径长度,表示数据x的加权平均路径长度,/>为一个常数,表示路径长度的期望值,N表示时序数据序列的孤立森林中的孤立树数量,2表示常数。
其中,路径长度的期望值的计算公式如下:
其中,为调和数,可由/>估计得到。
需要说明的是,上述数据x的异常分数值的计算表达式是在孤立森林算法中的异常分的计算表达式的基础上改进得到的,也即是将现有技术中,孤立森林算法中的异常分获取时所需的平均路径长度替换为加权平均路径长度,以尽快可能的将正常数据和异常数据分开。其中,孤立森林算法属于现有技术,则孤立森林算法中的异常分的计算表达式也属于现有技术,此处不再赘述。
至此,根据上述数据x的异常分数值的获取方法,能够获取时序数据序列中的每个数据的异常分数值。
步骤S104,根据时序数据序列中的每个数据的异常分数值,获取时序数据序列中的疑似异常数据,在所有疑似异常数据中筛选出噪声数据,对时序数据序列中的噪声数据进行插值替换,得到增强后的时序数据序列。
本发明实施例中,在确定了时序数据序列中的每个数据的异常分数值之后,根据时序数据序列中的每个数据的异常分数值,获取时序数据序列中的疑似异常数据,以将正常数据和异常数据尽可能分开,则根据所述时序数据序列中的每个数据的异常分数值,获取所述时序数据序列中的疑似异常数据,包括:
根据所述时序数据序列中的每个数据的异常分数值,以异常分数值为横坐标,以异常分数值的数量为纵坐标,构建得到异常分数值的统计曲线,利用最大类间方差法在所述异常分数值的统计曲线中获取最优异常分数阈值;
针对所述时序数据序列中的任一数据,若所述数据的异常分数值大于所述最优异常分数阈值,则确定所述数据为疑似异常数据。
在一实施方式中,由于时序数据序列存在局部异常数据,非加权得到的异常分数值(也即是传统森林算法中计算的异常分)的阈值难以确定,且局部异常数据的路径长度与部分正常数据的路径长度相似,则人为给的阈值会导致异常数据中存在部分正常数据,因此,根据时序数据序列中的每个数据的异常分数值,以异常分数值为横坐标,以异常分数值的数量为纵坐标,构建得到如图2所示的异常分数值的统计曲线。由图2可知,异常分数值的统计曲线呈现双峰状态,因此,使用最大类间方差法获取异常分数值的统计曲线中的最优异常分数阈值,将最优异常分数阈值作为异常分数值的阈值,以对时序数据序列中的数据进行筛选,具体的,针对时序数据序列中的任一数据,若该数据的异常分数值大于最优异常分数阈值,则确定该数据为疑似异常数据。同理,对时序数据序列中的每个数据进行遍历,得到时序数据序列中的疑似异常数据。
需要说明的是,最大类间方差法属于现有技术,此处不再赘述。
进一步的,疑似异常数据包括设备异常运行时的运行数据和噪声数据,因此,在得到时序数据序列中的疑似异常数据之后,在所有疑似异常数据中筛选出噪声数据,则所述在所有疑似异常数据中筛选出噪声数据,包括:
根据每个所述疑似异常数据的邻域数据分别获取每个所述疑似异常数据的异常可信度,根据每个所述疑似异常数据的异常可信度在所有疑似异常数据中筛选出噪声数据。
其中,所述根据每个所述疑似异常数据的邻域数据分别获取每个所述疑似异常数据的异常可信度,包括:
针对任一疑似异常数据,在所述时序数据序列中以所述疑似异常数据为滑窗中心点,构建预设尺寸的滑窗,统计所述滑窗中包含的疑似异常数据的第一数量,计算所述第一数量和所述滑窗中的数据总数量之间的第二比值;
获取所述滑窗中除所述疑似异常数据之外的所有数据之间的数据方差,对所述数据方差进行负映射,得到对应的映射结果,获取常数1和所述映射结果之间的相减结果;
将所述第二比值和所述相减结果之间的乘积作为所述疑似异常数据的异常可信度。
在一实施方式中,考虑到异常数据附近的数据之间的波动较大,且异常数据通常是成片存在的,而噪声数据通常为孤立存在的点,且噪声数据与其邻域数据的关联较小,因此,以第r个疑似异常数据为例,在时序数据序列中以第r个疑似异常数据为滑窗中心点,构建大小为的滑窗,/>的经验值取/>,则根据第r个疑似异常数据的滑窗内所包含的数据,获取第r个疑似异常数据的异常可信度,则第r个疑似异常数据的异常可信度的计算表达式为:
其中,表示第r个疑似异常数据的异常可信度,/>表示第r个疑似异常数据的滑窗内所包含的疑似异常数据的第一数量,/>表示第r个疑似异常数据的滑窗内所包含的数据总数量,/>表示以自然常数e为底数的指数函数,1表示常数,/>表示第r个疑似异常数据的滑窗内除第r个疑似异常数据之外的第t个数据,/>表示第r个疑似异常数据的滑窗内除第r个疑似异常数据之外的所有数据的均值,/>表示第r个疑似异常数据的滑窗内除第r个疑似异常数据之外的所有数据之间的数据方差。
需要说明的是,第r个疑似异常数据的滑窗内所包含的疑似异常数据越多,也即是的值越大,说明第r个疑似异常数据越符合设备异常运行下的异常数据,对应第r个疑似异常数据的异常可信度越大;/>的值用于表征第r个疑似异常数据的滑窗内除第r个疑似异常数据之外的所有数据的波动程度,/>的值越大,说明波动程度越大,对应第r个疑似异常数据的异常可信度越大,则第r个疑似异常数据越可能为设备异常运行下的异常数据。
其中,所述根据每个所述疑似异常数据的异常可信度在所有疑似异常数据中筛选出噪声数据,包括:
获取预设的异常可信度阈值,针对任一疑似异常数据,若所述疑似异常数据的异常可信度小于或等于所述异常可信度阈值,则确定所述疑似异常数据为噪声数据。
在一实施方式中,设置异常可信度阈值,且异常可信度阈值的经验值取0.35,若任一疑似异常数据的异常可信度小于或等于异常可信度阈值,则确当该疑似异常数据属于噪声数据,同理,将每个疑似异常数据的异常可信度分别与异常可信度阈值进行对比,从而在所有疑似异常数据中筛选出噪声数据。
进一步的,在筛选得到噪声数据之后,也即是确定了时序数据序列中的噪声数据,因此,需要对时序数据序列中的噪声数据进行插值替换,得到增强后的时序数据,从而实现对时序数据序列增强的目的,则所述对所述时序数据序列中的噪声数据进行插值替换,得到增强后的时序数据序列,包括:
针对所述时序数据序列中的任一噪声数据,在所述时序数据序列中以所述噪声数据为窗口中心构建预设尺寸的滤波窗口,获取所述滤波窗口中的所有数据的平均值,将所述噪声数据替换为所述平均值;
遍历所述时序数据序列中的所有噪声数据,得到增强后的时序数据序列。
在一实施方式中,针对时序数据序列中的任一噪声数据,在时序数据序列中以所述噪声数据为窗口中心构建预设大小为的滤波窗口,采用均值滤波的方法,获取滤波窗口中的所有数据的平均值,将所述噪声数据替换为平均值。同理,对时序数据序列中的每个噪声数据都进行均值滤波处理,从而得到增强后的时序数据序列。
需要说明的是,增强后的时序数据序列是减少噪声干扰后的数据,因此,在根据待检测设备的运行数据检测设备状态时,可以利用增强后的时序数据序列对待检测设备的状态进行检测,从而能够提高对设备状态检测的准确性。其中,如何利用增强后的时序数据序列对待检测设备的状态进行检测不属于本发明的重点,此处不再详细赘述。
综上所述,本发明实施例获取待检测设备的任一传感器的时序数据序列,构建时序数据序列的孤立森林,孤立森林中包括至少一个孤立树;通过聚类将时序数据序列中的数据划分为两个聚类簇,获取每个聚类簇的密度中心数据,根据两个聚类簇的密度中心数据,分别获取时序数据序列中每个数据的权重值;针对时序数据序列中的任一数据,根据数据在每个孤立树上的路径长度和数据的权重值,获取数据的加权平均路径长度,根据数据的加权平均路径长度获取数据的异常分数值;根据时序数据序列中的每个数据的异常分数值,获取时序数据序列中的疑似异常数据,在所有疑似异常数据中筛选出噪声数据,对时序数据序列中的噪声数据进行插值替换,得到增强后的时序数据序列。其中,利用孤立森林算法获取待检测设备的任一传感器的时序数据序列中的疑似异常数据,且在获取疑似异常数据的过程中,考虑到正常数据与异常数据间存在一定的差异,通过聚类可以划分为两个聚类簇,并根据每个数据至聚类簇中心点的距离获取数据点的路径长度的权重值,数据距离对应聚类簇中心点的距离越大,则其路径长度的权重值越大,因此,通过获取加权平均路径长度可以尽可能的将正常数据和异常数据分开,从而得到所有的疑似异常数据,在得到疑似异常数据之后,通过在疑似异常数据中筛选出噪声数据,以对时序数据序列中的噪声数据进行插值替换,得到增强后的时序数据序列,进而能够在后续根据时序数据序列获取待检测设备状态的检测结果时,减少噪声数据对检测结果的影响,使得设备状态的检测结果更加严谨。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种用于设备状态检测的数据增强方法,其特征在于,所述数据增强方法包括:
获取待检测设备的任一传感器的时序数据序列,构建所述时序数据序列的孤立森林,所述孤立森林中包括至少一个孤立树;
通过聚类将所述时序数据序列中的数据划分为两个聚类簇,获取每个所述聚类簇的密度中心数据,根据所述两个聚类簇的密度中心数据,分别获取所述时序数据序列中每个数据的权重值;
针对所述时序数据序列中的任一数据,根据所述数据在每个所述孤立树上的路径长度和所述数据的权重值,获取所述数据的加权平均路径长度,根据所述数据的加权平均路径长度获取所述数据的异常分数值;
根据所述时序数据序列中的每个数据的异常分数值,获取所述时序数据序列中的疑似异常数据,在所有疑似异常数据中筛选出噪声数据,对所述时序数据序列中的噪声数据进行插值替换,得到增强后的时序数据序列。
2.根据权利要求1所述的数据增强方法,其特征在于,所述两个聚类簇包括正常数据聚类簇和异常数据聚类簇,则所述通过聚类将所述时序数据序列中的数据划分为两个聚类簇,获取每个所述聚类簇的密度中心数据,包括:
利用K-means聚类算法将所述时序数据序列中的数据划分为所述正常数据聚类簇和所述异常数据聚类簇;
针对所述正常数据聚类簇和所述异常数据聚类簇中的任一聚类簇,利用均值漂移聚类算法获取所述聚类簇的聚类中心,将所述聚类中心对应的数据作为所述聚类簇的密度中心数据。
3.根据权利要求2所述的数据增强方法,其特征在于,所述根据所述两个聚类簇的密度中心数据,分别获取所述时序数据序列中每个数据的权重值,包括:
针对所述时序数据序列中的任一数据,确定所述数据所属的聚类簇作为目标聚类簇,计算所述数据与所述目标聚类簇的密度中心数据之间的差值绝对值;
根据所述目标聚类簇中的每个数据与所述目标聚类簇的密度中心数据之间的差值绝对值,获取差值绝对值均值,对比所述差值绝对值和所述差值绝对值均值,得到对比结果,根据所述对比结果,获取所述数据的权重值。
4.根据权利要求3所述的数据增强方法,其特征在于,所述根据所述对比结果,获取所述数据的权重值,包括:
若所述差值绝对值小于或等于所述差值绝对值均值,则将所述差值绝对值和所述差值绝对值均值之间的比值作为所述数据的权重值;
若所述差值绝对值大于所述差值绝对值均值,则获取所述差值绝对值和所述差值绝对值均值之间的比值,将所述比值的相反数代入以自然常数e为底数的指数函数中,对应得到的指数函数结果作为所述数据的权重值。
5.根据权利要求1所述的数据增强方法,其特征在于,所述根据所述数据的加权平均路径长度获取所述数据的异常分数值,包括:
统计所述时序数据序列的孤立森林中的孤立树数量,根据所述孤立树数量获取路径长度的期望值;
获取以所述路径长度的期望值为分母,以所述加权平均路径长度为分子的第一比值,将所述第一比值的相反数代入以自然常数2为底数的指数函数中,得到的指数函数结果作为所述数据的异常分数值。
6.根据权利要求1所述的数据增强方法,其特征在于,所述根据所述时序数据序列中的每个数据的异常分数值,获取所述时序数据序列中的疑似异常数据,包括:
根据所述时序数据序列中的每个数据的异常分数值,以异常分数值为横坐标,以异常分数值的数量为纵坐标,构建得到异常分数值的统计曲线,利用最大类间方差法在所述异常分数值的统计曲线中获取最优异常分数阈值;
针对所述时序数据序列中的任一数据,若所述数据的异常分数值大于所述最优异常分数阈值,则确定所述数据为疑似异常数据。
7.根据权利要求1所述的数据增强方法,其特征在于,所述在所有疑似异常数据中筛选出噪声数据,包括:
根据每个所述疑似异常数据的邻域数据分别获取每个所述疑似异常数据的异常可信度,根据每个所述疑似异常数据的异常可信度在所有疑似异常数据中筛选出噪声数据。
8.根据权利要求7所述的数据增强方法,其特征在于,所述根据每个所述疑似异常数据的邻域数据分别获取每个所述疑似异常数据的异常可信度,包括:
针对任一疑似异常数据,在所述时序数据序列中以所述疑似异常数据为滑窗中心点,构建预设尺寸的滑窗,统计所述滑窗中包含的疑似异常数据的第一数量,计算所述第一数量和所述滑窗中的数据总数量之间的第二比值;
获取所述滑窗中除所述疑似异常数据之外的所有数据之间的数据方差,将所述数据方差的相反数代入以自然常数e为底数的指数函数中,得到对应的指数函数值,获取常数1和所述指数函数值之间的相减结果;
将所述第二比值和所述相减结果之间的乘积作为所述疑似异常数据的异常可信度。
9.根据权利要求7所述的数据增强方法,其特征在于,所述根据每个所述疑似异常数据的异常可信度在所有疑似异常数据中筛选出噪声数据,包括:
获取预设的异常可信度阈值,针对任一疑似异常数据,若所述疑似异常数据的异常可信度小于或等于所述异常可信度阈值,则确定所述疑似异常数据为噪声数据。
10.根据权利要求1所述的数据增强方法,其特征在于,所述对所述时序数据序列中的噪声数据进行插值替换,得到增强后的时序数据序列,包括:
针对所述时序数据序列中的任一噪声数据,在所述时序数据序列中以所述噪声数据为窗口中心构建预设尺寸的滤波窗口,获取所述滤波窗口中的所有数据的平均值,将所述噪声数据替换为所述平均值;
遍历所述时序数据序列中的所有噪声数据,得到增强后的时序数据序列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311714166.5A CN117407661B (zh) | 2023-12-14 | 2023-12-14 | 一种用于设备状态检测的数据增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311714166.5A CN117407661B (zh) | 2023-12-14 | 2023-12-14 | 一种用于设备状态检测的数据增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117407661A CN117407661A (zh) | 2024-01-16 |
CN117407661B true CN117407661B (zh) | 2024-02-27 |
Family
ID=89500211
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311714166.5A Active CN117407661B (zh) | 2023-12-14 | 2023-12-14 | 一种用于设备状态检测的数据增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117407661B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117782364B (zh) * | 2024-02-28 | 2024-05-03 | 西瑞思创(西安)实验仪器有限公司 | 一种高通量自动材料快筛反应器的实时监测方法及系统 |
CN117828282A (zh) * | 2024-03-06 | 2024-04-05 | 山东泰霖信息工程有限公司 | 一种基于自适应滤波的数据高效处理方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110245880A (zh) * | 2019-07-02 | 2019-09-17 | 浙江成功软件开发有限公司 | 一种污染源在线监控数据作弊识别方法 |
US11294756B1 (en) * | 2019-09-19 | 2022-04-05 | Amazon Technologies, Inc. | Anomaly detection in a network |
CN114528909A (zh) * | 2022-01-07 | 2022-05-24 | 云南电网有限责任公司信息中心 | 一种基于流量日志特征提取的无监督异常检测方法 |
WO2022227373A1 (zh) * | 2021-04-26 | 2022-11-03 | 华为技术有限公司 | 一种硬盘健康评估方法和存储设备 |
CN116244617A (zh) * | 2022-12-19 | 2023-06-09 | 国网安徽省电力有限公司电力科学研究院 | 一种基于异构图结构学习的智能高压开关柜故障诊断方法和系统 |
CN116993744A (zh) * | 2023-09-28 | 2023-11-03 | 张家港思复安全科技有限公司 | 一种基于阈值分割的焊缝缺陷检测方法 |
CN117216660A (zh) * | 2023-09-12 | 2023-12-12 | 杭州安恒信息技术股份有限公司 | 基于时序网络流量集成异常点和异常集群检测方法及装置 |
-
2023
- 2023-12-14 CN CN202311714166.5A patent/CN117407661B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110245880A (zh) * | 2019-07-02 | 2019-09-17 | 浙江成功软件开发有限公司 | 一种污染源在线监控数据作弊识别方法 |
US11294756B1 (en) * | 2019-09-19 | 2022-04-05 | Amazon Technologies, Inc. | Anomaly detection in a network |
WO2022227373A1 (zh) * | 2021-04-26 | 2022-11-03 | 华为技术有限公司 | 一种硬盘健康评估方法和存储设备 |
CN114528909A (zh) * | 2022-01-07 | 2022-05-24 | 云南电网有限责任公司信息中心 | 一种基于流量日志特征提取的无监督异常检测方法 |
CN116244617A (zh) * | 2022-12-19 | 2023-06-09 | 国网安徽省电力有限公司电力科学研究院 | 一种基于异构图结构学习的智能高压开关柜故障诊断方法和系统 |
CN117216660A (zh) * | 2023-09-12 | 2023-12-12 | 杭州安恒信息技术股份有限公司 | 基于时序网络流量集成异常点和异常集群检测方法及装置 |
CN116993744A (zh) * | 2023-09-28 | 2023-11-03 | 张家港思复安全科技有限公司 | 一种基于阈值分割的焊缝缺陷检测方法 |
Non-Patent Citations (2)
Title |
---|
Hyperspectral Anomaly Detection With Otsu-Based Isolation Forest;Yuxiang Zhang 等;《IEEE JOURNAL OF SELECTED TOPICS IN APPLIED EARTH OBSERVATIONS AND REMOTE SENSING》;20211003(第14期);9079-9088 * |
孤立森林算法研究及并行化实现;王诚 等;《计算机技术与发展》;20210610;第31卷(第6期);13-18 * |
Also Published As
Publication number | Publication date |
---|---|
CN117407661A (zh) | 2024-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117407661B (zh) | 一种用于设备状态检测的数据增强方法 | |
CN111538642B (zh) | 一种异常行为的检测方法、装置、电子设备及存储介质 | |
KR102141391B1 (ko) | 군집 평가에 기반한 고장 데이터의 관리 방법 | |
CN107493277B (zh) | 基于最大信息系数的大数据平台在线异常检测方法 | |
CN113518011B (zh) | 异常检测方法和装置、电子设备及计算机可读存储介质 | |
CN108429649B (zh) | 基于多次单类型采集结果的综合异常判断的系统 | |
CN111581072A (zh) | 一种基于smart和性能日志的磁盘故障预测方法 | |
CN115392408A (zh) | 一种电子数粒机运行异常检测方法及系统 | |
CN110738255A (zh) | 一种基于聚类算法的设备状态监测方法 | |
CN113568774A (zh) | 使用无监督深度神经网络的多维时序数据实时异常检测方法 | |
CN116242443A (zh) | 一种超声波计量仪表的动态计量方法 | |
CN117665935B (zh) | 一种破碎岩体支护施工过程的监测数据处理方法 | |
CN107092772B (zh) | 一种传感器特征曲线的确定方法及其装置 | |
CN114518988B (zh) | 资源容量系统及其控制方法和计算机可读存储介质 | |
KR20160120361A (ko) | 먼지의 종류를 판별하는 방법 및 장치 | |
CN113624280A (zh) | 一种工业生产仪器仪表运行检测数据分析管理方法、设备及存储介质 | |
CN114186644A (zh) | 一种基于优化随机森林的缺陷报告严重程度预测方法 | |
CN116448062B (zh) | 一种桥梁沉降变形检测方法、装置、计算机及存储介质 | |
CN117454283A (zh) | 一种用于风电机组运行检测数据的状态评估方法 | |
CN117439827B (zh) | 一种网络流量大数据分析方法 | |
CN113705547B (zh) | 环境弄虚作假行为识别动态管控方法、装置 | |
CN117235650B (zh) | 一种高空作业状态检测方法、装置、设备及介质 | |
CN116452924B (zh) | 模型阈值调整方法、装置、电子设备及存储介质 | |
CN117271980B (zh) | 钻进数据处理方法、装置、电子设备及存储介质 | |
CN115237739B (zh) | 板卡运行环境的分析方法、装置、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |