CN112070155A - 时间序列数据标注方法和装置 - Google Patents

时间序列数据标注方法和装置 Download PDF

Info

Publication number
CN112070155A
CN112070155A CN202010928562.8A CN202010928562A CN112070155A CN 112070155 A CN112070155 A CN 112070155A CN 202010928562 A CN202010928562 A CN 202010928562A CN 112070155 A CN112070155 A CN 112070155A
Authority
CN
China
Prior art keywords
time series
feature
data
series data
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010928562.8A
Other languages
English (en)
Inventor
李泽朋
马元巍
顾徐波
宋怡然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changzhou Weiyizhi Technology Co Ltd
Original Assignee
Changzhou Weiyizhi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changzhou Weiyizhi Technology Co Ltd filed Critical Changzhou Weiyizhi Technology Co Ltd
Priority to CN202010928562.8A priority Critical patent/CN112070155A/zh
Publication of CN112070155A publication Critical patent/CN112070155A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种时间序列数据标注方法和装置,所述方法包括以下步骤:获取多个时间序列数据,并对多个时间序列数据进行预处理;通过Tsfresh对预处理后的多个时间序列数据进行特征提取,并获取所提取的时间序列特征的贡献度信息;根据贡献度信息对时间序列特征进行PCA降维;通过IForest对降维后的时间序列特征进行标注。本发明能够方便、准确地实现无标签时间序列数据的标签化,并能够节省人工成本。

Description

时间序列数据标注方法和装置
技术领域
本发明涉及数据标注技术领域,具体涉及一种时间序列数据标注方法、一种时间序列数据标注装置、一种计算机设备、一种非临时性计算机可读存储介质和一种计算机程序产品。
背景技术
在现实生活中大多数情况下获得的工业领域的时序数据都是没有标签的,而对于工业领域时序数据进行分类或是异常检测,常常需要先进行人工标注。由于缺乏足够的先验知识,进行人工类别标注的成本太高。
发明内容
本发明为解决上述技术问题,提供了一种时间序列数据标注方法和装置,能够方便、准确地实现无标签时间序列数据的标签化,并能够节省人工成本。
本发明采用的技术方案如下:
一种时间序列数据标注方法,包括以下步骤:获取多个时间序列数据,并对所述多个时间序列数据进行预处理;通过Tsfresh对预处理后的多个时间序列数据进行特征提取,并获取所提取的时间序列特征的贡献度信息;根据所述贡献度信息对所述时间序列特征进行PCA(Principal Components Analysis,主成分分析)降维;通过IForest(IsolationForest,孤立森林)对降维后的时间序列特征进行标注。
对所述多个时间序列数据进行预处理,具体包括:判断每个所述时间序列数据是否存在缺失值;如果任一所述时间序列数据存在缺失值,则补齐该时间序列数据。
获取所提取的时间序列特征的贡献度信息,具体包括:通过所述Tsfresh获取所提取的时间序列特征的贡献度排名。
根据所述贡献度信息对所述时间序列特征进行PCA降维,具体包括:建立时间序列特征的相关系数矩阵;计算所述相关系数矩阵的特征值和特征向量;根据所述贡献度排名选择预设数量的特征向量;根据所述预设数量的特征向量进行特征映射以实现特征降维。
所述时间序列数据为工业领域数据,标注的标签包括异常标签和正常标签。
通过IForest对降维后的时间序列特征进行标注,具体包括:通过IForest确定多个降维后的时间序列特征中的被孤立特征和未被孤立特征;在确认所述被孤立特征为异常特征后,为该被孤立特征打上异常标签;在确认所述未被孤立特征为正常特征后,为该未被孤立特征打上正常标签。
一种时间序列数据标注装置,包括:数据获取模块,所述数据获取模块用于获取多个时间序列数据,并对所述多个时间序列数据进行预处理;特征提取模块,所述特征提取模块用于通过Tsfresh对预处理后的多个时间序列数据进行特征提取,并获取所提取的时间序列特征的贡献度信息;特征降维模块,所述特征降维模块用于根据所述贡献度信息对所述时间序列特征进行PCA降维;标注模块,所述标注模块用于通过IForest对降维后的时间序列特征进行标注。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现上述时间序列数据标注方法。
一种非临时性计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述时间序列数据标注方法。
一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,执行上述时间序列数据标注方法。
本发明的有益效果:
本发明首先通过Tsfresh对预处理后的多个时间序列数据进行特征提取,并获取所提取的时间序列特征的贡献度信息,再根据贡献度信息对时间序列特征进行PCA降维,并通过IForest对降维后的时间序列特征进行标注,由此,能够实现准确高效的时间序列特征选择,并能够方便、准确地实现无标签时间序列数据的标签化,以及能够节省人工成本。
附图说明
图1为本发明实施例的时间序列数据标注方法的流程图;
图2为本发明一个实施例的IForest的孤立实例示意图;
图3为本发明一个具体实施例的时间序列数据的曲线图;
图4为本发明实施例的时间序列数据标注装置的方框示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例的时间序列数据标注方法包括以下步骤:
S1,获取多个时间序列数据,并对多个时间序列数据进行预处理。
本发明实施例的时间序列数据可以为工业领域数据,例如可以为汽车装配中的螺栓拧紧过程曲线等。本发明实施例在该步骤中所获取的多个时间序列数据可均为未知正常、异常情况的数据,即无标签数据。
连续性对于合格的时间序列数据来说尤为重要,因此,本发明在获取到时间序列数据后对其进行的预处理主要包括缺失值处理。具体地,可判断每个时间序列数据是否存在缺失值,如果任一时间序列数据存在缺失值,则补齐该时间序列数据。补齐数据的方式可以为采用Spline插值、指数平滑法等。
S2,通过Tsfresh对预处理后的多个时间序列数据进行特征提取,并获取所提取的时间序列特征的贡献度信息。
Tsfresh是一个Python的时序数据特征挖掘的模块,能自动地计算出大量的时间序列特征,包括时间序列的基本特征,如峰数、平均值或最大值等,以及更复杂的特征,如时间反转对称统计等。
同时,Tsfresh可获取所提取的时间序列特征的贡献度排名,具体地,Tsfresh可通过extract_relevant_features函数获取每个时间序列特征的贡献度,并得到特征贡献度排名。
S3,根据贡献度信息对时间序列特征进行PCA降维。
具体地,可建立时间序列特征的相关系数矩阵,并计算相关系数矩阵的特征值和特征向量,然后根据贡献度排名选择预设数量的特征向量,并根据预设数量的特征向量进行特征映射以实现特征降维。
对于提取的时间序列特征,首先可依据常规的PCA降维步骤,将多个时间序列数据的时间序列特征按列组成矩阵,然后计算其相关系数矩阵,并计算相关系数矩阵的特征值和特征向量。接下来,对于特征向量的选择,可依据上述Tsfresh获取的特征贡献度排名,选取排名靠前的预设数量的特征对应的特征向量,以该预设数量的特征向量进行特征映射,将时间序列特征降低到预设维度。也就是说,本发明实施例可直接利用上述Tsfresh获取的特征贡献度排名实现主成分选取,取代了常规PCA降维中的主成分计算过程。由此,使得特征构建和特征降维紧密结合,能够降低计算量,提高时间序列特征选择的效率和准确度。
S4,通过IForest对降维后的时间序列特征进行标注。
在IForest中,异常被定义为“容易被孤立的离群点(more likely to beseparated)”,可以将其理解为分布稀疏且离密度高的群体较远的点。在特征空间里,分布稀疏的区域表示事件发生在该区域的概率很低,因而可以认为落在这些区域里的数据是异常的。孤立森林是一种适用于连续数据的无监督异常检测方法,即不需要有标记的样本来训练,但特征需要是连续的。对于如何查找哪些点容易被孤立,IForest使用了一套非常高效的策略,在孤立森林中,递归地随机分割数据集,直到所有的样本点都是孤立的。在这种随机分割的策略下,异常点通常具有较短的路径。
直观上来讲,那些密度很高的簇是需要被切很多次才能被孤立,但是那些密度很低的点很容易就可以被孤立。如图2所示,正常点xi需要更多次的分割才能被孤立,而异常点xo需要较少的分割次数就能被孤立。图中直线表分割,分割方式采用的是随机选择一个特征以及拆分的值(这个值位于该特征的最小值和最大值之间)。
在本发明的一个实施例中,首先可通过IForest确定多个降维后的时间序列特征中的被孤立特征和未被孤立特征,即初步确定异常特征和正常特征。然后,将异常特征和正常特征分别画出时序图,分别与预存的标准数据库中的异常特征时序图和正常特征时序图进行比较,以确认上述被孤立特征,即初步确定的异常特征是否真的为异常特征,以及上述未被孤立特征,即初步确定的正常特征是否真的为正常特征。在确认被孤立特征为异常特征后,可为该被孤立特征打上异常标签,在确认未被孤立特征为正常特征后,可为该未被孤立特征打上正常标签。
优选地,可根据需求选取一定数量的被孤立特征进行异常确认和标注,并选取一定数量的未被孤立特征进行正常确认和标注,这样不必确认和标注海量数据中的每个特征,能够降低数据处理量。
大量的时间序列数据在选择了特征并标注了相应的标签后,可构成样本集,样本集中含正常标签的为正样本,含异常标签的为负样本。样本集又可分为训练集和验证集,其中,训练集和验证集中均含有一定数量的正样本和负样本。通过该样本集对神经网络进行训练,可得到数据正常、异常分类模型,即时间序列数据异常检测模型,从而实现时间序列数据的异常检测。
根据本发明实施例的时间序列数据标注方法,首先通过Tsfresh对预处理后的多个时间序列数据进行特征提取,并获取所提取的时间序列特征的贡献度信息,再根据贡献度信息对时间序列特征进行PCA降维,并通过IForest对降维后的时间序列特征进行标注,由此,能够实现准确高效的时间序列特征选择,并能够方便、准确地实现无标签时间序列数据的标签化,以及能够节省人工成本。
随着汽车工业的发展,拧紧工艺被作为总装工厂的核心技术一直在不断提升。作为成品车制造的最后一道工序,如何将各零部件以最恰当、最经济的方式结合在一起就显得尤为重要,这不仅仅关系着制造的成本,也决定着驾乘人员的生命财产安全。
拧紧作业的检测是不可再现的,在紧固件拧紧完毕、动力工具作业完毕后,螺纹副之间的摩擦由动摩擦变为静摩擦,并且在断开动力工具输出之后还存在一定的力矩衰减,工件之间产生细微的形变。总装厂内常见的基本的拧紧控制方式包括:扭矩控制法、扭矩控制—角度监测法、扭矩+角度控制法、斜率法等。每一种方都须结合现场硬件等级情况实施,最终目的都是期望得到合适的预紧力(也称张紧力、夹紧力等),保证零部件之间能够存在可靠的连接。但因预紧力往往不易测得,并且也很少有具备直接测量预紧力的生产型设备,所以需通过运用各种拧紧控制方法,来达到最终形成合适的预紧力这一目的。
动态扭矩是指在紧固件紧固过程中,由紧固动力工具设定或由其传感器测得的紧固过程扭矩峰值,动态扭矩不能在紧固件被紧固完之后测量。静态扭矩是指在紧固件紧固完成之后,在一定时间内由扭矩检定工具在规定的转动幅度下继续在紧固方向上转动测得的扭矩值。
动态扭矩用于生产,静态扭矩用于检验。研发给出的扭矩值需提前确认好属于哪一类,然后进行另一套标准的建立。由于技术等原因市场上对拧紧过程的检测大都为静态检测,这样的检测手段需要大量的操作,耗时又费力,效果因人而异,成为了市场急需解决的问题。
本发明实施例的时间序列数据标注方法,可标注拧紧工艺的过程数据,从而实现对拧紧工艺过程数据的异常检测,即能够实现一种动态的检测方式,能够大大提高装配工艺的检测效率,推动汽车等行业的发展。
下面以汽车装配中的螺栓拧紧过程数据为例,详细说明本发明实施例的时间序列数据标注方法。
首先可获取表格形式的螺栓拧紧过程数据,数据包含51个xlsx文件,文件中的字段介绍如表1所示。
表1
Figure BDA0002669349160000071
Figure BDA0002669349160000081
由于螺栓拧紧过程主要与扭矩有关,因此可将每个字段中除扭矩和能够表示是否为同一过程的结果ID之外的量删除,并将51个xlsx文件中保留扭矩和结果ID的字段合并,按照结果ID分组,然后判断合并后的数据是否存在缺失值,如果存在,则补齐数据,最终得到一个包含近154万行数据的文件。
一组数据的时序图如图3所示,图中存在多种特征点,如波峰值、波谷值、最大值、最小值、均值、中位数等,这些特征过数据平滑等一般的特征提取方式不能将原始时间序列的特征很好的提取出来,而Tsfresh则可将时间序列当中的所有时域和频域特征都一一提取出来。在本发明的一个实施例中,通过Tsfresh提取的特征主要包括绝对能量值、一阶差分绝对和、均值、中位数等。具体地,Tsfresh通过对2518个时间序列数据进行特征提取,每个时间序列数据对应提取200个特征,得到2518行、763列的特征数据表,共含2518个763维特征数据。
Tsfresh进行特征提取之后会有对时间序列特征的贡献度描述,接下来可依据该特征贡献度描述进行PCA降维,每个时间序列数据的特征由763维降维到200维,即得到2518行、200列的特征数据,共含2518个200维特征数据。
经IForest被孤立的特征数据中,抽取100个特征数据,画出时序图,与标准的异常时序图进行比对,确认其为异常特征后打上异常标签;经IForest未被孤立的特征数据中,抽取400个特征数据,画出时序图,与标准的正常时序图进行比对,确认其为正常特征后打上正常标签。由此,构成了含有400个正样本和100个负样本的样本集。
将上述样本集分为含有320个正样本、80个负样本的训练集和含有80个正样本、20个负样本的测试集。
接下来,可通过上述样本集训练检测模型,并通过检测模型实现输入的拧紧工艺过程数据的异常检测。
对应上述实施例的时间序列数据标注方法,本发明还提出一种时间序列数据标注装置。
如图4所示,本发明实施例的时间序列数据标注装置包括:数据获取模块10、特征提取模块20、特征降维模块30和标注模块40。其中,数据获取模块10用于获取多个时间序列数据,并对多个时间序列数据进行预处理;特征提取模块20用于通过Tsfresh对预处理后的多个时间序列数据进行特征提取,并获取所提取的时间序列特征的贡献度信息;特征降维模块30用于根据贡献度信息对时间序列特征进行PCA降维;标注模块40用于通过IForest对降维后的时间序列特征进行标注。
本发明实施例的时间序列数据可以为工业领域数据,例如可以为汽车装配中的螺栓拧紧过程曲线等。本发明实施例的数据获取模块10所获取的多个时间序列数据可均为未知正常、异常情况的数据,即无标签数据。
连续性对于合格的时间序列数据来说尤为重要,因此,本发明的数据获取模块10在获取到时间序列数据后对其进行的预处理主要包括缺失值处理。具体地,数据获取模块10可判断每个时间序列数据是否存在缺失值,如果任一时间序列数据存在缺失值,则补齐该时间序列数据。补齐数据的方式可以为采用Spline插值、指数平滑法等。
Tsfresh是一个Python的时序数据特征挖掘的模块,能自动地计算出大量的时间序列特征,包括时间序列的基本特征,如峰数、平均值或最大值等,以及更复杂的特征,如时间反转对称统计等。
同时,Tsfresh可获取所提取的时间序列特征的贡献度排名,具体地,Tsfresh可通过extract_relevant_features函数获取每个时间序列特征的贡献度,并得到特征贡献度排名。
特征降维模块30具体可建立时间序列特征的相关系数矩阵,并计算相关系数矩阵的特征值和特征向量,然后根据贡献度排名选择预设数量的特征向量,并根据预设数量的特征向量进行特征映射以实现特征降维。
对于提取的时间序列特征,特征降维模块30首先可依据常规的PCA降维步骤,将多个时间序列数据的时间序列特征按列组成矩阵,然后计算其相关系数矩阵,并计算相关系数矩阵的特征值和特征向量。接下来,对于特征向量的选择,特征降维模块30可依据上述Tsfresh获取的特征贡献度排名,选取排名靠前的预设数量的特征对应的特征向量,以该预设数量的特征向量进行特征映射,将时间序列特征降低到预设维度。也就是说,本发明实施例可直接利用上述Tsfresh获取的特征贡献度排名实现主成分选取,取代了常规PCA降维中的主成分计算过程。由此,使得特征构建和特征降维紧密结合,能够降低计算量,提高时间序列特征选择的效率和准确度。
在IForest中,异常被定义为“容易被孤立的离群点(more likely to beseparated)”,可以将其理解为分布稀疏且离密度高的群体较远的点。在特征空间里,分布稀疏的区域表示事件发生在该区域的概率很低,因而可以认为落在这些区域里的数据是异常的。孤立森林是一种适用于连续数据的无监督异常检测方法,即不需要有标记的样本来训练,但特征需要是连续的。对于如何查找哪些点容易被孤立,IForest使用了一套非常高效的策略,在孤立森林中,递归地随机分割数据集,直到所有的样本点都是孤立的。在这种随机分割的策略下,异常点通常具有较短的路径。
直观上来讲,那些密度很高的簇是需要被切很多次才能被孤立,但是那些密度很低的点很容易就可以被孤立。如图2所示,正常点xi需要更多次的分割才能被孤立,而异常点xo需要较少的分割次数就能被孤立。图中直线表分割,分割方式采用的是随机选择一个特征以及拆分的值(这个值位于该特征的最小值和最大值之间)。
在本发明的一个实施例中,标注模块40首先可通过IForest确定多个降维后的时间序列特征中的被孤立特征和未被孤立特征,即初步确定异常特征和正常特征。然后,将异常特征和正常特征分别画出时序图,分别与预存的标准数据库中的异常特征时序图和正常特征时序图进行比较,以确认上述被孤立特征,即初步确定的异常特征是否真的为异常特征,以及上述未被孤立特征,即初步确定的正常特征是否真的为正常特征。在确认被孤立特征为异常特征后,可为该被孤立特征打上异常标签,在确认未被孤立特征为正常特征后,可为该未被孤立特征打上正常标签。
优选地,标注模块40可根据需求选取一定数量的被孤立特征进行异常确认和标注,并选取一定数量的未被孤立特征进行正常确认和标注,这样不必确认和标注海量数据中的每个特征,能够降低数据处理量。
大量的时间序列数据在选择了特征并标注了相应的标签后,可构成样本集,样本集中含正常标签的为正样本,含异常标签的为负样本。样本集又可分为训练集和验证集,其中,训练集和验证集中均含有一定数量的正样本和负样本。通过该样本集对神经网络进行训练,可得到数据正常、异常分类模型,即时间序列数据异常检测模型,从而实现时间序列数据的异常检测。
根据本发明实施例的时间序列数据标注装置,首先通过Tsfresh对预处理后的多个时间序列数据进行特征提取,并获取所提取的时间序列特征的贡献度信息,再根据贡献度信息对时间序列特征进行PCA降维,并通过IForest对降维后的时间序列特征进行标注,由此,能够实现准确高效的时间序列特征选择,并能够方便、准确地实现无标签时间序列数据的标签化,以及能够节省人工成本。
对应上述实施例,本发明还提出一种计算机设备。
本发明实施例的计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行该计算机程序时,可实现根据本发明上述实施例所述的时间序列数据标注方法。
根据本发明实施例的计算机设备,处理器执行存储在存储器上的计算机程序时,首先通过Tsfresh对预处理后的多个时间序列数据进行特征提取,并获取所提取的时间序列特征的贡献度信息,再根据贡献度信息对时间序列特征进行PCA降维,并通过IForest对降维后的时间序列特征进行标注,由此,能够实现准确高效的时间序列特征选择,并能够方便、准确地实现无标签时间序列数据的标签化,以及能够节省人工成本。
对应上述实施例,本发明还提出一种非临时性计算机可读存储介质。
本发明实施例的非临时性计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时可实现根据本发明上述实施例所述的时间序列数据标注方法。
根据本发明实施例的非临时性计算机可读存储介质,处理器执行存储在其上的计算机程序时,首先通过Tsfresh对预处理后的多个时间序列数据进行特征提取,并获取所提取的时间序列特征的贡献度信息,再根据贡献度信息对时间序列特征进行PCA降维,并通过IForest对降维后的时间序列特征进行标注,由此,能够实现准确高效的时间序列特征选择,并能够方便、准确地实现无标签时间序列数据的标签化,以及能够节省人工成本。
对应上述实施例,本发明还提出一种计算机程序产品。
当本发明实施例的计算机程序产品中的指令由处理器执行时,可执行根据本发明上述实施例所述的时间序列数据标注方法。
根据本发明实施例的计算机程序产品,处理器执行其中的指令时,首先通过Tsfresh对预处理后的多个时间序列数据进行特征提取,并获取所提取的时间序列特征的贡献度信息,再根据贡献度信息对时间序列特征进行PCA降维,并通过IForest对降维后的时间序列特征进行标注,由此,能够实现准确高效的时间序列特征选择,并能够方便、准确地实现无标签时间序列数据的标签化,以及能够节省人工成本。
在本发明的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种时间序列数据标注方法,其特征在于,包括以下步骤:
获取多个时间序列数据,并对所述多个时间序列数据进行预处理;
通过Tsfresh对预处理后的多个时间序列数据进行特征提取,并获取所提取的时间序列特征的贡献度信息;
根据所述贡献度信息对所述时间序列特征进行PCA降维;
通过IForest对降维后的时间序列特征进行标注。
2.根据权利要求1所述的时间序列数据标注方法,其特征在于,对所述多个时间序列数据进行预处理,具体包括:
判断每个所述时间序列数据是否存在缺失值;
如果任一所述时间序列数据存在缺失值,则补齐该时间序列数据。
3.根据权利要求2所述的时间序列数据标注方法,其特征在于,获取所提取的时间序列特征的贡献度信息,具体包括:
通过所述Tsfresh获取所提取的时间序列特征的贡献度排名。
4.根据权利要求3所述的时间序列数据标注方法,其特征在于,根据所述贡献度信息对所述时间序列特征进行PCA降维,具体包括:
建立时间序列特征的相关系数矩阵;
计算所述相关系数矩阵的特征值和特征向量;
根据所述贡献度排名选择预设数量的特征向量;
根据所述预设数量的特征向量进行特征映射以实现特征降维。
5.根据权利要求4所述的时间序列数据标注方法,其特征在于,所述时间序列数据为工业领域数据,标注的标签包括异常标签和正常标签。
6.根据权利要求5所述的时间序列数据标注方法,其特征在于,通过IForest对降维后的时间序列特征进行标注,具体包括:
通过IForest确定多个降维后的时间序列特征中的被孤立特征和未被孤立特征;
在确认所述被孤立特征为异常特征后,为该被孤立特征打上异常标签;
在确认所述未被孤立特征为正常特征后,为该未被孤立特征打上正常标签。
7.一种时间序列数据标注装置,其特征在于,包括:
数据获取模块,所述数据获取模块用于获取多个时间序列数据,并对所述多个时间序列数据进行预处理;
特征提取模块,所述特征提取模块用于通过Tsfresh对预处理后的多个时间序列数据进行特征提取,并获取所提取的时间序列特征的贡献度信息;
特征降维模块,所述特征降维模块用于根据所述贡献度信息对所述时间序列特征进行PCA降维;
标注模块,所述标注模块用于通过IForest对降维后的时间序列特征进行标注。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时,实现根据权利要求1-6中任一项所述的时间序列数据标注方法。
9.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现根据权利要求1-6中任一项所述的时间序列数据标注方法。
10.一种计算机程序产品,其特征在于,当所述计算机程序产品中的指令由处理器执行时,执行根据权利要求1-6中任一项所述的时间序列数据标注方法。
CN202010928562.8A 2020-09-07 2020-09-07 时间序列数据标注方法和装置 Pending CN112070155A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010928562.8A CN112070155A (zh) 2020-09-07 2020-09-07 时间序列数据标注方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010928562.8A CN112070155A (zh) 2020-09-07 2020-09-07 时间序列数据标注方法和装置

Publications (1)

Publication Number Publication Date
CN112070155A true CN112070155A (zh) 2020-12-11

Family

ID=73663792

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010928562.8A Pending CN112070155A (zh) 2020-09-07 2020-09-07 时间序列数据标注方法和装置

Country Status (1)

Country Link
CN (1) CN112070155A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112819386A (zh) * 2021-03-05 2021-05-18 中国人民解放军国防科技大学 带有异常的时间序列数据生成方法、系统及存储介质
WO2022216599A1 (en) * 2021-04-05 2022-10-13 Nec Laboratories America, Inc. System for generating natural language comment texts for multi-variate time series
CN117131369A (zh) * 2023-10-27 2023-11-28 福建福昇消防服务集团有限公司 智慧安全管理与应急救援一体站的数据处理方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108898162A (zh) * 2018-06-08 2018-11-27 东软集团股份有限公司 一种数据标注方法、装置、设备及计算机可读存储介质
CN108985632A (zh) * 2018-07-16 2018-12-11 国网上海市电力公司 一种基于孤立森林算法的用电数据异常检测模型
CN109739904A (zh) * 2018-12-30 2019-05-10 北京城市网邻信息技术有限公司 一种时间序列的标记方法、装置、设备和存储介质
CN109991500A (zh) * 2019-04-29 2019-07-09 中国水电工程顾问集团有限公司 一种风电故障预警预测的方法
CN110210701A (zh) * 2019-04-23 2019-09-06 贵州电网有限责任公司 一种电网设备风险感知方法
CN110362612A (zh) * 2019-07-19 2019-10-22 中国工商银行股份有限公司 由电子设备执行的异常数据检测方法、装置和电子设备
CN111401507A (zh) * 2020-03-12 2020-07-10 大同公元三九八智慧养老服务有限公司 一种自适应决策树跌倒检测方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108898162A (zh) * 2018-06-08 2018-11-27 东软集团股份有限公司 一种数据标注方法、装置、设备及计算机可读存储介质
CN108985632A (zh) * 2018-07-16 2018-12-11 国网上海市电力公司 一种基于孤立森林算法的用电数据异常检测模型
CN109739904A (zh) * 2018-12-30 2019-05-10 北京城市网邻信息技术有限公司 一种时间序列的标记方法、装置、设备和存储介质
CN110210701A (zh) * 2019-04-23 2019-09-06 贵州电网有限责任公司 一种电网设备风险感知方法
CN109991500A (zh) * 2019-04-29 2019-07-09 中国水电工程顾问集团有限公司 一种风电故障预警预测的方法
CN110362612A (zh) * 2019-07-19 2019-10-22 中国工商银行股份有限公司 由电子设备执行的异常数据检测方法、装置和电子设备
CN111401507A (zh) * 2020-03-12 2020-07-10 大同公元三九八智慧养老服务有限公司 一种自适应决策树跌倒检测方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
庄周: "移动通信网络伪基站攻击取证算法的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑(月刊)电信技术》 *
田野: "基于用户用电量的异常检测方法研究", 《中国优秀硕士学位论文全文数据库 工程科技II辑(月刊)电力工业》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112819386A (zh) * 2021-03-05 2021-05-18 中国人民解放军国防科技大学 带有异常的时间序列数据生成方法、系统及存储介质
WO2022216599A1 (en) * 2021-04-05 2022-10-13 Nec Laboratories America, Inc. System for generating natural language comment texts for multi-variate time series
CN117131369A (zh) * 2023-10-27 2023-11-28 福建福昇消防服务集团有限公司 智慧安全管理与应急救援一体站的数据处理方法及系统
CN117131369B (zh) * 2023-10-27 2023-12-22 福建福昇消防服务集团有限公司 智慧安全管理与应急救援一体站的数据处理方法及系统

Similar Documents

Publication Publication Date Title
CN111931868B (zh) 时间序列数据异常检测方法和装置
CN112070155A (zh) 时间序列数据标注方法和装置
CN114065613B (zh) 基于深度迁移学习的多工况流程工业故障检测诊断方法
CN113884961B (zh) Soc校准方法、建模方法、建模装置、计算机设备及介质
CN109739904B (zh) 一种时间序列的标记方法、装置、设备和存储介质
EP2015186A2 (en) Diagnostic systems and methods for predictive condition monitoring
CN112070154A (zh) 时间序列数据处理方法和装置
CN108491861A (zh) 基于多源多参量融合的输变电设备状态异常模式识别方法及装置
CN117273489A (zh) 光伏状态评估方法及装置
CN117668684B (zh) 基于大数据分析的电网电能数据异常检测方法
CN110858072B (zh) 设备运行状态的确定方法及装置
CN113723861A (zh) 异常用电行为检测方法、装置、计算机设备和存储介质
CN111401420B (zh) 晶圆测试的异常数据聚类方法、装置、电子设备与介质
CN112882898B (zh) 基于大数据日志分析的异常检测方法、系统、设备及介质
Lall et al. Prognostication of Damage in Automotive Underhood Electronics Subjected to Temperature and Vibration
CN113792711A (zh) 端子板接线视觉检测方法和装置
CN113255771B (zh) 基于多维异构差异分析的故障诊断方法及系统
CN115238735A (zh) 异常点检测方法、装置及存储介质、电子设备
CN113378304A (zh) 一种车辆性能目标的确定方法、装置、存储介质及设备
US20200134480A1 (en) Apparatus and method for detecting impact factor for an operating environment
CN118376953B (zh) 负载点电源中断测试方法及系统
CN117558451B (zh) 一种基于大数据的神经损失程度评估方法
CN118194138B (zh) 一种承压设备损伤模式识别方法及系统
CN114580982B (zh) 一种工业设备的数据质量的评估方法、装置及设备
CN118378117B (zh) 基于数据采集的船舶数据实时智能分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201211