CN118013437A - 异常数据检测方法、装置、设备及存储介质及产品 - Google Patents

异常数据检测方法、装置、设备及存储介质及产品 Download PDF

Info

Publication number
CN118013437A
CN118013437A CN202410173195.3A CN202410173195A CN118013437A CN 118013437 A CN118013437 A CN 118013437A CN 202410173195 A CN202410173195 A CN 202410173195A CN 118013437 A CN118013437 A CN 118013437A
Authority
CN
China
Prior art keywords
data
abnormal
unlabeled
sample data
rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410173195.3A
Other languages
English (en)
Inventor
顾珺菲
吕严
吴晓
绳红磊
陈菲雨
李芸
王瑞
邱松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Zijin Jiangsu Innovation Research Institute Co ltd
China Mobile Communications Group Co Ltd
China Mobile Group Jiangsu Co Ltd
Original Assignee
China Mobile Zijin Jiangsu Innovation Research Institute Co ltd
China Mobile Communications Group Co Ltd
China Mobile Group Jiangsu Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Zijin Jiangsu Innovation Research Institute Co ltd, China Mobile Communications Group Co Ltd, China Mobile Group Jiangsu Co Ltd filed Critical China Mobile Zijin Jiangsu Innovation Research Institute Co ltd
Priority to CN202410173195.3A priority Critical patent/CN118013437A/zh
Publication of CN118013437A publication Critical patent/CN118013437A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/27Regression, e.g. linear or logistic regression

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种异常数据检测方法、装置、设备及存储介质及计算机程序产品,属于工业互联网技术领域。本申请基于多速率数据中的已标记数据和部分未标记数据,对预设的待训练模型进行迭代训练,并得到相应的异常数据预测模型,基于所述未标记数据的霍特林统计量和Q统计量,将对应的部分未标记数据迭代至标记数据,进而有效地将未标记数据和已标记数据充分结合利用,以响应多速率样本数据的稀缺,避免了数据出现异常值或过程漂移的情况时基于已标记数据建立的预测模型无法处理的情况,进而解决了对多速率数据进行异常数据检测时出现的检测误差较大的技术问题。

Description

异常数据检测方法、装置、设备及存储介质及产品
技术领域
本申请涉及工业互联网技术领域,尤其涉及一种异常数据检测方法、装置、设备及存储介质及计算机程序产品。
背景技术
生产过程中产生的数据通常通过传感器和自动化数据收集方案来收集,具有高频、复杂和高维度的特点。由于生产速度快,而完成质量检验程序所需的时间往往很长,质量测量也很困难,质量特性数据通常比过程数据稀缺,例如压力、温度等。质量特性数据在工程中通常称为多速率数据。用数据结构划分,可以将数据分为有标记的数据和无标记的数据。有标记的数据有类似质量特性测量结果的相应输出;无标记的数据没有相应的标签输出。
在处理这些数据时,当前技术通常采用叠加PLS进行异常数据预测的方式,通过组合标记和未标记数据来改善预测误差,进而确定异常的未标记数据。
但是,通过叠加PLS进行异常数据预测的方式进行数据处理时,是基于标记数据的模型来进行异常数据判别的,也即,在稀缺的多速率数据中,基于更加稀缺的标记数据来进行异常数据判别,这种序列依赖性会导致建模存在误差,这使得数据出现异常值或过程漂移的情况时该预测模型无法处理,进而使得异常数据的检测误差增加。
发明内容
本申请的主要目的在于提供一种异常数据检测方法、装置、设备及存储介质及计算机程序产品,旨在解决对多速率数据进行异常数据检测时出现的检测误差较大的技术问题。
为实现上述目的,本申请提供一种异常数据检测方法,所述异常数据检测方法包括以下步骤:
接收质量检测设备输出的多速率数据,其中,所述多速率数据包括已标记数据和未标记数据;
基于预设的异常数据预测模型对所述多速率数据进行异常识别处理,以得到多速率数据中的异常数据;
其中,所述异常数据预测模型是基于多速率数据中的标记数据和部分未标记数据,对预设的待训练模型进行迭代训练得到的,其中,所述部分未标记数据根据相应未标记数据样本对应的霍特林统计量和Q统计量确定。
可选地,所述基于预设的异常数据预测模型对所述多速率数据进行异常识别处理,以得到多速率数据中的异常数据的步骤之前,包括:
获取质量检测设备发出的多速率样本数据;
基于多速率样本数据中的当前已标记样本数据,计算多速率样本数据中的当前未标记样本数据对应的霍特林统计量和Q统计量;
基于所述当前未标记样本数据对应的霍特林统计量和Q统计量,综合运算得出当前未标记数据对应的相关性特征值,其中,所述相关性特征值用于量化所述当前未标记数据与当前已标记数据间的相似度;
基于预设的相关性标准,从所述当前未标记样本数据中提取所述相关性特征值符合所述相关性标准的非异常样本数据,并将所述非异常样本数据与当前已标记样本数据合并为新的已标记样本数据,将处理后的未标记样本数据更新为新的未标记样本数据;
基于所述新的已标记样本数据,计算新的未标记样本数据对应的相关性特征值;
判断所述新的未标记样本数据对应的相关性特征值是否满足所述相关性标准,若该相关性特征值符合所述预设的相关性标准,则返回基于预设的相关性标准,从所述当前未标记样本数据中提取所述相关性特征值符合所述相关性标准的非异常样本数据,并将所述非异常样本数据与当前已标记样本数据合并为新的已标记样本数据,将处理后的未标记样本数据更新为新的未标记样本数据的步骤,直至所述新的未标记样本数据对应的相关性特征值无法符合所述预设的相关性标准,得到所述异常数据预测模型,其中,所述预设的相关性标准确定了停止对该模型进行迭代训练的时机,使得本地可以避免由于对模型过度迭代导致的过拟合现象。
可选地,所述基于预设的相关性标准,从所述当前未标记样本数据中提取所述相关性特征值符合所述相关性标准的非异常样本数据,并将所述非异常样本数据与当前已标记样本数据合并为新的已标记样本数据,将处理后的未标记样本数据更新为新的未标记样本数据的步骤,包括:
基于每一个所述当前未标记数据对应的相关性特征值,将各所述当前未标记数据按其对应的相关性特征值大小进行排序;
选择所述当前未标记样本数据对应的相关性特征值最接近所述预设的相关性标准的第一个未标记样本数据,所述第一个未标记样本数据为所述非异常样本数据。
可选地,所述基于每一个所述当前未标记数据对应的相关性特征值,将各所述当前未标记数据按其对应的相关性特征值大小进行排序的步骤之后,包括:
显示所述当前未标记数据对应的相关性特征值,以使所述迭代训练过程可以被人工监督。
可选地,所述异常数据预测模型为一种半监督主成分回归和可视化模型,所述霍特林统计量用于监督该模型的主成分子空间,所述Q统计量用于监督该模型的残差空间,以使所述迭代训练性能可以被人工监督。
可选地,所述基于预设的异常数据预测模型对所述多速率数据进行异常识别处理,以得到多速率数据中的异常数据的步骤之后,包括:
基于预设的强化学习主成分回归模型,将工业环境信息和异常数据输入所述强化学习主成分回归模型,以得到对所述异常数据的最佳处理方法。
此外,为实现上述目的,本申请还提供一种异常数据检测装置,所述异常数据检测装置包括:
多速率数据获取模块,用于接收质量检测设备发出的多速率数据,其中,所述多速率数据包括标记数据和未标记数据,所述标记数据和未标记数据基于数据结构区分;
异常数据检测模块,用于基于异常数据预测模型,对所述多速率数据进行处理,以得到多速率数据中的异常数据,其中,所述异常数据预测模型是基于多速率数据中的未标记数据相较于标记数据的相关性特征,对预设的待训练模型进行迭代训练得到的。
此外,为实现上述目的,本申请还提供一种异常数据检测设备,所述异常数据检测设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的异常数据检测程序,所述异常数据检测程序配置为实现如上所述的异常数据检测方法的步骤。
此外,为实现上述目的,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有异常数据检测程序,所述异常数据检测程序被处理器执行时实现如上所述的异常数据检测方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机程序产品,所述计算机程序产品包括异常数据检测程序,所述异常数据检测程序被处理器执行时实现如上文所述的异常数据检测方法的步骤。
本申请提供一种异常数据检测方法、装置、设备及存储介质及计算机程序产品,相较于通过叠加PLS进行异常数据预测的方式进行数据处理,本申请基于多速率数据中的已标记数据和部分未标记数据,对预设的待训练模型进行迭代训练,并得到相应的异常数据预测模型,基于所述未标记数据的霍特林统计量和Q统计量,将对应的部分未标记数据迭代至标记数据,进而有效地将未标记数据和已标记数据充分结合利用,以响应多速率样本数据的稀缺,避免了数据出现异常值或过程漂移的情况时基于已标记数据建立的预测模型无法处理的情况,进而解决了对多速率数据进行异常数据检测时出现的检测误差较大的技术问题。
附图说明
图1为本申请异常数据检测方法第一实施例的流程示意图;
图2为本申请异常数据检测方法第二实施例的流程示意图;
图3为本申请异常数据检测装置一实施例的结构框图;
图4为本申请实施例方案涉及的硬件运行环境的设备结构示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,图1为本申请异常数据检测方法第一实施例的流程示意图。
在第一实施例中,所述异常数据检测方法包括以下步骤:
步骤S10:接收质量检测设备发出的多速率数据,其中,所述多速率数据包括标记数据和未标记数据,所述标记数据和未标记数据基于数据结构区分;
步骤S20:基于异常数据预测模型,对所述多速率数据进行处理,以得到多速率数据中的异常数据;
其中,所述异常数据预测模型是基于多速率数据中的未标记数据相较于标记数据的相关性特征,对预设的待训练模型进行迭代训练得到的。
本实施例对应的应用场景可以是:在工业生产过程中产生的数据通常通过传感器和自动化数据收集方案来收集,具有高频、复杂和高维度的特点。由于生产速度快,而完成质量检验程序所需的时间往往很长,质量测量也很困难,质量特性数据通常比过程数据稀缺,例如压力、温度等。质量特性数据的输入和输出是在不同频率下收集的,输入通常是相同频率下的样本,在工程中通常称为多速率数据。用数据结构划分,可以将数据分为有标记的数据和无标记的数据。有标记的数据有类似质量特性测量结果的相应的标签输出;无标记的数据没有相应的标签输出。工业生产中,需要一种简单的异常数据检测程序,对所述多维度的质量特性数据进行可视化的直观处理,异常数据检测装置需要在稀缺的质量特性数据中检测出异常数据。
在本实施例中,所述异常数据检测方法应用于异常数据检测装置,所述异常数据监测装置应用于异常数据检测系统。
具体步骤如下:
步骤S10:
接收质量检测设备发出的多速率数据,其中,所述多速率数据包括标记数据和未标记数据,所述标记数据和未标记数据基于数据结构区分。
需要说明的是,所述多速率数据为工业生产过程中由质量检测设备处理并生成的质量特性数据(例如声音、图像、振动信号等数据),应理解,由于工业生产的速度与质量检测程序完整运行的速度相比,速度更快,使得异常数据检测装置得到的质量特性数据不仅数据量稀少,质量特性数据中还含有未携带质量特性标签的未标记数据,这使得工业系统无法判断这些未标记的数据属于何种质量特征,进而使得无法有效地将异常的质量特性数据检测出来,例如,质量检测设备在收集一根气体输送管道的特征数据时,向异常数据检测装置传输了一组压强相关的质量特性数据和一组温度相关的质量特性数据,其中压强相关的数据有3个,其中携带压强特征标签的数据有1个(例如30MPa),其他2个数据未携带压强特征标签(例如35、70),温度相关的数据有4个,其中携带温度特征标签的数据有2个(例如70摄氏度、68摄氏度),未携带温度特征标签的数据有2个(例如36、72),可以理解,若将2个未携带压强特征标签的数据和2个未携带温度特征标签的数据放置在一起(例如35、70、36、72),是无法直接分辨出哪一个数据是与压强相关数据(或是温度相关数据)一组,并被质量检测装置传输至异常数据检测装置的,进而也就无法判断哪些数据属于异常数据了。
可以理解,在质量特性稀少且同时还包含未标记数据的情况下,若要检测出其中的异常数据,就需要一种预置的异常数据预测模型来对数据进行处理,且由于应用场景通常在工业生产过程中,该模型算法还应该简单并且可视,以实现在预测性能得以保证的前提下,减少工业系统的运算资源,并且可以使操作人员直观地筛选出异常数据。
步骤S20:
基于异常数据预测模型,对所述多速率数据进行处理,以得到多速率数据中的异常数据;
其中,所述异常数据预测模型是基于多速率数据中的未标记数据相较于标记数据的相关性特征,对预设的待训练模型进行迭代训练得到的。
需要说明的是,本实施例基于一种异常数据预测模型,对异常数据监测装置接收到的若干质量特性数据进行预测处理,通过将质量特性数据中的未标记数据的多维度特征简化未标记数据的霍特林统计量和Q统计量两个指标对数据是否异常进行判断。
先就霍特林统计量这一指标进行说明,所述霍特林统计量用于评价数据间的距离关系,例如,一组压强相关的特性数据(例如,30MPa、35、70)和一组温度相关的特性数据(例如、70摄氏度、68摄氏度、36、72)中,由于所述压强相关的特性数据通常是由质量检测装置中的压强传感器处理得到的(同样的,所述温度相关的特性数据通常是由质量检测装置中的温度传感器处理得到的),这些质量特性数据可以以数据集的形式传输至异常数据检测装置,可以理解,从数据间的距离角度分析,由于压强相关的特性数据存于一组数据集中,所以该特性数据中的未标记数据(即35和70),相较于该特性数据中的标记数据(即30MPa)的距离,将小于温度相关的特性数据中的未标记数据(即36和72)相较于该也行数据中的标记数据(即30MPa)的距离(同样的,由于温度相关的特性数据存于一组数据集中,所以该特性数据中的未标记数据(即36和72),相较于该特性数据中的标记数据(即70摄氏度和68摄氏度)的距离,将小于压强相关的特性数据中的未标记数据(即35和70)相较于该也行数据中的标记数据(即即70摄氏度和68摄氏度)的距离)。
需要说明的是,本实施例采用的异常数据预测模型,可以将各数据集中的标记数据归于一个主成分子空间中,将各数据集中的未标记数据归于一个残差空间中,可以理解为一种数据矩阵形式:例如,
可以理解若不以分区的形式来对各数据集进行处理,而是各组数据集放置于一行(或是一列),那么将无法有效的考量数据间的距离指标,例如,若所述压强相关的质量特性数据和温度相关的质量特性数据以{30MPa,35,70,70摄氏度,68摄氏度,36,72}的行形式排列,那么未标记数据(例如70)与标记数据(例如,70摄氏度)间的数据距离明显小于未标记数据(例如70)鱼标记数据(例如30MPa)间的距离,但实际上该未标记数据是属于压强相关的质量特性数据的,因此以这种形式来对数据进行排列处理,会使得考量数据间距离时出现严重错误。
与之相对的,以本实施例举例的,以主成分子空间和残差子空间的形式来对数据进行分类,例如本实施例举例说明的数据矩阵形式可以理解,基于该形式可以有效地考量未标记数据与标记数据间的距离指标,例如,认为未标记数据(例如35)距离标记数据(例如30MPa)的距离为1,而未标记数据(例如35)距离标记数据(例如68℃)的距离为/>显然,在数据距离的对比之下,未标记数据(例如35)与标记数据(例如30MPa)位于同一组质量特性数据中。
现对另一指标,即Q统计量来进行说明,所述Q统计量用于评价数据间的变异程度,也即异质性,具体地,通过计算标记数据与未标记数据间的二次正交距离,来确定数据间的异质性,可以理解为两数据差值的平方,例如,本实施例用以举例说明的两组质量特性数据,其中,未标记数据1(例如35)与标记数据1(例如30MPa)的差值的平方结果为25,未标记数据2(例如70)与标记数据1(例如30MPa)的差值的平方结果为1600,相比之下,所述未标记数据2与标记数据1的差值的平方结果显然更大,也即,相较于未标记数据1,未标记数据2的变异程度更明显,则该数据被认为可能是异常的。
需要理解的是,实际工业系统中产生的质量特性数据不止本实施例提到的两组,且每组特性数据包含的数据量不止本实施例提到的3或4个,本实施例仅以此情形进行举例说明,而非做出限定。
本申请提供一种异常数据检测方法、装置、设备及存储介质及计算机程序产品,相较于通过叠加PLS进行异常数据预测的方式进行数据处理,本申请基于多速率数据中的已标记数据和部分未标记数据,对预设的待训练模型进行迭代训练,并得到相应的异常数据预测模型,基于所述未标记数据的霍特林统计量和Q统计量,将对应的部分未标记数据迭代至标记数据,进而有效地将未标记数据和已标记数据充分结合利用,以响应多速率样本数据的稀缺,避免了数据出现异常值或过程漂移的情况时基于已标记数据建立的预测模型无法处理的情况,进而解决了对多速率数据进行异常数据检测时出现的检测误差较大的技术问题。
参照图2,图2为本申请异常数据检测方法第二实施例的流程示意图。
在第二实施例中,包含以下步骤:
步骤A10:获取质量检测设备发出的多速率样本数据;
步骤A20:基于多速率样本数据中的当前已标记样本数据,计算多速率样本数据中的当前未标记样本数据对应的霍特林统计量和Q统计量;
步骤A30:基于所述当前未标记样本数据对应的霍特林统计量和Q统计量,综合运算得出当前未标记数据对应的相关性特征值,其中,所述相关性特征值用于量化所述当前未标记数据与当前已标记数据间的相似度;
步骤A40:基于预设的相关性标准,从所述当前未标记样本数据中提取所述相关性特征值符合所述相关性标准的非异常样本数据,并将所述非异常样本数据与当前已标记样本数据合并为新的已标记样本数据,将处理后的未标记样本数据更新为新的未标记样本数据;
步骤A50:基于所述新的已标记样本数据,计算新的未标记样本数据对应的相关性特征值;
步骤A60:判断所述新的未标记样本数据对应的相关性特征值是否满足所述相关性标准,若该相关性特征值符合所述预设的相关性标准,则返回基于预设的相关性标准,从所述当前未标记样本数据中提取所述相关性特征值符合所述相关性标准的非异常样本数据,并将所述非异常样本数据与当前已标记样本数据合并为新的已标记样本数据,将处理后的未标记样本数据更新为新的未标记样本数据的步骤,直至所述新的未标记样本数据对应的相关性特征值无法符合所述预设的相关性标准,得到所述异常数据预测模型,其中,所述预设的相关性标准确定了停止对该模型进行迭代训练的时机,使得本地可以避免由于对模型过度迭代导致的过拟合现象。
本实施例的应用场景可以是:受限于在工业流程中完成质量检测所需的时间,质量特性数据通常是稀缺的,因此若以本就稀缺的质量特性数据中的标记数据为标准进行异常数据的预测,将会由于标记数据的稀缺性导致预测模型不准确,也即异常数据检测的程序无法有效地将稀缺的标记数据间的共同特征确定下来,进而使得未标记数据中不符合预期的异常数据无法被有效检测出来,或是未标记数据中符合预期的非异常数据被当作异常数据来处理,导致工业生产性能不能得以保证,并且受限于质量特性数据的复杂、高维度以及高频的特点,数据的串行独立性不能得以保证,即标记数据与未标记数据间有着很强的自相关性,使得在以标记数据为标准进行异常数据预测时,由于未标记数据与标记数据间自相关,使得不符合预期的异常数据不能被有效检测出。
需要理解的是,本实施例针对工业生产中产生的未标记多速率数据的异常值,提出了一种迭代策略。未标记的多速率数据通常出现在不同传感器,也即质量检测设备,由于传感器类型不同导致的采样率、精度和滞后方面存在误差。每当期望不同速率的系统必须使用一种速率的信号时,就必须提高或降低速率,并且需要进行一些处理来执行此操作。该策略基于工业过程监控中常用的主成分分析模型(PCA)中的霍特林统计量和Q统计数据的组合,并使用所选数据构建半监督主成分回归和可视化模型进行预测和优化性能。
需要强调的是,该方案的主要迭代策略是向标记数据集迭代添加一些临近标记数据集的未标记数据。这导致距离标记数据较远或太近的未标记数据就不会被选择。当所有新的未标记数据对应的相关特征值无法符合预设的相关性标准时,算法停止。
本实施例的宗旨是:通过迭代引入未标记的数据和模型可视化,更好理解输入预测变量的整体变化,将模型的预测误差降到最低。
本实施例的灵感来自于现场工业制造环境,现实工业生产中产生的标记数据通常很少,但未标记数据非常多。这种情况需要进行高精度预测。而半监督主成分回归混合可视化模型方法实施与标准主成分回归和偏最小二乘回归相比,处理数据采用降维来响应样本稀缺,也即将未标记数据以霍特林统计量和Q统计量两个数值来进行评价,并采用可视化方案进行监督,保障更直观确认异常值的检测,并且不需要任何额外的软件或编码,在工业应用场景中非常便利。
需要说明的是,该方案的半监督主成分回归方法的公式如下:
令多元线性回归模型为:
v=Dβ+ξ
其中,v是具有m个样本的响应变量,D是大小为m*n的预测变量矩阵,β是n个回归系数的列向量,ξ是误差项,通常假设与均值0和常数方差σ2的正态分布独立同分布。
令预测器的主成分为:
F=DL
其中,F是大小为m*n的分数矩阵,L是维度为n*n的加载矩阵。
将预测变量D(m*n)分为D1(m1*n)和D2(m2*n),其中m1+m2=m。响应v的维度为m1*1,与D1一起定义标记数据集,而D2是未标记数据集。
L矩阵使用整个预测变量数据D计算,并且LL‘=I,因此是正交矩阵。D1β可以表示为:
其中因此半监督主成分回归方法可表示为:
其中来自主成分回归的预测变量D1被F1替换,并且使用总预测变量矩阵D的负载构建误差值。
半监督主成分回归方法对于潜在成分的估计也是建模过程的一个重要方面。因此本方案使用具有交叉验证的预测均方根误差进行潜在成分的估计。交叉验证的预测均方根误差公式如下所示:
其中,标记数据被随机划分为大小近似相等的λ段Lj是样本i的预测值的单变量向量,m是样本总数。由于与响应无关,半监督主成分回归方法模型在交叉验证中的λ折叠时,是使用相应的λ折叠标记数据以及整个初始未标记数据构建的。
为了令潜在分量的选择基于预测能力,选择潜在分量的最佳数量的方式为交叉验证的预测均方根误差最小化。因此对于大型数据集,使用5倍或10倍交叉验证。
该方案的迭代策略方法为:使用标记数据中的信息确定未标记数据空间中异常值。这种方案具体体现为一旦为预测变量空间D建立了主成分分析模型,该空间就可以分为两个子空间,即基于保留主成分的主成分子空间和残差子空间。然后构建一个控制图来监控基于主成分子空间的霍特林统计量和残差空间的Q统计量或平方预测误差的过程。
详情如下:
霍特林统计量是半监督主成分分析模型空间中的d∈D马哈拉诺比斯距离,公式为:
其中是平均值,Aλ是对角矩阵,/>为:
在这种情况下,由于迭代策略的最终目的是预测,因此响应也用于确定最佳潜在空间。
该方案假设分数的时间独立性和多元正态性,定义100(1-α)%控制上限来实时监测霍特林统计量,公式为:
其中m表示样本数,Fλ,m-λ(α)是具有λ和自由度m-λ的F分布的100(1-α)%。
Q统计量是半监督主成分分析模型的二次正交距离,公式为:
该方案假设分数的时间独立性和多元正态性,与100(1-α)%相对应的几个控制上限公式为:
其中,
Fα是标准正态分布的100(1-α)%。
为了防止数据中存在异常值或观测值数量较少时算法容易出错的情况。Q统计量的另一个限制是基于加权χ2分布并,公式为:
其中
如果迭代过程在正常操作条件下,没有受到异常干扰,霍特林统计量和Q统计量都将具有较低值。那么这些统计数据的相对较大的值可以与数据中的异常值相关联。
本方案将霍特林统计量和Q统计量进行组合计算,这使得方案可以在未标记的数据空间中进行异常值检测;并且一个统计数据比两个统计数据更容易处理,在工业场景中更适用。这里推出一种未标记数据对应的相关性特征值以及一种相关性标准,所述相关性标准跨越0到1,既包括统计量,也包括极限值。组合计算的限制公式定义如下:
如果HQ‘统计量接近1,则该点远离半监督主成分分析模型,表明可能存在异常值。这种方法通过设定0到1的有限范围,可以更容易地解释、识别和以图形方式显示异常值相对于正常过程数据的位置。
具体步骤如下:
步骤A10:
获取质量检测设备发出的多速率样本数据。
获取包括各种类型的数据,如声音、图像、振动信号等。标记数据集{D1,v1},未标记数据集{D2}。从{D1,v1}构建半监督主成分分析模型。使用交叉验证的预测均方根误差确定组件数量λ。初始化D1‘←D1,D’2←D2
步骤A20:
基于多速率样本数据中的当前已标记样本数据,计算多速率样本数据中的当前未标记样本数据对应的霍特林统计量和Q统计量。
对于每个未标记的数据样本,定义d2∈D2‘,根据D1‘计算霍特林统计量和Q统计量。
步骤A30:
基于所述当前未标记样本数据对应的霍特林统计量和Q统计量,综合运算得出当前未标记数据对应的相关性特征值,其中,所述相关性特征值用于量化所述当前未标记数据与当前已标记数据间的相似度。
基于每个未标记数据样本的霍特林统计量和Q统计量,综合计算出每个未标记数据样本的HQ‘值,并HQ‘值将按降序重新排列值,基于此,将每个未标记数据同步进行排序。
步骤A40:
基于预设的相关性标准,从所述当前未标记样本数据中提取所述相关性特征值符合所述相关性标准的非异常样本数据,并将所述非异常样本数据与当前已标记样本数据合并为新的已标记样本数据,将处理后的未标记样本数据更新为新的未标记样本数据。
选择HQ‘值最小的第一个未标记数据样本a,基于所述未标记数据样本a,创建更新数据集{Dw},将所述更新数据集{Dw}写入标记数据样本集{D1‘},并更新当前的标记数据样本集,D1‘←{D1‘+Dw},同时更新当前的未标记数据样本集,D2‘←{D2‘-Dw}。
步骤A50:
基于所述新的已标记样本数据,计算新的未标记样本数据对应的相关性特征值。
对于每个未标记的数据样本,定义d2∈D2‘,根据D1‘计算霍特林统计量和Q统计量,并基于每个未标记数据样本的霍特林统计量和Q统计量,综合计算出每个未标记数据样本的HQ‘值,并HQ‘值将按降序重新排列值,基于此,将每个未标记数据同步进行排序。
步骤A60:
判断所述新的未标记样本数据对应的相关性特征值是否满足所述相关性标准,若该相关性特征值符合所述预设的相关性标准,则返回基于预设的相关性标准,从所述当前未标记样本数据中提取所述相关性特征值符合所述相关性标准的非异常样本数据,并将所述非异常样本数据与当前已标记样本数据合并为新的已标记样本数据,将处理后的未标记样本数据更新为新的未标记样本数据的步骤,直至所述新的未标记样本数据对应的相关性特征值无法符合所述预设的相关性标准,得到所述异常数据预测模型,其中,所述预设的相关性标准确定了停止对该模型进行迭代训练的时机,使得本地可以避免由于对模型过度迭代导致的过拟合现象。
基于所述新的标记数据样本和新的为标记数据样本,判断模型迭代训练过程中,迭代训练是否将统计量保持相等并达到极限,即若判断为否,则返回步骤A20,直至迭代训练将统计量保持相等并达到极限,需要说明的是,随着收集更多数据,λ也会重新估计。
更新D1。以此确定出工业互联网的异常多速率数据。
此外,随着生产过程的推进,数据的分布可能会发生变化。因此本方案将半监督主成分回归混合可视化模型动态地进行更新,以适应数据的变化,增强模型的鲁棒性。而对于那些被认为是异常值的数据,除了使用半监督主成分回归混合可视化模型的方法外,还使用强化学习进行优化。具体来说,可以设计一个智能体(agent),让它通过与环境的交互来学习如何更好地处理异常值。例如,智能体可以选择忽略某个异常值,也可以选择修正它,或者将它作为新的正常值添加到数据集中。通过反复试验和学习,智能体最终可以学会如何以最佳的方式处理异常值。
此外,本申请实施例还提出一种异常数据检测装置,所述异常数据检测装置包括:
多速率数据获取模块,用于接收质量检测设备输出的多速率数据,其中,所述多速率数据包括已标记数据和未标记数据;
异常数据检测模块,用于基于预设的异常数据预测模型对所述多速率数据进行异常识别处理,以得到多速率数据中的异常数据;
其中,所述异常数据预测模型是基于多速率数据中的标记数据和部分未标记数据,对预设的待训练模型进行迭代训练得到的,其中,所述部分未标记数据根据相应未标记数据样本对应的霍特林统计量和Q统计量确定。
本实施例通过获取质量检测设备的质量特性数据,并根据质量特性数据,基于异常数据预测模型,对质量特性数据进行异常数据识别,并得到所述异常数据。
需要说明的是,上述装置中的各模块可用于实现上述方法中的各个步骤,同时达到相应的技术效果,本实施例在此不再赘述。
参照图4,图4为本申请实施例方案涉及的硬件运行环境的设备的结构示意图。
如图4所示,该设备可以包括:处理器1001,例如CPU,通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图4中示出的结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图4所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及异常数据检测程序。
在图4所示的设备中,网络接口1004主要用于与外部网络进行数据通信;用户接口1003主要用于接收用户的输入指令;所述设备通过处理器1001调用存储器1005中存储的异常数据检测程序,并执行以下操作:
接收质量检测设备输出的多速率数据,其中,所述多速率数据包括已标记数据和未标记数据;
基于预设的异常数据预测模型对所述多速率数据进行异常识别处理,以得到多速率数据中的异常数据;
其中,所述异常数据预测模型是基于多速率数据中的标记数据和部分未标记数据,对预设的待训练模型进行迭代训练得到的,其中,所述部分未标记数据根据相应未标记数据样本对应的霍特林统计量和Q统计量确定。
进一步地,处理器1001可以调用存储器1005中存储的异常数据检测程序,还执行以下操作:
获取质量检测设备发出的多速率样本数据;
基于多速率样本数据中的当前已标记样本数据,计算多速率样本数据中的当前未标记样本数据对应的霍特林统计量和Q统计量;
基于所述当前未标记样本数据对应的霍特林统计量和Q统计量,综合运算得出当前未标记数据对应的相关性特征值,其中,所述相关性特征值用于量化所述当前未标记数据与当前已标记数据间的相似度;
基于预设的相关性标准,从所述当前未标记样本数据中提取所述相关性特征值符合所述相关性标准的非异常样本数据,并将所述非异常样本数据与当前已标记样本数据合并为新的已标记样本数据,将处理后的未标记样本数据更新为新的未标记样本数据;
基于所述新的已标记样本数据,计算新的未标记样本数据对应的相关性特征值;
判断所述新的未标记样本数据对应的相关性特征值是否满足所述相关性标准,若该相关性特征值符合所述预设的相关性标准,则返回基于预设的相关性标准,从所述当前未标记样本数据中提取所述相关性特征值符合所述相关性标准的非异常样本数据,并将所述非异常样本数据与当前已标记样本数据合并为新的已标记样本数据,将处理后的未标记样本数据更新为新的未标记样本数据的步骤,直至所述新的未标记样本数据对应的相关性特征值无法符合所述预设的相关性标准,得到所述异常数据预测模型,其中,所述预设的相关性标准确定了停止对该模型进行迭代训练的时机,使得本地可以避免由于对模型过度迭代导致的过拟合现象。
进一步地,处理器1001可以调用存储器1005中存储的异常数据检测程序,还执行以下操作:
基于每一个所述当前未标记数据对应的相关性特征值,将各所述当前未标记数据按其对应的相关性特征值大小进行排序;
选择所述当前未标记样本数据对应的相关性特征值最接近所述预设的相关性标准的第一个未标记样本数据,所述第一个未标记样本数据为所述非异常样本数据。
进一步地,处理器1001可以调用存储器1005中存储的异常数据检测程序,还执行以下操作:
显示所述当前未标记数据对应的相关性特征值,以使所述迭代训练过程可以被人工监督。
进一步地,处理器1001可以调用存储器1005中存储的异常数据检测程序,还执行以下操作:
所述异常数据预测模型为一种半监督主成分回归和可视化模型,所述霍特林统计量用于监督该模型的主成分子空间,所述Q统计量用于监督该模型的残差空间,以使所述迭代训练性能可以被人工监督。
进一步地,处理器1001可以调用存储器1005中存储的异常数据检测程序,还执行以下操作:
基于预设的强化学习主成分回归模型,将工业环境信息和异常数据输入所述强化学习主成分回归模型,以得到对所述异常数据的最佳处理方法。
本实施例提供一种异常数据检测方法、装置、设备及存储介质及计算机程序产品,相较于通过叠加PLS进行异常数据预测的方式进行数据处理,本申请基于多速率数据中的已标记数据和部分未标记数据,对预设的待训练模型进行迭代训练,并得到相应的异常数据预测模型,基于所述未标记数据的霍特林统计量和Q统计量,将对应的部分未标记数据迭代至标记数据,进而有效地将未标记数据和已标记数据充分结合利用,以响应多速率样本数据的稀缺,避免了数据出现异常值或过程漂移的情况时基于已标记数据建立的预测模型无法处理的情况,进而解决了对多速率数据进行异常数据检测时出现的检测误差较大的技术问题。
此外,本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有异常数据检测程序,所述异常数据检测程序被处理器执行时实现如下操作:
获取质量检测设备发出的多速率样本数据;
基于多速率样本数据中的当前已标记样本数据,计算多速率样本数据中的当前未标记样本数据对应的霍特林统计量和Q统计量;
基于所述当前未标记样本数据对应的霍特林统计量和Q统计量,综合运算得出当前未标记数据对应的相关性特征值,其中,所述相关性特征值用于量化所述当前未标记数据与当前已标记数据间的相似度;
基于预设的相关性标准,从所述当前未标记样本数据中提取所述相关性特征值符合所述相关性标准的非异常样本数据,并将所述非异常样本数据与当前已标记样本数据合并为新的已标记样本数据,将处理后的未标记样本数据更新为新的未标记样本数据;
基于所述新的已标记样本数据,计算新的未标记样本数据对应的相关性特征值;
判断所述新的未标记样本数据对应的相关性特征值是否满足所述相关性标准,若该相关性特征值符合所述预设的相关性标准,则返回基于预设的相关性标准,从所述当前未标记样本数据中提取所述相关性特征值符合所述相关性标准的非异常样本数据,并将所述非异常样本数据与当前已标记样本数据合并为新的已标记样本数据,将处理后的未标记样本数据更新为新的未标记样本数据的步骤,直至所述新的未标记样本数据对应的相关性特征值无法符合所述预设的相关性标准,得到所述异常数据预测模型,其中,所述预设的相关性标准确定了停止对该模型进行迭代训练的时机,使得本地可以避免由于对模型过度迭代导致的过拟合现象。
本实施例提供一种异常数据检测方法、装置、设备及存储介质及计算机程序产品,相较于通过叠加PLS进行异常数据预测的方式进行数据处理,本申请基于多速率数据中的已标记数据和部分未标记数据,对预设的待训练模型进行迭代训练,并得到相应的异常数据预测模型,基于所述未标记数据的霍特林统计量和Q统计量,将对应的部分未标记数据迭代至标记数据,进而有效地将未标记数据和已标记数据充分结合利用,以响应多速率样本数据的稀缺,避免了数据出现异常值或过程漂移的情况时基于已标记数据建立的预测模型无法处理的情况,进而解决了对多速率数据进行异常数据检测时出现的检测误差较大的技术问题。
需要说明的是,上述计算机可读存储介质被处理器执行时还可实现上述方法中的各个步骤,同时达到相应的技术效果,本实施例在此不再赘述。
此外,本发明实施例还提出一种计算机程序产品,包括异常数据检测程序,所述异常数据检测程序被处理器执行时实现如上所述的异常数据检测方法的步骤。
本发明计算机程序产品具体实施方式与上述异常数据检测方法各实施例基本相同,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种异常数据检测方法,其特征在于,所述异常数据检测方法包括以下步骤:
接收质量检测设备输出的多速率数据,其中,所述多速率数据包括已标记数据和未标记数据;
基于预设的异常数据预测模型对所述多速率数据进行异常识别处理,以得到多速率数据中的异常数据;
其中,所述异常数据预测模型是基于多速率数据中的标记数据和部分未标记数据,对预设的待训练模型进行迭代训练得到的,其中,所述部分未标记数据根据相应未标记数据样本对应的霍特林统计量和Q统计量确定。
2.如权利要求1所述的异常数据检测方法,其特征在于,所述基于预设的异常数据预测模型对所述多速率数据进行异常识别处理,以得到多速率数据中的异常数据的步骤之前,包括:
获取质量检测设备发出的多速率样本数据;
基于多速率样本数据中的当前已标记样本数据,计算多速率样本数据中的当前未标记样本数据对应的霍特林统计量和Q统计量;
基于所述当前未标记样本数据对应的霍特林统计量和Q统计量,综合运算得出当前未标记数据对应的相关性特征值,其中,所述相关性特征值用于量化所述当前未标记数据与当前已标记数据间的相似度;
基于预设的相关性标准,从所述当前未标记样本数据中提取所述相关性特征值符合所述相关性标准的非异常样本数据,并将所述非异常样本数据与当前已标记样本数据合并为新的已标记样本数据,将处理后的未标记样本数据更新为新的未标记样本数据;
基于所述新的已标记样本数据,计算新的未标记样本数据对应的相关性特征值;
判断所述新的未标记样本数据对应的相关性特征值是否满足所述相关性标准,若该相关性特征值符合所述预设的相关性标准,则返回基于预设的相关性标准,从所述当前未标记样本数据中提取所述相关性特征值符合所述相关性标准的非异常样本数据,并将所述非异常样本数据与当前已标记样本数据合并为新的已标记样本数据,将处理后的未标记样本数据更新为新的未标记样本数据的步骤,直至所述新的未标记样本数据对应的相关性特征值无法符合所述预设的相关性标准,得到所述异常数据预测模型,其中,所述预设的相关性标准确定了停止对该模型进行迭代训练的时机,使得本地可以避免由于对模型过度迭代导致的过拟合现象。
3.如权利要求2所述的异常数据检测方法,其特征在于,所述基于预设的相关性标准,从所述当前未标记样本数据中提取所述相关性特征值符合所述相关性标准的非异常样本数据,并将所述非异常样本数据与当前已标记样本数据合并为新的已标记样本数据,将处理后的未标记样本数据更新为新的未标记样本数据的步骤,包括:
基于每一个所述当前未标记数据对应的相关性特征值,将各所述当前未标记数据按其对应的相关性特征值大小进行排序;
选择所述当前未标记样本数据对应的相关性特征值最接近所述预设的相关性标准的第一个未标记样本数据,所述第一个未标记样本数据为所述非异常样本数据。
4.如权利要求3所述的异常数据检测方法,其特征在于,所述基于每一个所述当前未标记数据对应的相关性特征值,将各所述当前未标记数据按其对应的相关性特征值大小进行排序的步骤之后,包括:
显示所述当前未标记数据对应的相关性特征值,以使所述迭代训练过程可以被人工监督。
5.如权利要求1所述的异常数据检测方法,其特征在于,所述异常数据预测模型为一种半监督主成分回归和可视化模型,所述霍特林统计量用于监督该模型的主成分子空间,所述Q统计量用于监督该模型的残差空间,以使所述迭代训练性能可以被人工监督。
6.如权利要求1所述的异常数据检测方法,其特征在于,所述基于预设的异常数据预测模型对所述多速率数据进行异常识别处理,以得到多速率数据中的异常数据的步骤之后,包括:
基于预设的强化学习主成分回归模型,将工业环境信息和异常数据输入所述强化学习主成分回归模型,以得到对所述异常数据的最佳处理方法。
7.一种异常数据检测装置,其特征在于,所述数据处理装置包括:
多速率数据获取模块,用于接收质量检测设备发出的多速率数据,其中,所述多速率数据包括标记数据和未标记数据,所述标记数据和未标记数据基于数据结构区分;
异常数据检测模块,用于基于异常数据预测模型,对所述多速率数据进行处理,以得到多速率数据中的异常数据,其中,所述异常数据预测模型是基于多速率数据中的未标记数据相较于标记数据的相关性特征,对预设的待训练模型进行迭代训练得到的。
8.一种异常数据检测设备,其特征在于,所述异常数据检测设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的异常数据检测程序,所述异常数据检测程序配置为实现如权利要求1至6中任一项所述的数据处理方法的步骤。
9.一种存储介质,其特征在于,存储介质上存储有实现异常数据检测方法的程序,实现异常数据检测方法的程序被处理器执行以实现如权利要求1至6中任一项所述异常数据检测方法的步骤。
10.一种计算机程序产品,其特征在于,所述计算机程序产品包括异常数据检测程序,所述异常数据检测程序被处理器执行时实现如权利要求1至6中任一项所述的异常数据检测方法的步骤。
CN202410173195.3A 2024-02-06 2024-02-06 异常数据检测方法、装置、设备及存储介质及产品 Pending CN118013437A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410173195.3A CN118013437A (zh) 2024-02-06 2024-02-06 异常数据检测方法、装置、设备及存储介质及产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410173195.3A CN118013437A (zh) 2024-02-06 2024-02-06 异常数据检测方法、装置、设备及存储介质及产品

Publications (1)

Publication Number Publication Date
CN118013437A true CN118013437A (zh) 2024-05-10

Family

ID=90958160

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410173195.3A Pending CN118013437A (zh) 2024-02-06 2024-02-06 异常数据检测方法、装置、设备及存储介质及产品

Country Status (1)

Country Link
CN (1) CN118013437A (zh)

Similar Documents

Publication Publication Date Title
Zhang et al. Sliding window-based fault detection from high-dimensional data streams
Jiang et al. Nonlinear plant-wide process monitoring using MI-spectral clustering and Bayesian inference-based multiblock KPCA
Auret et al. Empirical comparison of tree ensemble variable importance measures
Cai et al. A new fault detection method for non-Gaussian process based on robust independent component analysis
US9805002B2 (en) Anomaly detection method, program, and system
US20090132626A1 (en) Method and system for detecting difference between plural observed results
US9043645B2 (en) Malfunction analysis apparatus, malfunction analysis method, and recording medium
CN105518654B (zh) 对工具处理数据提供多变量分析的基于k最近邻法与系统
JP2015170121A (ja) 異常診断装置及びプログラム
KR20190072652A (ko) 정보 처리 장치 및 정보 처리 방법
EP3726318B1 (en) Computer-implemented determination of a quality indicator of a production batch-run that is ongoing
CN114861788A (zh) 一种基于dbscan聚类的负荷异常检测方法及系统
US20240142922A1 (en) Analysis method, analysis program and information processing device
Huang et al. Adaptive process monitoring via online dictionary learning and its industrial application
US11004002B2 (en) Information processing system, change point detection method, and recording medium
Wang et al. Fault detection based on diffusion maps and k nearest neighbor diffusion distance of feature space
CN113641525A (zh) 变量异常修复方法、设备、介质及计算机程序产品
CN116348829A (zh) 异常诊断模型的构建方法、异常诊断方法、异常诊断模型的构建装置以及异常诊断装置
CN118013437A (zh) 异常数据检测方法、装置、设备及存储介质及产品
Zhang et al. A comparison of different statistics for detecting multiplicative faults in multivariate statistics-based fault detection approaches
Zheng et al. Semi-supervised process monitoring based on self-training PCA model
EP3726317B1 (en) Computer-implemented determination of a quality indicator of a production batch-run of a production process
JP7028259B2 (ja) 分析装置、分析方法、及び、プログラム
CN113253682A (zh) 非线性化工过程故障检测方法
CN118378196B (zh) 基于多模态数据融合的工控主机异常行为识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination