CN112036426B - 利用高维传感器数据的多数表决进行无监督异常检测和责任的方法和系统 - Google Patents

利用高维传感器数据的多数表决进行无监督异常检测和责任的方法和系统 Download PDF

Info

Publication number
CN112036426B
CN112036426B CN202010394917.XA CN202010394917A CN112036426B CN 112036426 B CN112036426 B CN 112036426B CN 202010394917 A CN202010394917 A CN 202010394917A CN 112036426 B CN112036426 B CN 112036426B
Authority
CN
China
Prior art keywords
feature
sensors
sensor
anomaly
sensor data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010394917.XA
Other languages
English (en)
Other versions
CN112036426A (zh
Inventor
D·钟
F·程
A·拉加万
佐佐木幸泽
岭岸瞳
小掠哲義
多鹿阳介
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Palo Alto Research Center Inc
Original Assignee
Panasonic Holdings Corp
Palo Alto Research Center Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Holdings Corp, Palo Alto Research Center Inc filed Critical Panasonic Holdings Corp
Publication of CN112036426A publication Critical patent/CN112036426A/zh
Application granted granted Critical
Publication of CN112036426B publication Critical patent/CN112036426B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01MTESTING STATIC OR DYNAMIC BALANCE OF MACHINES OR STRUCTURES; TESTING OF STRUCTURES OR APPARATUS, NOT OTHERWISE PROVIDED FOR
    • G01M99/00Subject matter not provided for in other groups of this subclass
    • G01M99/005Testing of complete machines, e.g. washing-machines or mobile phones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • G05B23/0205Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
    • G05B23/0218Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults
    • G05B23/0221Preprocessing measurements, e.g. data collection rate adjustment; Standardization of measurements; Time series or signal analysis, e.g. frequency analysis or wavelets; Trustworthiness of measurements; Indexes therefor; Measurements using easily measured parameters to estimate parameters difficult to measure; Virtual sensor creation; De-noising; Sensor fusion; Unconventional preprocessing inherently present in specific fault detection methods like PCA-based methods
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • G05B23/0205Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
    • G05B23/0218Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults
    • G05B23/0224Process history based detection method, e.g. whereby history implies the availability of large amounts of data
    • G05B23/024Quantitative history assessment, e.g. mathematical relationships between available data; Functions therefor; Principal component analysis [PCA]; Partial least square [PLS]; Statistical classifiers, e.g. Bayesian networks, linear regression or correlation analysis; Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Automation & Control Theory (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

一个实施方案可提供用于检测与一台或多台机器相关联的高维传感器数据的异常的系统。在操作期间,系统可从与一台或多台机器相关联的一组传感器获得传感器数据,对传感器数据应用数据探测技术以自动处理传感器数据,以从可用的一组特征传感器中识别一个子组的特征传感器,将无监督机器学习技术应用于所识别的一个子组的特征传感器和目标传感器,以学习一组成对单变量模型,并且基于一组成对单变量模型来确定异常在一台或多台机器的操作中是否发生以及如何发生。

Description

利用高维传感器数据的多数表决进行无监督异常检测和责任 的方法和系统
背景技术
技术领域
本公开整体涉及一种在工业机器或系统的操作中进行异常检测的系统和方法。更具体地,本公开涉及检测高维传感器数据中的异常。
相关领域
随着物联网(IoT)使能装备在例如数字制造的许多工业应用中使用的越来越多,容易获得大量的传感器数据。此类传感器数据包括可用于优化工厂机器的操作效率的可执行信息。具体地,检测操作异常已成为其立即应用以减少工厂停工时间并提高制造过程中的生产率和效率的最为追求的目标之一。然而,开发能够可靠地扩展到不同工厂配置中的各种设定的异常检测技术是一项具有挑战性的任务。这是因为传感器数据可能由于数据质量差和缺乏标签信息而出现病态。例如,传感器数据可包括大量缺失、损坏、噪声和高度相关的值。
许多现实生活中的工业IoT应用由于可用传感器数据的病态性质而不能最佳地执行。在没有适当的数据预处理和模型选择的情况下,参数估计倾向于较大偏差和失真,这将导致异常检测中的显著错误。为了避免此类错误,通常需要数据预处理阶段来选择、过滤和重采样传感器数据。
在工业IoT应用的常规异常检测手段中,在传感器数据的先验领域知识的情况下执行此类数据预处理,并且通常自动化程度较低。由于难以获得标记的传感器数据并且缺乏全自动异常检测方法,所以常规手段充其量在不同数据集上提供不可靠的异常检测。此外,很难获得标记的数据集或者获得成本高昂。换句话讲,不存在关于哪些点是正常的或异常的先验知识。因此,未给出对异常的明确定义。在没有正常或异常示例的情况下,需要从可用传感器数据执行无监督学习。此类无监督学习可对算法开发施加显著约束,因为在精度和调用(例如,灵敏度)之间存在固有性能权衡,这继而可导致不同数据集上的异常检测不可靠。为了使异常检测方法很好地扩展到现实生活的应用中,需要使异常分析工作流程自动化以进行数据预处理、模型选择和异常检测。
发明内容
根据本发明的一个实施方案,提供了一种用于检测与一台或多台机器相关联的高维传感器数据的异常的系统。在操作期间,该系统可从与机器相关联的一组传感器获得传感器数据,其中该组传感器包括目标传感器和一组特征传感器,将数据探测技术应用于传感器数据以从该组特征传感器中识别一个子组的特征传感器,将无监督机器学习技术应用于所识别的子组的特征传感器和目标传感器,以学习一组成对单变量模型,并且基于该组成对单变量模型来确定在一台或多台机器的操作中是否发生异常以及如何发生的异常。
在该实施方案的变型中,应用数据探测技术可包括以下中的一者或多者:应用数据预处理技术、应用数据清理技术以及应用特征工程技术。
在该实施方案的变型中,应用数据清理技术包括:当目标传感器数据的记录周期期间缺失值的量小于阈值时,通过线性插值替换传感器数据中的缺失值;以及当目标传感器数据的记录周期期间缺失值的量大于阈值时,丢弃传感器数据中的缺失值。
在该实施方案的变型中,应用特征工程技术包括:调整一组特征传感器和目标传感器之间的一组时间延迟;计算延迟调整的该组特征传感器与目标传感器之间的相关性;并且基于它们之间的相关性值对该组特征传感器进行排序。
在另外的变型中,该组成对单变量异常模型中的每个成对单变量异常模型可与来自该子组的特征传感器中的特征传感器以及目标传感器相关联。
在该实施方案的另外的变型中,无监督机器学习技术包括:确定用于测量该组成对单变量异常模型的拟合度的一组回归系数;并且使用该组回归系数来计算该子组的特征传感器与目标传感器之间的一组异常距离。
在另外的变型中,无监督机器学习技术还可包括:通过将一组聚类函数应用于一组异常距离来计算与该组成对单变量异常模型相关联的一组表决分数;计算该组表决分数的一组权重;将该组权重和该组表决分数组合以检测异常;并且量化该子组的特征传感器对所检测到的异常事件的责任。
附图说明
本专利或专利申请文件包含至少一个彩色绘制的附图。带有彩色附图的本专利或专利申请公布的副本将在提出请求并支付必要费用后由专利局提供。
图1A示出根据本发明的一个实施方案的在一段时间内针对多个特征指数的一组示例性记录的传感器数据的曲线图。
图1B示出根据本发明的一个实施方案的在第一时间段期间记录的一组示例性目标传感器数据和特征传感器数据的曲线图。
图1C示出根据本发明的一个实施方案的在第二时间段期间记录的一组示例性目标传感器数据和特征传感器数据的曲线图。
图2呈现示出根据本发明的一个实施方案的用于对传感器数据执行数据探测的示例性过程的流程图。
图3呈现示出根据本发明的一个实施方案的用于执行数据预处理的示例性过程的流程图。
图4呈现示出根据本发明的实施方案的用于执行数据清理的示例性过程的流程图。
图5A示出根据本发明的一个实施方案的处理传感器数据中的缺失值的示例。
图5B示出根据本发明的一个实施方案的对传感器数据执行移动平均值的结果。
图6呈现示出根据本发明的一个实施方案的用于执行特征工程的示例性过程的流程图。
图7A示出根据本发明的实施方案的延迟调整的特征的显现。
图7B示出根据本发明的一个实施方案的示例性数据相关性标测图。
图8示出根据本发明的一个实施方案的示例性无监督异常检测系统架构。
图9示出根据本发明的一个实施方案的用于检测异常的伪代码。
图10示出根据本发明的一个实施方案的示例性无监督异常检测结果。
图11呈现示出根据本发明的一个实施方案的利用多数表决执行无监督异常检测的示例性过程的流程图。
图12示出根据本发明的一个实施方案的有利于无监督异常检测系统的示例性计算机系统。
图13示出根据本发明的一个实施方案的有利于无监督异常检测系统的示例性装置。
在附图中,相同的附图标记是指相同的附图元件。
具体实施方式
呈现以下描述是为了使得本领域的任何技术人员能够制作和使用实施方案,并且以下描述是在特定应用及其要求的上下文中提供的。对所公开的实施方案的各种修改对于本领域的技术人员而言将是显而易见的,并且在不脱离本公开的实质和范围的情况下,本文所限定的一般性原理可应用于其他实施方案和应用中。因此,本发明不限于所示的实施方案,而是将符合与本文所公开的原理和特征一致的最广泛的范围。
概述
本文所述的实施方案解决了在工业机器的操作中检测和说明异常的技术问题。更具体地,异常监测和检测系统可从嵌入机器中的目标传感器和特征传感器获得传感器数据,预处理这些传感器数据以处理缺失值、异常值和噪声。然后,系统仅选择相关的特征传感器用于进一步处理。具体地,该系统使用相关的特征传感器来构建一组成对单变量异常模型,其中每个模型对应于一对特征传感器和目标传感器。根据该组成对单变量异常模型计算一组异常距离。通过将无监督机器学习技术应用于该组异常距离,然后应用加权多数表决过程,系统可自动检测异常及其相关联的特征传感器在机器操作中的责任。
数据探测
在许多现实生活中的工业IoT应用中,在一台或多台机器的操作期间记录的传感器数据数量很大并且通常出现病态。换句话讲,所收集的传感器数据可包括缺失、损坏、噪声和高度相关的值。图1A示出在一段时间内针对多个特征指数的一组示例性记录的传感器数据的曲线图。暗区域指示存在传感器数据,而亮区域指示不存在传感器数据。从图1A中可以看出,所记录的传感器数据包括周期性缺失值。如果将异常检测技术应用于包括大量缺失值的此类所记录的传感器数据,则检测到的异常将是错误的。
除了缺失值之外,传感器数据中还可能存在其他缺陷。传感器数据可从嵌入在一台或多台机器中的多个传感器获得。在多个传感器之中,与传感器中的一个相关联的异常可能是所关注的,将该传感器识别为目标传感器,并且可将剩余的传感器识别为特征传感器。图1B示出在第一时间段期间记录的一组示例性目标传感器数据和特征传感器数据的曲线图。图1C示出在第二时间段期间记录的目标传感器数据和特征传感器数据的曲线图。从图1B和图1C中显而易见的是,两个曲线图之间存在显著的数据变化。在第一时间段期间,目标传感器数据和特征传感器数据具有高相关性(例如,约0.87),而在第二时间段中,相关性较差(例如,约0.3)。因此,随着此类动态改变特性和存在缺失值,对传感器数据的分析变得非常具有挑战性。
因此,为了避免异常检测中由于传感器数据的状况而导致的错误,希望在应用任何异常检测技术之前对传感器数据进行预处理。图2呈现示出根据本发明的一个实施方案的用于对传感器数据执行数据探测的示例性过程的流程图。在一些实施方案中,数据探测系统可包括三个模块:数据预处理模块、数据清理模块及特征工程模块。
在操作期间,首先,系统可获得传感器数据(操作202)。然后,该系统预处理传感器数据以基于预定目标传感器来选择一组特征传感器(操作204)。在一个实施方案中,系统可清理预处理的传感器数据以解决所选择的传感器数据中的缺失值、异常值和噪声(操作206)。数据清理操作可改善传感器数据的质量并且减少传感器数据的量,从而还减少计算成本。在数据清理操作之后,该系统执行特征工程(操作208)。在一个实施方案中,特征工程相对于目标传感器调整与来自特征传感器的数据相关联的延迟。然后,基于与目标传感器的相关性对延迟移位特征传感器数据进行排序。与目标传感器具有较高相关性的特征传感器用于异常检测系统中的进一步处理,而可省略具有较低相关性的特征传感器。
图3呈现示出根据本发明的一个实施方案的用于执行数据预处理的示例性过程的流程图。在操作期间,系统获得传感器数据(操作302)。所获得的传感器数据可包括从嵌入工厂布局中的一台或多台机器内的多个传感器收集的信息。与传感器中的一个相关联的数据可被识别为用于异常分析的目标变量(操作304)。基于所识别的目标变量,系统自动筛选传感器数据以供识别与目标传感器相关联的候选特征传感器数据(操作306)。例如,基于传感器数据中的可用数据属性,可选择物理地连接到工厂布局中的目标传感器的传感器作为特征传感器。在一个实施方案中,用户还可选择“用户定义”特征以供异常检测。
在根据图2的流程图中所示的过程执行数据选择之后,数据清理模块可执行数据清理以解决所加载的传感器数据中的缺失值、异常值和噪声。图4呈现示出根据本发明的实施方案的用于执行数据清理的示例性过程的流程图。当在目标传感器的记录周期期间,例如在记录周期的20%期间,所选择的候选特征传感器包括大部分缺失值时,则可任选地丢弃与该候选特征传感器相关联的数据。如果在目标传感器的记录时间期间,剩余的特征传感器包括一小部分缺失值,则这些缺失值通过线性插值替换(操作402)。
在传感器数据中的缺失值已被替换之后,系统可执行单变量分析以确定特征类型,并且在每个特征传感器数据中找到异常值。通常,存在两种特征类型:单调特征类型和即时特征类型。基于这些特征类型,可识别异常值并且通过线性插值替换异常值。具体地,对于本发明的特征类型,可使用四分位数间距(IQR)方法找到异常值。例如,如果xij表示第j特征传感器的第i样本,如果存在以下情况,则xij为异常值
IQR=Q3-Q1 (2)
Q1和Q3对应于特征传感器xj的上四分位数和下四分位数。对于单调特征,如果存在以下情况,则第j特征传感器的第i样本为异常值
在已识别异常值之后,系统可通过插值替换异常值,并且通过对具有预定义窗口大小的传感器数据执行移动平均值来减少传感器数据的其他变化。
图5A示出根据本发明的一个实施方案的处理传感器数据中的缺失值的示例。具体地,图5A示出在一段时间内记录的传感器数据的数据标测图。数据标测图中的行表示时间戳,而列表示记录数据的传感器。记录数据的传感器包括目标传感器和由{F1,F2,F3,F4,F5,F6,F7,F8,F9}表示的一组特征传感器。数据标测图中的暗区域502指示所记录的传感器数据值,而数据标测图中的空的或亮区域504指示缺失值。在506处选择在目标传感器的记录时间期间针对特征传感器例如{F5,F6,F7,F8,F9}记录的数据,同时丢弃在数据标测图中未显示数据的剩余特征传感器。
图5B示出根据本发明的一个实施方案的对传感器数据执行移动平均值的结果。曲线图(a)中示出的传感器数据先前已受到缺失值处理、单变量分析和插值。曲线图(b)-(c)示出在将不同窗口大小的移动平均值应用于曲线图(a)中的传感器数据之后的传感器数据。
在执行图4所示的数据清理之后,系统然后可将特征工程应用于传感器数据。图6呈现示出根据本发明的实施方案的用于执行特征工程的示例性过程的流程图。在操作期间,系统对单调特征执行特征变换(操作602),以将其改变速率计算为新特征。
在现实生活中的工业IoT应用中,从工厂布局中生产线的不同部分收集的数据内通常存在延迟。因此,与特征传感器中的一些相关联的数据可表现出相对于目标传感器的时间延迟。特征传感器数据与目标传感器数据之间的延迟可通过使用归一化互相关性来计算(操作604),这表示为:
N=max(||xj||,||y||) (7)
其中μxj和μy分别表示第j特征传感器和目标传感器y的平均值;σxj和σy分别表示第j特征传感器和目标传感器y的标准偏差;(*)表示卷积运算符;||xj||表示xj的长度。然后,通过公式(6)中计算的延迟使特征传感器xj移位。
延迟移位的特征传感器被馈送到特征相关性模块。在该模块中,延迟移位的特征传感器xj与目标传感器y之间的相关性通过以下公式计算(操作606):
其中cov(xj,y)表示xj与y之间的协方差。
使用根据公式(8)在操作606中计算的相关性,系统可相应地对特征传感器进行排序(操作608)。在一个实施方案中,系统仅选择相关性值高于预定义阈值ρthreshold的特征。这是因为表现出与目标传感器的较低相关性的特征可能不适于构建成对单变量异常模型。
图7A示出根据本发明的实施方案的由于工厂中的流水线布局而相对于目标变量702在时间上延迟的特征704的显现。为了使特征704与目标702时间对齐,根据公式(6)计算特征704的延迟。然后,将特征704移位从公式(6)计算的延迟值以获得移位特征706。
图7B示出根据本发明的一个实施方案的与目标传感器T相关联的数据和与一组特征传感器:{F1,F2,F3,F4,F5,F6,F7,F8,F9}相关联的数据之间的示例性数据相关性标测图。选择与目标传感器数据表现出较高相关性的特征传感器,同时省略与目标传感器数据具有较低相关性的特征传感器。例如,如果预定义的阈值ρthreshold=0.9,则将仅选择特征传感器{F1,F2,F3}。然后根据相关性值来对所选择的特征传感器进行排序。
无监督异常检测系统架构
图8示出根据本发明的一个实施方案的示例性无监督异常检测系统架构800。该无监督异常检测系统800可包括传感器数据库802、数据探测模块804、模型构建器模块806、异常检测模块808及加权表决模块810。
传感器数据库802存储从嵌入在一台或多台机器中的一组m个传感器收集的传感器数据{a1,a2,…,am}。数据探测模块804可负责自动处理传感器数据{a1,a2,…,am},以修复缺失值、异常值和噪声。在根据图2至图4所示的流程图修复缺失值、异常值和噪声之后,选择传感器数据与目标传感器数据y具有较高相关性的有限组特征传感器:{x1,x2,…xj,…,xp}(其中p<<m)。最佳地,系统可省略表现出较低相关性的剩余特征传感器。在数据探测阶段之后,p个特征传感器和给定的目标传感器y是可用的,其中每个传感器具有n个时间样本。系统可归一化传感器数据以具有用于线性回归的零平均值和单位方差。在一些实施方案中,系统可将与所选择的特征传感器{x1,x2,…xj,…,xp}和目标传感器y相关联的归一化数据发送到实现模型构建器模块806的另一计算机系统,以计算异常距离。
模型构建器模块806可构建一组成对单变量异常模型,其中每个成对单变量异常模型对一对特征传感器xj和目标传感器y执行成对线性回归。
令y表示由y=[yi]n定义的归一化目标矩阵,其中yi表示目标传感器的第i样本,1≤i≤n。类似地,让X表示由X=[xij]np定义的归一化特征矩阵,其中xij表示第j特征传感器的第i样本,1≤i≤n并且1≤j≤p。列向量X.j=[x1j,x2j,…,xnj]表示来自第j特征传感器的数据。因为所有传感器数据均被归一化,所以它们的方差为Var[y]=Var[X.j]=1,并且平均值为E[y]=E[X.j]=0。
如下计算第j特征传感器和目标传感器y的成对单变量异常模型。首先,通过以下公式推断目标传感器与特征传感器之间的函数关系:
其中表示第j特征传感器的预测第i目标值,并且/>是估计回归系数参数。该估计回归系数参数可为:
估计回归系数参数可用于测量成对单变量异常模型的拟合度。模型拟合度的测量由R2表示。第j特征传感器的模型拟合度可表示为:其中/> 均值越高意味着第j特征传感器的线性模型越好。此外,第j特征传感器的模型拟合度测量值/>如下与估计回归系数/>相关:
在已针对第j特征传感器预测成对单变量异常模型之后,通过以下公式确定观察到的目标传感器值yi与第j特征传感器的预测模型之间的正交差值:
dij=|eij|. (13)
其中dij可被称为第i样本和第j特征传感器的异常距离。正交差值eij的平均值和方差由下式给出:
与所有特征传感器X=[xij]np相关联的异常距离可以异常距离矩阵形式表示为:D=[dij]np。将这些异常距离发送到异常检测模块808,以确定该组p个成对单变量异常模型中的每个模型的表决分数。
异常检测模块808将一组聚类函数应用于异常距离矩阵以确定表决分数。该组聚类函数可由下式表示:G=[gj]p。根据D.j独立地学习每个聚类函数,j=1,2,…,p。每个聚类函数将观察到的异常距离分类为二进制输出。具体地,如果异常,则将输出值设定为1,否则将输出值设定为0。聚类函数gj可表示为:
其中V表示由[vij]np和vij∈{0,1}定义的表决矩阵。对于该组聚类函数,表决矩阵V可表示为:V=G(D)。
在一个实施方案中,使用具有两个质心(即,k=2)的高斯混合模型(GMM)聚类函数G。令s表示随机变量,该随机变量的高斯分布由下式给出:N(s|μs,σs),具有平均值μs和标准偏差σs。对于GMM,dij的概率密度函数以高斯分布表示如下:
其中πk表示权重概率,其中0≤πk≤1并且∑kπk=1。GMM模型可通过期望值最大(EM)算法利用训练数据{dij|i=1,2,…,n}进行训练。假设μ0<μ1,则可通过如下表决来将异常状态设置为异常:如果GMMj(dij)=1,则vij=1,否则为0。
根据一个实施方案,虽然通过使用表决分数vij来表决特征传感器中的异常,但是可通过在加权表决模块810中执行多数表决来改善异常检测的准确性。在加权表决模块810中,通过以下公式计算第i目标样本处的异常加权分数:
Wi=Si./||Si.||1 (15)
ui=<Wi,Vi> (16)
其中S=[sij]np称为异常分数矩阵,并且表示由每个特征传感器的R2值重新标度的异常距离矩阵:操作〈a,b>表示a和b的线性乘积。异常分数矩阵S可用于显现目标传感器和起作用的特征传感器随时间推移的异常模式。此类显现可帮助用户快速识别具有显著异常图案的关注目标。
在一个实施方案中,异常权重矩阵W可用于量化每个特征传感器对异常表决分数所起的作用。对每个特征传感器所起的作用的这种量化可用于将特征传感器对异常的重要性排序。
对于所有特征传感器,多数表决u=[ui]n可被描述为:
其中为Hadamard乘积,并且1为p×1单位矩阵。第i目标样本的异常的最终决定812由以下定义:
其中0≤Utr≤1为用户定义的多数表决阈值。图9示出根据一个实施方案的用于使用多数表决的无监督异常检测方法来检测异常的伪代码。
图10示出根据本发明的一个实施方案的无监督异常检测结果的示例。顶部的图(a)示出在一段时间内记录的目标传感器值的曲线图。曲线上的红色区域表示存在异常。中间的第二幅图(b)示出与7个所选择的特征传感器相关联的异常距离的曲线图。异常距离的峰值对应于被错误检测到的异常。然而,在将异常距离与多数表决技术组合之后,异常检测系统能够准确地检测目标传感器数据中的异常。最后的图(c)示出根据本发明的一个实施方案的7个所选择的特征传感器的多数表决技术的结果。红线表示多数表决阈值。越过该多数表决阈值(红线)的加权异常表决的所得值对应于异常。在目标传感器值中标出的异常值(在曲线图(a)中)由利用多数表决的无监督异常检测系统以高精度进行检测。
图11呈现示出根据本发明的一个实施方案的利用多数表决执行无监督异常检测的示例性过程的流程图。在操作期间,系统可获得传感器数据库中存储的传感器数据(操作1102)。传感器数据与嵌入工厂布局中的一台或多台机器中的多个传感器相关联。
在工业IoT应用中,由于可用传感器的数量增加,所收集的传感器数据的量非常大。此外,传感器数据通常包含大量的病态数据,包括缺失、损坏、噪声和高度相关的值。当此类质量较差的传感器数据用于异常检测时,结果将不正确,因而不可靠。此外,由于大量的传感器数据可用,所以将显著增加异常检测的计算复杂性。为了改善传感器数据的质量并减少特征传感器的数量,对传感器数据执行数据探测(操作1104)。
在执行数据探测之后,系统可构建一组线性模型。换句话讲,该系统使用与每个特征传感器和目标传感器相关联的数据来构建成对单变量异常模型,并且推断它们之间的关系。系统基于推断出的关系来计算该组特征传感器的一组异常距离(操作1106)。
在操作1108期间,识别一组异常“候选”事件。然后,基于操作1110和1112中的多数表决,确认它们为异常事件,并且责任归因于具有最高分数的特征传感器。基于所推断出的目标传感器与一组特征传感器之间的关系来识别异常事件。具体地,基于一组异常距离和一组聚类函数来计算一组异常表决分数(操作1108)。
最后,通过多数表决程序对异常做出集体决定(操作1110)。操作1110可类似于图8所示的加权表决模块810的操作。
示例性计算机系统和装置
图12示出根据本发明的一个实施方案的有利于无监督异常检测系统的示例性计算机系统。计算机系统1200包括处理器1202、存储器1204和存储设备1206。计算机系统1200可联接到显示设备1210、键盘1212和指向设备1214,并且还可经由一个或多个网络接口联接到网络1208。存储设备1206可存储操作系统1218和无监督异常检测系统1220。
无监督异常检测系统1220可包括当由计算机系统1200执行时可使得计算机系统1200执行本公开所述的方法和/或过程的指令。无监督异常检测系统1220还可包括用于接收与一个或多个传感器相关联的传感器数据的指令(传感器数据接收模块1222)、用于对传感器数据执行数据探测的指令(传感器数据探测模块1224)以及用于在数据探测阶段之后处理传感器数据的指令(线性模型构建器模块1226)。此外,无监督异常检测系统1220可包括用于检测异常事件的指令(异常检测模块1228)以及用于对检测到的异常事件执行多数表决的指令(多数表决模块1230)。
图13示出根据本发明的一个实施方案的有利于无监督异常检测系统的示例性装置。装置1300可包括多个单元或装置,多个单元或装置可经由有线、无线、光量子或电通信信道彼此通信。装置1300可使用一个或多个集成电路来实现,并且可包括比图13所示更少或更多的单元或装置。另外,装置1300可被集成在计算机系统中,或被实现为能够与其他计算机系统和/或设备通信的独立设备。具体地,装置1300可包括单元1302-1312,这些单元执行类似于图12的计算机系统1200的模块1220-1230的功能或操作,这些单元包括:传感器数据接收单元1302、传感器数据探测单元1304、线性模型构建器单元1306、异常检测单元1308和多数表决单元1310。装置1300还可包括通信单元1312。
一般来讲,本发明的实施方案提供了一种方法和系统,该方法和系统使用利用多数表决的无监督学习检测和说明高维和未标记传感器数据中的异常。检测与工厂机器相关联的传感器数据中的异常已用作示例。在实施过程中,该解决方案不限于检测与工厂机器相关联的异常。该解决方案还可用于检测其他类型的装备或机械中的异常。
在具体实施方式部分中描述的方法和过程可实施为代码和/或数据,其可存储在如上所述的计算机可读存储介质中。当计算机系统读取和执行存储在计算机可读存储介质上的代码和/或数据时,计算机系统执行体现为数据结构和代码并且存储在计算机可读存储介质内的方法和过程。
此外,上述方法和过程可包括在硬件模块或装置中。硬件模块或装置可包括但不限于专用集成电路(ASIC)芯片、现场可编程门阵列(FPGA)、在特定时间执行特定软件模块或一段代码的专用或共享处理器,以及现在已知的或稍后开发的其他可编程逻辑设备。当硬件模块或装置被激活时,它们执行包括在其中的方法和过程。
上述对本发明的实施方案的描述仅出于例证和描述的目的。它们并非旨在穷举或将本发明限制为所公开的形式。因此,许多修改和变型对于本领域熟练的从业者而言将是显而易见的。另外,上述公开内容并非旨在限制本发明。本发明的范围由所附权利要求限定。

Claims (20)

1.一种用于在机器的操作中检测异常的方法,所述方法包括:
经由与所述机器相关联的一组传感器进行记录以在所述机器正在操作时获得与所述机器相关联的传感器数据,其中所述一组传感器包括目标传感器和一组特征传感器;
在计算设备中存储所述传感器数据;
识别与所关注的异常相关联的目标传感器;
对存储的传感器数据执行数据探测,包括修复缺失值以及对所述一组特征传感器进行排序,其中所述数据探测包括以下各项中的一项或多项:
改善所述传感器数据的质量;
基于所识别的目标传感器从所述一组特征传感器中识别与后续处理相关的一个子组的特征传感器;和
减少传感器数据的量,并且从而减少所述后续处理中涉及的计算成本;
基于识别的所述一个子组的特征传感器和所述目标传感器执行无监督机器学习以构建一组成对单变量模型;以及
基于所述一组成对单变量模型来确定异常在所述机器的所述操作中是否发生以及如何发生。
2.根据权利要求1所述的方法,其中对存储的传感器数据执行数据探测还包括以下中的一者或多者:
应用数据预处理技术;
应用数据清理技术;和
应用特征工程技术。
3.根据权利要求2所述的方法,其中应用所述数据清理技术包括:
当目标传感器数据的记录周期期间缺失值的量小于阈值时,通过线性插值来替换所述传感器数据中的所述缺失值;以及
当所述目标传感器数据的所述记录周期期间所述缺失值的量大于所述阈值时,丢弃所述传感器数据中的所述缺失值。
4.根据权利要求2所述的方法,其中应用所述特征工程技术包括:
调整一组特征传感器和目标传感器数据之间的一组时间延迟;
计算延迟调整的所述一组特征传感器与所述目标传感器之间的相关性;
基于延迟调整的所述一组特征传感器与所述目标传感器之间的相关性值对所述一组特征传感器进行排序;以及
从排序的所述一组特征传感器中选择一个子组的特征传感器。
5.根据权利要求1所述的方法,其中所述一组成对单变量异常模型中的每个成对单变量异常模型与来自所述一个子组的特征传感器中的特征传感器以及目标传感器相关联。
6.根据权利要求1所述的方法,其中基于识别的所述一个子组的特征传感器和所述目标传感器执行无监督机器学习以构建一组成对单变量模型包括:
确定一组回归系数,以用于测量所述一组成对单变量异常模型的拟合度;
使用所述一组回归系数来计算所述一个子组的特征传感器与所述目标传感器之间的一组异常距离;以及
基于所述一组异常距离通过期望值最大来训练一组高斯混合模型以确定一组表决分数。
7.根据权利要求1所述的方法,其中基于识别的所述一个子组的特征传感器和所述目标传感器执行无监督机器学习以构建一组成对单变量模型还包括:
通过将一组聚类函数应用于一组异常距离来计算与所述一组成对单变量异常模型相关联的一组表决分数;
计算所述一组表决分数的一组权重;
将所述一组权重和所述一组表决分数组合以检测所述异常;以及
计算每个特征传感器对所检测到的异常事件的责任。
8.一种用于在机器的操作中检测异常的装置,所述装置包括:
一个或多个处理器;
一组传感器,所述一组传感器嵌入在一台或多台机器中;和
存储器,所述存储器存储指令,所述指令在由所述一个或多个处理器执行时使得所述装置:经由与所述机器相关联的一组传感器进行记录以在所述机器正在操作时获得与所述机器相关联的传感器数据,其中所述一组传感器包括目标传感器和一组特征传感器;
在计算设备中存储所述传感器数据;
识别与所关注的异常相关联的目标传感器;
对存储的传感器数据执行数据探测,包括修复缺失值以及对所述一组特征传感器进行排序,其中所述数据探测包括以下各项中的一项或多项:
改善所述传感器数据的质量;
基于所识别的目标传感器从所述一组特征传感器中识别与后续处理相关的一个子组的特征传感器;和
减少传感器数据的量,并且从而减少所述后续处理中涉及的计算成本;
基于识别的所述一个子组的特征传感器和所述目标传感器,执行无监督机器学习以构建一组成对单变量模型;以及
基于所述一组成对单变量模型来确定异常在所述机器的所述操作中是否发生以及如何发生。
9.根据权利要求8所述的装置,其中对存储的传感器数据执行数据探测还包括以下中的一者或多者:
应用数据预处理技术;
应用数据清理技术;和
应用特征工程技术。
10.根据权利要求9所述的装置,其中应用所述数据清理技术包括:
当目标传感器数据的记录周期期间缺失值的量小于阈值时,通过线性插值来替换所述传感器数据中的所述缺失值;以及
当所述目标传感器数据的记录周期期间所述缺失值的量大于所述阈值时,丢弃所述传感器数据中的所述缺失值。
11.根据权利要求9所述的装置,其中应用所述特征工程技术包括:
调整一组特征传感器和目标传感器数据之间的一组时间延迟;
计算延迟调整的所述一组特征传感器与所述目标传感器之间的相关性;
基于延迟调整的所述一组特征传感器与所述目标传感器之间的相关性值对所述一组特征传感器进行排序;以及
从排序的所述一组特征传感器中选择一个子组的特征传感器。
12.根据权利要求8所述的装置,其中所述一组成对单变量异常模型中的每个成对单变量异常模型与来自所述一个子组的特征传感器中的特征传感器以及目标传感器相关联。
13.根据权利要求8所述的装置,其中基于识别的所述一个子组的特征传感器和所述目标传感器执行无监督机器学习以构建一组成对单变量模型包括:
确定一组回归系数,以用于测量所述一组成对单变量异常模型的拟合度;
使用所述一组回归系数来计算所述一个子组的特征传感器与所述目标传感器之间的一组异常距离;以及
基于所述一组异常距离通过期望值最大来训练一组高斯混合模型以确定一组表决分数。
14.根据权利要求8所述的装置,其中基于识别的所述一个子组的特征传感器和所述目标传感器执行无监督机器学习以构建一组成对单变量模型还包括:
通过将一组聚类函数应用于一组异常距离来计算与所述一组成对单变量异常模型相关联的一组表决分数;
计算所述一组表决分数的一组权重;
将所述一组权重和所述一组表决分数组合以检测所述异常;以及
计算每个特征传感器对所检测到的异常事件的责任。
15.一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储指令,所述指令当由计算机执行时使得所述计算机执行一种在机器的操作中检测异常的方法,所述方法包括:
经由与所述机器相关联的一组传感器进行记录以获得与所述机器相关联的传感器数据,其中所述一组传感器包括目标传感器和一组特征传感器;
在计算设备中存储所述传感器数据;
识别与所关注的异常相关联的目标传感器;
对存储的传感器数据执行数据探测,包括修复缺失值以及对所述一组特征传感器进行排序,其中所述数据探测包括以下各项中的一项或多项:
改善所述传感器数据的质量;
基于所识别的目标传感器从所述一组特征传感器中识别与后续处理相关的一个子组的特征传感器;和
减少传感器数据的量,并且从而减少所述后续处理中涉及的计算成本;
基于识别的所述一个子组的特征传感器和所述目标传感器,执行无监督机器学习以构建一组成对单变量模型;以及
基于所述一组成对单变量模型来确定异常在所述机器的所述操作中是否发生以及如何发生。
16.根据权利要求15所述的非暂态计算机可读存储介质,其中对存储的传感器数据执行数据探测还包括以下中的一者或多者:
应用数据预处理技术;
应用数据清理技术;和
应用特征工程技术。
17.根据权利要求16所述的非暂态计算机可读存储介质,其中应用所述特征工程技术包括:
调整一组特征传感器和目标传感器数据之间的一组时间延迟;
计算延迟调整的所述一组特征传感器与所述目标传感器之间的相关性;
基于延迟调整的所述一组特征传感器与所述目标传感器之间的相关性值对所述一组特征传感器进行排序;以及
从排序的所述一组特征传感器中选择一个子组的特征传感器。
18.根据权利要求15所述的非暂态计算机可读存储介质,其中所述一组成对单变量异常模型中的每个成对单变量异常模型与来自所述一个子组的特征传感器中的特征传感器以及目标传感器相关联。
19.根据权利要求15所述的非暂态计算机可读存储介质,其中基于识别的所述一个子组的特征传感器和所述目标传感器执行无监督机器学习技术以构建一组成对单变量模型包括:
确定一组回归系数,以用于测量所述一组成对单变量异常模型的拟合度;
使用所述一组回归系数来计算所述一个子组的特征传感器与所述目标传感器之间的一组异常距离;以及
基于所述一组异常距离通过期望值最大来训练一组高斯混合模型以确定一组表决分数。
20.根据权利要求15所述的非暂态计算机可读存储介质,其中基于识别的所述一个子组的特征传感器和所述目标传感器执行无监督机器学习技术以构建一组成对单变量模型还包括:通过将一组聚类函数应用于一组异常距离来计算与所述一组成对单变量异常模型相关联的一组表决分数;
计算所述一组表决分数的一组权重;
将所述一组权重和所述一组表决分数组合以检测所述异常;以及
计算每个特征传感器对所检测到的异常事件的责任。
CN202010394917.XA 2019-06-04 2020-05-11 利用高维传感器数据的多数表决进行无监督异常检测和责任的方法和系统 Active CN112036426B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/431,571 US11448570B2 (en) 2019-06-04 2019-06-04 Method and system for unsupervised anomaly detection and accountability with majority voting for high-dimensional sensor data
US16/431571 2019-06-04

Publications (2)

Publication Number Publication Date
CN112036426A CN112036426A (zh) 2020-12-04
CN112036426B true CN112036426B (zh) 2024-05-17

Family

ID=73578808

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010394917.XA Active CN112036426B (zh) 2019-06-04 2020-05-11 利用高维传感器数据的多数表决进行无监督异常检测和责任的方法和系统

Country Status (3)

Country Link
US (1) US11448570B2 (zh)
JP (1) JP2020198092A (zh)
CN (1) CN112036426B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4010824A1 (en) * 2019-08-06 2022-06-15 Verint Americas Inc. System and method of selecting human-in-the-loop time series anomaly detection methods
JP7318612B2 (ja) * 2020-08-27 2023-08-01 横河電機株式会社 監視装置、監視方法、および監視プログラム
US11220999B1 (en) * 2020-09-02 2022-01-11 Palo Alto Research Center Incorporated Deep hybrid convolutional neural network for fault diagnosis of wind turbine gearboxes
DE102021210107A1 (de) * 2021-09-14 2023-03-16 Zf Friedrichshafen Ag Computerimplementierte Verfahren, Module und System zur Anomalieerkennung in industriellen Fertigungsprozessen
US11914506B2 (en) * 2022-02-23 2024-02-27 Optum, Inc. Machine learning techniques for performing predictive anomaly detection
JP2024060172A (ja) * 2022-10-19 2024-05-02 株式会社東芝 異常予兆検知システム、異常予兆検知モデル生成方法および異常予兆検知モデル生成プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106104496A (zh) * 2014-03-18 2016-11-09 微软技术许可有限责任公司 用于任意时序的不受监督的异常检测
CN109347834A (zh) * 2018-10-24 2019-02-15 广东工业大学 物联网边缘计算环境中异常数据的检测方法、装置及设备
CN109710636A (zh) * 2018-11-13 2019-05-03 广东工业大学 一种基于深度迁移学习的无监督工业系统异常检测方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080020878A1 (en) * 2006-07-19 2008-01-24 Carl Elden R Chain roller and bracket assembly and methods thereof
US7747551B2 (en) * 2007-02-21 2010-06-29 Neurovista Corporation Reduction of classification error rates and monitoring system using an artificial class
US8515719B2 (en) * 2009-01-14 2013-08-20 Hitachi, Ltd. Apparatus anomaly monitoring method and system
US10557719B2 (en) * 2014-09-10 2020-02-11 Siemens Energy, Inc. Gas turbine sensor failure detection utilizing a sparse coding methodology
US10878385B2 (en) * 2015-06-19 2020-12-29 Uptake Technologies, Inc. Computer system and method for distributing execution of a predictive model
US10303818B2 (en) * 2015-12-07 2019-05-28 Sas Institute Inc. Enhancing processing speeds for generating a model on an electronic device
US20170284896A1 (en) * 2016-03-31 2017-10-05 General Electric Company System and method for unsupervised anomaly detection on industrial time-series data
JP6661559B2 (ja) * 2017-02-03 2020-03-11 株式会社東芝 異常検出装置、異常検出方法およびプログラム
US11214268B2 (en) * 2018-12-28 2022-01-04 Intel Corporation Methods and apparatus for unsupervised multimodal anomaly detection for autonomous vehicles
US11252169B2 (en) * 2019-04-03 2022-02-15 General Electric Company Intelligent data augmentation for supervised anomaly detection associated with a cyber-physical system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106104496A (zh) * 2014-03-18 2016-11-09 微软技术许可有限责任公司 用于任意时序的不受监督的异常检测
CN109347834A (zh) * 2018-10-24 2019-02-15 广东工业大学 物联网边缘计算环境中异常数据的检测方法、装置及设备
CN109710636A (zh) * 2018-11-13 2019-05-03 广东工业大学 一种基于深度迁移学习的无监督工业系统异常检测方法

Also Published As

Publication number Publication date
CN112036426A (zh) 2020-12-04
US11448570B2 (en) 2022-09-20
JP2020198092A (ja) 2020-12-10
US20200386656A1 (en) 2020-12-10

Similar Documents

Publication Publication Date Title
CN112036426B (zh) 利用高维传感器数据的多数表决进行无监督异常检测和责任的方法和系统
Zliobaite et al. Adaptive preprocessing for streaming data
CN112115306B (zh) 用于执行高维传感器数据中的异常事件的自动根本原因分析的方法和系统
US11283991B2 (en) Method and system for tuning a camera image signal processor for computer vision tasks
KR20190075707A (ko) 딥러닝을 이용한 양품 선별 방법
TW202139131A (zh) 用於影像分類之適應學習
WO2019026134A1 (ja) 情報処理装置および情報処理方法
TW202018727A (zh) 整體式學習預測方法與系統
Xu et al. Stochastic Online Anomaly Analysis for Streaming Time Series.
CN113449703B (zh) 环境在线监测数据的质控方法、装置、存储介质及设备
US20220222545A1 (en) Generation method, non-transitory computer-readable storage medium, and information processing device
CN116492634A (zh) 基于图像视觉定位的立定跳远测试方法
Lu et al. Predicting out-of-distribution error with confidence optimal transport
WO2022029771A1 (en) Adaptive system and method for inspection of imaged items
EP4270129A1 (en) A versatile anomaly detection system for industrial systems
CN111814883A (zh) 一种基于异质集成的标签噪声纠正方法
US20220230028A1 (en) Determination method, non-transitory computer-readable storage medium, and information processing device
CN116188445A (zh) 一种产品表面缺陷的检测定位方法、装置及终端设备
US20220222580A1 (en) Deterioration detection method, non-transitory computer-readable storage medium, and information processing device
US20180260733A1 (en) Apparatus and method for screening data for kernel regression model building
JP2022066957A (ja) 異常検知方法、異常検知装置、及びプログラム
JP7135025B2 (ja) 情報処理装置、情報処理方法およびプログラム
US20240193403A1 (en) Apparatus and method for calibrating prediction models
CN113313179B (zh) 一种基于l2p范数鲁棒最小二乘法的噪声图像分类方法
CN113806452B (zh) 信息处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: California, USA

Applicant after: PALO ALTO RESEARCH CENTER Inc.

Applicant after: Panasonic Holding Co.,Ltd.

Address before: California, USA

Applicant before: PALO ALTO RESEARCH CENTER Inc.

Applicant before: Matsushita Electric Industrial Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant