CN105934765A

CN105934765A - 从异常数据构造反常模型的方法

Info

Publication number: CN105934765A
Application number: CN201380082008.0A
Authority: CN
Inventors: R.E.卡兰; D.S.哈德维克
Original assignee: GE Aviation Systems Ltd
Current assignee: GE Aviation Systems Ltd
Priority date: 2013-11-29
Filing date: 2013-11-29
Publication date: 2016-09-07
Anticipated expiration: 2033-11-29
Also published as: WO2015079192A1; CN105934765B; EP3074927B1; EP3074927A1; US20160300126A1; CA2932069A1; US9990568B2

Abstract

从包含正常和反常数据两者的数据构造系统的概率图形模型（10）的方法（100）包含学习对于概率图形模型（10）的结构的参数的步骤。该结构包含其他变量（12,14,16,18,20,22,24）以其为条件并且具有多个成分的至少一个潜在变量（26）。方法进一步包含以下步骤：使潜在变量（26）的多个成分中的一个或多个与正常数据迭代关联；构造关联矩阵；基于与正常数据的低关联或关联矩阵中的一个检测潜在变量（26）的异常成分；以及从概率图形模型（10）删除潜在变量（26）的异常成分。

Description

从异常数据构造反常模型的方法

背景技术

从数据检测异常行为是许多应用的要求。例如，异常行为能够指示如关于机械资产、网络攻击、需要即时关注的重病特护患者或欺诈交易等的问题的这类事情。

理想地在已知为‘正常’的历史数据上进行开发，构建分析模型来检测异常行为。然而，存在其中历史数据无法清除反常的许多应用。在反常行为先前未被检测并且已没有理由回顾看看数据时情况就是这样的。例如，考虑装有健康状况监测系统（其包含振动传感器和磁碎片检测器）的旋翼飞行器。由于磁塞检测引起的警报可导致更换变速器（transmission）。然而，如果健康状况监测系统未使警报与振动传感器关联，它可未将振动数据标记为异常。换言之，健康状况监测系统可假设振动数据是正常的，即使能够存在异常行为的证据。

可使用先验知识来描述反常或异常事件的检测。例如，考虑在高温情况下的患者。单变量测量特征（例如患者的体温和患者的正常体温响应的知识）足以设置简单规则用于检测高温。通常存在测量的体温以患者处于宁静状态（例如，不执行紧张运动）为条件的假设。对于许多情形，不存在先验知识来定义异常事件（或状态）。此外，异常事件的定义可要求多变量特征。例如，检测人是否过重要求身高和体重的特征。多个特征通常取决于彼此并且这些依赖性根据诸如观察对象的当前状态的因素而变化（或以其为条件）。例如，飞机可在起飞、爬升、巡航等期间收集数据并且所得的数据和它的相关特征能够最终变得非常复杂。对于存储历史数据的应用，通过直接从数据学习那些模型来对反常检测构造模型通常是可能的。通常叫作数据驱动建模方法，一般概念是要从过去行为的历史学习‘正常’行为的模型。

发明内容

本发明的一个方面涉及从包含正常和反常数据两者的数据构造系统的概率图形模型的方法。该方法包括：学习概率图形模型的结构的参数，其中该结构包含其他变量以其为条件并且具有多个成分的至少一个潜在变量；使潜在变量的多个成分中的一个或多个与正常数据迭代关联；构造关联的矩阵；基于与正常数据的低关联或关联矩阵中的一个检测潜在变量的异常成分；以及从概率图形模型删除潜在变量的异常成分。

附图说明

在图中：

图1示出发明性方法可应用在其上的数据的示例概率图形模型。

图2示出根据本发明的实施例的流程图，其详述用于从概率图形模型（例如图1）去除异常数据成分的关联矩阵的距离计算和生成。

具体实施方式

在背景和下面的描述中，为了说明目的，阐述许多特定细节以便提供对本文描述的技术的彻底理解。然而，示范性实施例可在没有这些特定细节的情况下实施，这对于本领域内技术人员将是显然的。在其他实例中，采用简图的形式示出结构和装置以便促进描述示范性实施例。

参考图来描述示范性实施例。这些图图示实现本文描述的模块、方法或计算机程序产品的特定实施例的某些细节。然而，图不应理解为强加可在图中存在的任何限制。可在任何机器可读媒体上提供方法和计算机程序产品用于实现它们的操作。可使用现有的计算机处理器或通过为该或另一个目的而合并的专用计算机处理器或通过硬连线系统来实现实施例。

如上所述，本文描述的实施例可包含计算机程序产品，其包括用于携带或具有存储在其上的机器可运行指令或数据结构的机器可读媒体。这种机器可读媒体能够是任何可用媒体，其能够被通用或专用计算机或具有处理器的其他机器访问。通过示例，这类机器可读媒体能够包括RAM、ROM、EPROM、EEPROM、CD-ROM或其他光盘存储装置、磁盘存储装置或其他磁存储装置，或能够用来采用机器可运行指令或数据结构形式携带或存储期望程序代码并且能够被通用或专用计算机或具有处理器的其他机器访问的任何其他媒介。当通过网络或另一个通信连接（硬连线、无线或硬连线或无线的组合）将信息传递或提供给机器时，机器适当地将连接视为机器可读媒介。因而，任何这种连接适当地称作机器可读媒介。上文的组合也包含在机器可读媒体的范围内。机器可运行指令包括，例如促使通用计算机、专用计算机或专用处理机执行某些功能或功能编组的指令和数据。

将在可在一个实施例中由包含机器可运行指令（例如程序代码）例如采用由联网环境中的机器运行的程序模块的形式的程序产品实现的方法步骤的一般上下文中描述实施例。一般来说，程序模块包含具有执行特定任务或实现特定抽象数据类型的技术效果的例程、程序、对象、组件、数据结构等。机器可运行指令、关联的数据结构和程序模块表示用于运行本文公开的方法的步骤的程序代码的示例。这类可运行指令或关联的数据结构的特定序列表示用于实现在这类步骤中描述的功能的对应动作的示例。

实施例可使用到具有处理器的一个或多个远程计算机的逻辑连接而在联网环境中实施。逻辑连接可包含局域网（LAN）和广域网（WAN），其作为示例而非限制在这里被提出。这类联网环境在办公室范围或企业范围的计算机网络、内联网和因特网中是普通的，并且可使用各种各样不同的通信协议。本领域内技术人员将领会，这类网络计算环境通常将囊括许多类型的计算机系统配置，其包含个人计算机、手持装置、多处理器系统、基于微处理器或可编程的消费电子设备、网络PC、小型计算机、大型计算机等。

实施例还可在分布式计算环境中实施，其中任务由通过通信网络而链接（通过硬连线链路、无线链路或硬连线或无线链路的组合）的本地和远程处理装置执行。在分布式计算环境中，程序模块可位于本地和远程存储器存储装置两者中。

用于实现示范性实施例的全部或部分的示范性系统可包含采用计算机形式的通用计算装置，其包含处理单元、系统存储器和使包含系统存储器的各种系统组件耦合于处理单元的系统总线。系统存储器可包含只读存储器（ROM）和随机存取存储器（RAM）。计算机还可包含用于从磁硬盘读取和写入磁硬盘的磁硬盘驱动、用于从可移动磁盘读取或写入可移动磁盘的磁盘驱动和用于从可移动光盘（例如CD-ROM或其他光学媒体）读取或写入可移动光盘的光盘驱动。驱动和它们关联的计算机可读媒体为计算机提供机器可运行指令、数据结构、程序模块和其他数据的非易失性存储。

在实施例中公开的方法的有益效果包含对许多模型类型的构建时间显著减少。模型（用于当前技术水平的台式计算机的模型的构建时间可范围达到（range up to）若干几天）可具有减少至若干小时的构建时间。通过使用并行处理已知的技术来实现附加的时间节省。

概率图形模型（PGM）提供随机变量之间的条件依赖性结构的基于图形的表示。通过C. M. Bishop在Pattern Recognition and Machine Learning, Springer(2006)的章节8中进一步描述，PGM是概率模型，但它们的结构能够可视化，这允许通过检查来推导独立性质。变量（例如特征）由节点表示并且变量之间的关联由边表示。为了帮助检测异常（或反常）行为，PGM可表示观察系统的正常行为。

经由机器学习技术，PGM能够学习数据的密度模型，使得表示正常行为的数据占据致密区而占据稀疏密度区的数据是异常行为的候选。PGM可包含连续和离散特征两者。连续特征是诸如温度的模拟输入并且离散特征是诸如成分标识符的可计算特征。如对本领域内普通技术人员是明显的，连续特征能够成为离散的。连续特征通常在PGM中由高斯变量表示并且离散特征由多项变量表示。

PGM提供高度灵活的结构用于推断。它们能够用来：预测类成员关系（membership）；从一个或其他特征的值推断一个或多个特征的值；测量一组特征与模型之间的关联（称为似然得分）；并且计算概率、联合分布和其他推导度量。此外，PGM允许推断数据何时丢失，例如在系统输入中的一个包含故障传感器的时间。

现在参考图1，示出示例PGM结构10。模型的特定结构可取决于模型的特定实例而变化。即，建模应用确定PGM的实际预定义结构。圆形节点12、14、16用来指示连续变量（或特征）并且矩形节点18、20、22、24、26用来指示离散变量（或特征）。模型将包含由X_i指示的一个或多个特征，其中i对个别特征编索引。这些特征能够是连续或离散的。所有特征以潜在变量L 26为条件（下文描述）。所有离散特征在已知L 26的值时假设为有条件独立。

连续特征12、14、16能够被链接来表示依赖性28、30、32。例如，如果X₁、12和X₂、14相关，则它们将会被链接30。连续变量的链接必须维持作为定向且无环图形的结构。换言之，路径通过遵循边的方向而不能够从节点引出回（draw back）到它自身。

变量L 26称为潜在或隐藏变量，因为它的值一般不被观察。L 26的值称为‘成分’。L 26的目的是要允许特征以不同的数据模式为条件。变量L 26允许模型表示复杂的密度景观（landscape）。

数据中的不同模式能够由于许多原因而出现。如果应用牵涉机械资产，则由于以下中的差异而能够出现不同的模式：物理配置；采集体系；环境因素（例如，热对冷气候）；等。S变量22、24称为子集变量并且用来显式描述预期模式。

L 26与子集变量S 22、24之间的边的方向应反过来示出，因为L 26以子集变量S 22、24为条件。然而，使边如示出的那样定向，这更方便。来自推断的结果将是正确的，但模型训练必须遵循特定程序。如果边从子集变量S 22、24定向到L 26，则L 26中的条目（entry）在计算上将会是不可管理的。例如，假设S₁ 24具有20个值，S₂ 22具有30个值并且L 26具有50个值。如果边指向L 26，则如与在如示出的那样引出时的50相对，在L 26中将会存在30000个条目（即20x30x50）。图1示出两个子集变量S 22、24，但可不存在或存在一个或多个。例如，考虑用来监测旋翼飞行器队中的变速器振动的应用。振动签名（signature）在飞机创建截然不同的模式之间能够明显变化，从而。因此，添加表示飞机尾号的子集变量可以是更可取的。因此，子集变量中的值的数量将会对应于队中飞机的数量。

变量L 26能够视为指定训练数据中的分区（或子集模型）。分区的数量等同于子集变量S 22、24中的值的积。例如对于20旋翼飞行器队，分区的数量是20。随着添加第二子集变量来以诸如盘旋和巡航的体系为条件，分区的数量是40。通常，L 26中的值被硬赋给子集；即，值是专用的并且仅对与特定子集模型关联的数据来训练。备选地，值可跨子集共享。赋给子集的L值的数量能够由于子集而变化。例如，L中的单个值可表示一个子集，而20个值可表示另一个子集。进一步使模型训练过程复杂化，每子集的值的数量可由于在训练期间的最优化而变化。

系统可通过假设在由L值所表示的特征空间的区域中出现训练反常而从包含反常的训练数据构建模型。换言之，将存在训练反常将与之最紧密关联的L的值并且L的这些值与正常数据将具有低关联。然后通过检测这些‘反常’L值并且从模型删除它们而生成常态模型。尽管先前的专利申请已公开通过将数据分区成多个子集来生成模型的方法（美国专利号13/027829）以及涉及图形模型的功用的概念（英国专利申请1119241.6），本发明的实施例的方法的关键方面是高效去除‘反常’L，其可以是模型构建过程的最耗时阶段。

模型构建由两个阶段组成。在第一阶段期间学习子集模型参数。第二阶段包含从L去除可能与反常关联的成分（或值）。

现在参考图2，本发明的方法100的处理器将在步骤102处在子集上执行循环。进而通过输入关于子集变量的证据来选择每个子集。如上文指示的，如本文描述的方法适用于硬证据（hard evidence），其确保每个子集映射到L的一个或多个值，但L的这些值未映射到任何其他子集。然而，方法在存在软证据（soft evidence）的情况下可同样适用并且因此不应视为局限于其中仅硬证据可用的应用。硬证据简单地意指选择每个子集变量的单个值。关于子集变量的硬证据定义单个子集。变量L将包含专用于所选子集的一个或多个成分。然后学习以有效成分为条件的特征。关于子集变量的证据在训练数据中定义分区。证据用来构造查询，使得与分区关联的数据能够被检索用于训练。训练能够利用任何适合的方法，例如期望最大化。

其中构成模型的方式意指存在与L的每个成分关联的特征参数。例如，连续特征将具有L的每个值的均值和方差，和对于每个关联连续特征的权重。离散特征将具有对于L的每个成分在它的值上分布的概率。这些概率是离散特征的参数。

如上文描述的，专用于子集的成分的数量能够基于在模型构建过程的学习阶段期间对最佳数量的成分的计算搜索而变化。然而，确定最佳数量的成分通常是启发式过程。对最佳确定的标准启发旨在将模型质量与模型大小进行权衡并且包含众所周知的度量，例如Akaike信息准则、Bayesian信息准则和偏差信息准则。在该上下文中，模型质量通常指模型是数据的良好生成器。换言之，从模型采样的数据将会与训练数据类似。模型质量和模型大小需要交易（trade）来防止数据的过拟合。即，如果在它的大小上没有约束，则模型可完美地表示训练数据；然而，这种模型将会未很好地归纳或形成生成数据的真实概率模型的良好表示。

从L去除成分潜在地是在计算上模型构建的最昂贵阶段。计算时间随模型大小（即，L成分的数量）按指数规律增长。为了减轻该指数增长，初始可执行附加计算并且定义簿记的方法，其节省重复的不必要计算。

处理器在L中检测成分，其被视为与其他成分最不类似，并且这些成分然后假设为最可能与训练数据中反常关联的成分。这些成分是去除的候选。处理器使用距离计量测量成分之间的类似性。在去除过程期间，检查每个成分并且计算它的距离。在已对所有成分计算距离时，成分按距离的降序排序。在列表顶部的成分被去除。

因为模型随着成分的去除而改变，去除成分潜在地改变仍然在模型中的成分的全部距离。通常，默认位置要在成分去除后对所有剩余成分重新计算距离。该默认方法对于大的模型在计算上是非常昂贵的。

简单的备选方法是要在初始距离计算后以单次（single shot）去除多于一个成分，其包含去除初始确定被删除的所有成分的可能性。尽管该方法对于一些应用可以是足够的，这可导致被掩盖和未检测的反常成分。例如，多个反常成分可在计算它们的距离时对彼此提供支持，因为它们占据特征空间的相同区域。因此，方法可未将一些反常成分作为删除的目标。

将要计算其距离的成分指示为P，处理器通过将P与指示为Q的一组其他成分比较来计算距离。Q的成员关系通过子集变量来确定。

如果没有子集变量，则Q的默认成员关系是除P以外的所有成分。在该情形中，处理器使用所有其他成分对P计算距离。然而，在存在子集变量时，通过对每个子集变量输入证据来定义子集H_i。默认位置要输入硬证据，其具有H_i将与L的一个或多个成分关联并且这些成分将未被任何其他子集共享的结果。换言之，H_i与所有其他子集的交集是零（或空）集。Q集将是不在H_i中的L的所有成分。处理器将P设置成H_i中的第一成分并且P将总是包含单个成分。在计算它的距离时，H_i中的每个成分将进而被赋给P。为了总结该情况，通过将P与未共享与P相同的子集的所有其他成分比较来计算对于成分P的距离。

如先前描述的，关于子集变量的证据通常是硬性的，但它能够是软性的。软证据导致在子集变量值上的概率分布。假设变量S_i具有值{a, b, c, d, e}。采用硬证据，处理器仅选择一个值；即，对S_i赋予单值。采用软证据，处理器可赋予多个值，例如{a=0, b=0.5, c=0.3, d=0, e=0.2}。采用软证据，处理器对具有硬证据的情况执行类似计算，但Q的每个成员具有被计入距离计算中的关联加权。

使用似然得分来计算距离。通过输入关于特征的证据（回想起特征是图1中的X变量12、14、16）来执行模型中的推断。证据的似然性是概率模型中的标准度量并且在C. M. Bishop在Pattern Recognition and Machine Learning, Spinger(2006)的章节8中进一步详细描述。

通过在步骤110处在随机样本计数上循环，处理器在步骤112处从成分P生成n个样本。参数n是可配置的，但优选默认值是100。样本生成对特征产生仿真值。处理器在步骤128处通过从P的角度（perspective）计算样本数据的似然性并且将其与从Q的角度计算的似然性比较来计算距离。

具体地，如在步骤110处示出的，处理器进而采取每个样本，从而在样本计数上循环。处理器通过在步骤114处设置关于X变量的证据并且选择对应于P的L值来计算P－似然性。通过在步骤116处循环通过除H_i以外的所有子集以及在步骤118处循环通过子集中的所有Q成分，处理器通过去除关于L的证据并且输入关于每个S变量的证据使得在L中仅Q变量有效来计算Q－似然性。Q－似然性通过将它的似然性除以Q的基数（即，Q成员的数量）而归一化。Q的对数减去P的对数。处理器对于剩下的样本重复步骤112-126并且将对数差求和以在步骤128处确定对于P的距离。

不存在用于决定从L要去除多少成分的固定方法。对于一些应用，先验知识将确定模型的质量。用于对要去除的成分数量作出决定的默认方法是要通过探索或了解来对与反常关联的训练数据的百分比进行估计。关于L的每个成分具有支持度量，其指定与成分关联的训练情况（case）的数量。称为‘去除百分比’的参数在从模型去除成分时被跟踪。每当去除成分时，将它的支持添加到‘去除百分比’。成分去除在该‘去除百分比’与反常的估计数量相同或超过它时停止。

如先前解释的，默认位置要迭代去除成分。为了在模型大小增长时节省计算时间中的指数增长，处理器采用簿记方法来识别潜在冗余计算。

对于大多数模型，期望Q中的大部分成分将对P中成分的距离没有或具有可忽略影响。因此，处理器确定在去除Q成分后是否需要重新计算P成分的距离。处理器在步骤124处维持P成分与Q成分之间的关联表。如果关联是弱的，则处理器在步骤108处确定不要求重新计算。弱的定义在步骤108中在称作‘关联阈值’（指示为T）的参数中声明。关联阈值的值确定需要进行多少计算以及因此构建模型所花的时间。

阈值的实际值将取决于应用以及要如何使用阈值。例如，处理器可使用关联阈值来限制构建模型所花的时间并且该类型的阈值目标能够通过构建一些初始模型而自动确定。如果关联阈值的目的是要将识别对于去除的最佳候选成分与计算所花的时间进行交易，这也能够通过构建一些初始模型而自动确定。对于其中数据趋于集中在特征空间的若干截然不同的区上的应用，一般将存在P与Q的成员之间的关联的清晰分布（profile）。如果数据趋于集中在特定区中使得P与Q成员之间的关联趋向于均一分布，则去除成分可几乎不起任何作用或单次去除（如上文描述的）是足够的。

P与Q的成员之间的关联将在去除成分时潜在地改变。可定期更新关联，但优选地，处理器在初始距离如在步骤122中示出的那样计算时将计算它们一次。

关于在步骤124中关联矩阵的构造，关联度量是简单的概率度量。从群集P生成的样本用来找到P与Q的成员之间的关联。关联计算从用于距离的计算的子集构造。对于由高斯和多项变量组成的成分的概率密度函数（pdf）被很好地定义。对由P和Q的每个成员生成的每个样本计算pdf。Q pdf然后通过使每个Q pdf除以Q pdf的总和来对Q的每个成员生成成员关系概率而归一化。这在步骤118处对每个样本重复并且Q概率在步骤120中被求和。样本上的求和是P与Q的成员之间的关联的度量。

因为每个成分迭代选择为P成分，处理器计算每个成分与不占据与P成分相同子集的所有其他成分之间的关联的矩阵。可组织关联矩阵，其中Q作为列并且P作为行。每个成分将在行和列中出现。矩阵将具有空值，其中行和列值在相同子集上相交。在处理器去除成分时，它识别关联矩阵中与成分有关的Q列。处理器可重新计算其在该列中的条目超过关联阈值的P成分的距离。处理器将未重新计算具有低于或等于关联阈值的值的P成分。

因而，在确定第一成分去除所要求的距离计算期间生成完整的关联矩阵。关联矩阵然后对所有特征计算保持静止，但对于一些应用，模型可从该矩阵的偶尔更新中获益。处理器对关联矩阵编索引来确定是否必须重新计算距离值用于后续成分去除。

对于许多模型类型，构建时间能够显著减少，通常约计算时间中的90%减少。时间节省对于大的应用是明显的。对于当前技术水平的台式计算机，它可花若干小时一直到若干天来构建模型。然而，使用上文描述的方法，这些模型现在可在少得多的时间构建。通过使用并行处理已知的技术来实现附加时间节省。

为了更充分领会时间节省的重要性，考虑在典型应用中发生什么。通常，应用将依赖许多模型，或许100或更多。如果域（domain）具有许多资产类型；例如，不同类型的引擎，模型的数量能够增长为数千。在历史数据更新时，这些模型也将定期更新。对于新的应用，通常存在探索许多不同模型（例如，使用特征的不同组合）来找到最佳集的要求。该探索仅在模型能够相对快地构建时是可行的。

采用子集变量构造反常模型通常被证明是有用的并且可提供许多优势。子集模型的构造是非常快的（即，计算高效的）。子集趋于迫使建模资源或成分到特征空间的通常被忽视的区域，并且因此对组件提供拟合反常数据的机会。因此，建模方法对于采用包含隐藏反常的数据来训练更鲁棒。子集还对推断提供大量灵活性。例如，考虑具有专用于与特定飞机尾号拟合的每个引擎的子集的模型。使用子集，推断引擎/飞机与队的余下相比如何表现是有可能的。使用相同模型来跟踪个别引擎/飞机行为中的改变也是有可能的。子集还提供内置平台以在测试模型性能时执行交叉验证。

本书面描述使用包含最佳模式的示例来公开本发明，并且还使本领域内技术人员能够实施本发明，包含制作和使用任何装置或系统并且执行任何包含的方法。本发明的可取得专利范围由权利要求限定，并且可包含本领域内技术人员想到的其他示例。如果这类其他示例具有与权利要求的文字语言完全相同的结构单元，或者如果它们包括具有与权利要求的文字语言的非实质差异的等效结构单元，则预计它们处于权利要求的范围之内。

Claims

1. 一种从包含正常和反常数据两者的数据构造系统的概率图形模型（10）的方法，所述方法包括：

学习对于所述概率图形模型（10）的结构的参数，其中所述结构包含其他变量（12, 14, 16, 18, 20, 22, 24）以其为条件并且具有多个成分的至少一个潜在变量（26）；

使所述潜在变量（26）的所述多个成分中的一个或多个与正常数据迭代地关联；

构造所述关联的矩阵；

基于与所述正常数据的低关联或所述关联矩阵的一个来检测所述潜在变量（26）的异常成分；以及

从所述概率图形模型（10）删除所述潜在变量（26）的所述异常成分。

2. 如权利要求1所述的方法，其中学习所述结构的所述参数的步骤通过预期最大化来执行。

3. 如权利要求1或2所述的方法，其中使所述多个成分中的一个或多个迭代关联的步骤通过计算所述一个或多个成分之间的类似性来执行。

4. 如权利要求3所述的方法，其中所述一个或多个成分之间的所述类似性采用距离度量来计算。

5. 如权利要求4所述的方法，其中所述距离度量是似然函数。

6. 如任何前述权利要求所述的方法，其中使所述多个成分中的一个或多个迭代关联的步骤在存在新数据时重复。

7. 如任何前述权利要求所述的方法，其中删除所述异常成分的步骤进一步包含对所述一个或多个成分中的每个之间的所述关联矩阵编索引来确定是否需要重复使所述潜在变量的所述多个成分中的一个或多个与正常数据迭代关联的所述步骤的步骤。