CN111316292B

CN111316292B - 使用共现单纯复形的持续几何特征对客户可观察对象进行多尺度分层聚类

Info

Publication number: CN111316292B
Application number: CN201880072639.7A
Authority: CN
Inventors: A·N·瓦根; T-C·卢; 许劼钧
Original assignee: HRL Laboratories LLC
Current assignee: HRL Laboratories LLC
Priority date: 2018-01-24
Filing date: 2018-12-20
Publication date: 2024-02-06
Anticipated expiration: 2038-12-20
Also published as: US20190228021A1; EP3743880A4; US10614103B2; WO2019147365A1; EP3743880A1; CN111316292A

Abstract

描述了一种用于提取车辆中的客户可观察对象(CO)数据的多尺度分层聚类的系统。该系统选择针对CO数据的一组事件数据的参数。基于所选择的参数从CO数据生成单纯复形。从单纯复形生成面网络。针对各个面网络，提取一组连通分量。将各个连通分量转变成相关CO的群集，得到CO之间的第一提取关系。当从转变得到与第一提取关系不同的第二提取关系时，第一提取关系被用于在客户端设备处自动生成警报。

Description

使用共现单纯复形的持续几何特征对客户可观察对象进行多尺度分层聚类

相关申请的交叉引用

这是于2018年1月24日在美国提交的标题为“Multiscale,HierarchicalClustering on Customer Observables Using Persistent Geometric Features of Co-Occurrence Simplicial Complexes”的美国临时申请No.62/621558的非临时申请，其全部内容通过引用并入本文中。

技术领域

本发明涉及用于提取客户可观察对象的列表上的多尺度分层群集的系统，并且更具体地，涉及用于使用持续同调提取客户可观察对象的列表上的多尺度分层群集的系统。

背景技术

在各个事件可以表示成二进制变量列表的意义上，客户可观察数据可以表示成非常高维度二进制数据，根据客户可观察对象是否出现，各个变量为1或0。因此，维度是客户可观察对象的总数，通常为数千个。

存在对多变量二进制数据执行聚类的现有方法。例如，稀疏熵聚类(参见所并入的参考文献的列表，参考文献8)是对稀疏二进制数据进行聚类(clustering)的快速可扩展方法。一个缺点是群集(cluster)不重叠，这意味着客户可观察对象不能被聚类到与不同客户可观察对象具有不同关系的多个“上下文”中。稀疏熵聚类也不是多尺度的，仅输出最小化熵的单组群集，而不控制群集的大小。

BayesBinMix(参见参考文献4)是使用Markov Chain Monte Carlo对多变量二进制数据执行聚类的R包。这种方法的缺点是，除了不是多尺度的和不输出重叠群集之外，它还不能很好地扩展到很高的维度。

持续同调(参见参考文献2)已经在脑网络上使用，以基于形成高维度空洞的团来查找神经元的功能类别。然而，仅通过分析数据的拓扑形状，丢失许多重要的交互细节。例如，如果存在A导致B导致C导致D的CO的因果链，那么从拓扑上看，除非D也导致A，否则该因果链是无价值的。尤其是，如果存在关于CO的树状的潜在因果网络，则拓扑研究将丢失许多重要的关系。

潜在语义索引(参见参考文献7)是自然语言处理技术，其可以用于基于报告的原始逐字记录对事件或CO进行聚类。潜在语义索引基于各个文档中的词的频率与总频率相比来分析文档的集合与其中包含的词之间的关系。然而，该方法不是多尺度或分层的，并且不捕获间接关系。而且，由于它被应用于原始逐字记录，所以它不直接对CO进行聚类。

因此，一直需要用于提取关于客户可观察对象数据的多尺度分层重叠群集的系统，该系统可以以可扩展方式捕获多维度中的间接和直接共现关系。

发明内容

本发明涉及用于提取客户可观察对象(CO，customer observable)的列表上的多尺度分层群集的系统，并且更具体地，涉及用于使用持续同调提取CO的列表上的多尺度分层群集的系统。该系统包括一个或更多个处理器以及非暂时性计算机可读介质，该非暂时性计算机可读介质上编码有可执行指令，使得在可执行指令被执行时，一个或更多个处理器执行多个操作。该系统选择具有针对包括CO数据的一组事件数据的值的至少一个参数。基于所选择的至少一个参数从CO数据生成单纯复形。从单纯复形生成面网络。针对各个面网络，提取一组连通分量。将各组连通分量中的各个连通分量转变成相关CO的群集，得到至少CO之间的第一提取关系，其中，当从所述转变得到与第一提取关系中的一个不同的第二提取关系时，第一提取关系被用于在客户端设备处自动生成警报。

在另一方面，在生成单纯复形时，该系统针对各对CO确定成对互信息量度；连接具有大于所选择的至少一个参数的值的成对互信息量度的各对CO；识别每个可能连接所在的CO的k团；以及利用k单纯形替换各个k团。

在另一方面，各个面网络是通过连接共享一个面的所有k-单纯形创建的网络。

在另一方面，在将各个连通分量转变成相关CO的群集时，针对面网络的各个不同连通分量C，该系统将连通分量C转变成顶点的列表，并且基于顶点的列表，该系统输出CO的多尺度分层重叠群集。

在另一方面，所提取的CO之间的关系被用于识别CO出现的不同上下文以及CO之间的关系。

在另一方面，该系统改变至少一个参数的值，其中，仅在至少一个参数的值改变时持续存在的CO被用于生成单纯复形。

最后，本发明还包括计算机程序产品和计算机实现方法。该计算机程序产品包括存储在非暂时性计算机可读介质上的计算机可读指令，该计算机可读指令能够由具有一个或更多个处理器的计算机执行，使得在执行这些指令时，该一个或更多个处理器执行本文列出的操作。另选地，计算机实现方法包括使计算机执行这种指令并且执行所得到的操作的动作。

附图说明

从参照附图对本发明的多个方面的以下详细描述，将容易理解本发明的目的、特征和优点，其中：

图1是示出了根据本公开的一些实施方式的用于提取客户可观察对象的列表上的多尺度分层群集的系统的组件的框图；

图2是根据本公开的一些实施方式的计算机程序产品的例示；

图3是例示了根据本公开的一些实施方式的群集提取和警告生成的流程图；

图4是例示了根据本公开的一些实施方式的从事件数据构建共现单纯复形的流程图；

图5是例示了根据本公开的一些实施方式的针对固定k和ε查找重叠客户可观察对象(CO)的算法的流程图；

图6是根据本公开的一些实施方式的从G₂(ε)输出的针对ε＝0.02至ε＝0.05的聚类的群集准确性结果的例示；

图7是根据本公开的一些实施方式的从G₃(ε)输出的针对ε＝0.02至ε＝0.1的聚类的群集准确性结果的例示；

图8是例示了根据本公开的一些实施方式的聚类算法的输出的表；

图9是例示了根据本公开的一些实施方式的CO的示例群集的表；

图10是例示了使用处理器控制使用根据本公开的一些实施方式的系统的设备的流程图；以及

图11是根据本公开的一些实施方式的无线数据传输的例示。

具体实施方式

本发明涉及用于提取客户可观察对象的列表上的多尺度分层群集的系统，并且更具体地，涉及用于使用持续同调提取客户可观察对象的列表上的多尺度分层群集的系统。呈现以下描述以使得本领域的普通技术人员能够做出和使用本发明并将本发明并入到特定应用的上下文中。对于本领域技术人员而言，多种修改以及在不同应用中的多种使用将是显而易见的，并且本文中限定的一般原理可以应用于广泛方面。因此，本发明不旨在限于所呈现的方面，而是应根据与本文所公开的原理和新颖特征一致的最广范围。

在下面的详细描述中，阐述了许多具体细节以便提供对本发明的更透彻理解。然而，对于本领域技术人员显而易见的是，可以在不必限于这些特定细节的情况下实践本发明。在其它实例中，以框图的形式而不是详细地示出了众所周知的结构和设备，以便避免模糊本发明。

读者的注意力被引导到与本说明书同时提交并随本说明书公开以供公众检查的所有论文和文献，并且所有这种论文和文献的内容均通过引用并入本文。除非另有明确说明，否则本说明书中公开的所有特征(包括任何所附权利要求、摘要和附图)可以由具有相同、等效或类似目的的另选特征代替。因此，除非另有明确说明，否则所公开的各个特征仅是通用系列等效或类似特征的一个示例。

此外，权利要求中未明确说明用于执行特定功能的“手段”或用于执行特定功能的“步骤”的任何要素均不被解释成在35U.S.C第112条第6款中规定的“装置”或“步骤”条款。尤其是，此处权利要求书中“的步骤”或“的动作”的使用不旨在援引35U.S.C第112条第6款的规定。

在详细描述本发明之前，首先提供所引用的参考文献的列表。接下来，提供对本发明的多个主要方面的描述。最后，提供了本发明的多个实施方式的具体细节，以给出对具体方面的理解。

(1)所并入的参考文献书目的列表

贯穿本申请引用且并入了以下参考文献。为了清楚和方便起见，参考文献在此被列出为读者的中心资源。以下参考文献通过引用并入本文，如同在本文中充分阐述一样。通过引用如下所示的对应参考文献编号来在本申请中引用这些参考文献：

1.Munkres，James R.Elements ofalgebraic topology.CRC Press，Chapter 1，2018.

2.Reimann，MichaelW.，et al″Cliques of Neurons Bound into CavitiesProvide a Missing Link between Structure and Function.″Frontiers inComputational Neuroscience 11：48，2017.

3Singh，Gurjeet，Facundo Mémoli，and Gunnar E.Carlsson.″Topologicalmethods for the analysis of high dimensional data sets and 3d objectrecognition.″SPBG，2007.

4Papastamoulis，Panagiotis，and Magnus Rattray.″BayesBinMix：an RPackage for Model Based Clustering of Multivariate Binary Data.″R Journal9.1，2017.

5Lancichinetti，Andrea，and Santo Fortunato″Benchmarks for testingcommunity detection algorithms on directed and weighted graphs withoverlapping communities.″Physical Review E 80.1：016118，2009.

6.Wu，Bin，et al.″A distributed algorithm to enumerate all maximalcliques in mapreduce.″Frontier of Computer Science and Technology，2009.FC ST′09.Fourth International Conference on.IEEE，2009.

7.Evangelopoulos，Nicholas E.″Latent semantic analysis″WileyInterdisciplinary Reviews：Cognitive Science 4.6(2013)：683-692.

8.Marek，Szymon Nakoneczny，and Jacek Tabor.″Fast entropyclustering of sparse high dimensional binary data.″Neural Networks(IJCNN)，2016International Joint Conference on.IEEE，2016.

(2)主要方面

本发明的多种实施方式包括三个“主要”方面。第一主要方面是用于提取在客户可观察对象的列表上的多尺度分层群集的系统。该系统通常是计算机系统操作软件的形式或是“硬编码”指令集的形式。该系统可以被结合到提供不同功能的很多种设备中。第二主要方面是通常为使用数据处理系统(计算机)运行的软件形式的方法。第三主要方面是计算机程序产品。该计算机程序产品一般表示存储在非暂时性计算机可读介质上的计算机可读指令，非暂时性计算机可读介质诸如是例如光盘(CD)或数字多功能盘(DVD)的光学存储设备、或者诸如软盘或磁带的磁性存储设备。计算机可读介质的其它非限制性示例包括硬盘、只读存储器(ROM)和闪存型存储器。这些方面将在下面更详细地描述。

在图1中提供了描绘本发明的系统(即，计算机系统100)的示例的框图。计算机系统100被配置成执行与程序或算法相关联的计算、处理、操作和/或功能。在一个方面，本文中讨论的某些处理和步骤被实现成驻留在计算机可读存储器单元内并且由计算机系统100的一个或更多个处理器执行的一系列指令(例如，软件程序)。当被执行时，该指令致使计算机系统100执行诸如本文所描述的特定动作并呈现特定行为。

计算机系统100可以包括被配置成传递信息的地址/数据总线102。另外，一个或更多个数据处理单元(诸如一个或多个处理器104)与地址/数据总线102联接。处理器104被配置成处理信息和指令。在一方面，处理器104是微处理器。另选地，处理器104可以是不同类型的处理器，诸如并行处理器、专用集成电路(ASIC)、可编程逻辑阵列(PLA)、复杂可编程逻辑器件(CPLD)或现场可编程门阵列(FPGA)。

计算机系统100被配置成利用一个或更多个数据存储单元。计算机系统100可以包括与地址/数据总线102联接的易失性存储器单元106(例如，随机存取存储器(“RAM”)、静态RAM、动态RAM等)，其中，易失性存储器单元106被配置成存储用于处理器104的信息和指令。计算机系统100还可以包括与地址/数据总线102联接的非易失性存储器单元108(例如，只读存储器(“ROM”)、可编程ROM(“PROM”)、可擦除可编程ROM(“EPROM”)、电可擦除可编程ROM“EEPROM”、闪存等)，其中，非易失性存储器单元108被配置成存储用于处理器104的静态信息和指令。另选地，计算机系统100可以执行从在线数据存储单元中(诸如在“云”计算中)检索到的指令。在一方面，计算机系统100还可以包括与地址/数据总线102联接的一个或更多个接口，诸如接口110。该一个或更多个接口被配置成使得计算机系统100能够与其它电子设备和计算机系统对接。由一个或更多个接口实现的通信接口可以包括有线通信技术(例如，串行电缆、调制解调器、网络适配器等)和/或无线通信技术(例如，无线调制解调器、无线网络适配器等)。

在一方面，计算机系统100可以包括与地址/数据总线102联接的输入设备112，其中，输入设备112被配置成将信息和命令选择传输至处理器100。根据一个方面，输入设备112是可以包括字母数字和/或功能键的字母数字输入设备(诸如键盘)。另选地，输入设备112可以是除字母数字输入设备以外的输入设备。在一方面，计算机系统100可以包括与地址/数据总线102联接的光标控制设备114，其中，光标控制设备114被配置成将用户输入信息和/或命令选择传输至处理器100。在一方面，使用诸如鼠标、轨迹球、触控板、光学跟踪设备或触摸屏的设备来实现光标控制设备114。尽管存在前述内容，但是在一方面，经由来自输入设备112的输入(诸如响应于与输入设备112相关联的特定键和键序列命令的使用)引导和/或启动光标控制设备114。在另选方面，光标控制设备114被配置成由语音命令引导或指导。

在一方面，计算机系统100还可以包括与地址/数据总线102联接的一个或更多个可选计算机可用数据存储设备，诸如存储设备116。存储设备116被配置成存储信息和/或计算机可执行指令。在一个方面，存储设备116是诸如磁盘驱动器或光盘驱动器(例如，硬盘驱动器(“HDD”)、软盘、光盘只读存储器(“CD-ROM”)、数字多功能盘(“DVD”)的存储设备。根据一个方面，显示设备118与地址/数据总线102联接，其中，显示设备118被配置成显示视频和/或图形。在一方面，显示设备118可以包括阴极射线管(“CRT”)、液晶显示器(“LCD”)、场发射显示器(“FED”)、等离子体显示器或适于显示用户可识别的视频和/或图形图像和字母数字字符的任何其它显示设备。

本文呈现的计算机系统100是根据一方面的示例计算环境。然而，计算机系统100的非限制性示例不严格限于计算机系统。例如，一方面提供了计算机系统100表示可以根据本文描述的多个方面使用的一种类型的数据处理分析。此外，还可以实现其它计算系统。实际上，本技术的精神和范围不限于任何单个数据处理环境。因此，一方面，使用由计算机执行的计算机可执行指令(诸如，程序模块)来控制或实现本技术的多个方面的一个或更多个操作。在一个实现中，这种程序模块包括被配置成执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件和/或数据结构。另外，一方面提供了通过利用一个或更多个分布式计算环境来实现本技术的一个或更多个方面，诸如其中，任务是由通过通信网络连接的远程处理设备执行的，或者诸如其中，多个程序模块位于本地和远程计算机存储介质(包括存储器-存储设备)二者中。

在图2中示出了具体实现本发明的计算机程序产品(即，存储设备)的例示图。该计算机程序产品被示出为软盘200或诸如CD或DVD的光盘202。然而，如前所述，计算机程序产品一般表示存储在任何兼容非暂时性计算机可读介质上的计算机可读指令。关于本发明使用的术语“指令”一般指示要在计算机上执行的一组操作，并且可以表示整个程序的多段或单独可分离的软件模块。“指令”的非限制性示例包括计算机程序代码(源代码或目标代码)和“硬编码”电子器件(即，被编码到计算机芯片中的计算机操作)。“指令”被存储在任何非暂时性计算机可读介质上，诸如计算机的存储器中或软盘、CD-ROM和闪存驱动器中。无论哪种情况，指令均被编码在非暂时性计算机可读介质上。

(3)多种实施方式的具体细节

描述了提取客户可观察对象的列表上的与全球分析和报告工具(GART)数据中的事件相对应的多尺度高阶分层群集的方法，该全球分析和报告工具(GART)数据包括具有逐字记录报告的2001个单个实例和从逐字记录报告提取的对应一组客户可观察对象(CO)。出于本申请的目的，客户可观察对象被定义成客户在特定事件的上下文中观察到的显著质量，并且其随后被报告。

尽管在本申请中没有具体考虑，但是CO数据也可以直接从给定平台获取，给定平台是汽车、飞机、或者可能呈现设备故障并可能需要维护的任何车辆或机器。可以使用例如蜂窝连接、无线调制解调器或基于卫星的通信来无线地获得该数据，或者可以使用硬件数据端口获得该数据。该数据可以作为用户输入(例如，来自机械师或维修技师)被接收，或者平台可以将数据自动发送到数据库或用户(例如，再次是机械师或维修技师)。在自动数据传送的情况下，经由蜂窝、无线或基于卫星的网络的传输被视为优选实施方式，但是可以采用任何数据传输方式。图11例示了经由示例无线网络1100(例如，互联网)的无线数据传输，该示例无线网络1100包括与诸如车辆1106、移动设备1108和台式机/膝上型计算机1110的设备进行无线通信的路由器1102和无线接入点1104，该设备可以向用户发送/显示警报。

这些客户可观察对象比逐字记录文本更易于分析，但是它们的含义仍然可以在自然语言的上下文中被理解。例如，对于逐字记录报告“客户报告在驾驶时电池停止运转，经检查发现电池泄漏，并且车辆被拖走”可以通过3个CO来描述：电池<>停止运转、电池<>泄漏、和汽车<>被拖走。使用来自持续同调的思想来创建一系列单纯复形并提取中尺度几何特征，以便提取从客户报告的文本中提取的客户可观察对象(CO)的群集，该群集可能具有基于因果关系或相似性的更高维度关系。持续同调是用于计算在不同空间分辨率下的空间的拓扑特征的方法。各个维度中的不同聚类被输出以表示不同级别的共现，其中，k维群集捕获经由多组k个CO的共现而相关联的CO。另外，基于参数ε的不同聚类被输出，对于较小ε值，具有不太完整但更准确的群集。利用随机生成的因果网络来生成合成数据。使用来自该合成数据的共现单纯复形的几何持续数据，可以准确再现因果相关的CO的群集。例如，这可以潜在地用于识别真实数据集中的关于CO的出乎意料的关系，并识别关于特定车辆型号出现的危险。

本文描述的系统存在许多独特方面。例如，系统利用来自持续同调的思想以便提取多尺度结构，但利用几何结构的持续性而不是拓扑结构。本文描述的系统不是如在持续同调中存储关于从数据构建的单纯复形中的拓扑“空洞”的持续性的信息，而是基于单纯复形的几何形状来存储关于网络的连通分量的信息。此外，系统使用单纯复形方法将成对共现关系推广到更高维度，如下面的第3.3节所述的，以允许将复杂的更高维关联简化成短数字列表，该数字列表简洁地表示各对CO在各个维度中如何紧密相关，“维度”是指可以间接地交互以得到观察到的两个CO之间的关系的CO的数量。

根据本公开的实施方式的本发明的目的是输出CO的分层群集，该群集在层次结构中的最低层级是仅包含单个CO的群集，并且在层次结构中的最高层级是包含所有CO的单个群集。在中间阶段，群集可能与包含在多于一个群集中的单个CO重叠，但是它们在向更高层级移动的意义上是严格增加的，给定群集只能获得CO而不能失去CO。假定包含在给定群集中的所有CO都是相关的，并且尤其是在CO之间可能存在出乎意料的关系，该关系可能表示已经知道的危险状况的出现将与CO的给定子集相关联。“危险状况”的示例是在车辆仍在行驶时方向盘锁定，可能导致事故。利用单纯复形的连通分量来输出CO的多尺度分层重叠群集。聚类的重叠性质的原因在于上下文，其中，同一CO根据上下文可能与CO的不同集合相关。为了本公开的目的，具有比通过随机机会更多地一起出现的趋势的两个CO被称为“相关”。“重叠”意味着同一CO可以包含在CO的多个不同群集中，使得该群集关于两个群集中都包含的CO重叠。

本文所述的技术依赖于团(clique)查找，该团针对固定维度单纯复形很好地合理地缩放，并且可以跨许多处理器分布(参见参考文献6)。如下所述，即使是相对较低维度单纯复形也可以实现关于合成数据集的高准确性。

持续同调已经被用来在脑网络上查找功能群集(参见参考文献2)，但是这些群集对应于拓扑特征，诸如高维度空洞。持续同调不能用于查找因果连接的CO的群集，因为许多这种群集在拓扑上都是无价值的。根据本公开的实施方式的技术输出与几何特征相对应的群集(如在第3.4节中描述的CO关系的连通分量)，只要CO之间存在任何足够强的关系，该群集就不是无价值的。该技术不只利用CO之间的成对关系，还利用更高阶关系，这些更高阶关系是由单纯形表示的不止两个CO之间的关系。k维单纯形具有k+1个顶点，并且单个CO由其顶点表示。另外，该方法发现了在任何特定事件中都不共现的CO之间的间接关系。

尽管网络方法可以描述系统中的多对对象之间的关系，但它们在描述涉及更高阶动态的现象时可能并不总是有用的。例如，从数据库中的与车辆相关的事件列表中提取的CO往往比较嘈杂，并且对上下文高度敏感。根据共现CO、先前事件、车辆型号、里程和各段信息(可能无法获得)，不同CO可能具有不同的含义。

在一个实施方式中，关注的CO之间的两种关系是：相似性和因果关系。例如，根据上下文，非常相似的CO(诸如电线<>变黑和电线<>烧坏)可能表示相同的信息，并且实际上是相同的。而且，因果连接可能非常明显，诸如，电池<>泄漏和汽车<>被拖走，但是它们也可能不是很明显，诸如，磨损的电线与安全气囊灯之间的关系。

一个目标是识别CO与同彼此相关的重叠CO的输出群集之间的高维度关联，以便捕获CO出现的不同上下文以及它们之间的关系。如果仅检验共现的CO之间的成对关系，或者仅检验原始事件而不丢掉不必要的信息，要么失去所有重要的上下文，要么失去推广和查找模式的所有能力。因此，根据本公开的实施方式的方法采用多尺度方法，该多尺度方法允许设置维度参数k，该维度参数k确定被认为相关的最大共现次数。例如，如果设置k＝2，则系统考虑CO的三元组而不是成对的关系，因为二维单纯形是三角形，各个顶点表示CO。

还需要过滤掉看起来是随机的或虚假的关系。为此，利用来自持续同调的概念，并且系统改变至少一个参数的值；仅考虑当参数ε变化时在系统中持续存在的特征，这表示有意义的阈值。改变参数ε的值意味着该值从最小值到最大值以固定步长变化，这是三个参数：

ε_min、ε_max、和ε_step。

如果CO的三元组倾向于一起出现，则以这些CO作为顶点的三角形应在系统中以相对较小的ε值出现。如果这三个CO一起导致第四个CO，则在ε进一步增加时，它们中的四个CO应该变成四面体的顶点。参数ε增加得越多，越多的信息被认为是相关的而不是随机的。通过构建该结构并找到称为G_k(ε)的网络的高维度分量，在高维度分量出现时捕获高维度关系，并在各个维度中输出分层递增群集。注意，在ε增加时，仅将附加连接添加到G_k(ε)，并且分量仅变得更大。这大大简化了系统存储关于这些群集的信息的能力；由于群集仅能增长得更大，所以对于所考虑的k的各个值，系统仅需要在G_k(ε)中存储连接两个CO的ε的最小值。

另外，提供了简化复杂几何结构的高层级信息。对于各对CO，数字的列表被关联，该数字的列表描述了针对各个维度k＝2、3、....d在至少一个群集中一起输出的最低ε值。这允许对单个CO进行成对比较，尽管如此，该CO仍包括共现单纯复形的几何结构中包含的许多聚类数据。

(3.1)数据

所考虑的数据包括来自GART数据库的具有事件的逐字描述的2001个单个事件、从逐字记录中提取的客户可观察对象(CO)的列表、以及具有各个事件是否表示危险状况的指示的输出列。另外，还提供了电线磨损与安全气囊警告灯相关联的信息。许多单个CO与这两个事件相关联，诸如，“电线<>损坏”和“安全气囊<>B101D”，其中B101D表示“安全气囊指示灯打开”的代码。

(3.2)系统和方法

图3例示了根据本公开的实施方式的聚类方法和警告生成的操作。系统将执行以下步骤：

1.输入包括客户可观察对象的列表的集合的事件数据(元素300)，诸如，上述的GART数据。选择输入参数(元素302)。

2.使用输入参数，构造单纯复形S(ε)(元素304)。

3.使用单纯复形S(ε)(元素301)构造面网络G_k(ε)(元素306)。

4.提取各个面网络G_k(ε)(元素303)中的一组连通分量(元素308)。

5.将该组连通分量作为输入(元素305)，将各个连通分量转变(元素310)成相关CO的群集(元素307)。

6.将各个提取的关系与已知关系数据库(元素312)进行比较。如果该关系不存在，则发出警报或警告(元素314)。先前未知关系构成异常出现，并且可能是值得调查和潜在召回的事情。

7.系统例如经由图形界面向主题专家发出警报，该图形界面显示对话框，该对话框具有数据库中先前未列出的所有关系(即，新的)，并且验证该关系的可能有效性(元素316)。

8.如果主题专家确定需要进一步调查(元素318)，则建议由另外专家(其可能建议召回)直接调查硬件(元素320)。

CO关系数据库(元素312)包括可以被认为是对本文描述的系统的输入的已知关系。还可以通过在输入可能包含异常的附加事件数据之前，输入已知不包含任何异常的旧事件数据，来使用训练步骤构造CO关系数据库(元素312)。

(3.3)构建单纯复形

单纯复形可以看作是一种更高阶网络，其可以保存不止成对信息。d维单纯复形的基本对象是针对k＝0、1、2、...、d的k-单纯形。0-单纯形是点，1-单纯形是线段，2-单纯形是等边三角形，并且3-单纯形是规则四面体。通常，k-单纯形是一组k+1个等距顶点的凸包，可以直观地将其视为k维四面体。k＞2的k维单纯形是更高维四面体。可以通过将顶点、线、面或更高维面粘合在一起，从一组单纯形构建单纯复形。对于具体细节和更多理论背景，参见参考文献1。如图4所示，为了构建d维单纯复形S(ε)，遵循以下步骤：

1.在查找各对CO的成对互信息之后(元素400)，如果对于某个度量μ，μ(x，y)＜ε，则通过连接任何两个CO x和y，构建关于CO的网络(元素402)。

2.对于各个k≤d，查找CO的所有k-团、每个可能连接所在的多组k个CO(元素404)。

3.利用k-单纯形替换步骤2中找到的各个k-团(元素406)。

注意，对于每个可能度量μ并且对于ε的各个正值，都存在单纯复形。将相异性度量μ定义成1/log[p(x，y)/p(x)p(y)]，并且成对互信息为log[p(x，y)/p(x)p(y)]，其中，p(x，y)是在随机选择的事件中共现一对CO的经验概率，而p(x)是单个CO x在随机选择的事件中出现的概率。因此，比率p(x，y)/p(x)p(y)描述了一对CO共现的可能性比它们将随机发生的可能性高多少倍。如果μ＜ε，或者等效地如果pmi＞1/ε，则两个对象相关。

在指定了度量、成对互信息之后，现在存在取决于ε的值的单纯复形的单参数族。对于ε＝0，复形只是一组0-复形，每个CO一个0-复形。对于足够大的ε，具有k个CO的每个事件将由k-单纯形表示。因此，在ε从0增加到足够大的值时，单个事件的上下文在单纯复形结构中变得更加占优势。

(3.4)面网络

定义“面网络”Gk(ε)如下：

1.gk(ε)的节点是S(ε)中的k-单纯形。

2.如果两个节点共享(k-1)维面，则两个节点被连接(例如，如果G₂(ε)中的两个三角形共享一个边，则两个三角形被连接)。

为了给出针对包含在网络G_k(ε)中的信息的一些洞察力，假设有四个CO：A、B、C、D。如果网络G₂(ε)中存在从(A、B、C)到(B、C、D)的连接，则指示A和D二者在事件中与B和C共现，捕获了B与C之间的二阶关系，无论两者是否曾共现。通常，网络G_k(ε)将倾向于共现的两组k个CO连接到在不同上下文中与这两组共现的第k+1个CO。还可能存在间接关系的更长链。将先前示例扩展为将(A、B、C)连接到(B、C、D)，并且将(B、C、D)连接到(C、D、E)。然后在A与E之间存在三阶关系，这两个CO可能不具有直接共现，或者甚至不具有二阶关系。

由于各个节点n表示单纯形，所以使V(n)为由n表示的单纯形的一组顶点，V(n)是一组CO。图5示出采取GART数据以及参数k和ε作为输入并且输出CO的重叠群集的算法。通过连接共享一个面(即，它们共同具有k-1个顶点)的所有k-单纯形来创建G_k(ε)网络(元素500)。针对网络G_k(ε)的各个不同连通分量C(元素502)，系统查找C中的所有节点的列表N(元素504)，查找与C中的节点对应的各个单纯形的所有顶点的并集V＝U_nεN v(n)(元素506)，并且输出V中的一组CO(元素508)。换句话说，对于任何给定ε值，将针对k＝2、3、...、d的网络G_k(ε)分解成连通分量C。G_k(ε)中的各个连通分量C被转变成顶点V的列表，这构成了CO的分层聚类。最大群集是从G₂(ε)的连通分量获得的群集，并且最小群集是从G_d(ε)的连通分量获得的群集。通过针对k和ε的各种值检验群集，可以验证CO之间的已知关系，诸如，安全气囊警告灯和电线相关问题。图8是列出本文描述的聚类算法的输出的表，示出了针对该对CO在G_k(ε)中的同一连通分量中的各个维度的最小ε值。空白条目意味着针对任何ε值都没有发现这种关系。

(3.5)利用层次结构的聚类算法

聚类算法的步骤如下：

1.选择参数d、ε_min、ε_max和ε_step(在第3.6节中详细描述)。

2.针对ε＝ε_min、ε_min+ε_step、ε_min+2ε_step、…、ε_max构建单纯复形S(ε)。

3.针对ε＝ε_min、ε_min+ε_step、ε_min+2ε_step、…、ε_max和k＝1、2、…d构建面网络Gk(ε)。

4.针对所有选定参数值查找Gk(ε)的连通分量。

5.针对I＝1、2、…、m的各个连通分量C_i(其中，m是G_k(ε)中的连通分量的总数)，提取V(C_i)并将CO的群集标记成R_i，k，ε。

6.输出所有群集R_i，k，ε。

对于各个固定k，可以将群集{R_i，k，ε}布置成分层结构。各个群集R_{i，k，εmin}可以连接到在R_{i，k，εmin+εstcp}中较大或相等大小并且包含R_{i，k，εmin}作为子集的至少一个群集。类似地，可以从R_{i，k，εmin+εstep}到R_{i，k，εmin}+2_εstep形成连接，并且依此类推，以创建以原始群集R_{i，k，εmin}为根的树。通过针对各个单个群集构建这种树，直到每个群集被包括在至少一个树中为止，聚类的分层结构可以表示成树的森林。最接近根的那些是直接关系，而更远的那些是更间接的关系。

(3.6)选择参数

如图3所示，必须输入由ε_min、ε_max和ε_step和最大维度d确定的一组ε值作为参数(元素302)，但是不能立即明确如何选择这些参数。在许多情况下，必须选择最大维度d，以便限制计算复杂度，因为在最坏的情况下，查找网络中的最大大小的团花费指数时间。在理论意义上讲，参数d应该被选择成与任何一个事件中的相关CO的最大数量减去一相匹配。也就是说，如果确定在任何单个事件中不出现多于3个相关CO，则取d＝2，使得单纯复形中的最高维度几何对象为三角形。在大多数情况下，该理论值是未知的，但是一种很好的启发法是在单纯复形中形成d-单纯形之前查找d的最小值(这要求较大ε_min值)。这指示多组d+1个CO之间的关系很弱。在合成数据分析中，设置d＝3，因为这足以准确识别群集。

为了选择ε参数，考虑包含率是有用的，包含率被定义成至少一个群集中包括的节点部分。参数ε_min和ε_step被选择为使得单纯复形S(ε_min)是无价值的(每个单纯形为0-单纯形、单个点)，但是具有低包含率的S(ε_min+ε_step)不是无价值的(至少一个单纯形是不止单个点)。S(ε_min)是无价值的ε_min的最大值可以使用例如二进制搜索被快速估算。然后可以选择ε_step的连续较小值，以确保在S(ε_min+ε_step)中最高为0.1的低包含率。最后，应选择ε_max，使得S(ε_max)中的包含率高，理想地为1。可能的情况是，如在本文所述的合成数据中，一些CO完全没有关系并且不属于任何群集，因此如果包含率未达到1，则可能不指示任何不准确。

为了允许对CO进行更高阶直接比较，而不必针对ε和k的许多不同值检验CO的重叠群集，创建了基于分层聚类数据的信息表。该表为n(n-1)/2乘d+1的，其中，n是CO的数量。表的各个行表示不同对CO，并且第i列是ε的最小值(如果有)，对于该ε，该对CO在G_i(ε)的相同分量中。图8中的表是列1和列2中的CO的比较，这确定了它们在任何上下文之外的关系的性质。例如，第二行示出安全气囊警告灯<>打开和电线<>烧坏倾向于被一起聚类在G₄(ε)中，指示从线束<>短路到线路<>短路导致的共现的链涉及至少两个其它CO。然而，可能存在对应于不同现实世界上下文的许多这种链。因此，对于固定ε和k，直接输出G_k(ε)的连通分量的顶点中包含的CO。图9中的表列出了对于ε＝0.15和k＝4的示例群集输出，各个行表示CO的群集。注意，电线相关客户可观察对象与安全气囊相关CO一起被聚类在第2行和第9行中。

(3.7)关于合成数据的结果

由于在没有参考标准(ground truth)的情况下很难量化关于GART数据的结果，所以生成合成数据，该数据包括由500个“客户可观察对象”组成的列表，这些“客户可观察对象”被任意地标记成1至500的整数。这些数字只是标签，因为此处的“客户可观察对象”是抽象的，不代表任何内容。随机网络是关于节点的子集生成的，这些子集表示CO的群集上的隐藏因果关联。这些子集取0到99、100到199、200到299、300到399和400到499。即，群集由CO标签的主导数字确定。对于各个群集，随机地均匀选择500个连接，这些连接表示该群集中的CO之间的因果关系。这五个群集及关于其构造的网络表示合成CO之间的复杂基础关系，并且目标是在不具有基础关系网络的任何知识的情况下恢复群集。

为了创建数据集，基于这些基础关系生成1000000个事件。对于各个事件，本文描述的系统从幂为2.5的幂律分布中采样以确定事件的长度，选择随机CO作为事件向量的初始条目，并且然后依次选择最后绘制的CO的邻居作为下一个条目，直到选择所有条目为止。例如，如果事件向量的长度为3，则系统首先选择0至499之间的随机数来表示初始CO。如果例如是354，则在放置在包含300至399的群集上的网络中选择为354的随机邻居用于第二个条目。然后，选择第二个条目的邻居以确定第三个条目。最后，生成噪声的几何分布量。

使用该1000000个事件的数据集，系统构建了一组单纯复形并且构造了网络G_k(ε)。检查G_k(ε)的各个连通分量中的各个条目，并且如果根据参考标准确定该分量中的大多数条目属于同一群集，则将其计为正值。注意，对于较小ε，创建的分量将较小，并且一些CO可能不包括在任何群集中。图6是示出了针对二维的准确性结果和包含结果的标绘图，图7是示出了针对三维的准确性结果和包含结果的标绘图。绘制了准确率(CO放置在正确群集中的部分)以及包含率(与CO的总数相比所包括的CO的部分)二者。在图6和图7中，实心圆600表示准确性结果，并且未填充圆602表示包含结果。较低的包含率很可能是指示丢失许多重要关系的强指示。在这种情况下，系统将倾向于查看具有在数据中更强烈表示的关系的CO的较小群集，如针对较低ε值的非常高准确性值所证明的。

总之，本文描述了提取从GART事件数据中提取的客户可观察对象的重叠群集的方法。根据本公开的实施方式的技术经由单纯复形捕获客户可观察对象的高阶共现，并且输出CO的通过因果连接或相似性相关的群集。该系统准确地输出CO关于合成数据的因果相关集合的群集。另外，本文描述的系统查找如图8的表中所示的CO的成对比较，这消除了CO发生的上下文，但是在上下文之外确定CO的关系的强度。现有系统缺乏“持续性”的基本概念，该基本概念在本文所述的系统中用于区分指示强直接关系的较小的更持续的群集以及指示更多间接关系的较大的较不持续的群集。使用持续几何形状来捕获多维度中的直接和间接共现关系是根据本公开的实施方式的方法所独有的。

例如，本文描述的发明可以用于分析各种类型的客户可观察对象(CO)，包括从保证数据、技术中心提取的CO以及来自汽车制造公司的维修记录。尤其是，输出“相关”CO的群集，这些群集可能在各种不同的上下文中相关。CO可能在相似性方面相关，诸如，影响同一车辆零件的问题，或者在因果关系上相关，诸如，一个零件的问题致使另一车辆零件的意外问题。这可以为主题专家提供可行的洞察力，他们可以识别哪些CO由于相似性而相关，并推断其它关系可能是因果关系。如果怀疑先前未知的因果关系，则可能导致对硬件本身进行调查以查找机械原因，这有可能潜在地导致召回。也就是说，如果客户可观察对象A、B和C都存在于同一群集中，但是主题专家可以很容易地看到A和B是相似的，则A和B二者都可能致使C或由C致使，或者C可能是假正值。举一个具体的例子，假设存在三个CO：轮胎<>扁、轮胎<>钉和冷却系统<>清除。在这种情况下，主题专家不会认为前两个CO是受关注的，因为这种关系很明显，但是最后一个CO(即，清除)(其可能指示冲洗了冷却液)是假正值或者冷却系统与扁轮胎之间的高度意外关系。

一些CO(诸如，指示安全气囊展开或方向盘不起作用的那些CO)与可能导致事故的危险状况相关联。如果通过该方法揭示出与这种危险CO的先前未知关系，则可以向主题专家发出警报以调查硬件，并且确定是否存在致使该关系的机械故障。如果是这样，则可以将该信息传递至其它专家，其它专家可以决定是否建议召回以便纠正错误。这可能潜在地识别出现的问题，这些问题是型号特定的。另外，有关危险CO的警报可以用于停止特定车辆零件或型号的生产。例如，可以将先前未知关系自动添加到数据库中，以便稍后由主题专家确认为潜在关系，并且如果该关系涉及危险分量，则可以自动中止项目的销售。另外，可以自动发出产品的召回，其中，警报是发送至产品的注册用户/所有者的消息(例如，经由电子邮件或文本消息)。另选地，信号可以被自动地直接传输到车辆(例如，经由基于蜂窝、无线或卫星的通信网络)，以激活警告灯或在图形用户界面上呈现消息。该消息可以采取指示车辆的用户对其进行维修的警报的形式。例如，如果在已知关系数据中不存在所提取的关系，则系统自动生成车辆的用户需要维修车辆的警报。

还存在自然语言处理的应用，因为根据本公开的实施方式的聚类算法可以应用于从文本集合中获取的词，以便输出词的重叠群集。上下文在自然语言处理中极为重要，并且与仅捕获成对关系而丢失具体上下文的共现网络相比，共现单纯复形在经由面网络(参见第3.4节)的连通分量捕获可能出现的词中的多个上下文方面要好得多。在一个实施方式中，对社交媒体帖子(例如，推文)中的一组关键词执行聚类，以便基于每个推文中使用的关键词的特定组合将它们分成适当的类别。作为一个简单的例子，关键词“石油”可以包含在对应于不同上下文的三个不同群集中，在不同上下文中其被用作：食品成分、贸易资源以及能源。在第一种情况下，“石油”将与其它食物相关联，在第二种情况下，“石油”将与贸易术语相关联，诸如“关税”或“协议”，在最后一种情况下，“石油”可能与诸如“可再生”和“天然气”的词相关联。

另一可能应用是特征学习。特征向量可以被编码成“事件”，该事件描述具体事件中的哪些特征是异常的，诸如，远离均值多于单个标准偏差。本文所述的聚类算法可以用于发现有关特征的高维度交互的复杂信息。考虑具有被编码成高维度向量的特征的图像，所有这些图像均具有某些不同特征，诸如，交通标志。通过如上所述将各个图像视为“事件”，本文所述的系统可以识别交互特征的群集。这不仅识别了重要特征的列表，还根据特征的依赖性对特征进行了分组。

图10是例示了使用处理器104基于由系统生成的警报来控制设备1000的流程图。可以经由处理器104控制的设备1000的非限制性示例包括将未列出的关系输出到主题专家的显示设备。CO之间的所有新关系都存储在数据库中，并且警报被发送至其它主题专家，以确认该关系有效。数据库和显示警报的显示屏都可以被认为是受控制的设备1000。

最后，尽管已经根据几个实施方式描述了本发明，但是本领域的普通技术人员将容易认识到，本发明可以在其它环境中具有其它应用。应当注意，许多实施方式和实现是可能的。另外，所附权利要求绝不旨在将本发明的范围限制到上述特定实施方式。另外，“用于……的装置”的任何表述旨在引起对要素和权利要求的装置加功能阅读，而不特别使用“用于……的装置”的表述的任何要素不旨在被读作装置加功能要素，即使权利要求书中另外包括“装置”一词。此外，尽管以特定顺序叙述了特定方法步骤，但是这些方法步骤可以以任何期望顺序发生，并且落入本发明的范围内。

Claims

1.一种用于提取车辆中的客户可观察对象CO的列表上的多尺度分层聚类的系统，所述系统包括：

一个或更多个处理器以及非暂时性计算机可读介质，所述非暂时性计算机可读介质上编码有可执行指令，使得当所述可执行指令被执行时，所述一个或更多个处理器执行以下操作：

选择具有针对包括CO数据的一组事件数据的值的至少一个参数；

基于所选择的所述至少一个参数，从所述CO数据生成一组d维单纯复形，所述d维单纯复形的基本对象是针对k＝0、1、2、...、d的k-单纯形，各个k-单纯形具有k+1个顶点并且各个顶点表示单个CO，k是维度参数并且k≤d，其中，所述一个或更多个处理器还执行改变所述至少一个参数的值的操作，其中，仅在所述至少一个参数的值改变时持续存在的CO被用于生成所述d维单纯复形；

从所述d维单纯复形生成面网络；

针对各个面网络，提取一组连通分量，并且针对各个面网络的各个不同连通分量，将所述连通分量转变成顶点的列表；

基于顶点的列表，输出所述CO的多尺度分层重叠群集，得到至少CO之间的第一提取关系；以及

将所述第一提取关系与已知关系数据库进行比较，如果在所述已知关系数据库中不存在所述第一提取关系，则在客户端设备处自动生成警报，以提醒验证所述第一提取关系的有效性。

2.根据权利要求1所述的系统，其中，在生成所述单纯复形时，所述一个或更多个处理器执行以下操作：

针对各对CO确定成对互信息量度；

连接具有大于所选择的所述至少一个参数的所述值的成对互信息量度的各对CO；

识别每个可能连接所在的CO的k团；以及

利用k单纯形替换各个k团。

3.根据权利要求2所述的系统，其中，各个面网络是通过连接共享一个面的所有k单纯形创建的网络。

4.根据权利要求1所述的系统，其中，所提取的CO之间的关系被用于识别CO出现的不同上下文以及CO之间的关系。

5.一种计算机实现方法，所述计算机实现方法用于提取车辆中的客户可观察对象CO的列表上的多尺度分层聚类，所述计算机实现方法包括以下动作：

使一个或更多个处理器执行在非暂时性计算机可读介质上编码的指令，使得在所述指令被执行时，所述一个或更多个处理器执行以下操作：

基于所选择的所述至少一个参数，从所述CO生成一组d维单纯复形，所述d维单纯复形的基本对象是针对k＝0、1、2、...、d的k-单纯形，各个k单纯形具有k+1个顶点并且各个顶点表示单个CO，k是维度参数并且k≤d，其中，所述一个或更多个处理器执行改变至少一个参数的值的操作，其中，仅在所述至少一个参数的值改变时持续存在的CO被用于生成所述d维单纯复形；

从所述d维单纯复形生成面网络；

6.根据权利要求5所述的方法，其中，在生成所述单纯复形时，所述一个或更多个处理器执行以下操作：

针对各对CO确定成对互信息量度；

识别每个可能连接所在的CO的k团；以及

利用k单纯形替换各个k团。

7.根据权利要求6所述的方法，其中，各个面网络是通过连接共享一个面的所有k单纯形创建的网络。

8.根据权利要求5所述的方法，其中，所提取的CO之间的关系被用于识别CO出现的不同上下文以及CO之间的关系。

9.一种非暂时性计算机可读介质，所述非暂时性计算机可读介质上存储有计算机程序，所述计算机程序用于提取车辆中的客户可观察对象CO的列表上的多尺度分层聚类，所述计算机程序包括：

计算机可读指令，所述计算机可读指令能够由具有一个或更多个处理器的计算机执行，以使所述处理器执行以下操作：

基于所选择的所述至少一个参数，从所述CO数据生成一组d维单纯复形，所述d维单纯复形的基本对象是针对k＝0、1、2、...、d的k-单纯形，各个k单纯形具有k+1个顶点并且各个顶点表示单个CO，k是维度参数并且k≤d，其中，所述至少一个或更多个处理器还执行改变至少一个参数的值的操作，其中，仅在所述至少一个参数的值改变时持续存在的CO被用于生成d维单纯复形；

从所述d维单纯复形生成面网络；

10.根据权利要求9所述的非暂时性计算机可读介质，其中，在生成所述单纯复形时，所述一个或更多个处理器执行以下操作：

针对各对CO确定成对互信息量度；

识别每个可能连接所在的CO的k团；以及

利用k单纯形替换各个k团。

11.根据权利要求10所述的非暂时性计算机可读介质，其中，各个面网络是通过连接共享一个面的所有k单纯形创建的网络。

12.根据权利要求9所述的非暂时性计算机可读介质，其中，所提取的CO之间的关系被用于识别CO出现的不同上下文以及CO之间的关系。