CN110945559B - 用于时间事件数据序列的优化视觉概要的方法和系统 - Google Patents
用于时间事件数据序列的优化视觉概要的方法和系统 Download PDFInfo
- Publication number
- CN110945559B CN110945559B CN201880049031.2A CN201880049031A CN110945559B CN 110945559 B CN110945559 B CN 110945559B CN 201880049031 A CN201880049031 A CN 201880049031A CN 110945559 B CN110945559 B CN 110945559B
- Authority
- CN
- China
- Prior art keywords
- events
- cluster
- event
- graphical depiction
- pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 121
- 230000000007 visual effect Effects 0.000 title description 16
- 230000008569 process Effects 0.000 claims abstract description 96
- 238000005457 optimization Methods 0.000 claims abstract description 21
- 238000012937 correction Methods 0.000 claims description 81
- 238000012217 deletion Methods 0.000 claims description 9
- 230000037430 deletion Effects 0.000 claims description 9
- 239000000654 additive Substances 0.000 claims 2
- 230000000996 additive effect Effects 0.000 claims 2
- 238000004458 analytical method Methods 0.000 description 14
- 230000009467 reduction Effects 0.000 description 13
- 238000012360 testing method Methods 0.000 description 11
- 244000193174 agave Species 0.000 description 9
- 230000000875 corresponding effect Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 230000006872 improvement Effects 0.000 description 9
- 230000003993 interaction Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000017105 transposition Effects 0.000 description 7
- 230000002452 interceptive effect Effects 0.000 description 6
- 230000000670 limiting effect Effects 0.000 description 6
- 230000002829 reductive effect Effects 0.000 description 6
- 238000012800 visualization Methods 0.000 description 6
- 238000001914 filtration Methods 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 240000006829 Ficus sundaica Species 0.000 description 1
- 102100035964 Gastrokine-2 Human genes 0.000 description 1
- 101001075215 Homo sapiens Gastrokine-2 Proteins 0.000 description 1
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000007794 visualization technique Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
- G06F16/287—Visualization; Browsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2477—Temporal data queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
- G06F9/542—Event management; Broadcasting; Multicasting; Notifications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Multimedia (AREA)
- Image Generation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种用于生成概述事件序列的图形描绘的方法,包括:接收多个事件序列,所述多个事件序列中的每个事件序列包括多个事件;以及使用最小描述长度(MDL)优化过程生成多个集群。所述多个集群中的每个集群包括所述多个事件序列中被映射到每个集群中的模式的至少两个事件序列的集合。每个集群中的模式进一步包括多个事件,所述多个事件被包括在集群中的至少两个事件序列的集合中的至少一个事件序列中。所述方法包括生成所述多个集群中的第一集群的图形描绘,所述图形描绘包括第一集群模式中的第一多个事件的图形描绘。
Description
优先权要求
本申请要求题为“Sequence Synopsis: Optimize Visual Summary of TemporalEvent Data”并且于2017年7月27日提交的美国临时申请No.62/537,621的权益,该申请的全部内容特此通过引用并入本文中。
技术领域
本公开总体上涉及计算机图形领域,并且更具体地,涉及用于生成数据序列的概述图形显示的系统和方法。
背景技术
除非本文另有指示,否则本节中描述的材料不是对于本申请中权利要求的现有技术,并且不通过包含在本节中而被承认为现有技术。
事件序列数据(即多个系列的带时间戳的或有序的事件)在宽范围的领域中日益普遍。网站点击流、软件应用中的用户交互日志、医疗保健中的电子健康记录(EHR)和汽车行业中的车辆错误日志都可以被建模为事件序列。关于这样的数据进行推理并且从这样的数据得出见解对于在这些领域中的有效决策制定是关键的。例如,通过分析车辆错误日志,可以标识典型的故障发展路径,其可以告知更好的策略来预防故障发生或提前警告驾驶员,并且从而改进驾驶员体验并降低保修成本。相似地,通过分析用户与软件应用的交互日志,可以标识可用性问题和用户行为模式,以告知接口的更好设计。
现代计算系统能够生成大的事件序列集合的图形显示,所述事件序列集合包括例如:包含数百、数千和数百万个事件序列的集合。然而,虽然现代计算硬件可以产生非常大的事件序列集合的图形描绘,但是如此复杂的信息的显示经常使人类用户不知所措,这导致数据对于分析而言不太有用。现实世界数据的大的事件序列集合的显示经常产生视觉的“混乱”,这是由于具有高事件基数的事件序列的噪声和复杂性质,所述性质向针对这样的数据构建简洁而全面的综述提出了挑战。因此,对生成事件序列的图形描绘的方法和系统的改进将是有益的,所述图形描绘改进表示大的事件序列集合的图形生成,以减少混乱并改进图形的可理解性。
发明内容
事件序列分析在具有非限制性的用途集合的许多应用领域中发挥重要作用,所述用途包括客户行为分析的可视化、电子健康记录分析和车辆故障诊断。本文中描述的实施例提供了基于最小描述长度(MinDL)优化过程的可视化技术,以构建事件序列数据的直观的粗略级别综述,同时平衡其中的信息损失。所述方法解决可视化设计中的根本性权衡:减少视觉混乱相对于增加可视化中的信息内容。所述方法使能同时序列聚类和模式提取,并且其对诸如数据中的缺失或附加事件之类的噪声是高度耐受的。基于该途径,实施例提供了具有多个细节级别的视觉分析框架,以促进交互式数据探索。
在一个实施例中,已经开发了一种用于生成概述事件序列的图形描绘的方法。所述方法包括:利用处理器接收多个事件序列,所述多个事件序列中的每个事件序列包括多个事件;以及利用处理器使用最小描述长度(MDL)优化过程生成多个集群,所述多个集群中的每个集群包括所述多个事件序列中的映射到每个集群中的模式的至少两个事件序列的集合。每个集群中的模式进一步包括多个事件,所述多个事件被包括在集群中的至少两个事件序列的集合中的至少一个事件序列中。所述方法进一步包括利用处理器和显示输出设备生成所述多个集群中的第一集群的图形描绘,所述图形描绘包括第一集群模式中的第一多个事件的图形描绘。
在另一个实施例中,已经开发了一种用于生成二分图的图形描绘的系统。所述系统包括显示输出设备、存储器和操作性地连接到显示输出设备和存储器的处理器。存储器被配置为存储程序指令和多个事件序列,所述多个事件序列中的每个事件序列包括多个事件。处理器被配置为执行程序指令以使用最小描述长度(MDL)优化过程生成多个集群,并且所述多个集群中的每个集群包括所述多个事件序列中的映射到每个集群中的模式的至少两个事件序列的集合。每个集群中的模式进一步包括多个事件,所述多个事件被包括在集群中的至少两个事件序列的集合中的至少一个事件序列中。处理器进一步被配置为利用显示输出设备生成所述多个集群中的第一集群的图形描绘,所述图形描绘包括第一集群模式中的第一多个事件的图形描绘。
附图说明
图1是生成概述事件序列的图形描绘的系统的示意图。
图2是用于生成概述事件序列的图形描绘的过程的框图。
图3是用于在图2的过程期间合并集群的过程的框图。
图4是描绘使用本文中描述的实施例而生成的概述事件序列的图形描绘中的序列、模式和校正的图解。
图5是描绘对于如下内容的处理时间要求的图表:使用事件序列的样本输入集合、利用本文中描述的实施例来生成概述事件序列。
图6是描绘对于如下内容的处理时间要求的图表:使用事件序列的样本输入集合、利用本文中描述的实施例来生成具有不同级别的总描述长度缩减的概述事件序列。
图7是描绘在事件序列概要中为了校正模式以匹配被映射到该模式的序列而发生的编辑的图解。
图8是描绘概述校正数据的一个实施例的图解。
图9是图形用户接口的示例,所述图形用户接口显示概述事件序列并提供交互式元素来更新概述事件序列的显示。
图10是在具有不同时间尺度的时间线上布置的概述事件序列的描绘。
图11是描绘通过模式相似度而被分类的概述事件序列的图解。
图12是用于对事件序列进行概述的最小描述长度优化过程的实施例的伪代码列表。
图13是用于对事件序列进行概述的最小描述长度优化过程的另一个实施例的伪代码列表,所述优化过程具有局部敏感哈希。
图14是用于合并图3的集群的过程的实施例的伪代码列表。
具体实施方式
出于促进对本文中公开的实施例的原理的理解的目的,现在对附图和以下书面说明书中的描述进行参考。参考没有对本主题的范围进行限制的意图。本公开还包括对图示实施例的任何变更和修改,并且包括如本公开所属领域的技术人员将通常想到的所公开实施例的原理的另外应用。
本文中描述的实施例生成数据序列的两部分图形表示,所述两部分图形表示将事件序列数据的显示简化成模式集合以及(如果需要的话)校正集合,所述校正集合用于原始输入中不与模式中的一个精准匹配的序列。数据序列S是个体事件的有序列表,其中/>是事件字母表。每个序列数据集合S中的事件形成线性序列,所述线性序列也可以被称为线性图,其中所述图中的每个节点是序列中的事件,并且所述序列通过边而在序列中线性连接。给定事件序列集合/>,本文中描述的实施例执行最小描述长度(MINDL)优化过程来标识模式集合/>,以及从事件序列到最小化总描述长度的模式的映射/>,所述总描述长度是:/> 。在前述等式中,/>是每个模式P的描述长度,并且/>是由模式/>给定的序列S的描述长度。可以通过列出在模式中的所有事件来描述每个模式P,并且可以通过所涉及的事件和位置来完全指定改变事件的对模式P的编辑,以将总描述长度的替代形式产生为:
其中是模式P中的事件数量,并且/>是可以将模式/>变换回到事件序列S的编辑集合。如下面更详细描述的,编辑包括事件添加、事件删除和序列中两个连续事件之间的换位。参数/>是数字参数,其与所显示事件的概要中被接受的错误级别相比,控制事件序列中显示的信息量,其中更混乱的显示一般具有更少的错误,并且整洁的显示一般具有更多的错误。添加参数/>以直接控制模式P的总数量。增加/>减少优化结果中存在的模式P的数量。
映射将事件序列聚类在一起:映射到相同模式P的序列可以被认为是在单个集群中。集群被标示为元组/>,其中/>是被映射到模式P的序列集合。所有集群的元组集合被标示为/>(对于k个元组),其中/>中的每个形成集合S中的分区。本文中描述的实施例寻求通过找到最小化描述长度/> 的所估计集群集合/>,来找到最小化总描述长度/>的所估计映射/>和所估计模式集合/>。
本文中描述的实施例最小化集群的描述长度,以使能复杂序列数据的图形概要。所述概要包括在一个或多个集群中的所生成模式的图形显示,其中每个模式对一个或多个输入序列S进行概述以减少视觉混乱。因为一些序列可能不完全准确地由模式中的一个来描绘,所以所述概要还包括不与模式精准匹配的序列的校正数据的图形显示,以确保事件序列的视觉显示方面的准确性。
图1是计算机图形系统100的示意图,计算机图形系统100被配置为生成事件序列的概述图形描绘。系统100使用本文中描述的方法来在具有减少的混乱的情况下生成对事件序列进行概述的模式的图形描绘。系统100包括处理器108,处理器108操作性地连接到存储器120、输入设备150和显示输出设备154。如下面更详细描述的,在操作期间,系统100从存储器120或另一个源接收包括多个序列的事件序列数据;基于最小描述长度优化过程生成事件序列数据的概述的输出图形描绘,所述最小描述长度优化过程减少原始事件序列中的混乱;并且可选地生成校正图形的输出图形描绘,所述校正图形提供对可能被引入概述事件序列模式中的错误(如果有的话)的校正。
在系统100中,处理器108包括实现中央处理单元(CPU)112和图形处理单元(GPU)116的功能性的一个或多个集成电路。在一些实施例中,处理器是片上系统(SoC),其将CPU112和GPU 116以及可选地包括存储器120的其他部件的功能性集成到单个集成设备中,而在其他实施例中,CPU 112和GPU 116经由诸如PCI express或另一合适的外围数据连接之类的外围连接设备彼此连接。在一个实施例中,CPU 112是实现指令集合的商业上可获得的中央处理设备,所述指令集合诸如x86、ARM、Power或MIPS指令集合族中的一个。GPU 116包括用于至少二维(2D)和可选的三维(3D)图形的显示的硬件和软件。在一些实施例中,处理器108使用GPU 116中的硬件功能性来执行包括驱动程序和其他软件指令的软件程序,以加速对本文中描述的概述事件序列和校正的图形描绘的生成和显示。在操作期间,CPU 112和GPU 116执行从存储器120检索的所存储编程指令124。所存储程序指令124包括控制CPU112和GPU 116的操作的软件,以基于本文中描述的实施例生成事件序列的图形描绘。虽然图1描绘了包括CPU 112和GPU 116的处理器108,但是替代实施例可以省略GPU 116,这是因为在一些实施例中,服务器中的处理器108仅使用CPU 112生成输出图像数据136,并且将该输出图像数据136传输到使用GPU和显示设备来显示图像数据的远程计算设备。此外,处理器108的替代实施例可以包括微控制器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)或者除了CPU 112和GPU 116之外或作为CPU 112和GPU 116的替换物的任何其他合适的数字逻辑设备。
在系统100中,存储器120包括非易失性存储器和易失性存储器设备二者。非易失性存储器包括固态存储器,诸如NAND闪速存储器、磁和光存储介质或者当系统100去激活或失去电力时保留数据的任何其他合适的数据存储设备。易失性存储器包括静态和动态随机存取存储器(RAM)。在一些实施例中,CPU 112和GPU 116各自具有对单独的RAM设备(例如CPU 112的DDR SDRAM的变体和GPU 116的GDDR、HBM或其他RAM的变体)的访问,而在其他实施例中,CPU 112和GPU 116访问共享存储器设备。存储器120存储软件编程指令124和数据,包括事件序列数据128、局部敏感哈希(LSH)表132、概述事件序列和校正数据134以及概述事件序列和校正的输出图像数据136。
存储器120以任何合适的格式存储事件序列数据128,所述格式包括例如以逗号分隔值(CSV)、制表符定界、空格定界或存储事件序列的其他定界数据格式来存储数据序列的数据文件格式。在其他实施例中,系统100以图形数据格式接收事件序列的图形数据,并且每个序列包括来自序列S中的集合E的事件的有序组合,所述图形数据格式诸如DOT图形描述语言格式,图形建模语言(GML),各种基于可扩展标记语言(XML)的格式——包括但不限于图形XML、图形ML、图形交换语言(GXL)、可扩展图形标记和建模语言(XGMML),以及利用事件字典中预定的事件集合E对节点数据进行编码的任何其他合适的数据格式。在本文中描述的实施例中,事件序列数据128包括多个序列,其中项S表示事件序列数据128的所有事件序列。在许多实例中,事件序列S表示事件随时间的依次发生,其也被称为时间序列。然而,本文中描述的实施例也可以产生其他线性事件序列的图形概要,即使事件不按时间序列排序,所述线性事件序列也按序列顺序放置事件。系统100对所有事件序列S进行概述,以产生对事件序列进行概述的模式的图形显示,同时减少仅当直接显示所有事件序列数据128时才发生的视觉混乱。
存储器120可选地存储处理器108基于事件序列数据128生成的LSH表132。在图1的实施例中,存储器120存储LSH表132,LSH表132改进在最小描述长度优化过程中找到具有高度相似度的模式的集群的性能。LSH表132提供系统100的改进的计算性能,并且对于大的序列数据集合特别有益。然而,如下所述,在一些实施例中,系统100不利用LSH表132,并且在这些实施例中,存储器120不需要存储LSH表132。
存储器120还存储概述事件序列和校正数据134。如下面进一步详细描述的,系统100生成概述事件序列作为一个或多个集群的集合,其中每个集群包括对事件序列数据128中的一个或多个事件序列进行概述的模式。系统100基于概述事件序列数据134生成概述事件序列的图形描绘,以当使多个事件序列可视化时减少视觉混乱。校正数据使得系统100能够跟踪并生成在概述事件序列模式与一个或多个原始事件序列之间的校正的图形显示,如果模式不与事件序列精准匹配的话。
存储器120还存储:输出概述事件序列和校正图像数据136,其包括一个或多个图像数据集合,系统100生成所述一个或多个图像数据集合以产生事件序列数据的概述的图形输出以及可选地对事件序列概要的校正的图形描绘。在一些实施例中,处理器108使用诸如JPEG、PNG、GIF等光栅化图像格式生成输出图像数据136,而在其他实施例中,处理器108使用诸如SVG之类的矢量图像数据格式或另一合适的矢量图形格式生成输出图像数据136。
在系统100中,输入设备150包括使得系统100能够接收事件序列数据128的任何设备。合适的输入设备的示例包括人机接口输入,诸如键盘、鼠标、触摸屏、语音输入设备等。此外,在一些实施例中,系统100将输入设备150实现为从另一计算机或外部数据存储设备接收事件序列数据的网络适配器或外围互连设备,这对于以高效的方式接收大的事件序列数据集合可以是有用的。
在系统100中,显示输出设备154包括再现系统100基于事件序列数据生成的概述事件序列和校正图形的图形显示的电子显示屏、投影仪、打印机或任何其他合适的设备。虽然图1描绘了使用并入显示输出设备154的单个计算设备来实现的系统100,但是系统100的其他实施例包括多个计算设备。例如,在另一个实施例中,处理器108生成输出图像数据136作为描绘概述事件序列和校正的一个或多个图像数据文件,并且处理器108经由数据网络将图像数据文件传输到远程计算设备,以使用被并入在远程计算设备中的显示输出设备进行显示。远程计算设备显示图像数据文件,并且在该实施例中,处理器108间接地、而不是经由图1中所描绘的直接连接而操作性地连接到远程客户端计算设备中的显示设备。在一个非限制性示例中,处理器108被实现在服务器计算设备中,所述服务器计算设备执行所存储程序指令124以实现web服务器,所述web服务器经由数据网络将输出图像文件数据136传输到远程客户端计算设备中的web浏览器。客户端计算设备实现web浏览器或其他合适的图像显示软件,以使用被集成到客户端计算设备中的显示输出设备154来显示从服务器接收的输出图像数据136。
图2描绘了用于生成概述事件序列的图形描绘的过程200。在下面的描述中,对过程200执行功能或动作的引用是指处理器执行所存储程序指令以执行与计算机图形系统中的其他部件相关联的功能或动作的操作。为了说明性目的,结合图1的系统100描述了过程200。
过程200随着系统100接收事件序列数据(框204)而开始。事件序列数据包括多个序列,其中每个序列包括多个事件E,所述多个事件E利用边被线性链接在一起以形成序列。如图1中所描绘的,系统100将事件序列数据128存储在存储器120中。图4描绘了被标注为的多个六个事件序列404的示例。每个事件序列包括两个或更多个事件,在图4中出于说明性目的,所述两个或更多个事件中的每个事件被标注为/> ,尽管当然在其他实施例中,每个事件标注可以取决于事件序列的领域而对应于不同的事件。如图4中所描绘的,事件可以在不同的序列中以不同的顺序发生,个体事件可以在个体序列中发生多于一次,并且个体序列可以包括所有可能的事件或者仅包括可能事件的子集。所有六个事件序列的集合404形成集合/>。如图4中所描绘的,每个事件序列对事件从左到右进行线性排序,以形成线性序列。
过程200随着系统100初始化模式集群和优先级队列而继续(框208),所述模式集群和优先级队列在作为过程200的部分发生的最小描述长度(MinDL)优化过程中被使用。在一个实施例中,处理器108将初始模式P设置为等于原始输入序列S,并且在集合与模式之间的映射G将单个集合S映射到对应的模式P。实际上,过程200初始将每个初始输入序列S视为仅包括一个序列的个体集群。所有集群的初始集合包括个体模式和与原始输入相匹配的每个模式的个体序列。例如,如图4中所描绘的,所有集群/>的初始集合包括总共六个集群,所述六个集群中的每个包括与六个输入序列/>中的一个精准匹配的一个模式。如下面进一步详细描述的,过程200合并集群以产生更紧凑的模式,所述更紧凑的模式减少视觉混乱,同时潜在地产生不与原始输入序列精准匹配的模式。处理器108生成优先级队列Q,优先级队列Q被初始化为空。更详细地,图12描绘了过程200的一部分的实施例的伪代码列表1200,伪代码列表1200使用穷举搜索将集群合并在一起来执行MinDL优化过程。图13描绘了过程200的一部分的另一实施例的另一伪代码列表1300,伪代码列表1300执行MinDL优化过程,该MinDL优化过程使用局部敏感哈希(LSH)表132来将具有高度相似度的集群合并在一起、而不是使用图12的穷举搜索过程。
过程200随着以下操作继续:系统100在执行附加的迭代合并操作之前执行集群对的第一合并,以利用集群填充优先级队列Q(框212)。将集群合并在一起形成新模式,所述新模式将原始序列的元素组合到两个集群中,尽管新模式可能不与两个集群中的原始序列精准匹配。下面在图3中提供了描述每对集群之间的合并操作的附加细节。图12在至少第3-8行中描绘了初始合并过程的一个实施例。在图12的实施例中,处理器108合并集群的每个可能的成对组合,其中i≠j(例如集群/>的每个成对组合对应于图4中的原始序列,排除了对于一对输入二者使用相同的集群,诸如不将/>与/>合并)。如果合并产生经合并的集群/>,其与原始的两个集群相比也缩减总描述长度(/>),则将经合并的集群/>连同产生了组合与/>值的原始源集群/>一起插入优先级队列Q中。因此,被添加到优先级队列Q的初始合并的集群各自包括映射到模式的两个事件序列的集合,并且下面描述的附加合并过程产生将更大的输入事件序列集合映射到单个模式的集群,如果这样的合并进一步缩减描述长度的话。优先级Q存储经合并的集群/>,其中具有最大/>值的集群被存储在基于/>以降序的队列的前面。
虽然图12的过程标识产生总描述长度缩减的集群对,但是所述过程需要合并和比较集群的每个可能组合,这对于大的集群集合而言可能在计算上是低效的。图13的实施例呈现用以执行第一合并的计算上更高效的过程,所述过程在至少第5-16行中还包括对LSH表132的初始化。处理器108使用以其他方式在本领域已知的局部敏感哈希方案从所有集群生成LSH表132。LSH方案使得处理器108能够执行计算上高效的最近邻搜索过程,以在给定输入集群/>的情况下搜索遍所有集群/>,并且标识与输入集群/>相比具有高于预定阈值/>的Jaccard相似度指数的任何集群(可以标识零个、一个或多个集群)。较高的Jaccard相似度指数值指示两个集群之间较高度的相似度,并且反之亦然。在系统100中,两个集群和/>的Jaccard相似度指数是/>,其中/>是模式/>中表示集群/>的唯一事件集合,并且/>是模式/>中表示集群/>的唯一事件集合。在本文中描述的实施例中,的值范围取自/>,其中0指示最低级别的相似度,并且1指示最大级别的相似度。
在图13中所描绘的LSH实施例中,处理器108利用在范围中选择的预定阈值、使用lshInit函数初始化LSH表132。具有高相似度的两个集群将具有以高概率超过/>的Jaccard索引值。处理器108使用lshInsert函数将/>中的每个集群/>添加到LSH表132中。在第一合并过程期间,处理器108仅标识超过每个集群/>的阈值/>的相似集群,以利用合并功能进行测试,来确定经合并的集群/>是否导致缩减的描述长度(/>)。如果合并产生与原始两个集群相比也缩减总描述长度(/>)的经合并的集群/>,则以与上面参考图12所述相同的方式将经合并的集群/>连同产生了组合与/>值的原始源集群/>、/>一起插入优先级队列Q中。尽管在一些情形下,图12的实施例可以标识具有稍微更大的/>值的经合并的集群,但是图13的实施例在计算上更高效,这是因为图12的过程穷举地搜索所有成对集群合并,而图13的过程一般不测试某些情形之外的所有集群对:在所述情形中,所有输入序列具有高Jaccard相似度。然而,使用LSH表132的最近邻搜索使得系统100能够标识具有高的为相似的可能性的集群对,并且因此当被合并时以高概率具有大的描述长度缩减/>值。
再次参考图2,过程200随着以下操作继续:系统100执行迭代合并过程来将附加的集群合并在一起,以进一步在迭代MinDL优化过程中缩减描述长度(框216)。在过程200期间,处理器108在迭代过程中合并附加的集群以进一步缩减所有集群的描述长度,直到达到最小描述长度为止,所述附加的集群本身进一步由更小的集群组成。图12在至少第9-20行中描绘了该过程。在图12的实施例中,处理器108从优先级队列中检索具有最大值的第一条目(包括经合并的集群/>、父集群/>和/>以及描述长度缩减值/>),并且为该集群分配标注/>。处理器108将集群/>添加到集群的总集合/>,并且还删除/>中的所有其他集群和其他优先级队列条目(如果有的话),所述其他优先级队列条目包括用于形成新集群的经合并的集群/>的父集群/>和/>中的任一个。删除过程确保原始输入中的每个事件序列在最终概述输出事件序列中仅发生一次。在图12中,处理器108然后执行另一个穷举搜索,所述穷举搜索测试/>与集群集合/>中所有剩余集群之间的合并,以确定合并是否缩减描述长度(/>)。符合标准/>的任何新合并的集群/>与新的父集群/>和一起被添加回到优先级队列Q中。该过程减少每次迭代期间优先级队列Q中的条目的总数量。
在图13的实施例中,处理器108还执行迭代合并过程,如在至少第17至29行中所描绘的那样。图13的迭代合并过程相似于权利要求12的迭代合并过程,但是再次在图13的实施例中,处理器108使用LSH表132来使用从优先级队列Q中取得的具有最高的/>集群来执行搜索查询。搜索查询结果提供集群列表,所述集群列表典型地包括比图12的实施例中执行的完全搜索少的用于合并测试的集群,这再次改进图13的实施例的计算效率。再次,在图13中,如果/>与从LSH表查询中标识的另一个集群/>的合并产生缩减描述长度()的经合并的集群/>,则将新合并的集群/>连同/>、/>和/>一起添加到优先级队列Q。再次,该过程在每次迭代期间减少优先级队列Q中的条目的总数量。
过程200随着以下操作继续:只要优先级队列Q仍然包括元素并且不为空(框220),系统100就执行如上面框216中所述的附加合并操作。在图12的实施例中,一旦优先级队列Q为空,集群集合就是系统100用来生成概述事件序列的图形描绘的最终输出(图12,第21行)。在图12的实施例中,过程200继续到下面描述的框228的处理。在图13的实施例中,处理器108确定通过预定因子/>使Jaccard相似度阈值/>降低,如在图13的第30行中所描绘的那样。使阈值/>降低使得处理器108能够在针对输入集群的最近邻搜索中生成新的LSH表132,新的LSH表132与更宽范围的集群匹配,这有效地拓宽图13的实施例中的搜索结果。在使用图13的LSH表实施例的MinDL优化中,过程200以框212-224的处理——其使用集群的最终集合/>作为到框212-224的每次迭代的输入——而继续,直到阈值/>下降到预定的最终阈值/>以下,并且来自框212-224的最终迭代的集群集合/>是系统100用来生成概述事件序列的图形描绘的最终输出(图13,第32行)。在系统100中,处理器108将概述事件序列数据134中的最终集群数据/>存储在存储器120中。
图5和图6描绘了上述图12和图13的实施例的计算性能特性。图5描绘了从“Agavue”事件序列数据集合选择的各种序列输入集合的表500,所述“Agavue”事件序列数据集合是包括列504的输入序列的公开可获得的数据集合,所述列504指定序列的数量、事件类型的数量和每个序列的平均长度。列508描绘了现有技术分层聚集聚类(HAC)过程的以秒为单位的执行时间,所述分层聚集聚类(HAC)过程对每个输入的序列进行聚类,但是没有最小化如本文中描述的模式的描述长度。列512描绘了图12的最小描述长度(MinDL)过程的以秒为单位的执行时间,并且列516描绘了图13的MinDL+LSH过程的以秒为单位的执行时间。如图13中所描绘的,MinDL+LSH过程比HAC或MinDL实施例中的任一个执行得显著更快,同时提供相似于MinDL实施例的改进的准确性。列520中的“ART”度量是指将来自图12的实施例的聚类结果与图13的实施例进行比较,以确保使用经调整的兰德指数(ARI)度量,图13的LSH实施例提供与图12的MinDL实施例相似(尽管不一定相同)的聚类结果。ARI是用以比较范围从-1到1(其中0意指随机聚类,并且1意指相同的结果)的聚类结果的常见度量。ARI大于0.5意指结果具有高度相似度,并且如图5中所描绘的,图12和图13的实施例二者对于所有测试输入产生具有ARI分数> 0.5的相似集群。
图6是在图12和图13的过程的多次迭代内产生的总描述长度(垂直轴)的另一个图表600,图表600对于Agavue事件序列数据集合的各种子集(Agavue(100%)、Agavue75%、Agavue50%和Agavue25%)而针对执行时间(水平轴)被绘制。如图6中所描绘的,图表绘图604A-604D各自绘制了使用图12的MinDL实施例的Agavue数据的不同子集的最小描述长度和处理时间。如图6中所描绘的,处理时间以的速率从相对快的Agavue25%绘图604D迅速地增加到Agavue绘图604A。图表绘图608A-608D各自绘制了使用图13的MinDL+LSH实施例的Agavue数据的不同子集的最小描述长度和处理时间。如这些绘图示出了显著更好的缩放,这是由于LSH表132使得处理器108能够执行显著更少的合并操作来标识具有最小描述长度的集群,尽管如图表600中所描绘的,与图12的实施例相比,设立图13的实施例中的LSH哈希表的开销可能使该过程对于非常小的数据集合而言在计算上稍微更昂贵。此外,虽然绘图604A-604D和608A-608D二者达到相似的最小描述长度结果,但是对图表600的仔细审阅示出了,在一些实例中,图12的MinDL实施例可以产生稍微更短的最小描述长度,因为图12的MinDL过程穷举地测试集群的所有成对组合之间的合并。图13的MinDL+LSH实施例使用LSH表来产生相似的最小描述长度,同时为更大的序列数据集合提供显著更短的计算时间。
如上所述,过程200在集群对之间执行成对合并过程。图3更详细地描绘了在过程200中的框212和216期间发生的集群合并过程。在下面的描述中,对过程300执行功能或动作的引用是指处理器执行所存储程序指令以执行与计算机图形系统中的其他部件相关联的功能或动作的操作。为了说明性目的,结合图1的系统100和图14的伪代码列表1400来描述过程300。
过程300随着过程300接收两个集群和/>作为合并的输入(框304)而开始。如上所述和图14中所描绘的,每个集群包括模式(/>和/>)以及与集群中的每个模式相对应的原始输入序列集合/>中的序列的映射(/>和/>)。
过程300随着如下操作继续:处理器108基于输入集群中的模式和/>二者共同的事件的最长共同序列(LCS)来初始化模式/>(框308)。最长共同模式是指每个模式中的与模式彼此匹配的事件集合,所述模式包括被认为是最长共同序列的最大数量的事件。使用图4作为示例,集合S5和S6示出了事件的最长共同序列“A B E”,其中事件的内容和事件的顺序二者匹配以形成两个集合之间的最长共同序列。相同的过程适用于已经在过程200期间从一个或多个较小的集群生成的集群中的输入模式。
过程300以如下操作继续:处理器108标识有资格被包括在经合并的集群中的候选事件集合EC,并基于频率以降序对候选事件分类(框312)。如图14中所描绘的,处理器108将候选事件标识为还未在LCS模式中的事件,图14第2行将其描述为/>,其中/>,即LCS。如下所述,处理器108首先测试以最高频率发生的候选事件EC,以首先包括在经合并的模式中。
过程300随着如下操作继续:处理器108以从具有最高频率的候选事件开始的顺序测试候选事件EC,以标识如果候选事件被合并到模式中则发生的描述长度的新缩减/>(框316)。如图14中所描绘的,处理器108通过将候选事件e添加到现有的LCS/>来测试新的模式P,并将/>标识为:/> 。回想,/>的正值表示描述长度的缩减,而负值表示描述长度的增加,该等式针对添加候选事件的负面影响来平衡对缩减经合并的模式P中的描述长度的改进。特别地,项/>使用系数来调整校正模式P所需的对模式P的所需编辑的相对权重,以便从两个输入集群()再现原始序列S,而/>系数可以用于调整在缩减描述长度中合并集群的相对权重。
在上面的等式中,(编辑)表示模式P中的事件序列与处理器108在MinDL优化过程中标识的集群中的一个或多个原始事件序列中的事件之间的错误。处理器108还基于编辑来标识错误,作为用于如下的基础:经由下面进一步详细描述的校正数据的图形显示而生成校正,以再现被包括在具有模式P的集群中的一个或多个原始序列S。编辑的示例包括删除P中的一个或多个事件以与原始序列S中的一个匹配,将事件插入P中以与S匹配,以及将P中的事件成对换位来对事件进行重新排序以与S匹配。图7描绘了模式704的图形显示的图表700,模式704对被映射到模式704的输入序列集合进行概述。模式704包括事件706、708、710、712、714和716的有序序列。图7描绘了换位编辑724,其中模式704中的两个事件的顺序不同于原始序列中的事件的顺序,诸如需要换位编辑来反转模式704中的事件708和710的顺序的换位726,以及需要换位编辑来反转模式704中的事件710和712的顺序的换位728。图7还描绘了删除编辑732,其中第一删除编辑734对应于从模式704中删除事件712以与原始序列S中的一个匹配的要求,并且第二删除编辑736也从模式704中删除事件712以与另一序列S匹配。虽然在图7中未明确地示出,但是在另一实施例中,插入编辑需要将新事件插入模式704中以与集群中的序列中的一个匹配。虽然上述编辑对应于对再现一个或多个原始输入序列而言在模式704中的必要改变,但是在另一配置中,编辑可以被反转描述为:为了以与上述方式相似的方式来再现模式而需要对每个序列进行的编辑。
再次参考图3和图4,处理器108还使用系数作为对/>的配衡,以将描述长度的缩减偏置至正值(或者如果/>被设置为负值,则进一步偏置至负值)。在系统100中,过程300中使用的/>和/>系数与程序指令124一起存储在存储器120中,并且可以被调整以在过程300和200中的合并操作期间改变在模式的紧凑可视化与每个显示模式的准确性之间的平衡。的标识期间的平衡操作使得系统100能够避免简单地将所有输入序列合并到单个模式中。虽然一些事件序列输入集合可以有效地合并到单个集群中,但是许多复杂的事件序列输入不能由单个模式有效地表示,所述单个模式将使视觉混乱中的减少最大化,但是将向概述事件序列的图形描绘中引入不可接受的高数量的编辑错误。
如果的结果指示下一个候选事件改进最小描述长度,则处理器108通过使用候选模式P作为/>的新值而将候选事件添加到模式/>,并且更新/>的值(框328)。如果存在另一个候选事件(框332),则过程300返回到框316以测试下一个候选事件。过程300继续合并候选事件,直到所有候选事件被合并(框332),或者直到下一个候选事件e的测试合并产生了描述长度的绝对增加(/>)或以其他方式缩减了在合并过程的较早前迭代期间已经实现的有效描述长度缩减/>(/>)(框320)。如上所述,经合并的模式P和总是包括被包括在两个输入模式/>和/>中的至少一个中的事件,其又与/>和/>的事件序列中的至少一个中的事件相对应,尽管最终经合并的模式可能不与原始输入模式中的任一个或两个精准匹配。如图14中所描绘的,虽然集群的一些合并产生描述长度的缩减,但是在一些实例中,两个集群的合并实际上不能缩小总描述长度,并且过程300返回具有为负或零最终值的/>的经合并的集群,过程200丢弃所述经合并的集群以避免在过程200期间增加描述长度。过程300然后返回/>的最终值和具有/>的最终值的经合并的集群以及被映射到经合并的模式/>的所有原始输入序列的并集(/>)(框324)。/>的最终值也被称为两个输入模式/>和/>的最佳序列模式,因为合并过程300生成经合并的模式/>,如果任何缩减是可行的,则所述经合并的模式/>在两个输入模式/>和/>的描述长度中具有最大的描述长度缩减/>。
再次参考图2,过程200随着以下操作继续:处理器108基于为了再现每个集群中的序列所需要的对每个集群中的模式的编辑,来生成对每个集群中的模式的校正(框228)。在一个实施例中,校正等同于处理器108在过程300的集群合并操作期间标识的编辑,所述编辑包括例如添加编辑、删除编辑和换位编辑,换位编辑可以进一步表示为添加编辑和删除编辑的组合。处理器108标识每个集群中的最终模式/>之间的编辑,所述编辑包括将最终模式/>映射到集群/>的事件序列组/>中的每个事件序列S的换位、删除和插入。处理器108将校正数据与概述事件序列数据134相关联地存储在存储器120中。
过程200随着以下操作继续:处理器108在具有减少的视觉混乱的情况下生成一个或多个概述事件序列模式的图形描绘,以及可选地对原始事件序列S的概述事件序列的校正的图形显示(框232)。在系统100中,处理器108基于概述事件序列和校正数据134生成图形描绘数据136,并使用显示输出设备154来显示概述事件序列中的模式和校正的图形描绘或者将输出图像数据136传输到远程计算设备以供显示。取决于集群的复杂性和输出设备154的有效大小,图形描绘可以包括多个集群中的一个集群的模式、包括多个集群中的至少两个集群的集群子集的模式、或者所有集群。处理器108还更新输出图像数据136,以用于基于在下面更详细地描述的交互式用户输入,来利用显示输出设备154显示或者传输到远程计算设备以供显示。
图4描绘了系统100基于图4的输入序列404生成的概述事件序列408的图形描绘的示例。在图4中,系统100生成两个集群中的模式P1和P2的事件序列的图形描绘。如图4中所描绘的,模式P1对包括序列的原始事件序列集合的第一子集G1进行概述,而模式P2对包括序列/>的事件序列的第二子集G2进行概述。图4还包括校正数据412的图形描绘,校正数据412指定正在被校正的具体事件、该事件的相对位置以及校正类型,所述校正类型包括图4中的添加校正(+)和删除校正(-)。例如,模式P1中的序列S2包括对原始序列S2中第四位置处的事件A的添加校正(+A)。对于模式P2中的序列S4的另一校正集合包括用以移除第四位置处的事件E 的删除校正(-E)以及用以将事件C添加在第五位置处的对于事件C的添加校正(+C)。在图4的实施例中,每个校正包括图形指示符,该图形指示符既指定校正的类型(例如,用于添加和删除编辑的+/-图形图标)又标识作为校正主体的事件。因为原始序列/>可以具有与彼此并且与事件序列概述中的对应模式不同的长度,所以校正412的图形显示还显示图形符号(图4中的一组圆圈),以指示每个原始序列的实际长度。虽然图4出于说明性目的描绘了所有校正412的图形显示,但是在替代配置中,系统100生成概述事件序列408的图形显示,并且提供交互式用户接口以使得用户能够选择个体模式(P1或P2)或个体序列(/>)来示出对事件序列的有限子集的校正数据,以便减少被同时显示的信息总量。
图8描绘了概述事件序列800的图形描绘的另一个实施例,该概述事件序列800基于包括图4的模式408的相同事件序列404和集群。在图8中,概述事件序列800包括模式804和808的图形描绘,其进一步包括描绘校正的图形指示符。具有校正804和808的模式的图形描绘各自包括添加校正806A-806D的图形指示符,所述图形指示符在图8中被描绘为三角形,并且指示从模式P1和P2的概述图形描绘中缺失的事件的位置。在图8的实施例中,添加校正三角形的大小可以变化,以指示在每个位置处缺失的事件的数量,诸如模式P2的图形描绘808中的添加校正三角形806C,其具有比其他添加校正三角形806A、806B和806D大的大小。图形描绘808还包括删除校正812的图形指示符,所述图形指示符被描绘为与模式P2中事件E的图形描绘相关联的虚线矩形,以指示序列中的一个或多个不包括事件E。删除校正812的大小也可以基于不包括对应模式中的事件的序列的数量而变化(例如,虚线矩形812的大小与不包括事件E的序列的数量成比例)。虽然图8将添加校正描绘为三角形并且将删除校正描绘为虚线矩形,但是替代实施例可以使用不同的图形符号来描绘校正。包括每个模式中的事件和校正图形指示符的图形描绘804和808也被称为对概述事件序列表示的“有损”校正,这是因为图形描绘804和808提供关于添加和删除校正的一些信息,但是没有显示与模式P1和P2相对应的每个事件序列的全校正信息。
更详细地,模式P1的图形描绘804包括在图4的模式P1中描绘的相同事件C A B D,并且进一步包括指示模式P1的集群中的一些序列的校正三角形806A和806B,所述模式P1的集群还包括没有直接显示在图形描绘804中的附加事件。添加校正806A和806B指示模式P1中如下位置:在该位置处,一些事件序列包括附加事件(例如,在事件A与事件D之间,用于添加校正806A)。在图8中,模式P2的图形描绘808包括添加校正806C和806D以及删除校正812。添加校正806C发生在模式P2开始之前(事件A之前),并且具有比其他添加校正的三角形大的大小,由于如图4中所描绘的,两个序列S5和S6以模式P2的图形描绘808中不存在的事件开始,而较小的添加校正三角形806D仅与对于单个序列S4的添加校正相对应。
在一些实施例中,系统100生成交互式用户接口,以使得用户能够使用用户接口设备150选择图形描绘804中的添加校正806A-806D、删除校正812或其他元素,从而为概述事件序列的模式中的所有或部分事件序列提供更详细的校正信息。例如,在一个实施例中,处理器108响应于经由选择校正三角形806C的输入设备150的用户输入,生成来自图4的事件序列S5和S6的图形描绘,以提供校正的详细图形描绘。系统100生成序列S5和S6的详细图形描绘,因为模式P2的添加校正三角形806C是不存在于模式P2的图形显示中的S5中的元素B和S6中的元素D的有损图形指示符。系统100可选地突出显示S5的图形描绘中的元素B和S6的图形描绘中的元素D,以提供这些事件序列与模式P2之间的差异的可容易理解的图形指示符。
再次参考图2,在过程200期间,系统100还使得用户交互能够经由输入设备150更新概述序列数据和原始输入事件序列的图形显示(框236)。图9描绘了用户接口900,该用户接口900包括:概述事件序列数据的图形描绘(A、A.0和A.1)连同原始序列子集的详细图形描绘B;输入接口D,其使得用户能够提供针对过滤事件的标准,从而基于所选事件或时间范围来对准模式和事件序列的显示,基于模式之间的相似度对模式的显示进行分类;以及经过滤的概述事件的图形显示C。用户接口900是系统100用来呈现概述事件序列的图形描绘并为用户交互提供接口的一个实施例。
所支持的交互的一个示例包括在所选事件处将概述事件序列中的模式视图与原始事件序列对准。默认情况下,概述视图和详细视图中的事件序列在第一事件处被对准。用户可以在概述视图中选择一个事件,并且两个视图将通过动画过渡与所选事件对准。图9的用户接口900中的显示A和B示出了其中事件在被标注为“gh”的事件处对准的示例。系统100使用输入设备150接收对事件类型“gh”的选择,并且生成与所选事件类型“gh”对准的概述事件序列中的模式的图形描绘。对准提供了在对准事件之前和之后发生的不同模式中的事件的清楚图形描绘,从而使得能够分析在概述事件序列的图形描绘中的不同模式之间的事件序列的差异。
另一交互使得能够按需提供细节。除了如图8中所示展开添加校正三角形和删除校正矩形以显示更详细的校正数据之外,详细视图与概述视图链接,并且用户可以检查被映射到特定模式的原始序列。例如,在图9中,系统100可以利用输入设备150接收输入请求,以选择概述事件序列显示A中的模式,并呈现被映射到详细视图B中的模式的一些或所有序列的更详细视图,以提供所选序列的详细视图。
另一交互使得能够过滤数据。除了过滤事件,系统100还可以通过事件序列的属性值过滤事件序列,如图9的显示C和D中所示。事件过滤器(图9(C))被相应地更新,以反映经过滤的序列中事件的共同发生。在图9中,事件序列数据的经过滤可视化的一个形式描绘了被包括在序列中的所有事件的共同发生,所述序列还包括用户利用输入设备150指定的焦点事件类型。共同发生通过Jaccard指数来衡量,并且被编码为到显示中心处的焦点事件的径向距离。系统100可以接收附加输入以更新图9(C)中的过滤显示,从而以交互式的方式改变焦点。图9的径向显示(C)中的圆圈的大小表示共同发生的事件总体上多频繁地发生。所述事件基于它们的事件类型而被布置在圆圈周围。在经过滤的可视化中,频繁地与焦点事件类型共同发生的事件靠近径向显示的中心。系统100可以提供套索选择工具或其他形式的选择工具来选择高度相关的事件集合,并且聚焦于包含那些事件的序列模式。经过滤的数据的图形描绘有助于找到频繁地与所选过滤事件类型同时发生的事件,例如,这可以有助于标识频繁地与同故障相关联的事件类型共同发生的事件。
另一交互使能对事件序列的时间“X”轴的改变,以更详细地查看在特定时间范围中发生的事件,尽管替代实施例当然可以垂直地或者以一角度而不是水平地显示时间轴。详细视图中的水平尺度可以改变以示出准确的时间信息,而不仅仅是序列顺序。图10示出了对时间轴尺度的调整的示例图形描绘1000。在图10中,用户接口(a)呈现时间线1004,该时间线1004接收输入事件以选择用于事件序列对准的特定时间。系统100生成在所选时间期间发生的事件序列的图形显示(b),并且可选地使能描绘所选时间周围的较短时间范围(例如,图10中的20分钟时间范围)的“缩放”视图(c)。图10的显示可以提供在单个模式内以及更大的模式组之间的在所选时间范围内发生的事件之间的因果关系的改进的可视化。
另一交互使得能够基于用户标准在概述事件序列视图中对模式进行重新排序。在概述视图中,系统100通过1)对应集群中的序列的数量,和2)通过编辑距离衡量的模式之间的相似度,来提供对序列模式的分类。为了通过相似度进行重新排序,处理器108首先执行模式的分层聚类,这发生在过程200执行MinDL或MinDL+LSH操作以产生集群之后。分层聚类过程产生相似模式的组。处理器108随后通过树形图中的叶子的顺序而对每个组内的模式进行分类,所述树形图是分层聚类过程生成的树结构的图解。图11示出了概述事件序列的图形描绘,所述概述事件序列通过过程200如上所述生成的不同集群中的模式之间的相似度而被分类成组。在一些实施例中,用户提供用于对集群进行分类的输入标准,诸如在图11的说明性实施例中选择与来自国家C的车辆有关的集群。系统100对模式的显示进行分类,以将来自国家C的车辆的模式组1104从与来自不同国家(模式1108中的国家A)的车辆相关联的另一组模式1108分离,从而基于模式之间的相似度对不同的模式组进行分类。
采用上述实施例的计算机图形系统的一个示例实现如下功能:产生事件序列数据的概述图形描绘,并且进一步使得用户能够更详细地审阅记录的小子集、编译关于数据集或记录和事件的子组的描述性信息(例如,通过聚合的视图)、使用过滤标准标识感兴趣的记录集合以及研究感兴趣的事件的前因或后果。特别地,如图9的接口900中所描绘的系统100的一个实施例从显示A中的序列模式的概述图形描绘开始,并提供接口来选择子集以供在A.0和A.1连同详细的序列显示B中进一步调查研究。所述系统还使得能够通过序列和模式的属性值来过滤序列和模式,或者通过事件的共同发生而过滤事件。所述系统还支持关于所选事件的交互式对准,以研究事件之间的起因和影响关系。
用于本文中描述的实施例的使用场景的非限制性示例包括在故障分析期间对发生的事件序列的分析,以协助审阅和分析产品中发生的故障。经常遇到发生在故障之前以及之后的一系列事件的复杂产品的一个示例是机动车辆。系统100针对遇到故障的大的车辆集合生成针对不同事件的概述事件序列(诸如记录在车辆的车载电子控制单元中的OBD-诊断事件的时间序列)的图形描绘。系统100使得能够对与系统100针对相似事件序列的一个或多个集群生成的模式相对应的大量车辆所发生的事件序列均进行概述分析。此外,系统100使得能够分析可能偏离模式中的一个的个体车辆中的事件序列,并且使得能够显示过滤的、分类的和对准的模式,以使得能够分析故障的根本原因,从而通过标识在故障发生之前的常见事件序列来帮助改进机动车辆的维修过程和预防性维护。
本文中描述的实施例的使用场景的另一个非限制性示例是在各种软件应用的执行期间生成的日志文件信息的分析中,所述各种软件应用包括例如桌面或web软件应用,作为用以分析软件使用模式以改进软件程序中的用户接口设计的过程的部分。在该使用场景中,每个事件与用户在使用程序时提供的键盘、鼠标或其他输入相对应,并且一系列这些输入提供用于附加分析的事件序列。系统100生成概述事件序列的图形描绘,所述图形描绘使得分析师能够为与每个模式相对应的序列的详细视图选择个体模式,如图9中事件序列的详细视图B中所描绘的。系统100还基于诸如错误事件之类的事件来提供模式的对准,这使得能够分析在错误事件之前的典型事件序列,从而使能对软件应用的用户接口的改进,这可以减少错误事件的发生。
本文中描述的实施例提供了对生成数据序列的图形概要的计算机系统的操作的改进。如本文中的实施例中所述,可以使用被存储在非暂时性存储器中并由计算机执行的软件、硬件或软件和硬件的组合来实现这些改进。本文中描述的对计算机系统的操作的改进的非限制性示例是用以生成概述事件序列的两部分图形描绘的自动化过程,所述两部分图形描绘包括对原始事件序列进行概述的序列模式集合以及对于不与模式精准匹配的序列的校正集合二者。与MinDL优化过程组合,模式可以用来生成复杂序列事件数据的图形描绘,同时减少视觉混乱。改进的另一个非限制性示例是计算上高效的过程,所述过程用于基于MinDL优化过程而标识最佳模式集合来对数据进行概述。改进的另一个非限制性示例是支持事件序列数据的细节级别探索的视觉分析系统。
将领会到,上面公开的以及其他特征和功能的变体、或者它们的替代物可以合期望地组合到许多其他不同的系统、应用或方法中。本领域技术人员随后可以做出各种目前未预见或未预料到的替代物、修改、变型或改进,所述替代物、修改、变型或改进也意图由以下权利要求所涵盖。
Claims (17)
1.一种用于生成概述事件序列的图形描绘的方法,包括:
利用处理器接收多个事件序列,所述多个事件序列中的每个事件序列包括多个事件;
利用处理器使用最小描述长度(MDL)优化过程生成多个集群,所述多个集群中的每个集群包括所述多个事件序列中的映射到每个集群中的模式的至少两个事件序列的集合,每个集群中的模式进一步包括:
包括在集群中的至少两个事件序列的集合中的至少一个事件序列中的多个事件;和
利用处理器标识与第一集群中的模式和第一集群中的至少两个事件序列的集合中的事件序列之间的编辑相对应的校正;和
利用处理器和显示输出设备生成所述多个集群中的第一集群的图形描绘,所述图形描绘包括(i)第一集群模式中的第一多个事件的图形描绘和(ii)对于模式的校正的图形指示符。
2.根据权利要求1所述的方法,所述图形描绘的生成进一步包括:
利用处理器和显示输出设备生成所述多个集群中的至少两个集群的图形描绘,所述图形描绘包括集群的所述至少两个集群的每个模式中所包括的所述多个事件中的每个事件的图形描绘。
3.根据权利要求1所述的方法,进一步包括:
利用处理器标识与第一集群中的模式和第一集群中的至少两个事件序列的集合中的事件序列之间的添加编辑相对应的校正;和
利用处理器生成图形描绘,所述图形描绘进一步包括对于模式的添加校正的图形指示符。
4.根据权利要求1所述的方法,进一步包括:
利用处理器标识与第一集群中的模式和第一集群中的至少两个事件序列的集合中的事件序列之间的删除编辑相对应的校正;和
利用处理器生成图形描绘,所述图形描绘进一步包括对于模式的删除校正的图形指示符。
5.根据权利要求1所述的方法,其中图形指示符提供对于模式的有损校正。
6.根据权利要求1所述的方法,进一步包括:
利用输入设备接收对校正的图形指示符的选择;和
利用处理器生成图形描绘,所述图形描绘包括与编辑相对应的第一集群中的至少两个事件序列的集合中的事件序列中的所述多个事件,以提供校正的详细图形描绘。
7.根据权利要求1所述的方法,进一步包括:
利用输入设备接收对第一集群模式中的第一多个事件中具有第一事件类型的一个事件的选择;和
利用处理器生成图形描绘,所述图形描绘包括所述多个集群中的第二集群模式中的第二多个事件,第二多个事件包括具有第一事件类型的事件,第一事件类型与图形描绘中的第一集群模式中的第一多个事件中的一个事件对准。
8.根据权利要求1所述的方法,进一步包括:
利用输入设备接收对第一集群模式中的第一多个事件中具有第一事件类型的一个事件的选择;和
利用处理器生成图形描绘,所述图形描绘包括与所述一个事件的第一事件类型共同发生的所述多个集群中的至少一个其他集群中的多个事件的过滤显示。
9.一种用于生成二分图的图形描绘的系统,包括:
显示输出设备;
存储器,其被配置为存储:
程序指令;和
多个事件序列,所述多个事件序列中的每个事件序列包括多个事件;
处理器,其操作性地连接到显示输出设备和存储器,处理器被配置为执行程序指令以:
使用最小描述长度(MDL)优化过程生成多个集群,所述多个集群中的每个集群包括所述多个事件序列中的映射到每个集群中的模式的至少两个事件序列的集合,每个集群中的模式进一步包括:
包括在集群中的至少两个事件序列的集合中的至少一个事件序列中的多个事件;
标识与第一集群中的模式和第一集群中的至少两个事件序列的集合中的事件序列之间的编辑相对应的校正;和
利用显示输出设备生成所述多个集群中的第一集群的图形描绘,所述图形描绘包括(i)第一集群模式中的第一多个事件的图形描绘和(ii)对于模式的校正的图形指示符。
10.根据权利要求9所述的系统,处理器进一步被配置为:
利用显示输出设备生成所述多个集群中的至少两个集群的图形描绘,所述图形描绘包括所述至少两个集群的每个模式中所包括的所述多个事件中的每个事件的图形描绘。
11.根据权利要求9所述的系统,处理器进一步被配置为:
标识与第一集群中的模式和第一集群中的至少两个事件序列的集合中的事件序列之间的添加编辑相对应的校正;和
生成图形描绘,所述图形描绘进一步包括对于模式的添加校正的图形指示符。
12.根据权利要求9所述的系统,处理器进一步被配置为:
标识与第一集群中的模式和第一集群中的至少两个事件序列的集合中的事件序列之间的删除编辑相对应的校正;和
生成图形描绘,所述图形描绘进一步包括对于模式的删除校正的图形指示符。
13.根据权利要求9所述的系统,其中图形指示符提供对于模式的有损校正。
14.根据权利要求9所述的系统,处理器进一步被配置为:
利用输入设备利用输入设备接收对校正的图形指示符的选择;和
生成图形描绘,所述图形描绘包括与编辑相对应的第一集群中的至少两个事件序列的集合中的事件序列中的所述多个事件,以提供校正的详细图形描绘。
15.根据权利要求9所述的系统,处理器进一步被配置为:
利用输入设备接收对第一集群模式中的第一多个事件中具有第一事件类型的一个事件的选择;和
生成图形描绘,所述图形描绘包括所述多个集群中的第二集群模式中的第二多个事件,第二多个事件包括具有第一事件类型的事件,第一事件类型与图形描绘中的第一集群模式中的第一多个事件中的一个事件对准。
16.根据权利要求9所述的系统,处理器进一步被配置为:
利用输入设备接收对第一集群模式中的第一多个事件中具有第一事件类型的一个事件的选择;和
利用处理器生成图形描绘,所述图形描绘包括与所述一个事件的第一事件类型共同发生的所述多个集群中的至少一个其他集群中的多个事件的过滤显示。
17.根据权利要求9所述的系统,处理器进一步被配置为:
将所述多个集群中的第一集群的图形描绘传输到包括显示输出设备的远程计算设备。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762537621P | 2017-07-27 | 2017-07-27 | |
US62/537621 | 2017-07-27 | ||
PCT/US2018/044035 WO2019023542A1 (en) | 2017-07-27 | 2018-07-27 | METHODS AND SYSTEMS FOR OPTIMIZED VISUAL RECAPITULATION FOR TEMPORAL EVENT DATA SEQUENCES |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110945559A CN110945559A (zh) | 2020-03-31 |
CN110945559B true CN110945559B (zh) | 2024-04-16 |
Family
ID=65038684
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880049031.2A Active CN110945559B (zh) | 2017-07-27 | 2018-07-27 | 用于时间事件数据序列的优化视觉概要的方法和系统 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11074276B2 (zh) |
CN (1) | CN110945559B (zh) |
DE (1) | DE112018002626T5 (zh) |
WO (1) | WO2019023542A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6741203B2 (ja) * | 2017-02-09 | 2020-08-19 | 日本電気株式会社 | 分析装置 |
CN111899106A (zh) * | 2020-08-06 | 2020-11-06 | 天津大学 | 一种期货大数据可视分析系统 |
US11875185B2 (en) | 2021-05-19 | 2024-01-16 | International Business Machines Corporation | Determining a validity of an event emitter based on a rule |
CN115050133B (zh) * | 2022-05-31 | 2024-01-16 | 山东亚华电子股份有限公司 | 一种动态数据展示方法及设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103268730A (zh) * | 2013-06-03 | 2013-08-28 | 北京奇虎科技有限公司 | 在电子地图界面上显示关联标注点的方法和装置 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7725329B2 (en) * | 2004-04-27 | 2010-05-25 | Humana Inc. | System and method for automatic generation of a hierarchical tree network and the use of two complementary learning algorithms, optimized for each leaf of the hierarchical tree network |
US8312542B2 (en) * | 2008-10-29 | 2012-11-13 | Lockheed Martin Corporation | Network intrusion detection using MDL compress for deep packet inspection |
US20110227925A1 (en) | 2010-03-16 | 2011-09-22 | Imb Corporation | Displaying a visualization of event instances and common event sequences |
US9047181B2 (en) * | 2012-09-07 | 2015-06-02 | Splunk Inc. | Visualization of data from clusters |
WO2015084726A1 (en) * | 2013-12-02 | 2015-06-11 | Qbase, LLC | Event detection through text analysis template models |
US9685194B2 (en) * | 2014-07-23 | 2017-06-20 | Gopro, Inc. | Voice-based video tagging |
US20160086185A1 (en) * | 2014-10-15 | 2016-03-24 | Brighterion, Inc. | Method of alerting all financial channels about risk in real-time |
US9577897B2 (en) * | 2015-02-20 | 2017-02-21 | Adobe Systems Incorporated | Providing visualizations of event sequence data |
US10142353B2 (en) * | 2015-06-05 | 2018-11-27 | Cisco Technology, Inc. | System for monitoring and managing datacenters |
JP6327234B2 (ja) * | 2015-11-06 | 2018-05-23 | 横河電機株式会社 | イベント解析装置、イベント解析システム、イベント解析方法、およびイベント解析プログラム |
-
2018
- 2018-07-27 DE DE112018002626.4T patent/DE112018002626T5/de active Pending
- 2018-07-27 WO PCT/US2018/044035 patent/WO2019023542A1/en active Application Filing
- 2018-07-27 US US16/047,092 patent/US11074276B2/en active Active
- 2018-07-27 CN CN201880049031.2A patent/CN110945559B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103268730A (zh) * | 2013-06-03 | 2013-08-28 | 北京奇虎科技有限公司 | 在电子地图界面上显示关联标注点的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110945559A (zh) | 2020-03-31 |
WO2019023542A1 (en) | 2019-01-31 |
DE112018002626T5 (de) | 2020-05-20 |
US11074276B2 (en) | 2021-07-27 |
US20190034519A1 (en) | 2019-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110945559B (zh) | 用于时间事件数据序列的优化视觉概要的方法和系统 | |
Harris et al. | Improved representation of sequence bloom trees | |
EP2909745B1 (en) | Profiling data with location information | |
KR101557294B1 (ko) | 편집 거리 및 문서 정보를 이용한 검색 결과 랭킹 | |
US8589424B1 (en) | Method and system for accurate medical-code translation | |
US8326869B2 (en) | Analysis of object structures such as benefits and provider contracts | |
CN104765731B (zh) | 数据库查询优化方法和设备 | |
AU2014318151B2 (en) | Smart search refinement | |
US10650559B2 (en) | Methods and systems for simplified graphical depictions of bipartite graphs | |
US20180165346A1 (en) | Multi-dimensional analysis using named filters | |
US9218394B2 (en) | Reading rows from memory prior to reading rows from secondary storage | |
JP5791149B2 (ja) | データベース・クエリ最適化のためのコンピュータで実装される方法、コンピュータ・プログラム、およびデータ処理システム | |
US9043321B2 (en) | Enhancing cluster analysis using document metadata | |
JP2013149061A (ja) | 文書類似性評価システム、文書類似性評価方法およびコンピュータ・プログラム | |
AU2015204339B2 (en) | Information processing apparatus and information processing program | |
US10353890B2 (en) | Automatic enumeration of data analysis options and rapid analysis of statistical models | |
CN112486988A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN115062206B (zh) | 一种网页元素的搜索方法和电子设备 | |
CN114207598A (zh) | 电子表单表转换 | |
KR101823463B1 (ko) | 연구자 검색 서비스 제공 장치 및 그 방법 | |
CN116209992A (zh) | 用于信息取回系统的多模态表格编码 | |
KR20130085069A (ko) | 엔-그램 인덱스 기반의 다차원 문자열 질의 처리 장치 및 방법 | |
CN105260425A (zh) | 基于云盘的文件显示方法及装置 | |
JP5417359B2 (ja) | 文書評価支援システム、及び文書評価支援方法 | |
Schierz et al. | Overhauling the PDB |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |