CN111373415A

CN111373415A - 使用神经网络分析序列数据

Info

Publication number: CN111373415A
Application number: CN201880041494.4A
Authority: CN
Inventors: C·阮; N·V·L·基; B·汉; A·H·特林; M·萨法尔
Original assignee: Arimo LLC
Current assignee: Arimo LLC
Priority date: 2017-05-05
Filing date: 2018-05-04
Publication date: 2020-07-03
Also published as: JP2020518938A; EP3619649A1; EP3619649A4; US11037060B2; WO2018204781A1; US20180322394A1

Abstract

使用神经网络(例如递归神经网络)分析序列数据(诸如时间系列数据)。序列数据从源被获得。例如，序列数据可以表示从传感器获得的时间系列数据。作为另一示例，数据序列可以表示由用户执行的与在线系统的用户交互的序列。数据序列作为输入被提供给神经网络。每个输入序列数据的特征向量表示从神经网络被提取。特征向量表示被用于对序列数据进行聚类。序列数据的簇的显著特征被确定。序列数据的簇的显著特征被提供以经由用户界面进行显示。

Description

使用神经网络分析序列数据

相关申请的交叉引用

本申请要求于2017年5月5日提交的美国临时申请号62/502,595的权益，其全部内容通过引用合并于此。

背景技术

本公开大体上涉及时间系列(time series)的处理，例如传感器数据，并且更具体地涉及基于递归神经网络的时间系列数据的显著特征的提取。

各种系统处理数据序列(sequence)，例如，从传感器收集的时间系列数据或表示与在线系统的用户交互的时间系列数据。系统可以出于各种原因来分析此类数据，例如，系统可以分析传感器数据的序列以分析对应传感器的特性。由于各种原因，处理这样的数据序列通常具有挑战性。例如，不同的序列可以具有出现在不同的时间点的不同数目的元素。例如，特定传感器可以在不断变化的不同时间间隔报告数据。此外，传感器报告数据的速率可能与另一个传感器可以报告数据的速率非常不同。此外，正在处理的数据量可以非常大。系统可以从数千个传感器接收数据，并且每个传感器每秒可以多次报告数据。结果，系统正在处理的数据量可以很大，并且处理数据可以是计算量很大的过程。

用于分析序列数据的常规技术通常会聚合序列数据，然后对其进行分析。此外，被用于分析数据的特征由用户选择。例如，用户可以使用统计数据(诸如数据值的均值和标准偏差)来表示序列。然而，可能存在序列数据的其他特性，用户无法选择的这些特性可能很重要。例如，序列的重要特征可以是具有特定特性的子序列的存在。用户可能无法标识不是很直观的特征。序列中可用的重要信息由于对用于分析的特征的聚合和任意选择而丢失。此外，用户可以标识和处理与某些类型的分析不相关的特征，从而通过产生不相关的中间结果而使处理效率低下。结果，常规技术通常基于序列数据的分析产生不足的结果，并且在计算上效率低下。

发明内容

计算机系统分析数据序列。该系统接收多个数据序列。每个数据序列可以具有不同的长度。该系统将每个数据序列作为输入提供给递归神经网络。递归神经网络包括一个或多个隐藏层。该系统提取表示递归神经网络隐藏层的输出的特征向量。特征向量充当输入数据序列的表示。该系统对所提取的特征向量进行聚类以确定特征向量的多个簇。系统确定表征每个簇的一个或多个显著特征。系统将描述簇的信息发送到客户端设备，以经由用户界面进行呈现。

在实施例中，系统如下确定针对簇的显著特征。该系统接收特征集。对于特征集中的每个特征，系统确定特征分数。特征分数基于对簇内特征的相似性度量与第二簇或一组数据序列中的特征的相似性度量的比较而被确定。第二组数据序列可以与通过采样所接收到的多个数据序列而被接收或获得的多个数据序列基本相同。系统基于特征分数将特征集中的一个或多个特征标识为显著特征。

在实施例中，递归神经网络是被配置为接收输入序列并生成与输入序列相匹配的输出序列的自动编码器。

在另一实施例中，计算机系统分析从设备接收的数据序列，例如时间系列数据。该系统接收多个数据序列。数据序列的示例是从传感器接收的时间系列数据。数据序列的另一示例是时间系列，其表示由用户执行的例如与在线系统的用户交互。系统确定多组数据序列。该系统如下确定每组数据序列的显著特征。该系统接收特征集。对于特征集中的每个特征，系统确定特征分数。该系统基于对簇内特征的相似性度量与第二组数据序列中特征的相似性度量的比较来确定特征分数。第二组数据序列可以通过对所接收到的多个数据序列进行采样而被获得。系统基于特征分数将特征集中的一个或多个特征标识为显著特征。例如，如果一组数据序列中的特征的相似性度量被确定为比第二组数据序列中该特征的相似性度量高阈值，则系统可以将该组数据序列的特征标识为显著特征。该系统将描述多组数据序列的信息发送到客户端设备以经由用户界面进行呈现。

在实施例中，该系统通过使用递归神经网络处理每个数据序列以获得特征向量并对这些特征向量进行聚类来确定多组数据序列。在实施例中，递归神经网络是被配置为接收数据的输入序列并生成与输入序列相匹配的数据的输出序列的自动编码器。

附图说明

所公开的实施例具有其他优点和特征，这些优点和特征从详细描述、所附权利要求和附图(或附图)将变得更加明显。这些附图的简要介绍如下。

图1示出了根据本发明的实施例的用于提取与序列相关联的显著特征的整体(overall)系统环境。

图2示出了根据实施例的示例递归神经网络。

图3示出了根据实施例的用于神经网络的训练和执行的深度学习模块的系统架构。

图4图示了根据本发明的实施例的用于对时间系列数据进行聚类的整体过程。

图5图示了根据本发明的实施例的标识簇的显著特征的过程。

图6图示了根据本发明的实施例的用于呈现描述数据集的簇的信息的用户界面。

图7是图示根据实施例的计算机系统示例的高级框图。

说明书中描述的特征和优点不是全部包括在内，并且特别地，鉴于附图、说明书和权利要求书，许多附加特征和优点对于本领域的一般技术人员将是明显的。此外，应当注意，说明书中使用的语言主要是出于可读性和指导性目的而被选择的，并且可能没有被选择来描绘或限制所公开的主题内容。

具体实施方式

图1示出了根据本发明的实施例的用于提取与序列相关联的显著特征的整体系统环境。整体系统环境包括一个或多个设备130、数据分析系统150和网络150。其他实施例可以使用比图1所示的更多或更少或不同的系统。本文描述的各种模块和系统的功能可以由本文描述的模块和/或系统以外的其他模块和/或系统实现。

图1和其他附图使用相同的附图标记来标识相同的元件。在诸如“130a”之类的附图标记之后的字母指示该文本具体指代具有该特定附图标记的元件。文本中没有之后字母的附图标记，诸如“130”，是指附图中带有该附图标记的任何或所有元件(例如，文本中的“130”是指附图标记“130”和/或附图中的“130”)。

数据分析系统150包括深度学习模块120，该深度学习模块120执行神经网络的训练，并且还允许用户针对正在处理的数据执行神经网络。数据分析系统150接收数据序列，例如时间系列数据，并对所接收到的数据执行分析。深度学习模块120的更多细节在图3中被图示并且结合图3进行描述。

在实施例中，设备130提供由数据分析系统150分析的数据序列或时间系列数据。例如，用户可以使用设备130与在线系统进行交互。用户交互充当被提供给数据分析系统150进行分析的时间系列数据或数据序列。数据分析系统150可以分析用户交互数据以预测执行了用户交互的用户的行为或特性。可以经由用户界面报告分析结果。在一些实施例中，分析的结果可以被用于确定如何向用户分发内容。例如，可以基于用户的特性向用户提供可能其感兴趣的内容。作为另一示例，可以基于用户的特性来确定向用户分发内容的时机。例如，可以基于特定用户所观察到的行为，在一天中的特定时间、一周中的某天或一年中的特定时间向他们提供特定类型的内容。

在一些实施例中，设备130可以执行代码，该代码基于代码中发生的事件来提供时间系列数据。设备130可以将点击流数据提供给数据分析系统150以进行分析。数据分析系统150可以接收时间系列数据，该时间系列数据表示在可以是设备或服务器的各种系统中发生的事件。数据分析150系统可以确定发送数据的服务器/客户端的特性，并且可以基于该分析采取动作。例如，数据分析150可以响应于从多个服务器之一接收的时间系列数据的某些观察到的特性发送警报。备选地，数据分析150可以响应于该分析而采取适当的动作，例如，通过关闭服务器，通过将由服务器接收的请求重定向到另一服务器来减少服务器的负载，在服务器上启动或停止某些过程，或基于分析执行其他与资源管理相关的任务。在另一实施例中，序列数据表示从传感器接收的时间系列数据，如本文进一步所述。

设备可以是任何物理设备，例如，经由物联网(IoT)连接到其他设备或系统的设备。物联网表示物理设备、车辆、家用电器和嵌入有电子设备、软件、传感器、致动器和连接性的其他项目的网络，该网络使得这些对象能够连接和交换数据。设备可以是随时间推移发送所感测到的数据序列的传感器。从设备接收的数据序列可以表示由设备生成的数据，例如，传感器数据或通过对由设备生成的数据进行进一步处理而获得的数据。由设备生成的数据的进一步处理可以包括缩放数据，对数据应用函数或基于由设备生成的多个值(例如，移动平均值)来确定移动聚合值。

数据分析系统150可以从执行数据收集的其他系统接收数据。例如，外部系统可以调用数据分析系统150的数据加载实用程序以将由外部系统存储的数据提供给数据分析系统150。

在实施例中，设备130是用户用来与计算机系统150交互的客户端设备。设备130的用户包括执行数据点标记的专家，执行与神经网络或在数据分析系统150上执行的其他软件相关联的各种管理任务的系统管理员。在实施例中，设备130执行允许用户与数据分析系统150交互的应用135。例如，在设备130上执行的应用135可以是与在数据分析系统150上执行的web服务器交互的互联网浏览器。

可以使用计算设备来执行图1所示的系统和应用。计算设备可以是执行例如Microsoft^TM Windows^TM兼容操作系统(OS)，Apple^TM OS X和/或Linux发行版的常规计算机系统。计算设备也可以是具有计算机功能性的客户端设备，诸如个人数字助理(PDA)、移动电话、视频游戏系统等。

设备130与数据分析系统150之间的交互通常经由网络150，例如经由互联网来执行。数据分析系统150与企业110的计算机系统120之间的交互通常也经由网络150来执行。在一个实施例中，网络使用标准通信技术和/或协议。在另一实施例中，彼此交互的各种实体，例如，计算机系统150和设备130可以使用定制的和/或专用的数据通信技术来代替或补充上述的那些技术。根据实施例，该网络还可以包括到其他网络(诸如互联网)的链接。

数据分析系统150包括深度学习模块120，该深度学习模块120包括用于处理数据序列的神经网络。图2示出了根据实施例的示例性神经网络。在神经网络200或任何人工神经网络中，节点被连接在一起以形成网络。节点可以在各种层次结构级别中被分组在一起。节点可以表示输入数据、中间数据和输出数据。节点特性可以表示诸如像素之类的数据和使用神经网络处理的其他数据。节点特性值可以是与神经网络的节点相关联的任何值或参数。每个节点具有一个输入和一个输出。神经网络的每个节点与指令集相关联，该指令集对应于由该节点执行的计算。对应于神经网络的节点的指令集可以由一个或多个计算机处理器执行。神经网络200也可以被称为深度神经网络。

节点之间的每个连接(例如，网络特性)可以由权重(例如，在训练/学习过程中确定的数字参数)表示。在一些实施例中，两个节点之间的连接是网络特性。连接的权重可以表示连接的强度。在一些实施例中，一个级别的节点可以仅连接到相邻层次结构分组级别中的一个或多个节点。在一些实施例中，网络特性包括神经网络的节点之间连接的权重。网络特性可以是与神经网络的节点的连接相关联的任何值或参数。

如图2所示，神经网络200包括多个层。这些层包括输入层Li和输出层Lo以及一个或多个隐藏层Lh。每个示例具有一个或多个节点。例如，层Li具有节点Ni1、Ni2、Ni3、Ni4、Ni5和Ni6，而层L0具有节点No1和No2。

节点可以被组织为输入节点、隐藏节点和输出节点。相应地，输入层的节点是输入节点，输出层的节点是输出节点，并且隐藏层的节点是隐藏节点。层的节点可以向另一层提供输入，并且可以接收来自另一层的输入。在实施例中，神经网络是如本文进一步描述的递归神经网络。

系统架构

图3示出了根据实施例的用于神经网络的训练和执行的深度学习模块的系统架构。深度学习模块120包括数据集存储库370、神经网络200、嵌入选择模块310、聚类模块320和特征分析模块340。在其他实施例中，深度学习模块120可以包括比图2所示的模块更多的或更少的模块。此外，特定功能性可以由除本文描述的模块以外的模块来实现。在一些实施例中，图3所示的各种组件可以由不同的计算机系统150执行。例如，神经网络200可以由与执行聚类模块320或标记模块350的处理器不同的一个或多个处理器执行。此外，可以使用并行或分布式架构来执行神经网络200，以便更快地执行。

数据集存储库370接收并存储表示数据序列(或时间系列)的数据集。不同的数据集可以表示不同长度的数据序列，即，每个序列可以具有不同数目的元素。在实施例中，每个数据集与传感器相关联，并且表示由该传感器提供的传感器数据。例如，传感器可以监测诸如温度、压强或任何事件的发生之类的特定信息，并且向系统报告该信息，该系统将传入数据存储为与该传感器相关联的时间系列。

作为另一示例，每个数据集可以表示任何机器行为，例如服务器报告的服务器中发生的事件。因此，每个数据集与服务器(或机器)相关联，并且包括由服务器(或机器)报告的定时事件的序列。报告的事件的示例可以包括服务器执行的特定功能调用、高速缓存命中、高速缓存未命中、中断或者服务器或计算机上可能发生的其他事件。

作为另一示例，每个数据集表示与一个或多个用户相关联的用户交互。与在线系统的用户交互可以由用户经由客户端设备来执行。每个数据集可以表示在用户会话期间执行的用户交互，其中该会话使用由客户端设备发起的连接来开始，以执行与在线系统的交互，并在连接关闭时结束。作为另一示例，用户交互可以表示由用户进行的调用，例如被监测且被存储为时间系列的由用户进行的客户服务调用。在这些实施例中，由用户执行的每个用户交互被存储为时间系列的元素，并且与时间戳相关联，即，与调用被进行或用户交互被执行的时间相关联的时间戳。

在另一实施例中，每个数据集与一个库存相关联，并且时间系列表示在不同时间点的库存值。即使实施例描述了时间系列数据的分析，本文中所描述的技术也适用于包括具有一定顺序的数据值的任何序列数据。

神经网络200如图2中所描述。在实施例中，神经网络200是递归神经网络(RNN)，使得一个或多个节点被连接以形成定向循环或回路。示例RNN包括层Lm，该层Lm当追踪从输入层到输出层的层时在层Ln之前发生。因此，与层Ln相比，层Lm更靠近输入层，并且层Lm的输出可能经由一个或多个其他层作为输入被提供给层Ln。RNN被配置为将层Ln的输出作为输入提供给层Lm(可能经由其他层)作为反馈。因此，层Lm接收来自RNN的先前层的输入以及层Ln的输出。RNN的反馈回路允许RNN存储状态信息。

作为另一示例，递归神经网络可以包括层Lq，使得Lq的输出作为输入被提供给层Lq。定向循环允许递归神经网络存储状态信息，从而充当用于递归神经网络的内部存储器。在实施例中，神经网络200是长期短期记忆(LSTM)神经网络。神经网络200也可以被称为递归深度神经网络。

在实施例中，神经网络200是自动编码器，其获取输入，对输入进行编码并且重新生成与输入相匹配的输出。例如，自动编码器可以被配置为接收序列作为输入，将该序列编码为特征向量表示，并且重新生成输入序列作为输出。输入序列的特征向量表示是输入序列的压缩版本。在实施例中，特征向量表示具有固定数目的维度(或元素)，与输入序列的大小无关。由于可能具有不同数目的元素的两个序列的特征向量表示具有相同数目的元素，因此特征向量表示允许对两个序列进行有效比较。因此，实施例使用诸如欧几里得距离度量之类的距离度量来比较序列的特征向量表示。此外，聚类模块330可以基于距离度量，使用诸如k均值的聚类技术来对特征向量表示进行聚类。序列的特征向量表示在本文中也被称为序列的嵌入。用于聚类的特征向量中表示的特征也被称为聚类特征。

自动编码器的预测输出可能与输入不同，但可能是与输入接近的近似。因此，自动编码器接收输入X并生成预测输入X的输出。在此过程中，自动编码器会基于减小的维度生成输入的特征向量表示。

在训练的每次迭代期间，神经网络200在各个层生成表示样本输入数据的嵌入。嵌入是输入数据集的特征向量表示。即使对应于输入数据集的时间系列(或数据序列)具有不同的大小，对于不同的输入数据集，特征向量表示也具有相同数目的元素。

嵌入选择模块310从神经网络200的隐藏层中提取输入数据集的特征向量表示。在实施例中，嵌入选择模块310从神经网络200的最后的隐藏层提取输入数据集的特征向量表示，该神经网络200的最后的隐藏层向神经网络200的输出层提供输入。嵌入选择模块310将提取的特征向量表示作为输入提供给聚类模块320。

聚类模块320从嵌入选择模块310接收特征向量表示的集合。每个特征向量表示一个数据集，该数据集在特定迭代期间作为输入被提供给神经网络200。聚类模块320对所接收到的特征向量集合执行聚类并生成簇的集合。簇包括一个或多个特征向量。每个特征向量表示一个输入数据集。因此，每个簇包括一个或多个数据集。数据集可以与实体相关联，例如，包括用户交互的序列的数据集与用户(或用户帐户)相关联，包括表示由传感器提供的数据的时间系列的数据集与该传感器相关联。因此，每个簇可以被认为是与被分配给该簇的数据集相对应的实体的簇。

聚类模块320使用表示任何两个特征向量之间距离的距离度量，并且根据距离度量来标识特征向量的簇，该特征向量的簇表示彼此接近的特征向量。例如，两个特征向量之间的距离可以使用欧几里得距离度量来计算。聚类模块320可以使用聚类技术，例如，k均值聚类，基于分布的聚类，分层聚类等。

特征分析模块340标识簇的集合中的每一个的显著特征。簇的显著特征表示表征该特定簇的特征。因此，与其他数据集(例如，数据集的整个总体(entire population)或数据集的整个总体的样本)相比，具有特定显著特征的数据集更有可能具有显著特征的匹配值。类似地，与其他实体(例如，实体的整个总体或实体的整个总体的样本)相比，具有特定显著特征的实体更有可能具有显著特征的匹配值。在此进一步描述由特征分析模块340执行的用于标识显著特征的过程。

整体过程

图4图示了根据本发明的实施例的用于对时间系列数据进行聚类的整体过程。该过程中所示的步骤可以按照与图4中所示的顺序不同的顺序执行。此外，这些步骤可以由与本文所指示的那些模块不同的模块执行。尽管以下描述说明了使用时间系列数据的过程，但是图4中描述的过程可应用于包括数据值的有序的列表的任何序列数据。

数据分析系统150接收410多个数据集并将它们存储在数据集存储库370中。每个数据集包括数据值的序列，例如时间系列。时间系列是数据值的序列，其中每个数据值与一个时间值相关联。时间值可以被表示为时间戳。时间值可以表示生成数据值的时间或系统接收到数据值的时间。例如，接收用户交互的在线系统可以记录每个用户交互以及与该用户交互相关联的时间戳。因此，在线系统的日志中所存储的数据包括一个或多个时间系列。

时间系列数据的其他示例包括传感器数据和用户交互数据。每个数据集(或数据序列或时间系列)可以与一个实体(例如，作为数据集的源的实体)相关联。例如，包括表示传感器数据的时间系列的每个数据集与提供了数据的传感器相关联。类似地，包括表示用户交互的时间系列的每个数据集与执行了用户交互的用户或用户的用户帐户相关联。

数据分析系统150接收420请求以对所接收的多个数据集进行聚类。数据集的簇对应于与数据集相关联的实体的簇。例如，如果数据集表示用户交互，则数据集的簇对应于与数据集相关联的用户的簇。类似地，如果数据集表示传感器数据，则数据集的簇对应于与数据集相关联的传感器的簇。

数据分析系统150针对每个数据集重复以下步骤430和440。数据分析系统150将数据集作为输入提供给神经网络200。神经网络200接收由数据集表示的序列的数据值并对其进行处理。在实施例中，将数据集的数据值的序列作为输入，以该序列的顺序一次提供一个数据值提供给神经网络200。例如，序列的第一元素由神经网络的第一层(输入层)处理。当将序列的第二元素作为输入提供给第一层时，与第一元素相对应的数据正在由神经网络的第二层处理。

嵌入选择模块310提取440表示输入数据集的特征向量。嵌入选择模块310提取440由隐藏层生成的输出作为输入数据集的特征向量表示。在实施例中，嵌入选择模块310提取440由最后的隐藏层生成的输出，即，作为输入被提供给输出层的、由最后的隐藏层生成的输出。

聚类模块330对由嵌入选择模块310提取的特征向量进行聚类450。在实施例中，聚类模块330使用距离度量(例如，特征向量之间的欧几里得距离)对特征向量进行聚类450。在实施例中，聚类模块330使用k均值聚类技术对特征向量进行聚类450。在实施例中，数据分析系统150确定与特征向量的簇相对应的输入数据集的簇。备选地，数据分析系统150可以确定与特征向量的每个簇相关联的实体的簇。例如，如果输入数据集表示用户交互的序列，则数据分析系统150确定用户的簇，其中每个用户与一个或多个表示用户交互序列的数据集相关联。作为另一示例，如果输入数据集表示从传感器接收到的时间系列数据，则数据分析系统150确定传感器的簇，其中每个传感器与一个或多个输入数据集相关联。

数据分析系统150可以将生成的簇提供给特征分析模块340进行进一步的分析。特征分析模块340分析簇以标识簇的显著特征，如图5所示并且描述如下。数据分析系统150可以向客户端设备发送460描述簇的信息，例如，以经由用户界面进行呈现。

在实施例中，数据分析系统150使用簇的显著特征来进行与关联于数据序列的实体相关联的预测。例如，数据分析系统150可以接收描述特定实体E1的信息，并将实体E1映射到特定簇C1。在实施例中，数据分析系统150通过将与特定实体E1相关联的序列数据作为输入提供给神经网络200，并提取与实体E1相关联的嵌入，来确定与特定实体相对应的特征向量F1。数据分析系统150通过确定最接近特征向量的簇，将实体E1的特征向量F1映射到簇C1。数据分析系统150可以使用簇C1的显著特征来进行与实体E1相关联的预测。数据分析系统150可以通过将显著特征作为输入提供给基于机器学习的模型来进行预测，该机器学习模型被配置为预测与实体相关联的某些动作或事件在阈值时间间隔内发生的可能性。基于机器学习的模型可以将除显著特征之外的特征作为输入。

例如，实体可以表示在线系统的用户，而序列数据可以表示用户交互数据，例如与用户相关联的web点击流。数据分析系统150可以使用簇C1的显著特征基于簇C1的显著特征来预测用户是否可能执行某些动作，例如，用户是否可能点击呈现给用户的内容项；用户是否可能参加事件；或者用户是否可能完成某些类型的交易(例如购买)。

作为另一示例，实体可以表示提供由每个传感器捕获的传感器数据序列的传感器。数据分析系统150可以使用簇C1的显著特征基于簇C1的显著特征来预测与传感器相关联的某些事件是否可能发生，例如，由传感器监测的设备的故障，与传感器关联的某些值是否可能达到某个阈值水平。

图5图示了根据本发明的实施例的标识簇的显著特征的过程。该过程中所示的步骤可以按照与图4中指示的顺序不同的顺序执行。此外，这些步骤可以由与本文所指示的那些模块不同的模块执行。图4中描述的过程可适用于任何类型的数据集，例如，包括数据值的有序列表的序列数据，或时间系列数据。

特征分析模块340接收数据集的簇，例如，通过图4所示的过程确定的簇。特征分析模块340还接收描述数据集或与每个数据集相关联的实体的特征集。这些所接收到的特征被称为解释性特征，并且被用于推断数据序列的簇的解释。在实施例中，经由被呈现给用户(例如，专家)的用户界面来接收特征。备选地，数据分析系统150可以从确定特征的另一系统或模块接收特征。

特征分析模块340针对每个簇和针对每个特征重复步骤530、540、550和560。特征分析模块340确定530每个簇内特征相似性的度量S1。在实施例中，特征分析模块340通过标识出现在簇内的数据集对并确定针对该数据集对的特征值之间的距离，来确定簇内特征的相似性度量。如果所确定的距离值在阈值内，则特征分析模块340确定该特征值对于该数据集对是相似的。特征分析模块340针对大于簇内的对的阈值数目或大于簇内可能的对的阈值部分重复比较。特征分析模块340通过聚合簇内各种数据集对的特征值的相似性来确定相似性度量。

特征分析模块340确定540数据集的第二集合内的特征相似性的度量S2。在实施例中，数据集的第二集合表示数据分析系统150从其获得簇的数据集的整个总体。在另一实施例中，数据集的第二集合表示数据分析系统150从其获得簇的数据集的整个总体的样本。特征分析模块340比较从数据集的第二集合获得的数据集对的特征值。特征分析模块340通过聚合多个对之间的相似性度量来获得特征值的相似性度量，例如，数据集的第二集合的所有可能的数据集对，或大于数据集的第二集合的可能的数据集对的阈值数目，或大于数据集的第二集合的数据集对的阈值部分。

特征分析模块340基于所确定的相似性度量S1和S2，确定550针对所选特征的簇的特征分数。在实施例中，特征分析模块340基于S1和S2的比率，即S1/S2，确定针对簇的特征分数。在其他实施例中，特征分析模块340将特征分数确定为S1和S2的另一函数，其提供两个值的比较的度量。如果与跨数据集的第二集合(例如，数据集的整个总体的样本)的匹配可能性相比，特征具有在簇内跨数据集的更高匹配可能性，则特征分数具有较高的值。

特征分析模块340基于针对簇特征的特征分数确定560该特征是否是簇的显著特征。在实施例中，如果针对簇特征的特征分数高于阈值，则特征分析模块340确定该特征是簇的显著特征。因此，如果与跨数据集的第二集合的特征相似性相比，针对该簇特征的特征分数指示该特征跨该簇的数据集大于相似性阈值水平，则特征分析模块340确定该特征是簇的显著特征。

特征分析模块340向请求方发送570描述显著特征的信息。在实施例中，可以从客户端设备接收对簇的请求，并且将描述显著特征的信息发送到客户端设备以经由用户界面进行呈现。

在实施例中，所接收的特征被表示为值的序列。表示与第一数据集相关联的特征的序列长度可以与表示关联于第二数据集的特征的序列长度不同。

所接收的特征本身可以被表示为时间系列，并且可以被称为时变(time-variant)特征。因此，特征可以包括随时间变化的数据值。例如，如果数据集表示用户交互，则特征可以表示用户搜索的产品的价值。不同类型的用户交互包括：用户执行搜索、用户购买产品、用户致电客户服务、用户退还产品或项目等。因此，随着时间的流逝，随着用户执行搜索，被搜索到的产品的价值可能改变。特征可以表示用户与之交互的项目的价格。例如，与用户在一年中其他日子进行交互的项目相比，用户可以在节假日期间与价格较高的项目进行交互。

该特征可以表示随着时间的用户交互速率。因此，用户交互的速率可以随时间变化。与其他用户簇相比，特定的用户簇可以具有特定类型的用户交互模式。例如，如果用户交互表示用户打给客户服务的呼叫，则用户簇可以主要在晚上进行呼叫，而另一用户簇可以在白天进行呼叫。用户交互速率可以表示单位时间内的多个用户交互。

在一个实施例中，如果可以通过对第二序列执行特定的变换(例如，通过移位第二序列或通过缩放第二序列)来获得第一序列，则数据分析系统确定包括第一序列的第一特征值与包括第二序列的第二特征值匹配。变换(移位和/或缩放)序列以使其能够与另一序列进行比较的过程被称为动态时间规整(DTW)。

在一些实施例中，所接收的特征(解释性特征)是适用于所有组序列或至少多个序列的横截面特征。数据分析系统针对每组序列数据确定针对该组序列的横截面特征的聚合值(例如，平均值或标准偏差)。例如，数据分析系统可以确定针对每个组的横截面特征的平均值，并将其呈现为针对该组的显著特征。例如，如果每个序列包括由用户执行的交易，则横截面特征可以是由用户与特定供应商执行的交易的百分比。横截面特征的另一示例是用户的交易平均值或总交易价值。解释性特征可以由数据科学家提供，或者基于数据挖掘技术被自动确定。横截面特征的其他示例包括与每个序列相关联的用户的人口统计信息，例如，用户的年龄、用户的种族、用户的财务状况、用户的性别、用户的位置等。因此，簇C1可以被确定为与另一簇C2相比具有更高的平均年龄。类似地，与簇C2相比，簇C1可以被确定为具有更高的交易平均值。与簇C2相比，簇C1可以被确定为具有更高百分比的特定性别或种族的用户。

因此，数据分析系统通过移位序列中的一个序列并将该移位后的序列与另一序列相匹配，来比较包括第一序列的第一特征值与包括第二序列的第二特征值。如果第一序列可以通过移位第二序列来获得，则数据分析系统确定第一特征值与第二特征值相匹配。

在另一实施例中，如果第一序列可以通过缩放第二序列来获得，则数据分析系统通过确定第一特征值与第二特征值相匹配，来比较包括第一序列的第一特征值与包括第二序列的第二特征值。

在另一实施例中，其中如果第一序列的形状被确定为与第二序列的形状相似，则数据分析系统通过确定第一特征值与第二特征值相匹配，来比较包括第一序列的第一特征值与包括第二序列的第二特征值。

特征分析模块340可以确定针对每个簇的显著特征的独特集合。例如，第一簇可以具有显著特征的第一集合，并且第二簇可以具有显著特征的第二集合。

用户界面

图6图示了根据本发明的实施例的用于呈现描述数据集的簇的信息的用户界面。用户界面可以由客户端应用呈现，例如，在客户端设备上执行的浏览器。用户界面将数据集映射到较小的维度集合，例如二维或三维。每个维度被表示为图形的轴。数据集被绘制为图形表示上的数据点。从作为递归神经网络的嵌入获得的数据集的特征向量表示中选择用于绘制图形的维度作为特征。结果，数据集的簇610被表示为在用户界面上彼此接近的数据点。由于维度对应于从神经网络获得的特征，因此它们可以表示不直观的特征。每个簇可以被表示为具有特定颜色或特定形状的数据点，以区分不同簇的数据点。

在实施例中，用户可以选择簇以检查簇的显著特征620。因此，本发明的实施例提供了一种用以使诸如时间系列数据之类的数据集可视化的机制。用户界面允许用户可视化大量序列数据，例如从大量传感器收集的时间系列数据或从大量用户收集的表示用户交互的序列数据。

计算机架构

图7是图示根据实施例的示例系统的高级框图。计算机700包括被耦合到芯片组704的至少一个处理器702。芯片组704包括存储器控制器集线器720和输入/输出(I/O)控制器集线器722。存储器706和图形适配器712被耦合到存储器控制器集线器720，并且显示器718被耦合到图形适配器712。存储设备708、键盘710、指点设备714和网络适配器716被耦合到I/O控制器集线器722。计算机700的其他实施例具有不同的架构。

存储设备708是非瞬态计算机可读存储介质，诸如硬盘驱动器、压缩盘只读存储器(CD-ROM)、DVD或固态存储器设备。存储器706保存由处理器702使用的指令和数据。指点设备714是鼠标、跟踪球或其他类型的指点设备，并且与键盘710结合使用以将数据输入到计算机系统700中。图形适配器712在显示器718上显示图像和其他信息。网络适配器716将计算机系统700耦合到一个或多个计算机网络。

计算机700适于执行计算机程序模块以用于提供本文所描述的功能性。如本文所使用的，术语“模块”是指用于提供指定功能性的计算机程序逻辑。因此，可以在硬件、固件和/或软件中实现模块。在一个实施例中，程序模块被存储在存储设备708上，被加载到存储器706中，并由处理器702执行。所使用的计算机700的类型可以根据实施例和要求而变化。例如，计算机可能缺少显示器、键盘和/或图7中所示的其他设备。

其他注意事项

所公开的实施例提高了时间系列数据的存储效率以及时间系列数据的计算效率。神经网络有助于将任意大小的数据序列转换为固定大小的特征向量。特别地，输入序列数据(或时间系列数据)可以比由神经网络的隐藏层生成的特征向量表示大得多。例如，输入时间系列可以包括几千个元素，而序列数据的特征向量表示可以包括几百个元素。因此，大数据序列被转换为固定大小且明显小的特征向量。这提供了序列数据的有效存储表示。存储表示可以用于辅助存储装置，例如，磁盘上的有效存储或用于或被用于存储器内处理。例如，对于处理序列数据，具有给定存储器的系统可以处理序列的大量特征向量表示(与原始序列数据相比)。由于大量序列可以同时被加载到存储器中，因此序列的处理更高效，因为不必经常将数据写入辅助存储装置。

此外，与序列数据本身的处理相比，对数据序列进行聚类的过程在基于序列的特征向量表示而被执行时，明显更有效。之所以如此，是因为序列数据中的元素数目可能明显高于序列的特征向量表示中的元素数目。因此，两个序列的原始数据的比较需要比两个特征向量表示的比较明显更多的计算。此外，由于每个序列可以具有不同的大小，因此两个序列的数据的比较将需要附加的处理以提取单独特征。

实施例可以例如使用并行/分布式架构并行地执行神经网络的处理。例如，可以并行执行神经网络的每个节点的计算，然后执行节点之间的数据通信的步骤。神经网络的并行处理提供了例如本文图4中所描述的整体过程的附加的计算效率。

应当理解，已经简化了本发明的附图和描述以图示与用于清楚理解本发明相关的元件，同时为了清楚起见，删除了典型分布式系统中的许多其他元件。本领域普通技术人员可以认识到，在实施实施例中，其他元件和/或步骤是期望的和/或要求的。然而，由于这样的元件和步骤在本领域中是众所周知的，并且因为它们不促进对实施例的更好的理解，因此这里不提供对这样的元件和步骤的讨论。本文的公开内容涉及本领域技术人员已知的、对这样的元件和方法的所有此类变型和修改。

上面的描述的一些部分根据算法和信息操作的符号表示来描述实施例。这些算法的描述和表示通常由数据处理领域的技术人员用来将其工作的实质有效地传达给本领域的其他技术人员。这些操作尽管在功能上、在计算上或在逻辑上进行了描述，但其应被理解为由计算机程序或等效电路、微代码等实现。此外，有时也很方便地将这些操作的布置称为模块而不失一般性。所描述的操作及其相关联的模块可以被体现在软件、固件、硬件或其任何组合中。

如本文所使用的，对“一个实施例”或“实施例”的任何引用表示结合该实施例描述的特定元件、特征、结构或特性被包括在至少一个实施例中。说明书中各个地方出现的短语“在一个实施例中”不一定全都指同一实施例。

可以使用表达“耦合的(coupled)”和“连接的(connected)”及其派生词来描述一些实施例。应当理解，这些术语并不旨在作为彼此的同义词。例如，可以使用术语“连接的”来描述一些实施例，以指示两个或更多个元件彼此直接物理或电接触。在另一示例中，可以使用术语“耦合的”来描述一些实施例以指示两个或更多个元件直接物理或电接触。然而，术语“耦合的”也可以表示两个或更多个元件不彼此直接接触，但是仍然彼此协作或相互作用。实施例不限于此上下文。

如本文中所使用的，术语“包括(comprise)”、“包括(comprising)”、“包括(include)”、“包括(including)”、“具有(has)”、“具有(having)”或其任何其他变型旨在覆盖非排他性包含。例如，包括元素列表的过程、方法、物品或装置不必仅限于那些元素，而是可以包括未明确列出或此类过程、方法、物品或装置固有的其他元素。另外，除非另有明确相反的说明，否则“或”是指包含性的“或”而不是排他性的“或”。例如，条件A或B由以下任一条件满足：A为真(或存在)且B为假(或不存在)；A为假(或不存在)且B为真(或存在)；以及A和B均为真(或存在)。

另外，“一”或“一个”的使用被采用来描述本文的实施例的元件和组件。这样做仅仅是为了方便并给出本发明的一般意义。该描述应被理解为包括一个或至少一个，并且单数也包括复数，除非明显的是另有说明。

在阅读了本公开之后，本领域技术人员将理解针对用于通过本文公开的原理使用失真区域显示图表的系统和过程的附加的备选结构和功能设计。因此，尽管已经说明和描述了特定的实施例和应用，但是应当理解，所公开的实施例不限于本文公开的精确的构造和组件。在不脱离所附权利要求书所限定的精神和范围的情况下，可以对本文公开的方法和装置的布置、操作和细节进行各种修改、改变和变型，这对于本领域技术人员而言将是明显的。

Claims

1.一种计算机实现的方法，包括：

接收多个数据序列，其中来自所述多个序列的每个数据序列表示具有独特长度的时间系列；

对于所述多个数据序列中的每个数据序列：

将所述数据序列作为输入提供给递归神经网络，所述递归神经网络包括节点的一个或多个隐藏层；以及

提取表示所述递归神经网络的隐藏层的输出的特征向量，其中响应于将所述序列数据作为输入提供给所述递归神经网络，所述特征向量由所述隐藏层生成；

对所提取的多个特征向量进行聚类，以确定特征向量的多个簇；

对于每个簇，确定表征所述簇的一个或多个显著特征；以及

将描述所述多个簇的信息发送到客户端设备，以用于经由用户界面进行呈现。

2.根据权利要求1所述的计算机实现的方法，其中每个序列数据表示从传感器获得的时间系列数据。

3.根据权利要求1所述的计算机实现的方法，其中每个序列数据表示描述与在线系统的用户交互的数据。

4.根据权利要求1所述的计算机实现的方法，其中所述递归神经网络是自动编码器，所述自动编码器被配置为接收输入序列并生成与所述输入序列相匹配的输出序列。

5.根据权利要求1所述的计算机实现的方法，其中确定表征所述簇的一个或多个显著特征：

接收解释性特征的集合；以及

对于来自特征的所述集合的每个特征，基于关联于所述簇的一组数据序列的所述特征的相似性度量与第二组数据序列的所述特征的相似性度量的比较，确定特征分数；以及

从解释性特征的所述集合中标识一个或多个解释性特征作为显著特征。

6.根据权利要求5所述的计算机实现的方法，其中解释性特征适用于多个簇，其中描述特定簇的所述信息包括所述特征的针对所述簇的聚合值。

7.根据权利要求5所述的计算机实现的方法，其中如果一组数据序列内的特征的所述相似性度量被确定为比所述第二组数据序列中的所述特征的所述相似性度量高一阈值，则所述特征被标识为所述一组数据序列的显著特征。

8.根据权利要求5所述的计算机实现的方法，其中如果第一序列能够通过移位第二序列而被获得，则比较包括所述第一序列的第一特征值与包括所述第二序列的第二特征值确定所述第一特征值与所述第二特征值相匹配。

9.根据权利要求5所述的计算机实现的方法，其中如果第一序列能够通过缩放第二序列而被获得，则比较包括所述第一序列的第一特征值与包括所述第二序列的第二特征值确定所述第一特征值与所述第二特征值相匹配。

10.根据权利要求5所述的计算机实现的方法，其中如果第一序列的形状被确定为与第二序列的形状相似，则比较包括所述第一序列的第一特征值与包括所述第二序列的第二特征值确定所述第一特征值与所述第二特征值相匹配。

11.一种计算机实现的系统，包括：

计算机处理器；以及

在其上存储指令的计算机可读非瞬态存储介质，所述指令在由处理器执行时使所述处理器执行以下步骤：

对于所述多个数据序列中的每个数据序列：

对于每个簇，确定表征所述簇的一个或多个显著特征；以及

12.一种计算机实现的方法，包括：

接收多个数据序列，其中每个数据序列对应于由传感器生成的传感器数据，并且其中每个数据序列表示具有独特长度的时间系列；

确定所述多个数据序列的多个组；

对于每组数据序列，确定表征一组数据序列的一个或多个显著特征，所述确定包括：

接收解释性特征的集合；

对于来自解释性特征的所述集合的每个解释性特征，基于所述一组数据序列内的所述解释性特征的相似性度量与第二组数据序列中的所述解释性特征的相似性度量的比较，确定特征分数；以及

基于所述特征分数，从特征的所述集合中标识一个或多个解释性特征作为显著特征；以及

接收标识特定传感器的信息；

确定与所述特定传感器相对应的特定组数据序列；以及

基于表征所述特定组数据序列的所述显著特征，预测与所述特定传感器相关联的事件。

13.根据权利要求12所述的计算机实现的方法，其中确定所述多个数据序列的多个组包括：

对于每个数据序列，使用递归神经网络处理所述数据序列，以获得与所述数据序列相对应的特征向量；以及

对多个特征向量进行聚类。

14.根据权利要求13所述的计算机实现的方法，其中使用递归神经网络处理所述数据序列包括：

将所述数据序列作为输入提供给所述递归神经网络；以及

提取表示所述递归神经网络的隐藏层的输出的特征向量。

15.根据权利要求13所述的计算机实现的方法，其中所述递归神经网络是自动编码器，所述自动编码器被配置为接收输入数据序列并生成与所述输入序列相匹配的输出数据序列。

16.根据权利要求12所述的计算机实现的方法，其中预测与所述特定传感器相关联的事件使用基于机器学习的模型而被执行，所述基于机器学习的模型被配置为输出所述事件在阈值时间间隔内发生的可能性。

17.根据权利要求12所述的计算机实现的方法，其中与所述传感器相关联的经预测的所述事件表示与所述传感器相关联的设备的故障。

18.根据权利要求12所述的计算机实现的方法，其中所述第二组数据序列通过从所述多个数据序列中获取数据序列的样本而被确定。

19.根据权利要求12所述的计算机实现的方法，其中如果与簇相对应的一组数据序列内的特征的所述相似性度量被确定为比第二组数据序列中的所述特征的所述相似性度量高一阈值，则所述特征被标识为所述簇的显著特征。

20.根据权利要求12所述的计算机实现的方法，其中特征包括值的序列，并且其中如果第一序列能够通过对第二序列执行变换而被获得，则比较包括所述第一序列的第一特征值与包括所述第二序列的第二特征值确定所述第一特征值与所述第二特征值相匹配，其中所述变换包括以下中的一项或多项：序列的移位或序列的缩放。