CN110770753A

CN110770753A - 高维数据实时分析的装置和方法

Info

Publication number: CN110770753A
Application number: CN201980000465.8A
Authority: CN
Inventors: 刘扬; 雷志斌; 吴康恒; 黄纬宸; 谭伟略; 阳坤
Original assignee: Hong Kong Applied Science and Technology Research Institute ASTRI
Current assignee: Hong Kong Applied Science and Technology Research Institute ASTRI
Priority date: 2019-03-15
Filing date: 2019-03-19
Publication date: 2020-02-07
Anticipated expiration: 2039-03-19
Also published as: CN110770753B

Abstract

一种高维数据实时分析的方法，包括：在t‑SNE模型下对输入的历史数据集执行降维，并从得到的降维数据集中确定一个近期组；在PCA模型下对近期组数据集进一步降维；对进一步降维的数据集进行统计分析，以确定一个阈值组用于在实时数据流中区分异常数据与正常数据。该方法还可以包括：使用异常或正常数据集训练一个分类器，以预测实时数据源系统中的异常。或者，从正常和异常数据集之一计算一个差异训练数据集，并用于训练独立的正常和异常数据回归模型之一；基于一个已训练的回归模型的迁移学习，训练另一个回归模型。然后使用已训练的回归模型来预测差异值。

Description

高维数据实时分析的装置和方法

技术领域

本发明涉及由物联网(IoT)生成的数据的实时分析，特别涉及高维数据(highdimensional data)的实时数据分析的系统和方法，更具体地涉及用于识别有关异常数据模式的分析。

背景技术

在现代社会中，使用传感器、相机和数字仪表(例如水、燃气、电力等)是非常普遍的，这些设备的连接不断增长而形成庞大的IoT网络。这种IoT网络反过来产生大量数据，有效的数据分析是建设“智能”城市的重点领域之一。例如，典型的供水网络，其安装了大量流量计以收集水流数据。众多仪表产生高维数据集，其中高维数据集意味着该数据集关于其样本点数具有大量特征。高维数据的分析是一个耗时且复杂的过程，难以实时进行。此外，系统影响(例如拓扑变化、网络更新、人为错误等)经常使收集的数据与真实场景之间产生异步，导致数据分析精度低。

尽管如此，IoT数据的实时高维数据分析的好处是不可否认的。它可以帮助操作员快速识别潜在问题，从而节省成本，提高安全性和系统效率。但是，成功的数据分析的关键因素之一是识别有用数据用于数据分析，无论该有用数据是用于训练实时数据分析器，还是用于训练发现异常的分类器，或可以用作异常预测基础的实时数据子集。对实时高维数据分析还存在未满足的需求，需要有能够快速且准确识别高维数据集中有用数据的技术。

发明内容

本发明提供了一种高维数据实时分析的装置和方法，其解决了上述问题。根据本发明的一个方面，所提供的装置和方法包括一个过滤过程，该过滤过程过滤一个数据集，以获得一系列有用和/或稳定的数据子集以供进一步处理。与基于支持向量机(supportvector machine，SVM)、贝叶斯分类器和神经网络的非限制性示例的机器学习算法相结合，本发明实施例增加了从实时数据集获得准确的异常预测的可能性。

根据一个实施例，上述数据过滤过程包括：由第一降维处理器执行第一降维处理，从输入的数据集中找到一个近期组，由第二降维处理器对所述近期组执行第二降维处理，产生进一步降维数据集。在第一降维处理中，输入的数据集(其可以是历史数据集)的维度在t分布随机邻域嵌入(t-distributed stochastic neighbor embedding，t-SNE)模型下减小。然后，降维输入的数据集自然地聚类成组。为了确定近期组，进行多个实验以生成多个输入的历史数据集，接着，所述第一降维处理器产生多个自然聚类组的集合；包含最新数据的组被选择为近期组。

上述过滤过程的第二降维处理在主成分分析(PCA)模型下从最近组产生进一步降维数据集。在随后的数据分析过程中，通过一种或多种已知的数据统计方法对进一步降维数据集进行分析，以找到一个阈值组，其包括最大值、最小值、平均值、标准偏差值、以及最大出现频率的一个或多个。在运行期间，使用阈值组将实时数据流中的异常数据与正常数据区分开。

在一个实施例中，从实时数据流识别的正常数据和异常数据被用作训练数据，训练一个分类器，以检测实时数据源系统中的异常。在另一个实施例中，进一步分析从实时数据流识别的正常数据和异常数据，以获得一个正常差异数据集和一个异常差异数据集，用于训练两个独立的回归模型，以预测在一个特定未来时间点的差异值。然后，预测的差异值与在该特定未来时间点获得的实际差异值进行比较，以识别实时数据源系统中的任何异常(例如，如果实际差异值比由正常差异回归模型预测的差异值更接近由异常差异回归模型预测的差异值，则实时数据源系统存在异常)。

附图说明

下面参考附图更详细地描述本发明的实施例，其中：

图1显示本发明一个方面的数据降维过程的逻辑框图和数据流程图；

图2显示示例性水流量计网络收集的降维的输入的历史数据集的数据图表；

图3显示示例性水流量计网络收集的进一步降维的数据集的数据值；

图4显示本发明第一实施例的高维数据实时分析的装置和方法的逻辑框图和数据流程图；

图5显示本发明第二实施例的高维数据实时分析的装置和方法的逻辑框图和数据流程图；

图6显示本发明第三实施例的高维数据实时分析的装置和方法的逻辑框图和数据流程图；

图7显示本发明第三实施例一个方面的结合迁移学习过程的神经网络栈的逻辑图。

具体实施方式

在以下描述中，作为优选示例描述了高维数据实时分析的装置和方法等。在不脱离本发明范围和精神的情况下进行的修改(包括添加和/或替换)，对于本领域技术人员是显而易见的。省略了一些具体细节，以免模糊本发明；但是，本公开是为了使本领域技术人员能够在不进行过度实验的情况下实践本发明的教导。

维度是指数据集(data set)中的特征数量(如属性、自变量和解释变量)。高维数据是指，与该数据集中数据点或实例(instance)的数量相比，维度的数量相对较高。本发明各个实施例通过结合减少数据集中维数的方法来实现高维数据的快速分析。

参见图1。根据本发明的一个方面，该方法和装置包括第一降维处理和第二降维处理中的一个或两个。第一降维处理包括第一降维处理器(101)，其包括t分布随机邻域嵌入(t-SNE)模型，用于从输入的历史数据集产生一个降维数据集。然后将降维数据集聚类成自然聚类组(naturally clustered groups)。为了确定一个近期组，进行多个实验以产生多个输入的历史数据集，接着，第一降维处理器(101)产生多个自然聚类组的集合；近期组是所述多个自然聚类组的集合中包含最新数据的组。

或者，近期组是具有最小损失函数值的一个自然聚类组。然后将已确定的近期组馈送到第二降维处理器(102)。第二降维处理器(102)执行主成分分析(PCA)以进一步减小近期组数据集的维度，以产生PCA参数集，用于将实时数据流中的异常数据与正常数据区分开。

t-SNE是数据分析领域中用于降维的一个已知算法。它使用非线性压缩将高维数据集投射到低维空间。在一个示例性实施例中，输入到第一降维处理器(101)的历史数据是一个(N，T)数据集，其中N是数据集中的维数，T是时间信息。

第一降维处理器(101)中的t-SNE处理，产生一个(M，T)数据集，其中M是降低的维度的数量，并且M<<N。在实际情况中，N可以是几百或几千，M可以是二或三。在第一降维处理器(101)的t-SNE模型处理之后，产生的(M，T)数据集中的数据按时间分组。通常可以看出，这些组捕捉了整个数据源系统在时域中发生的重大事件。可以定期(如每周、每月、每季度)更新t-SNE模型或按需更新(例如，当实时数据源系统中发生主要拓扑变化时)，即，使用新的输入数据集以产生新的近期组。

为了说明本发明实施例，使用了本发明的一个实施例的在水流量计网络上的示例性实施方式。图2显示从这种水流量计网络收集的已降维(通过t-SNE模型)的输入的历史数据集的数据图表。每个自然聚类组(201)包括来自一个时间段内的所有仪表的水流数据，每个点(202)是来自一个时间(如一天)实例段内(或短时间)的所有仪表的水流数据。

PCA是数据分析领域中已知的用于降维的统计程序。它使用线性压缩将高维数据集投射到低维空间。第二降维处理器(102)使用PCA模型来降低由第一降维处理器(101)产生的近期组的维度。还是使用水流量计(该水流量计产生图2的已降维的输入的历史数据集的数据图表)的示例性网络来说明，在近期组中，每个仪表的数据(每个仪表的数据的数量是K，即K维)被转换成L维数据，其中在该示例中L<<K且L＝2，如图3所示。

PCA模型进一步降低了由第一降维处理器(101)从输入的历史数据产生的近期组中的数据集的维度。根据PCA结果(包含进一步降维的近期组数据集)，由本领域已知的一种或多种数据统计方法确定一个阈值组(包括最大值、最小值、平均值、标准偏差和最大出现频率中的一个或多个)。该阈值组用于区分实时数据流中的异常数据和正常数据，并识别实时数据源系统中的异常。例如，异常数据可以定义为值大于最大值(或最大值乘以一个固定系数(如0和1之间))的数据，或低于最小值(或最小值乘以一个固定系数(如0和1之间))的数据。再例如，异常数据可以定义为值偏离平均值大于标准偏差(或标准偏差乘以一个固定系数(如0和1之间))(|数据值-平均值|>系数*标准偏差)的数据。PCA模型可以定期更新(如每周、每月、每季度)或按需更新(例如，当发现PCA模型表现不佳或越来越不准确时)。可以通过用实时数据增加近期组数据作为第二降维处理器(102)的输入来完成PCA模型的更新。

在上述水流量计网络的示例性实施例中，阈值组可以被配置为(最大值，最小值)＝(2，-2)；然后异常数据集可以定义为那些在阈值组之外(例如>2或<-2)的二维数据中两个维度值的数据点。

参考图4。第一实施例提供了一种高维数据分析的装置和方法，包括由第一降维处理器(401)执行的第一降维处理，由第二降维处理器执行的第二降维处理(402)，以及由数据统计分析器(403)执行的数据统计分析处理。第一降维处理包括第一降维处理器(101)，其包括一个t分布随机邻域嵌入(t-SNE)模型，用于从输入的历史数据产生降维数据集。然后将降维数据集聚类成自然聚类组。为了确定近期组，进行多个实验以产生多个输入的历史数据集，反过来，第一降维处理器产生多个自然聚类组的集合；近期组是包含最新数据的组。

或者，近期组是具有最小损失函数值的一个自然聚类组。然后将已确定的近期组馈送到第二降维处理器(402)。第二降维处理根据由第二降维处理器(402)执行的PCA模型，以进一步降低近期组中数据的维度以产生PCA结果，其包含进一步降维的近期组数据集。

然后将PCA结果数据集输入到数据统计分析器(403)，执行数据统计分析过程。数据统计分析器(403)对PCA结果数据集执行一种或多种已知的数据统计方法，以确定一个阈值组，其包括最大值、最小值、平均值、标准偏差和最大出现频率。

使用已确定的阈值组，数据统计分析器(403)通过区分异常数据和正常数据来分析实时数据流以识别实时数据源系统中的异常，其中异常数据被定义为具有阈值组之外的统计值的那些数据(例如，PCA结果数据集中的那些大于阈值最大值或小于阈值最小值的数据值，或者PCA结果数据集中那些超出阈值平均值加上标准偏差的数据值)。

在本发明的上述水流量计网络示例性实施方式中，阈值组包括最大值、最小值和最大出现频率，从水流量计网络收集的那些超出最大值和最小值的实时数据是异常数据，当观察到异常数据比最大出现频率还更频繁出现(或在一段时间内的次数)时，数据统计分析器(403)确定异常。

参考图5。第二实施例提供了一种高维数据分析的装置和方法，包括由第一降维处理器(501)执行的第一降维处理，由第二降维处理器执行的第二降维处理(502)，由数据统计分析器(503)执行的数据统计分析处理，这些与上述第一实施例中的相同。但是，第二实施例的装置和方法还包括由分类器(504)执行的分类处理，其中分类器可以通过本领域已知的方法实施，例如SVM、贝叶斯和神经网络。

将由数据统计分析器(503)从实时数据流区分的异常数据集和正常数据集一起作为训练数据集(例如，每个数据都有一个值和一个正常或异常的标签)，用于训练分类器(504)。该训练数据集可以包含高维数据或低维数据。然后，已训练的分类器(504)被用于从实时数据源系统中预测实时数据流中的异常。

参考图6。第三实施例提供了一种高维数据分析的装置和方法，包括由第一降维处理器(601)执行的第一降维处理和由第二降维处理器执行的第二降维处理(602)，这些与前述第一实施例中的相同。

但是，第三实施例的装置和方法还包括由数据统计分析器(603)执行的数据统计分析处理，该数据统计分析器对PCA结果数据集执行一种或多种已知数据统计方法以确定一个阈值组，其包括最大值、最小值、平均值、标准偏差和最大出现频率中的一个或多个；并使用已确定的阈值组来分析实时数据流，以区分实时数据流中的实时异常数据与正常数据，其中实时异常数据被定义为具有阈值组之外的统计值的数据。

另外，数据统计分析器(603)对异常数据集和正常数据集执行一种或多种已知数据统计方法，以产生一个异常差异训练数据集和一个正常差异训练数据集，其中异常差异训练数据集包含异常数据集中的已识别差异和差异出现的时间信息，正常差异训练数据集包含正常数据集中的已识别差异和差异发生的时间信息。

第三实施例的装置和方法还包括差异预测器(604)，其被配置以训练和执行两个独立的机器学习回归模型以预测差异值，其中回归模型的训练可选地包括迁移学习过程(transfer learning process)。

通常，差异可以定义为两个数据集之间的差异。以上述示例性水流量计网络作为说明性示例，差异可以被定义为通过流量计的流入和流出之间的测量水流量的差异，差异值可以根据所收集的水流量计数据来预测。差异值表示实时数据源系统中的任何异常。

图7显示分别用于正常差异回归模型和异常差异回归模型的神经网络堆栈(700)和(710)的逻辑图。用于正常差异回归模型的神经网络堆栈(700)包括一个或多个长短期记忆(long-short term memory，LSTM)单元(702)的网络，用于根据实时正常差异数据(或训练期间的正常差异训练数据集)来进行分类和预测，并驻留在第一完全连接(fullyconnected，FC)层(701)和第二FC层(703)之间。第一FC层(701)接收实时正常差异数据(或训练期间的正常差异训练数据集)作为输入用于初始处理，并发送到LSTM网络(702)，第二FC层(703)接收来自LSTM网络(702)的结果作为输入，并预测在一个特定未来时间点的正常数据差异值，以指示实时数据源系统中的任何异常。

类似地，用于异常差异回归模型的神经网络堆栈(710)包括一个或多个LSTM单元的网络(712)，用于根据实时异常差异数据(或在训练期间的异常差异训练数据集)来进行分类和预测，并驻留在第一FC层(711)和第二FC层(713)之间。第一FC层(711)接收实时异常差异数据(或训练期间的异常差异训练数据集)作为输入用于初始处理，并发送到LSTM网络(712)，第二FC层(713)接收来自LSTM网络(712)的结果作为输入，并预测在一个特定未来时间点的异常数据差异值，以指示实时数据源系统中的任何异常。然后可以使用预测的差异值与在该特定未来时间点获得的实际差异值进行比较，以识别实时数据源系统中的任何异常(例如，如果实际差异值比预测的正常数据差异值更接近预测的异常数据差异值，则实时数据源系统中存在异常)。

为了加快回归模型的训练，结合迁移学习过程。在一个实施例中，只有预训练的正常差异回归模型使用正常差异数据集训练。然后，已训练的正常差异回归模型被重新利用(repurposed)并由网络堆栈(710)的LSTM网络(712)采用以用于异常差异回归模型，并根据实时异常差异数据进行分类和预测。在另一个实施例中，仅预训练的异常差异回归模型使用异常差异数据集训练。然后，已训练的异常差异回归模型被重新利用并由网络堆栈(700)的LSTM网络(702)采用以用于正常差异回归模型，并根据实时正常差异数据进行分类和预测。

这里公开的电子实施例可以使用一个或多个计算设备、计算机处理器或电子电路(包括但不限于专用集成电路(ASIC)、现场可编程门阵列(FPGA)和根据本公开的教导专门配置或者编程的其他可编程逻辑设备)来实施。基于本公开的教导，计算机和电子领域的技术人员可以容易地准备在计算设备、计算机处理器或可编程逻辑设备中执行的机器指令和/或电子电路配置。

上述计算设备、计算机处理器或电子电路可以包含在一个或多个服务器计算机、个人计算机、膝上型计算机、移动计算设备(如智能电话和平板计算机)中。

电子实施例包括瞬态和非瞬态电子存储介质，其中存储有机器指令和/或电子电路配置数据，其可用于配置计算设备、计算机处理器或电子电路以执行本发明的任何过程。存储介质可以包括但不限于软盘、光盘、蓝光盘、DVD、CD-ROM和磁光盘、ROM、RAM、闪存设备或适于存储指令、代码和/或数据的任何类型的介质或设备。

本发明的各种实施例还可以在分布式计算环境和/或云计算环境中实施，其中整个或部分机器指令由一个或多个处理设备以分布式方式执行，其中所述一个或多个处理设备通过通信网络互连，例如内联网、广域网(WAN)、局域网(LAN)、互联网和其他形式的数据传输媒介。

出于说明和描述目的已经提供了本发明的前述描述。其并非旨在穷举或将本发明限制于所公开的精确形式。许多修改和变化对于本领域技术人员来说是显而易见的。

选择和描述的实施例是为了最好地解释本发明的原理及其实际应用，从而使得本领域技术人员能够理解本发明的各种实施例和适合于预期特定用途的各种修改。

Claims

1.一种高维数据实时分析的方法，包括：

对输入的历史数据集执行第一降维，以产生降维数据集；

确定近期组，包括：

通过数据点的出现时间，将所述降维数据集中的数据点聚类成自然聚类组；

从所述自然聚类组中找到所述近期组；

对所述近期组执行第二降维，以产生进一步降维数据集；

从所述进一步降维数据集中，确定一个阈值组；

将实时数据流中的异常数据与正常数据区分开，并产生异常数据集和正常数据集，其中所述异常数据是具有所述阈值组之外的值的数据点。

2.根据权利要求1所述的方法，其中所述第一降维包括：在t分布式随机邻域嵌入(t-SNE)模型下降低所述输入的历史数据集的数据维度。

3.根据权利要求1所述的方法，其中所述近期组的确定包括：

从多个实验产生的多个输入的历史数据集中获得多个降维数据集；

从所述多个降维数据集中选择包含最新数据的组作为近期组。

4.根据权利要求1所述的方法，其中所述近期组的确定包括：

从所述自然聚类组中选择具有最小损失函数值的组；

其中所述近期组是具有最小损失函数值的组。

5.根据权利要求1所述的方法，其中所述第二降维包括：在主成分分析(PCA)模型下降低所述近期组的数据维度。

6.根据权利要求1所述的方法，其中所述阈值组包括最大值、最小值、平均值、标准偏差和最大出现频率中的一个或多个；

其中实时数据流中的异常数据是其值大于所述最大值或小于所述最小值的数据点；

其中实时数据流中的异常数据是其值在所述平均值加上所述标准偏差之外的数据点；

其中，当所述异常数据比所述最大出现频率更频繁地出现时，预测所述实时数据源系统异常。

7.根据权利要求1所述的方法，还包括：

使用所述异常数据集、所述正常数据集、或所述异常数据集和所述正常数据集的组合来训练分类器；

所述已训练的分类器将所述实时数据流中的实时数据中的每个数据点识别为异常数据或正常数据；

由所述已训练的分类器预测所述实时数据源系统中的任何异常。

8.根据权利要求1所述的方法，还包括：

从所述正常数据集计算正常差异训练数据集；

使用所述正常差异训练数据集来训练独立的正常数据回归模型，以预测在未来时间点的正常数据差异值；

通过基于已训练的独立的正常数据回归模型的迁移学习，训练独立的异常数据回归模型，以预测在所述未来时间点的异常数据差异值；

其中，所述预测的差异值用于与实际差异值进行比较，以识别在所述未来时间点的所述实时数据源系统中的异常。

9.根据权利要求1所述的方法，还包括：

从所述异常数据集计算异常差异训练数据集；

使用所述异常差异训练数据集来训练独立的异常数据回归模型，以预测在未来时间点的异常数据差异值；

通过基于已训练的独立的异常数据回归模型的迁移学习，训练独立的正常数据回归模型，以预测在所述未来时间点的正常数据差异值；

10.一种高维数据实时分析的系统，包括：

第一降维处理器，其至少一个计算机处理器被配置为：

对输入的历史数据集执行第一降维，以产生降维数据集；

确定近期组，包括：

从所述自然聚集组中找到所述近期组；

第二降维处理器，其至少一个计算机处理器被配置为：对所述近期组执行第二降维，以产生进一步降维数据集；

数据统计分析器，其至少一个计算机处理器被配置为：

从所述进一步降维数据集中，确定一个阈值组；

11.根据权利要求10所述的系统，其中所述第一降维包括在t分布随机邻域嵌入(t-SNE)模型下降低所述输入的历史数据集的数据维度。

12.根据权利要求10所述的系统，其中所述近期组的确定包括：

13.根据权利要求10所述的系统，其中所述近期组的确定包括：

从所述自然聚类组中选择具有最小损失函数值的组；

其中所述近期组是具有最小损失函数值的组。

14.根据权利要求10所述的系统，其中所述第二降维包括：在主成分分析(PCA)模型下降低所述近期组的数据维度。

15.根据权利要求10所述的系统，其中所述阈值组包括最大值、最小值、平均值、标准偏差和最大出现频率中的一个或多个；

16.根据权利要求10所述的网络系统，还包括：

分类器，其至少一个处理器被配置为：

训练后，将所述实时数据流中的实时数据中的每个数据点识别为异常数据或正常数据；

训练后，预测所述实时数据源系统中的任何异常。

17.根据权利要求10所述的系统，还包括：

数据统计分析器，其被配置以从所述正常数据集计算正常差异训练数据集；

差异预测器，其至少一个处理器包括：

独立的正常数据回归模型，其通过使用所述正常差异训练数据集，被训练以预测在未来时间点的正常数据差异值；

独立的异常数据回归模型，其通过基于已训练的独立的正常数据回归模型的迁移学习，被训练以预测在所述未来时间点的异常数据差异值；

18.根据权利要求10所述的系统，还包括：

数据统计分析器，其被配置以从所述异常数据集计算异常差异训练数据集；

差异预测器，其至少一个处理器包括：

独立的异常数据回归模型，其通过使用所述异常差异训练数据集，被训练以预测在未来时间点的异常数据差异值；

独立的正常数据回归模型，其通过基于已训练的独立异常数据回归模型的迁移学习，被训练以预测在所述未来时间点的正常数据差异值；