CN111639243A

CN111639243A - 时空数据渐进式多维模式提取与异常检测可视分析方法

Info

Publication number: CN111639243A
Application number: CN202010501600.1A
Authority: CN
Inventors: 张慧杰; 蔺依铭; 吕程; 曲德展; 徐劭斌
Original assignee: Northeast Normal University
Current assignee: Northeastern University China; Northeast Normal University
Priority date: 2020-06-04
Filing date: 2020-06-04
Publication date: 2020-09-08
Anticipated expiration: 2040-06-04
Also published as: CN111639243B

Abstract

本发明公开了时空数据渐进式多维模式提取与异常检测可视分析方法，涉及时空数据可视化领域，首先将多维时空数据建模成连续的张量时间序列，将最新时间段的张量作为当前张量，临近多个时间段的数据张量加权平均得到历史张量。然后，使用张量分解方法分别对历史张量和当前张量进行多维模式提取，得到两组rank‑one分量用来描述历史数据和当前数据中的潜在模式。最后基于两组模式的差异计算当前时间段的区域和时间异常分数，并结合可视化技术直观地展示模式的差异，为异常模式的解释提供支撑。

Description

时空数据渐进式多维模式提取与异常检测可视分析方法

技术领域

本发明涉及时空数据可视化领域，具体为时空数据渐进式多维模式提取与异常检测可视分析方法。

背景技术

随着城市信息化的不断完善与传感器设备的日益丰富，大量的城市时空数据被持续、科学地收集，使得人类的活动过程能够被更加全面地记录。这些城市数据包含大量的人类行为信息，具有时间、空间和属性等多维特征。为了有效挖掘复杂大数据内隐含的有价值信息，帮助分析人员理解社会运行，对城市时空数据进行模式提取与异常检测至关重要。在诸如社交网络、智慧医疗、智能交通、智慧城市社会管理等领域，发现其中隐藏的常规模式和时空异常具有特殊意义。以智慧城市管理为例：政府工作人员希望提取热线投诉数据的基本模式帮助城市规划，并且希望能够确定异常事件发生的准确时间和精确的空间位置，从而为突发事件的处理提供及时的决策支持。值得一提的是，城市分析人员对异常的解释十分关注，这能够帮助他们快速发现异常的原因。

然而，多维时空数据的维度之间相互依赖，并且各维度上的分布通常极不均匀，如何有效发现数据内潜在的模式与异常是一个巨大的挑战。随着数据量的增大，对于市长热线数据等多维时空数据，计算效率问题使这项任务变得更加艰巨。大部分的统计学和机器学习方法通常基于矩阵对时空数据进行建模，缺乏处理多维数据的能力。并且在异常检测方面也仅仅给出区域或时间的异常分数，缺乏有效的解释，导致分析人员无法快速找到异常发生的原因。

信息可视化旨在通过图形图像的方式揭示数据的内在规律，帮助用户感知、理解和分析数据，从而增强分析人员对数据的认知能力。可视分析结合可视化、人机交互和自动分析技术，为分析庞杂的多元异构数据提供了一个有效手段。分析过程以人为中心，充分发挥人的智慧，使整个分析过程透明化。近年来，结合可视化技术和自动分析技术探索城市多维数据是一个热门的研究方向。但目前尚缺乏全面支持常规模式提取、异常检测以及异常解释功能的集成可视分析框架，从而限制了分析人员得出更全面、准确的结论。此外，在大多数可视化系统中探索数据中多维模式是个繁冗的过程，没有提供有效的手段帮助用户快速和全面理解其中的模式，并且缺乏将常规模式与空间和时间上的异常现象进行交互式分析的手段，从而难以对这些异常进行解释。

发明内容

本发明的目的在于克服现有技术的不足，提供时空数据渐进式多维模式提取与异常检测可视分析方法，将多维时空数据建模为张量，采用基于张量分解的方法提取多维模式，并根据历史张量和当前张量模式的差异，对当前数据张量进行区域异常检测，集成可视化隐喻与丰富的交互方式，设计STPVis可视分析系统帮助分析人员挖掘城市时空数据中有价值的模式和异常事件，有效解决传统方法对于潜在模式提取和异常解释的局限性。

为了实现上述目的，本发明提供如下技术方案：

时空数据渐进式多维模式提取与异常检测可视分析方法，包括以下步骤：

步骤1：根据城市的热线数据构建一个三阶张量

其中T表示时间段数量，I表示行业数量，D表示区域数量，元素X[i,j,k]代表在第i个时间段、第k个区域、第j个行业的热线投诉数量,按照这种数据构建方式，连续多周的数据便可转化为一个张量时间序列；

步骤2：根据步骤1中的连续多周的数据转化成的张量时间序列，选择第m周的张量作为当前张量x_current，即x_current＝x_m，将前p周数据张量加权平均得到同规模的历史张量x_history，计算公式为：

其中，ω_t反映了第t周数据张量的重要程度，具体计算方法如下公式所示：

根据公式计算每周张量的权重ω_t，以确保与当前周相近的数据张量的权重更大，从而增加历史张量和当前张量分解结果的可比较性；

步骤3：将三阶张量

利用NCP方法进行张量分解，得到多个非负rank-one张量，每个rank-one张量代表一个多维模式：

其中a_i，b_i和c_i分别表示它在时间、行业和空间维度上的分布情况，R表示模式数量，通过上述公式，张量的每个元素被近似表示，得到一个逼近原始张量的“恢复张量”，表示为：

对相同维度的向量整合得到3个因子矩阵A、B和C，对因子矩阵A、B和C的列向量进行L2标准化：

向量λ∈R^R反映模式的重要程度，称为模式的权重向量，符号

表示向量的外积，

表示NCP模型；

步骤4：张量计算，对于

通过NCP张量分解得出R个模式近似表示

算法的最小化目标函数公式如下所示：

其中，A≥0，B≥0，C≥0；

提取历史模式集合，将历史张量x_history进行一次NCP张量分解，分解得到时间因子矩阵A′_R、行业因子矩阵

区域因子矩阵C′_R和历史模式的权重向量λ′_R∈R^R，因子矩阵的每一列分别代表了一个多维模式在时间、行业和空间上的分布，每一行都是一个R维向量，分别代表了在某一时间、某一行业和某一区域模式发生的可能性，作为对应时间、行业和空间的特征向量；

当R分别为不同数值时，多次运行NCP分解得到三个因子矩阵集合，记为A′_set、

和C′_set，以及模式的权重向量集合λ′_set；

步骤5：提取当前模式集合，

是历史张量和当前张量的公共因子矩阵，并将其作为对当前张量NCP分解迭代过程的已知参数，最小化目标函数的过程只对时间因子矩阵A_R和区域因子矩阵C_R迭代更新，直到满足停止条件，如公式所示；

对于每一个R的取值，通过公式的求解，因子矩阵A_R和C_R能够捕获到当前周的模式在时间和空间维度上的分布；通过多次运行NCP张量分解，则得到当前周的时间因子矩阵集合A_set和空间矩阵集合C_set；

步骤6：异常检测，将历史时间因子矩阵A′_R和空间因子矩阵C′_R作为基准，当前时间因子矩阵A_R和当前空间因子矩阵C_R与基准的差异作为衡量当前周时间和空间异常程度的依据，当前区域因子矩阵C_R的一行C_R[d，：]表示第d个区域模式的活动水平，当该区域存在异常，它的不同模式的活动水平和历史的模式活动水平C′_R[d，：]相比会有明显的差异；

向量S_R表示一次的空间异常结果，其中每个区域的异常分数通过计算该区域历史和当前特征向量的欧式距离得出，如公式所示，多次运行得到空间异常检测集合S_set：

步骤7：渐进式划分，根据当前张量进行渐进划分，当前张量和历史张量共享划分结果，从而保证每个分区的历史模式和当前模式的可对比性；

步骤8：可视化当前模式和历史模式的差异，为异常分数的解释提供支撑。

通过采用上述技术方案，步骤2中由于历史张量x_history是由长时间的数据加权得到的，其中个别周的异常事件引起的数量变化会被有效消除，所以历史张量可作为城市热线数据的常规张量，步骤3中很多指标可以被用于根据两个张量的差异衡量模型质量，例如：损失、拟合度、稳定度和错误率；步骤4中因为模型具有非负约束，从而保证所有的因子矩阵都是非负的，使得模式更易于被解释和理解；对于历史张量x_history，一次NCP张量分解分解得到时间因子矩阵A′_R、行业因子矩阵

区域因子矩阵C′_R和历史模式的权重向量λ′_R∈R^R。因子矩阵的每一列分别代表了一个多维模式在时间、行业和空间上的分布。每一行都是一个R维向量，分别代表了在某一时间、某一行业和某一区域模式发生的可能性，可以作为对应时间、行业和空间的特征向量，例如，A[i，k]捕获第i个时间片上的第k个模式发生的可能性；步骤5中因为短期异常事件导致的投诉数量增加会被权重稀释，所以历史张量x_history可以近似看作无异常事件的常规数据张量，对它分解可以得到一些基础模式，城市时空数据中的基础模式的行业分布是稳定的，短期不会发生显著变化，只是空间和时间上有较大差异；步骤7中采用渐进式的策略。从粗粒度的初始张量开始，每次选取一个维度进行划分，得到多个内部模式相似的子张量。然后对小规模的子张量从细粒度层级进行细节探索。这不仅能够解决因为分布不均匀导致的模式提取丢失现象，而且能够有效解决算力问题；步骤8中集成多个协同的可视化视图与直观的可视化隐喻，通过可交互的渐进式工作流，能够有效解决传统方法对于潜在模式提取和异常解释的局限性。

优选的，所述步骤7包括以下子步骤：首先选取一个时间划分维度，然后选择适当的聚类算法对时间数据切片聚类，最后根据聚类结果对张量进行划分，聚类中每个子张量的时间切片在空间和行业的分布相似。

通过采用上述技术方案，能够显著提升模型的拟合度，这有助于从数据子集中获取更清晰的模式和更准确的异常分数。

优选的，所述NCP分解是采用CP分解提取多维数据的潜在模式，并对其加上非负约束。

优选的，所述步骤4中模式数量R的确定采用集合模拟的方法，分别将R的数值从小到大作为分解模式数量参数多次运行NCP张量分解。

通过采用上述技术方案，不仅规避最优模式数量选择的问题，而且显著模式和潜在模式都能够有效捕获，并加以分析。因为当模式数量R较小时，显著模式很容易被提取，而潜在模式很难被捕获。随着R的增大，显著模式逐渐被细化，潜在模式开始出现，R的选择直接影响模式的质量，集合模拟的方法有效覆盖了显著模式和潜在模式，避免因模式数量R选择不当而影响所提取模式的质量。

优选的，所述步骤8包括建立时空模式可视分析系统，所述时空模式可视分析系统包括数据预处理模块与可视化模块；

所述数据预处理模块根据热线数据投诉内容使用自然语言处理方法提取事件发生的地址，然后使用地址解析工具将地址转化为经纬度，从而获得事件发生的精确的地理坐标，再将流式多维数据以周为时间区间构建张量，从而将多维时空数据转化成连续的张量时间序列；最后，选择某一周的张量作为当前张量，并将与其临近的多周张量加权平均得到历史张量，用来模拟实时监测的场景；

所述可视化模块通过集成了多种交互方式，支持用户通过丰富的视图从多角度、多层次和多粒度探索模式和异常，并对异常进行有效地解释，所述可视化模块包括模式探索模块、异常分析模块和渐进式划分模块。

优选的，所述模式探索模块包括模式投影视图单元、模式细节视图单元与模式查询面板单元，所述模式投影视图单元用于根据投影空间位置观察模式的亲疏关系，确定是否出现分簇现象，感知每个团簇的模式主要反映的行业类别投诉行为，发现历史模式和当前模式的共性和差异；

所述模式细节视图单元用于将时间、空间和行业三个维度在一个视图中同时编码，并采用多层可视化的设计；

所述模式查询面板单元用于高效地定位用户感兴趣的模式。

优选的，所述异常分析模块包括区域异常视图单元和异常解释视图单元，所述区域异常视图单元用于显示区域异常检测结果的共性和区别，所述异常解释视图单元用于帮助用户快速找到异常的原因并及时做出反应。

优选的，所述渐进式划分模块包括可视化划分单元、数据分区单元与数据编码单元，所述可视化划分单元通过树形图可视化渐进式划分的过程，所述数据分区单元允许树节点直接交互以执行数据分区，所述数据编码单元用于将每个树节点对应一个图标，展示张量在各个维度统计信息和模式分布。

本发明的有益效果是：本发明提出一个新颖的渐进式张量分解方法用于探索多维时空数据，该方法通过引导用户逐步对模式繁杂的数据张量进行最优划分，生成一组内部模式相对单一的子张量，解决传统方法在探索数据子集潜在信息的局限性。同时将模式提取、异常检测和异常解释联合分析，三者相互支撑，互为促进帮助分析人员获得更全面的见解，并设计实现一个可视分析系统——STPVis，该系统整合一系列可视化视图和交互设计方案，支持在两种粒度下对城市时空数据的模式和异常进行快速、准确、全面地探索，并对区域异常进行有效解释。

附图说明

图1为本发明多维模式提取算法的核心步骤示意图；

图2为本发明的rank-one三阶张量示意图；

图3为本发明的三阶张量的NCP分解示意图；

图4为本发明按时间维度进行张量划分的示意图；

图5为本发明STPVis的用户界面示意图；

图6为本发明STPVis的用户界面示意图中(a₁)的放大示意图；

图7为本发明STPVis的用户界面示意图中(b)的放大示意图；

图8为本发明STPVis的用户界面示意图中(c)的放大示意图；

图9为本发明两种粒度的区域异常视图；

图10为本发明的划分树节点的多层图标示意图；

图11为本发明的实施例的渐进式划分过程示意图；

图12为本发明的实施例中不同树节点的模式概览和典型模式示意图；

图13为本发明的方法框架图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

张量表示是一种对多维时空数据建模的有效方式，能够反映数据中多个维度之间的复杂关联。一个张量(用x表示)是一个多维数组，可以看作标量、向量以及矩阵向更高维度的扩展。例如，一周的长春市市长热线数据可以构建为一个三阶张量

其中T表示时间段数量(7天/84个2小时)，I表示行业数量(44个行业)，D表示区域数量(长春市10个行政区/185个等面积网格)。元素x[i，j，k]代表在第i个时间段、第k个区域、第j个行业的热线投诉数量。按照这种数据构建方式，连续多周的数据便可转化为一个张量时间序列。

本发明使用2016年长春市市长热线转化得到的张量时间序列来模拟实时检测的场景。例如，选择第m周的张量作为当前张量x_current(即x_current＝x_m，对应图1步骤③)。根据公式1，将前p周数据张量加权平均得到同规模的历史张量x_history(对应图1步骤②)，其中p默认为10，也可在系统中调整。公式1中的ω_t反映了第t周数据张量的重要程度。根据公式2计算每周张量的权重，以确保与当前周相近的数据张量的权重更大，从而增加历史张量和当前张量分解结果的可比较性。

由于历史张量x_history是由长时间的数据加权得到的，其中个别周的异常事件引起的数量变化会被有效消除，所以历史张量可作为长春市市长热线数据的常规张量。系统支持用户对空间和时间维度进行多粒度地探索，其中数据张量在时间维度上可以将7天细化为84个2小时的区间，在区域维度上10个行政区可被细化为185个等面积网格。因此，每周的数据可以构建成7×44×10和84×44×185两种尺寸的数据张量。

多维模式提取：高阶张量的分解在信号处理、计算机视觉、数据挖掘、神经科学、图分析等领域都有广泛的应用，在实际应用中最常用的两种分解技术为CP分解(CANDECOMP/PARAFAC(CP)decomposes)和Tucker分解，这两种特殊的张量分解可以看作是矩阵奇异值分解(SVD)的高阶扩展。CP分解将张量分解为rank-one张量(rank-one tensors)的和。为了提高模式的可解释性，这里采用CP分解提取多维数据的潜在模式，并对其加上非负约束，即为NCP(nonnegative CP)分解。

这里简要介绍算法涉及的关键概念。一个能够写成N个向量的外积的多路张量被称作rank-one张量，例如：

本发明中的张量均为三阶张量，如图2所示，

为一个秩为1的三阶张量表示。

其中符号

表示向量的外积。张量的每个元素都是对应向量元素的乘积，如公式3所示。

对于长春市市长热线数据的三阶张量

通过NCP张量分解后，则可以由多个非负rank-one张量近似表示，如图3所示。每个rank-one张量代表一个多维模式，其中a_i，b_i和c_i分别表示它在时间、行业和空间维度上的分布情况，R表示模式数量。

张量x中的元素可近似表示为：

通过上述公式，可以得到一个逼近原始张量的“恢复张量”(用

表示)。很多指标可以被用于根据两个张量的差异衡量模型质量，例如：损失、拟合度、稳定度和错误率。

对相同维度的向量整合得到3个因子矩阵A、B和C。例如，A＝[a₁；a₂；...；a_R]，B和C同理。NCP张量分解模型可以由公式5表示。通常，需要对因子矩阵A、B和C的列向量进行L2标准化。向量λ∈R^R反映模式的重要程度，称为模式的权重向量。所以公式5又可以进一步写成公式6的形式，其中

表示NCP模型：

张量计算：NCP张量分解是个优化问题，对于

分解目标是得出R个模式近似表示

算法的最小化目标函数公式如下所示：

其中，A≥0，B≥0，C≥0。因为模型具有非负约束，从而保证所有的因子矩阵都是非负的，使得模式更易于被解释和理解。

在计算张量分解时首先遇到的问题是如何确定模式数量R，但目前为止没有一个特定的算法能够有效确定最优的模式数量。随着组件数量的不断增加，模型的匹配度也将不断提高，但是这并不意味着模式数量越多越好。模式数量过多会导致结构从欠拟合转变为过拟合，可能会捕获噪声，并且使许多模式变得无法解释。在本发明中，使用集合模拟的思想，分别将R＝3，4，...，15作为分解模式数量参数多次运行NCP张量分解。这不仅规避最优模式数量选择的问题，而且显著模式和潜在模式都能够有效捕获，并加以分析。因为当模式数量R较小时，显著模式很容易被提取，而潜在模式很难被捕获。随着R的增大，显著模式逐渐被细化，潜在模式开始出现。R的选择直接影响模式的质量，分别对R＝3，4，...，15进行分解运算，有效覆盖了显著模式和潜在模式，避免因模式数量R选择不当而影响所提取模式的质量。

当模式数量被确定后，很多方法可用于计算NCP分解过程，本发明利用块坐标下降法求解上述优化问题。该方法首先随机初始化非负因子矩阵A、B和C，然后依次固定其中两个因子矩阵更新另一个因子矩阵(例如，固定矩阵B和C，更新矩阵A)，重复整个过程直到达到迭代次数或满足收敛条件为止。

提取历史模式集合：具体来讲，对于历史张量x_history，一次NCP张量分解(公式6)可得到时间因子矩阵A′_R、行业因子矩阵

区域因子矩阵C′_R和历史模式的权重向量λ′_R∈R^R。因子矩阵的每一列分别代表了一个多维模式在时间、行业和空间上的分布。每一行都是一个R维向量，分别代表了在某一时间、某一行业和某一区域模式发生的可能性，可以作为对应时间、行业和空间的特征向量。例如，A[i，k]捕获第i个时间片上的第k个模式发生的可能性。

当R分别为3,4,…,15时，多次运行NCP分解可以得到三个因子矩阵集合，记为A′_set、

和C′_set(每个维度集合包含13个因子矩阵集合成员，共计117个模式)，以及模式的权重向量集合λ′_set。

提取当前模式集合：因为短期异常事件导致的投诉数量增加会被权重稀释，所以历史张量x_history可以近似看作无异常事件的常规数据张量，对它分解可以得到一些基础模式。城市时空数据中基础模式的行业分布是稳定的，短期不会发生显著变化，只是空间和时间上有较大差异，所以假设

是历史张量和当前张量的公共因子矩阵，并将其作为对当前张量NCP分解迭代过程的已知参数(对应图1步骤④)。最小化目标函数的过程只对时间因子矩阵A_R和区域因子矩阵C_R迭代更新，直到满足停止条件，如公式8所示。

对于每一个R的取值，通过公式8的求解，因子矩阵A_R和C_R能够捕获到当前周的模式在时间和空间维度上的分布。通过多次运行NCP张量分解，则得到当前周时间因子矩阵集合A_set和空间矩阵集合C_set。

异常检测：张量分解是一种典型的降维方法，该方法试图将高维数据投影到一个低维的子空间中，在这个子空间中异常更容易被识别。因子矩阵可以看作对应维度的降维结果，因子矩阵的一行表示对应元素的子空间特征向量。由于历史张量可以作为没有异常事件的基准张量，因此所提取的R个模式可作为常规模式。将历史时间因子矩阵A′_R和空间因子矩阵C′_R作为基准，当前时间因子矩阵A_R和当前空间因子矩阵C_R与基准的差异作为衡量当前周时间和空间异常程度的依据。具体来说，当前区域因子矩阵C_R的一行C′_R[d，：]表示第d个区域模式的活动水平。如果该区域存在异常，它的不同模式的活动水平和历史的模式活动水平C′_R[d，：]相比会有明显的差异。

设向量S_R表示一次的空间异常结果，其中每个区域的异常分数通过计算该区域历史和当前特征向量的欧式距离得出，如公式9所示。多次运行可以得到空间异常检测集合S_set。

渐进式划分：由于城市时空数据的分布与空间行政规划和时段的特异性密切相关，所构建的张量各维度分布极不均匀，如果直接对其进行整体探索，很难捕获数据中的潜在模式。例如，乡镇的投诉模式和市区有很大的不同，但是由于城市的投诉数量远远多于乡镇的投诉数量，提取到的模式和异常很难完整体现乡镇投诉数据的特性。而且对于细粒度的张量直接分解也存在很大的算力问题。

为了克服上述两个局限性，采用渐进式的策略。从粗粒度的初始张量开始，每次选取一个维度进行划分，得到多个内部模式相似的子张量。然后对小规模的子张量从细粒度层级进行细节探索。这不仅能够解决因为分布不均匀导致的模式提取丢失现象，而且能够有效解决算力问题。

系统根据当前张量进行渐进划分，当前张量和历史张量共享划分结果，从而保证每个分区的历史模式和当前模式的可对比性。具体而言，首先选取一个划分维度，假设选取时间维度进行划分，A_R[i，：]是第i个时间区间的特征向量。在已知每个时间区间特征向量的情况下，可以应用多种聚类算法(包括k-means、hierarchical clustering和OPTICS)对时间数据切片聚类，然后根据聚类结果对张量进行划分。如图4所示，张量被分为工作日数据张量和周末的数据张量。其中每个子张量的时间切片在空间和行业的分布相似，能够显著提升模型的拟合度，这有助于从数据子集中获取更清晰的模式和更准确的异常分数。

综上所述，首先将多维时空数据构建为历史张量和当前张量。然后，使用NCP张量分解的集合化分析方法对当前张量和历史张量以不同参数多次分解，从而对得到的当前模式集合和历史模式集合进行全面分析，规避了最优模式数量选择和模式偶然性的问题。最后，根据历史和当前模式集合的差异检测区域异常。为了解决因为海量数据和各维度分布不均引起的计算效率和模式丢失问题，采用了渐进式策略，每次对一个维度进行最优划分，从而有选择地对子张量进行细粒度地探索，有效解决潜在模式易被隐藏和细粒度分析时算法复杂度过高的问题。

为了帮助分析人员有效发现城市时空数据中有价值的模式和异常事件，基于提出的时空模式提取与异常检测方法，设计STPVis可视分析系统，集成多个协同的可视化视图与直观的可视化隐喻，通过可交互的渐进式工作流，有效解决传统方法对于潜在模式提取和异常解释的局限性。系统得到长春市市长办公室数据和人员支持，和从事市长热线数据分析的领域专家共同制定了详细的设计需求，具体如下：

R1实时监测和分析。随着城市时空数据持续地被收集，该系统应该包含在线数据处理管道。该管道将不断产生的流数据连接到系统进行自适应计算、可视化和交互，从而用户可以对当前的数据进行接近实时地探索和分析，并及时做出合理的决策。

R2展示模式的概览与详情。由于城市时空数据的海量、复杂的特性，数据中存在着大量待挖掘和分析的数据模式。探索大量模式往往是一个迭代和耗时的过程，需要选择、遍历和观察所有模式，直到发现有意义的模式。因此，系统需要帮助用户更高效地探索大量模式。具体地，系统应该提供高层次的模式概览，并允许用户立即定位他们感兴趣的模式。同时，系统也应该帮助分析者更好地理解模式，而单纯通过查看多个协同视图来解释模式通常也是一项耗时的任务，因此该系统应该提供一种节省空间且合理的视觉表示来展现模式的多维信息。

R3展示空间异常。根据区域的异常分数进行可视化展示，以帮助用户对可疑信息进行搜索和过滤，从而将信息搜索工作转向可疑区域。系统应该提供粗、细两种粒度定位异常区域，以满足实际工作中异常的行政区定位和具体地理定位两种需求。

R4解释时空异常。系统应该提供有效机制用于提取和探索模式的差异，从而帮助用户快速发现异常发生的原因，为分辨可疑区域发生异常是否值得细致探索提供依据。其中，区域异常在行业维度的解释至关重要。通过可视化技术辅助异常解释，可以有效避免分析人员在复杂的实验结果中人为寻找异常产生原因，从而为分析人员节省大量的分析时间。

R5支持可交互的渐进分区。为了支持可迭代的、渐进的、自顶向下的分析工作流，系统应该使分析者能够跟踪他们为获得数据内在信息所采取的分析行为，并保持他们能够感知数据子集的上下文信息，并在必要时撤销数据分区操作。为每个子集以可视化方式提供信息概览从而增强用户对数据的感知是至关重要的，这有助于用户实现张量的最优化分。另外，提供一个功能完善的划分面板帮助用户根据已有知识选择和调整划分参数是必要的。STPVis系统设计了3个主要功能模块，包括模式探索模块、异常分析模块和渐进划分模块，支持用户自顶向下、渐进式、多粒度探索城市多维时空数据。

通过先后对历史张量和当前张量的多次分解，得到117个历史模式和117个当前模式。为了便于用户快速、全面、有选择地探索这些模式，在模式探索模块，设计了模式投影视图单元、模式细节视图单元和模式查询面板单元完成分析任务。

为了揭示模式之间的相似性和差异性，使用经典的降维方法(例如：MDS和t-SNE)将所有模式投影到二维空间，如图5(b)所示。模式之间的距离通过三个维度分布的差异计算得出，公式如下：

其中a和b代表两个多维模式，I_m表示第m维包含项的数量，

是模式a第m维第i项的值，

是模式b第m维第i项的值。

本发明中涉及的44个行业属于5个类别，分别为公共事业、城市管理、公共服务、乡村建设和环境污染。在模式投影视图单元中，每个图标代表一个模式(图5(b₁))。饼图展示了一个模式行业类别的比例，其中扇形按照行业类别比例递减的顺序绘制。行业类别的比例为行业包含项的概率和。图标内圆用不同颜色灰度区别历史模式和当前模式(深灰表示历史模式，浅灰表示当前模式)，为分析历史模式和当前模式的共性和变化提供便利。通过投影空间中位置的分布，分析人员可以评估模式之间的相似性和差异，并在此基础上交互地选择有代表性的模式。同时图标中行业类别的比例为判断模式的相似性提供了更多信息，因此分析人员不必完全依赖投影中的距离。

饼图的缺点主要是估计和比较数值的准确性较差。在本发明中，饼图的目的不是用于估计确切的数值和比较细节的差异，而是用于指出位置相近的模式是否足够相似。无需对饼图每个部分进行详细检查，饼图可以被视为一个整体。在整体上观察相近的团簇，快速感知每个团簇相关的行业类别。

模式投影视图单元用作模式概览、交互式面板和当前选择的表示。希望能够通过上述模式投影视图单元的可视化设计在以下三个角度获得见解。第一，根据投影空间位置观察模式的亲疏关系，确定是否出现分簇现象。第二，感知每个团簇的模式主要反映的行业类别投诉行为。第三，发现历史模式和当前模式的共性和差异。

模式详情视图单元旨在为用户理解和定义特定模式提供帮助。为了展示一个模式的多维分布，以一种更紧凑的方式将时间、空间和行业三个维度在一个视图中同时编码，并采用多层可视化的设计，如图5(d)所示。首先，为了体现出时间维度的变化趋势，采用环形的面积图展示第i个模式时间维度的分布(对应A[：，i])，如图5(d₁)所示。然后，径向条形图能够反映该模式行业分布的细节(对应Ｂ[：，i])如图5(d₂)所示。该视图由多个条形组成，每个条形代表一个行业，使用条形的高度映射对应项概率的大小。最后，使用地图的热力效果和气泡大小编码该模式的空间分布情况，如图5(d₃)所示。区域的背景颜色越深，包含气泡的半径越大表示该模式在此区域发生可能性越大。当用户切换至细粒度时(图5(a₂))，详细视图随之切换为细粒度模式。

模式查询单元允许高效地定位用户感兴趣的模式。开发了“查询面板”用于模式查询，其中包含每个维度的查询输入框(图5(c₁))，允许用户输入他们感兴趣的项。一旦提交了一个查询，系统便会检索相关的模式，并根据它们与用户查询的相关性进行排序。一个给定的查询Q＝{q₁，q₁，…｝由多个查询项组成，模式r与查询Q的相关性通过如下公式计算：

其中M_Q是查询涉及到的维度，

是第m维的查询所涉及项的集合。

是模式r第m维第i项的值。使用条形图展示查询结果，图5(c)右侧所示。该视图保留前十个最相关的模式，并按照相关性降序排列。条形的宽度映射相关性的大小，颜色灰度区别历史模式和当前模式。图5(c)左侧正方形大小编码模式的权重和相对强度。

对于一个查询结果的视觉表示，认为以下三个方面的信息是值得引起用户的注意的。首先，排名的顺序体现模式与查询的相关程度，其中排名靠前的模式应该查看其详情。其次，视图左侧正方形的大小反映模式的重要程度，重要程度很低的模式可能由噪音产生。所以排名靠前并且重要程度更大的模式为“最佳匹配”。最后，由于历史模式和当前模式通过根据颜色灰度区分，可以直观的发现当前模式和历史模式对于特定的查询是否存在差异。例如，当查询为“二道区”和“空气污染”，如果当前模式在排名中占据多数，并且整体排名靠前，这说明二道区的空气污染模式相对于历史数据明显增多，需要引起分析人员注意。

通过对历史张量和当前张量模式集合计算差异，能够得到空间异常检测结果集合S_set。为了清晰展示异常结果并对异常做出合理的解释，在该功能模块，设计了区域异常视图单元和异常解释视图单元以完成关于异常的分析任务。

为了探究13次(R为3到15)区域异常检测结果的共性和区别，设计了能够有效地总结异常结果集合信息的图标，如图9(a)所示。每个区域采用花的形状反映多次异常检测的结果并在地图上共同展示。每朵花包含13片花瓣(对应13次检测)，其中每片花瓣代表此区域一次检测的结果，即该区域一次检测的异常分数，若异常分数越大则花瓣越长。使用椭圆对每个花瓣进行绘制，并旋转椭圆构成一朵完整的花，即使所有花瓣形成整个圆(360°)。一方面，花朵的大小帮助确定异常的区域。另一方面，根据一朵花不同花瓣的长度，比较不同参数对异常分数的影响。

当系统切换为细粒度张量后，在空间维上，长春市被185个等面积网格划分。由于网格面积的限制，每个网格对应一朵花的图标用来展示该网格13次检测的异常分数不再适用，所以对视图进行简化。由于网格异常分数的均值能够反映其异常的大致情况，所以使用地图网格的热力图(如图9(b))展示每个网格的异常均值，均值越大对应的网格颜色越深。

异常解释旨在帮助用户快速找到异常的原因并及时做出反应，由于区域异常分数是根据历史模式和当前模式差异计算得到的，所以确定区域的异常是由哪些模式改变导致的至关重要。同时，需要对这些模式的改变进行总结，从而减少用户的分析负担并快速得出结论。

为了探索引起区域异常的模式变化，使用行业维度来近似代表模式。例如，一个解释可以被表述为：南关区异常主要是由于供水问题模式改变导致。区域d异常解释由向量E(d)∈R^I表示，通过公式12计算得出：

使用文字云来展示异常在行业维度的解释，如图5(f)所示。行业的字号越大说明区域d由该行业相关的投诉模式改变导致异常的可能性越大。

STPVis支持可控制的迭代工作流，这样分析人员就可以沿着不同的维度逐步地将数据划分为更小的子集。为了支持这个工作流程，使用树形图可视化张量在不同维度上连续细分的过程，类似于决策树的结构。树中的每个节点表示划分过程中创建的数据子集。分析人员可以直接与树节点交互来进一步划分它们，或者选择某一节点来探索潜在的模式和异常。

可视化划分单元通过可视化划分过程，树从左边的根节点开始，根节点表示原始张量x_current。节点的半径与x_current中所有元素的和成正比。分析人员可以手动选择一个维度(例如：时间、行业或区域)将原始的张量数据划分为几个子张量。对于每个子张量，将创建一个子节点并将其连接到根节点。子节点的半径以及连接曲线的宽度与对应子张量的数据量成正比。根据连接曲线的宽度和节点的半径，分析人员可以将重点放在数据量更大的分区上。分析人员可以对子张量进行进一步的划分，并且树形图的结构将相应地更新以显示划分结果。因此，整个渐进式划分的过程始终以可视的方式表示，这有利于对划分进行引导和优化。通过粒度切换开关(图5(a₂))可以对张量的粒度进行切换。

数据分区单元支持对数据分区进行操控。系统允许在树节点直接交互以执行数据分区。当分析人员将鼠标悬停在某个节点上时，将弹出一个划分面板(如图5(a₁)与图6所示)用来设定不同的选项。选项包括要执行划分的维度、聚类算法和参数等。其中每个动作都是可逆的，允许用户多次尝试和调整已达到最优的划分。

数据编码单元将每个树节点对应一个图标，如图10所示，用于展示张量在各个维度统计信息和模式分布，从而增加对数据张量的理解，为用户划分决策提供必要支持。为了展示张量的多种信息，图标借鉴多变量可视化的思想以更紧凑的方式展示数据信息。图标由内到外被分为三层，每层都通过径向展示以节约空间，并且按照维度等分为三个区域，沿着顺时针方向分别表示区域、行业和时间三个维度。最外层使用多线图(图10(a₁))展示当前张量分解得到的模式集合在三个维度上的分布情况。在中间层，三角形每条边都依附一个柱形图(图10(a₂))用于展示数据张量原始数据在三个维度上的边缘分布。在最内层，饼图(图10(a₃))展示每个边缘分布的混乱程度。混乱程度用信息熵除以边缘分布长度来计算，从而解决由于分布长度不相等而导致信息熵大小无法比较的问题。这里推荐的策略是信息熵越小(表明该维度的边缘分布更有序、更清晰)越应该考虑对该维度进行划分。当完成新的划分后，为了避免树形图祖先节点半径过大引起视图混乱，并确保能够清晰观察子张量信息，将父节点按一定比例缩小。

上述内容描述了探索模块、异常分析模块和渐进划分模块的可视化视图设计。在模式探索模块，系统支持从概览到细节的分析，并支持模式查询的功能。在异常解释模块，使用花的隐喻来体现区域多次异常检测的结果，并使用文字云直观反映区域异常的原因。在渐进划分模块，通过树形图可视化渐进式划分的过程，并为每个节点设计展示张量的统计信息和模式信息的图标，从而辅助用户的划分决策。

为了验证STPVis系统的可用性和实用性，将提出的方法应用于长春市市长热线的真实数据集，并邀请本领域的专家使用本系统完成分析任务。

本发明使用的数据集为2016年长春市热线数据，其中包含30万条与44行业相关的电话记录。每条记录包括时间戳、投诉内容、部门、行业、受理人等15个属性。按周为时间跨度可以构建52个张量，每个张量形如(时间,行业,区域)→热线数量，每周的数据可以构建成7×44×10和84×44×185两种尺寸的数据张量。选取第43周作为当前张量，用来模拟实时监测的场景。系统自动构建出两种粒度的历史张量和当前张量。

邀请了一位长春市市长办公室的工作人员，他是在公共安全和社会管理方面的领域专家，致力于研究如何根据市长热线数据的分析来促进长春市智慧城市建设。

专家从树形图(图11(a))的Node1根节点开始探索。在Node1节点图标最外层的径向多线图可以看出初始张量提取到的大部分模式在前5个行政区(市区行政区)概率处于高值，在后五个行政区(乡镇行政区)概率处于低值。这和第二层的区域边缘分布反映出市区投诉热线数量明显高于乡镇投诉数量的情况相符合。同时内层的信息熵图标也印证了上述情况。由于初始张量的模式投影视图(图12第2行第1列)明显分为两个簇，专家推测这是由于城区和乡镇区域不仅在数量上存在差异，而且投诉模式也有明显的不同。但对初始张量进行模式提取得到的大部分模式为城区的投诉模式，乡镇模式很难被发现。

为了探究模式的区域性差异，专家选择区域维度进行划分，运行k-means聚类算法将区域聚成两类(图11步骤①)。划分结果验证了专家的猜测，图11中Node3节点对应朝阳区、南关区、宽城区、二道区和绿园区，这个5个行政区均在长春市的市区。图11中Node2节点对应双阳区、九台市、德惠市、农安县和榆树市，这个5个行政区均是乡镇行政区。模式投影视图单元提供子集模式的概览，所以专家对比市区张量和乡镇张量的模式投影视图单元(图12第1行第2列和图12第1行第3列)，发现市区张量的主要模式反映公共事业和城市管理两个行业类别，乡镇数据张量模式主要体现乡村建设行业类别。从而可以得出市区模式和乡镇模式明显不同，并存在区域性差异的结论。

另外，专家希望为每个子集找到一个典型模式以代表其主要模式，并通过典型模式的详情视图观察模式的多维分布，从而理解和定义模式的含义。在模式投影视图单元中模式图标的半径越大则相对强度越大，专家选择相对强度最大的模式作为子集的典型模式。其中市区张量的典型模式(图12第3行第2列)表述为朝阳区在工作日关于供热行业的投诉情况，而乡镇区域的典型模式(图12第3行第3列)则反映了双阳区关于低保和农村路桥建设维护行业的投诉行为。

为探究模式是否存在时间性差异，专家在市区张量(图11中Node3)基础上将时间维度划分为两类(图11步骤②)，其中周一至周五被划分为一类，周六和周日为一类，从而生成市区周末的数据张量(图11中Node5)和市区工作日的数据张量(图11中Node4)。观察图12中Node4节点和Node5节点图标半径和连接曲线粗细发现周末的投诉数量远远小于工作日的投诉数量，但是投影视图和典型模式未出现明显的变化。根据上述的分析，专家得出市长热线模式的时间性差异不明显，但存在不同时间区间数据量的差异。

经过模式差异的分析，专家注意到当前周市区的常见模式均和供热行业相关。为了探究市区工作日的数据张量(图11中Node4)关于供热的模式情况，专家在模式查询面板单元中输入“供热”(行业维度)和“朝阳区”(区域维度)两个查询项，如图5(c₁)所示。系统根据公式11计算出与查询项最相关的前十个模式，并在模式查询视图中降序排列，如图5(c)所示。专家在模式查询结果直方图的相关性排序中发现当前模式相比历史模式明显占据数量上的优势，而且排名整体靠前，这可以说明当前周的朝阳区工作日关于供热的投诉问题明显加重。考虑到当前模式23(n-23)相关性排名靠前并且权重较大，专家确定其作为查询的“最佳匹配”。接下来，专家通过图5(d)观察该模式详情，观察该模式包含的多维信息，从而理解模式。在模式详情视图单元中可以看出在时间维度(最外层的面积图)星期二和星期三概率高于其他天，在时间维度(中间层的径向直方图)供热行业概率明显高于其他行业，在区域维度(最内层的地图热力和气泡图)朝阳区概率高于其他区。该模式可以表述为朝阳区在第43周的周二和周三关于供热的投诉行为。专家认为该模式出现的原因是2016年10月25日长春市开始供暖的事件导致。又因为该模式只反映25日和26日的供热开始的投诉情况，所以被认为该模式为供热问题的“初始模式”。

专家切换回初始张量Node1，想要观察长春整体的异常情况。如图11(b)上部所示，异常视图中市区的花比乡镇区域的花大很多，这表明市区的异常分数普遍高于乡镇的异常分数。专家表示这与实际经验相符，也和传统的异常检测方法结果基本一致。一朵花不同的花瓣长度基本一致，从而得出模式数量R的选择对于该系统检测模块影响较小，而对于多维模式提取模块却至关重要的结论。

异常解释视图单元的文字云是对选定区域当前模式相对于历史模式变化的总结，该视图引起了专家的注意。专家选择南关区查看该区域的异常解释，如图11(b)下部所示，南关区的异常主要是由供热问题导致，并且环境污染和供水问题也发生较大变化。专家推测环境污染投诉很有可能是由于开始供暖导致雾霾加重引起的，从而验证了异常解释对决策具有启发性的帮助。

市区人口密集，电话投诉的数据量巨大。然而乡镇由于人口的限制，异常事件的引起的投诉量小幅增加很难引起异常分数较大的改变，导致对初始张量分析无法得到乡镇数据的有效信息。乡镇区域往往存在异常事件却很难被发现，因此，专家切换至乡镇张量(图11中Node2)进行探索。为了更精确地定位异常区域，乡镇张量被切换至细粒度，如图11(c)上部所示。网格地图的热力分布表明异常主要出现在各个县的中心，其中农安县县城异常分数最高。专家选择该网格区域来探索异常的原因，在模式解释视图(图11(c)下部)发现异常主要由农村路桥建设维护、低保和供水行业改变导致，他认为这对负责乡镇工作的同事将会有很大帮助。经过上述的分析，专家认为渐进式分区将相似的数据切片组成新张量，有效消除了因数据量不均匀导致的检测局限性。

本发明的工作原理为：首先将多维时空数据建模成连续的张量时间序列，将最新时间段的张量作为当前张量，临近多个时间段的数据张量加权平均得到历史张量。然后，使用张量分解方法先后对历史张量和当前张量进行分解，得到两组rank-one分量用来描述历史数据和当前数据中的潜在模式。最后基于两组模式的差异计算当前时间段的区域和时间异常分数，并可视化模式的差异，为异常的解释提供支撑。另外，为了得到更清晰的模式和更准确的异常，并解决大规模数据的计算效率问题，使用自顶向下的渐进式工作流，用户可以将粗粒度的初始数据张量逐步划分得到内部更相似的子张量，然后将感兴趣的子张量切换为细粒度进行细节层次探索，基于这个工作流，设计并实现了STPVis，一个渐进式探索城市多维时空数据的可视分析系统。该系统可以引导用户迭代式划分数据，可视化从数据子集中提取出的多维模式和计算得出的异常结果，并支持探索异常的原因。该框架将方法计算、可视化表示和用户的交互紧密结合，支持用户进行多粒度分析与探索，从而有效促进用户分析并理解隐藏在数据中的模式和异常。通过将该方法应用于长春市智慧城市社会管理的真实案例，验证了该方法在城市时空数据集中的准确性和有效性。

图13展示了本发明方法的总体工作流程。由四个核心模块构成：

(1)数据预处理模块。本发明使用的数据为2016年长春市市长热线数据。由于数据中未包含地址属性，在数据预处理模块，首先根据投诉内容使用自然语言处理方法提取事件发生的地址。然后使用百度地图地址解析工具将地址转化为经纬度，从而获得事件发生的精确的地理坐标。再将流式多维数据以周为时间区间构建张量，从而将多维时空数据转化成连续的张量时间序列。最后，选择某一周的张量作为当前张量，并将与其临近的多周张量加权平均得到历史张量，用来模拟实时监测的场景。

(2)模式提取与异常检测集合模块。以不同的参数(模式数量)对历史张量和当前张量多次运行张量分解，得到两组模式集合。根据历史和当前模式集合的差异，计算得到当前周的异常检测结果集合。

(3)可视化模块。系统集成了多种交互方式，支持用户通过丰富的视图从多角度、多层次和多粒度探索模式和异常，并对异常进行有效地解释。

(4)渐进式划分模块。为了解决传统方法无法有效探索数据子集的局限性，从而获取更清晰的模式和更准确的时空异常，在张量划分模块，系统引导用户对模式繁杂的张量进行最优划分，将相似的数据切片组成新的子张量。通过划分得到一组模式相对简单的子张量，并有效解决了计算效率问题

以上所述仅是本发明的优选实施方式，应当理解所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.时空数据渐进式多维模式提取与异常检测可视分析方法，其特征在于，包括以下步骤：

步骤1：根据城市的热线数据构建一个三阶张量

其中T表示时间段数量，I表示行业数量，D表示区域数量，元素X[i,j,k]代表在第i个时间段、第k个区域、第j个行业的热线投诉数量,按照这种数据构建方式，连续多周的数据转化为一个张量时间序列；

根据公式计算每周张量的权重ω_t，以确保与当前周时间间隔更近的数据张量具有更大的权重，从而增加历史张量和当前张量分解结果的可比较性；

步骤3：将三阶张量

其中a_i，b_i和c_i分别表示其在时间、行业和空间维度上的分布情况，R表示模式数量，通过上述公式得到一个逼近原始张量的“恢复张量”，表示为

对相同维度的向量整合得到3个因子矩阵A、B和C，

表示向量的外积，

表示NCP模型；

步骤4：张量计算，对于

通过NCP张量分解得出R个模式近似表示

算法的最小化目标函数公式如下所示：

其中，A≥0，B≥0，C≥0；

提取历史模式集合，将历史张量x_history进行一次NCP张量分解，分解得到时间因子矩阵A′_R、行业因子矩阵B*_R、区域因子矩阵C′_R和历史模式的权重向量λ′_R∈R_R，因子矩阵的每一列分别代表了一个多维模式在时间、行业和空间上的分布，每一行都是一个R维向量，分别代表了在某一时间、某一行业和某一区域模式发生的可能性，作为对应时间、行业和空间的特征向量；

和C′_set，以及模式的权重向量集合λ′_set；

步骤5：提取当前模式集合，

2.根据权利要求1所述的时空数据渐进式多维模式提取与异常检测可视分析方法，其特征在于，所述步骤7包括以下子步骤：首先选取一个时间划分维度，然后对时间数据切片聚类，最后根据聚类结果对张量进行划分，聚类中每个子张量的时间切片在空间和行业的分布相似。

3.根据权利要求1所述的时空数据渐进式多维模式提取与异常检测可视分析方法，其特征在于，所述NCP分解是采用CP分解提取多维数据的潜在模式，并对其加上非负约束。

4.根据权利要求1所述的时空数据渐进式多维模式提取与异常检测可视分析方法，其特征在于，所述步骤4中模式数量R的确定采用集合模拟的方法，分别将R的数值从小到大分别作为分解模式数量参数多次运行NCP张量分解。

5.根据权利要求1所述的时空数据渐进式多维模式提取与异常检测可视分析方法，其特征在于，所述步骤8包括建立时空模式可视分析系统，所述时空模式可视分析系统包括数据预处理模块与可视化模块；

所述可视化模块通过集成多种交互方式，支持用户通过丰富的视图从多角度、多层次和多粒度探索模式和异常，并对异常进行有效地解释，所述可视化模块包括模式探索模块、异常分析模块和渐进式划分模块。

6.根据权利要求5所述的时空数据渐进式多维模式提取与异常检测可视分析方法，其特征在于：所述模式探索模块包括模式投影视图单元、模式细节视图单元与模式查询面板单元，所述模式投影视图单元用于根据投影空间位置观察模式的亲疏关系，确定是否出现分簇现象，感知每个团簇的模式主要反映的行业类别投诉行为，发现历史模式和当前模式的共性和差异；

所述模式查询面板单元用于高效地定位用户感兴趣的模式。

7.根据权利要求5所述的时空数据渐进式多维模式提取与异常检测可视分析方法，其特征在于：所述异常分析模块包括区域异常视图单元和异常解释视图单元，所述区域异常视图单元用于显示区域异常检测结果的共性和区别，所述异常解释视图单元用于帮助用户快速找到异常的原因并及时做出反应。

8.根据权利要求5所述的时空数据渐进式多维模式提取与异常检测可视分析方法，其特征在于：所述渐进式划分模块包括可视化划分单元、数据分区单元与数据编码单元，所述可视化划分单元通过树形图可视化渐进式划分的过程，所述数据分区单元允许树节点直接交互以执行数据分区，所述数据编码单元用于将每个树节点对应一个图标，展示张量在各个维度统计信息和模式分布。