CN112100243B

CN112100243B - 一种基于海量时空数据分析的异常聚集检测方法

Info

Publication number: CN112100243B
Application number: CN202010969343.4A
Authority: CN
Inventors: 郑凯; 王子维; 孙福振; 王绍卿; 任崇广
Original assignee: Shandong University of Technology
Current assignee: Shandong University of Technology
Priority date: 2020-09-15
Filing date: 2020-09-15
Publication date: 2024-02-20
Anticipated expiration: 2040-09-15
Also published as: CN112100243A

Abstract

一种基于海量时空数据分析的异常聚集检测方法，属于异常聚集检测技术领域。其特征在于：包括如下步骤：步骤1，轨迹预处理；步骤2，聚集发现；步骤3，聚集分类；步骤4，异常聚集检测。在本基于海量时空数据分析的异常聚集检测方法中，首先从轨迹数据中捕获各种聚集。其次从历史轨迹中提取时空特征，将聚集分为非预期聚集和候选的周期性聚集。再次，进一步研究了周期性聚集的强度，结合环境因素动态识别其异常，并结合之前获得的孤立聚集和非周期性聚集形成异常聚集，实现了大规模轨迹流异常聚集的在线检测。改进了群体模式，捕获了由具有共同目的或行为的相关对象组成的集合。并采用不同的插值策略，使其适用于稀疏时空数据的模式挖掘。

Description

一种基于海量时空数据分析的异常聚集检测方法

技术领域

一种基于海量时空数据分析的异常聚集检测方法，属于异常聚集检测技术领域。

背景技术

轨迹挖掘近年来受到了广泛的关注。许多应用，如社区推荐、交通预测、出租车轨迹异常检测等，都得益于轨迹挖掘。异常聚集检测着眼于发现一种称为聚集的群体模式，并提出一种基于历史时空特征的异常检测方法，一般来说，聚集是由一定数量的个体在一段时间内出现在一个区域内形成的。聚集和热点有明显的区别，后者只包含大量的个体，但是这些个体可能只是巧合地通过该区域而且行动方式完全不同，聚集检测可以帮助监测各种不寻常的群体事件。

现有的技术中已经提出了一些群体模式，如flock、convoy、swarm、gathering等。这些群体模式往往要求群体中始终存在同一组个体，或者并不保证成员随着时间的推移而逐渐变化，这些都与congregation的定义不一致。另外，现有的技术大多考虑到聚集已经是一个不寻常的事件，所以没有对聚集的结果进行进一步的分析。

现有的研究大多由于考虑到聚集已经是一个不寻常的事件，所以没有对聚集的结果进行进一步的分析，但进一步的分析有助于提高异常聚集检测结果的质量，现实中，采用异常聚集检测方法往往对不可预测活动的实时监测具有更重要的价值。同时，现有的技术程序并行度不够，无法在线地对大规模轨迹流中的异常聚集进行检测。

发明内容

本发明要解决的技术问题是：克服现有技术的不足，提出一种首先从轨迹数据中捕获各种聚集，其次从历史轨迹中提取时空特征，将聚集分为非预期聚集和候选的周期性聚集。再次，进一步研究了周期性聚集的强度，结合环境因素动态识别其异常，并结合之前获得的孤立聚集和非周期性聚集形成异常聚集，实现了大规模轨迹流异常聚集在线检测的基于海量时空数据分析的异常聚集检测方法。

本发明解决其技术问题所采用的技术方案是：该基于海量时空数据分析的异常聚集检测方法，其特征在于：包括如下步骤：

步骤1，轨迹预处理；结合历史轨迹与当前轨迹得到点的平均位置，同时通过历史轨迹与当前轨迹的对比得到该点的缺失位置，对于无法报告位置的点进行插补处理，确定该点的插补值，通过插补值与平均位置确定该点处理后的轨迹；

步骤2，聚集发现；生成快照聚类，认定聚集在任何时候都包含一定数量的普通成员和核心成员，当一个人群在一段时间内所有的时间片簇中都包含了数量超过了阈值的核心成员和阈值的普通成员，如果人群在任何时候都包含足够的核心成员，则定义为聚集；

步骤3，聚集分类；将聚集分为三类：孤立聚集、候选周期性聚集中的非周期性聚集和周期性聚集；

步骤4，异常聚集检测；根据每个聚集的历史数据和当前数据，为其设置参与人数阈值，同时根据历史数据计算其持续时间的平均值，当新聚集的参与者人数大于等于其参与人数阈值，同时时间长于聚集的平均值判定该聚集为异常聚集。

首先从轨迹数据中捕获各种聚集。其次从历史轨迹中提取时空特征，将聚集分为非预期聚集和候选的周期性聚集。再次，进一步研究了周期性聚集的强度，结合环境因素动态识别其异常，并结合之前获得的孤立聚集和非周期性聚集形成异常聚集，实现了大规模轨迹流异常聚集的在线检测。

优选的，在所述步骤1中，通过历史轨迹与当前轨迹的对比时，分别计算两个点之间的球面距离以及某个点的历史位置与当前位置的最大距离。

优选的，所述的两个点之间球面距离的计算公式为：

历史位置与当前位置的最大距离的计算公式为：

其中，p表示点的当前位置，q表示点的某个历史位置，p1表示点当前位置的纬度角，p2表示当前位置的经度角，q1表示点某历史位置的纬度角，q2表示某历史位置的经度角，Q表示点的历史位置的集合，r表示地球半径。

优选的，在所述步骤2中生成快照聚类时，采用基于密度的并行化聚类算法MRDBSCAN。

优选的，在所述步骤3中，所述的孤立聚集为对附近的聚集进行聚类，得到最初的候选周期聚集集合，而由于附近没有历史聚集异常值的聚集。

优选的，在所述步骤3中，所述的周期性聚集是候选周期性聚集的子集，即周期性聚集中所包含的聚集，两两之间的距离小于阈值的聚集。

优选的，在所述步骤3中，所述周期性聚集历史和当前聚集状况之间差异的计算公式为：

其中，m表示聚集的数量，第n个时间戳下的环境参数δ_envn表示环境参数，k表示第k个聚集，j表示选取最近的j个时间戳，i表示第i个聚集，n表示当前在第n个时间戳下，表示第n个时间戳下第k个聚集的状态，/>表示第i个时间戳下第k个聚集的状态。

与现有技术相比，本发明所具有的有益效果是：

1、在本基于海量时空数据分析的异常聚集检测方法中，首先从轨迹数据中捕获各种聚集。其次从历史轨迹中提取时空特征，将聚集分为非预期聚集和候选的周期性聚集。再次，进一步研究了周期性聚集的强度，结合环境因素动态识别其异常，并结合之前获得的孤立聚集和非周期性聚集形成异常聚集，实现了大规模轨迹流异常聚集的在线检测。

2、改进了群体模式，捕获了由具有共同目的或行为的相关对象组成的集合。并根据不同的数据源采用不同的插值策略，使其适用于稀疏时空数据的模式挖掘。

3、通过对长期聚集结果的进一步研究，提出了一种新的异常聚集检测方法。其基本思想是将候选的周期性聚集的位置附近的聚集从孤立的聚集中分离来，然后从候选者中提取周期性聚集。最终，所有孤立的聚集、从候选的周期性聚集中分离出来的非周期性聚集和具有异常强度的周期性聚集组成了新的异常聚集。

4、程序主要耗时的部分被并行化，加上增量更新优化，从而形成在线检测大规模轨迹流中的异常聚集的解决方案，这意味着它可以立即对更新的轨迹做出响应。

附图说明

图1为基于海量时空数据分析的异常聚集检测方法图。

图2为基于海量时空数据分析的异常聚集检测方法增量更新示意图。

图3为基于海量时空数据分析的异常聚集检测方法快照群集，人群和聚集示例示意图。

图4为基于海量时空数据分析的异常聚集检测方法非预期性聚集，周期性聚集和异常聚集示例示意图。

图5为基于海量时空数据分析的异常聚集检测方法严格的周期性示意图。

图6为基于海量时空数据分析的异常聚集检测方法改进的周期性示意图。

图7为基于海量时空数据分析的异常聚集检测方法除偶然性聚集缺失的影响示意图。

具体实施方式

图1～7是本发明的最佳实施例，下面结合附图1～7对本发明做进一步说明。

如图1所示，一种基于海量时空数据分析的异常聚集检测方法(以下简称异常聚集检测方法)，包括如下步骤：

步骤1，轨迹预处理；

首先确定点停止或移动的状态，结合历史轨迹与当前轨迹得到该点的平均位置。同时通过历史轨迹与当前轨迹的对比得到该点的缺失位置，并通过以下公式(1)和公式(2)分别计算两个点之间的球面距离以及某个点历史位置与当前位置的最大距离：

对于无法报告位置的点，需要进行插补处理，确定该点的插补值，通过插补值与平均位置确定该点处理后的轨迹，完成轨迹预处理步骤。

在进行差值处理时，基于数据源生成的缺失位置的虚拟位置，对慢速运动的物体进行线性插值。而对于高速的，可能被车辆所载的物体，则采用地图匹配预测算法进行插值。为了加速插值操作，在本异常聚集检测方法中，通过原有对象集合S_k和停止状态对象集O_idle，以确定所有对象的插值必要性，而不是检查每个对象的最后k_v时间戳轨迹。

如图2所示，与S_k(t-1)相比，集合S_k(t)包含了在t处出现，而[t-k_v-1，t-1]中没有出现的对象，并排除了出现在t-k_v-2处但没有出现在[t-k_v-1，t-1]中的对象。本质上，插值仍然是为处于空闲状态的对象实现的，但对于至少消失了k_v个时间戳的处于移动状态的对象不适用。

步骤2，聚集发现；

在本异常聚集检测方法中，采用基于密度的并行化聚类算法MRDBSCAN，以获取聚类。如图3所示，首先采用基于密度的聚类算法，生成一个快照聚类，该区域由具有任意形状和程度的密度可到达对象组成，然后在时间方面获得人群来连接快照聚类。

认定聚集在任何时候都包含一定数量的普通成员和核心成员的会众。定义核心成员的概念是为了解决之前的模式中过度参与的问题。核心成员给定参与者的生存时间阈值k_p，滑动窗口大小W，核心成员的出现时长阈值w_p。当一个物体出现在人群的至少k_p个快照集群中，并且至少在w_p个时间戳中出现在滑动窗口W中。当一个人群在一段时间内所有的时间片簇中都包含了数量超过了阈值w_p的核心成员和阈值m_p的普通成员，这个人群就进化为了聚集。

然后，将它们与历史人群组合在一起以并行更新人群。历史人群要么演变为至少一个候选人群，要么由于没有快照群集可用于附加到人群而永久中断。最后，如果人群在任何时候都包含足够的核心成员，就会形成聚集。

使用一个示例来说明聚集的发现。表1～2列出了一个聚集场景和增量更新的过程。令k_c＝m_c＝k_p＝3，m_p＝w_p＝2，W＝3。在t₃时，簇c₃由足够的候选核心成员{o₁，o₂，o₄}和参与者{o₁，o₂}组成。

表1

表2

通过表1～2可以观察到有两个核心成员(Can CM∩Par)，满足了人群成为聚集<c₁，c₂，c₃>的要求。在t₆，聚集暂停，因为只有一个核心成员o₃出现在集群中。而o₆在t₇时成为候选核心成员，并在[t₁；t₉]期间出现在k_p个历史簇中，适合作为核心员。因此在t₉时，将集群c₆设置为有效，更新集合<c₁，c₂，c₃，c₄，c₅，c₆，c₇，c₉>。这个过程说明了一个无效的集群可能在稍后支持人群成为聚集，即使它已经被移出滑动窗口。相反，由于包含不充分的候选核心成员的滑出窗口的集群将永久无效，因此人群将立即中断。假设t₁₁到达时c₉中的候选核心成员数量不足，在c₉之前截断最长符合条件的簇序列，即<c₁，c₂，c₃，c₄，c₅，c₆，c₇>把它变成一个封闭的聚集。同时，c₉之后的集群，即<c₁，c₂，…>将重新进行评估来更新人群的位向量。

步骤3，聚集分类；

在本异常聚集检测方法中，将聚集分为三类：孤立聚集、候选周期性聚集中的非周期性聚集和周期性聚集，检测过程如图4所示。对附近的聚集进行聚类，得到最初的候选周期聚集集合，而由于附近没有历史聚集的异常值将被视为孤立聚集。然后采用剪影系数为度量值的k-means将原始的大跨度候选对象划分为多个子候选对象。周期性聚集是候选周期性聚集的一个子集，即周期性聚集中所包含的聚集，两两之间的距离小于阈值δ_t，那么认为这个集合中的聚集是周期性聚集。

非预期聚集是指给定一个聚集的集合，不存在聚集之间的距离小于阈值δ_cg，所有意外聚集都属于异常聚集，因为不存在其他具有时空相似性的聚集。同样，具有异常强度(成员数或持续时间明显超过阈值)的周期性聚集将被视为异常聚集。

周期性聚集是候选周期性聚集的一个子集，候选聚集中，每两个连续的聚集间距离相似。直观上，迭代检查多个时间槽来获得某一周期长度的聚集是既费时又不必要。相反，采用区间检验方法来实现这一点。图5展示了同一地点五天的聚集场景。通常，PCG＝<C_g1，C_g2，C_g3，C_g4，C_g5>是严格的周期性聚集，因为所有聚集之间都存在时间重叠。但是，这可能会带来问题，因为它需要新的聚集与所有旧的周期性聚集重叠。

如图6所示，第2天的较早的聚集导致周期性的候选聚集集合被分为三个子集，即PCG₁＝<C_g1，C_g2，C_g3，C_g4>；PCG₂＝<C_g1，C_g2，C_g3，C_g5>；PCG₃＝<C_g3，C_g4，C_g5>。实际上，它们明确地属于同一周期性聚集。因此，通过允许后来的聚集与大多数先前的聚集有重叠来改进模型，这在实际情况中更为常见。同时，参数δ_ppcg被设计为处理有限的聚集不足。如图7所示，由于在T₀+3t缺少聚集聚，周期性聚集的间隔已扩展2t。通过应用δ_ppcg，系统将填充虚拟聚集以维持原始间隔，从而使新到达的对象正确地分类为周期性聚集。

此外，设计了一种增量更新算法来处理流数据，从而优化了这个过程。如图7所示，由位置附近所形成的优先候选人将被保存。当一个新的聚集形成时，计算它和候选周期性聚集之间的距离，以确定其一个是先前群集的扩展还是一个离群值，而不是重新群集所有的历史和当前的聚集。

如果一个聚集属于一个已有的候选周期聚集集合，进一步研究了新的聚集与周期聚集之间的距离。结果，更新的聚集将是1)一个/多个现有的周期性聚集的拓展并将其插入周期性聚集集合，2)来自周期性聚集候选集的非周期性聚集，其之后可能会演变为周期性聚集；3)与先前孤立聚集形成新周期性聚集候选集；或4)由于周围没有聚集而形成的孤立聚集。

步骤4，异常聚集监测；

在确定为周期性聚集的扩展之后，需要进一步验证聚集是否异常。直观地，像在聚集发现过程中一样设置强度阈值。人口并不是在整个市区内均匀分布。通常，交通枢纽的聚集比中央商务区或居民区的聚集情况更为严重。如果使用相同的阈值来确定异常，则系统将无法获得合理的结果。较大的阈值将导致无法检测异常聚集，而较小的阈值可能导致检测出过多的异常聚集。为了解决这个问题，尝试根据其自身的历史强度为每个周期性聚集设置各种阈值。如公式3所示，根据最近j个时间戳的聚集，自适应调整阈值，在阈值决定过程中，较晚的聚集权重更高。

其中，δ_pcgn表示在第n个时间戳下聚集强度阈值，δ_envn表示第n个时间戳下的环境参数，n表示当前在第n个时间戳下，i表示时间戳序号，j表示选取最近的j个时间戳，pcg_i表示第i个时间戳下的聚集状态，weight表示该时间戳下聚集状态的权重，x为函数变量，δ_env表示环境参数。

此外，某些外部因素可能会导致人数聚集，例如雨天交通缓慢或假日期间的人类活动增加。认为，如果很多聚集发生变化，应适当考虑到影响，为此，添加环境参数δ_envn以自动调整阈值，该阈值由历史和当前聚集状况之间的差异决定。如果聚集的数量和单个聚集的平均人数都大大高于正常情况，则将适当增加阈值以减少误报。利用如下公式(4)，计算周期性聚集历史和当前聚集状况之间的差异。

如果δ_envn的平均增长大于δ_env，则异常聚集确定的阈值会增加。否则，认为环境因素的影响可以忽略。与聚集的异常增加相比，持续时间主要受聚集的特征影响，而不是受外部因素的影响，因此处理起来相对较简单。因此，只需要计算每个周期性聚集的平均持续时间。仅当新聚集的参与者人数不少于其历史参与者时，同时其时间明显长于之前聚集的平均值才会判定该聚集存在异常。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种基于海量时空数据分析的异常聚集检测方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的基于海量时空数据分析的异常聚集检测方法，其特征在于：在所述步骤1中，通过历史轨迹与当前轨迹的对比时，分别计算两个点之间的球面距离以及某个点的历史位置与当前位置的最大距离。

3.根据权利要求2所述的基于海量时空数据分析的异常聚集检测方法，其特征在于：所述的两个点之间球面距离的计算公式为：

历史位置与当前位置的最大距离的计算公式为：

4.根据权利要求1所述的基于海量时空数据分析的异常聚集检测方法，其特征在于：在所述步骤2中生成快照聚类时，采用基于密度的并行化聚类算法MRDBSCAN。

5.根据权利要求1所述的基于海量时空数据分析的异常聚集检测方法，其特征在于：在所述步骤3中，所述的孤立聚集为对附近的聚集进行聚类，得到最初的候选周期聚集集合，而由于附近没有历史聚集异常值的聚集。

6.根据权利要求1所述的基于海量时空数据分析的异常聚集检测方法，其特征在于：在所述步骤3中，所述的周期性聚集是候选周期性聚集的子集，即周期性聚集中所包含的聚集，两两之间的距离小于阈值的聚集。

7.根据权利要求1所述的基于海量时空数据分析的异常聚集检测方法，其特征在于：在所述步骤3中，所述周期性聚集历史和当前聚集状况之间差异的计算公式为：