CN111612120A

CN111612120A - 基于模糊聚类算法的群体异常行为检测方法及装置

Info

Publication number: CN111612120A
Application number: CN202010391203.3A
Authority: CN
Inventors: 张欢欢; 王亚珅; 张熙
Original assignee: Beijing University of Posts and Telecommunications; Electronic Science Research Institute of CTEC
Current assignee: Beijing University of Posts and Telecommunications; Electronic Science Research Institute of CTEC
Priority date: 2020-05-11
Filing date: 2020-05-11
Publication date: 2020-09-01

Abstract

本发明提出了一种基于模糊聚类算法的群体异常行为检测方法及装置，方法包括：基于总群体中所有目标的历史行为数据，将总群体分类成多个子群体；基于目标的历史行为数据，计算子群体的子群异常因子以及总群体的总群异常因子；通过比较子群异常因子与第一阈值的关系以及总群异常因子与第二阈值的关系，判断群体是否存在异常行为。根据本发明的检测方法，根据目标的历史行为数据，将总群体分类成多个子群体，并计算子群异常因子和总群异常因子，通过比较子群异常因子与第一阈值的关系、以及总群异常因子与第二阈值的关系，对群体的异常行为进行判断。由此，有效提高了群体常行为度量和异常目标挖掘的准确性。

Description

基于模糊聚类算法的群体异常行为检测方法及装置

技术领域

本发明涉及机器学习技术领域，尤其涉及一种基于模糊聚类算法的群体异常行为检测方法及装置。

背景技术

一些特殊的自然和社会事件可能会对群体行为产生重大影响。“群体异常行为”通常是指多个移动目标的行为(如出行等)轨迹与历史行为模式不匹配的现象(例如非法集会、团伙犯罪等)。从数据挖掘的角度分析群体行为的模式非常重要，因为在线检测人们的集体行为的异常模式可能会导致对突发事件的快速响应，例如，对交通事故做出快速响应的前提是实时检测异常。目前，缺乏准确判断群体异常行为的检测方法。

发明内容

本发明要解决的技术问题是提高群体异常行为检测的准确性，本发明提出了一种基于模糊聚类算法的群体异常行为检测方法及装置。

根据本发明实施例的基于模糊聚类算法的群体异常行为检测方法，包括：

基于总群体中所有目标的历史行为数据，将所述总群体分类成多个子群体；

基于所述目标的历史行为数据，计算所述子群体的子群异常因子以及所述总群体的总群异常因子；

通过比较所述子群异常因子与第一阈值的关系以及所述总群异常因子与第二阈值的关系，判断所述群体是否存在异常行为。

根据本发明实施例的基于模糊聚类算法的群体异常行为检测方法，根据目标的历史行为数据，将总群体分类成多个子群体，并计算子群异常因子和总群异常因子，通过比较子群异常因子与第一阈值的关系、以及总群异常因子与第二阈值的关系，对群体的异常行为进行判断。由此，通过结合用户历史行为模式和其他用户在历史异常点处的行为，增加了群体异常行为检测中的判断维度，有效提高了群体常行为度量和异常目标挖掘的准确性。

根据本发明的一些实施例，将所述总群体分类成多个所述子群体的方法包括：

基于所有目标的历史行为数据，生成每个目标的行为向量；

基于每个所述目标的行为向量，采用模糊C均值聚类算法将所述总群体分类成多个所述子群体。

在本发明的一些实施例中，计算所述子群体的异常因子以及所述总群体的总群异常因子，包括：

基于每个所述目标的所述行为向量，计算所述总群体的总平均行为向量；

基于每个所述子群体所包含的所述目标的所述行为向量，计算所述子群体的子平均行为向量；

基于所述总平均行为向量和所述子平均行为向量计算所述子群体异常因子；

基于所有所述子群体的所述子群体异常因子计算所述总群异常因子。

根据本发明的一些实施例，当所述子群异常因子大于所述第一阈值时，则判定所述子群存在异常行为；

当所述总群异常因子大于所述第二阈值时，则判定所述总群体存在异常行为。

在本发明的一些实施例中，当判定所述子群存在异常行为时，将所述子群中的所有目标归类至异常用户集中。

根据本发明实施例的基于模糊聚类算法的群体异常行为检测装置，包括：

分类模块，用于基于总群体中所有目标的历史行为数据，将所述总群体分类成多个子群体；

计算模块，用于基于所述目标的历史行为数据，计算所述子群体的子群异常因子以及所述总群体的总群异常因子；

判断模块，用于通过比较所述子群异常因子与第一阈值的关系以及所述总群异常因子与第二阈值的关系，判断所述群体是否存在异常行为。

根据本发明实施例的基于模糊聚类算法的群体异常行为检测装置，分类模块可以根据目标的历史行为数据，将总群体分类成多个子群体，并由计算模块计算子群异常因子和总群异常因子，判断模块通过比较子群异常因子与第一阈值的关系、以及总群异常因子与第二阈值的关系，对群体的异常行为进行判断。由此，通过结合用户历史行为模式和其他用户在历史异常点处的行为，增加了群体异常行为检测中的判断维度，有效提高了群体常行为度量和异常目标挖掘的准确性。

根据本发明的一些实施例，所述装置还包括：

行为向量生成模块，用于基于所述总群体中所有目标的历史行为数据，生成每个目标的行为向量；

所述分类模块基于每个所述目标的行为向量，采用模糊C均值聚类算法将所述总群体分类成多个所述子群体。

在本发明的一些实施例中，所述计算模块包括：

第一计算模块，用于基于每个所述目标的所述行为向量，计算所述总群体的总平均行为向量；

第二计算模块，用于基于每个所述子群体所包含的所述目标的所述行为向量，计算所述子群体的子平均行为向量；

第三计算模块，用于基于所述总平均行为向量和所述子平均行为向量计算所述子群体异常因子；

第四计算模块，用于基于所有所述子群体的所述子群体异常因子计算所述总群异常因子。

根据本发明的一些实施例，所述判断模块用于：

当所述子群异常因子大于所述第一阈值时，则判定所述子群存在异常行为；

在本发明的一些实施例中，所述装置还包括：

异常用户归类模块，用于当判定所述子群存在异常行为时，将所述子群中的所有目标归类至异常用户集中。

附图说明

图1为根据本发明实施例的基于模糊聚类算法的群体异常行为检测方法流程图；

图2为根据本发明实施例的将总群体分类成多个子群体的方法流程图；

图3为根据本发明实施例的子群异常因子和总群异常因子的计算方法流程图；

图4为根据本发明实施例的基于模糊聚类算法的群体异常行为检测装置的结构示意图；

图5为根据本发明实施例的基于模糊聚类算法的群体异常行为检测方法的流程图。

具体实施方式

为更进一步阐述本发明为达成预定目的所采取的技术手段及功效，以下结合附图及较佳实施例，对本发明进行详细说明如后。

相关技术中，统计方法(例如假设检验方法等)被广泛用于异常检测。但是，这种方法必须首先假设独立且相同的分布，并且不能保证准确性。为了克服假设检验的缺点，通过将历史数据作为学习样本数据进行审查的检测方法相继被提出。此外，基于距离的异常检测方法也是异常行为分析的常用方法之一，在此类方法中，当样本到参考样本的距离大于距离阈值时，该样本被视为异常样本，基于距离的检测方法通常被用于根据用户的轨迹与邻域(在同一组中)的轨迹在时间水平和空间水平上的差异来确定异常现象。此外，相关研究相继提出了基于密度和聚类的方法，但是此类方法仅以最小的一类作为异常样本，对异常样本集没有明确的衡量标准。

总体而言，对于群体异常行为分析，当前的研究方法主要集中在：通过比较群体中所有目标的出行行为的分布与出行行为的规律性来计算群体异常行为的整体度量标准；根据群体平均出行行为来度量异常行为。

上述方法的核心思想均是分别测量单个目标的异常行为，然后进行综合聚类和分析。但是，这些方法在检测群体的异常行为时面临以下问题：

对于整体测量法，在分析单个目标的异常行为并测量群体行为的异常时，容易受到目标正常波动特性的影响。例如，当群体中很多人的出行处于正常波动中时，它可能会导致“误警”警报并给出错误的异常结果。

对于基于群体平均行为异常的测量方法，与上述第一种方法相比，它可以有效地减少目标行为的正常波动特征对异常测量的影响，并有助于分析和测量群体的出行异常行为。但是，当群体中只有小部分目标具有异常出行行为时，这种方法可能会导致“漏警”警报(即没有异常结果)。

为了提高群体异常行为检测的准确性，本发明提出了一种基于模糊聚类的群体异常行为检测方法及装置。

如图1所示，根据本发明实施例的基于模糊聚类算法的群体异常行为检测方法，包括：

S100，基于总群体中所有目标的历史行为数据，将总群体分类成多个子群体；

S200，基于目标的历史行为数据，计算子群体的子群异常因子以及总群体的总群异常因子；

S300，通过比较子群异常因子与第一阈值的关系以及总群异常因子与第二阈值的关系，判断群体是否存在异常行为。

根据本发明的一些实施例，如图2所示，将总群体分类成多个子群体的方法包括：

S110，基于所有目标的历史行为数据，生成每个目标的行为向量；

S120，基于每个目标的行为向量，采用模糊C均值聚类算法将总群体分类成多个子群体。

可以理解的是，采用模糊C均值聚类方法对总群体进行分类，可以提高子群体分类的合理性和准确性。

在本发明的一些实施例中，计算子群体的异常因子以及总群体的总群异常因子，包括：

S210，基于每个目标的行为向量，计算总群体的总平均行为向量；

S220，基于每个子群体所包含的目标的行为向量，计算子群体的子平均行为向量；

S230，基于总平均行为向量和子平均行为向量计算子群体异常因子；

S240，基于所有子群体的子群体异常因子计算总群异常因子。

根据本发明的一些实施例，当子群异常因子大于第一阈值时，则判定子群存在异常行为；当总群异常因子大于第二阈值时，则判定总群体存在异常行为。

需要说明的是，在进行群体异常行为检测时，可以设置第一阈值和第二阈值，当计算得到的子群异常因子大于第一阈值时，则可以判定子群存在异常行为；当计算得到的总群异常因子大于第二阈值时，则可以判定总群体存在异常行为。

在本发明的一些实施例中，当判定子群存在异常行为时，将子群中的所有目标归类至异常用户集中。也就是说，当判定子群存在异常行为时，将子群的所有目标归类至异常用户集中，由此，可以得到群体中哪部分用户存在异常行为。

如图4所示，根据本发明实施例的基于模糊聚类算法的群体异常行为检测装置，包括：分类模块、计算模块和判断模块。

其中，分类模块用于基于总群体中所有目标的历史行为数据，将总群体分类成多个子群体；

计算模块用于基于目标的历史行为数据，计算子群体的子群异常因子以及总群体的总群异常因子；

判断模块用于通过比较子群异常因子与第一阈值的关系以及总群异常因子与第二阈值的关系，判断群体是否存在异常行为。

根据本发明的一些实施例，如图4所示，装置还包括：行为向量生成模块。

行为向量生成模块用于基于总群体中所有目标的历史行为数据，生成每个目标的行为向量。分类模块基于每个目标的行为向量，采用模糊C均值聚类算法将总群体分类成多个子群体。

可以理解的是，分类模块采用模糊C均值聚类方法对总群体进行分类，可以提高子群体分类的合理性和准确性。

在本发明的一些实施例中，计算模块包括：第一计算模块、第二计算模块、第三计算模块和第四计算模块。

其中，第一计算模块用于基于每个目标的行为向量，计算总群体的总平均行为向量；

第二计算模块用于基于每个子群体所包含的目标的行为向量，计算子群体的子平均行为向量；

第三计算模块用于基于总平均行为向量和子平均行为向量计算子群体异常因子；

第四计算模块用于基于所有子群体的子群体异常因子计算总群异常因子。

根据本发明的一些实施例，判断模块用于：

当子群异常因子大于第一阈值时，则判定子群存在异常行为；

当总群异常因子大于第二阈值时，则判定总群体存在异常行为。

在本发明的一些实施例中，如图4所示，装置还包括：异常用户归类模块。

异常用户归类模块用于当判定子群存在异常行为时，将子群中的所有目标归类至异常用户集中。也就是说，当判定子群存在异常行为时，异常用户归类模块可以将子群的所有目标归类至异常用户集中，由此，可以得到群体中哪部分用户存在异常行为。

下面参照图5以一个具体的实施例详细描述根据本发明的基于聚类模糊的群体异常行为检测方法。值得理解的是，下述描述仅是示例性描述，而不是对本发明的具体限制。

对于群体异常行为分析，本发明提出了一种基于模糊聚类策略的群体异常行为检测方法，该方法提高了异常行为度量和异常目标挖掘的准确性。

如图5所示，检测方法主要包括三个步骤：

步骤1：生成行为向量，为模糊聚类提供支撑；

步骤2：基于模糊聚类生成子群体，本发明根据群体出行行为的特征对整个群体进行聚类，然后将其分为几个较小的子群体；

步骤3：基于子群体的群体异常行为检测。本发明为每个子群体定义群体异常因子，建立群体异常行为的度量指标，然后提出群体异常行为检测方法，最后输出具有异常行为的特定子群体，同时，可以测量整个群体的异常行为。

具体地，步骤1：生成行为向量。

根据时空数据定义第i个用户的出行行为向量，如下所示：

其中，lng_i和lat_i分别代表第i天的经度和纬度(即用户的地理信息)。显然，

经过上述计算，将几个月的数据做平均统计，以避免意外事件的影响。然后，我们可以获得持续行为向量，如下所示：

其中，

表示ψ个月第i天的平均统计经度值。同样，

表示为ψ个月的第i天的平均统计纬度值。为了衡量群体的异常出行行为，本发明分析了群体的当前出行行为分布特征，以检测异常群体的出行行为分布。根据有关异常行为的相关研究方法，可以利用群体的平均分布特征来解决此问题，还可以研究属于该群体的每个目标的出行行为的分布。但是上述方法在检测群体的异常出行行为方面有其自身的不足，例如前述“误报”与“漏报”问题。

步骤2：基于模糊聚类生成子群体。

基于用户行为向量，我们可以对用户出行行为分布特征的进一步划分。本发明基于聚类算法分析了群体出行行为的分布特征，并找出了各个小群体的出行特征分布，为最后实现对群体异常出行行为的度量奠定基础。

为了实现群体中用户的合理划分(即用户出行行为的分布特征)，本发明使用模糊聚类方法，以分析用户出行行为的分布特征。聚类算法能够在输入模式的随机序列中实现统计规则的无监督检测。近年来，聚类算法和模糊集理论之间的综合使得模糊聚类算法得以发展，其目的是有效地对模糊无监督(无标签)模式进行建模。

模糊C-均值聚类被广泛用于模糊聚类的研究。本发明首先采用模糊C-均值聚类方法分析群体用户出行行为的分布特征，然后实现群体用户的划分。模糊C-均值聚类是一种利用隶属度来度量属于某个聚类类别的每个数据点的相似度的聚类方法。模糊C-均值聚类将n个向量划分为|C|个模糊类。通过计算聚类中心和每个中心的隶属度矩阵，求解矩阵和聚类中心，使得聚类目标函数

最小。模糊C-均值聚类算法的目标函数定义如下：

其中，x_i和c_j表示第i个用户的出行行为向量(见步骤1中的定义)和第j个聚类中心，且维数设置相同。此外，我们将隶属度矩阵定义为U，其元素(即隶属度)表示为u_i,j。m是权重指数，通常m>1。此目标函数可以定义为语义空间中所有数据点到相应聚类中心点的距离的加权平方和。在所提出的方法中，欧氏距离用于计算从数据到聚类中心的距离。本发明通过迭代计算隶属度并更新聚类中心来最小化目标函数(上述公式(3))。此外，将第i个数据(即x_i)到第j个聚类中心(即c_j)的距离视为d_i,j，即d_i,j＝‖x_i-c_j‖。因此，隶属度u_i,j更新如下：

此外，聚类中心c_j用下面的公式更新：

当第k次迭代隶属度矩阵(U^k)和第(k+1)次迭代隶属度矩阵(U^k+1)之间的差异下降到预定阈值η∈(0，1)以下时，迭代过程停止。总体而言，本发明中的模糊C-均值聚类可以由以下总结：

第一步：固定聚类的数量|C|，权重指数m。选择初始矩阵U⁰。然后在第k次迭代：

第二步：利用公式(5)计算均值

第三步：利用公式(4)计算更新的隶属矩阵

第四步：对比U^k+1与U^k。如果||U^k+1-U^k||＜η则停止迭代，否则，使得U^k＝U^k+1并返回第二步。

步骤3：基于子群体的群体异常行为检测。

根据用户的出行行为分布特征，在步骤2中使用模糊C-均值聚类方法将该群体划分为细粒度特征子群体。基于上述步骤，本发明进一步地进行如下工作：(1)定义该组的异常因子，(2)基于特征子群建立群体异常出行行为的衡量标准。本发明提出了群体异常行为的检测算法，以实现对特定群体异常出行行为的挖掘。

因此，本发明利用基于距离的异常行为测量方法来研究群体的出行行为。此外，由于群体用户出行行为存在一定的波动特征，本发明采取权衡策略建立了异常出行行为的度量标准：首先，基于出行特征将整个群体划分为多个子群体；其次，利用平均出行行为特征来测量每个子群体的异常行为；随后，通过计算每个子群体的“异常指标”来确定出行特征子群体的异常因子；最后，根据每个子群体的“异常指标”的结果来测量整个群体的异常出行行为。

具体而言，将整个群体的平均出行行为向量定义为

其中

是第j个子群体的平均出行行为向量。然后，定义第j个子群体的异常因子(记为σ_j)，即第j个集群的异常出行行为的测量指标，如下所示：

通过以上，整个群体的异常因子(记为σ)可以描述如下：

其中，|C_j|表示属于第j个聚类C_j的用户数。

为了通过聚类来衡量异常群体出行行为，应记录以下统计数据：首先，所有群体的用户和每个子群体的用户的出行行为的分布规律，以及所有用户的出行行为的持续分布特征。

最后，在此基础上，本发明提出了一种基于子群体的群体异常出行行为检测算法。所提出的方法的具体过程描述如下：

第一步：分类子集{C₁，…，C_|C|}，第i个用户的出行行为向量

平均出行行为向量X^*，阈值{ε₁，ε₂}，异常用户集Ω为空。

第二步：通过计算属于第j个子群体的所有用户的持续出行行为向量x_i来生成第j个子群钵

的平均出行行为向量。利用公式(6)计算第j个子群体的异常指标σ_j。

第三步：利用公式(7)计算整个群体的异常因子σ。

第四步：如果σ_j＞ε₁，得到第j个子群体的测量指标，将子群异常因子大于ε₁的子群判定为行为异常，并将该子群中的用户归类至异常用户集中：Ω＝ΩUC_j。

第五步：如果σ＞ε₂，得到整个群体的测量指标。即当总群异常因子大于ε₂时，判定总群体用户行为异常。

综上所述，本发明所提出的基于模糊聚类的群体异常行为检测方法，首先根据出行行为的特征对群体进行分类，然后将其划分为多个较小的子群体，为每个子群体定义群体异常指标，建立群体异常行为的度量，然后提出基于子群体的群体异常行为检测方法，输出具有异常行为的特定子群体并衡量整个群体是否异常。实现了结合历史行为模式和其他用户在历史异常点处的行为，能够强化对位置和事件异常的识别能力。

而且，基于群体结构信息，通过实时分析属于同一子群体的其他用户的行为，同时提高了个体水平和群体水平演化异常的检测准确性以及事件异常的异常点识别率。

本发明提出的基于模糊聚类的群体异常行为检测方法，具有如下有益效果：

本发明通过结合用户历史行为模式和其他用户在历史异常点处的行为，增强了对用户位置和事件异常的识别能力。

而且，本发明所提出的方法，借助群体结构信息，通过实时分析属于同一子群体的其他用户的行为，提高了个体水平和群体水平演化异常的检测准确性以及事件异常的异常点识别率。

另外，本发明所引入的模糊C-均值聚类模型，用于有效识别用户的不同类型的异常行为，从而提高了模糊C-均值聚类的检测结果整体召回率，并降低了各种类型检测结果的错误率。

本方法可以适用的范围广，可在群体异常行为检测、群体行为规律建模、群体异常行为预警等诸多任务中适用。

通过具体实施方式的说明，应当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解，然而所附图示仅是提供参考与说明之用，并非用来对本发明加以限制。

Claims

1.一种基于模糊聚类算法的群体异常行为检测方法，其特征在于，包括：

2.根据权利要求1所述的基于模糊聚类算法的群体异常行为检测方法，其特征在于，将所述总群体分类成多个所述子群体的方法包括：

基于所有目标的历史行为数据，生成每个目标的行为向量；

3.根据权利要求2所述的基于模糊聚类算法的群体异常行为检测方法，其特征在于，计算所述子群体的异常因子以及所述总群体的总群异常因子，包括：

4.根据权利要求1所述的基于模糊聚类算法的群体异常行为检测方法，其特征在于，

5.根据权利要求4所述的基于模糊聚类算法的群体异常行为检测方法，其特征在于，

当判定所述子群存在异常行为时，将所述子群中的所有目标归类至异常用户集中。

6.一种基于模糊聚类算法的群体异常行为检测装置，其特征在于，包括：

7.根据权利要求6所述的基于模糊聚类算法的群体异常行为检测装置，其特征在于，所述装置还包括：

8.根据权利要求7所述的基于模糊聚类算法的群体异常行为检测装置，其特征在于，所述计算模块包括：

9.根据权利要求6所述的基于模糊聚类算法的群体异常行为检测装置，其特征在于，所述判断模块用于：

10.根据权利要求9所述的基于模糊聚类算法的群体异常行为检测装置，其特征在于，所述装置还包括：