CN111612120A - 基于模糊聚类算法的群体异常行为检测方法及装置 - Google Patents

基于模糊聚类算法的群体异常行为检测方法及装置 Download PDF

Info

Publication number
CN111612120A
CN111612120A CN202010391203.3A CN202010391203A CN111612120A CN 111612120 A CN111612120 A CN 111612120A CN 202010391203 A CN202010391203 A CN 202010391203A CN 111612120 A CN111612120 A CN 111612120A
Authority
CN
China
Prior art keywords
abnormal
group
sub
behavior
total
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010391203.3A
Other languages
English (en)
Inventor
张欢欢
王亚珅
张熙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Electronic Science Research Institute of CTEC
Original Assignee
Beijing University of Posts and Telecommunications
Electronic Science Research Institute of CTEC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications, Electronic Science Research Institute of CTEC filed Critical Beijing University of Posts and Telecommunications
Priority to CN202010391203.3A priority Critical patent/CN111612120A/zh
Publication of CN111612120A publication Critical patent/CN111612120A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Biomedical Technology (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出了一种基于模糊聚类算法的群体异常行为检测方法及装置,方法包括:基于总群体中所有目标的历史行为数据,将总群体分类成多个子群体;基于目标的历史行为数据,计算子群体的子群异常因子以及总群体的总群异常因子;通过比较子群异常因子与第一阈值的关系以及总群异常因子与第二阈值的关系,判断群体是否存在异常行为。根据本发明的检测方法,根据目标的历史行为数据,将总群体分类成多个子群体,并计算子群异常因子和总群异常因子,通过比较子群异常因子与第一阈值的关系、以及总群异常因子与第二阈值的关系,对群体的异常行为进行判断。由此,有效提高了群体常行为度量和异常目标挖掘的准确性。

Description

基于模糊聚类算法的群体异常行为检测方法及装置
技术领域
本发明涉及机器学习技术领域,尤其涉及一种基于模糊聚类算法的群体异常行为检测方法及装置。
背景技术
一些特殊的自然和社会事件可能会对群体行为产生重大影响。“群体异常行为”通常是指多个移动目标的行为(如出行等)轨迹与历史行为模式不匹配的现象(例如非法集会、团伙犯罪等)。从数据挖掘的角度分析群体行为的模式非常重要,因为在线检测人们的集体行为的异常模式可能会导致对突发事件的快速响应,例如,对交通事故做出快速响应的前提是实时检测异常。目前,缺乏准确判断群体异常行为的检测方法。
发明内容
本发明要解决的技术问题是提高群体异常行为检测的准确性,本发明提出了一种基于模糊聚类算法的群体异常行为检测方法及装置。
根据本发明实施例的基于模糊聚类算法的群体异常行为检测方法,包括:
基于总群体中所有目标的历史行为数据,将所述总群体分类成多个子群体;
基于所述目标的历史行为数据,计算所述子群体的子群异常因子以及所述总群体的总群异常因子;
通过比较所述子群异常因子与第一阈值的关系以及所述总群异常因子与第二阈值的关系,判断所述群体是否存在异常行为。
根据本发明实施例的基于模糊聚类算法的群体异常行为检测方法,根据目标的历史行为数据,将总群体分类成多个子群体,并计算子群异常因子和总群异常因子,通过比较子群异常因子与第一阈值的关系、以及总群异常因子与第二阈值的关系,对群体的异常行为进行判断。由此,通过结合用户历史行为模式和其他用户在历史异常点处的行为,增加了群体异常行为检测中的判断维度,有效提高了群体常行为度量和异常目标挖掘的准确性。
根据本发明的一些实施例,将所述总群体分类成多个所述子群体的方法包括:
基于所有目标的历史行为数据,生成每个目标的行为向量;
基于每个所述目标的行为向量,采用模糊C均值聚类算法将所述总群体分类成多个所述子群体。
在本发明的一些实施例中,计算所述子群体的异常因子以及所述总群体的总群异常因子,包括:
基于每个所述目标的所述行为向量,计算所述总群体的总平均行为向量;
基于每个所述子群体所包含的所述目标的所述行为向量,计算所述子群体的子平均行为向量;
基于所述总平均行为向量和所述子平均行为向量计算所述子群体异常因子;
基于所有所述子群体的所述子群体异常因子计算所述总群异常因子。
根据本发明的一些实施例,当所述子群异常因子大于所述第一阈值时,则判定所述子群存在异常行为;
当所述总群异常因子大于所述第二阈值时,则判定所述总群体存在异常行为。
在本发明的一些实施例中,当判定所述子群存在异常行为时,将所述子群中的所有目标归类至异常用户集中。
根据本发明实施例的基于模糊聚类算法的群体异常行为检测装置,包括:
分类模块,用于基于总群体中所有目标的历史行为数据,将所述总群体分类成多个子群体;
计算模块,用于基于所述目标的历史行为数据,计算所述子群体的子群异常因子以及所述总群体的总群异常因子;
判断模块,用于通过比较所述子群异常因子与第一阈值的关系以及所述总群异常因子与第二阈值的关系,判断所述群体是否存在异常行为。
根据本发明实施例的基于模糊聚类算法的群体异常行为检测装置,分类模块可以根据目标的历史行为数据,将总群体分类成多个子群体,并由计算模块计算子群异常因子和总群异常因子,判断模块通过比较子群异常因子与第一阈值的关系、以及总群异常因子与第二阈值的关系,对群体的异常行为进行判断。由此,通过结合用户历史行为模式和其他用户在历史异常点处的行为,增加了群体异常行为检测中的判断维度,有效提高了群体常行为度量和异常目标挖掘的准确性。
根据本发明的一些实施例,所述装置还包括:
行为向量生成模块,用于基于所述总群体中所有目标的历史行为数据,生成每个目标的行为向量;
所述分类模块基于每个所述目标的行为向量,采用模糊C均值聚类算法将所述总群体分类成多个所述子群体。
在本发明的一些实施例中,所述计算模块包括:
第一计算模块,用于基于每个所述目标的所述行为向量,计算所述总群体的总平均行为向量;
第二计算模块,用于基于每个所述子群体所包含的所述目标的所述行为向量,计算所述子群体的子平均行为向量;
第三计算模块,用于基于所述总平均行为向量和所述子平均行为向量计算所述子群体异常因子;
第四计算模块,用于基于所有所述子群体的所述子群体异常因子计算所述总群异常因子。
根据本发明的一些实施例,所述判断模块用于:
当所述子群异常因子大于所述第一阈值时,则判定所述子群存在异常行为;
当所述总群异常因子大于所述第二阈值时,则判定所述总群体存在异常行为。
在本发明的一些实施例中,所述装置还包括:
异常用户归类模块,用于当判定所述子群存在异常行为时,将所述子群中的所有目标归类至异常用户集中。
附图说明
图1为根据本发明实施例的基于模糊聚类算法的群体异常行为检测方法流程图;
图2为根据本发明实施例的将总群体分类成多个子群体的方法流程图;
图3为根据本发明实施例的子群异常因子和总群异常因子的计算方法流程图;
图4为根据本发明实施例的基于模糊聚类算法的群体异常行为检测装置的结构示意图;
图5为根据本发明实施例的基于模糊聚类算法的群体异常行为检测方法的流程图。
具体实施方式
为更进一步阐述本发明为达成预定目的所采取的技术手段及功效,以下结合附图及较佳实施例,对本发明进行详细说明如后。
相关技术中,统计方法(例如假设检验方法等)被广泛用于异常检测。但是,这种方法必须首先假设独立且相同的分布,并且不能保证准确性。为了克服假设检验的缺点,通过将历史数据作为学习样本数据进行审查的检测方法相继被提出。此外,基于距离的异常检测方法也是异常行为分析的常用方法之一,在此类方法中,当样本到参考样本的距离大于距离阈值时,该样本被视为异常样本,基于距离的检测方法通常被用于根据用户的轨迹与邻域(在同一组中)的轨迹在时间水平和空间水平上的差异来确定异常现象。此外,相关研究相继提出了基于密度和聚类的方法,但是此类方法仅以最小的一类作为异常样本,对异常样本集没有明确的衡量标准。
总体而言,对于群体异常行为分析,当前的研究方法主要集中在:通过比较群体中所有目标的出行行为的分布与出行行为的规律性来计算群体异常行为的整体度量标准;根据群体平均出行行为来度量异常行为。
上述方法的核心思想均是分别测量单个目标的异常行为,然后进行综合聚类和分析。但是,这些方法在检测群体的异常行为时面临以下问题:
对于整体测量法,在分析单个目标的异常行为并测量群体行为的异常时,容易受到目标正常波动特性的影响。例如,当群体中很多人的出行处于正常波动中时,它可能会导致“误警”警报并给出错误的异常结果。
对于基于群体平均行为异常的测量方法,与上述第一种方法相比,它可以有效地减少目标行为的正常波动特征对异常测量的影响,并有助于分析和测量群体的出行异常行为。但是,当群体中只有小部分目标具有异常出行行为时,这种方法可能会导致“漏警”警报(即没有异常结果)。
为了提高群体异常行为检测的准确性,本发明提出了一种基于模糊聚类的群体异常行为检测方法及装置。
如图1所示,根据本发明实施例的基于模糊聚类算法的群体异常行为检测方法,包括:
S100,基于总群体中所有目标的历史行为数据,将总群体分类成多个子群体;
S200,基于目标的历史行为数据,计算子群体的子群异常因子以及总群体的总群异常因子;
S300,通过比较子群异常因子与第一阈值的关系以及总群异常因子与第二阈值的关系,判断群体是否存在异常行为。
根据本发明实施例的基于模糊聚类算法的群体异常行为检测方法,根据目标的历史行为数据,将总群体分类成多个子群体,并计算子群异常因子和总群异常因子,通过比较子群异常因子与第一阈值的关系、以及总群异常因子与第二阈值的关系,对群体的异常行为进行判断。由此,通过结合用户历史行为模式和其他用户在历史异常点处的行为,增加了群体异常行为检测中的判断维度,有效提高了群体常行为度量和异常目标挖掘的准确性。
根据本发明的一些实施例,如图2所示,将总群体分类成多个子群体的方法包括:
S110,基于所有目标的历史行为数据,生成每个目标的行为向量;
S120,基于每个目标的行为向量,采用模糊C均值聚类算法将总群体分类成多个子群体。
可以理解的是,采用模糊C均值聚类方法对总群体进行分类,可以提高子群体分类的合理性和准确性。
在本发明的一些实施例中,计算子群体的异常因子以及总群体的总群异常因子,包括:
S210,基于每个目标的行为向量,计算总群体的总平均行为向量;
S220,基于每个子群体所包含的目标的行为向量,计算子群体的子平均行为向量;
S230,基于总平均行为向量和子平均行为向量计算子群体异常因子;
S240,基于所有子群体的子群体异常因子计算总群异常因子。
根据本发明的一些实施例,当子群异常因子大于第一阈值时,则判定子群存在异常行为;当总群异常因子大于第二阈值时,则判定总群体存在异常行为。
需要说明的是,在进行群体异常行为检测时,可以设置第一阈值和第二阈值,当计算得到的子群异常因子大于第一阈值时,则可以判定子群存在异常行为;当计算得到的总群异常因子大于第二阈值时,则可以判定总群体存在异常行为。
在本发明的一些实施例中,当判定子群存在异常行为时,将子群中的所有目标归类至异常用户集中。也就是说,当判定子群存在异常行为时,将子群的所有目标归类至异常用户集中,由此,可以得到群体中哪部分用户存在异常行为。
如图4所示,根据本发明实施例的基于模糊聚类算法的群体异常行为检测装置,包括:分类模块、计算模块和判断模块。
其中,分类模块用于基于总群体中所有目标的历史行为数据,将总群体分类成多个子群体;
计算模块用于基于目标的历史行为数据,计算子群体的子群异常因子以及总群体的总群异常因子;
判断模块用于通过比较子群异常因子与第一阈值的关系以及总群异常因子与第二阈值的关系,判断群体是否存在异常行为。
根据本发明实施例的基于模糊聚类算法的群体异常行为检测装置,分类模块可以根据目标的历史行为数据,将总群体分类成多个子群体,并由计算模块计算子群异常因子和总群异常因子,判断模块通过比较子群异常因子与第一阈值的关系、以及总群异常因子与第二阈值的关系,对群体的异常行为进行判断。由此,通过结合用户历史行为模式和其他用户在历史异常点处的行为,增加了群体异常行为检测中的判断维度,有效提高了群体常行为度量和异常目标挖掘的准确性。
根据本发明的一些实施例,如图4所示,装置还包括:行为向量生成模块。
行为向量生成模块用于基于总群体中所有目标的历史行为数据,生成每个目标的行为向量。分类模块基于每个目标的行为向量,采用模糊C均值聚类算法将总群体分类成多个子群体。
可以理解的是,分类模块采用模糊C均值聚类方法对总群体进行分类,可以提高子群体分类的合理性和准确性。
在本发明的一些实施例中,计算模块包括:第一计算模块、第二计算模块、第三计算模块和第四计算模块。
其中,第一计算模块用于基于每个目标的行为向量,计算总群体的总平均行为向量;
第二计算模块用于基于每个子群体所包含的目标的行为向量,计算子群体的子平均行为向量;
第三计算模块用于基于总平均行为向量和子平均行为向量计算子群体异常因子;
第四计算模块用于基于所有子群体的子群体异常因子计算总群异常因子。
根据本发明的一些实施例,判断模块用于:
当子群异常因子大于第一阈值时,则判定子群存在异常行为;
当总群异常因子大于第二阈值时,则判定总群体存在异常行为。
需要说明的是,在进行群体异常行为检测时,可以设置第一阈值和第二阈值,当计算得到的子群异常因子大于第一阈值时,则可以判定子群存在异常行为;当计算得到的总群异常因子大于第二阈值时,则可以判定总群体存在异常行为。
在本发明的一些实施例中,如图4所示,装置还包括:异常用户归类模块。
异常用户归类模块用于当判定子群存在异常行为时,将子群中的所有目标归类至异常用户集中。也就是说,当判定子群存在异常行为时,异常用户归类模块可以将子群的所有目标归类至异常用户集中,由此,可以得到群体中哪部分用户存在异常行为。
下面参照图5以一个具体的实施例详细描述根据本发明的基于聚类模糊的群体异常行为检测方法。值得理解的是,下述描述仅是示例性描述,而不是对本发明的具体限制。
对于群体异常行为分析,本发明提出了一种基于模糊聚类策略的群体异常行为检测方法,该方法提高了异常行为度量和异常目标挖掘的准确性。
如图5所示,检测方法主要包括三个步骤:
步骤1:生成行为向量,为模糊聚类提供支撑;
步骤2:基于模糊聚类生成子群体,本发明根据群体出行行为的特征对整个群体进行聚类,然后将其分为几个较小的子群体;
步骤3:基于子群体的群体异常行为检测。本发明为每个子群体定义群体异常因子,建立群体异常行为的度量指标,然后提出群体异常行为检测方法,最后输出具有异常行为的特定子群体,同时,可以测量整个群体的异常行为。
具体地,步骤1:生成行为向量。
根据时空数据定义第i个用户的出行行为向量,如下所示:
Figure BDA0002485823840000095
其中,lngi和lati分别代表第i天的经度和纬度(即用户的地理信息)。显然,
Figure BDA0002485823840000091
经过上述计算,将几个月的数据做平均统计,以避免意外事件的影响。然后,我们可以获得持续行为向量,如下所示:
Figure BDA0002485823840000092
其中,
Figure BDA0002485823840000093
表示ψ个月第i天的平均统计经度值。同样,
Figure BDA0002485823840000094
表示为ψ个月的第i天的平均统计纬度值。为了衡量群体的异常出行行为,本发明分析了群体的当前出行行为分布特征,以检测异常群体的出行行为分布。根据有关异常行为的相关研究方法,可以利用群体的平均分布特征来解决此问题,还可以研究属于该群体的每个目标的出行行为的分布。但是上述方法在检测群体的异常出行行为方面有其自身的不足,例如前述“误报”与“漏报”问题。
步骤2:基于模糊聚类生成子群体。
基于用户行为向量,我们可以对用户出行行为分布特征的进一步划分。本发明基于聚类算法分析了群体出行行为的分布特征,并找出了各个小群体的出行特征分布,为最后实现对群体异常出行行为的度量奠定基础。
为了实现群体中用户的合理划分(即用户出行行为的分布特征),本发明使用模糊聚类方法,以分析用户出行行为的分布特征。聚类算法能够在输入模式的随机序列中实现统计规则的无监督检测。近年来,聚类算法和模糊集理论之间的综合使得模糊聚类算法得以发展,其目的是有效地对模糊无监督(无标签)模式进行建模。
模糊C-均值聚类被广泛用于模糊聚类的研究。本发明首先采用模糊C-均值聚类方法分析群体用户出行行为的分布特征,然后实现群体用户的划分。模糊C-均值聚类是一种利用隶属度来度量属于某个聚类类别的每个数据点的相似度的聚类方法。模糊C-均值聚类将n个向量划分为|C|个模糊类。通过计算聚类中心和每个中心的隶属度矩阵,求解矩阵和聚类中心,使得聚类目标函数
Figure BDA0002485823840000104
最小。模糊C-均值聚类算法的目标函数定义如下:
Figure BDA0002485823840000101
其中,xi和cj表示第i个用户的出行行为向量(见步骤1中的定义)和第j个聚类中心,且维数设置相同。此外,我们将隶属度矩阵定义为U,其元素(即隶属度)表示为ui,j。m是权重指数,通常m>1。此目标函数可以定义为语义空间中所有数据点到相应聚类中心点的距离的加权平方和。在所提出的方法中,欧氏距离用于计算从数据到聚类中心的距离。本发明通过迭代计算隶属度并更新聚类中心来最小化目标函数(上述公式(3))。此外,将第i个数据(即xi)到第j个聚类中心(即cj)的距离视为di,j,即di,j=‖xi-cj‖。因此,隶属度ui,j更新如下:
Figure BDA0002485823840000102
此外,聚类中心cj用下面的公式更新:
Figure BDA0002485823840000103
当第k次迭代隶属度矩阵(Uk)和第(k+1)次迭代隶属度矩阵(Uk+1)之间的差异下降到预定阈值η∈(0,1)以下时,迭代过程停止。总体而言,本发明中的模糊C-均值聚类可以由以下总结:
第一步:固定聚类的数量|C|,权重指数m。选择初始矩阵U0。然后在第k次迭代:
第二步:利用公式(5)计算均值
Figure BDA0002485823840000111
第三步:利用公式(4)计算更新的隶属矩阵
Figure BDA0002485823840000112
第四步:对比Uk+1与Uk。如果||Uk+1-Uk||<η则停止迭代,否则,使得Uk=Uk+1并返回第二步。
步骤3:基于子群体的群体异常行为检测。
根据用户的出行行为分布特征,在步骤2中使用模糊C-均值聚类方法将该群体划分为细粒度特征子群体。基于上述步骤,本发明进一步地进行如下工作:(1)定义该组的异常因子,(2)基于特征子群建立群体异常出行行为的衡量标准。本发明提出了群体异常行为的检测算法,以实现对特定群体异常出行行为的挖掘。
因此,本发明利用基于距离的异常行为测量方法来研究群体的出行行为。此外,由于群体用户出行行为存在一定的波动特征,本发明采取权衡策略建立了异常出行行为的度量标准:首先,基于出行特征将整个群体划分为多个子群体;其次,利用平均出行行为特征来测量每个子群体的异常行为;随后,通过计算每个子群体的“异常指标”来确定出行特征子群体的异常因子;最后,根据每个子群体的“异常指标”的结果来测量整个群体的异常出行行为。
具体而言,将整个群体的平均出行行为向量定义为
Figure BDA0002485823840000113
其中
Figure BDA0002485823840000114
是第j个子群体的平均出行行为向量。然后,定义第j个子群体的异常因子(记为σj),即第j个集群的异常出行行为的测量指标,如下所示:
Figure BDA0002485823840000115
通过以上,整个群体的异常因子(记为σ)可以描述如下:
Figure BDA0002485823840000121
其中,|Cj|表示属于第j个聚类Cj的用户数。
为了通过聚类来衡量异常群体出行行为,应记录以下统计数据:首先,所有群体的用户和每个子群体的用户的出行行为的分布规律,以及所有用户的出行行为的持续分布特征。
最后,在此基础上,本发明提出了一种基于子群体的群体异常出行行为检测算法。所提出的方法的具体过程描述如下:
第一步:分类子集{C1,…,C|C|},第i个用户的出行行为向量
Figure BDA0002485823840000123
Figure BDA0002485823840000124
平均出行行为向量X*,阈值{ε1,ε2},异常用户集Ω为空。
第二步:通过计算属于第j个子群体的所有用户的持续出行行为向量xi来生成第j个子群钵
Figure BDA0002485823840000122
的平均出行行为向量。利用公式(6)计算第j个子群体的异常指标σj
第三步:利用公式(7)计算整个群体的异常因子σ。
第四步:如果σj>ε1,得到第j个子群体的测量指标,将子群异常因子大于ε1的子群判定为行为异常,并将该子群中的用户归类至异常用户集中:Ω=ΩUCj
第五步:如果σ>ε2,得到整个群体的测量指标。即当总群异常因子大于ε2时,判定总群体用户行为异常。
综上所述,本发明所提出的基于模糊聚类的群体异常行为检测方法,首先根据出行行为的特征对群体进行分类,然后将其划分为多个较小的子群体,为每个子群体定义群体异常指标,建立群体异常行为的度量,然后提出基于子群体的群体异常行为检测方法,输出具有异常行为的特定子群体并衡量整个群体是否异常。实现了结合历史行为模式和其他用户在历史异常点处的行为,能够强化对位置和事件异常的识别能力。
而且,基于群体结构信息,通过实时分析属于同一子群体的其他用户的行为,同时提高了个体水平和群体水平演化异常的检测准确性以及事件异常的异常点识别率。
本发明提出的基于模糊聚类的群体异常行为检测方法,具有如下有益效果:
本发明通过结合用户历史行为模式和其他用户在历史异常点处的行为,增强了对用户位置和事件异常的识别能力。
而且,本发明所提出的方法,借助群体结构信息,通过实时分析属于同一子群体的其他用户的行为,提高了个体水平和群体水平演化异常的检测准确性以及事件异常的异常点识别率。
另外,本发明所引入的模糊C-均值聚类模型,用于有效识别用户的不同类型的异常行为,从而提高了模糊C-均值聚类的检测结果整体召回率,并降低了各种类型检测结果的错误率。
本方法可以适用的范围广,可在群体异常行为检测、群体行为规律建模、群体异常行为预警等诸多任务中适用。
通过具体实施方式的说明,应当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图示仅是提供参考与说明之用,并非用来对本发明加以限制。

Claims (10)

1.一种基于模糊聚类算法的群体异常行为检测方法,其特征在于,包括:
基于总群体中所有目标的历史行为数据,将所述总群体分类成多个子群体;
基于所述目标的历史行为数据,计算所述子群体的子群异常因子以及所述总群体的总群异常因子;
通过比较所述子群异常因子与第一阈值的关系以及所述总群异常因子与第二阈值的关系,判断所述群体是否存在异常行为。
2.根据权利要求1所述的基于模糊聚类算法的群体异常行为检测方法,其特征在于,将所述总群体分类成多个所述子群体的方法包括:
基于所有目标的历史行为数据,生成每个目标的行为向量;
基于每个所述目标的行为向量,采用模糊C均值聚类算法将所述总群体分类成多个所述子群体。
3.根据权利要求2所述的基于模糊聚类算法的群体异常行为检测方法,其特征在于,计算所述子群体的异常因子以及所述总群体的总群异常因子,包括:
基于每个所述目标的所述行为向量,计算所述总群体的总平均行为向量;
基于每个所述子群体所包含的所述目标的所述行为向量,计算所述子群体的子平均行为向量;
基于所述总平均行为向量和所述子平均行为向量计算所述子群体异常因子;
基于所有所述子群体的所述子群体异常因子计算所述总群异常因子。
4.根据权利要求1所述的基于模糊聚类算法的群体异常行为检测方法,其特征在于,
当所述子群异常因子大于所述第一阈值时,则判定所述子群存在异常行为;
当所述总群异常因子大于所述第二阈值时,则判定所述总群体存在异常行为。
5.根据权利要求4所述的基于模糊聚类算法的群体异常行为检测方法,其特征在于,
当判定所述子群存在异常行为时,将所述子群中的所有目标归类至异常用户集中。
6.一种基于模糊聚类算法的群体异常行为检测装置,其特征在于,包括:
分类模块,用于基于总群体中所有目标的历史行为数据,将所述总群体分类成多个子群体;
计算模块,用于基于所述目标的历史行为数据,计算所述子群体的子群异常因子以及所述总群体的总群异常因子;
判断模块,用于通过比较所述子群异常因子与第一阈值的关系以及所述总群异常因子与第二阈值的关系,判断所述群体是否存在异常行为。
7.根据权利要求6所述的基于模糊聚类算法的群体异常行为检测装置,其特征在于,所述装置还包括:
行为向量生成模块,用于基于所述总群体中所有目标的历史行为数据,生成每个目标的行为向量;
所述分类模块基于每个所述目标的行为向量,采用模糊C均值聚类算法将所述总群体分类成多个所述子群体。
8.根据权利要求7所述的基于模糊聚类算法的群体异常行为检测装置,其特征在于,所述计算模块包括:
第一计算模块,用于基于每个所述目标的所述行为向量,计算所述总群体的总平均行为向量;
第二计算模块,用于基于每个所述子群体所包含的所述目标的所述行为向量,计算所述子群体的子平均行为向量;
第三计算模块,用于基于所述总平均行为向量和所述子平均行为向量计算所述子群体异常因子;
第四计算模块,用于基于所有所述子群体的所述子群体异常因子计算所述总群异常因子。
9.根据权利要求6所述的基于模糊聚类算法的群体异常行为检测装置,其特征在于,所述判断模块用于:
当所述子群异常因子大于所述第一阈值时,则判定所述子群存在异常行为;
当所述总群异常因子大于所述第二阈值时,则判定所述总群体存在异常行为。
10.根据权利要求9所述的基于模糊聚类算法的群体异常行为检测装置,其特征在于,所述装置还包括:
异常用户归类模块,用于当判定所述子群存在异常行为时,将所述子群中的所有目标归类至异常用户集中。
CN202010391203.3A 2020-05-11 2020-05-11 基于模糊聚类算法的群体异常行为检测方法及装置 Pending CN111612120A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010391203.3A CN111612120A (zh) 2020-05-11 2020-05-11 基于模糊聚类算法的群体异常行为检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010391203.3A CN111612120A (zh) 2020-05-11 2020-05-11 基于模糊聚类算法的群体异常行为检测方法及装置

Publications (1)

Publication Number Publication Date
CN111612120A true CN111612120A (zh) 2020-09-01

Family

ID=72200045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010391203.3A Pending CN111612120A (zh) 2020-05-11 2020-05-11 基于模糊聚类算法的群体异常行为检测方法及装置

Country Status (1)

Country Link
CN (1) CN111612120A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115147052A (zh) * 2022-09-02 2022-10-04 泗水县信诺线缆厂(普通合伙) 一种hdmi线缆库区智能管理系统
CN112686909B (zh) * 2020-12-28 2024-04-19 淮阴工学院 基于异质多区域ct扫描数据处理的多相隐式曲面重建方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446922A (zh) * 2015-07-31 2017-02-22 中国科学院大学 一种人群异常行为分析方法
CN110781723A (zh) * 2019-09-05 2020-02-11 杭州视鑫科技有限公司 一种群体异常行为识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446922A (zh) * 2015-07-31 2017-02-22 中国科学院大学 一种人群异常行为分析方法
CN110781723A (zh) * 2019-09-05 2020-02-11 杭州视鑫科技有限公司 一种群体异常行为识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘分: "移动通信网中特定群体发现及行为分析研究", 《中国优秀硕士学位论文全文数据库-信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112686909B (zh) * 2020-12-28 2024-04-19 淮阴工学院 基于异质多区域ct扫描数据处理的多相隐式曲面重建方法
CN115147052A (zh) * 2022-09-02 2022-10-04 泗水县信诺线缆厂(普通合伙) 一种hdmi线缆库区智能管理系统

Similar Documents

Publication Publication Date Title
CN112085947B (zh) 一种基于深度学习和模糊聚类的交通拥堵预测方法
Yu et al. Probabilistic prediction of bus headway using relevance vector machine regression
Pierson et al. Fast threshold tests for detecting discrimination
Kim et al. Gaussian process regression flow for analysis of motion trajectories
CN104539484B (zh) 一种动态评估网络连接可信度的方法及系统
CN111178611B (zh) 一种日电量预测的方法
CN104484602B (zh) 一种入侵检测方法、装置
CN115412301B (zh) 一种网络安全的预测分析方法及系统
CN111612120A (zh) 基于模糊聚类算法的群体异常行为检测方法及装置
CN114707571B (zh) 基于增强隔离森林的信用数据异常检测方法
CN111833175A (zh) 基于knn算法的互联网金融平台申请欺诈行为检测方法
Liu et al. Concept drift detection: Dealing with missing values via fuzzy distance estimations
García-Vico et al. Fepds: A proposal for the extraction of fuzzy emerging patterns in data streams
CN107992902A (zh) 一种基于监督学习的地面公交扒窃个体自动检测方法
Zhang et al. Long‐term bridge performance assessment using clustering and Bayesian linear regression for vehicle load and strain mapping model
CN114219228A (zh) 一种基于em聚类算法的体育场疏散评价方法
CN112437440B (zh) 无线传感器网络中基于相关性理论的恶意共谋攻击抵抗方法
CN112949735A (zh) 一种基于离群数据挖掘的液态危化品挥发浓度异常发现方法
Chen et al. Predicting repeat offenders with machine learning: A case study of Beijing theives and burglars
CN115545342A (zh) 一种企业电费回收的风险预测方法与系统
CN114492830A (zh) 基于个体歧视实例对生成的深度学习模型去偏方法及其装置
Kontrimas et al. Tracking of doubtful real estate transactions by outlier detection methods: a comparative study
KR20200113397A (ko) 데이터 불균형 해결을 위한 언더샘플링 기반 앙상블 방법
CN113255810B (zh) 基于关键决策逻辑设计测试覆盖率的网络模型测试方法
Donets et al. Methodology of the countries’ economic development data analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200901

RJ01 Rejection of invention patent application after publication