CN107145897B - 一种基于通信时空特征的演变网络特殊群体挖掘方法及系统 - Google Patents

一种基于通信时空特征的演变网络特殊群体挖掘方法及系统 Download PDF

Info

Publication number
CN107145897B
CN107145897B CN201710149488.8A CN201710149488A CN107145897B CN 107145897 B CN107145897 B CN 107145897B CN 201710149488 A CN201710149488 A CN 201710149488A CN 107145897 B CN107145897 B CN 107145897B
Authority
CN
China
Prior art keywords
communication
data
network
group
special
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710149488.8A
Other languages
English (en)
Other versions
CN107145897A (zh
Inventor
姜松浩
宋永浩
李卓坚
赵晓芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201710149488.8A priority Critical patent/CN107145897B/zh
Publication of CN107145897A publication Critical patent/CN107145897A/zh
Application granted granted Critical
Publication of CN107145897B publication Critical patent/CN107145897B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Marketing (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提出一种基于通信时空特征的演变网络特殊群体挖掘方法及系统,涉及通讯单社区发现技术领域,该方法包括步骤1,根据通信数据,获取时间特征数据与空间特征数据,其中所述空间特征数据为产生所述通信数据的地点;步骤2,按照所述时间特征数据与所述空间特征数据及通信关系,构建静态通信网络,并构建与所述静态通信网络相对应的拉普拉斯矩阵,计算矩阵特征向量,并对矩阵特征向量进行聚类,将聚类分为特殊群体和非特殊群体两种类簇,并获取聚类结果;步骤3,根据所述聚类结果,采取投票机制,获取最终特殊群体聚类结果。

Description

一种基于通信时空特征的演变网络特殊群体挖掘方法及系统
技术领域
本发明涉及通讯单社区发现技术领域,特别涉及一种基于通信时空特征的演变网络特殊群体挖掘方法及系统。
背景技术
当今社会正处于数据爆发式增长的大数据时代。人们在社交媒体上以一种前所未有的速度交流、分享、联络、互动,同时产生极具规模的数据。电话、短信这种传统社交媒体在当今时代依旧起着沟通联络的主导地位。
社交媒体的发展产生了大量的数据,对于社会科学、商业发展、人类进步带来了巨大潜力,社交媒体挖掘就是一种伴随着社交媒体高速发展的新型研究领域,它是一种社会学与计算科学的交叉研究型学科,经常使用或综合研究多个领域如统计学、数据挖掘、机器学习、社会心理学等。
社区也称为群组(group)、集群(cluster)等,直观上,是指网络中的一些密集群体,每个社区内部的结点间的联系相对紧密,它在社会学领域中已经被广泛、深入的研究。社区发现主要针对与显示社区相对的隐式社区挖掘。本发明主要针对于,传统通信媒体网络的社区发现,传统社区发现聚类算法主要有如下几类:
现有方法一:层次聚类,假设社区是存在层次结构,计算网络中每对节点的相似程度,根据相似程度进行进一步划分,主要有如下两种划分方法:凝聚法,根据节点对的相似度从强到弱进行连接,形成树状图,然后根据需求对树状图进行横切,最终获得社区结构;分裂法,依照得出的相似度,找出节点对中相互关联最弱的节点,删除他们之间的边,反复操作将社交网络划分为越来越小的组件,最终连通的网络构成社区。
现有方法二:划分聚类,划分聚类就是典型的机器学习中无监督学习的聚类方法,该种聚类方法很多,K-means算法是最为经典的基于划分的聚类方法,该方法是将数据依照不同特征标准化后计算相应的距离,往往使用欧式距离进行计算,初始以空间中随机k个点为中心进行聚类,对最靠近他们的对象归类,通过迭代的方法,逐次更新各聚类中心,直至得到最好的聚类结果;
现有方法三:谱聚类,建立在谱图理论基础上,根据给定的样本数据集定义一个描述成对数据点相似度的拉普拉斯矩阵,并且计算矩阵的特征值和特征向量,然后选择合适的特征向量聚类不同的点。其本质是将聚类问题转化为图的最优划分问题,是一种点对聚类算法。
随着即时通信的不断发展,演变社交网络的研究也越来越引起社交媒体挖掘的研究者的关注,主要针对演变网络的聚类方法有:
现有方法四:演变聚类算法,Chakrabarti在2006年最先提出的演变社交网络,并提出了一种时间平滑性框架。时间平滑性框架的是使任意时刻聚类表现的尽可能的好,并且使聚类在时间上具有平滑性。演变聚类算法就是将当前时间的聚类,跟历史的聚类做比较得出偏差,利用时间平滑框架中的时间惩罚因子做计算,最终得出当前时刻的聚类结果。
现有方法缺陷:现有方法一,假设社区存在层级结构的基础上进行的,传统通信媒体网络往往不具备层次结构,从传统通信媒体网络结构考虑,使用现有方法一进行社区发现不满足条件。现有方法二,传统划分聚类,应用于很多领域,经实践证明具有较好的实用效果,但针对传统通信媒体网络的某些具有在不定时间、不定地点集会特征的特殊群体的挖掘方面上,不具备很强的优势,传统通信媒体网络在针对案发时间和地点方面属于演变的社交网络,且通讯单中数据特征不适合用于表示网络中节点距离,固现有技术二不满足本发明的使用场景。现有方法三,与其他两种方法比较具有能在任意形状的样本空间上聚类且收敛于全局最优解的优点,而且通过计算得出的拉普拉斯矩阵的特征向量虽然方便用于现有方法二的聚类,但在演变的社交网络,特别是针对特殊群体集会的时间、地点等因素的演变社交网络不满足条件。现有方法四,虽考虑了时间的因素,但却忽视了集会地点这个至关重要的因素,而且特殊群体集会时个体往往交替出现,演变聚类算法在使用时间代价的同时可能将不长出现的个体排除在聚类外,固现有方法四也不适用于某些会在不定时间、地点集会的特殊群体的挖掘任务。
发明内容
发明人在进行针对具有不定时间不定地点集会特征的特殊群体挖掘研究时,发现现有方法三的缺陷是由于没有考虑到针对特殊群体的集会时间和地点等因素的考虑导致的,发明人经过调查、研究并参考现有方法四演变网络社区发现的研究发现,在考虑特殊群体集会的案发时间和地点等因素的基础上,将演变的传统通信媒体网络变成多个静态网络,利用现有方法三的拉普拉斯矩阵特征向量和现有方法二的K-means聚类方法将每一个静态网络进行聚类,然后针对总体的演变的传统通信媒体网络采用投票机制挖掘出最终的特殊群体,因此本发明提出一种基于通信时空特征的演变网络特殊群体挖掘方法及系统。
本发明提出一种基于通信时空特征的演变网络特殊群体挖掘方法,包括:
步骤1,根据通信数据,获取时间特征数据与空间特征数据,其中所述空间特征数据为产生所述通信数据的地点;
步骤2,按照所述时间特征数据与所述空间特征数据及通信关系,构建静态通信网络,并构建与所述静态通信网络相对应的拉普拉斯矩阵,计算矩阵特征向量,并对矩阵特征向量进行聚类,将聚类分为特殊群体和非特殊群体两种类簇,并获取聚类结果;
步骤3,根据所述聚类结果,采取投票机制,获取最终特殊群体聚类结果。
通过逆地址解析将将所述通信数据中的基站数据转化为经纬度地点数据。
所述静态通信网络为无向加权通信图。
所述步骤3中所述投票机制为设投票阈值为n,采用迭代方法找到满足阈值的结果。
还包括对所述最终特殊群体聚类结果进行评价,评价公式为:
准确率pred的计算公式:
Figure BDA0001245119410000031
其中accuate是准确判断出所述群体电话号码的数量,N是电话号码总个数;
召回率recall的计算公式:
Figure BDA0001245119410000032
其中realSum是经验证的所述群体使用的电话号码;
根据准确率pred与召回率recall计算评价标准F1值,计算所述评价标准F1值的计算公式如下:
本发明还提出一种基于通信时空特征的演变网络特殊群体挖掘系统,包括:
获取数据模块,用于根据通信数据,获取时间特征数据与空间特征数据,其中所述空间特征数据为产生所述通信数据的地点;
聚类模块,用于按照所述时间特征数据与所述空间特征数据及通信关系,构建静态通信网络,并构建与所述静态通信网络相对应的拉普拉斯矩阵,计算矩阵特征向量,并对矩阵特征向量进行聚类,将聚类分为特殊群体和非特殊群体两种类簇,并获取聚类结果;
获取结果模块,用于根据所述聚类结果,采取投票机制,获取最终特殊群体聚类结果。
通过逆地址解析将将所述通信数据中的基站数据转化为经纬度地点数据。
所述静态通信网络为无向加权通信图。
所述获取结果模块中所述投票机制为设投票阈值为n,采用迭代方法找到满足阈值的结果。
还包括对所述最终特殊群体聚类结果进行评价,评价公式为:
准确率pred的计算公式:
Figure BDA0001245119410000041
其中accuate是准确判断出所述群体电话号码的数量,N是电话号码总个数;
召回率recall的计算公式:
其中realSum是经验证的所述群体使用的电话号码;
根据准确率pred与召回率recall计算评价标准F1值,计算所述评价标准F1值的计算公式如下:
Figure BDA0001245119410000043
由以上方案可知,本发明的优点在于:
本发明可帮助用户对具有不定时间不定地点集会特征的特殊群体进行挖掘和发现。
附图说明
图1为本发明流程图;
图2为无向加权图。
具体实施方式
本发明中“特殊群体”为一种具有不定时间不定地点集会特征的隐藏群体。
以下为本发明的总体流程,如下所示:
步骤1,针对通信数据将其中的基站数据转化为经纬度从而确定通信数据产生的地点,提取符合案件时空特征的数据;
步骤2,将整体通信数据构建的传统通信媒体网络,按照每个集会的不同的时空特征及通信关系构建静态的通信网络;
步骤3,按照不同时空特征的静态通信网络,构建与之对应的拉普拉斯矩阵,利用谱聚类中计算矩阵特征向量,选用合适的特征向量,使用K-means聚类方法进行聚类,得出聚类结果;
步骤4,根据每个静态网络聚类结果,采用投票机制,得出最终的聚类结果,该聚类结果就是总的演变的传统通信媒体网络的特殊群体挖掘结果。
以下为本发明的一实施例:
如图1所示,本发明的实验数据来源于真实的团伙犯罪案件。根据实验数据的通信时空特征构建演变网络,并从中挖掘出特殊群体即案件中的犯罪团伙,具体实施方式如下所示:
S01、根据集会时间选取符合时间特征数据。
警察依照作案手段、手法、时间、地点的综合考虑,实验数据中多起案件均来自于同一个犯罪团伙。每起案件有详细的案发时间和案发地点,即特殊群体中的集会时间和集会地点。
根据生活经验,特殊群体在进行集会前会进行大量的联系,同样按照警察刑侦经验,团伙犯罪案件中,犯罪团伙在实施犯罪前,需要选择犯罪地点和目标,并对目标进行观察从而制定高效的犯罪行为,犯罪团伙在进行观察、制定方案过程中需要通过电话、短信、微信等社交媒体进行大量的联络。
依照上述特征,选取特殊群体集会时间,即该实验中每起案件案发时间,该时间前几日内的电话、短信数据进行保留,与集会无关的时间采取忽略策略。
S02、将LAC(位置区码)、CI(小区识别)转换为经纬度。
从电信运营商中取得的通信数据中,有用于确定移动台的位置标示位置区的LAC(位置区码)和具有唯一标示的运营商定义的小区编码CI(小区识别)等两类字段值,通过这两类值可以获取到某条通信数据产生于哪个基站,将用于基站的LAC(位置区码)和CI(小区识别)转化为地理信息系统中常使用的经纬度坐标,用以判定通信数据产生的位置。
S03、根据集会地点的经纬度选取符合空间特征数据。
实验数据中的每起案件的案发地点,即集会地点,通过逆地址解析的方法,将案件的案发地点转换为地理信息系统中常使用的经纬度坐标,然后,以每起案件中案发地点经纬度为中心取一个大致范围,根据步骤S02中转换后的经纬度坐标,将在该区域内产生的电话、短信数据进行保留,不在该范围内产生的数据则不做考虑。
S04、依照集会时空特征获取通信数据
传统社交媒体中的电话和短信属于即时通信范围,即时通信的网络会随着时间的推演不断产生变化。任何时间点内产生的交互数据是有限的,按照任何时间点进行社区发现是不合理的,固这里将整体的演变网络,取不同时间段的产生的静态网络进行挖掘,根据每个静态网络的挖掘结果,构建整个演变网络的挖掘结果。
考虑到特殊群体的通信特点和集会流程,加入集会地点因素,即取集会地点经纬度坐标为中心的一定范围的圆区内。按照步骤S01和S03得出的数据,取不同集会的不同的时空特征,即集会前一段时间和集会地点一定范围内,选取满足条件的通信数据。
本发明实验中则采用不同案件的时空特征,即案发前一段时间和案发地点一定范围内,选取满足条件的通信数据。
S05、构建每次集会的无向加权通信图。
无向图G=<V,E>,其中:V是非空集合,称为顶点集;E是V中元素构成的无序二元组的集合,称为边集。由顶点的集合和边的集合共同构建的没有方向的图,称为无向图。
对图的每一条边e来说,都对应于一个实数W(e),我们把W(e)称为边e的权重。把这样的无向图G称为无向加权图。无向加权图,如下图2所示。
按照步骤S04取出满足每次集会的时空特征的通信数据,根据取出的通信数据,按照通信关系,即不同号码间有过电话、短信等联系,例如号码A与号码B在集会时间、集会地点范围内打过电话或者发过短信一次,则在网络中将顶点A与顶点B连接并将该权重加1,通过这种方式构建每次集会,即实验中每起案件的无向加权通信网络,如下图2所示,顶点A与顶点B邻接边权重为2,表示为号码A与号码B在集会时间和集会地点范围内有过两次联络。
每次集会的无向加权通信图,就是整个演变网络中根据不同集会时空特征提取的静态网络。
S06、构建与无向加权通信图相关的拉普拉斯矩阵。
拉普拉斯矩阵(Laplacian matrix)也叫做导纳矩阵、基尔霍夫矩阵或离散拉普拉斯算子,主要应用在图论中,作为一个图的矩阵表示。拉普拉斯特征向量可以将处于流形上的数据,在尽量保留原数据间相似度的情况下,映射到低维度下表示。
本发明考虑通信话单不同维度的数据特征不具备可比较性,即使标准化后采用欧氏距离进行聚类仍存在严重不合理性,所以使用拉普拉斯矩阵的特征向量降维处理,然后聚类。
拉普拉斯矩阵公式如下所示:
L=D-A
其中D是度矩阵,A是邻接矩阵,L是拉普拉斯矩阵。
构建邻接矩阵A,邻接矩阵是表示顶点之间相邻关系的矩阵,根据图2构建的邻接矩阵A如下所示:
Figure BDA0001245119410000071
构建度矩阵D,D根据图中的入度、出度仅考虑其中一个构建的对角矩阵,在本发明中无向加权通信图中使用度的值构建,根据图2构建的度矩阵D如下所示:
Figure BDA0001245119410000072
根据拉普拉斯矩阵公式,得出图2的拉普拉斯矩阵L如下:
Figure BDA0001245119410000081
根据依照S05方法构建的每次集会的无向加权通信图,依照上述取得拉普拉斯矩阵的方法,构建与无向加权通信图图相关的拉普拉斯矩阵。
S07、计算每个静态网络的拉普拉斯矩阵求特征向量α。
设A是n阶矩阵,如果存在数λ和非零n维列向量α,使得公式成立,公式如下:
A*α=λ*α
λ是A的一个特征值。则非零n维列向量α称为矩阵A的对应于特征值λ的特征向量,简称A的特征向量。
根据上述特征值计算公式,根据S06构建的每起案件的拉普拉斯矩阵,可以得出每起案件拉普拉斯矩阵的特征向量。
S08、对每个静态网络的特征向量使用K-means进行聚类。
K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。
假设要把样本集分为c个类别,算法描述如下:
(1)随机选择c个类的初始中心;
(2)在第k次迭代中,对任意一个样本,求其到c个中心的距离,将该样本归到距离最短的中心所在的类;
(3)利用均值等方法更新该类的中心值;
(4)对于所有的c个聚类中心,如果利用(2)(3)的迭代法更新后,中心值保持不变,则迭代结束,否则继续迭代。
利用S07得出的每个静态网络的拉普拉斯矩阵的特征向量,选择其中合适的特征向量使用上述算法对其划分成两个类,属于特殊群体的聚类和不属于特殊群体的聚类。从而,得出实验数据中每起案件的犯罪团伙社区。
S09、根据每个静态网络挖掘出的特殊群体社区得出最终的特殊群体社区。
由根据S08的K-means算法挖掘出每个静态网络挖掘出的特殊群体社区,采用投票机制设票数阈值为n,在每个静态网络挖掘出的特殊群体社区中出现的号码记票数为1,对每个静态网络挖掘出的特殊群体社区进行遍历,计算每个号码的票数,当号码的票数达到阈值时,则将它记入整个演变网络的特殊群体社区中,得出最终的特殊群体社区。
S10、对得出的结果进行评价。
用于本发明的通信数据中,有效电话号码共1316个。团伙犯罪案件共14起,仅采用其中7起案件。最终,依照上述方法得出聚类结果共11个犯罪团伙嫌疑人电话号码,经警方验证,整个犯罪团伙共使用8个号码,其中4个出现在犯罪团伙的挖掘结果中。
准确率pred的计算公式:
Figure BDA0001245119410000091
其中accuate是准确判断出犯罪嫌疑人电话号码的数量,N是挖掘结果中共多少个电话号码。依照上述公式得出最终演变网络的犯罪团伙社区的准确率pred约为0.364。
召回率recall的计算公式:
Figure BDA0001245119410000092
其中accuate是准确判断出犯罪嫌疑人电话号码的数量,realSum是经警方验证的犯罪团伙使用的电话号码。依照上述公式得出召回率recall为0.5。
利用准确率pred和召回率recall得出的结果,可以计算出更合理的评价标准F1值。F1值的计算公式如下:
Figure BDA0001245119410000093
依照上述公式得出整个演变网络犯罪团伙挖掘的F1值约为0.421。
本发明还提出一种基于通信时空特征的演变网络特殊群体挖掘系统,包括:
获取数据模块,用于根据通信数据,获取时间特征数据与空间特征数据,其中所述空间特征数据为产生所述通信数据的地点;
聚类模块,用于按照所述时间特征数据与所述空间特征数据及通信关系,构建静态通信网络,并构建与所述静态通信网络相对应的拉普拉斯矩阵,计算矩阵特征向量,并对矩阵特征向量进行聚类,将聚类分为特殊群体和非特殊群体两种类簇,并获取聚类结果;
获取结果模块,用于根据所述聚类结果,采取投票机制,获取最终特殊群体聚类结果。
通过逆地址解析将将所述通信数据中的基站数据转化为经纬度地点数据。
所述静态通信网络为无向加权通信图。
所述获取结果模块中所述投票机制为设投票阈值为n,采用迭代方法找到满足阈值的结果。
还包括对所述最终特殊群体聚类结果进行评价,评价公式为:
准确率pred的计算公式:
Figure BDA0001245119410000101
其中accuate是准确判断出所述群体电话号码的数量,N是电话号码总个数;
召回率recall的计算公式:
Figure BDA0001245119410000102
其中realSum是经验证的所述群体使用的电话号码;
根据准确率pred与召回率recall计算评价标准F1值,计算所述评价标准F1值的计算公式如下:
Figure BDA0001245119410000103

Claims (10)

1.一种基于通信时空特征的演变网络特殊群体挖掘方法,其特征在于,包括:
步骤1,根据通信数据,获取时间特征数据与空间特征数据,其中所述空间特征数据为产生所述通信数据的地点;
步骤2,按照所述时间特征数据与所述空间特征数据及通信关系,将动态属性的通信网络,按时间切片,构建静态通信网络,并构建与所述静态通信网络相对应的拉普拉斯矩阵,计算矩阵特征向量,并对矩阵特征向量进行聚类,将聚类分为特殊群体和非特殊群体两种类簇,并获取聚类结果;其中,该特殊群体为具有不定时间不定地点集会特征的隐藏群体;
步骤3,根据所述聚类结果,采取投票机制,获取最终特殊群体聚类结果。
2.如权利要求1所述的基于通信时空特征的演变网络特殊群体挖掘方法,其特征在于,通过逆地址解析将所述通信数据中的基站数据转化为经纬度地点数据。
3.如权利要求1所述的基于通信时空特征的演变网络特殊群体挖掘方法,其特征在于,所述静态通信网络为无向加权通信图。
4.如权利要求1所述的基于通信时空特征的演变网络特殊群体挖掘方法,其特征在于,所述步骤3中所述投票机制为设投票阈值为n,采用迭代方法找到满足阈值的结果。
5.如权利要求1所述的基于通信时空特征的演变网络特殊群体挖掘方法,还包括对所述最终特殊群体聚类结果进行评价,评价公式为:
准确率pred的计算公式:
Figure FDA0002224861900000011
其中accuate是准确判断出所述群体电话号码的数量,N是电话号码总个数;
召回率recall的计算公式:
Figure FDA0002224861900000012
其中realSum是经验证的所述群体使用的电话号码;
根据准确率pred与召回率recall计算评价标准F1值,计算所述评价标准F1值的计算公式如下:
Figure FDA0002224861900000021
6.一种基于通信时空特征的演变网络特殊群体挖掘系统,其特征在于,包括:
获取数据模块,用于根据通信数据,获取时间特征数据与空间特征数据,其中所述空间特征数据为产生所述通信数据的地点;
聚类模块,用于按照所述时间特征数据与所述空间特征数据及通信关系,将动态属性的通信网络,按时间切片,构建静态通信网络,并构建与所述静态通信网络相对应的拉普拉斯矩阵,计算矩阵特征向量,并对矩阵特征向量进行聚类,将聚类分为特殊群体和非特殊群体两种类簇,并获取聚类结果;其中,该特殊群体为具有不定时间不定地点集会特征的隐藏群体;
获取结果模块,用于根据所述聚类结果,采取投票机制,获取最终特殊群体聚类结果。
7.如权利要求6所述的基于通信时空特征的演变网络特殊群体挖掘系统,其特征在于,通过逆地址解析将所述通信数据中的基站数据转化为经纬度地点数据。
8.如权利要求6所述的基于通信时空特征的演变网络特殊群体挖掘系统,其特征在于,所述静态通信网络为无向加权通信图。
9.如权利要求6所述的基于通信时空特征的演变网络特殊群体挖掘系统,其特征在于,所述获取结果模块中所述投票机制为设投票阈值为n,采用迭代方法找到满足阈值的结果。
10.如权利要求6所述的基于通信时空特征的演变网络特殊群体挖掘系统,还包括对所述最终特殊群体聚类结果进行评价,评价公式为:
准确率pred的计算公式:
Figure FDA0002224861900000022
其中accuate是准确判断出所述群体电话号码的数量,N是电话号码总个数;
召回率recall的计算公式:
Figure FDA0002224861900000023
其中realSum是经验证的所述群体使用的电话号码;
根据准确率pred与召回率recall计算评价标准F1值,计算所述评价标准F1值的计算公式如下:
Figure FDA0002224861900000031
CN201710149488.8A 2017-03-14 2017-03-14 一种基于通信时空特征的演变网络特殊群体挖掘方法及系统 Active CN107145897B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710149488.8A CN107145897B (zh) 2017-03-14 2017-03-14 一种基于通信时空特征的演变网络特殊群体挖掘方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710149488.8A CN107145897B (zh) 2017-03-14 2017-03-14 一种基于通信时空特征的演变网络特殊群体挖掘方法及系统

Publications (2)

Publication Number Publication Date
CN107145897A CN107145897A (zh) 2017-09-08
CN107145897B true CN107145897B (zh) 2020-01-07

Family

ID=59783812

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710149488.8A Active CN107145897B (zh) 2017-03-14 2017-03-14 一种基于通信时空特征的演变网络特殊群体挖掘方法及系统

Country Status (1)

Country Link
CN (1) CN107145897B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109885684B (zh) * 2019-01-31 2022-11-22 腾讯科技(深圳)有限公司 一种类簇处理方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102810113A (zh) * 2012-06-06 2012-12-05 北京航空航天大学 一种针对复杂网络的混合型聚类方法
CN102890702A (zh) * 2012-07-19 2013-01-23 中国人民解放军国防科学技术大学 一种面向网络论坛的意见领袖挖掘方法
CN103414711A (zh) * 2013-08-05 2013-11-27 哈尔滨工业大学 基于信任的网络群体异常感知方法
CN104408149A (zh) * 2014-12-04 2015-03-11 威海北洋电气集团股份有限公司 基于社交网络分析的犯罪嫌疑人挖掘关联方法及系统
CN105005594A (zh) * 2015-06-29 2015-10-28 嘉兴慧康智能科技有限公司 异常微博用户识别方法
CN105404890A (zh) * 2015-10-13 2016-03-16 广西师范学院 一种顾及轨迹时空语义的犯罪团伙判别方法
CN106027399A (zh) * 2016-07-26 2016-10-12 华北电力大学(保定) 一种通信网关键链路识别方法
CN106411572A (zh) * 2016-09-06 2017-02-15 山东大学 一种结合节点信息和网络结构的社区发现方法
CN107092651A (zh) * 2017-03-14 2017-08-25 中国科学院计算技术研究所 一种基于通信网络数据分析的关键人物挖掘方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102810113A (zh) * 2012-06-06 2012-12-05 北京航空航天大学 一种针对复杂网络的混合型聚类方法
CN102890702A (zh) * 2012-07-19 2013-01-23 中国人民解放军国防科学技术大学 一种面向网络论坛的意见领袖挖掘方法
CN103414711A (zh) * 2013-08-05 2013-11-27 哈尔滨工业大学 基于信任的网络群体异常感知方法
CN104408149A (zh) * 2014-12-04 2015-03-11 威海北洋电气集团股份有限公司 基于社交网络分析的犯罪嫌疑人挖掘关联方法及系统
CN105005594A (zh) * 2015-06-29 2015-10-28 嘉兴慧康智能科技有限公司 异常微博用户识别方法
CN105404890A (zh) * 2015-10-13 2016-03-16 广西师范学院 一种顾及轨迹时空语义的犯罪团伙判别方法
CN106027399A (zh) * 2016-07-26 2016-10-12 华北电力大学(保定) 一种通信网关键链路识别方法
CN106411572A (zh) * 2016-09-06 2017-02-15 山东大学 一种结合节点信息和网络结构的社区发现方法
CN107092651A (zh) * 2017-03-14 2017-08-25 中国科学院计算技术研究所 一种基于通信网络数据分析的关键人物挖掘方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Analysis of Criminal Social Networks with Typed and Directed Edges;Quan Zheng 等;《2015 IEEE International Conference on Intelligence and Security Informatics (ISI)》;20150529;1-6 *
Spectral methods for the detection of network community structure: a comparative analysis;Hua-Wei Shen 等;《Journal of Statistical Mechanics: Theory and Experiment》;20101013;1-13 *
一种基于增量式谱聚类的动态社区自适应发现算法;蒋盛益 等;《自动化学报》;20151231;第41卷(第12期);第1.1-1.2节 *
在线社会网络的动态社区发现及演化;王莉 等;《计算机学报》;20150228;第38卷(第2期);219-237 *

Also Published As

Publication number Publication date
CN107145897A (zh) 2017-09-08

Similar Documents

Publication Publication Date Title
Parwez et al. Big data analytics for user-activity analysis and user-anomaly detection in mobile wireless network
Sultan et al. Call detail records driven anomaly detection and traffic prediction in mobile cellular networks
Paraskevopoulos et al. Identification and characterization of human behavior patterns from mobile phone data
CN111080501B (zh) 基于手机信令数据的真实人群密度时空分布估算方法
CN108345661B (zh) 一种基于大规模Embedding技术的Wi-Fi聚类方法及系统
CN113505314A (zh) 时空复杂网络聚类的位置轨迹分析系统
CN107092651B (zh) 一种基于通信网络数据分析的关键人物挖掘方法及系统
Ganapathy et al. An intelligent intrusion detection system for mobile ad-hoc networks using classification techniques
CN111985623A (zh) 基于最大化互信息和图神经网络的属性图群组发现方法
CN113205134A (zh) 一种网络安全态势预测方法及系统
Rubio et al. Adaptive non-parametric identification of dense areas using cell phone records for urban analysis
CN112766119A (zh) 一种基于多维度人脸分析精准识别陌生人构建社区安防的方法
CN112801411A (zh) 一种基于生成对抗网络的网络流量预测方法
CN107145897B (zh) 一种基于通信时空特征的演变网络特殊群体挖掘方法及系统
Zhang et al. Duplicate report detection in urban crowdsensing applications for smart city
Lu et al. Parameters compressed mechanism in federated learning for edge computing
CN112925899B (zh) 排序模型建立方法、案件线索推荐方法、装置及介质
CN114707685A (zh) 一种基于大数据建模分析的事件预测方法及装置
CN110704612B (zh) 一种社交群体发现方法、装置和存储介质
CN112052337A (zh) 基于时空关联的目标关系探测方法、系统及存储介质
Wu et al. Practical privacy protection scheme in WiFi fingerprint-based localization
Lind et al. Spatio-temporal mobility analysis for community detection in the mobile networks using CDR data
CN106600053B (zh) 一种基于时空轨迹和社会网络的用户属性预测系统
CN115908882A (zh) 图片聚类方法及装置
CN114663960A (zh) 人脸与imsi匹配方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant