CN111221879B - 基于轨迹相似性的潜在社团成员探测方法及探测系统 - Google Patents

基于轨迹相似性的潜在社团成员探测方法及探测系统 Download PDF

Info

Publication number
CN111221879B
CN111221879B CN202010322530.3A CN202010322530A CN111221879B CN 111221879 B CN111221879 B CN 111221879B CN 202010322530 A CN202010322530 A CN 202010322530A CN 111221879 B CN111221879 B CN 111221879B
Authority
CN
China
Prior art keywords
community
site
community members
members
potential
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010322530.3A
Other languages
English (en)
Other versions
CN111221879A (zh
Inventor
薛岭
吴善新
陈磊
刘海滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Baiyue Software Co ltd
Original Assignee
Nanjing Baiyue Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Baiyue Software Co ltd filed Critical Nanjing Baiyue Software Co ltd
Priority to CN202010322530.3A priority Critical patent/CN111221879B/zh
Publication of CN111221879A publication Critical patent/CN111221879A/zh
Application granted granted Critical
Publication of CN111221879B publication Critical patent/CN111221879B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Remote Sensing (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于轨迹相似性的潜在社团成员探测方法及探测系统,属于大数据挖掘技术领域。该方法包括对站点的筛选;计算每个社团成员在各个站点的出现次数;基于k‑均值聚类进行群体划分;寻找群体之间的纽带;计算非社团成员在各个站点出现的次数;通过纽带找到潜在的社团成员;本发明通过各个站点上传的,人进入站点监控区域的时间、站点坐标,站点名称等属性,通过发现特定社团成员的活动站点分布规律,进行群体划分,进一步发现不同群体之间的纽带,通过研究非社团成员的站点活动分布规律,发现潜在的社团成员。

Description

基于轨迹相似性的潜在社团成员探测方法及探测系统
技术领域
本发明涉及大数据挖掘领域,更具体地说,是一种基于轨迹相似性的潜在社团成员探测方法及探测系统。
背景技术
社团结构的研究是社团研究的重要内容,一个社团是网络中的一组节点,这些节点往往具有某些共同属性、联系紧密或者功能上的互补等特点。
随着对社团研究的深入,人们发现即使是具有高度共性的社团中,依然存在功能或者身份上的差异;很多社团内部具有稳定的更小的团体结构,来自团体内部的结点其连接相对稠密,而来自不同团体的节点其连接相对稀疏。同时,在某些社团中,那些联系同一社团不同群体的节点会被给与高度重视,认为这些节点在整个社团的运作具有更重要的意义。
发明内容
本发明实施例的目的在于提供一种基于轨迹相似性的潜在社团成员探测方法及探测系统,旨在剖析社团的结构,找到社团中地位特殊的成员,进一步通过特殊成员的轨迹,找到潜在的社团成员。
为了实现上述目的,本发明的技术方案如下:
一种基于轨迹相似性的潜在社团成员探测方法,包括以下步骤:
S1:筛选站点;
S2:计算每个社团成员在各个站点的出现次数;
S3:基于k-均值聚类进行群体划分;
S4:寻找纽带;
S5:计算非社团成员在各个站点出现的次数;
S6:找到潜在的社团成员。
优选的,所述步骤S1中,站点筛选:对于同一个站点,随机从非社团成员中多次抽样,每次抽取与社团成员数量相等的若干人,对社团成员和非社团在该站点出现的次数,进行显著性检验,如果超过80%的检验显著,则可以认为该站点对社团成员具有指向性。阈值80%作为参数可调。
优选的,所属步骤S3中,群体划分:把每个社团成员在各个站点出现的次数看作该社团成员在n-维空间中的坐标,对社团成员的轨迹进行K-均值聚类,并通过肘部法则,确定最优的聚类个数K。
优选的,所述步骤S4中,在S3中分好的群体的基础上,一定至少存在一个点到每个群体的重心的距离的方差最小;这个点和每个群体都有一定的联系或共性,称之为纽带。
优选的,所述步骤S6中,找到潜在的社团成员:把非社团成员在各个站点出现的次数看作n维空间中的点,计算其到纽带的距离,如果非社团成员对应的坐标到纽带的距离在服从社团成员对应的点到纽带的距离的分布可能性越高,即可认为该非社团成员是潜在社团成员的可能性越高,当这种可能性超过阈值80%,即可认为该非社团成员是潜在的社团成员。
本发明同时提供一种基于轨迹相似性的潜在社团成员探测系统,包括社团成员名单存储模块、站点基本信息存储模块、站点采集数据存储模块、站点筛选模块、群体分析模块、纽带发现模块和潜在社团成员发现模块;
所述社团成员名单存储模块,记录着已经证实的社团成员名单和相应的基本信息;
所述站点基本信息存储模块,记录着各采集站点的经纬度、站点名称;
所述站点采集数据存储模块,保存着各个站点实时上传的采集身份的记录,一条记录包括如下属性,身份、时刻、站点经纬度,一条记录意味着某人在该时刻该站点附近出现;
所述站点筛选模块,用于筛选对社团成员具有指向性的站点;
所述群体分析模块,用于对社团成员进行聚类;
所述纽带发现模块,用于寻找潜在的纽带;
所述潜在社团成员发现模块,用于计算非社团成员是潜在社团成员的可能性。
本发明的有益效果:本专利另辟蹊径,从社团发现的角度出发,通过研究社团的结构,从不同成员在社团中的作用来寻找潜在的社团成员,结合社团结构的特点,利用不同的人在社团中的作用,通过寻找社团中比较活跃的成员,并研究这些人的社交往来和轨迹特点、寻找潜在的社团成员。其优点在于:1、通过剖析社团的结构,区别对待社团中的成员,有针对性的寻找潜在的社团成员,通过构建n-维空间,计算节点之间的距离,借助K-均值聚类,对社团结构进行剖析,进一步的,通过找到社团成员中地位特殊的一些人,并基于社团成员互动规律站点分布,找到潜在的社团成员,抓主要矛盾,大大较少了模型的计算量;2、摒弃之前研究的关于共站的思路,直接从源头中规避了由于某个点的出现次数过多,导致的共站结果的数据倾斜,从每个人的活动规律出发,探究潜在的社团成员。
附图说明
图1是本发明实施例1中方法的流程框图。
具体实施方式
下面结合实例对本发明所述的一种基于轨迹相似性的潜在社团成员探测模型作进一步说明。
以下是本发明所述的最佳实例,并不因此限定本发明的保护范围。
实施例1
图1示出了本发明所述的一种基于轨迹相似性的潜在社团成员探测方法,包括以下步骤:
S1:筛选站点;
S2:计算每个社团成员在各个站点的出现次数;
S3:基于k-均值聚类进行群体划分;
S4:寻找纽带;
S5:计算非社团成员在各个站点出现的次数;
S6:找到潜在的社团成员;
S1:站点筛选:对于同一个站点,随机从非社团成员中多次抽样,每次抽取与社团成员数量相等的若干人,对社团成员和非社团在该站点出现的次数,进行显著性检验,如果超过80%的检验显著,则可以认为该站点对社团成员具有指向性。
S2:计算每个社团成员在各个站点的出现次数。
S3:基于k-均值聚类进行群体划分:
把每个社团成员在各个站点出现的次数看作该社团成员在n-维空间中的坐标,对社团成员的轨迹进行K-均值聚类,并通过肘部法则,确定最优的聚类个数K。
S4:确定纽带:
在S3中分好的群体的基础上,一定至少存在一个点到每个群体的重心的距离的方差最小;这个点和每个群体都有一定的联系,总体来说,和每个群体表现出来的特征都有一定的共性,可以称之为纽带。
S5:计算非社团成员在各个站点出现的次数;
S6:找到潜在的社团成员:
把非社团成员在各个站点出现的次数看作n维空间中的点,计算其到纽带的距离,如果非社团成员对应的坐标到纽带的距离在服从社团成员对应的点到各自所属群体的重心的距离的分布可能性越高,即可认为该非社团成员是潜在社团成员的可能性越高。
本发明同时提供一种基于轨迹相似性的潜在社团成员探测系统,包括社团成员名单存储模块、站点基本信息存储模块、站点采集数据存储模块、站点筛选模块、群体分析模块、纽带发现模块和潜在社团成员发现模块;
所述社团成员名单存储模块,记录着已经证实的社团成员名单和相应的基本信息;
所述站点基本信息存储模块,记录着各采集站点的经纬度、站点名称;
所述站点采集数据存储模块,保存着各个站点实时上传的采集身份的记录,一条记录包括如下属性,身份,时刻站点经纬度,一条记录意味着某人在该时刻该站点附近出现;
所述站点筛选模块,用于筛选对社团成员具有指向性的站点;
所述群体分析模块,用于对社团成员进行聚类;
所述纽带发现模块,用于寻找潜在的纽带;
所述潜在社团成员发现模块,用于计算非社团成员是潜在社团成员的可能性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于轨迹相似性的潜在社团成员探测方法,其特征在于,包括以下步骤:
S1:筛选站点;对于同一个站点,随机从非社团成员中多次抽样,每次抽取与社团成员数量相等的若干人,对社团成员和非社团在该站点出现的次数,进行显著性检验,如果超过80%的检验显著,则认为该站点对社团成员具有指向性;
S2: 计算每个社团成员在各个站点的出现次数;
S3: 基于k-均值聚类进行群体划分;
S4: 在S3中分好的群体的基础上,如果一个点到每个群体的重心的距离的方差最小,则称这个点为纽带,并以此方法寻找纽带;
S5: 计算非社团成员在各个站点出现的次数;
S6: 找到潜在的社团成员;把非社团成员在各个站点出现的次数看作n维空间中的点,计算其到纽带的距离,如果非社团成员对应的坐标到纽带的距离服从社团成员对应的点到纽带的距离的分布可能性越高,即认为该非社团成员是潜在社团成员的可能性越高。
2.根据权利要求1所述的基于轨迹相似性的潜在社团成员探测方法,其特征在于,所述步骤S3中,群体划分:把每个社团成员在各个站点出现的次数看作该社团成员在n-维空间中的坐标,对社团成员的轨迹进行K-均值聚类,并通过肘部法则,确定最优的聚类个数K。
3.根据权利要求1所述的基于轨迹相似性的潜在社团成员探测方法,其特征在于,所述步骤S6中,如果非社团成员对应的坐标到纽带的距离服从社团成员对应的点到纽带的距离的分布可能性超过阈值80%,即认为该非社团成员是潜在的社团成员。
4.一种基于轨迹相似性的潜在社团成员探测系统,其特征在于,包括社团成员名单存储模块、站点基本信息存储模块、站点采集数据存储模块、站点筛选模块、群体分析模块、纽带发现模块、潜在社团成员发现模块;
所述社团成员名单存储模块,记录着已经证实的社团成员名单和相应的基本信息;
所述站点基本信息存储模块,记录着各采集站点的经纬度、站点名称;
所述站点采集数据存储模块,保存着各个站点实时上传的采集身份的记录,一条记录包括如下属性,身份、时刻、站点经纬度,一条记录意味着某人在该时刻该站点附近出现;
所述站点筛选模块,对于同一个站点,随机从非社团成员中多次抽样,每次抽取与社团成员数量相等的若干人,对社团成员和非社团在该站点出现的次数,进行显著性检验,如果超过80%的检验显著,则认为该站点是对社团成员具有指向性的站点;
所述群体分析模块,用于对社团成员进行聚类;
所述纽带发现模块,如果一个点到每个群体的重心的距离的方差最小,则称这个点为纽带,并以此方法寻找潜在的纽带;
所述潜在社团成员发现模块,用于计算非社团成员是潜在社团成员的可能性,如果非社团成员对应的坐标到纽带的距离服从社团成员对应的点到纽带的距离的分布可能性越高,即认为该非社团成员是潜在社团成员的可能性越高。
CN202010322530.3A 2020-04-22 2020-04-22 基于轨迹相似性的潜在社团成员探测方法及探测系统 Active CN111221879B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010322530.3A CN111221879B (zh) 2020-04-22 2020-04-22 基于轨迹相似性的潜在社团成员探测方法及探测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010322530.3A CN111221879B (zh) 2020-04-22 2020-04-22 基于轨迹相似性的潜在社团成员探测方法及探测系统

Publications (2)

Publication Number Publication Date
CN111221879A CN111221879A (zh) 2020-06-02
CN111221879B true CN111221879B (zh) 2021-01-26

Family

ID=70827362

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010322530.3A Active CN111221879B (zh) 2020-04-22 2020-04-22 基于轨迹相似性的潜在社团成员探测方法及探测系统

Country Status (1)

Country Link
CN (1) CN111221879B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112417076B (zh) * 2020-11-24 2022-08-05 杭州东信北邮信息技术有限公司 一种基于大数据挖掘技术的楼宇人员归属识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101278257A (zh) * 2005-05-10 2008-10-01 奈特希尔公司 用于分布式社区发现的方法和装置
US20170214589A1 (en) * 2016-01-27 2017-07-27 Linkedin Corporation Identifying gateway members between groups in social networks
CN110990722A (zh) * 2019-12-19 2020-04-10 南京柏跃软件有限公司 基于大数据挖掘的模糊共站分析算法模型及其分析系统
CN111090681A (zh) * 2019-11-12 2020-05-01 高新兴科技集团股份有限公司 一种团伙挖掘方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101278257A (zh) * 2005-05-10 2008-10-01 奈特希尔公司 用于分布式社区发现的方法和装置
US20170214589A1 (en) * 2016-01-27 2017-07-27 Linkedin Corporation Identifying gateway members between groups in social networks
CN111090681A (zh) * 2019-11-12 2020-05-01 高新兴科技集团股份有限公司 一种团伙挖掘方法、装置、设备及存储介质
CN110990722A (zh) * 2019-12-19 2020-04-10 南京柏跃软件有限公司 基于大数据挖掘的模糊共站分析算法模型及其分析系统

Also Published As

Publication number Publication date
CN111221879A (zh) 2020-06-02

Similar Documents

Publication Publication Date Title
Parwez et al. Big data analytics for user-activity analysis and user-anomaly detection in mobile wireless network
Delafontaine et al. Analysing spatiotemporal sequences in Bluetooth tracking data
Zhou et al. A data-driven method for trip ends identification using large-scale smartphone-based GPS tracking data
JP2000092556A (ja) パタ―ン認識ベ―スの地理位置識別
Paraskevopoulos et al. Identification and characterization of human behavior patterns from mobile phone data
WO2014012927A1 (en) Method and system for traffic estimation
CN111221879B (zh) 基于轨迹相似性的潜在社团成员探测方法及探测系统
CN111294742A (zh) 基于信令cdr数据识别伴随手机号码的方法与系统
CN110956188A (zh) 基于移动通信信令数据的人口行为轨迹数字化编码方法
Dou et al. Social awareness of crisis events: A new perspective from social-physical network
Folino et al. An adaptive distributed ensemble approach to mine concept-drifting data streams
CN111783295A (zh) 城市社区特定人行为链动态识别与预测评估方法及系统
Ramesh et al. Disaster management in smart cities using IoT and big data
CN113435867A (zh) 智慧城市运营方法、系统和可读存储介质
Yoneki et al. Distinct types of hubs in human dynamic networks
CN110990722B (zh) 基于大数据挖掘的模糊共站分析方法及其分析系统
Aktunc et al. Event detection by change tracking on community structure of temporal networks
Jiang et al. Improved F‐DBSCAN for Trip End Identification Using Mobile Phone Data in Combination with Base Station Density
CN113220675A (zh) 一种基于WiFi定位数据的高校学生行为分析系统及方法
Zhao et al. Urban scale trade area characterization for commercial districts with cellular footprints
Wang et al. Sequential patterns of daily human activity extracted from person trip survey data
Yamamoto et al. Examining Spatial Movement Patterns of Travelers: Cases in Tourist Destinations
Esztergár-Kiss et al. Mobility mapping based on a survey from the city of Berlin
Yeh et al. Adpd: Anomaly detection for population distribution in geo-space using mobile networks data
CN117201324A (zh) 基于聚类和频繁模式挖掘算法的网络嗅探行为识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant