CN111191147B - 一种基于大数据挖掘的群体发现方法及分析系统 - Google Patents
一种基于大数据挖掘的群体发现方法及分析系统 Download PDFInfo
- Publication number
- CN111191147B CN111191147B CN202010273354.9A CN202010273354A CN111191147B CN 111191147 B CN111191147 B CN 111191147B CN 202010273354 A CN202010273354 A CN 202010273354A CN 111191147 B CN111191147 B CN 111191147B
- Authority
- CN
- China
- Prior art keywords
- data
- target
- time
- track data
- people
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 16
- 238000007418 data mining Methods 0.000 title claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims abstract description 16
- 238000003860 storage Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000013500 data storage Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000012098 association analyses Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 2
- 230000011218 segmentation Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000005054 agglomeration Methods 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于大数据挖掘的群体发现方法,属于大数据挖掘技术领域。该方法包括:获取目标的每一条轨迹数据,并作预处理;以目标的每一条有效轨迹数据为起点,以指定时长截取预处理后的数据;记录所截得的切片中其他人出现的次数;利用这些切片,初步确定同行的人;获取目标和同行的人的轨迹数据并作预处理;以每一条有效足迹为起点,以已知定长截取该时间序列轨迹数据;计算所有目标和同行的人出现的次数。本发明通过各个站点上传的,人进入区域的时间、坐标、名称等属性,和已知的目标,寻找那些可能与目标一起参与群体活动的人。
Description
技术领域
本发明涉及大数据挖掘领域,更具体地说,是一种基于大数据挖掘的群体发现方法。
背景技术
社团发现已经有很长的研究历史,并且在不同的学科有不同的形式。它与图论和计算机学科中的图分割和社会网络中的层次聚类的思想联系密切。
图分割是并行计算领域研究的重要问题。假设有n个能够通信的计算处理器(处理器并不是要与其他所有的处理器相互通信)。据此可以建立一个网络,其中节点代表处理器,节点之间的边把相互通信的两个节点链接在一起。并行计算要解决的问题是为每个节点分配数量相同的任务,并且使得节点之间的通信最少,也就是使边的数量尽可能少的问题。
分层聚类是寻找社会网络中的社团结构的一类传统算法,这种算法是社会科学家在研究社会网络时提出的发现社会网络中社团结构的方法。它是基于各个节点之间连接的相似性或者强度,把网络自然的分为若干个子群。根据其向网络中新增边还是删减边,该算法又分为两类:凝聚算法(agglomerative method)和分裂算法(divisive method)。
Giran和Newman提出了一种新的基于边移除的算法称为GN算法。GN算法寻找处于社团之间的边,然后移除这些边,从而找出网络中的社团。
上述的GN算法,每移除一条边后都要重新计算边的介数,这就使得此算法的复杂度较高。为此,出现了很多基于GN算法的优化。这些算法很多都是从改进边的度量以提高算法的执行速度。例如Tyler算法和Radicchi算法。并且还引出了一类优化模块度Q的算法。
除了上述的算法,还有一些基于其他思想的算法。例如,在已知社团数目的前提下,Wu和Huberman提出了一种基于电阻网络电压谱的快速分割算法,这种算法不但可以发现网络中的社团,而且还能在不考虑社团结构的前提下,寻找一个节点所在的整个社团,这是很多算法无法实现的。
考虑到本场景的特殊性,在社团成员出现的分布未知,而且存在大量缺失数据,导致不同研究个体之间数据量严重失衡的前提下,利用时间序列中数据时间和站点的特点,只考虑碰面的情形,大胆的将时间序列数据进行切片,利用概率论中的贝叶斯和极大似然的思想,通过相关系数这一统计量,来刻画与已知的目标之间联系紧密程度。如果两个人共同参与集体活动,则他们有可能在某些时间出现在共同的站点;如果两个人频繁同时出现在共同的场所,则认为他们的关系紧密。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的一种基于大数据挖掘的群体发现方法。
为了实现上述目的,本发明的技术方案如下:
一种基于大数据挖掘的群体发现方法,包括以下步骤:
S1:获取目标的每一条轨迹数据,并作预处理;
S2:以目标的每一条有效轨迹数据的时间为起点,以指定时长δ截取预处理后的轨迹数据;记录所截得的切片中其他人出现的次数(去重);
S3:利用这些切片,初步确定同行的人;
S4:获取目标和同行的人的时间序列轨迹数据,按时间排序和预处理;
S5:以每一条有效轨迹数据的时间为起点,以已知定长截取该时间序列轨迹数据;计算所有目标和同行的人出现的次数;
S6:在S5的基础上对切片后的数据进行二次切片,形成一组关于目标和同行的人足迹的有序事务;
S7:在S6的基础上,计算2-群体,3-群体…直到n-群体;并对最终的结果进行反向删除。
优选的,所述步骤S1,获取目标的每一条轨迹数据,并且按站点分组,各组按时间排序后,以定长interval对分组后的数据进行去重,即如果一个人在某个站点在短时间(interval)内连续出现多次,只保留第一条记录。
优选的,所述步骤S2中,以目标的每一条有效轨迹数据的时间为起点,以指定时长δ截取预处理后的轨迹数据,记录所截得的切片中其他人出现的次数,如果目标的同一个切片中出现多次某个人的记录,只记1次。
优选的,所述步骤S3中,利用S2中的这些切片,利用Apriori关联分析中的支持度的思想,初步确定同行的人:如果对于目标A,如果在S2中找到的所有的以A的有效轨迹数据的时间为起点的切片中出现的所有人的集合为X,则对于任意一个不是目标的人B∈(X-A),如果B在所有以A的有效轨迹数据的时间为起点的切片中累计出现的次数count(B)>阈值S,则认为B是A同行的人。
优选的,所述步骤S5,S6中,以每一条有效轨迹数据的时间为起点,以已知定长δ/2截取该时间序列轨迹数据,同时计算所有目标和同行的人出现的次数;在S5的基础上对切片后的数据进行二次切片,形成一组关于目标和同行的人的足迹的有序事务;对时间序列数据的切分分成两步,主要是这样有利于计算所有目标和同行的人出现的次数。完成计算目标和同行的人各自出现的次数后,在S5的切片进行二次切片,具体来说,对于S5中的每一个切片,求它的不只包含首个元素的子集;即如果这个切片是[a,b,c,d],则二次切分后的结果是[a,b],[a,c],[a,d],[a,b,c],[a,b,d],[a,c,d],[a,b,c,d]。
优选的,所述步骤S7中,依次计算2-群体,3-群体,…n-群体;利用相关系数计算2-群体,计算任意的B与C的相关系数ρ,其中B,C∈T,T是目标A和所有同行的人的集合:
如果ρ(B,C)>0,则称B、C是一个2-群体。值得一提的是,对于一个二次切分之后的一个长度为t(t>2)的集合[a,b,c…,x],可以证明:它的任意一个长度为t-1子集都是(t-1)-群体当且仅当[a,b,c…,x]是一个t-群体。所以如果没有找到长度为m的群体m-群体时,则停止搜索更大的群体。此时,利用上述证明的结论对结果进行群体删除:如果已经确认[a,b,c]是一个3-群体,则在临时存储对象的3-群体中写入[a,b,c],同时,清除2-群体中的[a,b,c]所有长度为2的子集。
本发明同时提出一种基于大数据挖掘的群体发现分析系统,包括目标存储模块、站点基本信息存储模块、站点数据存储模块、数据预处理模块、数据切片模块、群体计算模块和群体存储模块;
所述目标存储模块,记录着已经确认的关注对象的信息;
所述站点基本信息存储模块,记录着各站点的经纬度、站点名称信息;
所述站点数据存储模块,保存着实时身份的数据,一条数据包括如下属性,身份、时间、站点经纬度,一条记录意味着某人在该时间该站点附近出现;
所述数据预处理模块,包括以下两部分:
(1)对目标的轨迹的预处理,获取目标的每一条轨迹数据,并且按站点分组,各组按时间排序后,以定长interval对分组后的数据进行去重,即如果一个人在某个站点在短时间(interval)内连续出现多次,只保留第一条记录;
(2)在初步确定同行的人的范围后,获取目标和同行的人的时间序列轨迹数据,按站点分组,各组按时间排序后;对同一个人的连续重复数据做去重;
所述的数据切片模块,包含以下部分:
(1)目标数据切片:以目标的每一条有效轨迹数据的时间为起点,以指定时长δ截取预处理后的轨迹数据,截取相应的切片,用来初步确定同行的人;
(2)初步切片:以目标和同行的人的每一条有效轨迹数据的时间为起点,以已知定长δ/2截取该时间序列轨迹数据;初步切片的每一条结果描述的是在某一时刻某一站点相继出现人,称之为共站数据,在整理共站数据切片的同时,计算所有目标和同行的人出现的次数;
(3)共站数据的二次切片:是对初步切片的结果的进一步切片,即对每一个初步切片的数据,求它的不只包含首个元素的子集;即如果这个切片是[a,b,c,d],则二次切分后的结果是[a,b],[a,c],[a,d],[a,b,c],[a,b,d],[a,c,d],[a,b,c,d];
所述的群体计算模块:利用相关系数来刻画两个人的相关性,如果两者的相关性大于0,则认为两者有关联;
所述的群体存储模块:用于存储和更新最终的群体关系。
附图说明
图1是本发明实施例1中方法的流程框图。
具体实施方式
下面结合实例对本发明所述的一种基于大数据挖掘的群体发现方法作进一步说明。
以下是本发明所述的最佳实施例,并不因此限定本发明的保护范围。
实施例1
如图1所示,本发明所述的一种基于大数据挖掘的群体发现方法,包括以下步骤:
S1:获取目标的每一条轨迹数据,并作预处理;
对于目标A,对于A的在指定时间范围内所有记录,并且按站点分组,各组按时间排序后,以定长interval对分组后的数据进行去重,即如果一个人在某个站点在短时间(interval)内连续出现多次,只保留第一条记录;另外,如果重复数据持续的时间超过△t,则每隔△t,保留一条就近的记录(若相等,则保留时间早的那一条记录),后面保留数据的时间依据上一条保留数据的时间。
S2:以目标的每一条有效轨迹数据的时间为起点,以指定时长δ截取预处理后的轨迹数据,并对所截得的每一个切片数据进行预处理。
S3:利用这些切片,初步确定同行的人。
S4:获取目标和同行的人的时间序列轨迹数据,并作预处理。
S5:以每一条有效轨迹数据的时间为起点,以已知定长δ/2截取该时间序列轨迹数据;计算所有目标和同行的人出现的次数。
S6:在S5的基础上对切片后的数据进行二次切片,形成一组关于目标和同行的人的足迹的有序事务。
S7:在S6的基础上,利用相关系数计算2-群体,并进一步推导出3-群体…直到n-群体;并对最终的结果进行反向删除。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种基于大数据挖掘的群体发现方法,其特征在于,包括以下步骤:
S1:获取目标的每一条轨迹数据,按站点分组,各组按时间排序后,以3min的时间跨度对分组后的数据进行去重,即如果目标在某个站点3min内连续出现多次,只保留第一条记录,形成目标的有效轨迹数据;其中,一条轨迹数据包括如下属性,身份、时间、站点经纬度,一条轨迹数据意味着某人在该时间该站点附近出现;
S2:以目标的每一条有效轨迹数据的时间为起点,以5min的时间跨度截取预处理后的轨迹数据,获得目标数据切片,所述的预处理后的轨迹数据为目标的有效轨迹数据混合其他人的轨迹数据,同时记录目标数据切片中其他人出现的次数,如果一个目标数据切片中出现多次某个其他人的记录,只记1次;
S3:利用目标数据切片,初步确定同行的人;
S4:获取目标和同行的人的时间序列轨迹数据并作预处理,获得目标和同行的人的有效轨迹数据;
S5:初步切片:以目标和同行的人的每一条有效轨迹数据的时间为起点,以2.5min的时间跨度截取该时间序列轨迹数据;计算所有目标和同行的人出现的次数;
S6:在S5的基础上对初步切片后的数据进行二次切片,即对S5中每一个初步切片的数据,求它的不只包含首个元素的子集,形成一组关于目标和同行的人的轨迹的有序事务;
S7:在S6的基础上,利用相关系数计算2-群体,并进一步推导出3-群体…直到n-群体;并对最终的结果进行反向删除。
2.根据权利要求1所述的基于大数据挖掘的群体发现方法,其特征在于,所述步骤S3中,利用Apriori关联分析中支持度的思想,初步确定目标的同行的人:对于目标A,如果在S2中找到的所有的以A的有效轨迹数据的时间为起点的切片中出现的所有人的集合为X,则对于任意一个不是目标的人B∈(X-A),如果B在所有以A的有效轨迹数据的时间为起点的切片中累计出现的次数count(B)>阈值S,则认为B是A同行的人。
3.根据权利要求1所述的基于大数据挖掘的群体发现方法,其特征在于,所述步骤S4中,在初步确定同行的人的范围后,获取目标和同行的人的有效轨迹数据,按站点分组,各组按时间排序。
4.一种基于大数据挖掘的群体发现分析系统,其特征在于,包括目标存储模块、站点基本信息存储模块、站点数据存储模块、数据预处理模块、数据切片模块、群体计算模块和群体存储模块;
所述目标存储模块,用于记录已经确认的目标的信息;
所述站点基本信息存储模块,用于记录各站点的经纬度、站点名称信息;
所述站点数据存储模块,用于实时保存轨迹数据,一条轨迹数据包括如下属性,身份、时间、站点经纬度,一条轨迹数据意味着某人在该时间该站点附近出现;
所述数据预处理模块,包括以下两部分:
(1)对目标的轨迹的预处理,获取目标的每一条轨迹数据,并且按站点分组,各组按时间排序后,以3min的时间跨度对分组后的数据进行去重,即如果一个人在某个站点在3min内连续出现多次,只保留第一条轨迹数据;
(2)在初步确定同行的人的范围后,获取目标和同行的人的时间序列轨迹数据,按站点分组,各组按时间排序后,对同一个人的连续重复数据做去重;
所述的数据切片模块,包含以下部分:
(1)目标数据切片:以目标的每一条有效轨迹数据的时间为起点,以5min的时间跨度截取预处理后的轨迹数据,截取相应的目标数据切片,用来初步确定同行的人;
(2)初步切片:以目标和同行的人的每一条有效轨迹数据的时间为起点,以2.5min的时间跨度截取该时间序列轨迹数据;初步切片的每一条结果描述的是在某一时间某一站点相继出现人,称之为共站数据,在整理共站数据初步切片的同时,计算所有目标和同行的人出现的次数;
(3)共站数据的二次切片:是对初步切片的结果的进一步切片,即对每一个初步切片的数据,求它的不只包含首个元素的子集;
所述的群体计算模块:利用相关系数来刻画两个人的相关性,如果两者的相关性大于0,则认为两者有关联;
所述的群体存储模块:用于存储和更新最终的群体关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010273354.9A CN111191147B (zh) | 2020-04-09 | 2020-04-09 | 一种基于大数据挖掘的群体发现方法及分析系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010273354.9A CN111191147B (zh) | 2020-04-09 | 2020-04-09 | 一种基于大数据挖掘的群体发现方法及分析系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111191147A CN111191147A (zh) | 2020-05-22 |
CN111191147B true CN111191147B (zh) | 2020-08-21 |
Family
ID=70708697
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010273354.9A Active CN111191147B (zh) | 2020-04-09 | 2020-04-09 | 一种基于大数据挖掘的群体发现方法及分析系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111191147B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111797292B (zh) * | 2020-06-02 | 2023-10-20 | 成都方未科技有限公司 | 一种基于uct行为轨迹数据挖掘方法及系统 |
CN112015956B (zh) * | 2020-09-04 | 2024-07-30 | 杭州海康威视数字技术股份有限公司 | 移动对象的相似性确定方法、装置、设备和存储介质 |
CN113095209B (zh) * | 2021-04-07 | 2024-05-31 | 深圳海智创科技有限公司 | 一种客流的人群识别方法、系统及电子设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9558266B1 (en) * | 2012-09-24 | 2017-01-31 | Anthony Bernard Diepenbrock, IV | System and method for discovering groups whose members have a given attribute |
CN110390012B (zh) * | 2018-04-13 | 2023-12-05 | 北京京东尚科信息技术有限公司 | 轨迹聚合方法、装置、存储介质及电子设备 |
CN109104694B (zh) * | 2018-06-26 | 2020-10-30 | 重庆市交通规划研究院 | 一种基于手机信令的用户停留位置发现方法及系统 |
-
2020
- 2020-04-09 CN CN202010273354.9A patent/CN111191147B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111191147A (zh) | 2020-05-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111191147B (zh) | 一种基于大数据挖掘的群体发现方法及分析系统 | |
CN108090197B (zh) | 一种多维社交网络的社区发现方法 | |
CN103678670B (zh) | 一种微博热词与热点话题挖掘系统及方法 | |
CN109919437B (zh) | 一种基于大数据的智慧旅游目标匹配方法和系统 | |
CN109002492B (zh) | 一种基于LightGBM的绩点预测方法 | |
CN107145526A (zh) | 一种路网下地理社交关键字反最近邻查询处理方法 | |
CN111881302A (zh) | 基于知识图谱的银行舆情分析方法和系统 | |
CN110334159A (zh) | 基于关系图谱的信息查询方法和装置 | |
CN110990716A (zh) | 基于影响力最大化的抑制虚假消息传播方法 | |
CN107274066A (zh) | 一种基于lrfmd模型的共享交通客户价值分析方法 | |
CN110990722B (zh) | 基于大数据挖掘的模糊共站分析方法及其分析系统 | |
CN108234596A (zh) | 航空信息推送方法及装置 | |
CN109033746B (zh) | 一种基于节点向量的蛋白质复合物识别方法 | |
CN116467751A (zh) | 一种带有隐私保护的关联规则学习方法 | |
CN110765221A (zh) | 时空轨迹数据的管理方法和装置 | |
CN116822569A (zh) | 模型训练方法、装置、相关设备及存储介质 | |
CN112416922B (zh) | 一种群体关联数据挖掘方法、装置、设备及存储介质 | |
CN114943285A (zh) | 互联网新闻内容数据智能审核系统 | |
CN108427759A (zh) | 用于海量数据处理的实时数据计算方法 | |
CN109582806B (zh) | 一种基于图计算的个人信息处理方法及系统 | |
CN114491061A (zh) | 一种多维数据关联分析系统及方法 | |
CN112612870A (zh) | 一种非结构化数据管理方法 | |
CN110175296B (zh) | 网络图中的节点推荐方法和服务器以及存储介质 | |
CN114143207A (zh) | 一种家庭用户识别方法和电子设备 | |
Vlassopoulos et al. | Dynamic graph management for streaming social media analytics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |