CN105224593B - 一种短暂上网事务中频繁共现账号挖掘方法 - Google Patents

一种短暂上网事务中频繁共现账号挖掘方法 Download PDF

Info

Publication number
CN105224593B
CN105224593B CN201510526575.1A CN201510526575A CN105224593B CN 105224593 B CN105224593 B CN 105224593B CN 201510526575 A CN201510526575 A CN 201510526575A CN 105224593 B CN105224593 B CN 105224593B
Authority
CN
China
Prior art keywords
affairs
network
account
data
internet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510526575.1A
Other languages
English (en)
Other versions
CN105224593A (zh
Inventor
刘琰
罗军勇
尹美娟
常斌
孙通
丁文博
刘悦蒙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PLA Information Engineering University
Original Assignee
PLA Information Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PLA Information Engineering University filed Critical PLA Information Engineering University
Priority to CN201510526575.1A priority Critical patent/CN105224593B/zh
Publication of CN105224593A publication Critical patent/CN105224593A/zh
Application granted granted Critical
Publication of CN105224593B publication Critical patent/CN105224593B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及短暂上网事务中频繁共现账号挖掘方法,有效解决对单个上网账号的行为审计扩大到相关的多种应用、多个账号上,从而实现对用户上网行为的跨数据流跟踪和审计的问题,方法是,基于网络分流技术,在网络关口处镜像网络原始数据,基于浮动关键字匹配、正则表达式过滤,对网络中不同应用对应的数据流进行识别,提取社交应用的用户上网数据,按时间和上网地址进行汇总整理,形成上网短暂事务数据库,对待分析的用户上网原始流量所对应的事务数据库中的事务数据,找出频繁项集,计算项集间的重叠率,对频繁项集进行合并,得到归属于同一社会人的多个网络账号,本发明方法简单、易操作,能准确发现隐藏在网络通信流中网络帐号之间的关联性。

Description

一种短暂上网事务中频繁共现账号挖掘方法
技术领域
本发明涉及用户上网行为审计领域,特别是面向网络原始流的跨域上网账号同源性归并的一种短暂上网事务中频繁共现账号挖掘方法。
背景技术
近十年来,随着Web2.0理念的深入,越来越多的在线社交媒体出现,其发展迅速,种类多样。人们在虚拟社会网络空间中的行为直接反映了其在真实世界中的身份、社会关系和活动规律。因此,虚拟社会网络已经形成一种新形态的数字社会,成为连接物理社交世界和虚拟网络空间的桥梁。由于社会媒体详细记录了用户的思想和行为轨迹,这使得利用计算技术观察和研究社会成为可能。因此,社交媒体在定向信息推送、推荐系统、舆论监管等方面占据出举足轻重的地位。
但是,网络的虚拟性和匿名化掩盖了用户的真实身份。由于用户的个性化信息与用户隐私密切相关,所以互联网服务提供商一般会对用户数据进行匿名化处理之后再提供共享或对外发布。而且,社交媒体的丰富资源带来信息交流方式的多样化,人们倾向于使用多种渠道进行线上沟通,并有意识地区分不同网络行为所使用的用户标识,这使得同一个真实的社会实体在虚拟网络环境中拥有多个账号、多重身份。
目前,现有方法基于用户上网登记信息(如接入账号、手机号等)进行有限的账号关联,但是在没有用户上网接入账号的情况下,用户上网行为是无法准确关联的。另一些方法侧重于在单一数据源上对匿名的网络用户进行独立分析和行为审计,但是用户的各种信息会碎片化地散布在各个社交媒体中,单一的社交媒体所提供的信息是不完整的,无法还原一个真实社会实体的上网行为整体全貌。
由于在网络数据中信息是离散、无序的,附属于同一社会实体的多种用户身份的关联线索无据可循,因此在多种数据流空间中对表象独立的用户身份进行关联融合是一个具有挑战性的课题。在现实工作中面临着诸多困难,如:网络流量巨大,导致简单的数据挖掘方法无法满足处理规模的制约;目标社会属性稀缺,导致目标社会身份的推测异常困难;NAT、动态IP等技术广泛应用,导致在难以寻找可靠的用户标识关联依据;数据资源协议多样、形态复杂,导致缺乏有效的方法适应异构的原始数据。
因此,如何在网络原始流中,不依赖先验的线索,自动挖掘跨域上网账号的同源性,关联上网用户对多种社交媒体的访问行为,是必需认真解决的技术问题。
发明内容
针对上述情况,为克服现有技术之缺陷,本发明之目的就是提供基于网络原始数据流来关联一个用户多个上网账号的一种短暂上网事务中频繁共现账号挖掘方法,有效解决对单个上网账号的行为审计扩大到相关的多种应用、多个账号上,从而实现对用户上网行为的跨数据流跟踪和审计的问题。
本发明解决的技术方案是,包括以下步骤:
(1)用户上网数据流获取:基于网络分流技术,在网络关口处镜像网络原始数据,这些数据承载了用户访问各种社交应用的通信数据,包括上网地址、上网账号、时间、应用数据等;
(2)用户上网元数据提取:以网络流量分类方法为基础,基于浮动关键字匹配、正则表达式过滤,对网络中不同应用对应的数据流进行识别,提取社交应用的用户上网数据,形成“元数据”,包括:源IP地址、协议、目的IP地址、时间、社交应用类型和网络账号数据;
(3)短暂上网事务数据库构建:对步骤(2)得到的用户上网“元数据”按时间和上网地址进行汇总整理,形成上网短暂事务数据库,其中每个事务数据代表单位时间内单个本地地址向外访问的社交应用账号集;
(4)频繁共现网络帐号挖掘:对待分析的用户上网原始流量所对应的事务数据库中的每个事务数据,利用频繁模式挖掘算法找出所有事务数据中包含的频繁项集,得到频繁项集集合;
(5)频繁共现网络帐号归并:对每个频繁项集,计算项集间的重叠率,对频繁项集进行合并,将规模较小的项集归并到较大项集中,保证归并后项集中的账户具有关联性,得到归属于同一社会人的多个网络账号,从而实现短暂上网事务中频繁共现账号挖掘。
本发明方法简单、易操作,能准确发现隐藏在网络通信流中网络帐号之间的关联性,这种关联性来源于用户的上网习惯,可以有效克服上网行为关联对先验关联线索的依赖性,提高对用户在多种应用上网行为的联合审计能力,具有实际的应用价值。
附图说明
图1为本发明流程框示图。
图2为本发明的短暂上网事务数据库示意图。
图3为本发明测试验证所依托的迪普上网行为审计网络环境。
具体实施方式
以下结合附图对本发明的具体实施方式作详细说明。
由图1给出,本发明包括上网短暂事务数据库构建、频繁共现网络帐号挖掘以及频繁共现网络帐号归并部分,上网短暂事务数据库构建模块主要负责获取用户上网数据流,提取用户上网元数据,构建事务数据库D,为了尽可能地在事务中保留用户在多个社交应用的上网数据,同时缩减事务库规模,事务数据库的构建既要有上网行为的连续性,还要兼顾上网业务的独立性;频繁共现网络帐号挖掘模块从事务数据库D中挖掘出频繁项集;频繁共现网络帐号归并模块主要对频繁项集进行归并处理,以还原真实的社会实体的多个账号,具体步骤是:
1)、获取用户上网元数据:
用户上网元数据获取是后续数据分析的基础,用户上网元数据主要包括网络源IP地址、目的IP地址、上网地址、上网时间、访问网址、应用类型和上网账号,由于在线网络原始流量非常庞大,应提交网络分流设备的分流规则,以此将筛选后的数据作为后续分析的数据基础,筛选后的数据应具有相关性、连续性和多样性的特点,在选取用户上网样本时应遵循以下原则:
(1)为确保相关性,在数据获取时应收集地域相对集中的内部网关口处的网络上下行数据;
(2)为确保连续性,数据采集时间相对集中,以尽可能获得一个用户上网周期内的访问多个应用的原始数据;
(3)为确保多样性,除常用的QQ通信、Web Mail,提取多样的社交应用中的上网账号,包括购物网站、游戏、论坛、云盘;
2)构建短暂上网事务数据库
将多个上网账号同源性归并转化为数据挖掘中的频繁项集挖掘,在用户上网元数据获取的基础上,将单位时间单个上网地址上出现的网络访问行为对应事务,网络行为中出现的上网账号对应事务中的项,构建事务数据库(如图2所示);
3)频繁共现网络帐号挖掘:
由于用户上网短暂事务数据库中事务数据量大,带来算法在执行过程中的候选项集巨大,传统的穷尽型频繁模式挖掘,Apriori算法将会受到数据处理规模的限制,因此通过对事务数据迭代取交集的方式挖掘最大频繁项集,给定事务库D,最小支持数S,最大频繁项集挖掘的方法如下:
(1)将事务库D中的事务按项的个数从大到小排序,以尽早发现最大频繁项集,为缩减事务库规模,合并事务库中重复的事务,并对事务个数计数;
(2)为减少取交集的次数,对于事务Ti,1≤i≤|D|-S+1,从i=1开始,首先找出包含Ti中任意项的事务集合DTi,Tj/Tj至少包括Ti中的一个项目,j>i,Ti依次与Tj取交集,将两者的交集移入新的事务库D1,同时剔除Tj
(3)对于新事务库D1中的事务T,当T是由不小于S个事务取交集而得,则将T移入最大频繁候选项集集合MFCS中,同时剔除T在D1中的子事务;
(4)当新事务库D1中的剩余事务个数小于最小支持数S,则结束对事务库D1的处理,返回到上层事务库;否则,对D1从第1步开始再进行此过程;
(5)当事务库D中剩余的事务数小于S时,即i>|D|-S+1,结束对当前事务库D的处理;
(6)对MFCS中的项集进行合并同时剔除非最大频繁项集,最后的结果即为所求的最大频繁项集集合MFS;
4)频繁共现网络帐号归并:
由于最小支持数的限制,使得MFS中最大频繁项集规模较小,而且有些项集之间存在重叠项,这些项集代表的账户簇从属于同一个社会实体,为解决这一问题,使用重叠率来量化两个项集之间的相似性,设项集X1,X2∈MFS,将X1和X2的重叠率记为:
上式中,|X1∩X2|表示X1与X2重叠项目的个数,Min(|X1|,|X2|)表示规模较小的项集中项目的个数,项集归并的方法是:
(1)将MFS中的最大频繁项集按项目的个数从大到小排序;
(2)遍历MFS中的每个最大频繁项集,从i=1开始,对(1≤i≤|MFS|),当ORate(Xi,Xj)≥minOR,i<j≤|MFS|,将Xi和Xj的并集添加到新的集合MMFS中,同时剔除Xj
(3)对MMFS中的项集重复执行以上(1)、(2)步骤;
(4)当MMFS中任意两个项集的重叠率小于minOR时,发现在短暂上网事务中频繁共现的多个上网账号,从而实现短暂上网事务中频繁共现账号挖掘。
本发明方法简单,易操作,并经实际试用,表明方法稳定可靠,具有实际的应用价值,有关资料如下:
1)方法测试环境
本发明对校园网内用户上网行为数据进行了实际的测试和验证。迪普用户上网行为审计系统部署在校园网的进出入口处,如图3所示。迪普解析后的上网日志形成结构化的数据,保存在数据库中,所覆盖的上网应用主要包括:
邮件:包括通过Web Mail和SMTP、POP3的邮件通信数据;
社交应用:包括人人、QQ空间、BBS等主流Web社交应用;
FTP:包括基于FTP协议通信的文件上传下载应用。
提取后的结构化数据保存在MySQL数据库中。
2)数据集
以校园网迪普用户上网行为审计系统的日志为样本数据。收集周期为30天的数据,以单位时间1天为单位,从该样本数据中提取并构建短暂上网事务数据库,其中事务条目>100万,平均每条事务的项目个数为65,对应了一天内在相同IP地址上访问互联网应用的上网账号集合。由于校园网采用了动态地址分配策略,相同的IP地址并不一定是同一个用户在持续使用。
为了验证本发明所述方法应用于匿名上网账号的同源性归并效果,借助H3CiNode网络接入用户管理系统所登记的用户上网日志,对本发明所得结果进行验证。在使用H3C iNode的校园网环境下,每一个接入校园网的用户必须使用唯一的用户账号登录并访问网络,尽管该用户在多次接入网络时可能分配的IP地址不同,但该登录账号不变,H3C记录每次账户接入的时间和上网IP地址。基于此,可以通过接入账号来验证本发明所述方法的对上网账号归并结果的正确性。
3)准确率分析
通过实验分析,在最小支持度为30的情况下,得到>1万组具有短期频繁共现行为的账户簇,本小节验证本发明所述短暂上网事务中频繁共现账号的准确率,即账户簇中真实结果所占比例。假设待验证的账户簇为H,通过H3C关联的真实账户簇记为H1,方法的准确率计算公式为:
上式中,|H|表示H中的账户簇总数,|H1|表示H中实际的账户簇数。本实验发现的真是账户簇所占的比例高于90%,表明本方法能从原始流量中,仅基于用户上网行为,不依赖用户接入标识就能够识别出一个社会实体的多个上网账号。由此可见,本发明方法具有很强的实用性,具有实际的应用价值,经济和社会效益巨大。

Claims (2)

1.一种短暂上网事务中频繁共现账号挖掘方法,其特征在于,包括以下步骤:
(1)用户上网数据流获取:基于网络分流技术,在网络关口处镜像网络原始数据,这些数据承载了用户访问各种社交应用的通信数据,包括上网地址、上网账号、时间、应用数据;
(2)用户上网元数据提取:以网络流量分类方法为基础,基于浮动关键字匹配、正则表达式过滤,对网络中不同应用对应的数据流进行识别,提取社交应用的用户上网数据,形成“元数据”,包括:源IP地址、协议、目的IP地址、时间、社交应用类型和网络账号数据;
(3)短暂上网事务数据库构建:对步骤(2)得到的用户上网“元数据”按时间和上网地址进行汇总整理,将单位时间单个上网地址上出现的网络访问行为对应事务,网络行为中出现的上网账号对应事务中的项,构建事务数据库;形成上网短暂事务数据库,其中每个事务数据代表单位时间内单个本地地址向外访问的社交应用账号集;
(4)频繁共现网络账号挖掘:对待分析的用户上网原始流量所对应的事务数据库中的每个事务数据,利用频繁模式挖掘算法找出所有事务数据中包含的频繁项集,得到频繁项集集合;
(5)频繁共现网络账号归并:对每个频繁项集,计算项集间的重叠率,对频繁项集进行合并,将规模较小的项集归并到较大项集中,保证归并后项集中的账户具有关联性,得到归属于同一社会人的多个网络账号,从而实现短暂上网事务中频繁共现账号挖掘。
2.根据权利要求1所述的短暂上网事务中频繁共现账号挖掘方法,其特征在于,包括以下步骤:
1)、获取用户上网元数据:
用户上网元数据获取是后续数据分析的基础,用户上网元数据主要包括网络源IP地址、目的IP地址、上网地址、上网时间、访问网址、应用类型和上网账号,由于在线网络原始流量非常庞大,应提交网络分流设备的分流规则,以此将筛选后的数据作为后续分析的数据基础,筛选后的数据应具有相关性、连续性和多样性的特点,在选取用户上网样本时应遵循以下原则:
(1)为确保相关性,在数据获取时应收集地域相对集中的内部网关口处的网络上下行数据;
(2)为确保连续性,数据采集时间相对集中,以尽可能获得一个用户上网周期内的访问多个应用的原始数据;
(3)为确保多样性,除常用的QQ通信、Web Mail,提取多样的社交应用中的上网账号,包括购物网站、游戏、论坛、云盘;
2)构建短暂上网事务数据库
将多个上网账号同源性归并转化为数据挖掘中的频繁项集挖掘,在用户上网元数据获取的基础上,将单位时间单个上网地址上出现的网络访问行为对应事务,网络行为中出现的上网账号对应事务中的项,构建事务数据库;
3)频繁共现网络账号挖掘:
由于用户上网短暂事务数据库中事务数据量大,带来算法在执行过程中的候选项集巨大,传统的穷尽型频繁模式挖掘,Apriori算法将会受到数据处理规模的限制,因此通过对事务数据迭代取交集的方式挖掘最大频繁项集,给定事务库D,最小支持数S,最大频繁项集挖掘的方法如下:
(1)将事务库D中的事务按项的个数从大到小排序,以尽早发现最大频繁项集,为缩减事务库规模,合并事务库中重复的事务,并对事务个数计数;
(2)为减少取交集的次数,对于事务Ti,1≤i≤|D|-S+1,从i=1开始,首先找出包含Ti中任意项的事务集合DTi,Tj/Tj至少包括Ti中的一个项目,j>i,Ti依次与Tj取交集,将两者的交集移入新的事务库D1,同时剔除Tj
(3)对于新事务库D1中的事务T,当T是由不小于S个事务取交集而得,则将T移入最大频繁候选项集集合MFCS中,同时剔除T在D1中的子事务;
(4)当新事务库D1中的剩余事务个数小于最小支持数S,则结束对事务库D1的处理,返回到上层事务库;否则,对D1从第(1)步开始再进行此过程;
(5)当事务库D中剩余的事务数小于S时,即i>|D|-S+1,结束对当前事务库D的处理;
(6)对MFCS中的项集进行合并同时剔除非最大频繁项集,最后的结果即为所求的最大频繁项集集合MFS;
4)频繁共现网络账号归并:
由于最小支持数的限制,使得MFS中最大频繁项集规模较小,而且有些项集之间存在重叠项,这些项集代表的账户簇从属于同一个社会实体,为解决这一问题,使用重叠率来量化两个项集之间的相似性,设项集X1,X2∈MFS,将X1和X2的重叠率记为:
上式中,|X1∩X2|表示X1与X2重叠项目的个数,Min(|X1|,|X2|)表示规模较小的项集中项目的个数,项集归并的方法是:
(1)将MFS中的最大频繁项集按项目的个数从大到小排序;
(2)遍历MFS中的每个最大频繁项集,从i=1开始,对当ORate(Xi,Xj)≥minOR,i<j≤|MFS|,将Xi和Xj的并集添加到新的集合MMFS中,同时剔除Xj
(3)对MMFS中的项集重复执行以上(1)、(2)步骤;
(4)当MMFS中任意两个项集的重叠率小于minOR时,发现在短暂上网事务中频繁共现的多个上网账号,从而实现短暂上网事务中频繁共现账号挖掘。
CN201510526575.1A 2015-08-25 2015-08-25 一种短暂上网事务中频繁共现账号挖掘方法 Active CN105224593B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510526575.1A CN105224593B (zh) 2015-08-25 2015-08-25 一种短暂上网事务中频繁共现账号挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510526575.1A CN105224593B (zh) 2015-08-25 2015-08-25 一种短暂上网事务中频繁共现账号挖掘方法

Publications (2)

Publication Number Publication Date
CN105224593A CN105224593A (zh) 2016-01-06
CN105224593B true CN105224593B (zh) 2019-08-16

Family

ID=54993561

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510526575.1A Active CN105224593B (zh) 2015-08-25 2015-08-25 一种短暂上网事务中频繁共现账号挖掘方法

Country Status (1)

Country Link
CN (1) CN105224593B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106998262A (zh) * 2016-10-10 2017-08-01 深圳汇网天下科技有限公司 一种识别上网用户的系统与方法
CN107682344A (zh) * 2017-10-18 2018-02-09 南京邮数通信息科技有限公司 一种基于dpi数据互联网身份识别的id图谱建立方法
CN108009291A (zh) * 2017-12-25 2018-05-08 杭州闪捷信息科技有限公司 网络封包与数据库封包关联方法、装置和实现装置
CN110245816B (zh) * 2019-01-07 2024-04-30 西南科技大学 基于浏览器历史记录的用户工作效率可视评估方法
CN110035087B (zh) * 2019-04-24 2021-03-26 全知科技(杭州)有限责任公司 一种从流量还原账号信息的方法、装置、设备及存储介质
CN111783318B (zh) * 2019-10-15 2023-03-24 上海大学 一种基于三维模型的装配质量数据分析和可视化方法
CN112231598B (zh) * 2020-08-31 2024-06-04 咪咕文化科技有限公司 网页路径导航方法、装置、电子设备及存储介质
CN112150030A (zh) * 2020-10-10 2020-12-29 厦门悦讯信息科技股份有限公司 基于多单位多身份的账号管理方法、终端设备及存储介质
CN115277106B (zh) * 2022-06-30 2024-03-19 北京安博通科技股份有限公司 一种网络设备的用户识别方法及系统
CN117221183A (zh) * 2023-09-25 2023-12-12 湖北省楚天云有限公司 一种基于流量识别技术的宽带私接检测方法及检测设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102387135A (zh) * 2011-09-29 2012-03-21 北京邮电大学 一种基于用户身份过滤的方法以及防火墙
CN103051637A (zh) * 2012-12-31 2013-04-17 北京亿赞普网络技术有限公司 用户识别方法与装置
CN103731284A (zh) * 2012-10-11 2014-04-16 腾讯科技(深圳)有限公司 关联多个网络帐号的方法和系统
CN103905379A (zh) * 2012-12-25 2014-07-02 腾讯科技(深圳)有限公司 一种标识互联网用户的方法,及装置
CN103927398A (zh) * 2014-05-07 2014-07-16 中国人民解放军信息工程大学 基于最大频繁项集挖掘的微博炒作群体发现方法
EP2866421A1 (en) * 2013-10-25 2015-04-29 Huawei Technologies Co., Ltd. Method and apparatus for identifying a same user in multiple social networks

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102387135A (zh) * 2011-09-29 2012-03-21 北京邮电大学 一种基于用户身份过滤的方法以及防火墙
CN103731284A (zh) * 2012-10-11 2014-04-16 腾讯科技(深圳)有限公司 关联多个网络帐号的方法和系统
CN103905379A (zh) * 2012-12-25 2014-07-02 腾讯科技(深圳)有限公司 一种标识互联网用户的方法,及装置
CN103051637A (zh) * 2012-12-31 2013-04-17 北京亿赞普网络技术有限公司 用户识别方法与装置
EP2866421A1 (en) * 2013-10-25 2015-04-29 Huawei Technologies Co., Ltd. Method and apparatus for identifying a same user in multiple social networks
CN103927398A (zh) * 2014-05-07 2014-07-16 中国人民解放军信息工程大学 基于最大频繁项集挖掘的微博炒作群体发现方法

Also Published As

Publication number Publication date
CN105224593A (zh) 2016-01-06

Similar Documents

Publication Publication Date Title
CN105224593B (zh) 一种短暂上网事务中频繁共现账号挖掘方法
Zannettou et al. On the origins of memes by means of fringe web communities
JP2022519208A (ja) ソーシャル・データ・ストリーム上におけるリアルタイム・イベント検出
Scellato et al. Socio-spatial properties of online location-based social networks
Croitoru et al. Linking cyber and physical spaces through community detection and clustering in social media feeds
CN104050196B (zh) 一种兴趣点数据冗余检测方法及装置
CN104182517B (zh) 数据处理的方法及装置
Zhang et al. 5Ws model for big data analysis and visualization
Vosecky et al. Dynamic multi-faceted topic discovery in twitter
CN106383887A (zh) 一种环保新闻数据采集和推荐展示的方法及系统
Xu et al. Random partial paired comparison for subjective video quality assessment via HodgeRank
CN109190588A (zh) 一种人口分类的方法及装置
CN105488211A (zh) 基于特征分析的用户群确定方法
CN107273496A (zh) 一种微博网络地域突发事件的检测方法
Jin et al. Modeling mass protest adoption in social network communities using geometric brownian motion
Zheng et al. Learning‐based topic detection using multiple features
Roedler et al. Profile matching across online social networks based on geo-tags
Zheng et al. Analysis of criminal social networks with typed and directed edges
López-Ramírez et al. Geographical aggregation of microblog posts for LDA topic modeling
Lee et al. Event-based trend factor analysis based on hashtag correlation and temporal information mining
Groshek et al. Anti-Austerity in the Euro Crisis: Modeling Protest With Online-Mobile-Social Media Usage, Users, and Content.
CN107480222B (zh) 基于微博数据的城市群空间联系强度测度系统
Capdevila et al. Recognizing warblers: a probabilistic model for event detection in Twitter
CN104199828B (zh) 一种基于事务日志数据的社会网络构建方法
CN108133018A (zh) 一种基于关联聚合的数据取证推荐方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant