CN103793460A - 社会网络在线特定团体感知方法及系统 - Google Patents

社会网络在线特定团体感知方法及系统 Download PDF

Info

Publication number
CN103793460A
CN103793460A CN201310597021.1A CN201310597021A CN103793460A CN 103793460 A CN103793460 A CN 103793460A CN 201310597021 A CN201310597021 A CN 201310597021A CN 103793460 A CN103793460 A CN 103793460A
Authority
CN
China
Prior art keywords
group
user
list
community
good friend
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310597021.1A
Other languages
English (en)
Inventor
薛一波
姜京池
易成岐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201310597021.1A priority Critical patent/CN103793460A/zh
Publication of CN103793460A publication Critical patent/CN103793460A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种社会网络在线特定团体感知方法及系统,该方法包括步骤:S1.根据待感知团体的特征,得到描述该团体的关键词列表;S2.选取若干已知待探测团体的用户节点,并将其加入团体;S3.依次取出已确定为团体内部的用户节点;S4.遍历团体内部的用户节点,若遍历完成进入S5,否则进入S6;S5.系统运行结束;S6.通过从团体中提取用户节点ID获取其好友ID列表;S7.遍历好友ID列表,若遍历完成则返回S3,否则进入S8;S8.从好友列表中顺序取出好友ID;S9.通过好友ID获取用户个人属性信息。本发明采用有效且高效的框架感知特定团体,通过三层过滤机制对未知用户进行探测,识别其是否归属于特定团体,可对待探测用户列表的重复项进行去重操作,减少信息的冗余程度。

Description

社会网络在线特定团体感知方法及系统
技术领域
本发明涉及网络与信息安全技术领域,尤其涉及一种社会网络在线特定团体感知方法及系统。
背景技术
社会网络分析技术是信息安全和社会网络领域中的核心技术。其主要任务是以社会网络中的个人、群体、事件等不同维度进行多角度分析。
社会媒体的内部结构称为社会网络。社会网络最初起源于1934年美国社会心理学家Moreno对小群体使用计量学的方法进行的实验研究。哈佛大学的心理学教授Stanley Milgram在1967年创立了六度分割理论,其主要思想是在网络上随机抽取的两个人之间所间隔的人不会超过六个,通过这个理论每一个人物的社交范围都会不断地被放大并形成大型的网络。70年代,社会网络研究逐渐成为一个新兴的社会学专业,近年来社交网络的相关研究也成为计算机科学领域的一个研究热点。
2011年2月,著名的IT风险投资人约翰·杜尔提出一个新兴概念:“SoLoMo”。So(Social,社交);Lo(Local,本地位置);Mo(Mobile,移动)。在此之后,SoLoMo被一致认为是互联网未来发展趋势,SoLoMo的概念风靡全世界。
随着社会网络的发展,截止到2013年1月,Facebook、Twitter、新浪微博和腾讯微博的用户数分别突破了12亿、5亿、5亿和6亿。与此同时,社会网络也产生了大量的用户生成内容(User GeneratedContent,UGC)信息,这些UGC信息在社会网络上呈病毒式信息扩散,而且传播速度呈指数性增长。
网络团体结构是现实世界中复杂网络最普遍和最重要的拓扑属性之一。具有团体内节点相互连接紧密,而团体间相互连接稀疏的特点。揭示复杂网络的团体结构对分析网络拓扑结构、理解其功能、发现其隐含模式、预测其行为都具有十分重要的理论意义和应用价值,在科学研究、计算机科学、社会、生物和互联网等领域中具有广泛应用。
然而,在团体发现研究领域中,往往分析人员很难在线获取到特定团体的所属成员,现在还没有一种非常有效的社会网络的在线团体感知方法。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何提供一种社会网络在线特定团体感知方法及系统,以快速、有效地对真实社会媒体上的真实用户信息进行获取,同时依据三层过滤机制在线的将属于特定团体的用户节点识别检测出来。
(二)技术方案
为解决上述问题,本发明一方面提供一种社会网络在线特定团体感知方法,包括步骤:
S1.根据待感知团体的特征,得到描述该团体的关键词列表;
S2.选取若干符合团体特征的用户节点,并将其加入团体;
S3.依次取出已确定为团体内部的用户节点;
S4.遍历团体内部的用户节点,若遍历完成则进入S5,否则进入S6;
S5.系统运行结束;
S6.通过从团体中提取的用户节点ID获取其好友ID列表;
S7.遍历好友ID列表,若遍历完成则返回S3,否则进入步骤S8;
S8.从好友列表中顺序取出好友ID;
S9.通过好友ID获取用户个人属性信息;
S10.判断所述好友个人属性信息中是否包含描述团体的关键词,若个人属性中包含团体关键词则更新团体关键词列表并进入步骤S11,否则进入步骤S12;
S11.将已确定为属于待探测团体的用户节点加入团体集合,并进入步骤S5;
S12.通过所述好友ID获取用户行为属性信息;
S13.将所述好友发布的文本信息与团体内部全部节点的文本集合做相似度对比,若相似度大于预设的阈值则进入步骤S11,否则进入步骤S14;
S14.通过所述好友ID获取用户关系属性信息;
S15.计算所述好友的个人聚集系数与团体的聚集系数,若个人聚集系数大于团体聚集系数,则进入步骤S11,否则进入步骤S7。
优选地,步骤S1中,所述团体的关键词列表是指描述待感知团体特征的词语列表。
优选地,所述若干符合团体特征的用户节点是指待探测用户与团体内的用户集合具有相似的特征,与团体具有相关联性。
优选地,步骤S6中,所述好友ID列表通过开放接口或者通过解析网络的基本信息页面结构获取。
优选地,步骤S9中,所述用户个人属性信息包括用户名、用户描述、e-mail。
优选地,步骤S10中,所述个人属性信息中是否包含团体关键词是指将用户基本信息通过KMP快速字符串匹配与团体关键词进行对比,挖掘用户与团体相关性的强特征。
优选地,文本相似度对比是指将用户历史文本信息分词,获得一个基于词的用户向量,并与团体中用户集合的向量进行余弦计算。
优选地,所述个人聚集系数是指用户与团体内部节点实际产生连接数与理论相互连接数的比值。所述团体聚集系数是指包含在团体内部的全部用户聚集系数的平均值。
另一方面,本发明还提供一种社会网络在线特定团体感知系统,包括:
用户信息获取模块,用于获取检测用户的基本属性;
属性特征过滤模块,用于判断用户是否包含团体关键词,将符合这一强特征的用户从背景数据中提取出来,并加入待探测团体;
行为特征过滤模块,用于判断用户的历史性行为是否符合团体内用户节点的普遍行为特征;
关系特征过滤模块,用于判断用户与团体的关联性是否达到团体内用户之间的平均连通性;
重复项识别模块,用于将好友列表与所述团体内用户列表进行对比,判断两个列表中是否含有重复项,若不含有,则从好友列表顺序取出节点,若含有,则将好友列表去除重复项后再执行遍历操作。
优选地,所述用户的基本属性息包括:用户ID、用户昵称、用户描述、发布文本ID、发布文本内容、用户关系。
(三)有益效果
本发明的方法采用了一个有效且高效的框架感知特定团体,设计了一种三层过滤机制对未知用户进行探测,识别其是否归属于特定团体,同时可以对待探测用户列表的重复项进行去重操作,减少信息的冗余程度,该方法及系统有效、快速、并具有较好的可扩展性。
附图说明
图1为依照本发明实施例的社会网络在线感知特定团体方法流程示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本发明在社会网络的大量用户信息观察和分析基础之上,总结出社会网络的特定团体在线感知方法,并创新性的采用了基于用户个人信息、用户发布信息、用户关系信息的三层过滤机制对用户进行检测,确保了划分团体的准确性。
如图1所示,依照本发明一种实施方式的社会网络的特定团体感知方法包括:
S1.根据待感知团体的特征,获取一个可以描述该团体的关键词列表;
S2.选取若干已知属于待探测团体的用户节点,并将其加入团体,所述团体以List<用户ID>形式存在;
S3.遍历List中的用户,顺序取出节点ID;
S4.若遍历完成则进入步骤S5,否则进入步骤S6;
S5.系统运行结束;
S6.通过提取的单个用户节点ID获取其好友ID列表,存在形式为List_friend<好友ID>,此外将List_friend<好友ID>与已探测列表进行比较,将重复项从List_friend<好友ID>中移除;
S7.遍历好友ID列表,若遍历完成则返回步骤S3,否则进入步骤S8;
S8.从好友列表中顺序取出单条好友ID;
S9.通过好友ID获取用户个人属性信息,同时采用User对象描述某个用户,其中包含项为UserName、Description、Email、Location等;
S10.判断所述好友个人属性信息中是否包含描述团体的关键词,若个人属性中包含团体关键词则进入步骤S11,同时将用户ID加入已探测列表,否则进入步骤S12;
S11.将已确定为属于待探测团体的用户节点加入团体集合List<用户ID>,并进入步骤S7;
S12.通过所述好友ID获取用户行为属性信息,例如用户的历史发布信息List<Tweet>,其中Tweet包括文本内容、文本ID、创建时间、创建用户ID等;
S13.将所述好友历史发布的全部文本信息进行分词,并将分词后的结果以向量形式表示,最终用<Word1、Word2、Word3、…、Wordn>向量与团体内部全部节点的文本集合向量<Cword1、Cword2、Cword3、…、Cwordn>做余弦相似度对比,若相似度大于选择的适当阈值则将所述好友加入待探测团体,并根据新加入用户的历史文本更新团体描述关键词列表以及所述文本集合向量,同时进入步骤S11,否则进入步骤S14;
S14.通过所述好友ID获取用户关系属性信息,例如好友的粉丝列表、关注列表等;
S15.计算所述好友的个人聚集系数与团体的聚集系数,若个人聚集系数大于团体聚集系数,则进入S11,同时将用户ID加入已探测列表,否则进入步骤S7。
其中,所述团体关键词列表是指一个可以的全面、准确的描述待感知团体特征的词语列表。
其中,所述若干用户符合团体特征,是指待探测用户与团体内的用户集合具有相似的特征,与团体具有相关联性。
其中,所述好友ID列表通过开放接口亦或通过解析网络的基本信息页面结构获取,通常包含双向关系结构。
其中,所述个人属性信息中是否包含团体关键词是指将用户基本信息通过KMP快速字符串匹配与团体关键词进行对比,挖掘用户与团体相关性的强特征。
其中,所述用户与团体行为相似度是指将用户历史文本信息分词,获得一个基于词的用户向量,并与团体中用户集合的向量进行余弦计算。
其中,所述用户聚集系数是指用户与团体内部节点实际产生连接数与理论相互连接数的比值。所述团体聚集系数是指包含在团体内部的全部用户聚集系数的平均值。
本发明还提供了一种在线特定团体感知系统,该系统包括:用户信息获取模块,用于获取所述检测用户的基本属性,包括:用户个人信息、用户文本信息、用户关系信息;个人属性过滤模块,用于判断用户是否包含明显的团体关键词,将符合这一强特征的用户从背景数据中提取出来,并加入待探测团体;行为特征过滤模块,用于判断用户的历史性行为是否符合团体内用户节点的普遍行为特征;关系特征过滤模块,用于判断用户与团体的关联性是否达到团体内用户之间的平均连通性;重复项识别模块,用于将所述好友列表与所述团体内用户列表进行对比,判断两个列表中是否含有重复项,若不含有,则从好友列表顺序取出节点,若含有,则将好友列表去除重复项后再执行遍历操作。
其中,所述用户信息包括:发表信息的用户ID、用户昵称、用户描述、发布文本ID、发布文本内容、用户关系。
实施例1
本实施例以Twitter为例,说明本发明的技术方案。本实施例的在线特定团体感知方法包括的步骤与上述具体实施方式相同,由于Twitter对外提供的API接口具有限制性,到达一定调用次数将返回NULL,因此需要一段时间后更换新的Token验证信息。
在获取好友列表过程中,会遇到翻页问题。当某个用户的好友数量较多时,无法一次性返回好友列表,而是采用翻页形式,每次翻页会得到最多200条好友信息,最终将全部获取的信息融合到一起,因此需要对此类好友数量较多的现象进行判断。
通过API与网页解析相结合的方式,以“石扉客”、“伊能静”等用户为种子节点,经过所述系统的感知方法,最终过滤出Twitter上的中国人群体,其中群体用户节点数量为63万,过滤准确率可达90%。
通过结合附图对本发明具体实施例的描述,本发明的其它方面及特征对本领域的技术人员而言是显而易见的。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本发明的保护范围。

Claims (10)

1.一种社会网络在线特定团体感知方法,其特征在于,包括步骤:
S1.根据待感知团体的特征,得到描述该团体的关键词列表;
S2.选取若干符合团体特征的用户节点,并将其加入团体;
S3.依次取出已确定为团体内部的用户节点;
S4.遍历团体内部的用户节点,若遍历完成则进入S5,否则进入步骤S6;
S5.系统运行结束;
S6.通过从团体中提取的用户节点ID获取其好友ID列表;
S7.遍历好友ID列表,若遍历完成则返回S3,否则进入S8;
S8.从好友列表中顺序取出好友ID;
S9.通过好友ID获取其用户个人属性信息;
S10.判断所述用户个人属性信息中是否包含描述团体的关键词,若用户个人属性信息中包含团体关键词则更新团体关键词列表并进入S11,否则进入S12;
S11.将已确定为属于待探测团体的用户节点加入团体集合,并进入S5;
S12.通过所述好友ID获取其用户行为属性信息;
S13.将好友发布的文本信息与团体内部全部节点的文本集合做相似度对比,若相似度大于预设的阈值则进入步骤S11,否则进入S14;
S14.通过所述好友ID获取其用户关系属性信息;
S15.计算好友的个人聚集系数与团体的聚集系数,若个人聚集系数大于团体聚集系数,则进入步骤S11,否则进入S7。
2.如权利要求1所述的方法,其特征在于,步骤S1中,所述团体的关键词列表是指描述待感知团体特征的词语列表。
3.如权利要求1所述的方法,其特征在于,所述若干符合团体特征的用户节点是指待探测用户与团体内的用户集合具有相似的特征,与团体具有相关联性。
4.如权利要求1所述的方法,其特征在于,步骤S6中,所述好友ID列表通过开放接口或者通过解析网络的基本信息页面结构获取。
5.如权利要求1所述的方法,其特征在于,步骤S9中,所述用户个人属性信息包括用户名、用户描述、e-mail。
6.如权利要求1所述的方法,其特征在于,步骤S10中,所述个人属性信息中是否包含团体关键词是指将用户基本信息通过KMP快速字符串匹配与团体关键词进行对比,挖掘用户与团体相关性的强特征。
7.如权利要求1所述的方法,其特征在于,文本相似度对比是指将用户历史文本信息分词,获得一个基于词的用户向量,并与团体中用户集合的向量进行余弦计算。
8.如权利要求1所述的方法,其特征在于,所述个人聚集系数是指用户与团体内部节点实际产生连接数与理论相互连接数的比值。所述团体聚集系数是指包含在团体内部的全部用户聚集系数的平均值。
9.一种社会网络在线特定团体感知系统,其特征在于,包括:
用户信息获取模块,用于获取检测用户的基本属性;
属性特征过滤模块,用于判断用户是否包含团体关键词,将符合该强特征的用户从背景数据中提取出来,并加入待探测团体;
行为特征过滤模块,用于判断用户的历史性行为是否符合团体内用户节点的普遍行为特征;
关系特征过滤模块,用于判断用户与团体的关联性是否达到团体内用户之间的平均连通性;
重复项识别模块,用于将好友列表与所述团体内用户列表进行对比,判断两个列表中是否含有重复项,若不含有,则从好友列表顺序取出节点,若含有,则将好友列表去除重复项后再执行遍历操作。
10.如权利要求9所述的系统,其特征在于,所述用户的基本属性息包括:用户ID、用户昵称、用户描述、发布文本ID、发布文本内容、用户关系。
CN201310597021.1A 2013-11-22 2013-11-22 社会网络在线特定团体感知方法及系统 Pending CN103793460A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310597021.1A CN103793460A (zh) 2013-11-22 2013-11-22 社会网络在线特定团体感知方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310597021.1A CN103793460A (zh) 2013-11-22 2013-11-22 社会网络在线特定团体感知方法及系统

Publications (1)

Publication Number Publication Date
CN103793460A true CN103793460A (zh) 2014-05-14

Family

ID=50669126

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310597021.1A Pending CN103793460A (zh) 2013-11-22 2013-11-22 社会网络在线特定团体感知方法及系统

Country Status (1)

Country Link
CN (1) CN103793460A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105488211A (zh) * 2015-12-11 2016-04-13 成都陌云科技有限公司 基于特征分析的用户群确定方法
CN105512301A (zh) * 2015-12-11 2016-04-20 成都陌云科技有限公司 基于社交内容的用户分组方法
CN105589935A (zh) * 2015-12-11 2016-05-18 成都陌云科技有限公司 社交群组识别方法
WO2019019385A1 (zh) * 2017-07-26 2019-01-31 平安科技(深圳)有限公司 跨平台数据匹配方法、装置、计算机设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090171691A1 (en) * 2007-12-28 2009-07-02 Humanbook, Inc. System and method for a web-based social networking database
CN103327075A (zh) * 2013-05-27 2013-09-25 电子科技大学 基于标签交互的分布式社团发现方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090171691A1 (en) * 2007-12-28 2009-07-02 Humanbook, Inc. System and method for a web-based social networking database
CN103327075A (zh) * 2013-05-27 2013-09-25 电子科技大学 基于标签交互的分布式社团发现方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JINGCHI JIANG 等: "online community perceiving method on social network", 《INTERNATIONAL WORKSHOP ON CLOUD COMPUTING AND INFORMATION SECURITY (CCIS 2013)》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105488211A (zh) * 2015-12-11 2016-04-13 成都陌云科技有限公司 基于特征分析的用户群确定方法
CN105512301A (zh) * 2015-12-11 2016-04-20 成都陌云科技有限公司 基于社交内容的用户分组方法
CN105589935A (zh) * 2015-12-11 2016-05-18 成都陌云科技有限公司 社交群组识别方法
WO2019019385A1 (zh) * 2017-07-26 2019-01-31 平安科技(深圳)有限公司 跨平台数据匹配方法、装置、计算机设备和存储介质
US11030265B2 (en) 2017-07-26 2021-06-08 Ping An Technology (Shenzhen) Co., Ltd. Cross-platform data matching method and apparatus, computer device and storage medium

Similar Documents

Publication Publication Date Title
Lee et al. Measurements, analyses, and insights on the entire ethereum blockchain network
Li et al. Fine-grained location extraction from tweets with temporal awareness
CN103617169B (zh) 一种基于Hadoop的微博热点话题提取方法
Sun et al. Identifying influential users by their postings in social networks
Zhaoyun et al. Mining topical influencers based on the multi-relational network in micro-blogging sites
Alsaedi et al. Arabic event detection in social media
Lim et al. Finding twitter communities with common interests using following links of celebrities
Dayani et al. Rumor detection in twitter: An analysis in retrospect
Del Vicario et al. News consumption during the Italian referendum: A cross-platform analysis on facebook and twitter
CN105630884B (zh) 一种微博热点事件的地理位置发现方法
CN104424231B (zh) 多维数据的处理方法及装置
CN103745000A (zh) 一种中文微博客的热点话题检测方法
Anwar et al. A social graph based text mining framework for chat log investigation
CN103793460A (zh) 社会网络在线特定团体感知方法及系统
CN104268230A (zh) 一种基于异质图随机游走的中文微博客观点探测方法
Ma et al. Tag-latent dirichlet allocation: Understanding hashtags and their relationships
Agarwal et al. A social identity approach to identify familiar strangers in a social network
CN103810248A (zh) 基于照片查找人际关系的方法和装置
Wang et al. An online sockpuppet detection method based on subgraph similarity matching
Müngen et al. Mining quad closure patterns in Instagram
Tijare et al. Correlation between k-means clustering and topic modeling methods on twitter datasets
Sun et al. EduVis: Visualization for education knowledge graph based on web data
Wu et al. EPAB: Early pattern aware Bayesian model for social content popularity prediction
Sofean et al. A real-time disease surveillance architecture using social networks
Liu et al. ICE: Information credibility evaluation on social media via representation learning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140514

RJ01 Rejection of invention patent application after publication