CN102929919A - 社交网络弱连接检测方法 - Google Patents

社交网络弱连接检测方法 Download PDF

Info

Publication number
CN102929919A
CN102929919A CN2012103501173A CN201210350117A CN102929919A CN 102929919 A CN102929919 A CN 102929919A CN 2012103501173 A CN2012103501173 A CN 2012103501173A CN 201210350117 A CN201210350117 A CN 201210350117A CN 102929919 A CN102929919 A CN 102929919A
Authority
CN
China
Prior art keywords
node
strength
joint
weak
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012103501173A
Other languages
English (en)
Other versions
CN102929919B (zh
Inventor
蔡皖东
蔡霖
吴博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN201210350117.3A priority Critical patent/CN102929919B/zh
Publication of CN102929919A publication Critical patent/CN102929919A/zh
Application granted granted Critical
Publication of CN102929919B publication Critical patent/CN102929919B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种社交网络弱连接检测方法,用于解决现有的网络弱连接检测方法准确度低的技术问题。技术方案是利用网络爬虫工具,采集实际的社交网络数据,提取其中的节点、连接等网络拓扑信息存入数据库待处理;使用两个节点之间的边权值来表示它们之间的连接强度;按由小到大的顺序排序,选取n个连接强度最小的连接作为弱连接。由于在连接强度计算时考虑了朋友重叠率和朋友集合间相似度两方面因素,故提高了网络弱连接的准确度。

Description

社交网络弱连接检测方法
技术领域
本发明涉及一种网络弱连接检测方法,具体涉及一种社交网络弱连接检测方法。
背景技术
随着Web2.0技术的发展,社交网络(SNS)已成为互联网中非常流行的网络应用。目前,一些大规模在线社交网站,如Facebook的访问量已经超过谷歌,成为美国第一大网站,而国内深受大学生欢迎的人人网,目前注册用户已达1亿,日登陆2200万人次(2009年10月27日人人网公布的数据),2009年12月alexa网站的数据显示国内外网站访问量前15名中社交网站已分别占到4个和6个。互联网中的在线社交网络作为现实社交网络在互联网上的扩展,旨在帮助人们更加有效地建立社会关系网络。与以前的以聚合信息为特点的网站不同,社交网络以聚合人群为特点,人们通过社交网络可以建立自己的朋友圈子,这些社交网络聚集了大量的网民,已成为一种新型的个人社交方式和信息交流平台,借助朋友之间的口碑相传的信息传播模式,加速了信息的传播。另一方面,社交网络也是一把双刃剑,在方便人们的社会交往和信息交流的同时,也会被一些组织或个人所利用,作为开展网络宣传战、传播谣言信息、从事非法联络的工具。因此,通过适当的方法对社交网络信息传播过程进行监控是非常必要和重要的。
美国社会学家马克·格拉诺维特(Mark Granovetter)于1974年提出了弱连接理论,他指出:在现实社会中,每个人接触最频繁的人是自己的亲人、同学、朋友、同事等,这是一种十分稳定的然而传播范围有限的社会认知,被称为“强连接(Strong Ties)”现象;同时,还存在另一种更为广泛的然而却是肤浅的社会认知,例如一个人被人无意间提到或者从媒体中偶然听到等等,这种现象被称为“弱连接(Weak Ties)”。研究发现:与一个人的工作和事业关系最密切的社会关系并不是“强连接”,而常常是“弱连接”。“弱连接”虽然不如“强连接”那样稳固,却具有极快、低成本和高效的传播效率。
在信息传播网络中,同样存在着强连接和弱连接现象。在文献“Structure and tiestrengths in mobile communication networks(PNAS 104,7332,2007).”中,作者研究了无线移动网络中的弱连接对网络结构和信息传播影响,该文以一个国家过去18个周所有的电话通话记录数据为实验基础,研究了连接强度对无线移动网络结构和信息传播的影响。研究结果表明,在对网络结构影响方面,当从网络中去除强连接时,网络是健壮的;当从网络中去除弱连接时,网络则陷入崩塌。对信息传播影响方面,去除弱连接可以明显减慢信息传播速度。作者还提出了一种基于朋友重叠率的连接强度计算方法,用于从社交网络诸多连接中检测出弱连接,由于这种计算方法只考虑了朋友重叠率,而忽略了两个朋友圈间的关系,当节点本身朋友数量相差悬殊时会产生一定的计算误差。
在文献“Weak Ties:Subtle Role in the Information Diffusion in Online SocialNetworks(Arvix,2010)”中,作者认为弱连接对于最终信息传播范围有很大影响,但所起作用的大小和不同的社交网络类型有关。
综上所述,弱连接对于包括社交网络在内的信息网络结构和信息传播都有很大的影响,去除弱连接后可以破坏网络结构,减慢信息传播速度,缩小信息传播范围。问题的关键在于如何从社交网络的诸多连接中检测出弱连接,通过去除弱连接,达到对信息传播控制的目的。
发明内容
为了克服现有的网络弱连接检测方法准确度低的不足,本发明提供一种社交网络弱连接检测方法。该方法利用网络爬虫工具,采集实际的社交网络数据,提取其中的节点、连接等网络拓扑信息存入数据库待处理;使用两个节点之间的边权值来表示它们之间的连接强度;按由小到大的顺序排序,选取n个连接强度最小的连接作为弱连接。由于在连接强度计算时考虑了朋友重叠率和朋友集合间相似度两方面因素,故可以提高网络弱连接的准确度。
本发明解决其技术问题所采用的技术方案是:一种社交网络弱连接检测方法,其特点是包括以下步骤:
步骤一、利用网络爬虫工具,采集实际的社交网络数据,提取网络拓扑信息存入数据库待处理。
步骤二、使用两个节点之间的边权值来表示它们之间的连接强度。在计算边权值时,考虑到社交网络的朋友聚类特性,具体计算公式如下:
w ij = E ij k i × k j - - - ( 1 )
式中,Eij是Ui和Uj之间边的加权和,Ui为节点i的邻居集合,Uj为节点j的邻居集合;ki和kj分别是节点i和节点j的邻居数或度数,Wij是节点i和节点j之间的边权值,反映了节点i和节点j之间的聚类特性,通过这种聚类特性,可以获得两个节点朋友圈之间的相似性。依据公式(1)计算出的边权值越低,其连接强度也越低。
步骤三、使用迭代算法并按公式(1)计算网络中所有边的连接强度后,按由小到大的顺序排序,选取n个连接强度最小的连接作为弱连接,n为弱连接占总边数的百分比。
本发明的有益效果是:由于利用网络爬虫工具,采集实际的社交网络数据,提取其中的节点、连接等网络拓扑信息存入数据库待处理;使用两个节点之间的边权值来表示它们之间的连接强度;按由小到大的顺序排序,选取n个连接强度最小的连接作为弱连接。由于在连接强度计算时考虑了朋友重叠率和朋友集合间相似度两方面因素,故提高了网络弱连接的准确度。
以下通过与背景技术的对比实验来说明本发明的有益效果:
(1)以CDBLP、Arvix等社交网络为实验对象,利用网络爬虫工具,采集这些社交网络数据,提取其中的节点、连接等网络拓扑信息存入数据库待处理。
(2)使用基于朋友覆盖率的连接强度计算方法分别计算CDBLP、Arvix等社交网络的连接强度,检测出弱连接,分别选择n个弱连接,n分别为弱连接占总边数的10%、20%、30%、40%、50%、60%、70%、80%,将这些弱连接依次从网络中去除,形成相应的信息阻断网络。
(3)使用公式(1)分别计算CDBLP、Arvix等社交网络的连接强度,检测出弱连接,分别选择n个弱连接,n分别为弱连接占总边数的10%、20%、30%、40%、50%、60%、70%、80%,将这些弱连接依次从网络中去除,形成相应的信息阻断网络。
(4)使用独立级联模型来模拟上述信息阻断网络的信息传播过程,直到收敛结束。
(5)计算收敛后网络中被感染节点的个数。
(6)在相同百分比的信息阻断网络下,比较两种连接强度计算方法对信息的抑制效果。
对比实验结果表明,与背景技术方法相比,本发明在不同信息阻断网络下检测出的弱连接更加准确,对信息抑制效果更好。
下面结合附图和实施例对本发明作详细说明。
附图说明
图1是本发明社交网络弱连接检测方法的流程图。
具体实施方式
参照图1。本发明方法具体步骤如下:
1.社交网络数据获取。
利用网络爬虫工具,采集实际的社交网络数据,提取其中的节点、连接等网络拓扑信息存入数据库待处理。
2.连接强度计算。
使用两个节点之间的边权值来表示它们之间的连接强度。在计算边权值时,考虑到社交网络的朋友聚类特性,具体计算公式如下:
w ij = E ij k i × k j - - - ( 1 )
设Ui为节点i的邻居集合,Uj为节点j的邻居集合,其中Eij是Ui和Uj之间边的加权和,ki和kj分别是节点i和节点j的邻居数或度数,Wij是节点i和节点j之间的边权值,反映了节点i和节点j之间的聚类特性,通过这种聚类特性,可以获得两个节点朋友圈之间的相似性。依据公式(1)计算出的边权值越低,其连接强度也越低。
3.弱连接检测。
使用迭代算法并按公式(1)计算网络中所有边的连接强度,并按由小到大的顺序排序,选取n个连接强度最小的连接作为弱连接,n为弱连接占总边数的百分比。
以下使用C语言描述本发明的具体步骤:
Figure BDA00002164821400042
Figure BDA00002164821400051

Claims (1)

1.一种社交网络弱连接检测方法,其特征在于包括以下步骤:
步骤一、利用网络爬虫工具,采集实际的社交网络数据,提取网络拓扑信息存入数据库待处理;
步骤二、使用两个节点之间的边权值表示它们之间的连接强度;在计算边权值时,考虑社交网络的朋友聚类特性,具体计算公式如下:
w ij = E ij k i × k j - - - ( 1 )
式中,Eij是Ui和Uj之间边的加权和,Ui为节点i的邻居集合,Uj为节点j的邻居集合;ki和kj分别是节点i和节点j的邻居数或度数,Wij是节点i和节点j之间的边权值,反映了节点i和节点j之间的聚类特性,通过这种聚类特性,获得两个节点朋友圈之间的相似性;计算出的边权值越低,其连接强度也越低;
步骤三、计算网络中所有边的连接强度后,按由小到大的顺序排序,选取n个连接强度最小的连接作为弱连接,n为弱连接占总边数的百分比。
CN201210350117.3A 2012-09-20 2012-09-20 社交网络弱连接检测方法 Expired - Fee Related CN102929919B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210350117.3A CN102929919B (zh) 2012-09-20 2012-09-20 社交网络弱连接检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210350117.3A CN102929919B (zh) 2012-09-20 2012-09-20 社交网络弱连接检测方法

Publications (2)

Publication Number Publication Date
CN102929919A true CN102929919A (zh) 2013-02-13
CN102929919B CN102929919B (zh) 2016-02-24

Family

ID=47644717

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210350117.3A Expired - Fee Related CN102929919B (zh) 2012-09-20 2012-09-20 社交网络弱连接检测方法

Country Status (1)

Country Link
CN (1) CN102929919B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111552797A (zh) * 2020-04-30 2020-08-18 腾讯科技(深圳)有限公司 名称预测模型的训练方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101916256A (zh) * 2010-07-13 2010-12-15 北京大学 综合行动者兴趣与网络拓扑的社区发现方法
CN102521420A (zh) * 2012-01-04 2012-06-27 西安电子科技大学 基于偏好模型的社会化过滤方法
CN102662956A (zh) * 2012-03-05 2012-09-12 西北工业大学 一种基于用户话题链接行为的社交网络意见领袖识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101916256A (zh) * 2010-07-13 2010-12-15 北京大学 综合行动者兴趣与网络拓扑的社区发现方法
CN102521420A (zh) * 2012-01-04 2012-06-27 西安电子科技大学 基于偏好模型的社会化过滤方法
CN102662956A (zh) * 2012-03-05 2012-09-12 西北工业大学 一种基于用户话题链接行为的社交网络意见领袖识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111552797A (zh) * 2020-04-30 2020-08-18 腾讯科技(深圳)有限公司 名称预测模型的训练方法、装置、电子设备及存储介质
CN111552797B (zh) * 2020-04-30 2021-06-22 腾讯科技(深圳)有限公司 名称预测模型的训练方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN102929919B (zh) 2016-02-24

Similar Documents

Publication Publication Date Title
Yang et al. Integrated flood vulnerability assessment approach based on TOPSIS and Shannon entropy methods
CN103795613B (zh) 一种在线社交网络中朋友关系预测的方法
CN110084195A (zh) 基于卷积神经网络的遥感图像目标检测方法
CN102096781B (zh) 一种基于网页关联性的钓鱼检测方法
CN109299811A (zh) 一种基于复杂网络的欺诈团伙识别和风险传播预测的方法
CN101388024B (zh) 一种基于复杂网络的压缩空间高效搜索方法
CN103729420B (zh) 微博热点追踪系统及追踪方法
CN102999638A (zh) 基于网络群挖掘的钓鱼网站检测方法
CN104537096A (zh) 一种基于微博消息传播树的微博消息影响力度量方法
CN103136331A (zh) 微博网络意见领袖识别方法
CN103699617A (zh) 一种基于随机游走的社区发现方法
CN105678590A (zh) 一种面向社交网络基于云模型的topN推荐方法
CN104462773B (zh) 一种用于生物多样性保护的河流网络构建方法及其应用
CN106127161A (zh) 基于级联多层检测器的快速目标检测方法
CN105915399A (zh) 一种基于反向传播的网络风险源头追溯方法
CN110232592A (zh) 基于网络爬虫技术的县域电商发展态势评估方法及系统
Lin et al. An estimation method for relationship strength in weighted social network graphs
CN107357886A (zh) 一种基于局部h‑index的信息传播关键节点识别方法
Guo et al. Utilising social media data to evaluate urban flood impact in data scarce cities
CN104850623B (zh) 多维度数据分析模型动态扩展方法和系统
CN105302823A (zh) 重叠社区并行发现的方法及系统
CN110781497A (zh) 网页链接的检测方法及存储介质
CN109361556A (zh) 一种基于节点熵和结构洞的关键节点感知方法
CN102929919A (zh) 社交网络弱连接检测方法
Shen et al. Enhancing ecological network establishment with explicit species information and spatially coordinated optimization for supporting urban landscape planning and management

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160224

Termination date: 20160920