CN102929919A

CN102929919A - 社交网络弱连接检测方法

Info

Publication number: CN102929919A
Application number: CN2012103501173A
Authority: CN
Inventors: 蔡皖东; 蔡霖; 吴博
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2012-09-20
Filing date: 2012-09-20
Publication date: 2013-02-13
Anticipated expiration: 2032-09-20
Also published as: CN102929919B

Abstract

本发明公开了一种社交网络弱连接检测方法，用于解决现有的网络弱连接检测方法准确度低的技术问题。技术方案是利用网络爬虫工具，采集实际的社交网络数据，提取其中的节点、连接等网络拓扑信息存入数据库待处理；使用两个节点之间的边权值来表示它们之间的连接强度；按由小到大的顺序排序，选取n个连接强度最小的连接作为弱连接。由于在连接强度计算时考虑了朋友重叠率和朋友集合间相似度两方面因素，故提高了网络弱连接的准确度。

Description

社交网络弱连接检测方法

技术领域

本发明涉及一种网络弱连接检测方法，具体涉及一种社交网络弱连接检测方法。

背景技术

随着Web2.0技术的发展，社交网络(SNS)已成为互联网中非常流行的网络应用。目前，一些大规模在线社交网站，如Facebook的访问量已经超过谷歌，成为美国第一大网站，而国内深受大学生欢迎的人人网，目前注册用户已达1亿，日登陆2200万人次（2009年10月27日人人网公布的数据），2009年12月alexa网站的数据显示国内外网站访问量前15名中社交网站已分别占到4个和6个。互联网中的在线社交网络作为现实社交网络在互联网上的扩展，旨在帮助人们更加有效地建立社会关系网络。与以前的以聚合信息为特点的网站不同，社交网络以聚合人群为特点，人们通过社交网络可以建立自己的朋友圈子，这些社交网络聚集了大量的网民，已成为一种新型的个人社交方式和信息交流平台，借助朋友之间的口碑相传的信息传播模式，加速了信息的传播。另一方面，社交网络也是一把双刃剑，在方便人们的社会交往和信息交流的同时，也会被一些组织或个人所利用，作为开展网络宣传战、传播谣言信息、从事非法联络的工具。因此，通过适当的方法对社交网络信息传播过程进行监控是非常必要和重要的。

美国社会学家马克·格拉诺维特（Mark Granovetter）于1974年提出了弱连接理论，他指出：在现实社会中，每个人接触最频繁的人是自己的亲人、同学、朋友、同事等，这是一种十分稳定的然而传播范围有限的社会认知，被称为“强连接(Strong Ties)”现象；同时，还存在另一种更为广泛的然而却是肤浅的社会认知，例如一个人被人无意间提到或者从媒体中偶然听到等等，这种现象被称为“弱连接(Weak Ties)”。研究发现：与一个人的工作和事业关系最密切的社会关系并不是“强连接”，而常常是“弱连接”。“弱连接”虽然不如“强连接”那样稳固，却具有极快、低成本和高效的传播效率。

在信息传播网络中，同样存在着强连接和弱连接现象。在文献“Structure and tiestrengths in mobile communication networks（PNAS 104，7332，2007).”中，作者研究了无线移动网络中的弱连接对网络结构和信息传播影响，该文以一个国家过去18个周所有的电话通话记录数据为实验基础，研究了连接强度对无线移动网络结构和信息传播的影响。研究结果表明，在对网络结构影响方面，当从网络中去除强连接时，网络是健壮的；当从网络中去除弱连接时，网络则陷入崩塌。对信息传播影响方面，去除弱连接可以明显减慢信息传播速度。作者还提出了一种基于朋友重叠率的连接强度计算方法，用于从社交网络诸多连接中检测出弱连接，由于这种计算方法只考虑了朋友重叠率，而忽略了两个朋友圈间的关系，当节点本身朋友数量相差悬殊时会产生一定的计算误差。

在文献“Weak Ties：Subtle Role in the Information Diffusion in Online SocialNetworks（Arvix，2010）”中，作者认为弱连接对于最终信息传播范围有很大影响，但所起作用的大小和不同的社交网络类型有关。

综上所述，弱连接对于包括社交网络在内的信息网络结构和信息传播都有很大的影响，去除弱连接后可以破坏网络结构，减慢信息传播速度，缩小信息传播范围。问题的关键在于如何从社交网络的诸多连接中检测出弱连接，通过去除弱连接，达到对信息传播控制的目的。

发明内容

为了克服现有的网络弱连接检测方法准确度低的不足，本发明提供一种社交网络弱连接检测方法。该方法利用网络爬虫工具，采集实际的社交网络数据，提取其中的节点、连接等网络拓扑信息存入数据库待处理；使用两个节点之间的边权值来表示它们之间的连接强度；按由小到大的顺序排序，选取n个连接强度最小的连接作为弱连接。由于在连接强度计算时考虑了朋友重叠率和朋友集合间相似度两方面因素，故可以提高网络弱连接的准确度。

本发明解决其技术问题所采用的技术方案是：一种社交网络弱连接检测方法，其特点是包括以下步骤：

步骤一、利用网络爬虫工具，采集实际的社交网络数据，提取网络拓扑信息存入数据库待处理。

步骤二、使用两个节点之间的边权值来表示它们之间的连接强度。在计算边权值时，考虑到社交网络的朋友聚类特性，具体计算公式如下：

w_{ij} = \frac{E_{ij}}{k_{i} \times k_{j}} - - - (1)

式中，E_ij是U_i和U_j之间边的加权和，U_i为节点i的邻居集合，U_j为节点j的邻居集合；k_i和k_j分别是节点i和节点j的邻居数或度数，W_ij是节点i和节点j之间的边权值，反映了节点i和节点j之间的聚类特性，通过这种聚类特性，可以获得两个节点朋友圈之间的相似性。依据公式(1)计算出的边权值越低，其连接强度也越低。

步骤三、使用迭代算法并按公式(1)计算网络中所有边的连接强度后，按由小到大的顺序排序，选取n个连接强度最小的连接作为弱连接，n为弱连接占总边数的百分比。

本发明的有益效果是：由于利用网络爬虫工具，采集实际的社交网络数据，提取其中的节点、连接等网络拓扑信息存入数据库待处理；使用两个节点之间的边权值来表示它们之间的连接强度；按由小到大的顺序排序，选取n个连接强度最小的连接作为弱连接。由于在连接强度计算时考虑了朋友重叠率和朋友集合间相似度两方面因素，故提高了网络弱连接的准确度。

以下通过与背景技术的对比实验来说明本发明的有益效果：

（1）以CDBLP、Arvix等社交网络为实验对象，利用网络爬虫工具，采集这些社交网络数据，提取其中的节点、连接等网络拓扑信息存入数据库待处理。

（2）使用基于朋友覆盖率的连接强度计算方法分别计算CDBLP、Arvix等社交网络的连接强度，检测出弱连接，分别选择n个弱连接，n分别为弱连接占总边数的10％、20％、30％、40％、50％、60％、70％、80％，将这些弱连接依次从网络中去除，形成相应的信息阻断网络。

（3）使用公式(1)分别计算CDBLP、Arvix等社交网络的连接强度，检测出弱连接，分别选择n个弱连接，n分别为弱连接占总边数的10％、20％、30％、40％、50％、60％、70％、80％，将这些弱连接依次从网络中去除，形成相应的信息阻断网络。

（4）使用独立级联模型来模拟上述信息阻断网络的信息传播过程，直到收敛结束。

（5）计算收敛后网络中被感染节点的个数。

（6）在相同百分比的信息阻断网络下，比较两种连接强度计算方法对信息的抑制效果。

对比实验结果表明，与背景技术方法相比，本发明在不同信息阻断网络下检测出的弱连接更加准确，对信息抑制效果更好。

下面结合附图和实施例对本发明作详细说明。

附图说明

图1是本发明社交网络弱连接检测方法的流程图。

具体实施方式

参照图1。本发明方法具体步骤如下：

1.社交网络数据获取。

利用网络爬虫工具，采集实际的社交网络数据，提取其中的节点、连接等网络拓扑信息存入数据库待处理。

2.连接强度计算。

使用两个节点之间的边权值来表示它们之间的连接强度。在计算边权值时，考虑到社交网络的朋友聚类特性，具体计算公式如下：

w_{ij} = \frac{E_{ij}}{k_{i} \times k_{j}} - - - (1)

设U_i为节点i的邻居集合，U_j为节点j的邻居集合，其中E_ij是U_i和U_j之间边的加权和，k_i和k_j分别是节点i和节点j的邻居数或度数，W_ij是节点i和节点j之间的边权值，反映了节点i和节点j之间的聚类特性，通过这种聚类特性，可以获得两个节点朋友圈之间的相似性。依据公式(1)计算出的边权值越低，其连接强度也越低。

3.弱连接检测。

使用迭代算法并按公式(1)计算网络中所有边的连接强度，并按由小到大的顺序排序，选取n个连接强度最小的连接作为弱连接，n为弱连接占总边数的百分比。

以下使用C语言描述本发明的具体步骤：

Claims

1.一种社交网络弱连接检测方法，其特征在于包括以下步骤：

步骤一、利用网络爬虫工具，采集实际的社交网络数据，提取网络拓扑信息存入数据库待处理；

步骤二、使用两个节点之间的边权值表示它们之间的连接强度；在计算边权值时，考虑社交网络的朋友聚类特性，具体计算公式如下：

w_{ij} = \frac{E_{ij}}{k_{i} \times k_{j}} - - - (1)

式中，E_ij是U_i和U_j之间边的加权和，U_i为节点i的邻居集合，U_j为节点j的邻居集合；k_i和k_j分别是节点i和节点j的邻居数或度数，W_ij是节点i和节点j之间的边权值，反映了节点i和节点j之间的聚类特性，通过这种聚类特性，获得两个节点朋友圈之间的相似性；计算出的边权值越低，其连接强度也越低；

步骤三、计算网络中所有边的连接强度后，按由小到大的顺序排序，选取n个连接强度最小的连接作为弱连接，n为弱连接占总边数的百分比。