CN105405058A

CN105405058A - 博客社区识别方法

Info

Publication number: CN105405058A
Application number: CN201510947435.1A
Authority: CN
Inventors: 李宇佳
Original assignee: Shanghai Dianji University
Current assignee: Shanghai Dianji University
Priority date: 2015-12-16
Filing date: 2015-12-16
Publication date: 2016-03-16

Abstract

本发明提供了一种博客社区识别方法，包括：执行初始博客社区抽取，根据初始博客社区中的博客图中边的重数从博客图的多个顶点中选择最适合加入到当前社区中的候选顶点的集合；将候选顶点集合中满足预定加入条件的顶点加入初始博客社区以得到新博客社区；获取新博客社区的邻接点集合的内容，并且调整新博客社区的邻接点集合中的顶点的属性。

Description

博客社区识别方法

技术领域

本发明涉及计算机科学技术、网络技术领域，更具体地说，本发明涉及一种博客社区识别方法。

背景技术

在初期，博客的出现并没有受到太多的关注，因为当时的配套工具并不完善，因此导致其仅在小部分人群中得以流行，直到1999年，著名博客网站www.blogger.com的迅猛发展，以及大量简单易用的博客工具出现之后，博客才得以真正的大范围流行。根据著名博客搜索引擎Technorati网站(http://www.technorati.com)的分析，截至2006年7月，博客的数量和三年前也即2003年的数量相差两个数量级，在这三年里，大约每六个月，博客的数量就会翻一番。而据研究机构NMIncite发布的一份报告显示，在2011年10月，三大博客平台Blogger，Wordpress和Tumbler加起来总共有8050万个独立博客，而在那个月知名社交网络Facebook的独立访客也不过1.391亿；而在2011年底，尼尔森公司在全球范围内追踪到1.81亿个博客。而这两年发展最火的新兴社交媒体Pinterest(http://www.pinterest.com)在2011年10月拥有450万美国独立博客，这个数量是该网站在2011年年初美国独立博客数目的37倍。由此可见，虽然互联网应用日新月异，但博客经过了十多年的发展，其增长势头并没有停止，它仍然是人们在网络上进行交流的重要阵地，在新互联网媒体层出不穷的今天占有很重要的地位。

博客社区是多个博客组成的集合，在这个集合中，博客成员之间通过博文之间的相互链接，博文的互相评论以及博客的好友列表三种方式互相联系。虽然对于整个博客世界来说，多数博客都是和其他博客有联系的，但有联系的博客未必就同属于一个博客社区。在社区抽取方法中，有几个不利于社区研究的缺点，比如：得到的社区比较零碎，把许多原本可以归并到一个社区的成员归并到多个社区；社区的稳定性差，算法运行多次得到的结果不一致；没有充分考虑成员之间联系的紧密程度，从而导致得到的社区的内聚性比较差。在数以亿计的博客站点中，如何识别这些隐藏在博客世界中的博客社区具有很重要的现实意义。

发明内容

本发明所要解决的技术问题是针对现有技术中存在上述缺陷，提供一种具有实际的可操作性的高质量博客社区识别方法。

为了实现上述技术目的，根据本发明，提供了一种博客社区识别方法，包括：

第一步骤：执行初始博客社区抽取，根据初始博客社区中的博客图中边的重数从博客图的多个顶点中选择最适合加入到当前社区中的候选顶点的集合；

第二步骤：将候选顶点集合中满足预定加入条件的顶点加入初始博客社区以得到新博客社区；

第三步骤：获取新博客社区的邻接点集合的内容，并且调整新博客社区的邻接点集合中的顶点的属性。

优选地，第一步骤包括：对初始博客社区的邻接点集合中的顶点按到初始博客社区的社区连接数从大到小排序；对排过序的邻接点集合进行过滤以获取与初始博客社区连接数最大的顶点集合，作为候选顶点集合。

优选地，第三步骤包括：从初始博客社区的邻接点集合中删除在第二步骤中加入初始博客社区的顶点；将在第二步骤中加入初始博客社区的顶点的属性设置为不能被选为候选顶点；将在第二步骤中加入初始博客社区的顶点的邻接点加入到新博客社区的邻接点集合中。

附图说明

结合附图，并通过参考下面的详细描述，将会更容易地对本发明有更完整的理解并且更容易地理解其伴随的优点和特征，其中：

图1示意性地示出了根据本发明优选实施例的博客社区识别方法的流程图。

需要说明的是，附图用于说明本发明，而非限制本发明。注意，表示结构的附图可能并非按比例绘制。并且，附图中，相同或者类似的元件标有相同或者类似的标号。

具体实施方式

为了使本发明的内容更加清楚和易懂，下面结合具体实施例和附图对本发明的内容进行详细描述。

本发明基于下述考虑：

(1)发现隐藏的博客社区有助于人们找到和自己有同样兴趣的博客，并进行有针对性地交流；

(2)一个博客社区中的讨论通常会围绕一个特定的主题，因此，当有读者需要寻求关于这个主题的资讯时，可以快速找到相关主题的社区，并进一步去寻找他们感兴趣的东西；

(3)有助于借助博客进行营销活动，根据不同的博客社区进行不同产品的营销能够取得更好的效果；

(4)博客社区的识别是许多其他研究的基础，比如想要识别出某个社区中的专家，或者研究博客世界结构的演化等都需要在博客社区识别的基础上来进行。

在进行博客社区抽取的时候，把博客图中边的重数考虑进去显然是一种更好的选择，这样的话，边的重数比较高的边的两个顶点被优先考虑加入到社区，这样得到的社区的联系更加紧密，成员之间的活动更加频繁，因而得到的社区的质量也比较高。根据以上叙述，给出如下的算法1(getCorrectBlog)。该算法的主要功能是从若干个候选顶点中找到最适合加入到当前社区中的顶点，以保证当前社区的后续扩展能力。

算法1中，假设博客社区C＝{b1,b2,…,bn}，那么算法1的执行的详细步骤如下：

a.首先调用函数sort对博客社区C的邻接点集合Adjs(C)中的顶点按到博客社区C的社区连接数从大到小排序，使用sort函数的目的是能够快速寻找和社区连接最多的顶点，然后排除掉其他和社区连接比较少的顶点，以提高算法运行的效率。

b.通过函数filter对排过序的邻接点集合(setCommunityAdjs)进行过滤以取得社区连接数最大的顶点集合。如果经过过滤后的集合中的这些顶点都不符合加入条件的话，其他顶点就更没有可能加入。由于这个集合中的顶点和社区的顶点的连接数目相同，因此还要设定一个规则进一步判断到底哪一个是最好的。

经过a和b前面两步的操作，可以得到一组最有可能加入到当前社区的候选顶点集合，在这个集合中，由于所有顶点和社区的连接数都是相同的，需要进一步过滤来找到最优顶点，因此，在这一步中，对这组数据再考虑顶点的度等于iMaxDegree(处理后集合中最大的顶点度数)的顶点，找到度最大的一个子集。这样做的目的是寻找到能够为当前社区带来最大候选集的顶点。getSetMaxNumVtoC函数的作用是得到候选集合中顶点和当前社区中的顶点连接数最大的顶点集合(这个函数在随后的实验部分，通过选择是否调用来进行对比结果)。

算法1结束后会得到一个当前社区的邻接点集合中最有可能加入到社区的顶点，接下来需要考虑的是判断是否可以把它加入到当前社区中去，如果这个顶点符合加入到社区中的条件，那么把这个选出来的顶点加入到社区，否则，如果这个最优顶点都不够资格加入到社区，那么其他顶点更不可能加入，则本轮算法终止，当前的这个社区就是最终找到的社区。

算法2adjustCommunityAdjs对这一处理过程进行了描述，该算法的主要作用是获取并调整加入顶点后新得到的社区C的邻接点集合Adjs(C)的内容及其中的顶点的属性。

假如blogJoined为从算法1中选择出来的顶点且符合加入条件，C’为blogJoined加入之前的社区，C为blogJoined加入到C’之后形成的新社区，那么显然C’＝C-{blogJoined}。

算法2adjustCommunityAdjs的执行过程解释如下：

执行算法2第1行，删除Adjs(C’)中的blogJoined。这是因为此时由于blogJoined的加入，为了得到C的邻接点集合Adjs(C)，首先要把Adjs(C’)中的blogJoined删除。

执行算法2第2行，把blogJoined的numVtoC属性置为0。这是由于blogJoined已经属于社区C，因此其和社区C连接数numVtoC应该重新置零，以免下一步运算中再次成为候选顶点。

算法第3行到24行的作用是把blogJoined的邻接点加入到新社区C的邻接点集合中，并且重新调整其中顶点的社区连接数numVtoC的值，如果newAdjs中的元素和blogJoined有边进行连接，那么该邻接点和新社区C的numVtoC的值增1。

得到新社区的邻接点集合。

<具体实施例>

如图1所示，根据本发明优选实施例的博客社区识别方法包括：

第一步骤S1：执行初始博客社区抽取，根据初始博客社区中的博客图中边的重数从博客图的多个顶点中选择最适合加入到当前社区中的候选顶点的集合；

例如，第一步骤S1具体包括：对初始博客社区的邻接点集合中的顶点按到初始博客社区的社区连接数从大到小排序；对排过序的邻接点集合进行过滤以获取与初始博客社区连接数最大的顶点集合，作为候选顶点集合。

第二步骤S2：将候选顶点集合中满足预定加入条件的顶点加入初始博客社区以得到新博客社区；

第三步骤S3：获取新博客社区的邻接点集合的内容，并且调整新博客社区的邻接点集合中的顶点的属性。

例如，第三步骤S3具体包括：从初始博客社区的邻接点集合中删除在第二步骤中加入初始博客社区的顶点；将在第二步骤中加入初始博客社区的顶点的属性设置为不能被选为候选顶点；将在第二步骤中加入初始博客社区的顶点的邻接点加入到新博客社区的邻接点集合中。

<技术效果>

本发明通过实验对比的方式来讨论发明所达到的效果，实验所采用的数据集是来自于www.metafilter.com网站，下面是这个数据集的一些基本信息：

(1)数据集的起始时间为从2004年1月1日到2007年12月31日，总共四年间的数据。

(2)截至2007年12月31号，从该数据集中得到的活动用户数量为11902。在这里，认为在数据集开始日期到结束日期四年间至少发过一篇文章或者做过一次回复的用户为活动用户。

(3)因为要从回复与被回复的关系构建博客图，所以这里排除掉没有回复的文章，最终总共得到拥有一个或一个以上回复的文章数量为36377篇，总共得到回复数量1058325条。

(4)根据需要以及处理上的方便，对数据集进行了按照时间进行划分。

(5)为了得到比较接近于实际的数据，每一组实验做了十次，然后对取得的数据取平均值。

(6)对数据做了两种方式的划分，一种是按照单月进行的划分，总共得到48组数据；另一种是按照双月进行的划分，总共得到24组数据。在每种划分上，分别用Kumar的算法和本发明的算法进行了实验，实验结果表明本发明的算法相较于Kumar的算法，能够优先抽取出规模较大的社区，算法执行的稳定性强，得到的社区的联系也更加紧密。

此处主要考察本发明的方法和Kumar的方法得到的结果之间的差异，分别从三个方面来进行考察：

博客社区的规模；

(1)博客社区成员联系的紧密型；

(2)算法的稳定性。

为了验证方法在数据量增大时仍能在算法稳定性、社区大小和社区成员联系紧密性上有很大的优越性，对48个月数据进行了按照两个月一组进行的划分，这样就得到了24组数据，对这24组数据同样进行了上述的实验验证，其对应的数据量如下表(每两月数据量)所示。

在此对比了三种情况：

(1)Kumar方法中边的重数；

(2)本发明的算法方法中不考虑边的重数大者优先加入社区；

(3)本发明的算法方法中边的重数大者优先加入社区。

在三种情况中，根据数据可知，第一种和第二种情况下所得到的博客社区边的重数相差并不大，而第三种情况中使用边重数大者优先加入社区的方法时，得到的最大社区的边的平均重数明显的优于第一和第二种情况下得到的社区的边的重数。这充分说明，在这个社区里，成员的联系比较紧密，在这段时间进行了次数比较多的接触。

本发明重点讨论了博客社区的抽取问题。Kumar的社区抽取方法中，有几个不利于社区研究的缺点，如得到的社区比较零碎，把许多原本可以归并到一个社区的成员归并到多个社区；社区的稳定性差，算法运行多次得到的结果不一致；没有充分考虑成员之间联系的紧密程度，从而导致得到的社区的内聚性比较差。

由此，针对上面的缺点，本发明提出的一种抽取高质量社区的方法具有如下的优点：大社区优先被抽取出来；得到更加稳定的社区；得到内聚度更高的社区。

需要说明的是，除非特别说明或者指出，否则说明书中的术语“第一”、“第二”、“第三”等描述仅仅用于区分说明书中的各个组件、元素、步骤等，而不是用于表示各个组件、元素、步骤之间的逻辑关系或者顺序关系等。

可以理解的是，虽然本发明已以较佳实施例披露如上，然而上述实施例并非用以限定本发明。对于任何熟悉本领域的技术人员而言，在不脱离本发明技术方案范围情况下，都可利用上述揭示的技术内容对本发明技术方案作出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.一种博客社区识别方法，其特征在于包括：

2.根据权利要求1所述的博客社区识别方法，其特征在于，第一步骤包括：对初始博客社区的邻接点集合中的顶点按到初始博客社区的社区连接数从大到小排序；对排过序的邻接点集合进行过滤以获取与初始博客社区连接数最大的顶点集合，作为候选顶点集合。

3.根据权利要求1或2所述的博客社区识别方法，其特征在于，第三步骤包括：从初始博客社区的邻接点集合中删除在第二步骤中加入初始博客社区的顶点；将在第二步骤中加入初始博客社区的顶点的属性设置为不能被选为候选顶点；将在第二步骤中加入初始博客社区的顶点的邻接点加入到新博客社区的邻接点集合中。