CN106600431A

CN106600431A - 基于博客的主题专家识别算法

Info

Publication number: CN106600431A
Application number: CN201611085285.9A
Authority: CN
Inventors: 李宇佳
Original assignee: Shanghai Dianji University
Current assignee: Shanghai Dianji University
Priority date: 2016-11-30
Filing date: 2016-11-30
Publication date: 2017-04-26

Abstract

本发明涉及一种基于博客的主题专家识别算法，得出所有博客关于某个主题的主题质量分，将所有博客按照主题质量分的高低进行排序。本发明基于目前主题识别和博客社区抽取算法中存在的主要缺陷(如社区很小、主题意义不明确、成员内聚性弱、社区成员构成复杂等)，设计了一个有效的方法，具有如下优点：综合考虑博文长度、评论长度、评论次数、评论质量、评论者的质量等多种因素，来对一个博客进行质量分评定，通过迭代使得质量分达到一个稳定的值，并由此制作出关于这个主题的博客排名。根据这个主题博客排名，进一步识别主题专家博客，使得博客在主题相关性，纯粹性，内聚性等方面得到了很大提高。

Description

基于博客的主题专家识别算法

技术领域

本发明涉及一种对博客世界中的主题专家进行识别的算法。

背景技术

博客世界中的主题专家就是一个在特定的主题上经常发表文章来表达自己的见解，能够在别人同主题的博客上经常进行评论来讨论这个主题，能够受到很多关注同主题的其他专家的肯定，受到多数人的追捧的人。主题社区则是一个由特定主题的主题专家组成的社区，这个社区中的成员经常就某主题交流意见，发表文章谈论看法等。

Agarwal提出了一种对有影响力的重要博客进行识别的算法。在他的算法中，如果一个博客至少发表过一篇重要的博文，那么就认为这个博客是一个有影响力的博客。那么，其算法的实质就是找到博客世界中有影响力的博文，然后查看博文所属的博客，其寻找有影响力的博文主要是从博客文章的长度，回复长度，博客的活跃性等方面进行考察，找出从各个不同角度综合考察的重要博文，进而找到有影响力的博客。

使用Agarwal的算法不能实现寻找主题专家的目的，虽然其博客识别算法在一定程度上能够满足人们的应用需求，但是也存在着很多缺陷，比如：

(1)没有考虑评论者的质量，如果一篇博文有很多比较厉害的博主跟帖评论，那么所造成的影响比一般的评论要大；

(2)评论的长度，如果真正有人愿意就博文的问题进行讨论，那么评论的长度也能一定程度上反应评论人的积极性；

(3)没有考虑主题，当人们真正想要找某方面主题的博文时，那么他们可能会想寻找关于这个主题的圈子里面最好的文章，而Agarwal的算法目前还做不到这一点。

发明内容

本发明的目的是提供一种高质量的基于博客的主题专家识别算法，有效地弥补了Agarwal算法的不足，从而能更好的满足现实需要。

为了达到上述目的，本发明的技术方案是提供了一种基于博客的主题专家识别算法，得出所有博客关于某个主题的主题质量分，将所有博客按照主题质量分的高低进行排序，其特征在于，

将博客中的所有评论分为四类，分别为：

第一类评论：针对其他博客博文的评论，并且同时与当前主题相关；

第二类评论：针对自己博客博文的评论，并且同时与当前主题相关；

第三类评论：针对其他博客博文的评论，并且与当前主题无关；

第四类评论：针对自己博客博文的评论，并且与当前主题无关，则对于任意一个博客b_i，其主题质量分的计算包括以下步骤：

将博客b_i的主题质量分分为固定质量分FixedQS(b_i)和可变质量分MutableQS(b_i)，则有：

在公式(1)中，PQS(b_i)表示博客b_i中博文的质量分，CQS(b_i)表示博客b_i中评论的质量分，dps(p_ij)表示博客b_i中第j条博文的质量分，dps(c_il)表示博客b_i中第一类评论中的第l条评论的质量分，dps(c_ij)表示博客b_i中第二类评论中的第j条评论的质量分，n表示博客b_i中博文的总数，m₁表示博客b_i中第一类评论的总数，m₂表示博客b_i中第二类评论的总数，w_p、w_c分别为权重分配因子；

在公式(2)中，FameCQS(b_i)表示博客b_i中评论的虚拟质量分，fame_qs(c_im)表示博客b_i中第三类评论中的第m条评论的虚拟质量分，fame_sim表示虚拟相似度，length(c_im)表示第三类评论中的第m条评论的长度，m₃表示博客b_i所有博文获取他人第三类评论的总数量，w_cf为权重分配因子；

对于可变质量分MutableQS(b_i)，同时有公式(3)：

commenter_count(b_i)表示对博客b_i做出评论的所有评论者的数目，MutableQS(b_k)表示对博客b_i做出评论的所有评论者中第k个评论者的可变质量分，num(c_k_on_b_i)表示对博客b_i做出评论的所有评论者中第k个评论者对博客b_i做出评论的总数，dps(c_kr)表示对博客b_i做出评论的所有评论者中第k个评论者的博客中第一类评论及第二类评论中的第r条评论的质量分，fame_qs(c_kr)表示对博客b_i做出评论的所有评论者中第k个评论者的博客中第三类评论中的第r条评论的虚拟质量分，Total_CQS(b_k)表示对博客b_i做出评论的所有评论者中第k个评论者的博客中所有第一类评论的质量分、第二类评论的质量分及第三类评论的虚拟质量分的和，sim(c_kr)表示对博客b_i做出评论的所有评论者中第k个评论者的博客中第r条评论与当前主题的相关度；

根据公式(2)及公式(3)循环迭代计算博客b_i的可变质量分MutableQS(b_i)直至收敛于稳定的值，得到最终的可变质量分MutableQS(b_i)，并将其与固定质量分FixedQS(b_i)求和，得到博客b_i的主题质量分。

本发明基于目前主题识别和博客社区抽取算法中存在的主要缺陷(如社区很小、主题意义不明确、成员内聚性弱、社区成员构成复杂等)，设计了一个有效的方法，具有如下优点：

综合考虑博文长度、评论长度、评论次数、评论质量、评论者的质量等多种因素，来对一个博客进行质量分评定，通过迭代使得质量分达到一个稳定的值，并由此制作出关于这个主题的博客排名。根据这个主题博客排名，进一步识别主题专家博客，使得博客在主题相关性，纯粹性，内聚性等方面得到了很大提高。

附图说明

图1是由三个博客组成的博客关系图，图中的三个博客之间通过相互评论而有了关联，其中各个元素的含义如下：

(1)三个大的虚线椭圆代表三个博客；

(2)椭圆内的白色小方框用来表示属于该博客的博文，而方框上附着的数字表示该博文关于某给定主题的质量分；

(3)黑色小圆点表示该博客的博主所发表的评论，注意这里的评论不是别人对博文的评论；

从评论到博文的有向弧表示评论的指向，即某个评论是针对某一篇博文进行的，评论有两种：一种是针对别人的博文的评论，另一种是对自己博文的评论，第二种评论一般是当评论中出现了博主感兴趣的内容而由博主和读者进行的互动，有向弧上的数字表示该评论关于所考察主题的质量分；

图2为含有在文章中出现频数的关键词聚类；

图3为专家博客的n_hc和n_lc的比值；

图4为VQS的变化率。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明提供的一种基于博客的主题专家识别算法是得出所有博客关于某个主题的主题质量分后，将所有博客按照主题质量分的高低进行排序。

在进行主题质量分计算前，本发明将博客中的各条评论分为四大类，设c_ij为博客b_i中的第j条评论，则有：

第一类评论

c_ij是针对其他博客博文的评论，并且同时sim(c_ij)＞0，sim(c_ij)表示c_ij与当前主题的相关度，也就是说c_ij是给与别人的和主题相关的评论。

第一类评论对应于图1中博客之间实线弧。对于第一类评论来说，其对所属博客本身和他人博客的主题质量分都有贡献，如图1中的实线弧(c₁₁，p₂₁)所示，p₂₁表示博客b₂中的第1条博文。对于自己博客主题质量分的贡献主要体现在第一类评论将会参与到博客本身主题质量分的计算中去，这就相当于是发表了高质量的内容。第一类评论对于他人的贡献则在于对他人的投票，对别人发表高质量的评论就体现了一种对他人博文的兴趣，即便这条评论可能并不认同所评论博文的观点，但是仍然对他人博客的主题质量分的计算能够起到一定的作用。如评论c₁₁的作用就有两个：参与博客b₁主题质量分的计算，同时作为对他人的投票参与博客b₂的主题质量分的计算。

第二类评论

c_ij是针对自己博客博文的评论，也即自己在自己的博文下面发表评论，并且同时sim(c_ij)＞0，也就是说c_ij和主题相关。

对应于博客内部的实线弧。这种类型的评论只对自己所属博客的主题质量分有贡献，如图1中，博客b₂内部的实线弧(c₂₂，p₂₁)就是这种类型的评论，其含义为评论c₂₂所针对的对象是同属于一个博客的博文p₂₁。第二类评论通常来讲是针对他人对自己博文的评论而进行的评论或者是对他人不理解的地方进行说明。不管怎样，这种评论都具有一定的主题相关性，同时也是博客之间互动的一种方式，因此在计算评论所属博客的主题质量分的时候应该作为一个组成部分，但显然，这种评论对他人是没有影响的。

第三类评论

c_ij是针对他人博客博文的评论，并且同时sim(c_ij)＝0，也就是说c_ij是给与他人的与主题无关的评论。

对应于图1中博客之间的虚线弧。这种类型的评论值得注意，因为其内容和主题无关，所以可能第一反应就是主题无关的东西应该丢弃，毕竟最终的目的是寻找主题相关的专家博客。在这里，这种想法是错误的，虽然这种主题无关的评论对所属博客的质量分没有贡献，但是，由于是针对他人博文进行评论，即使和主题无关，也算是对他人的工作给予了一定的支持，如虚线弧(c₃₁，p₁₂)。第三类评论的重要作用就是对他人进行投票，虽然和第一类评论比起来，属于质量不是很高的投票，但总算也是对他人的工作做出了回应，因此计算他人博客主题质量分的时候也把它作为一个考虑因素。但是由于这种类型的评论由于是主题无关的，因此通过公式(4)所计算出来的主题相似度也为0，相应地，由公式(5)计算出来文档质量分也为0，在参与计算的时候无法起到作用，因此给这种评论分配一个虚拟的质量分，该质量分的取值远小于其他质量分大于0的评论的平均质量分。虚拟质量分的作用在于进行分值分配的时候，能够分配到小的分值，而不至于无法起作用。

A(u，v)＝∑_SD∈MDA_SD(u，v) (3)

式(3)及式(4)中，MD为一段时间内的文档集合，SD为其中的一篇文档.SD中的任意两个单词u和v，A_SD(u，v)为一个数值，当u和v同时出现在这篇文档中时，其值为1，否则，其值为0。在文档集合MD中，包含这种关键词对的文档数目为A(u，v)，A(uv)表示u和v同时出现在一篇文档中的次数，表示v在一篇文档出现的次数，而u不出现，表示u在一篇文档出现的次数，而v不出现。表示u，v在一篇文档都不出现。E(uv)表示在所有文档中，同时包含了顶点u和顶点v的文档数目的期望值，表示在所有文档中，不包含顶点u和顶点v的文档数目的期望值，表示在所有文档中，只包含包含顶点v的文档数目的期望值，表示在所有文档中，只包含包含顶点u的文档数目的期望值，χ²表示边的相关性强弱。

第四类评论

c_ij是针对自己博客博文的评论，并且同时sim(c_ij)＝0，也就是说c_ij一种评论针对自己，并且和主题无关的评论。

第四类评论既不对他人评论，本身质量分又为0，因此，这种类型的评论如果参与运算，其对所属博客和他人博客的质量分都没有任何贡献，所以本发明对这种类型的评论不予考虑。

根据博客质量分的来源，本发明把博客的主题质量分分分为两种：固定质量分FixedQS和可变质量分MutableQS。顾名思义，固定质量分在一开始就已经确定，只要代表一个主题的关键词聚类以及关键词的频数向量能够确定，那么整个所考察的数据集中的博客的固定质量分也就确定了，其在博客最终的主题质量分的计算过程中是固定不变的。

固定质量分由博文质量分和评论质量分构成。对于博客b_i而言，其固定质量分为FixedQS(b_i)，博文质量分为PQS(b_i)，评论质量分为CQS(b_i)。对博客b_i，如果PQS(b_i)＝CQS(b_i)＝0，也即是说，这个博客所有博文以及评论的内容和所考察的主题完全没有关系，那么前两部分的质量分都为0。那么，如果这个博客没有对他人进行过评论还没有什么问题。如果其对他人的博客也进行了评论，那么，因为本发明采用的投票机制是通过对他人评论的质量分所占的对他人评论的质量分的总和的比重来进行投票分值的分配。在此时，如果单纯使用来自博文和评论的质量分进行分值的分配，显然这个博客的所有对他人的评论所分配到的分值也只能为0。在这种情况下，为了使得博客对他人的评论有可用的投票分，需考虑一种新的可用投票分的计算。

在本发明中：

公式(5)中，dps(p_ij)表示博客b_i中第j条博文的质量分，dps(c_ij)表示博客b_i中第一类评论中的第l条评论的质量分，dps(c_ij)表示博客b_i中第二类评论中的第j条评论的质量分，n表示博客b_i中博文的总数，m₁表示博客b_i中第一类评论的总数，m₂表示博客b_i中第二类评论的总数，w_p、w_c分别为权重分配因子。在公式(5)中只提到了第一类评论和第二类评论，却没有提到第三类评论，那是因为第三类评论仅在考虑博客之间的互动投票时才会起作用，故此处并没有涉及这类评论。

博客b_i的评论质量分CQS(b_i)的计算公式为：

由评论质量分CQS(b_i)的计算式，可以看到由自身评论贡献的质量分也是固定不变的，它仅仅和第一和第二种评论本身的各种属性有关系，一旦确定考察哪个博客，那么，这个博客的所有评论也就确定了。

对于第三种类型的评论，虽然其主题相似度也即sim值为0，但也给别人投了票，对他人博客给予了支持，因此对于这种评论，为了避免在进行投票分值分配的时候分不到可用分，从而导致其不起作用，因此应该给它一种远低于第二种评论的平均质量分的虚拟质量分，用来获取可以用来投票的分数，这里用fame_qs表示虚拟质量分。

fame_qs(c_ij)表示第三类评论c_ij的虚拟质量分，fame_sim表示虚拟相似度，length(c_ij)表示第三类评论c_ij的长度。

在本发明中，可变质量分最初的构成就是由博文和前三类评论的质量分构成，其中第三类评论虚拟质量分的参与有效的避免了在投票过程中没有分值分配的情况。因此，对于博客b_i的可变质量分MutableQS(b_i)为：

在公式(2)中，FameCQS(b_i)表示博客b_i中评论的虚拟质量分，fame_qs(c_im)表示博客b_i中第三类评论中的第m条评论的虚拟质量分，w_cf为权重分配因子，m₃表示博客b_i所有博文获取他人第三类评论的总数量。

可变质量分被分配给被评论的博客，使这个博客获取来自于评论人的投票分。如图2中所示，假如把权重分配的因子w_p，w_c，w_cf的取值都取为1的话，那么对于图1中的博客b₁来说，其可变质量分为：

MutableQS(b₁)＝FixedQS(b₁)+FameCQS(b₁)

＝dqs(p₁₁)+dqs(p₁₂)+dqs(c₁₁)+dqs(c₁₂)+dqs(c₁₃)

＝2.3+1.5+0.15+0.08+0.05

＝4.08。

由公式(8)可知，可变质量分最初的构成就是由博文和前三类评论的质量分构成，其中第三类评论虚拟质量分的参与有效的避免了在投票过程中没有分值分配的情况。

公式(9)中，Total_CQS(b_k)的值为第一，第二，第三类评论的质量分的和，根据每一条评论在Total_CQS(b_k)所占的份额来分配可用的投票分

公式(9)用来计算评论对他人的投票占自己的可变分的份额，假如用ratio表示博客的各条针对他人的评论在进行质量分的分配时占总的可变质量分的份额，那么，根据公式(9)就可以计算出对于博客b₁的这三条评论各自占用的份额如下：

ratio(c₁₁)＝0.15/(0.15+0.08+0.05)＝53.6％

ratio(c₁₂)＝0.08/(0.15+0.08+0.05)＝28.6％

ratio(c₁₃)＝0.05/(0.15+0.08+0.05)＝17.9％

则有公式(10)：

公式(10)中，commenter_count(b_i)表示对博客b_i做出评论的所有评论者的数目，MutableQS(b_k)表示对博客b_i做出评论的所有评论者中第k个评论者的可变质量分，num(c_k_on_b_i)表示对博客b_i做出评论的所有评论者中第k个评论者对博客b_i做出评论的总数，dps(c_kr)表示对博客b_i做出评论的所有评论者中第k个评论者的博客中第一类评论及第二类评论中的第r条评论的质量分，fame_qs(c_kr)表示对博客b_i做出评论的所有评论者中第k个评论者的博客中第三类评论中的第r条评论的虚拟质量分，Total_CQS(b_k)表示对博客b_i做出评论的所有评论者中第k个评论者的博客中所有第一类评论的质量分、第二类评论的质量分及第三类评论的虚拟质量分的和，sim(c_kr)表示对博客b_i做出评论的所有评论者中第k个评论者的博客中第r条评论与当前主题的相关度。

可变质量分主要用于投票分值的分配，依据公式(8)及公式(10)进行迭代，在每一次迭代过程中，各条评论(第一类评论和第三类评论)手中的可用投票分都会不同，它们的值在计算时不断变化，并最终会稳定下来，并和固定质量分共同组成博客的主题质量分。

本发明通过实验对比的方式来讨论我们的算法发明所达到的效果，实验中所采用的数据集来自于国外著名的体育博客sbnation(http://www.sbnation.com)：

(1)我们对其2009年11月底到2009年12月底一个月的数据进行了采集，在最终得到的数据集中，总共包含博文6864篇，评论197933条，活跃用户9408个(这里我们认为在此期间至少发表了一篇博文或回复的用户为活跃用户)。为了保证算法的相对公平性，我们对sbnation.com网站的管理员所发布的博文和评论进行了排除，因为网站管理员的身份在这个网站中所扮演的角色天然就是一个专家，他们每天都会发布大量和他所管理的板块主题相关的博文或者评论，而且发布的数量和速度都远远高于普通用户所发布，因此这部分人的博文和评论并不在我们考虑之列。

(2)我们采用Bansal的方法来发现特定的主题，并选取一个主题进行考察，表1为我们考察的一个关键词聚类，表中KW表示关键词，F表示平均出现频数。包含表中关键词的文档数在62～105之间，这19个关键词共组成了95个关键字对(如果用类似图2的表示，有95条边)。

表1 关键词聚类

表2列出了根据表3中关键词聚类得到的前5名专家博客的排名，其中各个字段代表的含义如下：

(1)TQS表示该博客得到的总质量分；

(2)PQS表示由博文带来的质量分；

(3)CQS表示由本博客自己写的评论带来的质量分；

(4)VQS表示通过他人的评论，也即他人投票而带来的质量分。

I(O)中，I表示其它博客给予自己的评论的总数量，也即图的入度，O表示本博客给予他人博文的评论的数量。

表2 前5名专家

我们同时对另外一组关键词也进行了实验，为了和表1中的关键词聚类进行区别，我们把表1的关键词聚类称为f1，f1是关于棒球的主题；同样地，我们把本组关键词聚类称为f2，f2代表的主题是关于足球的。在我们的结果中，f2包含了10个关键词，每一个关键词在相关博文中平均出现1.29次。显然，f2相对于f1来说比较小，关键词出现的频率也比较低。

针对f2所得到的前五名专家如表3所示：

表3 f2相关的前5名专家

表4 专家的重要博文分析

上述实验结果是当设置fame_sim＝0.1时的结果，为了考察fame_sim值对于专家投票分的影响，把fame_sim值设为0.2和0.02进行实验，得到如表5的结果，其中函数abs表示取计算结果的绝对值，左侧括号中的数字和表中的R对应，表示专家排名序号。

表5 不同fame_sim值时的投票分

Claims

1.一种基于博客的主题专家识别算法，得出所有博客关于某个主题的主题质量分，将所有博客按照主题质量分的高低进行排序，其特征在于，

将博客中的所有评论分为四类，分别为：

\begin{matrix} F i x e d Q S (b_{i}) = P Q S (b_{i}) + C Q S (b_{i}) \\ = w_{p} Σ_{j = 1}^{n} d q s (p_{i j}) + w_{c} (Σ_{l = 1}^{m_{1}} d q s (c_{i l}) + Σ_{j = 1}^{m_{2}} d q s (c_{i j})) \end{matrix} - - - (1)

\begin{matrix} M u t a b l e Q S (b_{i}) \\ = F i x e d Q S (b_{i}) + F a m e C Q S (b_{i}) \\ = w_{p} Σ_{j = 1}^{n} d q s (p_{i j}) + w_{c} (Σ_{l = 1}^{m_{1}} d q s (c_{i l}) \\ + Σ_{j = 1}^{m_{2}} d q s (c_{i j})) + w_{c f} Σ_{m = 1}^{m_{3}} f a m e_q s (c_{i m}) \end{matrix} - - - (2)

对于可变质量分MutableQS(b_i)，同时有公式(3)：

M u t a b l e Q S (b_{i}) = Σ_{k = 1}^{c o m m e n t e r_c o u n t (b_{i})} (M u t a b l e Q S (b_{k}) \times Σ_{r = 1}^{n u m (c_{k}_o n_b_{i})} r a t i o (c_{k r})) - - - (3)