CN103150333A

CN103150333A - 微博媒体中的意见领袖识别方法

Info

Publication number: CN103150333A
Application number: CN2013100323944A
Authority: CN
Inventors: 郑中华; 高威; 帅志虎; 周银行
Original assignee: ANHUI BORYOU INFORMATION TECHNOLOGY CO LTD
Current assignee: Anhui boyue information Polytron Technologies Inc
Priority date: 2013-01-26
Filing date: 2013-01-26
Publication date: 2013-06-12
Anticipated expiration: 2033-01-26
Also published as: CN103150333B

Abstract

本发明公开了一种微博媒体中的意见领袖识别方法，包括网络意见收集，标准样本库标注，意见个体活跃度的分析，意见个体受关注度的分析，意见个体发文认同度的分析，意见领袖的分析和识别等六个步骤。本发明通过收集网络意见，对其进行意见个体活跃度、意见个体关注度、意见个体认同度三个方面的分析计算，以此为基础进行意见领袖的综合分析和识别。

Description

微博媒体中的意见领袖识别方法

技术领域

本发明涉及一种微博媒体中的意见领袖识别方法。

背景技术

进入20世纪，WEB2.0的发展促生了大量的网络社区和微博这一新生代的信息交流平台，人们可以在不同社区和微博平台内交流信息和传播思想。在网络社区中同样存在领域意见领袖，这些意见领袖在某种程度上影响着人们的购买行为、政治观点。很多人开始研究信息传播最大化问题，也就是如何从社会网络中选取一部分个体进行信息传播，以最大化信息的传播。意见领袖在信息传播和在市场营销等等其他各个方面的应用有很大的影响。越来越多的人想从意见领袖角度去影响和促进信息的传播和扩大某一方面的或某一信息的影响力。

在目前网络，一方面微博大部分采用实名认证机制，可以对意见领袖的特征进行分析；另一方面微博海量的数据为我们的研究提供了真实的历史数据，这些数据包括用户的个人信息以及用户在微博中的交互记录，这些海量的数据以及用户的资料是研究的一个重要的信息依据。目前主要的一些识别技术对微博用户影响力进行了定义，不同的研究思路有不同衡量标准，有的使用粉丝数量和微博转发数量对用户影响力进行了衡量，结果表明粉丝数量多的用户微博不一定会得到很多的转发或者评论，有的是给定一个主题，用户的影响力定义为他的所有粉丝的影响力之和，还有一部分和本发明比较相近的是以入度、转发数、提及数三项为影响力标准

现有技术的缺点如下：

1)在统计微博用户信息数据的时候，没有针对微博用户的发表的言论的时间做深入的分析，但其发文频率也是评价一个用户的活跃度的标准，活跃度也是意见领袖识别的一个重要因素，因而影响了识别的可靠性。

2)在以转发、提及数为标准的时候，将所有的评论信息都当作单一的信息对象处理，这样极大的混淆了信息的质量。意见领袖的影响力从客观的角度是可分成两方面的，一种是积极的正面影响，另一种是消极的负面影响。研究评论应该深入的分析评论的正负性以判断其可靠性和其影响趋势。如果未能全面的处理将影响意见领袖的判断。

发明内容

本发明要解决的技术问题是提供一种从微博中准确完善的分析用户并快速准确的找出意见领袖的识别方法。

为了解决上述技术问题，本发明采用的技术方案是：微博媒体中的意见领袖识别方法，包括以下步骤：

一、网络意见收集：

网络意见的收集是通过微博平台用户发表的言论，通过网络的合法的收集下载，下载大量的微博发文及其评论信息，并针对相关的话题比较活跃的进行跟踪的下载，将所有的发文按照用户分类进行抽取、统计以提供各方面的分析；

二、标准样本库标注

选取一段时间内，有发言的微博作者，由相关的意见领袖识别专家对该作者进行手工标注，给出是否为意见领袖的判定，并从中选取一定量的微博作者放入标准样本数据库；该样本数据将作为后续意见领袖判定的标注样本集合；具体选取方法和选取数量请见具体实施方式；

三、意见个体活跃度：

1)个体活跃度由三个方面构成，包括，某一段相关话题比较活跃的时间内，该作者平均每天发表的原创帖子数量记为V_org，每天转发的帖子数量，记为V_for，每天评论的帖子数量记为V_rem，可以定义下述公式将该指标量化；

L＝W_orgV_org+W_forV_for+W_remV_rem (1)

在(1)式中，W_org为原创帖子所占的活跃度权重，W_for为转发帖子所占的活跃度权重，W_rem为评论帖子所占的活跃度权重；为了防止具有较大初始值的属性与具有较小初始值的属性相比，权重过大，需要先将上述三种帖子数量进行规范化后再代入公式进行计算；规范化和参数确定具体方法请见具体实施方式；

四、意见个体受关注度：

如果意见个体所发的微博受关注程度越高，则越可能是意见领袖，为此定义平均转发数、平均浏览数、平均评论数三种指标如下；

1)平均转发数M＝Tt/N，其中：N为发文量，Tt为所有发文转发总数；

2)平均浏览数S＝Tc/N，其中：N发文量，Tc为所有发文浏览数的总数；

3)平均评论数P＝Td/N，其中：N发文量，Td为所有发文评论数的总数；

4)平均转发数的权重比为Wm，平均浏览数的权重比为Ws，平均评论数的权重比为Wp；

意见个体受关注度C＝M*Wm+S*Ws+P*Wp (2)

各个数量在代入(2)式计算时同样需要做归一化处理，权重取值和归一化处理方法详见具体实施方式；

五、意见个体发文认同度：

对于某个主题或领域的意见领袖，其发表的微博观点往往会得到多数人的认同，定义意见发文认同度指标，

B = \frac{Σ_{i = 1}^{k} {Agree}_{i} - DisAg {ree}_{i}}{N + 1} - - - (3)

在(3)式中，Agree_i表示意见个体发布的第i篇文章中所有持支持态度的评论数，DisAgree_i表示持反对态度的评论数；七为意见个体发布的文章总数；N为所有参与评论的作者数量；支持与反对意见判定算法请见具体实施方式；

六、意见领袖的分析和识别：

针对步骤二中所述样本标注集合，计算出每一个作者的意见个体活跃度，意见个体受关注度，意见个体发文认同度后，可以得到一个三维特征向量(L，C，A)，每个作者都代表三维空间中的一个点；对于一个未知的作者样本，在计算出其三维特征向量后，那么可以计算出样本数据集中离其最近的K个点，其中意见领袖和非意见领袖两个类别所占的个数表示成k_i，i＝1，2；i＝1表示意见领袖，i＝2表示非意见领袖，定义判别函数为：g_i(x)＝k_i，i＝1，2；决策规则为：

根据这个K个最近邻点中所占大多数的类别，可以预测出该作者是否为意见领袖。K值的确定以及距离计算公式请见具体实施方式。

本发明的有益效果是：

通过收集网络意见，对其进行意见个体活跃度、意见个体关注度、意见个体认同度三个方面的分析计算，以此为基础进行意见领袖的综合分析和识别。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1是本发明意见领袖识别方法实施例的结构示意图。

图2是本发明意见领袖识别方法实施例的意见领袖识别结果判定示意图。图2中，小圆形图案代表有待判定是否为意见领袖的作者，方块图案代表样本集合中的意见领袖，三角形图案代表样本集合中的非意见领袖。

具体实施方式

如图1所示，本实施例的技术核心包括意见个体活跃度的分析，意见个体关注度的分析，意见个体认同度的分析，意见领袖的分析和识别这四个部分。其中意见领袖的分析和识别要建立在前三项分析出结果并综合的基础上。

一、网络意见收集如下：

网络意见的收集是通过主要的几个微博平台用户发表的言论，通过网络的合法的收集下载，下载大量的微博发文及其评论信息，并针对相关的话题比较活跃的进行跟踪的下载，将所有的发文按照用户分类收集以提供各方面的分析。

二、标准样本集建立

可以在某个特定互联网主题(如周口平坟事件)开始发酵，到持续升温这一段时间内，对所有发帖作者进行信息采集，然后由意见领袖识别专家对该作者进行综合研判，给出是否为意见领袖的标注。最后选取200名作者，作为标准标本集存入数据库，其中意见领袖和非意见领袖的数量按照全部标注集合中二者的比例进行分配。

三、意见个体活跃度的分析如下：

(1)通过收集网络意见得到数据进行分组，统计样本标准集中每个个体的发文量并记录其发文时间；

(2)通过计算发文时间间隔并统计每个个体用户的平均发文频率，转帖频率和评论频率；

作者平均每天发表的原创帖子数量(记为V_org)，每天转发的帖子数量(记为V_for)，每天评论的帖子数量(记为V_rem)，可以定义下述公式将该指标量化。

发文频率(即平均每天的发帖量)V_org＝N/T，其中N为发文量，T为发文间隔时间(即最早发文时间和最迟发文时间的时间间隔)，以天为单位。

转帖频率(即平均转发的帖子量)V_for＝N/T，其中N为转发的帖子总量，T为发文间隔时间(即最早发文时间和最迟发文时间的时间间隔)，以天为单位。

评论频率(即平均每天的评论量)V_rem＝N/T，其中N为评论帖子的总量，T为发文间隔时间(即最早发文时间和最迟发文时间的时间间隔)，以天为单位。

将上述三个指标经过取整后进行归一化计算。具体归一化方法为：

V_{org}^{'} = \frac{V_{org} - \min_{org}}{\max_{org} - \min_{org}} * (new_\max_{org} - new_\min_{org}) + new_\min_{org}

V_{for}^{'} = \frac{V_{for} - \min_{for}}{\max_{for} - \min_{for}} * (new_\max_{for} - new_\min_{for}) + new_\min_{for}

V_{rem}^{'} = \frac{V_{rem} - \min_{rem}}{\max_{rem} - \min_{rem}} * (new_\max_{rem} - new_\min_{rew}) + new_\min_{rem}

其中min_org，max_org分别表示在标准样本集合中，所有作者中的最小平均发帖量和最大平均发帖量；min_for，max_for表示所有作者中的最小平均转帖量和最大平均转帖量；min_rem，max_rem表示所有作者中的最小平均评论量和最大平均评论量；在实施过程中，可以将上述区间归一化到0，1区间内，即new_max_org＝1，new_min_org＝0，new_max_for＝1，new_min_for＝0，new_max_rem＝1，new_min_rem＝0。

(3)使用综合公式对意见个体活跃度进行计算，具体公式如下：

L＝W_orgV_org+W_forV_for+W_remV_rem

上式中，L为意见活跃度，W_org为原创帖子所占的活跃度权重，W_for为转发帖子所占的活跃度权重，W_rem为评论帖子所占的活跃度权重。权重可以根据经验取值，定义W_org＝0.5，W_for＝0.2，W_rem＝0.3。

四、意见个体受关注度的分析如下：

分别统计意见个体的所有发文被点击浏览的总次数Tc、总评论数Td、总转发数Tt。以这三个指标作为判定意见个体受关注度的标准。在微博中点击浏览数可以用其粉丝数代替，针对有转发标志的发文，追溯至源来收集其转载数来判定；具体流程为：

(1)通过收集网络意见，统计样本标准集中每个个体的发文量，并统计其浏览总数，转发总数和评论总数。

(2)按照如下公式计算平均转发数，平均浏览数，平均评论数，

平均转发数M＝Tt/N，Tt为所有发文转发总数，N为意见个体的原创发文量。

平均浏览数S＝Tc/N，Tc为每个的发文浏览数的总数，N定义同上。

平均评论数P＝Td/N，Td为每个的发文评论数的总数，N定义同上。

该指标需要做归一化计算，具体公式为：

M^{'} = \frac{M - \min_{M}}{\max_{M} - \min_{M}} * (new_\max_{M} - new_\min_{M}) + new_\min_{M}

S^{'} = \frac{S - \min_{S}}{\max_{S} - \min_{S}} * (new_\max_{S} - new_\min_{S}) + new_\min_{S}

P^{'} = \frac{P - \min_{P}}{\max_{P} - \min_{P}} * (new_\max_{M} - new_\min_{M}) + new_\min_{M}

其中new_max_M＝1，new_min_M＝0，new_max_S＝1，new_min_s＝0，new_max_P＝1，new_min_P＝0。

(3)计算意见个体受关注度，

定义意见个体受关注度计算公式：

C＝M′*Wm+S′*Ws+P′*Wp；

其中Wm为平均转发数权重，Ws为平均浏览数权重，Wp为平均评论数权重，根据经验确定Wm＝0.5，Ws＝0.1，Wp＝0.4。

五、意见个体发文认同度的分析如下：

该步骤需要统计所有针对意见个体所发布微博的评论中，支持或赞成的比例，如果支持或赞成的比例越高，则表示意见个体发文认同度越高，反之，则越低。具体过程如下：

(1)收集一段时间内，意见个体发文的所有评论；

(2)调用分类器对每一条评论进行自动分类，给出评论为支持，不支持，中性的结论。分类器可以按概率统计方法计算，具体步骤如下：

步骤1：准备工作阶段，这个阶段的任务是为自动分类做必要的准备，主要工作是由人工对一些样本集进行分类，给出支持或反对评价的标注，形成训练样本集合。为保证训练质量，需要保证支持样本不低于4000个，反对的样本有4000个。

步骤2：分类器训练阶段，这个阶段的任务就是生成文本分类系统，主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计，并将结果记录。其输入是特征属性和训练样本，输出是分类器。根据公式可以由程序自动计算完成。

文本分类系统将文档映射成一组特征.文档的特征用一组带权重的词来表示.词权重的计算依靠TF/IDF。有了文档的特征以后就是依次计算所有分类的概率.最终选取最大的一个作为最后的分类结果.

分类计算公式如下：

P (c_{j} | d_{i}) = \frac{P (d_{i} | c_{j}) P (c_{j})}{P (d_{i})}

P (d_{i} | c_{j}) = Π_{k = 1}^{r} P (w_{ik} | c_{j})

假设特征中的词为独立的，j取值为0，1或2，为0表示支持，为1表示为不支持，为2表示中立，w_ik表示文档i的第k个特征词。

P (c_{j}) = \frac{N (c_{j})}{\underset{k}{Σ} N (c_{k})} = \frac{1 + N (c_{j})}{| c | + \underset{k = 1}{Σ} N (c_{k})}

P (w_{i} | c_{j}) = \frac{1 + N_{ij}}{| V | + \underset{k}{Σ} N_{kj}}

N(c_j)表示c_j的文档数，|c|表示类别个数，本例中为3。|V|表示不同词的个数，N_ij表示w_i在c_j类别文档中出现的次数。

分别计算P(c₀|d_i)P(c₁|d_i)和P(c₂|d_i)，选取最大的一个作为文档d的类别。

(3)基于步骤2的判定结果，针对每一个意见个体，统计所有评论中支持评论的比例，将其定义为发文认同度，具体计算公式为：

B = \frac{Σ_{i = 1}^{k} {Agree}_{i} - DisAg {ree}_{i}}{N + 1}

上式中，Agree_i表示意见个体发布的第i篇文章中所有持支持态度的评论数，DisAgree_i表示持反对态度的评论数，k为意见个体发布的文章总数，N为所有参与评论的作者数量。在实施时，同一评论人针对同一个帖子发表的多篇评论时只计算一次。

六、意见领袖的分析和识别

将标注样本集中的活跃度、受关注度，发文认同度计算完成后，形成三维特征向量，保存入数据库，对于一个未知的作者，可以按如下方法计算出其是否为意见领袖：

(1)按前述步骤计算出活跃度、受关注度、发文认同度三维特征向量(L，C，B)。

(2)可以计算出样本数据集中离其最近的k个点，k根据经验可取值为3。距离计算公为：

d (p, q) = \sqrt{\underset{i}{Σ} {(p_{i} - q_{i})}^{2}}

p，q分别代表两个三维特征向量，i代表向量p的第i个维度。

k个点中，各类别所占的个数表示成k_i，i＝1，2。定义判别函数为：g_i(x)＝k_i，i＝1，2。决策规则为：

如图2所示，位于中央的小圆形图案代表有待判定是否为意见领袖的作者，在K个最近邻点类别中，如果多数为意见领袖(方块图案)，则判定该作者为意见领袖；如果多数为非意见领袖(三角形图案)，则判定该作者为非意见领袖。当取K＝3时，这3个点全部落在在较小直径的实线圆圈内，其中由于方块图案所占比例为2/3，则判定位于中央的小圆形图案属于方块图案所代表的那个类，即待判定作者为意见领袖；当取K＝5时，这5个点全部落在较大直径的虚线圆圈内，其中由于三角形图案所占比例为3/5，则判定位于中央的小圆形图案属于三角形所代表的类，即待判定作者为非意见领袖。根据经验，实施过程中，可以取K＝3。

以上所述的本发明实施方式，并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明的权利要求保护范围之内。

Claims

1.微博媒体中的意见领袖识别方法，包括以下步骤：

一、网络意见收集：

二、标准样本库标注：

选取一段时间内，有发言的微博作者，由相关的意见领袖识别专家对该作者进行手工标注，给出是否为网络水军的判定，并从中选取一定量的微博作者放入标准样本数据库；该样本数据将作为后续意见领袖判定的标注样本集合；

三、意见个体活跃度：

1)个体活跃度由三个方面构成，包括，在某一段相关话题比较活跃的时间内，该作者平均每天发表的原创帖子数量记为V_org，每天转发的帖子数量记为V_for，每天评论的帖子数量记为V_rem，可以定义下述公式将该指标量化；

L＝W_orgV_org+W_forV_for+W_remV_rem (1)

在(1)式中，W_org为原创帖子所占的活跃度权重，W_for为转发帖子所占的活跃度权重，W_rem为评论帖子所占的活跃度权重；为了防止具有较大初始值的属性与具有较小初始值的属性相比，权重过大，需要先将上述三种帖子数量进行规范化后再代入公式进行计算；

四、意见个体受关注度：

意见个体受关注度C＝M*Wm+S*Ws+P*Wp (2)

各个数量在代入(2)式计算时同样需要做归一化处理；

五、意见个体发文认同度：

对于某个主题或领域的意见领袖，其发表的微博观点往往会得到多数人的认同，定义意见个体发文认同度指标如下：

B = \frac{Σ_{i = 1}^{k} {Agree}_{i} - DisAg {ree}_{i}}{N + 1} - - - (3)

在(3)式中，Agree_i表示意见个体发布的第i篇文章中所有持支持态度的评论数；DisAgree_i表示持反对态度的评论数；k为意见个体发布的文章总数；N为所有参与评论的作者数量；

六、意见领袖的分析和识别：

根据这个K个最近邻点中所占大多数的类别，可以预测出该作者是否为意见领袖。