CN102314489B - 网络论坛中舆论领袖分析方法 - Google Patents

网络论坛中舆论领袖分析方法 Download PDF

Info

Publication number
CN102314489B
CN102314489B CN201110232191.0A CN201110232191A CN102314489B CN 102314489 B CN102314489 B CN 102314489B CN 201110232191 A CN201110232191 A CN 201110232191A CN 102314489 B CN102314489 B CN 102314489B
Authority
CN
China
Prior art keywords
influence
power
represent
attribute
opinion leader
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110232191.0A
Other languages
English (en)
Other versions
CN102314489A (zh
Inventor
张伟哲
张玥
何慧
张宏莉
李东
陈琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN201110232191.0A priority Critical patent/CN102314489B/zh
Publication of CN102314489A publication Critical patent/CN102314489A/zh
Application granted granted Critical
Publication of CN102314489B publication Critical patent/CN102314489B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种网络论坛中舆论领袖分析方法,首先计算任意两个发帖人之间的影响力,采用两两比较的方法计算,产生了基于对话链的阶梯式计算次数,称为阶梯式评价方法;其次计算对话链中任一个发帖人在整个对话链中的影响力;对于发帖人ai在该话题的多个对话链及总的影响力评价指标的计算;基于参与者统计属性特征:帖子的支持率、发帖数、回帖数和网龄;刻画网民在论坛中基本行为的统计数据;综合计算舆论领袖值。网络舆论领袖的分析是在网络论坛特定的板块中,限定在某一话题内或领域内,根据此话题或领域内网民统计属性特征及网民的发帖语料两个方面进行评价,再按合理的权值计算出每一位网民的得分,得分高者即为此话题或此领域内舆论领袖。

Description

网络论坛中舆论领袖分析方法
技术领域
本发明涉及一种网络论坛中舆论领袖分析方法,属于网络论坛分析方法技术领域。
背景技术
日本学者Matsumura等人曾于2002年提出了基于在线网络社区交流的“影响力扩散模型”(Influence Diffusion Model,简称IDM),旨在从文本内容和交往网络两个方面来区分网络角色类型,区分在网络中是何种参与者、参与者的特征及网络交流中所担负的角色等,筛选出舆论领袖。IDM模型具有明显的优点,它使发帖人在网络中的语料影响力得以量化,便于网络舆论领袖基于语料的甄别。但简单影响力扩散模型明显存在两个较大的缺陷。一是当基于语料的对话链在传递的过程中出现简单语料或是帖子与上一级帖子完全无词语交集时,必然会出现对话链影响力急剧降低或是完全“断裂”的情形。根据IDM模型算法来计算基于语料的影响力将难以得出正确的结果,因为对话链的“断裂”使上级帖子对下级帖子的影响力均变为零。二是IDM模型计算词汇时采用帖子所有实词和虚词组成的词汇集,其实在语料的影响力扩散过程中实词起到了主导作用,虚词的影响几乎可以忽略不计。
网络舆论领袖仅依赖语料扩散计算影响力是不全面的,舆论扩散仅能从词的传播角度计算,其不能反映舆论领袖传播内容是否健康、正面性,故还需从被认同度、文章影响力、网民的认知力等多角度分析。
发明内容
本发明的目的是通过对网络舆论领袖的自动识别与筛选,为社会各职能管理部门畅通舆情信息渠道、及时处理突发事件和应对复杂局面,为维护国家安全和社会稳定提供强有力的保障,进而提供一种网络论坛中舆论领袖分析方法。
本发明的目的是通过以下技术方案实现的:
网络论坛中舆论领袖分析方法,
一、基于论坛语料的影响力计算
对于某话题,由a1,a2,a3,…,an组成的回复对话链关系中,设w1,w2,w3,…,wn分别为a1,a2,a3,…,an发帖人所发帖子的词汇集合,i1,i2,i3,…,in分别为此对话链中a1,a2,a3,…,an发帖人对其它人的影响力指标,则对于简单语料IDM模型计算方法改进为如下规则:
(1)首先计算任意两个发帖人之间的影响力,采用两两比较的方法计算,产生了基于对话链的阶梯式计算次数,称为阶梯式评价方法;Cx、Cy表示网民x、y的发帖内容,Wx、Wy表示帖子文本词语集合,如果y回复x,则认为x影响y,影响力通过对话链由Cx传递给Cy,将Cx对Cy的影响用符号ix,y表示;影响力ix,y通过计算x的帖子内容Cx与y的帖子内容Cy得到;首先分别对Cx与Cy进行分词,然后计算两分词集合的相似程度,找出词语交集,Cx对Cy的影响力表示为Cx与Cy中词语的交集占Cy词语总数的比例;
假设Cy回复Cx,Cz回复Cy,那么,Cx对Cz的影响力用ix,z表示,即Cx、Cy与Cz中词语的交集占Cz中词语总数的比例与Cx对Cy的影响力ix,y的乘积;
多级回复关系中任一帖子对回复关系链中任一回复的影响力计算公式为:设Ci为起始帖,ξi,z表示从Ci开始到Cz结束的对话关系链,则ξi,z={Ci,Cj,Ck,…Cq,Cr,…Cy,Cz,其中i<j<k…q<r…y<z},用ii,r来表示Ci对Cr影响力;
(2)其次计算对话链中任一个发帖人在整个对话链中的影响力;方法为计算对话链中此发帖人对其它发帖人的影响力的总和;其中,ii为发帖人i在对话链中的影响力,ii,i+1,ii,i+2,…,ii,n分别为i对其后的每一个回复的影响力指标;
Ii=ii,i+1+ii,i+2+…+ii,n (1-4);
(3)对于发帖人i在该话题的多个对话链中总的影响力评价指标的计算,用DCi来表示Ci所引发的Pi个对话关系链中总的影响力;
论坛发帖人i基于语料的论坛总的影响力Di.
其中,Kx为x在论坛中的所有帖子集合;
二、基于网络统计属性的影响力计算
(1)基于参与者统计属性特征:帖子的支持率、发帖数、回帖数和网龄;刻画网民在论坛中基本行为的统计数据;
设A={a1,a2,…,an}为论坛中某个话题的网民的集合,Xi为某个统计属性,X={xij}为属性矩阵,xij是第ai个网民的第j个属性,属性值函数用fj表示,则xij=fj(ai),其中i=1,2,…,n;j=1,2,…,m;ai的属性值xij作如下定义:
xi1:表示ai的活跃程度,通过发帖数量来计算;
xi2:表示ai的被认同度,通过支持帖数和反对帖数之差来计算;
xi3:表示ai的说服力,通过帖子的长短来计算;
xi4:表示ai的感染力,通过关注数与粉丝数之和来计算;
xi5:表示ai认知力,通过社区积分来计算;
xi6:表示ai知名度,通过职位、职业、学历、网年与专业来计算;
(2)属性值的归一化处理,设变换后的属性矩阵为Z={zij},其中i=1,2,…,n;j=1,2,…,m,xjmin和xjmax分别为属性矩阵中第j列属性的最小值和最大值;
(3)确定参与者属性特征权重;采用矩阵专家法和Saaty的10级重要性等级量表,通过比较任意两个属性间的重要程度来确定权重;
b12:表示活跃程度与被认同度特征权重比值,
b13:表示说服力与活跃程度特征权重比值,
b14:表示活跃程度与感染力特征权重比值,
b23:表示说服力与被认同程度特征权重比值,
b24:表示被认同程度与感染力特征权重比值,
b34:表示说服力与感染力特征权重比值,
经过分析认为,活跃程度与被认同度介于同等重要和略微重要之间,b12=2;说服力与活跃程度相比略微重要,则取b13=3;活跃程度与感染力相比明显重要,b14=7;说服力与被认同程度相比同等重要,则取b23=1,被认同程度与感染力相比比较重要,则取b24=5;说服力与感染力相比比较重要,则取b34=5,其余各项权值依次取值;
用计算绝对值最大的特征值的乘幂法计算,通过取n维异于0的初始向量v0=(x0 (0),x1 (0)…Xn-1 (0))T,由权值矩阵B计算出其权值特征向量Wij;利用公式(1-9),(1-10)所示进行迭代运算,直到满足|||uk||2-||uk-1||2|<ε为止,求得权值矩阵的权值向量Wij
uk=Bvk-1 (1-9)
wij=[w1,w2,…wm] (1-11)
(4)利用加权平均算法计算基于参与者统计属性特征的舆论领袖评价指标;根据决策理论的方法描述可知,通过加权平均算法来计算,得分越高者与参与者是舆论领袖的可能性比重加大相一致;A={a1,a2,…,an}为话题参与者的集合,设ai属性的加权平均值为Ei,aj属性的加权平均值为Ej,若Ei≥Ej,则:舆论领袖的可能性:ai≥aj;反之,则:ai≤aj,加权平均的计算公式如(1-12)所示,Wij为绝对值最大的特征向量,zij为归一化后的属性矩阵;
三、综合计算舆论领袖值
根据Di和Ei的计算过程及上述分析可知,两者之和越大,舆论领袖的作用越突出;λ是参数;设Qi为舆论领袖的综合评价指标;
Qi=Di+λEi,i=1,2,…n (1-13)。
由上述提供的技术方案可以看出,网络舆论领袖的分析是在网络论坛特定的板块中,限定在某一话题内或领域内,根据此话题或领域内网民统计属性特征及网民的发帖语料两个方面进行评价,最后进行归一化处理,再按合理的权值计算出每一位网民的得分,得分高者即为此话题或此领域内舆论领袖。
本发明的发明效果具体分析如下
第一、评价指标的合理性和全面性:
和IDM技术相比,本发明采用基于网络论坛语料和基于网络统计属性特征的舆论领袖的综合评价指标进行量化。如果只利用其中一个量化指标来对论坛舆论领袖进行最终评价,都是不全面、不完整的。基于语料指标和基于统计属性特征的指标是评价论坛舆论领袖的两个方面,两个量化值之间起到相互补偿的作用。
根据决策理论的方法描述假设可知,两个量化值满足两个假设条件:
(1)基于语料和基于统计属性特征两个量化指标与参与者是舆论领袖的可能性之间是线性关系,即两个量化指标越大,是舆论领袖的可能性越大,且满足相互独立条件。
(2)两个量化指标间起到相互补偿的作用,无论其中一个指标有多差,另一个指标都可以补偿。
因此可以通过加权平均算法来计算舆论领袖的综合评价指标,得分越高者舆论领袖的作用越突出。
综合评价公式:设Qi为舆论领袖的综合评价指标,则Qi可用公式3-1表示。
Qi=Di+λEi i=1,2,…,n (3-1)
基于语料得到的量化指标Di(见公式1-6)和基于统计属性特征得到的量化指标Ei(公式1-12。其中λ值在实验中经过训练集训练与人工选取相结合的方法得到。
第二、实验和结果比较:
为了减少数据处理的难度和降低计算的复杂度,但还必需保持数据有一定的代表性,我们没有选择热点话题作为实验数据。实验选取天涯社区上天涯杂谈版块的“中国正宗古汉语发音到底是不是粤语发音”话题为实例,通过采集此话题所有参与网民的注册信息以及此话题的所有发帖内容。数据采集共涉及主帖和回帖16621帖,参与网民2598人,数据截止时间为2011年3月12日上午10时。经过第一次数据预选,共删除“噪声数据”202人。实际参与影响力计算的共16056帖,参与网民共2396人。
表3-1是经过数据预处理后部分网民的统计属性矩阵值,从表中的数据可以看出各属性间的取值差异较大,虽均无量纲,但属性间的各值也无法直接进行比较得出想要的结果,这也间接说明了归一化处理和权重矩阵的选取的必要性和科学性。表上的数据同时也表明,如果各属性间依据10级等级量表选取的权重矩阵不同,最后得出的影响力结果存在较大差别,这就要求使用此法筛选网络舆论领袖时,对属性间的重要程度的选取要有相当的经验,否则结果就会出现偏差,甚至是错误的结果。
表3-1部分网民统计属性矩阵值
表3-2是部分基于属性特征和基于语料的影响力计算结果,基于特征向量的评价和归一化语料匹配值两项数据差距较大,为了不使其中任何一个数值影响占绝对优势,完全影响最终的影响力计算结果,同样需要对两项数据做归一化处理后,引入权重系数λ值,求得按一定比重得出的最终影响力排序结果,如表3-3所示。由此可以看出,λ值的选取非常重要,它不但与通过专家人工确定的网民排名顺序有关,也与网民统计属性矩阵中权重向量矩阵B的选取直接相关。因此,网络舆论领袖的筛选,在模型的训练阶段,训练集中参数的选取,具体的说就是权重的选取,存大很大的人为因素,专家的选取结果相对较准确。
表3-2部分基于属性特征和基于语料的影响力计算结果
表3-4给出了,在权重矩阵B一定的情形下,当λ取不同值时,程序计算出的得分最高的前50名网民的最终综合影响力排序结果,与专家人工筛选出的得分最高的前50名网民的排名相比较,保持相同排序的人数。图3给出了较为直观的准确率分布图,由图可以看出,在权重矩阵B一定的条件下,λ值取0.6时,程序输出的综合影响力值排名前50名的网民,与专家人工筛选出排名前50名的网民,其保持相同排序的人数最多。也就是说,当λ等于0.6时,机器筛选和人工筛选最为接近,成功率达86%,而当λ等于1.8时最小,成功率只有42%。根据柱状分布图可以明显看出,λ取值与筛选成功率呈正态分布趋势,当λ等于0.6时为正态分布的峰值,即筛选成功率最高,反之当λ小于或大于0.6时成功率均呈下降趋势。
表3-3部分最终综合影响力计算结果
排名 网名 综合评价值
1 zbtonghebxg 0.693005
2 圣婴走猫步 0.541203
3 非典型精神病 0.510087
4 天堂里的瓜 0.503681
5 龙业 0.498162
6 七采之狼 0.487203
7 木木思春 0.476235
8 欧阳凌霄 0.438885
9 苏永裕 0.436980
10 天国崛起2009 0.431203
表3-4不同λ值对应机器筛选与人工筛选保持相同排序网民数表
根据上面的实验结果,若合理选取λ值,机器筛选网络舆论领袖的成功率在85%左右(见图3)。
附图说明
图1为基于简单语料的影响力阶梯式评价方法示意图;
图2为帖子C1对其它回复的影响力计算示意图;
图3为不同λ值对应机器筛选与人工筛选保持相同排序网民数柱状分布图;
图4为论坛舆论领袖筛选模型图;
图5为论坛某话题舆论领袖筛选模型图;
图6为网络舆论领袖的模块化实验过程模型图。
具体实施方式
本具体实施方式提供了一种网络论坛中舆论领袖分析方法,如图1和图2所示,其方法为:
一、基于论坛语料的影响力计算
基于IDM模型存在的缺陷本实施方式提出一种新的计算方法,称为基于语料的阶梯式评价方法。如图1所示,对于某话题,由a1,a2,a3,…,an组成的回复对话链关系中,设w1,w2,w3,…,wn分别为a1,a2,a3,…,an发帖人所发帖子的词汇集合,i1,i2,i3,…,in分别为此对话链中a1,a2,a3,…,an发帖人对其它人的影响力指标,则对于简单语料IDM模型计算方法改进为如下规则:
(1)首先计算任意两个发帖人之间的影响力,采用两两比较的方法计算,在对话链中,考虑到帖子只对其后回复的帖子有影响,对对话链中位于其前面的帖子没有影响,故而比较时,只与其后的回复帖子相比较,对话链中越靠前的帖子比较次数就越多,比较次数随着对话链逐级减少,最后一个帖子对其前面的任何帖子无影响。如图1所示,产生了基于对话链的阶梯式计算次数,故而称为阶梯式评价方法。两两比较的公式采用公式2-1式所示。Cx、Cy表示网民x、y的发帖内容,Wx、Wy表示帖子文本词语集合,如果y回复x,则认为x影响y,影响力通过对话链由Cx传递给Cy,将Cx对Cy的影响用符号ix,y表示。影响力ix,y通过计算x的帖子内容Cx与y的帖子内容Cy得到。首先分别对Cx与Cy进行分词,然后计算两分词集合的相似程度,找出词语交集。Cx对Cy的影响力表示为Cx与Cy中词语的交集占Cy词语总数的比例。
公式1-1表示了一级回复关系间影响力的度量方法。对于多级回复关系影响力的度量比较复杂。以二级回复为例,假设Cy回复Cx,Cz回复Cy。那么,Cx对Cz的影响力用ix,z表示,即Cx、Cy与Cz中词语的交集占Cz中词语总数的比例与Cx对Cy的影响力ix,y的乘积。见公式1-2。
例如,如图2所示,C1为主帖,C2、C3分别回复C1,C4回复C2。C1包含A、B、C三个词,C2包含A、C、D三个词,C3包含B、F两个词,C4包含C、F两个词。C1、C2词语交集为A、C,C1对C2影响力为2/3;C1与C3词语交集为B,C1对C3影响力为1/2;C1、C3、C4词交集为C,C1对C4影响力为1/2×2/3。
多级回复关系中任一帖子对回复关系链中任一回复的影响力计算公式为:设Ci为起始帖,ξi,z表示从Ci开始到Cz结束的对话关系链,则ξi,z={Ci,Cj,Ck,…Cq,Cr,…Cy,Cz,其中i<j<k…q<r…y<z}用ii,r来表示Ci对Cr影响力,如公式1-3所示。
(2)其次计算对话链中任一个发帖人在整个对话链中的影响力。方法为计算对话链中此发帖人对其它发帖人的影响力的总和。公式如1-4所示。其中,ii为发帖人i在对话链中的影响力,ii,i+1,ii,i+2,…,ii,n分别为i对其后的每一个回复的影响力指标。
Ii=ii,i+1+ii,i+2+…+ii,n (1-4)
(3)对于发帖人i在该话题的多个对话链中总的影响力评价指标的计算,参照公式1-5,公式1-6计算。用DCi来表示Ci所引发的Pi个对话关系链中总的影响力Pi个对话链中总的影响力;
论坛发帖者x基于语料的论坛总的影响力Dx.
其中,Kx为x在论坛中的所有帖子集合
二、基于网络统计属性的影响力计算
网络舆论领袖除与发表内容有关外,还与话题参与者的某些网络统计属性有着密切的关系,如帖子的支持率、点击率、发帖数、粉丝数、帖子的长短等。
(1)基于参与者统计属性特征:帖子的支持率、发帖数、回帖数、网龄等。刻画网民在论坛中基本行为的统计数据。
设A={a1,a2,…,an}为论坛中某个话题的网民的集合,Xi为某个统计属性,X={xij}为属性矩阵,xij是第ai个网民的第j个属性,属性值函数用fj表示,则xij=fj(ai),其中i=1,2,…,n;j=1,2,…,m。则该话题网民构成的统计属性特征矩阵如表2-1所示。
表2-1网络论坛网络舆论领袖属性矩阵
X1 X2 Xj Xm-1 Xm
a1 x11 x12 x1j x1(m-1) x1m
a2 x21 x22 x2j x2(m-1) x2m
ai xil xi2 xij xi(m-1) xim
an-1 x(n-1)1 x(n-1)2 x(n-1)j x(n-1)(m-1) x(n-1)m
an xn1 Xn2 xnj xn(m-1) xnm
ai的属性值xij作如下定义:
ai1:表示ai的活跃程度,通过发帖数量来计算。
ai2:表示ai的被认同度,通过支持帖数(正响应值)和反对帖数(负响应值)之差来计算。
ai3:表示ai的说服力,通过帖子的长短(字数)来计算。
ai4:表示ai的感染力,通过关注数与粉丝数之和来计算。
ai5:表示ai认知力,通过社区积分等来计算。
ai6:表示ai知名度,通过职位、职业、学历、网年与专业等来计算
(2)属性值的归一化处理。设变换后的属性矩阵为Z={zij},其中i=1,2,…,n;j=1,2,…,m。xjmin和xjmax分别为属性矩阵中第j列属性的最小值和最大值,归一化处理采用如公式1-7进行变换处理。
(3)确定参与者属性特征权重。为了便于总体评价网民网络行为,还需要为每项属性设置权重。本实施方式采用矩阵专家法和Saaty的10级重要性等级量表,通过比较任意两个属性间的重要程度来确定权重。两属性间重要性等级量表如表2-2所示。
表2-2两属性间10级重要性等级量表
以前面定义的六个属性活跃程度、被认同度、说服力、感染力、认知力和知名度为例,经过经验分析认为,活跃程度与被认同度介于同等重要和略微重要之间,b12=2;说服力与活跃程度相比略微重要,则可取b13=3;活跃程度与感染力相比明显重要,b14=7;说服力与被认同程度相比同等重要,则可取b23=1,被认同程度与感染力相比比较重要,则可取b24=5;说服力与感染力相比比较重要,则可取b34=5,其余各项权值依次取值。于是得到话题参与者各属性相对重要性权值矩阵B如矩阵1-8所示。此矩阵的取值依赖于重要程度等级量表的定义和取值,人为的主观因素较重,因此权重矩阵的选取工作,需要有丰富经验的专家有担当。
用计算绝对值最大的特征值的乘幂法计算[28],通过取n维异于0的初始向量v0=(x0 (0),x1 (0)…xn-1 (0))T,由权值矩阵B可以计算出其权值特征向量Wi。利用公式1-9,1-10所示进行迭代运算,直到满足|||uk||2-||uk-1||2|<ε为止,求得权值矩阵的权值向量Wij
uk=Bvk-1 (1-9)
Wij=[w1,w2,…wm] (1-11)
(4)利用加权平均算法计算基于参与者统计属性特征的舆论领袖评价指标。根据决策理论的方法描述假设可知,可以通过加权平均算法来计算,得分越高者与参与者是舆论领袖的可能性比重加大相一致。A={a1,a2,…,an}为话题参与者的集合,设ai属性的加权平均值为Ei,aj属性的加权平均值为Ej,若Ei≥Ej,则:是舆论领袖的可能性:ai≥aj;反之,则:ai≤aj。加权平均的计算公式如1-12所示,wij为绝对值最大的特征向量,zij为归一化后的属性矩阵。
三、综合计算舆论领袖值
基于语料指标和基于统计属性特征的指标是评价论坛舆论领袖的两个方面,两个量化值之间起到相互补偿的作用。因此可以通过加权平均算法来计算舆论领袖的综合评价指标,得分越高者舆论领袖的作用越突出。
根据Di和Ei的计算过程及上述分析可知,两者之和越大,舆论领袖的作用越突出。λ是参数。设Qi为舆论领袖的综合评价指标,则Qi可用公式1-13表示。
Qi=Di+λEi i=1,2,…,n (1-13)。
网络舆论领袖与传统舆论领袖有很大的不同,虽然其基本特征有相似之处,但筛选、测量的方法完全不同,对特征的描述也有很大区别。不能用传统的方法在网络中区分出网络舆论领袖。除了具有传统舆论领袖分析问题有独特视角,影响力强,有一定声望等一些特征外,网络舆论领袖还具备以下特征。1)是个完全虚拟的人,是一个ID,是网络中识别身份的唯一标识,网络ID标识的人与现实的人有较大差距;2)网络舆论领袖没有固定的追随者,可以是一次性的、短暂的舆论领袖。基本是以网络话题为导向,随着话题的热度的消失网络舆论领袖随之而消亡;3)网上行为很活跃,通过发帖、回帖、顶帖等来度量。网络舆论领袖一定是由那些发帖数量多、质量高,文章影响力强、点击率高,个人声望值高,认同值、响应值相对较多的网民充当。
网络舆论领袖主要是通过考察网络中特定领域内参与指定话题的网民的活跃程度、认同程度及影响程度来获得。特定领域是指WEB应用的具体方式,如BBS、博客、QQ及时通信工具等,指定话题是指网络舆论领袖的专业性及生存的时间,网络舆论领袖跟传统舆论领袖长期存在于某领域不一样,网络舆论领袖可能是一次性的,短暂的存在。因而,考察时只能在指定话题内进行。网络舆论领袖的认同程度通过其发帖的跟帖数(响应值)来度量,包括支持者数量(正响应值),反对者数量(负响应值),计算方法一般是正响应值与负响应值的数学和(∑Ag+∑Dg,其中∑Ag是获得支持的总数,∑Dg是反对者的数量);活跃程度通过其就某一话题所发表的帖子数量来度量;影响程度通过其发帖的长度及点击率、转载次数、引用次数来度量。个人影响力主要考察其专业成就,是利用其所发文章进行聚类分析,分类出所在领域的文章数,获得影响力程度。通过以上几项测量指标,然后经过归一化处理,按照一定的权重计算,得分居高者即为舆论领袖。为了便于舆论领袖的量化和抽象,在这里给出网络论坛的舆论领袖筛选模型,如图4所示。
网络论坛舆论领袖的筛选模型的工作过程。1)根据论坛设置的不同版面,初步确定某话题(或某领域)语料采集的范围。2)以时间为阈值,采集指定版面相关话题在指定阈值内的发帖者信息。3)根据采集到的主帖及回帖语料内容进行聚类分析。4)比较发帖网民在某领域内的影响力综合评价值,确定舆论领袖。
图5给出了某话题或领域内舆论领袖的部分测量变量和筛选过程:首先对采集到的论坛语料进行聚类分析提取出兴趣主题。在这个兴趣主题下,可能只包含某个版块的某个话题,也可以是不同版块间的同一个话题;可以只包含一个主帖及其回复,也可能是多个主帖及对应的回复。获取语料后从二个方面对发帖人进行测量,一方面依据发帖人的语料进行影响力评估,如利用分词对比、词频统计等方法,另一方面依据发帖人在网络中的各种统计属性,如发帖数、回帖数、被认同值、活跃程度等进行评估。最后按照一定的权值比例,进行归一化处理,按得分情况对网民进行分类,得分最高的是网络舆论领袖。通常情况下,根据属性及内容亦可区分出焦点人物,和一般参与者。
网络舆论领袖的模块化实验过程模型如图6所示,该模型将实验过程分为四个阶段,数据获取、数据预处理、影响力计算及结果输出,模型清楚的显示了实验过程的主要环节及流程。
BBS网络舆论领袖在网络舆情系统中的应用过程:论坛(BBS)语料获取,语料的聚类分析,网络舆论领袖的甄别,网络舆论领袖行为分析。
(1)论坛(BBS)原始语料的获取。主要是通过网络爬虫(WebCrawler)在网络论坛上抓取各种信息,包括论坛信息、帖子信息、发帖者信息等,将这些信息按照一定的索引要求将它们存储到后台的数据库中。
论坛信息主要包括:论坛URL、论坛版块信息、版主等。发帖信息主要包括:帖子主题、帖子内容、发帖人、发帖时间、帖子长度、回复数量、点击率等。发帖人信息包括:在网络上注册时的姓名、性别、年龄、出生日期、文化程度、籍贯、居住地、EMAIL、QQ等自然人所具有的各项属性,同时也包括此发帖者在该论坛上发帖数量(包括主帖数及回帖数)、帖子内容、粉丝数量、关注度、开办博客的URL及博文数量、内容等。
(2)原始语料的聚类分析。主要是通过分析存储在后台数据库中的大量BBS语料,依据语料内容,应用聚类分析技术,按照主题的相似度的大小,对数据库中的语料进行分类,重新索引。同时根据语料内容、主题的热点分析,分析出网络舆论的热点或焦点。
(3)网络舆论领袖的甄别。BBS语料经过聚类分析后得到热点或焦点主题(话题),在此主题下,对话题的发起人、参与者及语料利用数据挖掘的方法甄别出谁是此话题的舆论领袖。主要是通过发帖者(包括主帖及回复)的活跃程度、认同程度和影响程度来测量。主要考察发帖人的发帖数、发帖质量、点击率、跟帖数等。个人声望值还需要考察网络博客发文内容及数量等相关情况。通过综合上面的各项指标,经过归一化处理,按照一定的权重配置打分,最后得分高者即为网络舆论领袖。
(4)网络舆论领袖的行为分析。主要是分析网络舆论领袖的成长经历及成为领袖后的行为。经过舆论领袖的甄别,区分出舆论领袖后,对舆论领袖的主要的特点及观点进行分析。通过分析其在网络上注册的各项资料,以及所发帖子的内容,得出舆论领袖的特点。即提取舆论领袖的成长经历和成为舆论领袖后的行为,分析出主要的观点和言论。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (1)

1.一种网络论坛中舆论领袖分析方法,其特征在于,
一、基于论坛语料的影响力计算
对于某话题,由a1,a2,a3,…,an组成的回复对话链关系中,设W1,W2,W3,…,Wn分别为a1,a2,a3,…,an发帖人所发帖子的词汇集合,i1,i2,i3,…,in分别为此对话链中a1,a2,a3,…,an发帖人对其它人的影响力指标,则对于简单语料IDM模型计算方法改进为如下规则:
(1)首先计算任意两个发帖人之间的影响力,采用两两比较的方法计算,产生了基于对话链的阶梯式计算次数,称为阶梯式评价方法;Cx、Cy表示网民x、y的发帖内容,Wx、Wy表示帖子文本词语集合,如果y回复x,则认为x影响y,影响力通过对话链由Cx传递给Cy,将Cx对Cy的影响用符号ix,y表示;影响力ix,y通过计算x的帖子内容Cx与y的帖子内容Cv得到;首先分别对Cx与Cy进行分词,然后计算两分词集合的相似程度,找出词语交集,Cx对Cy的影响力表示为Cx与Cy中词语的交集占Cy词语总数的比例;
C y → C x : i x , y = | W x ∩ W y | | W y | - - - ( 1 - 1 ) ;
假设Cy回复Cx,Cz回复Cy,那么,Cx对Cz的影响力用ix.z表示,即Cx、Cy与Cz中词语的交集占Cz中词语总数的比例与Cx对Cy的影响力ix,y的乘积;
C Z → C y → C x : i x , z = ( | W x ∩ W y ∩ W z | | W z | ) × i x , y - - - ( 1 - 2 ) ;
多级回复关系中任一帖子对回复关系链中任一回复的影响力计算公式为:设Ci为起始帖,ξi,z表示从Ci开始到Cz结束的对话关系链,则ξi,z={Ci,Cj,Ck,…Cq,Cr,…Cy,Cz,其中i<j<k…q<r…y<z},用ii,r来表示Ci对Cr影响力;
i i , r = ( | W i ∩ W j ∩ ... ∩ W r | | W r | ) × i i , q - - - ( 1 - 3 ) ;
(2)其次计算对话链中任一个发帖人在整个对话链中的影响力;方法为计算对话链中此发帖人对其它发帖人的影响力的总和;其中,Ii为发帖人i在对话链中的影响力,ii,i+1,ii,i+2,…,ii,n分别为i对其后的每一个回复的影响力指标;
Ii=ii,i+1+ii,i+2+…+ii,n (1-4);
(3)对于发帖人i在该话题的多个对话链中总的影响力评价指标的计算,用Dci来表示Ci所引发的Pi个对话关系链中总的影响力,I是发帖人i在对话链ξi中对他人的总影响力;
D C i = Σ ξ i ∈ p i Iξ i - - - ( 1 - 5 ) ;
论坛发帖人i基于语料的论坛总的影响力Di
D i = Σ C i ∈ k x D c i - - - ( 1 - 6 ) ;
其中,Kx为x在论坛中的所有帖子集合;
二、基于网络统计属性的影响力计算
(1)基于参与者统计属性特征:帖子的支持率、发帖数、回帖数和网龄;刻画网民在论坛中基本行为的统计数据;
设A={a1,a2,…,an}为论坛中某个话题的网民的集合,Xi为某个统计属性,X={xij}为属性矩阵,xij是第ai个网民的第j个属性,属性值函数用fj表示,则xij=fj(ai),其中i=1,2,…,n;j=1,2,…,m;ai的属性值xij作如下定义:
xi1:表示ai的活跃程度,通过发帖数量来计算;
xi2:表示ai的被认同度,通过支持帖数和反对帖数之差来计算;
xi3:表示ai的说服力,通过帖子的长短来计算;
xi4:表示ai的感染力,通过关注数与粉丝数之和来计算;
xi5:表示ai认知力,通过社区积分来计算;
xi6:表示ai知名度,通过职位、职业、学历、网年与专业来计算;
(2)属性值的归一化处理,设变换后的属性矩阵为z={zij},其中i=1,2,…,n;j=1,2,…,m,xjmin和xjmax分别为属性矩阵中第j列属性的最小值和最大值;
z i j = f j ( a i ) = x i j - x j min x j max - x j min - - - ( 1 - 7 ) ;
(3)确定参与者属性特征权重;采用矩阵专家法和Saaty的10级重要性等级量表,通过比较任意两个属性间的重要程度来确定权重;
b12:表示活跃程度与被认同度特征权重比值,
b13:表示说服力与活跃程度特征权重比值,
b14:表示活跃程度与感染力特征权重比值,
b23:表示说服力与被认同程度特征权重比值,
b24:表示被认同程度与感染力特征权重比值,
b34:表示说服力与感染力特征权重比值,
经过分析认为,活跃程度与被认同度介于同等重要和略微重要之间,b12=2;说服力与活跃程度相比略微重要,则取b13=3;活跃程度与感染力相比明显重要,b14=7;说服力与被认同程度相比同等重要,则取b23=1,被认同程度与感染力相比比较重要,则取b24=5;说服力与感染力相比比较重要,则取b34=5,其余各项权值依次取值;
B = 1 2 3 7 7 1 2 1 1 5 5 1 3 1 1 5 9 1 7 1 5 1 5 1 2 1 7 1 5 1 9 1 2 1 1 3 1 7 1 6 1 3 1 - - - ( 1 - 8 ) ;
用计算绝对值最大的特征值的乘幂法计算,通过取n维异于0的初始向量v0=(x0 (0),x1 (0)…xn-1 (0))T,由权值矩阵B计算出其权值特征向量Wij;利用公式(1-9),(1-10)所示进行迭代运算,直到满足|||uk||2-||uk-1||2|<ε为止,求得权值矩阵的权值向量Wij,ε是一个表示阈值的参数,||uk||表示进行对向量uk进行模运算,vk是向量uk均一化处理结果;
uk=Bvk-1 (1-9)
v k = u k | | u k | | 2 - - - ( 1 - 10 )
Wij=[W1,W2,…Wm] (1-11);
(4)利用加权平均算法计算基于参与者统计属性特征的舆论领袖评价指标;根据决策理论的方法描述可知,通过加权平均算法来计算,得分越高者与参与者是舆论领袖的可能性比重加大相一致;A={a1,a2,…,an}为话题参与者的集合,设ai属性的加权平均值为Ei,aj属性的加权平均值为Ej,若Ei≥Ej,则:舆论领袖的可能性:ai≥aj;反之,则:ai≤aj,加权平均的计算公式如(1-12)所示,Wij为绝对值最大的特征向量,zij为归一化后的属性矩阵;
E i = 1 m Σ j = 1 m W i j z i j , i = 1 , 2 , ... n - - - ( 1 - 12 ) ;
三、综合计算舆论领袖值
根据Di和Ei的计算过程及上述分析可知,两者之和越大,舆论领袖的作用越突出;λ是参数;设Qi为舆论领袖的综合评价指标;
Qi=Di+λEi,i=1,2,…n (1-13)。
CN201110232191.0A 2011-08-15 2011-08-15 网络论坛中舆论领袖分析方法 Active CN102314489B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110232191.0A CN102314489B (zh) 2011-08-15 2011-08-15 网络论坛中舆论领袖分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110232191.0A CN102314489B (zh) 2011-08-15 2011-08-15 网络论坛中舆论领袖分析方法

Publications (2)

Publication Number Publication Date
CN102314489A CN102314489A (zh) 2012-01-11
CN102314489B true CN102314489B (zh) 2017-02-15

Family

ID=45427654

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110232191.0A Active CN102314489B (zh) 2011-08-15 2011-08-15 网络论坛中舆论领袖分析方法

Country Status (1)

Country Link
CN (1) CN102314489B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9286619B2 (en) 2010-12-27 2016-03-15 Microsoft Technology Licensing, Llc System and method for generating social summaries
CN103514167B (zh) * 2012-06-15 2017-03-01 富士通株式会社 数据处理方法和设备
US9294576B2 (en) 2013-01-02 2016-03-22 Microsoft Technology Licensing, Llc Social media impact assessment
CN103309957B (zh) * 2013-05-28 2016-12-28 华东师范大学 一种引入列维飞行的社交网络专家定位方法
CN104133897B (zh) * 2014-08-01 2017-07-11 哈尔滨工程大学 一种基于话题影响力的微博话题溯源方法
CN106294363A (zh) * 2015-05-15 2017-01-04 厦门美柚信息科技有限公司 一种论坛帖子评价方法、装置及系统
CN104866561B (zh) * 2015-05-19 2018-09-07 国家计算机网络与信息安全管理中心 一种挖掘微博话题趋势发起人的方法
CN105117385B (zh) * 2015-09-09 2017-12-19 北京中润普达信息技术有限公司 一种以矩阵计算为基础进行舆论信息抽取的方法及系统
CN106204297A (zh) * 2016-07-11 2016-12-07 深圳市中北明夷科技有限公司 一种封闭社交传播意见领袖的识别方法及装置
CN108664483B (zh) * 2017-03-28 2021-04-09 北大方正集团有限公司 特定用户群体的管理方法及管理系统
CN107230158A (zh) * 2017-06-12 2017-10-03 合肥工业大学 社交网络用户相对影响力度量方法
CN112115357B (zh) * 2020-09-11 2021-05-07 华中师范大学 一种在线课程论坛交互模式识别方法及系统
CN112785156B (zh) * 2021-01-23 2024-04-30 罗家德 一种基于聚类与综合评价的产业领袖识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763401A (zh) * 2009-12-30 2010-06-30 暨南大学 一种网络舆情的热点预测和分析方法
CN101853261A (zh) * 2009-11-23 2010-10-06 电子科技大学 一种基于社会网络的网络舆情行为分析方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853261A (zh) * 2009-11-23 2010-10-06 电子科技大学 一种基于社会网络的网络舆情行为分析方法
CN101763401A (zh) * 2009-12-30 2010-06-30 暨南大学 一种网络舆情的热点预测和分析方法

Also Published As

Publication number Publication date
CN102314489A (zh) 2012-01-11

Similar Documents

Publication Publication Date Title
CN102314489B (zh) 网络论坛中舆论领袖分析方法
CN103699626B (zh) 一种微博用户个性化情感倾向分析方法及系统
CN101763401B (zh) 一种网络舆情的热点预测和分析方法
CN102394798B (zh) 一种基于多元特征的微博信息传播行为预测方法及系统
CN103150333B (zh) 微博媒体中的意见领袖识别方法
CN109241255A (zh) 一种基于深度学习的意图识别方法
CN111401040B (zh) 一种适用于word文本的关键词提取方法
CN110347814B (zh) 一种律师精准推荐方法及系统
CN106447285A (zh) 基于多维度领域关键知识的招聘信息匹配方法
Gelderblom et al. Mobile phone adoption: Do existing models adequately capture the actual usage of older adults?
CN107330627A (zh) 一种创新创意的大数据处理方法、服务器及系统
CN109978020B (zh) 一种基于多维特征的社交网络账号马甲身份辨识方法
CN106127634A (zh) 一种基于朴素贝叶斯模型的学生学业成绩预测方法及系统
CN103810170B (zh) 交流平台文本分类方法及装置
CN108509588A (zh) 一种基于大数据的律师评估方法及推荐方法
CN107169632A (zh) 全球媒体形象分析方法、装置和系统
Wang et al. Opinion leader mining algorithm in microblog platform based on topic similarity
Celbiş Unemployment in rural Europe: A machine learning perspective
CN108764617A (zh) 一种网络环境下企业声誉评价方法
CN107886223A (zh) 民事案件复杂度指标评价方法及系统
CN104933097B (zh) 一种用于检索的数据处理方法和装置
CN110110084A (zh) 高质量用户生成内容的识别方法
Ye et al. An empirical study on the consumer perceived value of online financial products based on grounded theory
CN114118097A (zh) 一种城市公共空间的在线评论情感评价方法及系统
Singhal et al. Optimizing Election Result Prediction Through Fine-Tuned Transformer Models

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Zhang Weizhe

Inventor after: Zhang Yue

Inventor after: He Hui

Inventor after: Zhang Hongli

Inventor after: Li Dong

Inventor after: Chen Lin

Inventor before: Zhang Hongli

Inventor before: Zhang Weizhe

Inventor before: Zhang Yue

Inventor before: Li Dong

Inventor before: Chen Lin

COR Change of bibliographic data
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230828

Address after: 100085 4th floor, building 3, yard 1, Shangdi East Road, Haidian District, Beijing

Patentee after: Beijing Topsec Network Security Technology Co.,Ltd.

Patentee after: Topsec Technologies Inc.

Patentee after: BEIJING TOPSEC SOFTWARE Co.,Ltd.

Address before: 150001 No. 92 West straight street, Nangang District, Heilongjiang, Harbin

Patentee before: HARBIN INSTITUTE OF TECHNOLOGY

TR01 Transfer of patent right