CN108549632B

CN108549632B - 一种基于情感分析的社交网络影响力传播模型构建方法

Info

Publication number: CN108549632B
Application number: CN201810289067.XA
Authority: CN
Inventors: 刘洪涛; 熊健涵
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2018-04-03
Filing date: 2018-04-03
Publication date: 2022-02-11
Anticipated expiration: 2038-04-03
Also published as: CN108549632A

Abstract

本发明涉及一种基于情感分析的社交网络影响力传播模型构建方法，属于社交网络影响力传播领域。包括以下步骤：步骤一，通过微博API抓取微博数据，清洗数据用以分析。步骤二，对每条微博的情感倾向进行分析，用来改进影响力传播模型。步骤三，选取种子集作为影响力的传播者。步骤四，加入情感因子到激活概率的计算公式中，通过改进后的激活概率计算方法来判断节点是否被激活。步骤五，将被激活节点加入到种子集中，同时进行影响力的传播，最后得到所有激活节点即为影响力传播的结果。

Description

一种基于情感分析的社交网络影响力传播模型构建方法

技术领域

本发明属于社交网络影响力传播领域，特别是基于情感分析的社交网络影响力传播模型。

背景技术

如今用户可以通过社交网络平台发表自己的各种观点，如对某一事件或者产品的看法。在用户发表的观点中包含主题和情感等因素，而这些因素会对影响用户观点的传播情况。不同的情感在传播过程中可能会产生不同的传播效果，比如：带有极性情感的观点的传播的范围要大于带有中性情感的观点。

独立级联模型(Independent cascade model)是影响力传播的一个基础模型。IC模型的基本过程如下，一个活跃(active)用户会在网络中扩散信息，它会试图去影响它的邻居用户并通过边的权重来判断邻居用户是否被影响。最早提出的独立级联模型中，种子节点激活其邻居节点的激活概率是一个随机值，但是在社交网络中影响节点激活的因素有很多，而随机值并不能反映这点。作为影响力传播的关键因素，节点的激活概率对影响力传播模型的有效与否起着决定性的作用。节点的激活概率在社交网络中的意义是指用户被一条信息或微博影响的概率。那么要研究节点的激活概率首先要了解社交网络中的用户容易被哪些因素影响，从而使得信息成功传播出去。通过对社交网络中会对影响力传播造成影响的因素进行分析，发现情感是一个比较重要的影响因素，所以针对原有模型的不足结合情感分析对独立级联模型的激活概率计算方法做了改进。

本发明通过加入情感系数到独立级联模型的激活概率计算公式中来对独立级联模型进行改进，分析每条微博的情感倾向，然后利用情感倾向来计算情感系数，之后将情感系数加入到激活概率的计算公式中，之后将改进后的激活概率计算公式加入到影响力传播模型中，最后使用模型来对社交网络中的影响力传播情况进行分析。本专利文中提出的模型较原模型而言在影响力传播传播预测效果上有一定的改进。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种提高预测精确度的基于情感分析的社交网络影响力传播模型构建方法。本发明的技术方案如下：

一种基于情感分析的社交网络影响力传播模型构建方法，其包括以下步骤：

通过加入情感系数到独立级联模型的激活概率计算公式中来对独立级联模型进行改进，具体包括：分析每条微博的情感倾向，然后利用情感倾向来计算情感系数，之后将情感系数加入到激活概率的计算公式中，再将改进后的激活概率计算公式加入到独立级联模型中，最后使用影响力传播模型来对社交网络中的影响力传播情况进行分析。

进一步的，所述分析每条微博的情感倾向，然后利用情感倾向来计算情感系数，具体包括：

1)、抓取微博数据，对每条微博进行情感分析，分析得到每条微博的情感倾向，情感倾向包括七类：1.客观,2.高兴,3.愤怒,4.悲伤,5.恐惧,6.反感,7.惊讶；

2)、利用步骤1)的情感分析结果计算情感系数sn。

进一步的，所述步骤1)对每条微博进行情感分析，采用的是细粒度情感分析，如果在一条微博中没有情感词的出现则此条微博的情感倾向为‘客观’，如果微博中包含有情感词则此条微博的情感强度的计算公式如下：

其中score_j表示j类情感词的情感强度；m表示一条微博中属于i类情感的情感词数量，score_j的值是通过互信息来进行计算的，使用语料库来统计词语出现的概率，计算公式如下:

其中，df(word)表示在语料中含有词语word的文档数目，N代表为语料数据集中文档总的数目，PMI(word₁,word₂)值越大表示两个词语的相关程度就越强，所以，一个未知情感倾向词语word的情感倾向强度值计算为：

score_j＝∑_{pword∈Pwords}PMI(word,pword)-∑_{nword∈Nwords}PMI(word,nword)

其中Pwords是褒义情感种子词语的集合，Nwords是贬义情感种子的词语集合，通过以上计算公式会得到一个情感强度的矩阵{p1,p2,p3,p4,p5,p6,}，此条微博的情感倾向类别为S_j’＝argmax(j’)。

进一步的，所述步骤2)中，情感系数sn表示用户情感在总体情感中所占的比重，计算情感系数的方法如下：

其中，S_i表示用户i的情感倾向类型，转发后的情感与原创微博情感不同需要重新计算用户当前情感在传播过程中所占的比重。

进一步的，所述将情感系数加入到激活概率的计算公式中具体包括：

3)、将步骤2)计算得到的情感系数sn加入到影响力传播模型激活概率p的计算公式如下：

其中：R_ij表示用户j转发用户i微博的数量，R_i表示用户i发表微博数量，R_j表示用户j所有转发数量，sn为情感系数。

进一步的，所述将改进后的激活概率计算公式加入到独立级联模型中，最后使用影响力传播模型来对社交网络中的影响力传播情况进行分析具体包括：

4)、将步骤3)加入情感系数的激活概率公式p应用到影响力传播模型中，当激活概率p大于一个随机值r∈(0,1)时，节点被激活并加入到集合S中；

5)、重复步骤4)直到没有节点可以被激活，集合S则为影响力最终的传播结果。

进一步的，在所述步骤4)中，判断用户是否有转发行为，用户是否转发、评论，代表用户是否有转发和评论微博或者帖子的行为：

其中p是激活概率，r∈(0,1)是一个随机值，如果用户有转发行为则视为被激活，并将其加入到种子集S中。

本发明的优点及有益效果如下：

本发明对影响力传播过程中的情感倾向进行了计算，并加入到独立级联模型激活概率的计算公式中。目前对于独立级联模型的改进，大多是考虑节点之间的距离，也就是节点之间的相互关系，对于节点自身的属性没有进行进一步的分析。而在社交网络中，用户的情感在传播过程中是一个重要的因素，不同类型的情感对于影响力的传播有不同程度的影响，社交网络中包含主流情感的微博传播范围会更广。与现有技术相比，本发明将社交网络中用户的情感因素对影响力传播的影响反映到了激活概率的计算公式中，使改进后的影响力传播模型能更好的预测社交网络中影响力的传播情况。

附图说明

图1是本发明提供优选实施例基于情感分析的社交网络影响力传播模型的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

基于情感分析的社交网络影响力传播模型，包括：

步骤1：通过新浪微博提供的API抓取某一热点事件的微博数据，通过基于词典的情感分析方法对微博进行情感倾向的分析，采用细粒度的情感分析方法，将所有情感分为七类：1.客观,2.高兴,3.愤怒,4.悲伤,5.恐惧,6.反感,7.惊讶。

步骤2：使用分析得到的微博情感倾向进行情感系数的计算，其中如果微博的情感倾向没有发生改变则情感系数为1，否则情感系数为当前情感在总的微博情感中所占的比重。

步骤3：将情感系数加入到影响力传播模型激活概率的计算公式中，得到新的激活概率计算公式。

步骤4：将新的激活概率公式应用到影响力传播模型中，来判断用户是否转发微博，若转发则用户的状态为激活状态，反之则未激活，将成功激活的节点加入到集合S中。

步骤5：重复以上步骤直到没有节点可以被激活，所得到的集合S则为影响力传播的结果

所述的基于情感分析的社交网络影响力传播模型，其中步骤一，包括：

通过新浪微博API抓取微博数据，抓取的数据进行清洗，删除重复数据，将原创微博和转发微博分别记录，得到微博的转发关系。对每条微博进行情感分析，采用的是细粒度情感分析，将所有情感倾向分为七类：1.客观,2.高兴,3.愤怒,4.悲伤,5.恐惧,6.反感,7.惊讶。如果在一条微博中没有情感词的出现则此条微博的情感倾向为‘客观’，如果微博中包含有情感词则此条微博的情感强度的计算公式如下：

其中score_j表示j类情感词的情感强度；m表示一条微博中属于i类情感的情感词数量。score_j的值是通过互信息来进行计算的，使用语料库来统计词语出现的概率。计算公式如下:

其中，df(word)表示在语料中含有词语word的文档数目，N代表为语料数据集中文档总的数目。该值越大表示两个词语的相关程度就越强。所以，一个未知情感倾向词语word的情感倾向强度值计算为：

其中Pwords是褒义情感种子词语的集合，Nwords是贬义情感种子的词语集合。通过以上计算公式会得到一个情感强度的矩阵{p1,p2,p3,p4,p5,p6,}此条微博的情感倾向类别为S_j’＝argmax(j’)。

得到微博的情感倾向并分别记录原创微博和转发微博的情感倾向，用来之后计算情感系数。

所述的基于情感分析的社交网络影响力传播模型，其中步骤二，包括：

计算情感系数sn，即用户情感在总体情感中所占的比重，计算情感系数的方法如下：

其中，S_i用户i的情感倾向类型，转发后的情感与原创微博情感不同需要重新计算用户当前情感在传播过程中所占的比重。

所述的基于情感分析的社交网络影响力传播模型，其中步骤三，包括：

将情感系数sn加入到激活概率的计算公式中，得到激活概率计算公式如下：

所述的基于情感分析的社交网络影响力传播模型，其中步骤四，包括：

通过新的激活概率计算公式来判断用户是否对微博进行了转发，即用户是否被激活，公式如下：

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于情感分析的社交网络影响力传播模型构建方法，其特征在于，包括以下步骤：

通过加入情感系数到独立级联模型的激活概率计算公式中来对独立级联模型进行改进，具体包括：分析每条微博的情感倾向，然后利用情感倾向来计算情感系数，之后将情感系数加入到激活概率的计算公式中，再将改进后的激活概率计算公式加入到影响力传播模型中，最后使用影响力传播模型来对社交网络中的影响力传播情况进行分析；将新的激活概率公式应用到影响力传播模型中，来判断用户是否转发微博，若转发则用户的状态为激活状态，反之则未激活，将成功激活的节点加入到集合S中，重复以上步骤直到没有节点可以被激活，所得到的集合S则为影响力传播的结果；

所述的基于情感分析的社交网络影响力传播模型，包括：

2.根据权利要求1所述的基于情感分析的社交网络影响力传播模型构建方法，其特征在于，所述分析每条微博的情感倾向，然后利用情感倾向来计算情感系数，具体包括：

2)、利用步骤1)的情感分析结果计算情感系数sn。

3.根据权利要求2所述的基于情感分析的社交网络影响力传播模型构建方法，其特征在于，所述步骤1)对每条微博进行情感分析，采用的是细粒度情感分析，如果在一条微博中没有情感词的出现则此条微博的情感倾向为‘客观’，如果微博中包含有情感词则此条微博的情感强度的计算公式如下：

其中score_j表示j类情感词的情感强度；m表示一条微博中属于j’类情感的情感词数量，score_j的值是通过互信息来进行计算的，使用语料库来统计词语出现的概率，计算公式如下：

其中，df(word)表示在语料中含有词语word的文档数目，N代表为语料数据集中文档总的数目，PMI(word₁，word₂)值越大表示两个词语的相关程度就越强，所以，一个未知情感倾向词语word的情感倾向强度值计算为：

score_j＝∑_{pword∈pwords}PMI(word，pword)-∑_{nword∈Nwords}PMI(word，nword)

其中Pwords是褒义情感种子词语的集合，Nwords是贬义情感种子的词语集合，通过以上计算公式会得到一个情感强度的矩阵{p1，p2，p3，p4，p5，p6}，此条微博的情感倾向类别为S_j’＝argmax(j’)。

4.根据权利要求3所述的基于情感分析的社交网络影响力传播模型构建方法，其特征在于，所述将情感系数加入到激活概率的计算公式中具体包括：

5.根据权利要求4所述的基于情感分析的社交网络影响力传播模型构建方法，其特征在于，所述将改进后的激活概率计算公式加入到影响力传播模型中，最后使用影响力传播模型来对社交网络中的影响力传播情况进行分析具体包括：

4)、将步骤3)加入情感系数的激活概率公式p应用到影响力传播模型中，当激活概率p大于等于一个随机值r∈(0,1)时，节点被激活并加入到集合S中；

6.根据权利要求5所述的基于情感分析的社交网络影响力传播模型构建方法，其特征在于，在所述步骤4)中，判断用户是否有转发行为，用户是否转发、评论，代表用户是否有转发和评论微博或者帖子的行为：