CN106777040A

CN106777040A - 一种基于情感极性感知算法的跨媒体微博舆情分析方法

Info

Publication number: CN106777040A
Application number: CN201611128106.5A
Authority: CN
Inventors: 纪荣嵘; 曹冬林; 陈超
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2016-12-09
Filing date: 2016-12-09
Publication date: 2017-05-31

Abstract

一种基于情感极性感知算法的跨媒体微博舆情分析方法，涉及文本情感分析。1)利用机器人爬虫自动抓取微博上的热门话题下的信息；2)对抓取到的信息进行预处理，过滤不相关的内容，并以规定的格式存储到数据库待分析；3)训练一个bag‑of‑words深度网络模型，并以该模型对输入的文本信息进行倾向性预测；4)训练一个bag‑of‑image‑words深度网络模型，并对输入的图像信息进行倾向性预测；5)综合步骤3)与4)中倾向性分析结果，给出最终结果，并以地理、话题、用户、时间等多维度的方式可视化展示，对倾向性信息进行统计学分析，获得关于舆情的宏观分析结果，对舆情的历史走势，将来发展做出描绘与评估。

Description

一种基于情感极性感知算法的跨媒体微博舆情分析方法

技术领域

本发明涉及文本情感分析，尤其是涉及一种基于情感极性感知算法的跨媒体微博舆情分析方法。

背景技术

现有的舆情情感分析算法，主要是利用文本特征进行情感分类，在社交媒体这种多媒体环境中，有时候文本信息是缺失的，这时候这些传统的算法就会失效，同理，仅仅利用图像的信息的话，图像信息缺失的情况下，算法也会失效；

文本情感分析有两大主流方法，一种是基于字典的方法，另一种是基于机器学习的方法。其中基于字典的方法，由Turney(Turney P.Thumbs up or thumbs down:Semanticorientation applied to unsupervised classification of reviews.Proc.of theACL.Morristown:ACL,2002,417-424)提出，主要手段是文本中首先提取情感相关的词组，然后据此计算整段文本的特征，从而得出情感分析结果。另一种是基于机器学习的方法，利用文本中提取到的特征，输入到朴素贝叶斯分类器、支持向量机等算法中进行训练和分类。(B.Pang,L.Lee el al.Thumbs up:sentiment classification using machine learningtechniques.In Proc.of the ACL-02conference on Empirical methods in naturallanguage processing-Volume 10,2002,79-86.)

关于图像情感分析，现有的算法数量要比文本情感分析算法少的多。D Borth etal.提出了一种运用ANP(形容词名词对)中层特征的情感分析方法。具体手段为对于输入图像，用若干个ANP检测子对其进行分析，输出对应ANP维数的中层特征，利用这些中层特征进行情感分类。

现有的情感分析技术都是针对文本或图像单一通道的，在实际运用场景中，若图像/文本信息有缺失，这些算法都会失效；同时，现有技术仅仅停留在算法研究阶段，没有对分析结果进行面向应用的组织。

发明内容

本发明的目的在于提供一种基于情感极性感知算法的跨媒体微博舆情分析方法。

本发明包括以下步骤：

1)利用机器人爬虫自动抓取微博上的热门话题下的信息；

2)对抓取到的信息进行预处理，过滤掉不相关的内容，并以规定的格式存储到数据库待分析；

3)对于文本信息，利用已有情感倾向性标注的训练数据训练一个bag-of-words深度网络模型，并以该模型对输入的文本信息进行倾向性预测；

4)对于图像信息，利用已有情感倾向性标注的训练数据训练一个bag-of-image-words深度网络模型，并以该模型对输入的图像信息进行倾向性预测；

5)综合步骤3)与4)中倾向性分析结果，给出最终结果，并以地理、话题、用户、时间等多维度的方式可视化展示，对倾向性信息进行统计学分析，进而获得关于舆情的宏观分析结果，对舆情的历史走势，将来发展做出描绘与评估。

在步骤1)中，所述信息包括但不限于文本、图像、链接、表情、用户地理位置、发布时间、用户名等有价值的数据。

本发明具有以下优点：

本发明全面综合了图像与文本的信息，互相补充，互相印证，同时在应用层面，以地理、时间、微博、话题等组织形式对算法分析结果做出了统计学分析，相较于单纯的算法，更有现实意义；同时引入深度网络算法，相较于传统方法，大大提升了算法的准确率。

传统的方法一般只关注文本信息，则情感分析问题可描述为：

y_t＝f_t(T)

其中

T＝{w₁，...，w_j，...，w_m}，代表文本信息，w_m代表第m个词，y_t代表情感极性的分析结果，f_t代表分析函数。

而本发明中，结合了文本与图像的跨媒体信息，则问题可描述为：

y＝λf_t(T)+(1-λ)f_p(I)

T和I分别代表文本和图像信息。用文本和图像分析结果的加权和代表最终情感倾向性分析结果，λ代表一个权重系数，用来平衡文本和图像信息的权重。

用bag-of-words的方法来表示一条文本信息为x：

as x＝{w₁，...，w_i，...，w_m，p₁，...，p_j，...，p_d}

其中w代表文本特征，p代表图像特征。因为图像和文本的底层特征通常非常不同，所以将其转化为代表词表示：Bag of Text Words以及Bag of Image Words

其中Bag of Text Words：

Ti＝{w_i，1，...，w_i，j，...，w_i，m}

W_i,1代表积极情感的词在文本中的数量，其他的含义如表1所示。

表1

与此同时，在训练语料数目足够多的情况下，本发明可以用时间递归网络(LSTM，如图1所示)来端到端(end-to-end)的配合处理语料。利用足够多的有标数据，可以训练一个LSTM模型用于将语料直接映射到情感倾向分布，提高预测的精确度。

Bag of Image Words(词袋模型)则用top-N ANP来表示：

ANP即形容词名词对，对每种统计中经常出现的每个形容词名词对训练一个检测子，对应-2到2的情感极性评分。其中响应最高的top-N个ANP构成Bag of Image Words。

对于输入的特征：

x_i＝{T_i，I_i}＝{w_i，1，...，w_i，j，...，w_i，m，p_i，1，...，p_i，k，...，p_i，d}

运用逻辑回归算法y_tp＝f_tp(x)来做训练与预测：

其中Pr(C＝k|X＝x)代表对于输入x，其情感倾向为C＝k的概率，β_k0代表偏置项，代表K类的权重向量，且：

即对特定输入x，所有情感倾向的概率之和为1

训练过程可以表示为如下优化问题：

c*＝argmac_cPr(C＝c|x)

即求出对于给定x输入的最大似然类别。

当模型训练收敛后，利用该模型就可以对情感倾向性进行预测和分类。

同时，在训练数据规模增大后，本发明中可以利用使用如图2所示的深度卷积网络(CNN)来替换上述模块，利用深度卷积网络端到端(end-to-end)训练的特性，将每一个ANP视为标签信息，利用输入图像和对应的标签信息在经典模型alexnet(结构如图2所示)上训练，训练收敛后，利用深度网络模型就可以对未知的输入图片进行检测，探测这张图片在n个ANP上的响应值，并将这些响应值视为中层特征，用于后续的情感倾向性检测工作。

在社交媒体中，如微博，利用爬虫技术抓取微博的图像及文本信息，处理成特定格式后，利用上述算法抽取特征并进行情感倾向性分析。特别的、当图像缺失或文本较短信息不足时候，上述方法能通过跨媒体获得信息进行补充，进而正常工作。在获得单条微博的倾向性后，在时间、地理、话题上对倾向性信息进行统计学分析，进而获得关于舆情的宏观分析结果，对舆情的历史走势，将来发展做出描绘与评估。

本发明不仅利用了社交媒体中的文本信息，还引入了对图像情感的分析，并将两者结合起来给出远较利用单个媒体信息的算法置信度更高的结果；本发明还实现了从数据爬取、数据预处理、数据分析到前台展示一体化架构，可以实时在线运行分析。

1，本发明整合了文本到图像的跨媒体情感分析模式，能够有效解决利用单个媒体做情感分析时准确率不高的现实问题；

2，本发明在情感分析的算法基础上，利用分析结果实现了对社交媒体信息在地理尺度、时间尺度、话题尺度、单条微博尺度上的实时舆情监控算法，搭建了从抓取信息到分析到展示一站式平台；

3，本发明在实际舆情环境中运行测试，验证了系统的可行性与实用性。

附图说明

图1为RNN(递归神经网络)LSTM(时间递归神经网络)的基本单元示意图。

图2为CNN(卷积神经网络)Alexnet的基本结构示意图。

具体实施方式

本发明包括以下步骤：

1)利用机器人爬虫自动抓取微博上的热门话题下的信息，所述信息包括但不限于文本、图像、链接、表情、用户地理位置、发布时间、用户名等有价值的数据；

本发明具有以下优点：

本发明全面综合了图像与文本的信息，互相补充，互相印证，同时在应用层面，以地理、时间、微博、话题等组织形式对算法分析结果做出了统计学分析，相较于单纯的算法，更有现实意义。

y_t＝f_t(T)

其中

y＝λf_t(T)+(1-λ)f_p(I)

用bag-of-words的方法来表示一条文本信息为x：

as X＝{w₁，...，w_i，...，w_m，p₁，...，p_j，...，P_d}

其中Bag of Text Words：

T_i＝{w_i，1，...，w_i，j，...，w_i，m}

W_i,1代表积极情感的词在文本中的数量，其他的含义如表1所示：

表1

Bag of Image Words(词袋模型)则用top-N ANP来表示：

对于输入的特征：

运用逻辑回归算法y_tp＝f_tp(x)来做训练与预测：

即对特定输入x，所有情感倾向的概率之和为1。

训练过程可以表示为如下优化问题：

c*＝argmac_cPr(C＝c|x)

即求出对于给定x输入的最大似然类别。

Claims

1.一种基于情感极性感知算法的跨媒体微博舆情分析方法，其特征在于包括以下步骤：

1)利用机器人爬虫自动抓取微博上的热门话题下的信息；

5)综合步骤3)与4)中倾向性分析结果，给出最终结果，并以地理、话题、用户、时间多维度的方式可视化展示，对倾向性信息进行统计学分析，进而获得关于舆情的宏观分析结果，对舆情的历史走势，将来发展做出描绘与评估。

2.如权利要求1所述一种基于情感极性感知算法的跨媒体微博舆情分析方法，其特征在于在步骤1)中，所述信息包括但不限于文本、图像、链接、表情、用户地理位置、发布时间、用户名。