CN103605658B

CN103605658B - 一种基于文本情感分析的搜索引擎系统

Info

Publication number: CN103605658B
Application number: CN201310479475.9A
Authority: CN
Inventors: 许可; 赵吉昌; 董力; 范锐; 李森栋
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2013-10-14
Filing date: 2013-10-14
Publication date: 2016-08-10
Anticipated expiration: 2033-10-14
Also published as: CN103605658A

Abstract

本发明涉及一种基于文本情感分析的搜索引擎系统，包括情感分析、情感值与关键词统计、索引建立和热点话题提取4部分。情感分析部分负责完成对文本内容进行情感分析。情感值与关键词统计部分对情感分析的结果进行统计，分析每个话题随着时间的推移，各种情感出现频率的变化，并提取涉及该话题的文本内容中的出现频次最高的关键词。索引建立部分对情感值和关键词统计数据建立索引，便于对其检索。热点话题提取部分对当前分析的网络文本进行实时监控，发现大家议论的热点话题。本发明在对网民言论进行情感分析的基础上，分析每个话题的热度曲线和网民议论该话题时提到的关键词，并实现话题搜索和热点话题的提取。

Description

一种基于文本情感分析的搜索引擎系统

技术领域

本发明涉及一种基于文本情感分析的搜索引擎系统，适用于对互联网上大量文本信息的统计和监控。

背景技术

随着互联网的发展，各种网络应用油然而生。网民在互联网上可以发表各种言论，因此产生了海量的文本信息。这些信息的数据来源可以是博客、论坛、微博等。传统的搜索引擎对这些数据建立索引，用户可以根据自己的检索意图提交查询，然后得到大量的检索结果。但逐个阅读每个结果的所有内容将耗费大量的时间。

发明内容

本发明要解决的问题：克服传统搜索引擎返回的结果太多，用户很难逐条读完，无法短时间内获得大家对某话题的主要态度和情感。本发明提供一种基于文本情感分析的搜索引擎系统，使用户能在短时间内了解各话题的讨论情况，发现实时热点，进行舆情监控。

本发明的技术方案：一种基于文本情感分类的搜索引擎系统包括：情感分类模块、情感值与关键词统计模块、索引建立模块和热点话题提取模块；

所述情感分类模块，完成对文本内容进行情感分类；利用朴素贝叶斯分类器对网民发布的文本内容进行情感分类，分类结果分为高兴、低落、愤怒和厌恶四种情感；

所述情感值与关键词统计模块，对情感分类模块得到的四种情感进行统计；统计网民发布的文本中每个话题在每天的四种情感出现的频次，分析每个话题展示随着时间的推移，该话题的热度和情感值变化；同时提取涉及该话题的文本内容中出现频次最高的关键词，以标签云（Tag Cloud）的形式展示出来，作为网民对该话题的讨论摘要；

所述索引建立模块，对情感值与关键词统计模块得到的情感值和关键词统计数据建立索引，便于检索；为热点话题提取模块和web service提供每天的情感值和关键词统计数据，供web service进行展示；帮助热点话题提取模块提取当前热点话题。Web service将统计数据可视化后展现给用户；

热点话题提取模块，从索引模块中获取当前分析的网络文本的情感和关键词统计数据，使用热点话题提取算法，提取出所分析的网络文本中所讨论的热点话题。提取出的热点话题通过web service进行展示。

所述情感分类模块中使用朴素贝叶斯分类器对文本情感进行分类的具体实现过程为：

（1）手工将表情符按情感类别进行标注；

（2）去掉重复和无效的数据，并抽选出含有表情符号的文本，将所带表情符所属情感类别作为该文本的情感标注，作为训练数据；

（3）利用自动抽取出的训练数据训练贝叶斯分类器；

（4）使用所训练的贝叶斯分类器对文本进行分类。

所述训练数据对朴素贝叶斯分类器训练时，实行增量式训练，不断使用新数据进行训练，提高模型的准确度。

所述情感值与关键词统计模块中情感值统计具体实现为：

（1）将情感分类模块获得的情感分类结果和原网络文本存储到文本文件中，作为情感值统计模块的输入。

（2）对网络文本进行中文分词，每条网络文本生成一个单词向量。

（3）统计每天所有话题topic的情感值e的出现频次，形成当天的情感值统计数据。

所述情感值与关键词统计模块中关键词统计为：以天为单位统计当天提到某话题的所有文本内容中，出现频率最高的30个关键词，关键词的形式为bi-gram形式，所述30个关键词构成该话题在当天的“标签云”。

所述情感值与关键词统计模块中情感值统计为：以天为单位，统计每个话题每天的四种情感值出现的频率，绘制为曲线图进行展示。曲线图的横坐标为日期，纵坐标为频率，图上共有四条曲线，分别代表四类情感值出现频率随着时间的变化。

所述索引建立模块具体实现过程：

（1）将统计好的情感值与关键词数据存储到文本文件中，每天一个文件；

（2）将数据统计文件加载到计算机内存中，在内存中以“天”为单位建立hash索引，便于快速检索到某天的所有话题的情感值与关键词统计数据。

所述热点话题提取模块具体实现过程：

（1）从情感值与关键词统计模块获取当天某话题的统计数据和前一天该话题的统计数据；

（2）对该话题当天的热度和前一天的热度进行对比，使用热度计算算法，计算出该话题在当天的热度；

（3）对所有话题的热度进行排序，提取出当天的热点话题。

本发明与现有技术相比的优点在于：本发明能够从海量数据中统计出各话题的热度变化、情感值变化和讨论的主要关键词。使用户能在短时间内了解各话题的讨论情况，发现实时热点，进行舆情监控。

附图说明

图1为本发明的组成框图；

图2为本发明中的情感分类模块实现流程图；

图3为本发明中的情感值与关键词统计模块实现流程图；

图4为本发明中的索引建立模块实现流程图；

图5为本发明中的和热点话题提取模块实现流程图；

图6，图7，图8分别是情感值统计和关键词统计效果；

图9是热点话题提取效果。

具体实施方式

如图1所示，本发明系统包括情感分类模块、情感值与关键词统计模块、索引建立模块和热点话题提取模块四部分。情感分类部分负责完成对文本内容进行情感分析。情感值与关键词统计部分对情感分析的结果进行统计，分析每个话题随着时间的推移，各种情感出现频率的变化，并提取涉及该话题的文本内容中的出现频次最高的关键词。索引建立部分对情感值和关键词统计数据建立索引，便于对其检索。热点话题提取部分对当前分析的网络文本进行实时监控，发现大家议论的热点话题。

下面具体介绍上述四个模块实现过程。

（一）情感分类模块

如图2所示，对网民发布的文本进行情感分析，分类为高兴、低落、愤怒和厌恶；使用朴素贝叶斯分类器对文本情感进行分类，具体实现为：

（1）表情符号蕴含了丰富的情感信息，可以通过表情符号为文本标注情感类别，首先将情感符号手工标注为高兴、低落、愤怒和厌恶四类情感，分别定义为情感值1，2，3，4。

（2）将文本记为t_p，进行分词后得到(w_p,1,w_p,2,...,w_p,ntp)单词向量，其中w_p,j为文本t_p对应的单词向量的第j个单词。

（3）若文本t_p中含有表情符号E，则将t_p的情感自动标注为情感符号E在第（1）步中手工标注的类别k，并作为贝叶斯分类器的训练数据对模型进行更新。

在训练过程中需要统计得出类别c_p出现的概率P(c_p)与在类别k下单词w_p,j出现的概率P(w_p,j|c_p＝k)。

根据P(c_p＝k)的含义，可得，

根据P(w_p,j|c_p＝k)的含义，可得，

（4）记P(c_p|t_p)是预测样本t_p属于类别的c_p概率，P(t_p)是预测样本t_p出现的概率，P(c_p)是类别c_p出现的概率，P(t_p|c_p)的含义是类别c_p中出现样本t_p的概率。在进行分类时，目的是找出样本t_p最可能属于的类别，即更倾向于选择使P(c_p|t_p)最大的那一个c_p作为最后的分类结果，由贝叶斯公式

P (c_{p} | t_{p}) = \frac{P (t_{p} | c_{p}) \times P (c_{p})}{P (t_{p})}

可得：

C_p＝argmax_k{P(c_p＝k|t_p)}

\arg \max_{k} {\frac{P (t_{p} | c_{P}) \times P (c_{p})}{P (t_{p})}}

argmax_k{P(t_p|c_p)×P(c_p)}

P(t_p|c_p)无法直接进行计算，假设词(w_p,1,w_p,2,...,w_p,ntp)之间独立不相关，可得，

\begin{matrix} P (t_{p} | c_{p} = k) = P ((w_{p, 1}, w_{p, 2}, . . ., w_{p, ntp}) | c_{p} = k) \\ = Π_{j = 1}^{ntp} P (w_{p, j} | c_{p} = k) \end{matrix}

其中P(w|c_p＝k)和P(c_p)在步骤（3）中得到。

（5）根据步骤（4）中的分类结果，将文本t_p归入相应的情感分类。

（二）情感值与关键词统计模块

如图3所示，本发明情感值与关键词统计模块实现过程为：

（1）定义n条网络文本为t₁,t₂,t₃,...,t_n,由bayes分类器获得的情感值标签分别为e₁,e₂,e₃,...,e_n;

（2）对每条网络文本进行中文分词，将网络文本t_i的分词结果定义为一个单词向量：wordlist_i＝(w₁,w₂,w₃,...,w_m)；

（3）定义话题topic的情感值e的出现频次为topic(e),则topic(e)计算方法如下：

topic (e) = Σ_{i = 1}^{n} 1 {e = e_{i} andtopicin {wordlist}_{i}}, e &Element; [1, 4]

（4）统计每天所有话题topic的情感值e的出现频次，形成当天的情感值统计数据。

（5）计算keywords(topic):从第（2）步中生成的wordlist中，含有该topic的所有wordlist，定义为wordlists(topic)。

（6）统计第（5）步中，该话题对应的wordlists(topic)中每个wordlist任意相邻的两个单词组合形成一个bi-gram。统计该话题的所有bi-gram的出现频次。

（7）将bi-gram按照出现频次进行排序，排序在前30的bi-gram定义为该topic的关键词keywords(topic)。

（三）索引建立模块

如图3所示，索引建立模块具体实现过程如下：

（1）将统计好的情感值与关键词数据以文本文件的格式存储到计算机硬盘上，每天存储一个文件。

（2）将数据统计文件加载到计算机内存中。

（3）在内存中对日期和topic建立hash索引，便于快速检索到某天的某话题的情感值与关键词统计数据。即：statistic_data[date][topic]为date这天话题topic的统计数据。

（4）提供http接口，供web service查询统计数据。

图6，图7和图8为情感值统计和关键词统计的展示效果。

从图6中可以看到，某某某当选某选美大赛冠军当天，在互联网上出现了对她的讨论热潮，且大多为正面情绪；然而2天后，她被爆学历造假，愤怒的情绪比例突增并超过高兴的情绪。

图8和图9分别展示了“足球”和“某某某”这两个话题，随着时间的推移，四种情感值统计曲线的变化。用文字在曲线的拐点处标出当天相关的新闻事件，可以看出系统可以准确检测出互联网上网民对于这两个话题的态度和看法。

（四）热点话题提取模块

如图4所示，话题topic当天的热度值计算方法如下：

（1）从索引模块查询该topic在当天的四种情绪的频率值，形成向量a。a＝(a₁,a₂,a₃,a₄)

（2）从索引模块查询该topic在前一天的四种情绪的频率值，形成向量b。b＝(b₁,b₂,b₃,b₄)

（3）定义：

sum = (a) Σ_{i = 1}^{4} a_{i}

sum (b) Σ_{i = 1}^{4} b_{i}

（4）定义hot(topic)为该话题当天的热度值，计算公式如下：

hot (topic) = \sqrt{Σ_{i = 1}^{4} (\frac{a_{i}}{sum (a)} - \frac{b_{i}}{sum (b)})} \times \frac{sum (a)}{sum (b)}

（5）计算所有话题的hot(topic)值，进行排序，选取排序前100的topic，提供给web service进行展示，展示效果如图9所示。

本发明未详细阐述部分属于本领域公知技术。

以上所述，仅为本发明部分具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本领域的人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于文本情感分类的搜索引擎系统，其特征在于包括：情感分类模块、情感值与关键词统计模块、索引建立模块和热点话题提取模块；

所述情感值与关键词统计模块，对情感分类模块得到的四种情感进行统计；统计网民发布的文本中每个话题在每天的四种情感出现的频次，分析每个话题展示随着时间的推移，该话题的热度和情感值变化；同时提取涉及该话题的文本内容中出现频次最高的关键词，以标签云(Tag Cloud)的形式展示出来，作为网民对该话题的讨论摘要；

所述索引建立模块，对情感值与关键词统计模块得到的情感值和关键词统计数据建立索引，便于检索；为热点话题提取模块和web service提供每天的情感值和关键词统计数据，供web service进行展示；帮助热点话题提取模块提取当前热点话题，web service将统计数据可视化后展现给用户；

热点话题提取模块，从索引建立模块中获取当前分析的网络文本的情感和关键词统计数据，使用热点话题提取算法，提取出所分析的网络文本中所讨论的热点话题，提取出的热点话题通过web service进行展示。

2.根据权利要求1所述的一种基于文本情感分类的搜索引擎系统，其特征在于：所述情感分类模块中使用朴素贝叶斯分类器对文本情感进行分类的具体实现过程为：

(1)手工将表情符按情感类别进行标注；

(2)去掉重复和无效的数据，并抽选出含有表情符号的文本，将所带表情符所属情感类别作为该文本的情感标注，作为训练数据；

(3)利用自动抽取出的训练数据训练贝叶斯分类器；

(4)使用所训练的贝叶斯分类器对文本进行分类。

3.根据权利要求2所述的一种基于文本情感分类的搜索引擎系统，其特征在于：所述训练数据对朴素贝叶斯分类器训练时，实行增量式训练，不断使用新数据进行训练，提高模型的准确度。

4.根据权利要求1所述的一种基于文本情感分类的搜索引擎系统，其特征在于：所述情感值与关键词统计模块中情感值统计具体实现为：

(1)将情感分类模块获得的情感分类结果和原网络文本存储到文本文件中，作为情感值统计模块的输入；

(2)对网络文本进行中文分词，每条网络文本生成一个单词向量；

(3)统计每天所有话题topic的情感值e的出现频次，形成当天的情感值统计数据。

5.根据权利要求1所述的一种基于文本情感分类的搜索引擎系统，其特征在于：所述情感值与关键词统计模块中关键词统计为：以天为单位统计当天提到某话题的所有文本内容中，出现频率最高的30个关键词，关键词的形式为bi-gram形式，所述30个关键词构成该话题在当天的“标签云”。

6.根据权利要求1所述的一种基于文本情感分类的搜索引擎系统，其特征在于：所述情感值与关键词统计模块中情感值统计为：以天为单位，统计每个话题每天的四种情感值出现的频率，绘制为曲线图进行展示；曲线图的横坐标为日期，纵坐标为频率，图上共有四条曲线，分别代表四类情感值出现频率随着时间的变化。

7.根据权利要求1所述的一种基于文本情感分类的搜索引擎系统，其特征在于：所述索引建立模块具体实现过程：

(1)将统计好的情感值与关键词数据存储到文本文件中，每天一个文件；

(2)将数据统计文件加载到计算机内存中，在内存中以“天”为单位建立hash索引，便于快速检索到某天的所有话题的情感值与关键词统计数据。

8.根据权利要求1所述的一种基于文本情感分类的搜索引擎系统，其特征在于：所述热点话题提取模块具体实现过程：

(1)从情感值与关键词统计模块获取当天某话题的统计数据和前一天该话题的统计数据；

(2)对该话题当天的热度和前一天的热度进行对比，使用热度计算算法，计算出该话题在当天的热度；

(3)对所有话题的热度进行排序，提取出当天的热点话题。