CN103605658B - 一种基于文本情感分析的搜索引擎系统 - Google Patents

一种基于文本情感分析的搜索引擎系统 Download PDF

Info

Publication number
CN103605658B
CN103605658B CN201310479475.9A CN201310479475A CN103605658B CN 103605658 B CN103605658 B CN 103605658B CN 201310479475 A CN201310479475 A CN 201310479475A CN 103605658 B CN103605658 B CN 103605658B
Authority
CN
China
Prior art keywords
topic
text
emotion
module
key word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310479475.9A
Other languages
English (en)
Other versions
CN103605658A (zh
Inventor
许可
赵吉昌
董力
范锐
李森栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201310479475.9A priority Critical patent/CN103605658B/zh
Publication of CN103605658A publication Critical patent/CN103605658A/zh
Application granted granted Critical
Publication of CN103605658B publication Critical patent/CN103605658B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于文本情感分析的搜索引擎系统,包括情感分析、情感值与关键词统计、索引建立和热点话题提取4部分。情感分析部分负责完成对文本内容进行情感分析。情感值与关键词统计部分对情感分析的结果进行统计,分析每个话题随着时间的推移,各种情感出现频率的变化,并提取涉及该话题的文本内容中的出现频次最高的关键词。索引建立部分对情感值和关键词统计数据建立索引,便于对其检索。热点话题提取部分对当前分析的网络文本进行实时监控,发现大家议论的热点话题。本发明在对网民言论进行情感分析的基础上,分析每个话题的热度曲线和网民议论该话题时提到的关键词,并实现话题搜索和热点话题的提取。

Description

一种基于文本情感分析的搜索引擎系统
技术领域
本发明涉及一种基于文本情感分析的搜索引擎系统,适用于对互联网上大量文本信息的统计和监控。
背景技术
随着互联网的发展,各种网络应用油然而生。网民在互联网上可以发表各种言论,因此产生了海量的文本信息。这些信息的数据来源可以是博客、论坛、微博等。传统的搜索引擎对这些数据建立索引,用户可以根据自己的检索意图提交查询,然后得到大量的检索结果。但逐个阅读每个结果的所有内容将耗费大量的时间。
发明内容
本发明要解决的问题:克服传统搜索引擎返回的结果太多,用户很难逐条读完,无法短时间内获得大家对某话题的主要态度和情感。本发明提供一种基于文本情感分析的搜索引擎系统,使用户能在短时间内了解各话题的讨论情况,发现实时热点,进行舆情监控。
本发明的技术方案:一种基于文本情感分类的搜索引擎系统包括:情感分类模块、情感值与关键词统计模块、索引建立模块和热点话题提取模块;
所述情感分类模块,完成对文本内容进行情感分类;利用朴素贝叶斯分类器对网民发布的文本内容进行情感分类,分类结果分为高兴、低落、愤怒和厌恶四种情感;
所述情感值与关键词统计模块,对情感分类模块得到的四种情感进行统计;统计网民发布的文本中每个话题在每天的四种情感出现的频次,分析每个话题展示随着时间的推移,该话题的热度和情感值变化;同时提取涉及该话题的文本内容中出现频次最高的关键词,以标签云(Tag Cloud)的形式展示出来,作为网民对该话题的讨论摘要;
所述索引建立模块,对情感值与关键词统计模块得到的情感值和关键词统计数据建立索引,便于检索;为热点话题提取模块和web service提供每天的情感值和关键词统计数据,供web service进行展示;帮助热点话题提取模块提取当前热点话题。Web service将统计数据可视化后展现给用户;
热点话题提取模块,从索引模块中获取当前分析的网络文本的情感和关键词统计数据,使用热点话题提取算法,提取出所分析的网络文本中所讨论的热点话题。提取出的热点话题通过web service进行展示。
所述情感分类模块中使用朴素贝叶斯分类器对文本情感进行分类的具体实现过程为:
(1)手工将表情符按情感类别进行标注;
(2)去掉重复和无效的数据,并抽选出含有表情符号的文本,将所带表情符所属情感类别作为该文本的情感标注,作为训练数据;
(3)利用自动抽取出的训练数据训练贝叶斯分类器;
(4)使用所训练的贝叶斯分类器对文本进行分类。
所述训练数据对朴素贝叶斯分类器训练时,实行增量式训练,不断使用新数据进行训练,提高模型的准确度。
所述情感值与关键词统计模块中情感值统计具体实现为:
(1)将情感分类模块获得的情感分类结果和原网络文本存储到文本文件中,作为情感值统计模块的输入。
(2)对网络文本进行中文分词,每条网络文本生成一个单词向量。
(3)统计每天所有话题topic的情感值e的出现频次,形成当天的情感值统计数据。
所述情感值与关键词统计模块中关键词统计为:以天为单位统计当天提到某话题的所有文本内容中,出现频率最高的30个关键词,关键词的形式为bi-gram形式,所述30个关键词构成该话题在当天的“标签云”。
所述情感值与关键词统计模块中情感值统计为:以天为单位,统计每个话题每天的四种情感值出现的频率,绘制为曲线图进行展示。曲线图的横坐标为日期,纵坐标为频率,图上共有四条曲线,分别代表四类情感值出现频率随着时间的变化。
所述索引建立模块具体实现过程:
(1)将统计好的情感值与关键词数据存储到文本文件中,每天一个文件;
(2)将数据统计文件加载到计算机内存中,在内存中以“天”为单位建立hash索引,便于快速检索到某天的所有话题的情感值与关键词统计数据。
所述热点话题提取模块具体实现过程:
(1)从情感值与关键词统计模块获取当天某话题的统计数据和前一天该话题的统计数据;
(2)对该话题当天的热度和前一天的热度进行对比,使用热度计算算法,计算出该话题在当天的热度;
(3)对所有话题的热度进行排序,提取出当天的热点话题。
本发明与现有技术相比的优点在于:本发明能够从海量数据中统计出各话题的热度变化、情感值变化和讨论的主要关键词。使用户能在短时间内了解各话题的讨论情况,发现实时热点,进行舆情监控。
附图说明
图1为本发明的组成框图;
图2为本发明中的情感分类模块实现流程图;
图3为本发明中的情感值与关键词统计模块实现流程图;
图4为本发明中的索引建立模块实现流程图;
图5为本发明中的和热点话题提取模块实现流程图;
图6,图7,图8分别是情感值统计和关键词统计效果;
图9是热点话题提取效果。
具体实施方式
如图1所示,本发明系统包括情感分类模块、情感值与关键词统计模块、索引建立模块和热点话题提取模块四部分。情感分类部分负责完成对文本内容进行情感分析。情感值与关键词统计部分对情感分析的结果进行统计,分析每个话题随着时间的推移,各种情感出现频率的变化,并提取涉及该话题的文本内容中的出现频次最高的关键词。索引建立部分对情感值和关键词统计数据建立索引,便于对其检索。热点话题提取部分对当前分析的网络文本进行实时监控,发现大家议论的热点话题。
下面具体介绍上述四个模块实现过程。
(一)情感分类模块
如图2所示,对网民发布的文本进行情感分析,分类为高兴、低落、愤怒和厌恶;使用朴素贝叶斯分类器对文本情感进行分类,具体实现为:
(1)表情符号蕴含了丰富的情感信息,可以通过表情符号为文本标注情感类别,首先将情感符号手工标注为高兴、低落、愤怒和厌恶四类情感,分别定义为情感值1,2,3,4。
(2)将文本记为tp,进行分词后得到(wp,1,wp,2,...,wp,ntp)单词向量,其中wp,j为文本tp对应的单词向量的第j个单词。
(3)若文本tp中含有表情符号E,则将tp的情感自动标注为情感符号E在第(1)步中手工标注的类别k,并作为贝叶斯分类器的训练数据对模型进行更新。
在训练过程中需要统计得出类别cp出现的概率P(cp)与在类别k下单词wp,j出现的概率P(wp,j|cp=k)。
根据P(cp=k)的含义,可得,
根据P(wp,j|cp=k)的含义,可得,
(4)记P(cp|tp)是预测样本tp属于类别的cp概率,P(tp)是预测样本tp出现的概率,P(cp)是类别cp出现的概率,P(tp|cp)的含义是类别cp中出现样本tp的概率。在进行分类时,目的是找出样本tp最可能属于的类别,即更倾向于选择使P(cp|tp)最大的那一个cp作为最后的分类结果,由贝叶斯公式 P ( c p | t p ) = P ( t p | c p ) × P ( c p ) P ( t p ) 可得:
Cp=argmaxk{P(cp=k|tp)}
arg max k { P ( t p | c P ) × P ( c p ) P ( t p ) }
argmaxk{P(tp|cp)×P(cp)}
P(tp|cp)无法直接进行计算,假设词(wp,1,wp,2,...,wp,ntp)之间独立不相关,可得,
P ( t p | c p = k ) = P ( ( w p , 1 , w p , 2 , . . . , w p , ntp ) | c p = k ) = Π j = 1 ntp P ( w p , j | c p = k )
其中P(w|cp=k)和P(cp)在步骤(3)中得到。
(5)根据步骤(4)中的分类结果,将文本tp归入相应的情感分类。
(二)情感值与关键词统计模块
如图3所示,本发明情感值与关键词统计模块实现过程为:
(1)定义n条网络文本为t1,t2,t3,...,tn,由bayes分类器获得的情感值标签分别为e1,e2,e3,...,en;
(2)对每条网络文本进行中文分词,将网络文本ti的分词结果定义为一个单词向量:wordlisti=(w1,w2,w3,...,wm);
(3)定义话题topic的情感值e的出现频次为topic(e),则topic(e)计算方法如下:
topic ( e ) = Σ i = 1 n 1 { e = e i andtopicin wordlist i } , e ∈ [ 1 , 4 ]
(4)统计每天所有话题topic的情感值e的出现频次,形成当天的情感值统计数据。
(5)计算keywords(topic):从第(2)步中生成的wordlist中,含有该topic的所有wordlist,定义为wordlists(topic)。
(6)统计第(5)步中,该话题对应的wordlists(topic)中每个wordlist任意相邻的两个单词组合形成一个bi-gram。统计该话题的所有bi-gram的出现频次。
(7)将bi-gram按照出现频次进行排序,排序在前30的bi-gram定义为该topic的关键词keywords(topic)。
(三)索引建立模块
如图3所示,索引建立模块具体实现过程如下:
(1)将统计好的情感值与关键词数据以文本文件的格式存储到计算机硬盘上,每天存储一个文件。
(2)将数据统计文件加载到计算机内存中。
(3)在内存中对日期和topic建立hash索引,便于快速检索到某天的某话题的情感值与关键词统计数据。即:statistic_data[date][topic]为date这天话题topic的统计数据。
(4)提供http接口,供web service查询统计数据。
图6,图7和图8为情感值统计和关键词统计的展示效果。
从图6中可以看到,某某某当选某选美大赛冠军当天,在互联网上出现了对她的讨论热潮,且大多为正面情绪;然而2天后,她被爆学历造假,愤怒的情绪比例突增并超过高兴的情绪。
图8和图9分别展示了“足球”和“某某某”这两个话题,随着时间的推移,四种情感值统计曲线的变化。用文字在曲线的拐点处标出当天相关的新闻事件,可以看出系统可以准确检测出互联网上网民对于这两个话题的态度和看法。
(四)热点话题提取模块
如图4所示,话题topic当天的热度值计算方法如下:
(1)从索引模块查询该topic在当天的四种情绪的频率值,形成向量a。a=(a1,a2,a3,a4)
(2)从索引模块查询该topic在前一天的四种情绪的频率值,形成向量b。b=(b1,b2,b3,b4)
(3)定义:
sum = ( a ) Σ i = 1 4 a i
sum ( b ) Σ i = 1 4 b i
(4)定义hot(topic)为该话题当天的热度值,计算公式如下:
hot ( topic ) = Σ i = 1 4 ( a i sum ( a ) - b i sum ( b ) ) × sum ( a ) sum ( b )
(5)计算所有话题的hot(topic)值,进行排序,选取排序前100的topic,提供给web service进行展示,展示效果如图9所示。
本发明未详细阐述部分属于本领域公知技术。
以上所述,仅为本发明部分具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本领域的人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (8)

1.一种基于文本情感分类的搜索引擎系统,其特征在于包括:情感分类模块、情感值与关键词统计模块、索引建立模块和热点话题提取模块;
所述情感分类模块,完成对文本内容进行情感分类;利用朴素贝叶斯分类器对网民发布的文本内容进行情感分类,分类结果分为高兴、低落、愤怒和厌恶四种情感;
所述情感值与关键词统计模块,对情感分类模块得到的四种情感进行统计;统计网民发布的文本中每个话题在每天的四种情感出现的频次,分析每个话题展示随着时间的推移,该话题的热度和情感值变化;同时提取涉及该话题的文本内容中出现频次最高的关键词,以标签云(Tag Cloud)的形式展示出来,作为网民对该话题的讨论摘要;
所述索引建立模块,对情感值与关键词统计模块得到的情感值和关键词统计数据建立索引,便于检索;为热点话题提取模块和web service提供每天的情感值和关键词统计数据,供web service进行展示;帮助热点话题提取模块提取当前热点话题,web service将统计数据可视化后展现给用户;
热点话题提取模块,从索引建立模块中获取当前分析的网络文本的情感和关键词统计数据,使用热点话题提取算法,提取出所分析的网络文本中所讨论的热点话题,提取出的热点话题通过web service进行展示。
2.根据权利要求1所述的一种基于文本情感分类的搜索引擎系统,其特征在于:所述情感分类模块中使用朴素贝叶斯分类器对文本情感进行分类的具体实现过程为:
(1)手工将表情符按情感类别进行标注;
(2)去掉重复和无效的数据,并抽选出含有表情符号的文本,将所带表情符所属情感类别作为该文本的情感标注,作为训练数据;
(3)利用自动抽取出的训练数据训练贝叶斯分类器;
(4)使用所训练的贝叶斯分类器对文本进行分类。
3.根据权利要求2所述的一种基于文本情感分类的搜索引擎系统,其特征在于:所述训练数据对朴素贝叶斯分类器训练时,实行增量式训练,不断使用新数据进行训练,提高模型的准确度。
4.根据权利要求1所述的一种基于文本情感分类的搜索引擎系统,其特征在于:所述情感值与关键词统计模块中情感值统计具体实现为:
(1)将情感分类模块获得的情感分类结果和原网络文本存储到文本文件中,作为情感值统计模块的输入;
(2)对网络文本进行中文分词,每条网络文本生成一个单词向量;
(3)统计每天所有话题topic的情感值e的出现频次,形成当天的情感值统计数据。
5.根据权利要求1所述的一种基于文本情感分类的搜索引擎系统,其特征在于:所述情感值与关键词统计模块中关键词统计为:以天为单位统计当天提到某话题的所有文本内容中,出现频率最高的30个关键词,关键词的形式为bi-gram形式,所述30个关键词构成该话题在当天的“标签云”。
6.根据权利要求1所述的一种基于文本情感分类的搜索引擎系统,其特征在于:所述情感值与关键词统计模块中情感值统计为:以天为单位,统计每个话题每天的四种情感值出现的频率,绘制为曲线图进行展示;曲线图的横坐标为日期,纵坐标为频率,图上共有四条曲线,分别代表四类情感值出现频率随着时间的变化。
7.根据权利要求1所述的一种基于文本情感分类的搜索引擎系统,其特征在于:所述索引建立模块具体实现过程:
(1)将统计好的情感值与关键词数据存储到文本文件中,每天一个文件;
(2)将数据统计文件加载到计算机内存中,在内存中以“天”为单位建立hash索引,便于快速检索到某天的所有话题的情感值与关键词统计数据。
8.根据权利要求1所述的一种基于文本情感分类的搜索引擎系统,其特征在于:所述热点话题提取模块具体实现过程:
(1)从情感值与关键词统计模块获取当天某话题的统计数据和前一天该话题的统计数据;
(2)对该话题当天的热度和前一天的热度进行对比,使用热度计算算法,计算出该话题在当天的热度;
(3)对所有话题的热度进行排序,提取出当天的热点话题。
CN201310479475.9A 2013-10-14 2013-10-14 一种基于文本情感分析的搜索引擎系统 Active CN103605658B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310479475.9A CN103605658B (zh) 2013-10-14 2013-10-14 一种基于文本情感分析的搜索引擎系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310479475.9A CN103605658B (zh) 2013-10-14 2013-10-14 一种基于文本情感分析的搜索引擎系统

Publications (2)

Publication Number Publication Date
CN103605658A CN103605658A (zh) 2014-02-26
CN103605658B true CN103605658B (zh) 2016-08-10

Family

ID=50123883

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310479475.9A Active CN103605658B (zh) 2013-10-14 2013-10-14 一种基于文本情感分析的搜索引擎系统

Country Status (1)

Country Link
CN (1) CN103605658B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063427A (zh) * 2014-06-06 2014-09-24 北京搜狗科技发展有限公司 一种基于语义理解的表情输入方法和装置
CN105574038B (zh) * 2014-10-16 2019-03-01 阿里巴巴集团控股有限公司 基于反识别渲染的文本内容识别率测试方法及装置
CN104615685B (zh) * 2015-01-22 2018-01-26 中国科学院计算技术研究所 一种面向网络话题的热度评价方法
CN105868186A (zh) * 2016-06-01 2016-08-17 清华大学 简单高效的话题提取方法
CN107330076B (zh) * 2017-07-01 2021-04-06 岳小玲 一种网络舆情信息展示系统及方法
CN108090048B (zh) * 2018-01-12 2021-05-25 安徽大学 一种基于多元数据分析的高校评价系统
CN108470046B (zh) * 2018-03-07 2020-12-01 中国科学院自动化研究所 基于新闻事件搜索语句的新闻事件排序方法及系统
CN108549633B (zh) * 2018-04-04 2021-09-21 郑州大学 基于概率推理与情感认知的文本细粒度情感生成方法
CN108681532B (zh) * 2018-04-08 2022-03-25 天津大学 一种面向中文微博的情感分析方法
CN108733791B (zh) * 2018-05-11 2020-11-20 北京科技大学 网络事件检测方法
CN108804416B (zh) * 2018-05-18 2022-08-09 大连民族大学 基于机器学习的影评情感倾向性分析的训练方法
CN108717450B (zh) * 2018-05-18 2022-04-05 大连民族大学 影评情感倾向性分析算法
CN108804594A (zh) * 2018-05-28 2018-11-13 国家计算机网络与信息安全管理中心 一种新闻内容全文检索引擎的构建方法及装置
CN112650906A (zh) * 2020-12-22 2021-04-13 国家电网有限公司客户服务中心 基于大数据文本分析的互联网用户评论分析方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751458A (zh) * 2009-12-31 2010-06-23 暨南大学 一种网络舆情监控系统及方法
CN101963972A (zh) * 2010-07-01 2011-02-02 深港产学研基地产业发展中心 情感关键词提取方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9589056B2 (en) * 2011-04-05 2017-03-07 Microsoft Technology Licensing Llc User information needs based data selection

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751458A (zh) * 2009-12-31 2010-06-23 暨南大学 一种网络舆情监控系统及方法
CN101963972A (zh) * 2010-07-01 2011-02-02 深港产学研基地产业发展中心 情感关键词提取方法及系统

Also Published As

Publication number Publication date
CN103605658A (zh) 2014-02-26

Similar Documents

Publication Publication Date Title
CN103605658B (zh) 一种基于文本情感分析的搜索引擎系统
CN108492200B (zh) 一种基于卷积神经网络的用户属性推断方法和装置
Thakkar et al. Approaches for sentiment analysis on twitter: A state-of-art study
CN108363804B (zh) 基于用户聚类的局部模型加权融合Top-N电影推荐方法
CN101174273B (zh) 基于元数据分析的新闻事件检测方法
CN105468605B (zh) 一种实体信息图谱生成方法及装置
CN103745000B (zh) 一种中文微博客的热点话题检测方法
CN103049435B (zh) 文本细粒度情感分析方法及装置
CN102253982B (zh) 一种基于查询语义和点击流数据的查询建议方法
CN105844424A (zh) 基于网络评论的产品质量问题发现及风险评估方法
CN103559191B (zh) 基于隐空间学习和双向排序学习的跨媒体排序方法
Shi et al. Sentiment analysis of Chinese microblogging based on sentiment ontology: a case study of ‘7.23 Wenzhou Train Collision’
CN103246644B (zh) 一种网络舆情信息处理方法和装置
CN101127042A (zh) 一种基于语言模型的情感分类方法
CN103324665A (zh) 一种基于微博的热点信息提取的方法和装置
CN103020159A (zh) 一种面向事件的新闻展现方法和装置
CN102270212A (zh) 一种基于隐半马尔可夫模型的用户兴趣特征提取方法
CN103823893A (zh) 一种基于用户评论的产品检索方法及产品检索系统
CN103123653A (zh) 基于贝叶斯分类学习的搜索引擎检索排序方法
CN104484431A (zh) 一种基于领域本体的多源个性化新闻网页推荐方法
CN105488077A (zh) 生成内容标签的方法和装置
CN104965931A (zh) 一种基于大数据的舆情分析方法
CN104462408B (zh) 一种基于主题建模的多粒度情感分析方法
CN106126605B (zh) 一种基于用户画像的短文本分类方法
CN106126502A (zh) 一种基于支持向量机的情感分类系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant