CN105740228A

CN105740228A - 一种互联网舆情分析方法

Info

Publication number: CN105740228A
Application number: CN201610047697.7A
Authority: CN
Inventors: 康雁; 柳青; 林英; 杨晓东; 孙金文; 张一凡; 普佳
Original assignee: Yunnan University YNU
Current assignee: Yunnan University YNU
Priority date: 2016-01-25
Filing date: 2016-01-25
Publication date: 2016-07-06
Anticipated expiration: 2036-01-25
Also published as: CN105740228B

Abstract

本发明公开了一种互联网舆情分析方法，所述互联网舆情分析方法包括：首先针对选定获取事件，微博源文本进行划分，去除与情绪无关的划分项；然后采用统计分析工具进行统计，得到情绪分类模型的一个输入；最后针对输入用分类算法对微博内容中能表达情绪的相关词语、表情、符号进行建模，给出综合情感指数评价，得到情绪分类，并进行舆情监控及情绪走势分析。本发明对微博中词语、表情和符号等进行情绪建模，通过情绪指数计算，可对微博中热点事件的反应情势进行自动分类和有效监控，从而可有效地进行舆情风险评估，对过激事件进行防控。

Description

一种互联网舆情分析方法

技术领域

本发明属于互联网技术领域，尤其涉及一种互联网舆情分析方法。

背景技术

舆情是“舆论情况”的简称，是指在一定的社会空间内，围绕中介性社会事件的发生、发展和变化，作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。在某个事件发生后，广大群众会通过各种途径了解到事情的真相，随后而来的便是纷纷如雨下的评论，或支持或反对、或理性或感性、或热情参与或冷眼旁观。当一种论调得到大家的认同后，舆情甚至可以对事件的走向发生重大的影响。而一旦有心人可以从这舆情中分析出些什么，得到些什么，那么就可以做出一个正确的决定。舆情分析十分复杂，从早期从不同平台、媒介的海量数据中发掘出潜在的舆情焦点、进行预测，到大规模舆情爆发后的监控、风险评估，再到结合以往类似事件的分析数据建立风险阈值，对可能演变为行为舆情(例如游行、集会等)的事件进行防控。涉及了统计学、语义学、自然语言处理、信息检索、Web信息发掘等多方面的知识。

发明内容

本发明的目的在于提供一种互联网舆情分析方法，旨在解决……的问题。

微博表达方法非常复杂，信息不同于汉语常规文本，很多表示情绪的词语存在方言化、网络化和口语化，常规分词系统难以进行处理。其中词语、图形和表情符号十分复杂，新表达方式不断出现，难以对其进行自动分析并获得情绪表征，从而达到智能分类微博反应、监控微博议论并预警情绪的变换趋势。

本发明是这样实现的，一种互联网舆情分析方法，所述互联网舆情分析方法包括：

首先针对选定获取事件，微博源文本进行划分，去除与情绪无关的划分项；

然后采用统计分析工具进行统计，得到情绪分类模型的一个输入；

最后针对输入用分类算法对微博内容中能表达情绪的相关词语、表情、符号进行建模，给出综合情感指数评价，得到情绪分类，并进行舆情监控及情绪走势分析。

对微博内容首先进行机械分词，按照一定的匹配策略将待分析的汉字串与现有机器词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功(识别出一个词)。采用串匹配策略为双向最大匹配法。针对微博中新词出现频率快的问题，采用基于统计的方法进行新词发现，主要借助统计可能的词语出现的频率，结合概率的知识进行筛选过滤，寻找出可能的新词语。本发明采用的是基于二次概率的新词发现技术。

除文本外，本发明还对微博中的表情和符号进行识别，给出表情和符号的情绪权值，利用权重因子将其和词语统一建模，最终给出综合考虑词语、表情和符号的从属权值、情绪权值、出现频数的情绪计算模型；并将网络大环境下普遍情绪对特定事件的影响和意见领袖在特定事件的情绪引领与传播这两点要素纳入模型，得到综合情感指数。针对综合情感指数用Zero-R、NativeBayes、SMO、J48、IBK这五类方法进行分类，得到正面和负面情绪的分类，并通过Weka提供的改变随机种子的办法和K-折交叉验证，对每个分类方法进行了5次十折交叉验证，进行了算法性能验和证分析。采用统计工具和R语言，分析舆情持续时间内的情绪走势，给出舆情分析。

进一步，所述互联网舆情分析方法具体包括以下步骤：

步骤一，对选定事件进行获取；利用统计学对舆情的持续时间内的微博内容进行分词，并对微博源文本进行划分，去除与情绪无关的划分项，并对有用项进行统计，得到情绪分类模型的输入；

步骤二，对微博内容进行情绪语义计算，统计能表现情绪的关键词、表情和符号出现的频率，然后给出表情权值，计算表情情绪指数L1和符号情绪指数L2，最终结合L1、L2和舆情趋势影响因素，综合计算舆情情绪指数L；

步骤三，采用对词语、表情、符号进行情感趋势分析的方式，结合若干重要的舆情趋势影响因素，得到模型及舆情情绪指数；

步骤四，基于舆情情绪指数进行分类算法计算，得到正面和负面情绪的分类，采用统计工具和R语言，分析舆情持续时间内的情绪走势，给出舆情分析；在舆情持续时间内利用多种分类方法及验证方法进行验证。

进一步，所述选定事件进行获取利用新浪微博开放平台API调用、以及开源微博库获取微博信息。

进一步，所述选定事件进行获取信息进行预处理：利用已有开源词库进行第一次文本词语处理，在文本分词后对与微博舆情情绪有关的词进行处理；对微博内容中能够表达情绪的符号的出现次数及连续出现的模式进行统计；表情采用正则表达式对进行匹配；然后利用二次分词建立更为完善的用户词库，采用基于频率的搜索方法解决固定短语的识别问题。

进一步，所述对用户词库的完善规则定义如下：

关键词权值支持理论及建模：首先依据语义学中的词语注释、构词法决定词语的情绪权值；然后对训练样本数据进行统计计算得到词语的出现频数；最后依据词语所在文本的转发者或编撰者的微博内容的转发数、评论数、点赞数编订词语从属权值；

表情和符号的频率统计及建模：在采集微博内容中，用类似关键词的文本处理方式对表情的出现频率进行统计，并转化成汉字，从而对表情的权值采用类似关键词的方法进行确定；

大环境下的情绪波及影响指数：计算出舆情情绪波及影响指数；

舆情情绪指数建模体系：将网络大环境下普遍情绪对特定事件的影响和意见领袖在特定事件的情绪引领与传播这两点要素纳入模型。

进一步，所述关键词权值的分类为机器学习中的分类问题，输入词语的情绪权值与出现频数，采用朴素贝叶斯法，基于贝叶斯定理与特征条件独立假设进行分类；对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布，然后利用贝叶斯定理求出后验概率最大的输出，对于本次建模，朴素贝叶斯的输出为情绪类别，再依据词语从属权值进行建模。

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布；然后基于此模型，对给定的输入x，利用贝叶斯定理求出后验概率最大的输出y。对于本次建模，朴素贝叶斯的输入即为词语的情绪权值与词语的出现频数，输出为情绪类别，再依据词语从属权值进行建模0。先以5月3日的关键词信息作为训练样本，然后利用其余的测试数据对生成模型进行验证。初步验证选取了155个词语作为训练数据，训练结果显示在训练集(2,u)、(4,u)、(3,o)出现误差，这不是算法造成的，而是变量取值间相互关联的结果。概率统计证明：训练集在(2,u,M)、(4,u,H)、(3,o,H)在训练集中出现较少，其概率分别为0.015、0.011、0.012。即对于训练集，该模型的分类准确度为96.2％。为进一步验证生成模型的准确度，在后序的模型验证中采用了不同的分类方法及验证方法。

参数范围：

词语的情绪权值

词语的出现频数ωword∈{h,s,u,o}⑧

词语从属权值μword∈[0,1]

常数Ω＝当日微博相关条数⑨

结果集：

情绪类别ψ∈{L,M,H}

期望分类结果：

以特征向量的方式表示：

(1,h,L),(1,s,L),(1,u,L),(1,o,M)

(2,h,L),(2,s,M),(2,u,M),(2,o,M)

(3,h,M),(3,s,M),(3,u,H),(3,o,H)

(4,h,H),(4,s,H),(4,u,H),(4,o,H)

本发明的另一目的在于提供一种所述互联网舆情分析方法的互联网舆情分析系统，所述互联网舆情分析系统包括：

划分模块，用于选定获取事件，微博源文本进行划分，去除与情绪无关的划分项；

统计模块，用于采用统计分析工具进行统计，得到情绪分类模型的一个输入；

建模模块，用于针对输入用分类算法对微博内容中能表达情绪的相关词语、表情、符号进行建模，给出综合情感指数评价，得到情绪分类，并进行舆情监控及情绪走势分析。

所述互联网舆情分析系统进一步包括：

获取单元，用于对选定事件进行获取；利用统计学对舆情的持续时间内的微博内容进行分词，并对微博源文本进行划分，去除与情绪无关的划分项，并对有用项进行统计，得到情绪分类模型的输入；

计算单元，用于对微博内容进行情绪语义计算，统计能表现情绪的关键词、表情和符号出现的频率，然后给出表情权值，计算表情情绪指数L1和符号情绪指数L2，最终结合L1、L2和舆情趋势影响因素，综合计算舆情情绪指数L；

分析单元，采用对词语、表情、符号进行情感趋势分析的方式，结合若干重要的舆情趋势影响因素，得到模型及舆情情绪指数；

分类计算单元，基于舆情情绪指数进行分类算法计算，得到正面和负面情绪的分类，采用统计工具和R语言，分析舆情持续时间内的情绪走势，给出舆情分析；在舆情持续时间内利用多种分类方法及验证方法进行验证。

所述获取单元进一步包括：

词语处理单元，用于利用已有开源词库进行第一次文本词语处理，在文本分词后对与微博舆情情绪有关的词进行处理；

统计单元，用于对微博内容中能够表达情绪的符号的出现次数及连续出现的模式进行统计；

匹配单元，表情采用正则表达式对进行匹配；

识别单元，用于利用二次分词建立更为完善的用户词库，采用基于频率的搜索方法解决固定短语的识别问题。

所述对用户词库进一步包括：

关键词权值支持理论及建模单元：用于依据语义学中的词语注释、构词法决定词语的情绪权值；对训练样本数据进行统计计算得到词语的出现频数；依据词语所在文本的转发者或编撰者的微博内容的转发数、评论数、点赞数编订词语从属权值；

表情和符号的频率统计及建模单元，用于在采集微博内容中，用类似关键词的文本处理方式对表情的出现频率进行统计，并转化成汉字，从而对表情的权值采用类似关键词的方法进行确定；

大环境下的情绪波及影响指数单元，用于计算出舆情情绪波及影响指数；

舆情情绪指数建模体系单元，用于将网络大环境下普遍情绪对特定事件的影响和意见领袖在特定事件的情绪引领与传播这两点要素纳入模型。

本发明提供的互联网舆情分析方法，对微博中词语、表情和符号等进行情绪建模，通过情绪指数计算，可对微博中热点事件的反应情势进行自动分类和有效监控，从而可有效地进行舆情风险评估，对过激事件进行防控。微博类社交方式导致文本书写的随意性、口语化，如：简写、拼写错误、标点符号错用等情况，这仍是大多情感分析系统面临的挑战；本发明对日益增多的微博多种信息进行自动抓取和分析，利用二次概率分析提高了微博新词的识别，有效地过滤了错误信息，提高了微博文本信息的识别率和准确性。与已有的研究不同，本发明首次提出综合考虑图形和符号信息，基于信息的多维特性综合提出情绪综合评价模型，并创新地在模型中引入了衡量微博中信息的传播特性的心理指数和权威指数，得到情绪综合指数。然后利用多种算法对多种信息进行主客观性分类和情感极性分类。定义新的评价指标，利用多种分类算法和验证方法进行了算法的验证。利用R语言对大数据的有效可视化显示、热点事件情绪变化规律的分析，有助于舆情的监控。随着互联网相关技术的迅速发展，微博成为人们表达观点、抒发情感的重要工具，本发明能有效地从微博信息中提取、归纳出用户的情感现点，并进行针对热点事件的趋势显示和预测，起到舆情监控的作用。

附图说明

图1是本发明实施例提供的互联网舆情分析方法流程图。

图2是本发明实施例提供的舆情情绪指数体系示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下面结合附图对本发明的应用原理作详细的描述。

如图1所示，本发明实施例的互联网舆情分析方法包括以下步骤：

S101：对选定事件进行获取；利用统计学对舆情的持续时间内的微博内容进行分词，并对微博源文本进行划分，去除与情绪无关的划分项，并对有用项进行统计，得到情绪分类模型的输入；

S102：对微博内容进行情绪语义计算，统计能表现情绪的关键词、表情和符号出现的频率，然后给出表情权值，计算表情情绪指数L1和符号情绪指数L2，最终结合L1、L2和舆情趋势影响因素，综合计算舆情情绪指数L；

S103：采用对词语、表情、符号进行情感趋势分析的方式，结合若干重要的舆情趋势影响因素，得到模型及舆情情绪指数；

S104：基于舆情情绪指数进行分类算法计算，得到正面和负面情绪的分类，采用统计工具和R语言，分析舆情持续时间内的情绪走势，给出舆情分析；在舆情持续时间内利用多种分类方法及验证方法进行验证。

本发明的互联网舆情分析方法包括：

所述选定事件进行获取利用新浪微博开放平台API调用、以及开源微博库获取微博信息。

所述选定事件进行获取信息进行预处理：利用已有开源词库进行第一次文本词语处理，在文本分词后对与微博舆情情绪有关的词进行处理；对微博内容中能够表达情绪的符号的出现次数及连续出现的模式进行统计；表情采用正则表达式对进行匹配；然后利用二次分词建立更为完善的用户词库，采用基于频率的搜索方法解决固定短语的识别问题。

所述对用户词库的完善规则定义如下：

关键词权值支持理论及建模：首先依据语义学中的词语注释、构词法决定词语的情绪权值；然后对训练样本数据进行统计计算得到词语的出现频数；最后依据词语所在文本的转发者或编撰者的人气指数(其微博内容的转发数、评论数、点赞数)编订词语从属权值；

关键词权值的分类为机器学习中的分类问题，本发明输入词语的情绪权值与出现频数，采用朴素贝叶斯法，基于贝叶斯定理与特征条件独立假设进行分类。对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布，然后利用贝叶斯定理求出后验概率最大的输出，对于本次建模，朴素贝叶斯的输出为情绪类别，再依据词语从属权值进行建模；

表情和符号的频率统计及建模：在采集微博内容中，表情以[内容]的形式展现在文本里，本发明用类似关键词一样的文本处理方式对表情的出现频率进行统计，并将其转化成汉字，从而对表情的权值采用类似关键词的方法进行确定。因为表情和符号种类相对文字种类，数量较少，因此可以采用直接统计频数的方式，而不必进行泛化，分类结果也可以直接用统计方法给出。

大环境下的情绪波及影响指数E：基于群体极化效应、羊群效应、破窗原理和帕累托定律描述不足20％的意见领袖在网络舆论传播进程中起到的关键助推作用，以及大众在大环境下对信息的反应，计算出舆情情绪波及影响指数。

舆情情绪指数建模体系：除了依据事实数据进行分析网络舆情，在建模过程中，本发明还将网络大环境下普遍情绪对特定事件的影响，和意见领袖在特定事件的情绪引领与传播这两点要素纳入模型中。

模型验证：模型验证不可缺少的是大量的训练、测试数据和合理的验证方法。基于分词及大量的统计学分析，本发明采用了编程验证的方法和Weka工具验证。对于Zero-R、NativeBayes、SMO、J48、IBK这五种常见分类方法进行了K-折交叉验证，并通过Weka提供的改变随机种子的办法，对每个分类方法进行了5次十折交叉验证，并计算出了成功分类平均率和样本标准差。

下面结合具体实施例对本发明的应用原理作进一步的描述。

本发明的实施例利用新浪微博开放平台的API，对选定事件的微博内容进行获取；利用统计学习的思想，对舆情的持续时间、走向进行统计分析；对微博内容进行语义计算，其中包含对微博内容进行分词、词性标注、分类等步骤，采用对词语(建立微博词语语法库)、表情、符号进行情感趋势分析的方式，结合若干重要的舆情趋势影响因素，自行建模定义“舆情情绪指数”，并对结果利用不同的分类方法及不同的验证方法(hold-out和Cross-validation)进行验证，完成可视化和舆情分析；基于语句的情绪分析至今仍是机器学习及人工智能领域的难点，在一个学期内的收获可能十分有限。因此在本次舆情分析中，我们采用基于微博内容中能表达情绪的相关词语、表情、符号进行建模的方法，分析舆情情绪走势，给出舆情分析。从微博内容到用分类算法真正的把词语、表情、符号建模成舆情情绪指数，在数据预处理时就要对微博源文本进行划分，去除一些与情绪无关的划分项。然后，对有用项进行统计，得到情绪分类模型的一个输入---有关项的出现频次，对有关项赋予情绪权值，得到情绪分类模型的又一个输入---有关项的情绪权值，从而将有关项分类成不同的情绪级别(H,M,L三个级别)，在舆情持续时间内对分类后的有关项根据其情绪级别进行赋值、加和，得到舆情情绪指数，即舆情持续时间内的情绪走势。基于文本组件(词语、表情、符号)进行情绪分析的误差来源也有很多。首先，组件之间的情绪不是简单的叠加关系，涉及到具体语境，不同组件及其组合也可能表达不同的情绪。其次，将情绪统一按激烈程度(H,M,L)划分是一个误差较大选择，因为即使舆情情绪分析，也有积极的影响存在。最后，微博言论相对自由，很难对方言、讽刺、反语等情况基于组件进行分析。因此，最终得到的模型存在一些误差，因为选定的建模方法而不可调和，因此又给出了大环境下的情绪波及影响指数等模型优化方法。

项目实行如下：

1利用BLPIR○2进行分词，使分词尽可能的便于统计。

尽管BLPIR汉语分词系统比较成熟的实现了对中文文档的分词，词性标注等功能，但对于口语化、方言化、网络化严重的微博内容，开发人员仍需自定义用户词库来解决部分网络词语的分词问题，例如“吓哭”、“坑爹”等词语，BLPIR中文分词系统不再适用。

2统计一日内情绪关键词的出现频率、给出词语权值，分类计算当日关键词情绪指数L₀。

3统计一日内表情出现的频率、给出表情权值，计算当日表情情绪指数L₁；

4统计一日特殊符号出现的频率、给出符号权值，计算当日符号情绪指数L₂；

5结合若干重要的舆情趋势影响因素，综合计算当日舆情情绪指数L；

6对持续时间内的舆情走势进行可视化，分析给出舆情报告。

1项目实现

1.1微博信息获取

新浪微博开放平台：

微博开放平台(WeiboOpenPlatform)是基于微博海量用户和强大的传播能力，接入第三方合作伙伴服务，向用户提供丰富应用和完善服务的开放平台。将你的服务接入微博平台，有助于推广产品，增加网站、应用的流量，拓展新用户，获得收益。2015年微博商业开放平台推出了全新升级的商业服务，打造基于微博的开放商业生态。在这个生态中，微博商业开放平台致力于向第三方合作伙伴输出更多更全面的服务能力以及相关数据，使第三方合作伙伴能够基于这些开放的服务能力和数据，为各自的企业客户带来更多价值。第三方合作伙伴，企业客户，及微博商业开放平台是微博商业生态中的重要角色。微博商业开放平台以促进第三方合作伙伴与企业更好的进行在微博内的商业合作为最终目的，实现三方共赢。

新浪微博开放平台API调用及开发者账号：

注册成为微博应用开发者：

说明：支付商户系统目前仅对公司开发者开放，暂不对个人开发者开放，您需要用一个全新的微博账户，注册为公司开发者。

注册流程：

登录新浪微博开放平台，填写基本信息，将开发者类型选择为“公司”

填写地址：http://open.weibo.com/developers/basicinfo

验证邮箱成功后，即完成公司开发者的注册。

服务平台开发接口接入方法：

第一步：申请消息接口

第二步：验证URL有效性

第三步：成为开发者，获取access_token

注：详情参见http://open.weibo.com/wiki/Messages_api_start

1.2对微博信息进行预处理

1.2.1微博内容预处理

降噪方法：采用人工校阅的方法，去除非相关内容、非持续时间内、及言辞不达意的微博内容。

遗失数据处理：因为处理文件为文本，建模时又规定了转发基础分常数Ω规则，即对于无微博内容的实例，赋予一个转发基础分，因此不必做对遗失数据进行单独处理。

文本词语处理：在文本分词后对与微博舆情情绪无关的词进行处理，在这次微博舆情分析中，我们不考虑单字成词的情况，即将分词后为生成词语的单字剔除。

文本符号处理：对微博内容中能够表达情绪的符号的出现次数及连续出现的模式(如：！！！～～～)进行统计。

文本表情处理：在采集微博内容时，发现表情以[内容]的形式展现在文本里，因此采用正则表达式对该模式进行匹配，统计不同表情的出现次数。

清除示例：

转发微博

啊

ILPOPPY412

第四城社区

→

【

1.2.2微博内容导出Excel

按照事件持续周期对每天的微博内容建表，如表1所示：

1.2.3利用NLPIR汉语分词系统对微博内容分词并整理关键词

利用NLPIR分词的初步结果并不令人满意，原因是微博信息不同于汉语常规文本，很多表示情绪的词语存在方言化、网络化和口语化，而NLPIR分词系统常常把这些词语处理为单个字符，因而需要改进。

初步分词结果示例：

示例文本：

#女司机惨遭男司机暴打#【“可能因为我挡了他的路”】3日下午，成都娇子立交附近一女司机被一男司机拖出车外，遭暴打至骨折脑震荡。当事人卢小姐称，自己驾车出航天立交后，可能挡后方车的路，“他跟到娇子立交把我别停了”。围观群众阻止男子离开，他又持螺丝刀戳伤一人[怒]。视频

分词结果：

#/w女司机/n惨遭/v男/b司机/n暴/ad打/v#/w【/wkz“/wyz可能/v因为/c我/rr挡/v了/ule他/rr的/ude1路/n”/wyy】/wky3日/t下午/t，/wd成都/ns娇/a子/ng立交/b附近/f一/m女司机/n被/pbei一/m男/b司机/n拖/v出/vf车/n外/f，/wd遭/v暴/ad打/v至/p骨折/vn脑震荡/n。/wj当事人/n卢/b小姐/n称/v，/wd自己/rr驾车/vi出/vf航天/n立交/b后/f，/wd可能/v挡/v后方/s车/n的/ude1路/n，/wd“/wyz他/rr跟/p到/v娇/a子/ng立交/b把/pba我/rr别/d停/vi了/y”/wyy。/wj围观/vi群众/n阻止/v男子/n离开/v，/wd他/rr又/d持/v螺丝刀/n戳/v伤/v一/m人/n[/wkz怒/vg]/wky。/wj视频/n_

分成了词语/词性③的形式问题：如“暴打”、“别停”等词，没有正确区分，网络词汇如“吓尿”、“卧槽”等词，也无法正确分词，这样会给接下来的建模工作带来很大的麻烦。

解决方案：利用二次分词建立更为完善的用户词库

传统的未登录词④识别通常是在机械切分后对残片的处理、但我们认为未登录词识别中重要的条件之一是出现连续的单字。并且，根据语言学规则，新词或是术语中包含一个以上的虚字的可能性很小。因此，基于频率的搜索方法可以很好地解决固定短语的识别问题。对用户词库的完善规则定义如下：

1相邻且出现频率相近的单字划分为新的未登录词，如下：

戳/v频率为15；

伤/v频率为11；

吓/v频率为3；

尿/n频率为2；

卧/vi频率为3：

槽/ng频率为3：

21中定义的未登录词不包含虚词，如下：

哦/e频率为5：

看/v频率为6.

吧/y频率为4是

渣/ng频率为3：

3去除除“！”以外的分词标点

#/w频率为26：

”/wyy

】_/wky

优化前后用户词典的分词结果比较：

训练样本数据1：5月3日关于成都女司机被打事件的微博内容

一次分词成功率⑤＝非单字成词数/总分词数＝353/669＝0.53

总分词数：669

多字成词数353

单字成词数284

符号数32

二次分词成功率⑥：＝原多字成词数+新生成有效分词数/总分词数+新生成无效分词数＝(353+19)/650＝0.57

总分词数：555

原多字成词数353

新生成无效分词数：95

新生成有效分词数：19

单字成词数：56

符号数32

训练样本数据2：5月4日关于成都女司机被打事件的微博内容

一次分词成功率＝非单字成词数/总分词数＝2258/3525＝0.64

总分词数：3525

多字成词数2258

单字成词数1106

符号数161

二次分词成功率：＝原多字成词数+新生成有效分词数/总分词数+新生成无效分词数＝0.73

总分词数：3102

原多字成词数：2258

新生成无效分词数：340

新生成有效分词数：83

单字成词数：260

符号数:161

训练样本数据3：5月5日关于成都女司机被打事件的微博内容

一次分词成功率＝非单字成词数/总分词数＝3305/4980＝0.664

总分词数：4980

多字成词数3305

单字成词数1368

符号数307

二次分词成功率：＝原多字成词数+新生成有效分词数/总分词数+新生成无效分词数＝0.687

总分词数：4467

原多字成词数:3305

新生成无效分词数：444

新生成有效分词数：69

单字成词数：342

符号数:307

测试结果汇总：

一次分词平均成功率：(0.53+0.64+0.66)/3＝0.61

二次分词平均成功率：(0.57+0.73+0.69)/3＝0.66

分词是否更加有利于模型的建立、优化在何处：

由频率计算所得到的二次分词方法，在一定程度上提高了NLPIR中文分词系统在微博信息分词的准确度。由于增加了有效分词的个数，使得所建立的模型词库能更全面的反应微博情绪，从而更全面的、准确的对微博情绪指数进行建模。因此，所采用的二次分词方法是有意义的。

1.3关键词权值支持理论及建模过程

1.3.1关键词权值支持理论

将微博舆情情绪指数建模中，对关键词的分类归为数据挖掘中的分类问题。

关键词含义：能够表达情绪的词语。

定义：

转发微博并评论即有的常数Ω

词语从属权值μword

词语的情绪权值

词语的出现频数ωword

情绪类别ψ：HML

词语的情绪权值是依据语义学中的词语注释、构词法决定⑦。

词语的出现频数ωword是依据对训练样本数据进行统计计算得到的。

词语从属权值μword是依据词语所在文本的转发者或编撰者的人气指数(其微博内容的转发数、评论数、点赞数)编订的。

依据词语的情绪权值和词语的出现频率ωword给出词语的情绪类别,即

(Φword,ωword,μword)→情绪类别ψ

1.3.2关键词权值建模规则

对于建模的说明，以朴素贝叶斯方法为例：

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布；然后基于此模型，对给定的输入x，利用贝叶斯定理求出后验概率最大的输出y。

对于本次建模，朴素贝叶斯的输入即为词语的情绪权值与词语的出现频数ωword，输出为情绪类别ψ，再依据词语从属权值μword，建模L0。先以5月3日的关键词信息作为训练样本，然后利用其余的测试数据对生成模型进行验证。

参数范围：

词语的情绪权值

词语的出现频数ωword∈{h,s,u,o}⑧

词语从属权值μword∈[0,1]

常数Ω＝当日微博相关条数⑨

结果集：

情绪类别ψ∈{L,M,H}

期望分类结果：

以特征向量的方式表示：

(1,h,L),(1,s,L),(1,u,L),(1,o,M)

(2,h,L),(2,s,M),(2,u,M),(2,o,M)

(3,h,M),(3,s,M),(3,u,H),(3,o,H)

(4,h,H),(4,s,H),(4,u,H),(4,o,H)

表格显示如表2所示：

X1	X2	Y
			1	h	L
1	s	L
			1	u	L
1	o	M
			2	h	L
2	s	M
			2	u	M
2	o	M
			3	h	M
3	s	M
			3	u	H
3	o	H
			4	h	H
4	s	H
			4	u	H
4	o	H

＝

初步验证：

选取了155个词语作为训练数据，训练结果显示在训练集(2,u)、(4,u)、(3,o)出现误差，这不是算法造成的，而是变量取值间相互关联的结果。概率统计证明：训练集在(2,u,M)、(4,u,H)、(3,o,H)在训练集中出现较少，其概率分别为0.015、0.011、0.012。即对于训练集，该模型的分类准确度为％96.2。

为进一步验证生成模型的准确度，在后序的模型验证中采用了不同的分类方法及验证方法。

1.3.3依据建模结果求解L₀

定义：

L₀为舆情持续时间内每日的关键词情绪指数

模型公式：

L₀＝H*Q0*μword_h+M*Q1*μword_m+L*Q2*μword_l+Ω

其中H,M,L依据各自权重进行计算，Q∈(N*)，代表每日情绪类别(H,M,L)出现的频数，Ω为常量值。

1.4表情的频率统计及建模过程

1.4.1表情权值支持理论

微博舆情中，表情在很大程度上反应了参与者的情绪，表情也因其生动逼真的特点，受到了参与者的广泛使用。

在采集微博内容时，我们惊喜的发现，表情以[内容]的形式展现在文本里，这样的显示无疑为微博舆情的表情情绪指数分析带来了以下两点好处：

1可以很方便的利用类似关键词一样的文本处理方式对表情的出现频率进行统计。

2用于表情的内容被转化成汉字，易于对表情的权值采用类似关键词的方法进行确定。

1.4.2微博表情频率统计

以5月3日微博内容为例，对表情的出现频率进行统计。

返回了如表3所示的表情格式：

表3

这样的格式每一行表示在同一条微博中出现的表情，很方便的对表情进行频率统计和权值赋予。

1.4.3表情建模规则

以为表情种类相对文字种类，数量较少，因此可以采用直接统计频数的方式，而不必进行泛化，分类结果也可以直接用统计方法给出。

定义:

表情的情绪权值

表情的出现频数ωemoticon∈N*

词语从属权值μemoticon∈[0,1]

对于文本中共出现的69种表情，表情的情绪权值划分如表4：

表4

共69种。

1.4.4依据建模结果求解L₁

定义：

L₁为舆情持续时间内每日的表情情绪指数

模型公式：

其中根据语义学定义给出、ωemoticon由统计学计算得出，N∈(N*)，代表每日特定表情出现的频数。

1.5符号的频率统计及建模过程

1.5.1符号统计及权值支持理论

标点符号就像是美丽迷人的词语朴素平凡的远亲。它总是静静地在后台工作，扫除障碍，努力保持信息流畅，而词语则四处活跃着表达想法，意思和感受。标点符号坦然接受自己的实际用途，但是它们也有感情。它们以微妙的方式表达有时很容易被忽略的情绪。

词语对于文本情绪的影响丝毫不亚于词语和表情，而且更富有变化性。符号所蕴含的情绪，主要通过层叠出现和符号本身代表的情绪所决定。因此，在建模的符号模块，我们主要关注那些层叠出现的符号，解析其蕴含的情绪，统计结果后加入模型，从而优化舆情情绪指数建模。

1.5.2符号建模规则

符号种类种类，数量较少，因此可以采用直接统计频数的方式，而不必进行泛化。

定义:

表情的情绪权值

表情的层叠出现数ωsymbol∈N*

词语从属权值μsymbol∈[0,1]

1.5.3依据建模结果求解L₂

定义：

L2为舆情持续时间内每日的符号情绪指数

模型公式：

其中根据语义学定义给出、ωsymbol由统计学计算得出，N∈(N*)，代表每日特定表情出现的频数。

1.6大环境下的情绪波及影响指数E

1.6.1情绪波及影响指数E理论支持

群体极化效应指出：如不修正团体成员一开始即有某些偏向，人们将朝偏向的方向继续移动。也就是说，情绪在范围内会愈演愈烈，特别是在微博这种传播快、舆论相对自由的环境中，个人的情绪会不自觉地收到大环境情绪的影响，出现“人云亦云”的状况。

因此，如不将情绪大环境对言论发起者的影响体现在模型之中，那么舆情情绪指数的建立必然会有较大的偏颇，因此在此模块中，需要将定义情绪波及影响指数E，并采取科学的量化方法将其应用在模型建立的过程中。

1.6.2情绪波及影响指数E的定义

定义影响特定事件的情绪波及影响指数E的主要因素为当日特定事件的关注程度和关注特定事件的人员的真实情绪，在微博环境下，当日特定事件的关注程度反映在关注特定事件的微博数量上，而这些微博的内容则详细反映了关注特定事件人员的普遍情绪，因此定义：

当日特定事件的关注程度α：

关注特定事件的微博数量→当日特定事件的关注程度α

关注特定事件的人员的真实情绪β：

微博的内容→关注特定事件的人员的普遍情绪→关注特定事件的人员的真实情绪β

当日特定事件的关注程度α计算过程：

公式：

α＝λ₀*num

其中，λ₀为常数，num为微博数量

关注特定事件的人员的普遍情绪β计算过程：

公式：

β = \frac{λ 1}{L .0 + L .1 + L .2}

即特定事件的人员的真实情绪β反比于关注特定事件的人员的普遍情绪(L0+L1+L2)

1.6.3情绪波及影响指数E量化标准

公式：

E＝p*α+(1-p)*β

其中，p表示概率权值，初值为0.5。

1.7舆情情绪指数L建模理论及过程

1.7.1舆情情绪指数建模体系：

相关理论：

1群体极化效应：指团体成员一开始即有某些偏向，在商议后，人们朝偏向的方向继续移动。

2羊群效应：也称“从众效应”，是指人们由于受到多数人的潜移默化的影响，思想和行为愈渐趋同。

3破窗原理：主要思想为：如果有人打坏了一幢建筑物的窗户玻璃，而这扇窗户又得不到及时的维修，别人就可能受到某些示范性的纵容去打烂更多的窗户。

4帕累托定律：也叫“二八”定律，原意是社会上20％的人拥有80％的财富，即财富在社会上的分配是不均衡的。同样，众多学者研究表明，不足20％的意见领袖在网络舆论传播的进程中起到了非常关键的助推作用。

基于以上原理分析得知，网络舆情的评估除了依据事实数据进行分析，在建模过程中，还应将网络大环境下普遍情绪对特定事件的影响，和意见领袖在特定事件的情绪引领与传播这两点要素纳入分析之中。

结合收集到的数据，得到了舆情情绪指数体系如图2。

下面通过验证对本发明的应用效果作详细的说明。

1模型验

1.1模型验证相关方法简介

对于“微博舆情情绪指数”模型的验证，为求稳妥，采用了编程验证、工具验证两种方式对比进行，而在其各自的验证过程中，还用到了一下两种数据挖掘中常用的验证方式：

1Cross-validation:

交叉验证是指，将数据平均分成k份，每次用其中的k-1分作为训练数据，1份作为测试数据，迭代直到所有的数据均进行过训练与验证，Weka中则会进行k+1次运算。

2Hold-out:

即百分比分割，是指按照规定的百分比数将数据总体分为训练数据和测试数据，已完成对模型的训练+验证。

1.2相关机器学习算法及工具简介：

算法

朴素贝叶斯分类器：

支持向量机：

支持向量机是一种二类分类模型，他的基本模型是定义在特征空间上的间隔最大的线性分类器，间隔最大使它有别于感知机；支持向量机还包括核技巧，这使它成为实质上的非线性分类器。

决策树：

决策树是一种基本的分类与回归方法。决策树模型呈树形结构，在分类问题中，表示基于特征对实例进行分类的过程。它可以认为是if-then规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。

K-最近邻：

K-最近邻的思路是：如果一个样本在特征空间中的k个最相似即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

理论证明测试集很大，k也很大时，错误率趋向于理论最小值。

Zero-R：

Zero-R是weka中基于Java实现的一种算法。基线精准度Zero-R，是weka中解决分类问题时常被用作概率基准。其实现方法是：每次按照概率最大的分类方法进行预测。

Weka的全名是怀卡托智能分析环境(WaikatoEnvironmentforKnowledgeAnalysis)，是一款免费的，非商业化的，基于JAVA环境下开源的机器学习以及数据挖掘软件。

WEKA作为一个公开的数据挖掘工作平台，集合了大量能承担数据挖掘任务的机器学习算法，包括对数据进行预处理，分类，回归、聚类、关联规则以及在新的交互式界面上的可视化。

1.3编程验证：

编程实现朴素贝叶斯公式和支持向量机：

基于java实现了朴素贝叶斯分类器，代码详见附件《项目代码说明》。

1.4使用相关工具验证：

模型验证不可缺少的是大量的训练、测试数据和合理的验证方法。给予分词及大量的统计学分析，我们已经掌握到了足量的，相对精确的数据。在模型验证方面，起初采用了编程验证的方法，但在实践工程中发现，编程验证相比工具验证较难实现对于模型的Cross-validation及Hold-out，实现以上两种验证方法必须频繁的改变其验证数据及测试数据，需要编程的特殊处理，但这显然不是本次模型验证的重点，因此采用了Weka进行验证。

1用Weka训练模型并验证其准确度：

利用Cross-validation的方法对模型进行分析：

输入：Frequency(未泛化)，Weight

输出：Classify

A v g - C o r r e c t - r a t e = \frac{Σ_{i = 1}^{n} c o r r e c t - r a t e i}{n}

表5多种算法的Cross-validation验证及分析

K-折交叉验证结果分析：

1)对于Zero-R、NativeBayes、SMO、J48、IBK这五种常见分类方法进行了K-折交叉验证，并通过Weka提供的改变随机种子的办法，对每个分类方法进行了5次十折交叉验证，并计算出了Avg-Correct-rate(成功分类平均率)和Standraddevaiation(样本标准差)。

2)由计算结果可知：

Zero-R的成功分类率固定为64.1089％，这与其算法的实现方式有关(总是按照最大概率分类)。

同时，Zero-R依照分类概率最大的结果进行分类，其Avg-Correct-rate为64.1089％。而其余四种分类方法照比此方法，分类成功率都有较大提高，因此可见使用其余四种分类方法是合理的。

3)NativeBayes的分类成功率平均为82.3515％，但其Standraddevaiation较大，结合Standraddevaiation得出，NativeBayes的分类成功率在到之间。究其分类错误率较高的原因，需分析其混淆矩阵：

由混淆矩阵得，分类错误率最高的分类是M，对于期待被分为M的215个实例，只有74个被正确分类，其余138个实例错误的分类到了L中，3个实例被错误分到了H中。

分析其统计结果：

可知对于分类M，其平均出现频数Frequency为11.2798，大大高于分类L的1.5661，通过对样本观察得到，实例90％以上的Frequency都小于10，因此Frequency大大影响了M的分类。解决办法是将Frequency一项进行概念层次泛化，使得Frequency具有高层数据信息，以发现清晰的、高层的、具有统计意义的分类规则。

此外，使用NativeBayes的前提是假设输入间相互独立，然而，词语的情绪权值与出现频次是有一定关联的：对于一些生僻词，即使表达了强烈的情绪，但出现次数也不高。而一些大众常用的表示情绪的词语，可能会受到追捧，因此，NativeBayes分类方法可能不是十分适合样本数据。

4)SMO的MarginCurve显示，点大量聚集且是线性可分的，其分类准确率照比NativeBayes有较大提高。

可见分类错误还是集中在M上，即使是将Frequency属性通过支持向量机映射到高维空间，最佳切割面的选择还是会错误分类215个M中的33个，问题同样在H分类中出现，一些高权值的、低频度的实例会被错误分类到M当中。如果假设的问题成立，这一问题也将会在数据泛化后得到解决。

5)J48生成决策树

可只仅有一个实例在Frequency>10,Weight<＝1时被错误分类成了L。

分析样本得到，

导致了样本的错误分类，虽然Weight项为1，因其Frequency项较大，所以该输入下期望的分类为M，在决策树中却因其所占比重较少被划分为L。

原来，Weka实现的决策树中，默认设置自动剪枝，最小叶子节点数为二，导致了上述错误分类的发生，而我们认为这是正确的。

若将最小叶子节点数设置为一，又将发生什么呢？

生成了决策树：

与开始的决策树不同的是，对于Frequency>10,Weight<＝1的情况新生成了一些分支。而这些分支并没有对分类准确率产生影响(仍为)99.8762％，却增加了过度拟合的风险。

6)有这样一句话用来形容IBK算法：

因此我们综合考虑算法效率，将K值从1提高到了10，得到了上述计算数据。

计算可知，IBK分类方法的分类成功率在到之间，略低于J48，稳定性也照J48较差。

其稳定性究其原因，是因为算法每次对待分类的点，寻找其最近的k个点，以k个点中概率最大的分类结果为待分类点的分类结果。五次训练中我们对种子进行了修改，使得待分类点，及原有参照点较比上一次有所不同，因此待分类点的分类也会受到影响。

问题解决：

为解决边界数据对分类产生的影响，将Frequency进行泛化，具体泛化规则详见⑧

对于泛化后的数据，再次进行k-折交叉验证，并比较：

表6多种算法的Cross-validation验证及分析(数据泛化后)

泛化后分析：

对Frequency项的数据泛化在很大程度上提高了NativeBayes分类成功率，因为泛化以后的数据相比其他输入更为独立。一定程度上提高了SMO的分类成功率，使得边界上的输入更多的正确分类了。

但也包含了一些问题：诸如对Lazy学习法中的一些分类方法，诸如IBK，泛化后的数据种类减少了，几乎枚举了所有分类情况，因此，综合数据泛化带来的麻烦与弊端，认为数据泛化对于IBK算法没有帮助。

始终保持着较高分类成功率和稳定性的是J48。

K-折交叉验证结论：

K-折交叉验证结果显示，J48分类方法所生成的模型及验证结果具有正确率高、稳定性好的特点，因此对于K-折交叉验证，J48分类方法对于样本数据是更为理想的。

利用Hold-out的方法对模型进行分析：

表7多种算法的Hold-out验证及分析

Hold-out验证结果分析：

Hold-out验证方法是将总的测试数据按照比例分为训练集和测试集，这种验证方法实现简单，但由于数据分布可能不均，验证顺序会导致分类成功率的稳定性降低，由上图可知，对于Zero-R、SMO分类方法，分类准确率误差较大，特别是NativeBayes，其误差范围已无法估算，因此，对于有限的样本数据及有限少量次数的统计操作，Hold-out验证的效果，不及K-折交叉验证。

1.9数据可视化及舆情分析结论

利用R语言及分类、统计结果做出图像：

结论：

重庆女司机时间与2015年5月3日下午发生，跟踪的舆情持续时间从5月3日到5月15日。该舆情在4日自6日增长迅猛，至6日达到高峰，指数突破了3500点。7日至9日迅速下降，于11日稍有回升，之后平稳下降。

在11日情绪指数略有回升是有原因的，依据源文本分析得知，11日在医院接受治疗的重庆女司机在微博上发表《道歉信》承认自己在驾车途中确有不妥之处，又引起了网友的激烈议论。

结论：

经分类后的结果显示，H，M，L三种类别的计数及走势如图。对比舆情情绪指数走势图可以发现，三种类别的走势与舆情情绪指数的总体走势基本一致。

图像舆情情绪分类饼图

结论：

直观的看出了在对关键词进行分类时，H，M，L三个情绪级别最终所占比例，它由多种算法对比、多种验证方法得出。

图像四：舆情情绪分类每日占比图

结论：

H:情绪反应强烈

M:情绪反应中等持续时间内每日情绪占比

L:情绪反应一般。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种互联网舆情分析方法，其特征在于，所述互联网舆情分析方法对微博中的表情和符号进行识别，给出表情和符号的情绪权值，利用权重因子将其和词语统一建模，最终给出综合考虑词语、表情和符号的从属权值、情绪权值、出现频数的情绪计算模型；并将网络大环境下普遍情绪对特定事件的影响和意见领袖在特定事件的情绪引领与传播这两点要素纳入模型，得到综合情感指数；

具体包括：

最后针对输入用分类算法给出综合情感指数评价，得到情绪分类，并进行舆情监控及情绪走势分析；对微博内容首先进行机械分词，按照匹配策略将待分析的汉字串与现有机器词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功；采用串匹配策略为双向最大匹配法；针对微博中新词出现频率快的问题，采用基于统计的方法进行新词发现，借助统计可能的词语出现的频率，结合概率的知识进行筛选过滤，寻找出可能的新词语。

2.如权利要求1所述的互联网舆情分析方法，其特征在于，所述互联网舆情分析方法具体包括以下步骤：

3.如权利要求2所述的互联网舆情分析方法，其特征在于，所述选定事件进行获取利用新浪微博开放平台API调用、以及开源微博库获取微博信息。

4.如权利要求2所述的互联网舆情分析方法，其特征在于，所述选定事件进行获取信息进行预处理：利用已有开源词库进行第一次文本词语处理，在文本分词后对与微博舆情情绪有关的词进行处理；对微博内容中能够表达情绪的符号的出现次数及连续出现的模式进行统计；表情采用正则表达式对进行匹配；然后利用二次分词建立更为完善的用户词库，采用基于频率的搜索方法解决固定短语的识别问题。

5.如权利要求4所述的互联网舆情分析方法，其特征在于，所述对用户词库的完善规则定义如下：

6.如权利要求5所述的互联网舆情分析方法，其特征在于，所述关键词权值的分类为机器学习中的分类问题，输入词语的情绪权值与出现频数，采用朴素贝叶斯法，基于贝叶斯定理与特征条件独立假设进行分类；对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布，然后利用贝叶斯定理求出后验概率最大的输出，对于本次建模，朴素贝叶斯的输出为情绪类别，再依据词语从属权值进行建模；

对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布；然后基于此模型，对给定的输入x，利用贝叶斯定理求出后验概率最大的输出y；对于本次建模，朴素贝叶斯的输入即为词语的情绪权值与词语的出现频数，输出为情绪类别，再依据词语从属权值进行建模0。

7.一种如权利要求1所述互联网舆情分析方法的互联网舆情分析系统，其特征在于，所述互联网舆情分析系统包括：

8.如权利要求7所述的互联网舆情分析系统，其特征在于，所述互联网舆情分析系统进一步包括：

9.如权利要求7所述的互联网舆情分析系统，其特征在于，所述获取单元进一步包括：

匹配单元，表情采用正则表达式对进行匹配；

10.如权利要求9所述的互联网舆情分析系统，其特征在于，所述对用户词库进一步包括：