CN108363784A

CN108363784A - 一种基于文本机器学习的舆情走向预测方法

Info

Publication number: CN108363784A
Application number: CN201810143913.7A
Authority: CN
Inventors: 张怡; 张璐璐; 唐成凯; 张玲玲; 何怡; 万志刚
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2018-01-20
Filing date: 2018-02-12
Publication date: 2018-08-03

Abstract

本发明提出一种基于文本机器学习的舆情走向预测方法。具体来说，就是对当前互联网上大量的社交媒体消息、新闻内容等信息进行分词、清洗、过滤等处理后，提取某些事件词语，并统计这些事件词语在某段时间出现的频次，根据词语的权重筛选出对应文本中的目标词语以及绘制事件词语频次的变化轨迹，通过目标词语提取网民观点，判断舆论传播路径等，进而利用这些观点数据来训练机器学习模型。最终利用训练好的模型来预测未来一段时间的舆情走向。

Description

一种基于文本机器学习的舆情走向预测方法

技术领域

本发明属于自然语言处理中文本机器学习领域，具体为一种基于文本机器学习的舆情走向预测方法。

背景技术

在大数据时代，互联网舆情信息变得更为复杂繁琐，而且信息传播渠道快速裂变，信息处理的时效性需求更强，以至于几乎无法通过传统的、人工的手段来及时、全面地掌握、跟踪、分析和辅助舆情决策。“数据爆炸”、“信息超载”使得政府和各行各业对舆情预测的需求不断上升，在这样的市场背景下，舆情预测行业成为很有“技术含量”的阳光产业。

目前，网络舆情分析方法主要是将信息处理方法与传统领域特有的技术分析方法相结合，重采集和处理，轻分析，尽管目前已经开始研究如何借助于计算机工具实现网络舆情分析，但大部分研究主要从文本层次对网络舆情外部特征进行简单的零碎统计处理，没有深入分析网络舆情信息内容中所隐含的知识逻辑关联和舆情传播趋势的关系，从而影响了网络舆情分析的效果和结果信度。

发明内容

为解决现有技术存在的问题，本发明提出一种基于文本机器学习的舆情走向预测方法。具体来说，就是对当前互联网上大量的社交媒体消息、新闻内容等信息进行分词、清洗、过滤等处理后，提取某些事件词语，并统计这些事件词语在某段时间出现的频次，根据词语的权重筛选出对应文本中的目标词语以及绘制事件词语频次的变化轨迹，通过目标词语提取网民观点，判断舆论传播路径等，进而利用这些观点数据来训练机器学习模型。最终利用训练好的模型来预测未来一段时间的舆情走向。

本发明以网络社交媒体、论坛、微博信息以及时政相关的新闻文本为研究对象，从自然语言处理的角度出发，来研究社交媒介、时政新闻文本中词汇与舆情走向变化的相关性，即：“词汇-舆情走向”相互关联。这一关联性问题被形式化为：舆情事件相关的词汇出现，会导致网民对该事件的态度转变，从而导致舆情走向发生变化。利用机器学习的方法来分析热点事件新闻文本，训练回归、预测分析模型。热点事件新闻文本被标示成词汇的集合，这些词汇每天随着网民的言论走向不断更新变化，也就是文本中词汇及词汇的频率不断变化，即：词语动态特性，利用词汇的动态特性抽取那些与舆情走向波动有较高关联性的词语(highly-index-correlated term，HICT)，其中HICT词的识别是通过分析词语包含的信息量及其在时间序列上的频率分布方法来完成，以HICT词权重值作为特征，训练舆情走势预测和指数回归分析模型。通过以上模型对互联网舆情走向进行预测和网民舆论观点等进行回归分析。

本发明对大量社交媒体新闻内容进行7*24全网监测，分词、清洗、过滤等处理，统计各文本中的词汇在固定时间间隔内出现的次数，利用TF-IDF计算方法，计算出文本中词汇的权重值。将权重较高的词语组成文本的特征向量，通过特征向量把每个文本定义为一个事件，然后将描述同类事件的文本聚类成重点事件集，把重点事件集中的词语以及它所对应的频数放到一个M×2维矩阵中，并对网民舆论观点的走向进行标记，利用机器学习方法来训练预测模型。

本发明的技术方案为：

所述一种基于文本机器学习的舆情走向预测方法，其特征在于：包括以下步骤：

步骤1：采用中文分词工具对采集的新闻文本进行分词；

步骤2：对于通过步骤1得到的每个文本中词语，采用TF-IDF方法获得每个词语的权值，并将权值较大的m个词语作为文本的核心特征词，核心特征词组成文本的特征向量；

步骤3：依据每个文本的特征向量，采用以下过程将描述同类事件的文本聚类：

步骤3.1：随机挑选k个文本的特征向量作为初始的聚类中心；

步骤3.2：计算其余文本的特征向量到聚类中心的距离，将其余文本的特征向量聚类到距离最近的聚类中心，得到k个聚类；

步骤3.3：根据k个聚类中，每个聚类中的文本的特征向量，重新计算k个聚类中心；

步骤3.4：重新计算k个文本的特征向量到聚类中心的距离，将k个文本的特征向量聚类到距离最近的聚类中心，再次得到k个聚类，并根据k个聚类中，每个聚类中的文本的特征向量，重新计算k个聚类中心；

步骤3.5：判断以下条件是否满足：

1)、每个聚类中的文本的特征向量没有变化；

2)、每个聚类的中心没有变化；

若任一条件得到满足，则进入步骤4，否则返回步骤3.4；

步骤4：选择聚类中文本数量达到设定阈值的聚类作为重点事件集；将重点事件集中出现的所有词语以及词语在重点事件集中出现的频数组成重点事件集的特征矩阵

其中M为重点事件集中出现的词语数；h_i表示重点事件集中的第i个词语，n_i表示第i个词语的频数；

步骤5：在重点事件集中挑选频数较高的m个词作为重点事件集的特征向量，通过TF-IDF方法获得重点事件集的特征向量中每个词的权重，并组成重点事件集的权重向量θ；

步骤6：利用互信息法计算重点事件集的特征向量与现有情感词典中基准词之间的关联度R，得到重点事件集特征向量的情感倾向值W＝Rθ；给定阈值δ，若W>δ，则重点事件集为正面倾向，否则重点事件集为负面倾向；

步骤7：建立并训练分类器，其中训练样本为重点事件集的特征矩阵和重点事件集所在时间段内的情感倾向，将得到的分类器作为预测模型。

有益效果

本发明是利用机器学习的一种无监督舆情走势预测方法，通过统计一定时间内某些特定词汇出现的频次，并对应这段时间范围内事件的舆情走向的变化，训练出可以预测的机器学习模型，来预测一段时间内的某个事件舆情走向。通过大量的数据进行检测，该方法准确率与每天统计的词语量有关，当词语量达到一定规模，训练出的模型则相当准确。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是词语相关性计算流程示意图；

图2是网民言论观点提取数据流程示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

本实施例中的基于文本机器学习的舆情走向预测方法，包括以下步骤：

步骤1：间隔固定时间采用中文分词工具对采集的各媒体类型的新闻文本进行分词。

步骤1.1：在数据库中定义需要采集信息的网站来源——新闻网站，并统一分成两类，即重点网站，(这些网站往往存在一定的影响力。如新浪，腾讯，百度，搜狐等)和非重点网站(这些网站一般是指有着区域性影响的网站，如长城网、浙江都市网等)；

步骤1.2：在指定网站来源爬取指定时间内的网页；

步骤1.3：信息预处理，对步骤1.2中爬取的网页信息进行处理，具体处理过程如下：

1)对web文档去web标签，采用htmlparser包提供的方法；

2)提取web文档的标题和正文；

3)抽取web文档发表的精确的时间；

4)web文档中有很多带链接的文字，对后续分析会产生一定的噪音，去掉文档中带链接的文字；

步骤1.4：将下载的格式化后的网页文件储存到本地，供后续步骤使用，并将本地路径存储到数据库中以便读取本地文件；下载的时候存储的格式设定的为标题，内容，日期，网址，网站名。

步骤1.5：通过ansj分词对不同时段(以小时为单位)的文本进行分词处理，并统计所有文本中的词语出现的频次。

步骤2：对于通过步骤1得到的每个文本中词语，采用TF-IDF方法获得每个词语的权值，并将权值较大的m个词语作为文本的核心特征词，核心特征词组成文本的特征向量。

根据不同时段文本分词统计的词语在某个文本中的次数和出现该词语的文本数来计算词语的TF-IDF值，并将所有词语根据TF-IDF值将词语排序，将权值较大的m个词语组成文本的特征向量。

对于在某一特定文本中出现的的词语t_i来说，它的重要性可表示为：

分子(n_i,j)是该词在文文本d_j中出现次数，分母(∑_kn_k,j)则是文本d_j所有词语的出现次数之和。

某一特定词语的IDF，可以由总文本数目除以包含该词语之文本的数目，再将得到的商取对数：

|D|：语料库中的文本总数；

|{j:t_i∈d_j}|：包含词语t_i的文本数目(即n_i,j≠0的文件数目),如果该词语不在语料库中，就会导致分母为零，因此一般情况下使用1+|{j:t_i∈d_j}|作为分母。然后再计算TF与IDF的乘积：

tfidf_i,j＝tf_i,j×idf_i

步骤3.1：随机挑选k个文本的特征向量作为初始的聚类中心；

步骤3.4：重新计算k个文本的特征向量到聚类中心的距离，将k个文本的特征向量聚类到距离最近的聚类中心，再次得到k个聚类，并根据k个聚类中，每个聚类中的文本的特征向量，重新计算k个聚类中心。

步骤3.5：判断以下条件是否满足：

1)、每个聚类中的文本的特征向量没有变化；

2)、每个聚类的中心没有变化；

若任一条件得到满足，则进入步骤4，否则返回步骤3.4。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于文本机器学习的舆情走向预测方法，其特征在于：包括以下步骤：

步骤1：采用中文分词工具对采集的新闻文本进行分词；

步骤3.1：随机挑选k个文本的特征向量作为初始的聚类中心；

步骤3.5：判断以下条件是否满足：

1)、每个聚类中的文本的特征向量没有变化；

2)、每个聚类的中心没有变化；

若任一条件得到满足，则进入步骤4，否则返回步骤3.4；