CN111310476A

CN111310476A - 一种使用基于方面的情感分析方法的舆情监控方法和系统

Info

Publication number: CN111310476A
Application number: CN202010108016.XA
Authority: CN
Inventors: 郭伟; 姜涛; 鹿旭东; 崔立真
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-02-21
Filing date: 2020-02-21
Publication date: 2020-06-19
Anticipated expiration: 2040-02-21
Also published as: CN111310476B

Abstract

本发明公开了一种使用基于方面的情感分析方法的舆情监控方法及系统，包括：构建爬取新闻评论的爬虫，爬取所需新闻及对应的评论信息；对新闻及对应的评论信息进行处理，包括去除停用词和对去除停用词后的句子进行分词；使用深度学习模型对处理后的信息进行基于方面的情感分析，分析出文本中的每个方面的情感；使用LDA主题分布模型，识别每条新闻文本的主题；对新闻文本的主题及新闻文本中的每个方面的情感进行统计。可以更细粒度的对新闻评论文本进行情感分析，可以判断新闻评论文本中每个方面的情感，对新闻评论文本的情感可以更准确的判断。

Description

一种使用基于方面的情感分析方法的舆情监控方法和系统

技术领域

本发明属于深度学习领域和自然语言处理(Natural Language Processing))NLP领域，尤其涉及一种使用基于方面的情感分析方法的舆情监控方法和系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

快速发展的网络技术和快速增加的网民数量，互联网变成了散布言论、共享资源的平台，网络的舆情状况可以反映社会的种种形态，人民的心声以及社会当前动向的重要依据。近来，在网络上进行淫秽色情的传播、网络赌博、网上兜售违禁品、网络信息诈骗等违法行为，散布谣言，对党和政府恶意攻击等不法行为大量出现、持续蔓延，虚假信息对我们社会稳定和公共安全有着巨大的影响。

互联网信息的重要特点是，更新迅速、信息量大、传播的范围非常广泛。很多违法的舆论信息的传播速度非常快，传播途径又很隐蔽隐蔽，为了解决这种情况，就需要舆情监控了。系统通过对网络上的信息监控，将信息采集技术和智能信息处理技术结合起来，通过网络上的海量信息的获取、分类和聚类、检测主题、聚焦专题，实现对舆论的监控和预警。

网络舆情是公众对互联网上传播的热点问题所表现的具有一定影响力和倾向性的意见或言论的状态，它通过互联网对社会问题发表看法，或表达有较强影响力、倾向性的言论和观点。舆情监测为客户全面掌握群众思想动态，做出正确舆论引导，提供分析依据。做好舆情监测能发挥舆论引导功能的主动权,及时准确地将采集、整理、分析出来的有价值的信息提供给决策层,是决策机构的基础和关键所在。

发明人发现，在舆情监控中往往只判断整个新闻评论的情感，情感分析的粒度比较粗。对情感分析的结果的解释是比较难以解释的，并且结果的准确度也是不好的。

发明内容

为克服上述现有技术的不足，本发明提供了一种使用基于方面的情感分析方法的舆情监控方法，可以更细粒度的对新闻评论文本进行情感分析，可以判断新闻评论文本中每个方面的情感，对新闻评论文本的情感可以更准确的判断。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

一种使用基于方面的情感分析方法的舆情监控方法，包括：

构建爬取新闻评论的爬虫，爬取所需新闻及对应的评论信息；

对新闻及对应的评论信息进行处理，包括去除停用词和对去除停用词后的句子进行分词；

使用深度学习模型对处理后的信息进行基于方面的情感分析，分析出文本中的每个方面的情感；

使用LDA主题分布模型，识别每条新闻文本的主题；

对新闻文本的主题及新闻文本中的每个方面的情感进行统计，统计所有主题中消极评论最多的主题，然后将将相关新闻按照热度和消极情感的强度排序，将消极评论最多的主题和评论对该主题的消极的方面进行展示。

进一步的技术方案，构建爬取新闻评论的爬虫时，选择监控的带有新闻评论的网站，之后，选取一个种子URL，并将这个URL放入待抓取URL队列；

从待抓取的URL队列中，解析该网址的网页信息；

将从网页中解析出来的有效的URL存入待抓取队列中；

重复上述抓取步骤直到待抓取的URL队列为空，或者接收到停止抓取URL命令之后，爬虫功能停止。

进一步的技术方案，从待抓取的URL队列中，解析该网址的网页信息之后，判断该网页的新闻是否已经在数据库中，如果不在数据库中，将解析出来的数据存到数据库中；

如果该网页的新闻已经存在于数据库，判断评论是否在数据库中，如果不在数据库中，则在相应新闻后面添加相应的评论。

进一步的技术方案，判断该网页的新闻是否已经在数据库中时：使用训练好的文本相似度模型，去计算新闻的相似性和评论的相似性；

其中，在计算评论相似性的时候，考虑到文本的相似性及评论的发布者。

进一步的技术方案，将从网页中解析出来的有效的URL存入待抓取队列中时：

定义一个map对象，其中key值存放URL，value值存放URL的状态，其中value值得取值是0和1，0代表该URL未解析，1表示该URL已经解析完毕；

在将网页解析出来的URL存入待抓取的队列中前，首先去map对象中，判断该URL是否存在，如果存在则不放入待抓取的URL队列中，如果不存在则放入待抓取的URL队列中，确保爬虫不会重复解析同一个URL页面。

进一步的技术方案，对新闻及对应的评论信息进行处理：

遍历存储的新闻和评论，构建一个停用词的词典，去除新闻评论中对于任务无关的信息；

使用分词工具，对新闻和新闻评论文本进行分词，然后根据对应的规则去除分词不好的词，用来减少嘈杂信息的干扰；

然后将处理过的数据再次存储到数据库中。

进一步的技术方案，对处理后的信息进行基于方面的情感分析，包括：

使用训练好的bert+crf模型对新闻文本进行方面的识别，识别出新闻文本评论中的表示方面的单词；

使用context-attention模型去计算方面的上下文信息；

将context-attention获取的方面上下文信息，输入到GRU模型中去提取其上下文的情感特征，然后计算该方面的情感是积极、消极还是中立。

进一步的技术方案，识别每条新闻文本的主题时：

选择足够多的爬取到的新闻文本数据集，作为LDA主题分布模型的训练集；

基于LDA主题分布模型得到主题的词分布概率；

根据得到的主题的词分布去判断每个主题的实际含义；

得到每篇文档中每个词的主题分布，选取概率最高的设定个的主题，作为这个文档的主题。

进一步的技术方案，对新闻文本的主题及新闻文本中的每个方面的情感进行统计时，统计展示每篇文档的主题，或根据主题展示该主题的新闻；

统计分析出每个新闻下面，每条评论文本的方面和情感，对相似的方面进行合并，然后显示出每个方面的情感，按照积极、消极和中立显示所有的方面和相关的评论。

以上一个或多个技术方案存在以下有益效果：

本公开技术方案可以更细粒度的对新闻评论文本进行情感分析，可以判断新闻评论文本中每个方面的情感，对新闻评论文本的情感可以更准确的判断。并且使用LDA主题模型分析新闻评论文本的主题，对这些结果进行统计分析，并对负面情感较高的主题和方面进行舆情预警。使用户能更直观清晰的理解舆情信息。

由于基于方面的情感分析方法是一种细粒度的情感分析方法，旨在识别一条句子中一个指定方面(Aspect)的情感极性。一个句子中可能含有多个不同的方面，每个方面的情感极性可能不同。本方法可以识别出文本中每个方面的情感，对情感分析的结果有更好的解释性；并且使用LDA的主题分析模型分析出新闻文本的主题。然后对主题和主题方面的情感进行统计分析，然后按照不同的需求展示相应的舆情报告。当负面情感超过设定的阈值的时候，为用户进行舆情警告并且生成舆情报告，报告主要包括主题，主题每个方面的情感，还有按主题的方面进行分类展示相关新闻。其次由于使用的是storm流处理的框架，可以实时对网络新闻评论进行监控。可以更为快速的对网络上负面情感较多主题和相关方面进行舆情监控。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1展示了根据本说明书一个实施示例中的一种使用基于方面的情感分析方法的舆情监控方法的流程图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本发明提出的总体思路：

构建新闻评论爬虫，爬取新浪新闻评论、网易新闻评论，存取到数据库中和Elasticsearch中，存取的内容包括：标题，发布时间，下载时间，正文，唯一ID，摘要，站点的信息，还有该新闻的评论信息。

信息处理主要包括去除停用词和分词。去除停用词要预设一个停用词的字典，从数据库中读取信息，遍历字典，将与字典中相同的字删掉。然后放到分词器中对内容进行分词。分词之后将内容写入文件中以便之后的模块使用。

使用bert+crf模型识别出新闻评论文本中的方面。

使用基于上下文的注意力机制context-attention和GRU模型进行基于方面的情感分析，分析出新闻评论文本中的每个方面的情感，情感是积极、消极还是中立。

采用LDA模型对新闻文本进行主题分析，人工为每个主题赋予现实含义，选择概率最高的3个主题作为新闻文本的主题。

对于计算得到新闻主题和新闻评论每个方面的情感进行统计。对于负面情感较高的主题和方面进行预警、生成舆情报告和按用户需求展示相应信息。

实施例一

本实施例公开了一种使用基于方面的情感分析方法的舆情监控方法，如图1所示，

步骤(1)：构建爬取新闻评论的爬虫；

(a)在初次使用的时候，用户需要选择监控的带有新闻评论的网站，这里我们设置了三个选项，新浪新闻，网易新闻，和搜狐新闻。当用户选择要监控的网站之后，系统选取一个种子URL，并将这个URL放入待抓取URL队列；

(b)从待抓取的URL队列中URL，使用BeautifulSoup4解析该网址的网页信息。该网页中的新闻标题、时间、作者、内容。

(c)判断这个新闻是否已经在数据库中，如果不在数据库中，将解析出来的数据存到数据库中；如果这个新闻已经在数据库了，判断评论是否在数据库中，如果不在数据库中，则在相应新闻后面添加相应的评论。具体使用的技术是基于深度学习的文本相似度模型。本发明使用训练好的文本相似度模型，去计算新闻的相似性和评论的相似性。在计算评论相似性的时候，该模型不仅考虑到文本的相似性，还会考虑到评论的发布者，其中评论的发布者在计算评论文本相似性的时候占有的比重是比较大的。

(d)将从网页中解析出来的有效的URL存入待抓取队列中。为了保证爬虫的效率，本发明设计了一个map对象。其中key值存放URL，value值存放URL的状态，其中value值得取值是0和1，0代表该URL未解析，1表示该URL已经解析完毕。在将网页解析出来的URL存入待抓取的队列中前，系统会首先去map对象中，判断该URL是否存在，如果存在则不放入待抓取的URL队列中，如果不存在则放入待抓取的URL队列中。这样保证了爬虫不会重复解析同一个URL页面。

(e)重复b)到d)的步骤，直到待抓取的URL队列为空，或者系统接收到用户停止抓取URL命令之后，系统的爬虫功能才会停止。

步骤(2)：信息处理主要包括去除停用词和分词；

(a)首先系统会遍历存储在系统中的新闻和评论，构建了一个停用词的词典，去除新闻评论中一些嘈杂的对于任务无关的信息。

(b)使用jieba分词工具，对新闻和新闻评论文本进行分词，然后根据设计的规则去除分词不好的词，用来减少嘈杂信息的干扰。

(c)然后将处理过的数据再次存储到数据库中。方便系统之后调用。

步骤(3)：使用深度学习模型进行基于方面的情感分析，分析出文本中的每个方面的情感

(a)使用标注的数据集，训练bert+crf模型；

在具体实施时，选取一些新闻评论的语料库，标注出表示方面的词，实用B，I，O三种标签进行标注。其中B表示方面词的开始，I表示方面词除开始之外的其他词。O表示非方面词。

(b)使用训练好的bert+crf模型对新闻文本进行方面的识别，识别出新闻文本评论中的表示方面的单词。

(c)使用标注好的数据去训练情感识别的模型。这个模型要使用context-attention和GRU模型去提取文本特征，计算文本的情感。在这个步骤中，首先找到评论中表示方面的单词，然后使用context-attention模型去计算方面的上下文信息。

计算文本的情感时，把GRU模型输出的结果输入到softmax()函数，该函数会计算得到情感的类别。

(d)然后将context-attention获取的方面上下文信息，输入到GRU模型中去提取其上下文的情感特征，然后计算该方面的情感是积极、消极还是中立。

步骤(4)：使用LDA主题模型，识别每条新闻文本的主题。

(a)LDA分为训练和推断，由于推断和训练过程的相似性，所以对于样本是用作训练还是推断对样本来说都能得到其中的主题，但是训练过程对之后整个系统的主题分析有着很大影响。对于一个给定的分类问题，选择一个适当的数据集是极其重要的。这是因为从这个数据分析的主题直接影响分类器的学习和分类性能。构建正确的通用数据集应遵循两个主要条件。一是数据足够大，二是应当具有对词和主题(由人观察)的平衡分布，以便覆盖训练数据，并且更重要地，良好地处理未来未见数据的多样性。所以我们选择足够多的爬取到的新闻文本数据集，作为LDA模型的训练集，以便得到每个新闻文本的主题分布。

(b)LDA主题分布模型得到主题的词分布概率，其中通过实际的计算发现主题个数K＝24效果最好，所以通过下面的公式得到每个主题的词分布，然后根据得到的主题的词分布去判断每个主题的实际含义，每个主题赋上一个现实的含义。

比如一个主题由5个词构成，需要根据这5个词去判断这个主题是什么。比如这5个词都是汽车相关的，那这个主题就可以人工标注为汽车。

其中k为主题的个数，V为词的个数，β是Direclet超参数(v＝1……V)；

是单词t被分配到主题k的次数，

为被分配到主题K单词的总数。所以需要设计一个两层的for循环来实现这个公式。外层需要遍历每个主题，内层需要遍历每个词汇。

(c)LDA得到每篇文档中每个词的主题分布

其中zi代表主题i，α为Direclet超参数(k＝1……K)，β是Direclet超参数(v＝1……V)；

是词t分配到除当前主题之外主题k的次数，

是被分配到主题k中的词的总数，

是所有文档中的词构成的词典，K表示主题的个数；j表示当前是第几个主题，是循环中的临时变量，用来实现∑算法；

表示文档m中所有词被赋予主题j的个数，使用for循环来实现该公式。

(d)LDA模型得到每篇新闻文档的主题分布，每篇新闻文本我们选取概率最高的3的主题，作为这个文档的主题。

其中m为第m个文档，K为主题的个数，k为第k个主题，α为Direclet超参数(k＝1……K)；所以需要两层的for循环外层为文档的个数M，内层为主题的个数K；

表示文档m中所有词被赋予主题k的个数；j表示当前是第几个主题，是循环中的临时变量，用来实现∑计算

步骤(5)：对步骤(3)和(4)得到的结果进行统计分析并且展示；

(a)首先系统会统计展示每篇文档的主题，并且也可以根据主题展示该主题的新闻。

(b)然后统计分析出每个新闻下面，每条评论文本的方面和情感，对相似的方面进行合并，然后显示出每个方面的情感，按照积极、消极和中立显示所有的方面和相关的评论。

统计所有主题中消极评论最多的主题，然后将将相关新闻按照热度和消极情感的强度排序。将消极评论最多的主题和评论对该主题的消极的方面展示出来，当这个热度和消极情感的强度加权求和的值超过设定的阈值的时候，给用户一个预警信息和一个详细的舆情报告。即用户对哪些主题和主题的哪些方便的消极情绪比较多。

报告主要包括主题，主题每个方面的情感，还有按主题的方面进行分类展示相关新闻。其次由于使用的是storm流处理的框架，可以实时对网络新闻评论进行监控。可以更为快速的对网络上负面情感较多主题和相关方面进行舆情监控。

实施例二

本实施例的目的是提供一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现实施例子一中一种使用基于方面的情感分析方法的舆情监控方法的步骤。

实施例三

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行实施例子一中的一种使用基于方面的情感分析方法的舆情监控方法的步骤。

实施例四

本实施例的目的是提供一种使用基于方面的情感分析方法的舆情监控系统，包括服务器及与之通信连接的客户端：

所述服务器被配置为：

使用LDA主题分布模型，识别每条新闻文本的主题；

对新闻文本的主题及新闻文本中的每个方面的情感进行统计，统计所有主题中消极评论最多的主题，然后将相关新闻按照热度和消极情感的强度排序；

所述服务器中建立数据库，用于对数据进行存储；

所述客户端将消极评论最多的主题和评论对该主题的消极的方面进行展示。

以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种使用基于方面的情感分析方法的舆情监控方法，其特征是，包括：

使用LDA主题分布模型，识别每条新闻文本的主题；

2.如权利要求1所述的一种使用基于方面的情感分析方法的舆情监控方法，其特征是，从待抓取的URL队列中，解析该网址的网页信息之后，判断该网页的新闻是否已经在数据库中，如果不在数据库中，将解析出来的数据存到数据库中；

3.如权利要求1所述的一种使用基于方面的情感分析方法的舆情监控方法，其特征是，将从网页中解析出来的有效的URL存入待抓取队列中时：

4.如权利要求1所述的一种使用基于方面的情感分析方法的舆情监控方法，其特征是，对新闻及对应的评论信息进行处理：

使用分词工具，对新闻和新闻评论文本进行分词，然后根据对应的规则去除分词不好的词；

然后将处理过的数据再次存储到数据库中。

5.如权利要求4所述的一种使用基于方面的情感分析方法的舆情监控方法，其特征是，对处理后的信息进行基于方面的情感分析，包括：

使用context-attention模型去计算方面的上下文信息；

6.如权利要求1所述的一种使用基于方面的情感分析方法的舆情监控方法，其特征是，识别每条新闻文本的主题时：

基于LDA主题分布模型得到主题的词分布概率；

根据得到的主题的词分布去判断每个主题的实际含义；

7.如权利要求1所述的一种使用基于方面的情感分析方法的舆情监控方法，其特征是，对新闻文本的主题及新闻文本中的每个方面的情感进行统计时，统计展示每篇文档的主题，或根据主题展示该主题的新闻；

8.一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征是，所述处理器执行所述程序时实现权利要求1-7中任一所述的一种使用基于方面的情感分析方法的舆情监控方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征是，该程序被处理器执行时执行权利要求1-7中任一所述的一种使用基于方面的情感分析方法的舆情监控方法的步骤。

10.一种使用基于方面的情感分析方法的舆情监控系统，其特征是，包括服务器及与之通信连接的客户端：

所述服务器被配置为：

使用LDA主题分布模型，识别每条新闻文本的主题；

所述服务器中建立数据库，用于对数据进行存储；