CN113392195B

CN113392195B - 舆情监测方法及装置、电子设备及存储介质

Info

Publication number: CN113392195B
Application number: CN202110215392.3A
Authority: CN
Inventors: 张一尼; 李亚军; 李宏欣; 陈春华; 白松; 郝勇; 陈靖博; 李浩纲; 季刚
Original assignee: Information Engineering University of PLA Strategic Support Force
Current assignee: Information Engineering University of PLA Strategic Support Force
Priority date: 2021-02-25
Filing date: 2021-02-25
Publication date: 2023-07-28
Anticipated expiration: 2041-02-25
Also published as: CN113392195A

Abstract

本公开是关于一种舆情监测方法、舆情监测装置、电子设备和计算机可读存储介质。其中，方法包括：获取待分析文本；采集待分析文本的相关新闻，其中，相关新闻至少包含一篇新闻；将相关新闻转化为关键词‑权重列表；根据待分析文本及相关新闻的关键词‑权重列表划分相关新闻为多个主题；获取主题对应的相关新闻的评论；基于预先训练好的情感分析模型对评论进行情感分析，得到待分析文本的舆情监测结果。本方法设计了相应的舆情分析系统，实现对网络媒体进行数据检索、热点事件聚类抽取、情感分析的自动化流程，为舆情监测智能系统的研发奠定技术基础。

Description

舆情监测方法及装置、电子设备及存储介质

技术领域

本公开涉及数据处理领域，尤其涉及一种舆情监测方法、舆情监测装置、电子设备和计算机可读存储介质。

背景技术

网络舆情是指在网络上流行的对社会事件不同看法的网络舆论，是社会舆论的一种表现形式。近年来，网络舆情对生活秩序和社会稳定的影响与日俱增，一些重大的网络舆情事件使人们开始认识到网络对社会监督起到的巨大作用。同时，随着大数据时代的发展，舆情监测的要求越来越高。但由于国内绝大多数的研究对象仍旧以汉语和英语为主，相比之下，对其他自然语言处理的研究起步较晚，基础研究相对薄弱，而且目前国内从事其他自然语言处理的研究人员和团队较少，因此，网络舆情状态的监测就变得尤为重要。

目前舆情系统大多是通过舆情分析师筛选舆情，然后对系统进行跟踪，从而对事件在影响力上对其舆情状态有一个大致的判断，但是这种方案存在监测数据源不够全面，无法实现实时分析监测，且无法直观地了解到网络舆情的舆情状态，进而导致无法及时准确地获取有效信息辅助商业决策。

发明内容

为克服相关技术中存在的问题，本公开提供一种舆情监测方法及装置、电子设备和计算机可读存储介质。

根据本公开实施例的第一方面，提供一种舆情监测方法，方法包括：获取待分析文本；采集待分析文本的相关新闻，其中，相关新闻至少包含一篇新闻；将相关新闻转化为关键词-权重列表；根据待分析文本及相关新闻的关键词-权重列表划分相关新闻为多个主题；获取主题对应的相关新闻的评论；基于预先训练好的情感分析模型对评论进行情感分析，得到待分析文本的舆情监测结果。

在一实施例中，采集待分析文本的相关新闻，包括：抽取待分析文本的关键词；利用关键词在选定数据源中检索，得到与待分析文本相关的新闻数据；根据选定数据源的反爬虫机制改进采集算法；利用改进的采集算法获取相关的新闻数据，得到相关新闻集合。

在一实施例中，将相关新闻转化为关键词-权重列表，包括：逐一对相关新闻中的每篇新闻进行形态素分析，获得新闻的形态素文本；提取新闻的关键词集合，关键词集合包含新闻的形态素文本中所有的不重复形态素；确定每个关键词权重，关键词权重为关键词的TF-IDF值；基于关键词的权重筛选并构建新闻的关键词-权重列表。

在一实施例中，确定每个关键词权重，关键词权重为关键词的TF-IDF值，包括：在预先构建好的IDF词典内查找关键词对应的IDF值，其中，IDF词典包含新闻语料数据库中所有关键词和IDF值的对应关系；基于关键词的IDF值，计算关键词的TF-IDF值。

在一实施例中，根据待分析文本及相关新闻的关键词-权重列表划分相关新闻为多个主题，包括：根据待分析文本及相关新闻的关键词-权重列表，确定所有相关新闻与待分析文本的关联度；根据关联度进行聚类，将相关新闻划分为多个聚类主题。

在一实施例中，基于预先训练好的情感分析模型对评论进行情感分析，得到待分析文本的舆情监测结果，包括：基于预先训练好的情感分析模型得到评论的情感倾向；计算所有评论中关键词的权重，根据权重确定高频词；统计所有评论的情感倾向及高频词，通过可视化技术展示给用户。

在一实施例中，情感分析模型包括基于深度学习的情感分析模型、基于情感词典的情感分析模型和深度学习与情感词典融合的情感分析模型。

在一实施例中，基于深度学习的情感分析模型通过以下步骤获得：获取标注好的评论训练数据；使用预先生成的词向量模型，将评论训练数据转化为训练数据词向量；通过序贯模型构建神经网络，神经网络模型为LSTM模型；在神经网络中添加Dense全连接层；通过训练数据词向量训练神经网络模型，直至迭代完成。

在一实施例中，基于情感词典的情感分析模型通过以下步骤获得：获取标注好的评论训练集；构建语言情感词典，利用汉语翻译及反义词规则拓展情感词典；通过情感词典构建情感倾向判断规则；根据情感倾向判断规则，将评论训练集转化为多维特征向量；通过多维特征向量训练有监督分类模型。

根据本公开实施例的第二方面，提供一种舆情监测装置，装置包括：事件获取单元，用于获取待分析文本；爬虫单元，用于采集待分析文本的相关新闻，其中，相关新闻至少包含一篇新闻；转化单元，用于将相关新闻转化为关键词-权重列表；主题划分单元，用于根据待分析文本及相关新闻的关键词-权重列表划分相关新闻为多个主题；评论获取单元，用于获取主题对应的相关新闻的评论；情感分析单元，用于基于预先训练好的情感分析模型对评论进行情感分析，得到待分析文本的舆情监测结果。

在一实施例中，爬虫单元包括：抽取待分析文本的关键词；利用关键词在选定数据源中检索，得到与待分析文本相关的新闻数据；根据选定数据源的反爬虫机制改进采集算法；利用改进的采集算法获取相关的新闻数据，得到相关新闻集合。

在一实施例中，转化单元包括：形态素转化单元，用于逐一对相关新闻中的每篇新闻进行形态素分析，获得新闻的形态素文本；关键词提取单元，用于提取新闻的关键词集合，关键词集合包含新闻的形态素文本中所有的不重复形态素；权重计算单元，用于确定每个关键词权重，关键词权重为关键词的TF-IDF值；列表生成单元，用于基于关键词的权重筛选并构建新闻的关键词-权重列表。

在一实施例中，权重计算单元包括：在预先构建好的IDF词典内查找关键词对应的IDF值，其中，IDF词典包含新闻语料数据库中所有关键词和IDF值的对应关系；基于关键词的IDF值，计算关键词的TF-IDF值。

在一实施例中，主题划分单元，包括：根据待分析文本及相关新闻的关键词-权重列表，确定所有相关新闻与待分析文本的关联度；根据关联度进行聚类，将相关新闻划分为多个聚类主题。

在一实施例中，情感分析单元包括：基于预先训练好的情感分析模型得到评论的情感倾向；计算所有评论中关键词的权重，根据权重确定高频词；统计所有评论的情感倾向及高频词，通过可视化技术展示给用户。

根据本公开实施例的第三方面，提供一种电子设备，包括：存储器，用于存储指令；以及处理器，用于调用存储器存储的指令执行第一方面的舆情监测方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，存储有指令，指令被处理器执行时，执行第一方面的舆情监测方法。

本公开的实施例提供的技术方案可以包括以下有益效果：首先，本公开设计了相应的舆情分析系统，解决了目前市场上没有适用于特定语言文本情感分析工具的问题，基于互联网开放性信息搜集环境，实现对网络媒体进行数据检索、热点事件聚类抽取、情感分析的自动化流程，为舆情监测智能系统的研发奠定技术基础，其次，本公开的输入可以是一个事件，也可以为一篇文章，用户即使不了解这种语言，也可以通过待分析文本快速查找到相关事件，第三，通过将新闻转化为关键词权重列表的方式，避免了传统的对整篇文章的词袋模型进行相似度计算，针对特点提升了聚类精度的同时也提高了计算速度，可以准确快速得到爬取到的各新闻文本与搜索主题的距离及关联度，进而得出更为准确的舆情分析结果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种舆情监测方法的流程示意图；

图2是根据一示例性实施例示出的一种新闻爬取流程示意图；

图3是根据一示例性实施例示出的舆情可视化界面；

图4是根据一示例性实施例示出的一种舆情监测总体模块示意图；

图5是根据一示例性实施例示出的一种舆情监测装置的示意框图；

图6是根据一示例性实施例示出的一种装置的示意框图。

图7是根据一示例性实施例示出的一种电子装置的示意框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

目前的舆情系统大多是通过舆情分析师筛选舆情，然后对系统进行跟踪，从而对事件在影响力上对其舆情状态有一个大致的判断，但是由于对一些特定语言自然语言处理的研究起步较晚，基础研究相对薄弱，市面上缺乏成熟的分析处理工具，导致在分析相关的舆情时存在技术壁垒，且这种方案存在新闻数据源不够全面的缺陷，且无法直观地了解到网络舆情的舆情状态，进而导致无法及时准确地进行监控预警。同时传统的文本分析过程中，往往通过词袋模型进行文档距离的测算，仅基于关键词的方法应用于特定语言时，处理精度不高，当处理的文档数量规模较大、处理频次高的时候，使用词袋模型的方法容易导致处理效率降低。

本公开为解决上述问题，提供根据本公开实施例的第一方面，如图1所示，提供一种舆情监测方法10，方法包括步骤S11-S16,具体步骤如下。

步骤S11，获取待分析文本。

其中，待分析文本可以是关键词，可以是一段话，也可以是一篇文章，用户即使不了解这种语言，也可以通过直接输入待分析的有关事件的文章而快速查找到与该文章相关的新闻。

步骤S12，采集待分析文本的相关新闻，其中，相关新闻至少包含一篇新闻。本公开中，例如，可以选择一些使用这些特定语言发布的新闻网络媒体网站作为爬取数据源，包含大量具备时效性的新闻，使用用户较多，便于进行舆情统计分析。通过批量构造网络请求和自动解析相应网页内容多线程获取新闻文本，能够实现快速、准确爬取相关新闻数据。

在一实施例中，如图2所示，步骤S12还包括：步骤S121，抽取待分析文本的关键词。

首先判断待抽取文本的类型，当待抽取文本为关键词或关键词集合时，可直接选取待分析文本作为检索词。当待抽取文本为一句话时，若待选网站支持对长句的检索，可以直接使用待分析文本进行检索，若待选网站对句子的检索效果不佳，可以根据依存句法分析提取出关键词作为检索词检索；当抽取待文本为篇章时，可以在形态素分析后，利用标签提取算法抽取文本标签作为关键词，向用户提供可选的标签提取接口，对应不同的标签提取算法，包括基于统计特征的算法、基于词图模型的算法和基于主题模型的算法。

基于统计特征的算法思想是利用文档中词语的统计信息来决定标签词语，通常是将文本预处理得到候选词语的集合，然后使用特征值量化的方式从候选集合中得到其文档的标签，因此，基于统计特征的算法关键就是采用什么的特征值量化指标的方式，量化指标的好坏直接决定了标签提取的好与坏。基于词图模型的标签提取首先是构造文档的语言网络图，然后对语言网络图进行图分析，最后在该图中找到具有重要作用的词或者短语。在语言网络图的构建中，是以预处理后的词作为节点，词与词之间的关系作为边，边与边之间的权重一般是用词之间的关联度表示，在使用语言网络图获得标签的关键词过程中，需要对各个节点的重要性进行评估。基于主题模型的标签提取主要利用的是主题模型中关于主题的分布性质，其步骤是：通过对文档进行预处理，得到候选关键词，预处理主要包括：分词、词性筛选等；学习得到主题模型；根据得到的主题模型，计算文章的主题分布和候选关键词分布；根据文档和候选关键词的相似度进行筛选排序，选取词语作为文档的标签。在搜索过程中，提取关键词的准确性直接影响检索结果，通过标签提取算法，可以快速提取出待分析文本中最相关的关键词，便于后续检索过程中找到最相关的新闻信息，即使输入待分析的有关事件是一篇文章，用户也可以通过标签提取的方法快速查找到与该文章相关的新闻

步骤S122，利用关键词在选定数据源中检索，得到与待分析文本相关的新闻数据。

一般各大新闻网站中均提供搜索栏，通过关键词在上述网站中检索，可以得到对应的检索结果，根据用户需求，可以提取全部新闻结果，也可以按照时效性对新闻结果进行筛选，也可以根据内容排序设定篇数筛选最相关的新闻数据，可以方便快捷的获取新闻信息，为舆情分析提供真实客观的数据支持。

步骤S123，根据选定数据源的反爬虫机制改进采集算法。

在各新闻网站上包含一定的反爬虫机制，在采集新闻的过程中需要针对性改进，例如针对ip下载检测的网站，可以设置下载延迟，比如数字设置为5秒；某些网站会通过Cookie识别用户身份，可以通过禁用cookie的方法爬取，禁用后使得服务器无法识别爬虫轨迹；使用user agent池，每次发送的时候随机从池中选择不一样的浏览器头信息，防止暴露爬虫身份；使用IP池，这个需要大量的IP资源，可以通过抓取网上免费公开的 IP建成自有的IP代理池；分布式爬取，实现一个分布式的爬虫，通过维护一个所有集群机器能够有效分享的分布式队列，将分布式队列和Scrapy的结合，实现网页的快速解析。通过反爬虫机制可以实现多线程获取新闻文本，针对一些网站的反爬虫机制优化新闻爬虫，针对性更强，准确度更高，爬取速度更快，提升舆情分析的整体运行速度。

步骤S124，利用改进的采集算法获取相关的新闻数据，得到相关新闻集合。

使用python编程语言，利用urllib.request、lxml、parse等模块，通过批量构造网络请求和自动解析相应网页内容来获取新闻文本；为了提高语料自动处理的精确度，采用抽样人工校对的方式，归纳处理错误类型并不断改进完善软件。获取相关新闻时可以对新闻进行预处理，例如进行分词处理之前，分别提取每篇文章的正文数据，去除超级文本标记语言(HTML)标签数据(例如，图片、链接，甚至音乐、程序等非文字元素)、图像标记等无关数据，然后通过正则表达式去除正文数据中的其他语言的字符。在构建新闻集合的同时，可以也将对应新闻的评论数据进行爬取，与其对应的新闻数据共同存储，从而便于对新闻下的评论数据进行情感分析。

步骤S13，将相关新闻转化为关键词-权重列表。

传统的对整篇文章的分析，通常通过词袋模型进行，而在实际应用中，当处理的文档数量规模较大，基于词袋模型的计算效率低下。通过关键词-权重列表的方式来表示新闻，一方面降低了新闻篇章的维度，同时融合了关键词及权重两种特征数据，在对文本的表示上更加准确。在实际应用中，使用关键词-权重列表的方式表示新闻数据较仅使用关键词或权重的方法聚类效果更好，计算文本关联度时准确率也更高。

在一实施例中，将相关新闻转化为关键词-权重列表，包括：逐一对相关新闻中的每篇新闻进行形态素分析，获得新闻的形态素文本；提取新闻的关键词集合，关键词集合包含新闻的形态素文本中所有的不重复形态素；确定每个关键词权重，关键词权重为关键词的TF-IDF值；基于关键词的权重筛选并构建新闻的关键词-权重列表。其中，在对新闻文本的形态素分析部份中使用改进并内嵌到本软件中的Utagger形态素分析工具对文本进行形态素分析，内嵌方法是在程序中调用Utagger动态链接库的接口并获取其回传的形态素分析结果，计算每个不重复形态素的TFIDF作为权重值。设定阈值保留权重值大的关键词，某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的TF-IDF。因此，TF-IDF倾向于过滤掉常见的词语，保留重要的词语，TF-IDF 值越高的词，则其表示文档的重要性就越高。在该实施例中，针对特定语言的特点，对文本进行了形态素分析和权重计算，为后续对文本的分析处理奠定了基础。

在本公开的舆情监测方案中处理的均为新闻文本，因此，以11万篇新闻语料数据库中，构建IDF词典，IDF的主要思想是：如果包含词条t的文档越少，也就是n越小，IDF 越大，则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m，而其它类包含t的文档总数为k，显然所有包含t的文档数n＝m+k，当m大的时候， n也大，按照IDF公式得到的IDF的值会小，就说明该词条t类别区分能力不强。新闻语料数据越多，IDF的值越准确，而在计算TF-IDF值时，仅仅依靠新闻本身或几篇待选文件计算得出的数据值容易存在偏差，同时还需反复计算，导致运算效率变低，因此构造了 11万篇新闻为背景的IDF词典，有效地加快了TF-IDF计算过程。进一步提升了提取每篇新闻文本的权重词组以及相应权重值的效率。

步骤S14，根据待分析文本及相关新闻的关键词-权重列表划分相关新闻为多个主题。

由于大众对于一个事件的看法可能是多种多样的、因此通过对采集到的所有新闻进行聚类分析，实现对新闻的高度概括，获得多个观点主题，具体地，在一实施例中，根据待分析文本及相关新闻的关键词-权重列表划分相关新闻为多个主题，包括：根据待分析文本及相关新闻的关键词-权重列表，确定所有相关新闻与待分析文本的关联度；根据关联度进行聚类，将相关新闻划分为多个聚类主题。

具体地，可以将待分析文本及相关新闻均转化为关键词-权重列表的形式，计算待分析文本与每篇新闻之间的关联度，在一实施例中，关键词可以根据词袋模型进行转化，或根据词向量模型将关键词转化为对应的词向量，以向量的形式表示关键词，再与权重值形成键值对，与其他词向量-权重值键值对共同表示文档。计算关联度时，可以使用关键词-权重列表作为文档的向量值计算余弦相似度得到文本距离。其中，根据关联度进行聚类可以使用Kmeans算法，主题数量初始值随机设置，根据对分类结果的评估调整K值，直至分类结果的准确度达到设定的阈值。使用关键词-权重列表的形式可以融合关键词及关键词权重特征，获得更准确地表达文档的向量模型，从而提升聚类效果，使主题划分结果更加准确。通过对爬取的文章进行聚类分析，可以分析聚类出事件的多个类型的观点，实现了对事件的高度概括。

步骤S15，获取主题对应的相关新闻的评论。

基于同一事件，不同主题代表了不同的观点，因此区分不同主题下评论的倾向才能获得更加客观的舆情倾向。不同的相关新闻被划分至了不同的主题集合，提取当前主题下的新闻评论，可以获知在当前主题下的舆情倾向，实现对需要分析的事件的各个观点的直观统计和判断。同时，获取相关新闻的评论的步骤可以在提取相关新闻时一同提取，也可以按照一定时间间隔提取新增评论，达到实时监测的目的。

步骤S16，基于预先训练好的情感分析模型对评论进行情感分析，得到待分析文本的舆情监测结果。

使用训练好的情感评分模型计算各个观点主题下评论数据的情感得分，在对评论进行情感分析之前，需要将评论进行形态素分析，转换为形态素形式。其中，情感得分的取值区间为[-1，1]，若观点主题的情感得分为负数，则说明该观点主题的情感偏向于反对；若观点主题的情感得分为正数，则说明该观点主题的情感偏向于支持；若观点主题的情感得分在0附近，则说明该观点主题的情感可能倾向于中立，即无明确态度。通过TF-IDF 计算对评论中的高频权重词进行提取和统计，以词云的形式展示给用户，便于用户查看评论中讨论热度最高的词汇。最终的数据可视化部分通过python程序动态生成js文件以及 html文件来生成数据可视化界面代码，然后调用内嵌的轻量级浏览器读取数据可视化界面文件并显示画面，如图3所示，可以按照一定的时间间隔采集新闻及评论数据，实现对舆情的实时监测和分析。

在使用预先训练好的情感分析模型得到评论的情感倾向时，可以通过基于深度学习的情感分析模型或基于情感词典的情感分析模型计算，也可以使用深度学习与情感词典融合的情感分析模型。其中，深度学习与情感词典融合的情感分析模型可以将基于深度学习的情感分析模型和基于情感词典的情感分析模型级联，通过加权的方式处理分类结果，或者可以在基于深度学习的情感分析模型上，增加情感词典规则判断，例如当使用深度学习模型得出相应的情感评分后，可以根据情感词典对评分进行加权调整。

在一实施例中，基于深度学习的情感分析模型通过以下步骤获得：获取标注好的评论训练数据；使用预先生成的词向量模型，将评论训练数据转化为训练数据词向量；通过序贯模型构建神经网络，神经网络模型为LSTM模型，卷积神经网络(Convolutional NeuralNetwork,CNN)能提取深层的句子表征，而长短时记忆神经网络(Long Short-term MemoryNetwork,LSTM)能有效地学习到句子的序列特征；在神经网络中添加Dense全连接层；通过训练数据词向量训练神经网络模型，直至迭代完成。

神经网络模型是基于LSTM的循环神经网络模型，可利用Tensorflow平台实现，基于LSTM的深度学习模型可以通过Sequential堆叠方式搭建，主要由输入层、采用线性激活的Dense全链接层、卷积神经网络LSTM、Sigmoid函数组成。评论数据完成从词列表向词id列表的映射后，通过WordEmbedding完成评论语句的低维向量映射，然后进入LSTM 进行1000次的迭代训练，结果由Dense全链接层输出并通过Sigmoid函数将计算结果映射在(0,1)取值范围之间。然后将人工标注好的评论训练数据导入，进行模型训练，得到.h5 文件格式的情感分析AI模型。相比于传统机器学习方法，深度学习至少有3大直接优势：无需特征抽取，深度学习可以自动从数据中学习出特征和模型参数，省去了大量繁杂的特征抽取工作，对行业先验知识的依赖也降低到最小程度；考虑语义上下文，深度学习在处理文本数据的时候，往往是先把词语转成词向量再进行计算，词向量的生成考虑了一个词语的语义上下文信息，也就解决了词袋模型的局限性；大幅减少输入特征维度：由于使用了词向量，特征维度大幅减少，可以降低到百的量级，同时也使得文本向量变得“稠密”，模型变得更加稳定。

在基于情感词典的情感分析模型下，情感分析的效果主要取决于特征，即提取的特征是否能足够很好的区别正面和负面情感，特征提取非常依赖于人的先验知识，即需要语言学专家对数据进行足够深入的观察和分析，把那些对区分正负面情感最有用的特征一个一个找出来。在该实施例中，可以利用汉语近义词及语词典来拓展情感词典，通过初步构建好的词典等，找到一些种子情感词的同义词或反义词，然后再递归地找这些同义词和反义词的同反义词，这样最后就会得到一个带有情感词的集合。将规则命中的结果作为一维或者多维特征，以一种更为“柔性”的方法融合到情感分析中，扩充向量模型。例如，利用规则实现意见词识别、否定词识别、特定句式识别，根据语言句法构建多维规则，根据规则将评论转化为多维特征向量。基于文本的标注类别和提取好的特征向量，即可训练有监督分类模型，形成基于情感词典的情感分析模型。

舆情监测方法10针对相应的舆情分析流程，解决了国内市场上没有适用于文本情感分析工具的问题，基于互联网开放性信息搜集环境，实现对网络媒体进行数据检索、热点事件聚类抽取、情感分析的自动化流程，为舆情监测智能系统的研发奠定了技术基础。

基于同一个发明构思，图4是根据一示例性实施例示出的一种舆情监测算法的总体实现模块，包括新闻采集模块、面向话语事件的新闻分析模块、话语事件评论情感分析模块。首先，选取A新闻、B新闻、C日报、D日报、D日报等新闻主流媒体网站作为爬取数据源，根据关键词列表从多个网络新闻媒体检索爬取新闻文本并移交给新闻分析模块进行下一步的分析,利用网络爬虫采集待分析文本的相关新闻。面向话语事件的新闻分析模块分为三部分：对新闻文本的形态素分析、TF-IDF文章词向量提取、余弦相似度文本主题聚类。在对新闻文本的形态素分析部份中使用改进并内嵌到本软件中的Utagger形态素分析工具对文本进行形态素分析,然后，在TF-IDF文本词向量提取模块中，通过由11万篇新闻构造构造的IDF词典和TF-IDF算法来提取出每篇新闻文本的权重词组以及相应权重值，形成“关键词(权重词)——权重值”的键值对列表。随后，在余弦相似度文本主题聚类部份，通过使用余弦相似度算法对每一篇文本的权重词键值对列表与导入软件的原始素材权重词组间的关联度，从而完成主题聚类和关联度排序。主要用于对大量网络评论的情感分析和统计，并将分析统计结果及高频词列表以数据可视化图表和词云的形式表示出来。首先通过utagger对爬取到的评论文本进行形态素分析，然后通过情感词典或机器学习模型的方法对每条评论进行情感分析并统计结果。情感词典部份是通过对评论的正负向情感词统计来得出情感分析结论；机器学习模型部份是先利用Keras框架搭建基于LSTM的循环神经网络模型。通过WordEmbedding完成评论语句的低维向量映射，然后进入LSTM进行1000次的迭代训练，结果由Dense全链接层输出并通过Sigmoid函数将计算结果映射在(0,1)取值范围之间。同时软件还会通过TF-IDF计算对评论中的高频权重词进行提取和统计。最终的数据可视化部分通过python程序动态生成js文件以及html文件来生成数据可视化界面代码，然后调用内嵌的轻量级浏览器读取数据可视化界面文件并显示画面。

基于同一个发明构思，图5示出了一种舆情监测装置100，装置100包括：事件获取单元110，用于获取待分析文本；爬虫单元120，用于采集待分析文本的相关新闻，其中，相关新闻至少包含一篇新闻；转化单元130，用于将相关新闻转化为关键词-权重列表；主题划分单元140，用于根据待分析文本及相关新闻的关键词-权重列表划分相关新闻为多个主题；评论获取单元150，用于获取主题对应的相关新闻的评论；情感分析单元160，用于基于预先训练好的情感分析模型对评论进行情感分析，得到待分析文本的舆情监测结果。

在一实施例中，爬虫单元120包括：抽取待分析文本的关键词；利用关键词在选定数据源中检索，得到与待分析文本相关的新闻数据；根据选定数据源的反爬虫机制改进采集算法；利用改进的采集算法获取相关的新闻数据，得到相关新闻集合。

在一实施例中，转化单元130包括：形态素转化单元，用于逐一对相关新闻中的每篇新闻进行形态素分析，获得新闻的形态素文本；关键词提取单元，用于提取新闻的关键词集合，关键词集合包含新闻的形态素文本中所有的不重复形态素；权重计算单元，用于确定每个关键词权重，关键词权重为关键词的TF-IDF值；列表生成单元，用于基于关键词的权重筛选并构建新闻的关键词-权重列表。

在一实施例中，主题划分单元140，包括：根据待分析文本及相关新闻的关键词-权重列表，确定所有相关新闻与待分析文本的关联度；根据关联度进行聚类，将相关新闻划分为多个聚类主题。

在一实施例中，情感分析单元160包括：基于预先训练好的情感分析模型得到评论的情感倾向；计算所有评论中关键词的权重，根据权重确定高频词；统计所有评论的情感倾向及高频词，通过可视化技术展示给用户。

关于上述实施例中的舆情监测装置100，其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

参照图6，装置200可以包括以下一个或多个组件：处理组件202，存储器204，电源组件206，多媒体组件208，音频组件210，输入/输出(I/O)的接口212，传感器组件 214，以及通信组件216。

处理组件202通常控制装置200的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件202可以包括一个或多个处理器220来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件202可以包括一个或多个模块，便于处理组件202和其他组件之间的交互。例如，处理组件202可以包括多媒体模块，以方便多媒体组件208和处理组件202之间的交互。

存储器204被配置为存储各种类型的数据以支持在装置200的操作。这些数据的示例包括用于在装置200上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件206为装置200的各种组件提供电力。电源组件206可以包括电源管理系统，一个或多个电源，及其他与为装置200生成、管理和分配电力相关联的组件。

多媒体组件208包括在所述装置200和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件208包括一个前置摄像头和/或后置摄像头。当装置200处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件210被配置为输出和/或输入音频信号。例如，音频组件210包括一个麦克风(MIC)，当装置200处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器204或经由通信组件216发送。在一些实施例中，音频组件210还包括一个扬声器，用于输出音频信号。

I/O接口212为处理组件202和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件214包括一个或多个传感器，用于为装置200提供各个方面的状态评估。例如，传感器组件214可以检测到装置200的打开/关闭状态，组件的相对定位，例如所述组件为装置200的显示器和小键盘，传感器组件214还可以检测装置200或装置200 一个组件的位置改变，用户与装置200接触的存在或不存在，装置200方位或加速/减速和装置200的温度变化。传感器组件214可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件214还可以包括光传感器，如CMOS或CCD 图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件214还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件216被配置为便于装置300和其他设备之间有线或无线方式的通信。装置200可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件216经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件216还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA) 技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置200可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器204，上述指令可由装置200的处理器220执行以完成上述方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图7是根据一示例性实施例示出的一种电子装置300的框图。例如，装置300可以被提供为一服务器。装置300包括处理组件322，其进一步包括一个或多个处理器，以及由存储器342所代表的存储器资源，用于存储可由处理组件322的执行的指令，例如应用程序。存储器342中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件322被配置为执行指令，以执行上述方法。

装置300还可以包括一个电源组件326被配置为执行装置300的电源管理，一个有线或无线网络接口350被配置为将装置300连接到网络，和一个输入输出(I/O)接口358。装置300可以操作基于存储在存储器342的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种舆情监测方法，其特征在于，所述方法包括：

获取待分析文本；

基于标签提取算法提取所述待分析文本的标签作为关键词；

通过批量构造网络请求，利用所述关键词在选定数据源中检索，得到与所述待分析文本相关的新闻数据，所述选定数据源包括多个特定语言的新闻网络媒体网站；

根据所述选定数据源的反爬虫机制改进采集算法；

利用所述改进的采集算法获取所述相关的新闻数据，得到相关新闻，其中，所述相关新闻至少包含一篇新闻；

将所述相关新闻转化为关键词-权重列表；

根据所述待分析文本及所述相关新闻的关键词-权重列表划分所述相关新闻为多个主题；

获取所述主题对应的相关新闻的评论；

基于预先训练好的基于深度学习的情感分析模型对所述评论进行情感分析，得到情感评分，其中，所述基于深度学习的情感分析模型包括将词列表向词id列表的映射后通过WordEmbedding完成评论语句的低维向量映射；

根据预先训练好的基于情感词典的情感分析模型对所述情感评分进行加权调整，得到所述待分析文本的舆情监测结果；

将情感分析统计结果及高频词列表以数据可视化图表和词云的形式进行表示。

2.根据权利要求1所述的舆情监测方法，其特征在于，所述将所述相关新闻转化为关键词-权重列表，包括：

逐一对所述相关新闻中的每篇新闻进行形态素分析，获得所述新闻的形态素文本；

提取所述新闻的关键词集合，所述关键词集合包含所述新闻的形态素文本中所有的不重复形态素；

确定每个关键词权重，所述关键词权重为所述关键词的TF-IDF值；

基于所述关键词的权重筛选并构建所述新闻的关键词-权重列表。

3.根据权利要求2所述的舆情监测方法，其特征在于，所述确定每个关键词权重，所述关键词权重为所述关键词的TF-IDF值，包括：

在预先构建好的IDF词典内查找所述关键词对应的IDF值，其中，所述IDF词典包含新闻语料数据库中所有关键词和IDF值的对应关系；

基于所述关键词的IDF值，计算所述关键词的TF-IDF值。

4.根据权利要求1所述的舆情监测方法，其特征在于，所述根据所述待分析文本及所述相关新闻的关键词-权重列表划分所述相关新闻为多个主题，包括：

根据待分析文本及所述相关新闻的关键词-权重列表，确定所有相关新闻与所述待分析文本的关联度；

根据所述关联度进行聚类，将所述相关新闻划分为多个聚类主题。

5.根据权利要求1所述的舆情监测方法，其特征在于，所述基于预先训练好的情感分析模型对所述评论进行情感分析，得到所述待分析文本的舆情监测结果，包括：

基于预先训练好的情感分析模型得到所述评论的情感倾向；

计算所有评论中关键词的权重，根据所述权重确定高频词；

统计所有评论的情感倾向及高频词，通过可视化技术展示给用户。

6.根据权利要求1所述的舆情监测方法，其特征在于，所述基于深度学习的情感分析模型通过以下步骤获得：

获取标注好的评论训练数据；

使用预先生成的词向量模型，将所述评论训练数据转化为训练数据词向量；

通过序贯模型构建神经网络，所述神经网络模型为LSTM模型；

在所述神经网络中添加Dense全连接层；

通过所述训练数据词向量训练神经网络模型，直至迭代完成。

7.根据权利要求1所述的舆情监测方法，其特征在于，所述基于情感词典的情感分析模型通过以下步骤获得：

获取标注好的评论训练集；

构建语言情感词典，利用汉语翻译及反义词规则拓展所述情感词典；

通过所述情感词典构建情感倾向判断规则；

根据所述情感倾向判断规则，将所述评论训练集转化为多维特征向量；

通过多维特征向量训练有监督分类模型。

8.一种舆情监测装置，其特征在于，所述装置包括：

事件获取单元，用于获取待分析文本；

爬虫单元，用于基于标签提取算法提取所述待分析文本的标签作为关键词；通过批量构造网络请求，利用所述关键词在选定数据源中检索，得到与所述待分析文本相关的新闻数据，所述选定数据源包括多个特定语言的新闻网络媒体网站；根据所述选定数据源的反爬虫机制改进采集算法；利用所述改进的采集算法获取所述相关的新闻数据，得到相关新闻，其中，所述相关新闻至少包含一篇新闻；

转化单元，用于将所述相关新闻转化为关键词-权重列表；

主题划分单元，用于根据所述待分析文本及所述相关新闻的关键词-权重列表划分所述相关新闻为多个主题；

评论获取单元，用于获取所述主题对应的相关新闻的评论；

情感分析单元，用于基于预先训练好的基于深度学习的情感分析模型对所述评论进行情感分析，得到情感评分，其中，所述基于深度学习的情感分析模型包括将词列表向词id列表的映射后通过WordEmbedding完成评论语句的低维向量映射；根据预先训练好的基于情感词典的情感分析模型对所述情感评分进行加权调整，得到所述待分析文本的舆情监测结果；将情感分析统计结果及高频词列表以数据可视化图表和词云的形式进行表示。

9.根据权利要求8所述的舆情监测装置，其特征在于，所述转化单元包括：

形态素转化单元，用于逐一对所述相关新闻中的每篇新闻进行形态素分析，获得所述新闻的形态素文本；

关键词提取单元，用于提取所述新闻的关键词集合，所述关键词集合包含所述新闻的形态素文本中所有的不重复形态素；

权重计算单元，用于确定每个关键词权重，所述关键词权重为所述关键词的TF-IDF值；

列表生成单元，用于基于所述关键词的权重筛选并构建所述新闻的关键词-权重列表。

10.根据权利要求9所述的舆情监测装置，其特征在于，所述权重计算单元包括：

基于所述关键词的IDF值，计算所述关键词的TF-IDF值。

11.根据权利要求8所述的舆情监测装置，其特征在于，所述主题划分单元，包括：

12.根据权利要求8所述的舆情监测装置，其特征在于，所述情感分析单元包括：

基于预先训练好的情感分析模型得到所述评论的情感倾向；

计算所有评论中关键词的权重，根据所述权重确定高频词；

13.根据权利要求8所述的舆情监测装置，其特征在于，所述基于深度学习的情感分析模型通过以下步骤获得：

获取标注好的评论训练数据；

通过序贯模型构建神经网络，所述神经网络模型为LSTM模型；

在所述神经网络中添加Dense全连接层；

14.根据权利要求8所述的舆情监测装置，其特征在于，所述基于情感词典的情感分析模型通过以下步骤获得：

获取标注好的评论训练集；

通过所述情感词典构建情感倾向判断规则；

通过多维特征向量训练有监督分类模型。

15.一种电子设备，其特征在于，包括：

存储器，用于存储指令；以及

处理器，用于调用所述存储器存储的指令执行如权利要求1至7中任一项所述的舆情监测方法。

16.一种计算机可读存储介质，其特征在于，存储有指令，所述指令被处理器执行时，执行如权利要求1至7中任一项所述的舆情监测方法。