CN110232109A

CN110232109A - 一种网络舆情分析方法以及系统

Info

Publication number: CN110232109A
Application number: CN201910414808.7A
Authority: CN
Inventors: 杨鸥; 时昱; 汪然; 陈立庚; 郑与天
Original assignee: Shenzhen Xinghai IoT Technology Co Ltd
Current assignee: Shenzhen Xinghai IoT Technology Co Ltd
Priority date: 2019-05-17
Filing date: 2019-05-17
Publication date: 2019-09-13

Abstract

本发明涉及一种网络舆情分析方法以及系统，该方法包括：设置舆论关注点的舆情关键词，并根据该舆情关键词捕捉记录与该舆情关键词相关包含若干网络舆情信息的数据集，并对该数据集进行情感倾向分析；对该数据集进行情感分析的步骤还包括：a.对每一帧网络舆情信息基于预训练的深度神经网络语言模型进行预处理输出词向量矩阵和/或字符向量矩阵；b.将该词向量矩阵和/或字符向量矩阵输入词序融合神经网络，对每一帧网络舆情信息进行舆情特征提取；重复步骤a与步骤b建立该数据集的舆情特征集合，根据该舆情特征集合，输出舆论对关注点的情感倾向分析结果。本发明的方法及系统可实时自动监控特定专业领域的网络舆论。

Description

一种网络舆情分析方法以及系统

技术领域

本申请涉及互联网信息搜索分析技术领域，特别是涉及一种网络舆情分析方法以及系统。

背景技术

互联网提供了信息交流平台，让用户可以将自己的想法、评论等自由地分享到互联网上。

网络舆论一定程度上代表了特定行业的现状趋势和口碑。因此，建筑房地产领域的从业者需要对网络消息的状况有相当的了解并能做到舆情的监控。建筑房地产领域的情感分析就是需要分析出这互联网信息中，比如新闻、微博、公众号文章等，发掘出对建筑房地产领域的项目或者事件评价的情感倾向，以判断互联网舆论对特定项目或者事件的观点是正面的，还是负面的，实现对舆情的分类。由于互联网平台承载着海量的用户主观想法，因此，对特定行业的网络舆情进行自动化的情感分析，可以帮助企业、政府等更好地把握用户的偏好倾向，从而改进自身的产品或者工作使舆论情感分析产生良好的指导性作用。

传统建筑房地产领域在监控舆情时，一般采用人力检索、监控、分析、反馈的方式，加上对客户信息与客服服务对话内容的分析，以及在各种社交媒体渠道上获取用户对企业的评价和反馈，用以把握用户心理，并针对用户心理倾向提出有针对性的专业领域产品和项目或者管理解决措施，改善用户体验及提高企业的信任度。

但是，现有的建筑房地产领域实体公司一般专精本专业领域，企业信息化程度较低，用户对企业的评价和反馈记录一般是线下进行。相较于互联网纸质反馈记录存在信息共享障碍，容易丢失等问题。对于信息化程度高的企业，一般会启用线上统计分析方法。现有的线上统计分析方法一般包括两种：人力获取评价和反馈中的关键词并记录于线上系统；或者线上系统通过简单分析统计得到关注事件的发生原因、频率等基础信息。但是，现有的线上统计分析方法一般是事后分析，以提取关键词等简单分析手段在事件发生后通过原因分析加以补救或改进，不具备预见性、及时性以及操作便利性。

因此，现有的计算机软件网络信息搜索分析技术还有待于改进和发展。

发明内容

本申请针对以上存在的技术问题，提供一种可实时自动监控特定专业领域的网络舆论的网络舆情分析方法以及系统。

第一方面，本申请实施方式提供的技术方案是：提供一种网络舆情分析方法，包括：

设置舆论关注点的舆情关键词，并根据该舆情关键词捕捉记录与该舆情关键词相关包含若干网络舆情信息的数据集，并对该数据集进行情感倾向分析；

对该数据集进行情感分析的步骤还包括：

a.对每一帧网络舆情信息基于预训练的深度神经网络模型进行预处理输出词向量矩阵和/或字符向量矩阵；

b.将该词向量矩阵和/或字符向量矩阵输入词序融合神经网络，对每一帧网络舆情信息进行舆情特征提取；

重复步骤a与步骤b建立该数据集的舆情特征集合，根据该舆情特征集合，输出舆论对关注点的情感倾向分析结果。

具体实施时，该情感倾向分析结果包括正面态度倾向、中性态度倾向以及负面态度倾向。

其中，该预训练的深度神经网络模型的预训练迁移学习步骤包括：

采用中文词向量对该深度神经网络模型进行初始化；

将单词向量保持为静态并仅配置迁移学习模型的参数；

对该迁移学习模型微调。

作为深度神经网络模型的第一实施例，该深度神经网络模型为卷积神经网络与循环神经网络的组合。

该卷积神经网络包括为匹配中文设置的2*3*4大小的卷积核，该卷积神经网络在预处理时，对该词向量矩阵采用向量内积方式计算距离，并通过欧式距离度量词语之间的语义相近程度。

在深度神经网络模型的第一实施例中，该步骤a还包括：

利用该卷积神经网络对该词向量矩阵或字符向量矩阵卷积得到N元语法局部特征。

作为深度神经网络模型的第二实施例，该深度神经网络模型为自然语言处理的BERT自监督预训练模型。

为了进一步优化模型，在该预训练迁移学习中，采用在线知识蒸馏以提高模型泛化能力；

该在线知识蒸馏包括以下步骤：

计算老师目标(teacher model)，保存在训练集中性能最高的模型并将该模型标注为老师目标；

将该老师目标作为软目标来训练每一个模型，后期训练的模型不仅预测样本的正确类别，并且该后期训练的模型的预测与老师目标的预测尽可能接近。

其中，该词序融合神经网络为BiLSTM词法分析模型；

该对每一帧网络舆情信息进行舆情特征提取的步骤还包括：

使用分类器作为前馈网络，该前馈网络用于对该BiLSTM词法分析模型的最后一个隐藏层表示进行分类。

第二方面，本申请实施方式提供的技术方案是：提供一种网络舆情分析系统，包括至少一个处理器、与该至少一个处理器通信连接的存储器以及通信组件，该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行时，通过通信组件建立数据通道，以使该至少一个处理器能够执行前述的网络舆情分析方法。

本申请实施方式的有益效果是：本实施例的网络舆情分析方法以及系统，预训练形成深度神经网络模型，该深度神经网络模型具有明显的易于移植的优势，并基于该预训练的深度神经网络模型实现实时自动监控特定专业领域的网络舆论，输出舆论关注点的情感倾向分析结果。

从应用场景来说，本发明替代了大量人工数据收集和数据分析的过程，系统运行时可实现不间断的自动舆论监控，自动生成情感倾向分析结果记录，使得对目标建筑房地产领域领域的监控更为便捷，分析时，通过查找保存的情感倾向分析结果记录即可了解关注度的舆情，可为企业节省大量时间和人工成本，同时保证分析结果准确和可靠。

从数据集来说，将深度神经网络模型应用在特定的领域内进行数据匹配，比如建筑房地产领域领域。预训练中的训练集和测试集都大量使用建筑行业相关数据，使本发明的深度神经网络模型在行业中展示了通用领域神经网络模型所不具备的准确性和可靠性。

从发明兼容性来说，作为神经网络模型算法有着易于移植和集成的特点，调用封装软件的API接口即可无缝接入任意舆情数据集实现情感倾向分析功能，该网络舆情分析系统可应用在PC端和移动端，且分析过程不受浏览器或移动端机型等限制，不需要安装任何插件。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是本申请实施例的网络舆情分析方法的主要流程图；

图2是本申请实施例的网络舆情分析方法的模型简图；

图3是本申请实施例的网络舆情分析方法的网络舆情分析流程示意图；

图4是本申请实施例的网络舆情分析系统的软件模块结构示意图；以及

图5是本申请实施例的网络舆情分析系统的硬件架构简图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本申请实施例作进一步详细说明。在此，本申请的示意性实施例及其说明用于解释本申请，但并不作为对本申请的限定。

请一并参考图1至图5，本申请涉及网络舆情分析方法以及系统。网络舆情分析方法以及系统应用的领域为建筑房地产领域以实现对网络消息的舆论监控。可以理解的是，网络舆情分析方法以及系统也可以应用在其它特定领域，比如烟草领域等等，只要数据集是根据特定领域关注点的关键词获取的即可。

该网络舆情分析方法包括：设置舆论关注点的舆情关键词，并根据该舆情关键词捕捉记录与该舆情关键词相关包含若干网络舆情信息的数据集，并对该数据集进行情感倾向分析；对该数据集进行情感分析的步骤还包括：a.对每一帧网络舆情信息基于预训练的深度神经网络语言模型进行预处理输出词向量矩阵和/或字符向量矩阵；b.将该词向量矩阵和/或字符向量矩阵输入词序融合神经网络，对每一帧网络舆情信息进行舆情特征提取；重复步骤a与步骤b建立该数据集的舆情特征集合，根据该舆情特征集合，输出舆论对关注点的情感倾向分析结果。

如图4所示，从软件角度来看，该网络舆情分析系统包括数据集成模块10、预训练模块20以及情感分析模块30。该情感分析模块30包括深度神经网络模型31、词序融合神经网络模型32以及前馈模块33。

该情感倾向分析结果即网络舆情信息文字的情感倾向。数据集中的每个网络舆情信息，比如一句话，都具有一个情感倾向的输出。将这些情感倾向的输出作为舆情特征集合的基本元素，综合判断出数据集整体的情感倾向分析结果。该情感倾向分析结果包括正面态度倾向、中性态度倾向以及负面态度倾向。

本实施例中，深度神经网络模型需要基于数据集完成参数设定和微调的预训练。该用于预训练的数据集不是通用情感数据集，比如天气好坏，人的喜恶等等，而是专门适配于建筑房地产领域的数据集，包括新闻、用户评价等。将目标建筑房地产领域的真实数据用于深度神经网络模型的预训练并使用该深度神经网络模型分析目标建筑房地产领域的情感倾向可获得更准确的分析结果。经试验验证表明，本发明经由特定目标领域的预训练得到的模型比通用模型，在行业数据集的情感分析上的适应性更好。

在情感分析时，需要再次搜索获取用于分析的数据集。此时数据集的关键点是行业数据的获取和筛选。具体实施时，通过设置舆论关注点的舆情关键词的方式实现。对于关键词的搜索，比如当新闻、微博、公众号文章发布中提及了设置的关键词，数据集成模块10就会捕捉、记录与该舆情关键词相关包含若干网络舆情信息的数据集，然后使用该数据集做情感分析，判断舆论对关注点的态度。本实施例中，数据集来自行业关键词搜索的结果作为数据集的数据来源。这些数据来源都带有特定行业关键词。该数据来源可以是微信、微博、百家号、搜狐、搜狗、百度六个网站的搜索结果。或者该数据集也可以是各个网站上的评论信息的关键词搜索结果，比如百度、微博、搜狗、微信等，搜索行业相关数据集的数据来源，有针对性的训练了模型提供了本实施例在行业分析中独特的适应性。经测试，本发明的模型在实际行业分析应用中的表现远超过各大AI开放平台上的通用领域模型；三分类模型平均准确率达到85％，二分类准确率平均超过90％；召回率也保持在较高水平。

实施例1

请参考图1，本实施例的网络舆情分析方法，主要包括以下步骤：

步骤101：设置舆论关注点的舆情关键词，并根据该舆情关键词捕捉记录与该舆情关键词相关包含若干网络舆情信息的数据集；

步骤102：对该数据集进行情感倾向分析；

对该数据集进行情感分析的步骤还包括：

步骤a：对每一帧网络舆情信息基于预训练的深度神经网络模型进行预处理输出词向量矩阵和/或字符向量矩阵；

步骤b：将该词向量矩阵和/或字符向量矩阵输入词序融合神经网络，对每一帧网络舆情信息进行舆情特征提取；

步骤111：判断数据集的网络舆情信息是否处理完毕？没有处理完毕时，继续回到步骤a形成下一帧信息图像；数据集信息已经处理完毕时，转至步骤112；

步骤112：重复步骤a与步骤b建立该数据集的舆情特征集合；

步骤113：根据该舆情特征集合，输出舆论对关注点的情感倾向分析结果。

本实施例中，采用无监督的单词向量训练进行预训练。

该预训练的深度神经网络模型的预训练迁移学习步骤包括：

采用中文词向量对该深度神经网络模型进行初始化；

将单词向量保持为静态并仅配置迁移学习模型的参数；

对该迁移学习模型微调。

近年来随着深度学习的兴起，基于神经网络的文本分类模型效果显著，如最简单的基于卷积神经网络的文本分类算法以及在其基础上的扩展模型循环神经网络。卷积神经网络用于捕捉上下文信息，循环神经网络用于输出作为max-pooling输入来确定词的在文中的重要程度。与之类似的模型还有C-LSTM，先利用卷积神经网络得到一个句子短语级别的表示，将其输入循环神经网络得到句子表示，然后进行情感分析。

因此，作为深度神经网络模型的第一实施例，该深度神经网络模型为卷积神经网络与循环神经网络的组合。

为匹配中文特点而修改了卷积核的设计，该卷积神经网络包括为匹配中文设置的2*3*4大小的卷积核。

该卷积神经网络在单次向量的预处理时，单词通过隐藏层从稀疏的one-hot编码投影到较低维度的稠密向量空间上，做特征提取器，编码其维度中的单词的语义特征。在这种稠密的向量表示中，对该词向量矩阵采用向量内积方式计算距离，并通过欧式距离度量词语之间的语义相近程度。

在深度神经网络模型的第一实施例中，该步骤a还包括：

在预训练迁移学习过程中，卷积神经网络直接将通过单词向量的词向量矩阵作为图片，利用卷积得到图层局部特征，这些特征可以反映句子之间的N元语法局部特征。

本实施例中，为适应目标建筑房地产领域的中文背景，采用在知乎上训练的中文词向量进行初始化。最初将单词向量保持为静态并仅学习模型的其他参数。对超参数进行少量的调整，该预训练模型结果良好，预训练的矢量是可以用于各种分类任务的“通用”特征提取器。通过微调学习任务中特定向量可以进一步改进该预训练模型，例如以允许通过具有多个通道来使用预先训练的和任务特定的向量。

作为深度神经网络模型的第二实施例，该深度神经网络模型为自然语言处理的BERT自监督预训练模型。另一种兼具卷积神经网络的高性能和循环神经网络的长距离捕捉能力的架构转换器BERT(Transformer)得到了越来越多研究者的关注；并且BERT在多个项目上都取得了业界最高水平。

BERT自监督预训练模型借助深层神经网络来捕捉语义，通过多层自关注的转换器(Transform)在大批量的文本中进行语言建模，具体来说是MLL建模任务，来进行预训练。实验发现，这种任务框架下训练出的词向量较直接通过word2vec、GloVe等方式得到的词向量更具有表现能力。为了让预训练模型在情感分类上有进一步的提升，我们使用特定领域的标注任务进行了微调，训练后的预训练模型可以在中文情感分类上取得很高的准确率。

该在线知识蒸馏包括以下步骤：

以上在线知识蒸馏技术可以解释为，我们在训练过程中，保存在训练集中性能最高的模型，并将该模型当做“老师”模型，让后期训练模型不仅要预测样本的正确类别，还需要模型的预测与“老师”模型的预测尽可能接近。该在线知识蒸馏技术既可以起到一部分正则的作用，在一定程度上也起到了集成的作用以进一步提高模型的性能。

其中，该词序融合神经网络采用BiLSTM词法分析模型。

该对每一帧网络舆情信息进行舆情特征提取的步骤还包括：

本实施例的网络舆情分析方法以及系统，预训练形成深度神经网络模型，该深度神经网络模型具有明显的易于移植的优势，并基于该预训练的深度神经网络模型实现实时自动监控特定专业领域的网络舆论，输出舆论关注点的情感倾向分析结果。

本实施例的网络舆情分析方法以及系统，采用了Dropout等技术，可防止神经网络模型过拟合。

术语解释：

卷积神经网络,(Convolutional Neural Networks,CNN)。

循环神经网络,(Recurrent Neural Network,RNN)。

LSTM，(Long Short Term Memory networks)，全称为长短期记忆网络是一种特殊的循环神经网络(Recurrent Neural Network，RNN)，能够学习到长期依赖关系。

BiLSTM:(Bi-directional Long Short-Term Memory，BiLSTM)由前向LSTM与后向LSTM组合而成。两者在自然语言处理任务中都常被用来建模上下文信息。

BERT:(Pre-training of Deep Bidirectional Transformers for LanguageUnderstanding，BERT)，应用于自然语言处理领域的BERT算法模型。

实施例2

图5是本申请实施例提供的网络舆情分析系统600的硬件结构示意图，如图5所示，该系统设备600包括：

一个或多个处理器610以及存储器620，图5中以一个处理器610为例。该存储器620存储有可被该至少一个处理器610执行的指令，亦即计算机程序640，该指令被该至少一个处理器执行时，使该至少一个处理器能够执行该网络舆情分析方法。

处理器610以及存储器620可以通过总线或者其他方式连接，图5中以通过总线连接为例。

存储器620作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的网络舆情分析方法对应的程序指令/模块。处理器610通过运行存储在存储器620中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的网络舆情分析方法。

存储器620可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据网络舆情分析系统的使用所创建的数据等。此外，存储器620可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器620可选包括相对于处理器610远程设置的存储器，这些远程存储器可以通过网络连接至系统。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

请一并参考图4，从软件模块来看，该网络舆情分析系统600还包括数据集成模块10、预训练模块20以及情感分析模块30。该情感分析模块30包括深度神经网络模型31、词序融合神经网络模型32以及前馈模块33。

该数据集成模块10用于设置舆论关注点的舆情关键词，并根据该舆情关键词捕捉记录与该舆情关键词相关包含若干网络舆情信息的数据集。

该预训练模块20用于对深度神经网络语言模型31进行预训练。该预训练可以采用自然语言处理的BERT自监督预训练模型。

该情感分析模块30用于对该数据集进行情感倾向分析。

该情感分析模块30运用该深度神经网络模型31、词序融合神经网络模型32以及前馈模块33完成对关注点的情感倾向分析。

对每一图像帧的情感倾向分析包括：a.对每一帧网络舆情信息基于预训练的深度神经网络语言模型进行预处理输出词向量矩阵和/或字符向量矩阵。b.将该词向量矩阵和/或字符向量矩阵输入词序融合神经网络，对每一帧网络舆情信息进行舆情特征提取。该情感分析模块30重复步骤a与步骤b建立该数据集的舆情特征集合，根据该舆情特征集合，输出舆论对关注点的情感倾向分析结果。

所述一个或者多个模块存储在所述存储器620中，当被所述一个或者多个处理器610执行时，执行上述网络舆情分析方法，例如，执行以上描述的图1中的方法步骤101至步骤113；实现附图4的数据集成模块10、预训练模块20以及情感分析模块30等的功能。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本申请实施例提供了一种非易失性计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行，例如，例如，执行以上描述的图1中的方法步骤101至步骤113；实现附图4的数据集成模块10、预训练模块20以及情感分析模块30等的功能。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；在本申请的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本申请的不同方面的许多其它变化，为了简明，它们没有在细节中提供；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种网络舆情分析方法，其特征在于，包括：

设置舆论关注点的舆情关键词，并根据所述舆情关键词捕捉记录与所述舆情关键词相关包含若干网络舆情信息的数据集，并对所述数据集进行情感倾向分析；

对所述数据集进行情感分析的步骤还包括：

b.将所述词向量矩阵和/或字符向量矩阵输入词序融合神经网络，对每一帧网络舆情信息进行舆情特征提取；

重复步骤a与步骤b建立所述数据集的舆情特征集合，根据所述舆情特征集合，输出舆论对关注点的情感倾向分析结果。

2.根据权利要求1所述的网络舆情分析方法，其特征在于，

所述情感倾向分析结果包括正面态度倾向、中性态度倾向以及负面态度倾向。

3.根据权利要求1所述的网络舆情分析方法，其特征在于，

所述预训练的深度神经网络模型的预训练迁移学习步骤包括：

采用中文词向量对所述深度神经网络模型进行初始化；

将单词向量保持为静态并仅配置迁移学习模型的参数；

对所述迁移学习模型微调。

4.根据权利要求3所述的网络舆情分析方法，其特征在于，所述深度神经网络模型为卷积神经网络与循环神经网络的组合。

5.根据权利要求4所述的网络舆情分析方法，其特征在于，所述卷积神经网络包括为匹配中文设置的2*3*4大小的卷积核，所述卷积神经网络在预处理时，对所述词向量矩阵采用向量内积方式计算距离，并通过欧式距离度量词语之间的语义相近程度。

6.根据权利要求5所述的网络舆情分析方法，其特征在于，所述步骤a还包括：

利用所述卷积神经网络对所述词向量矩阵或字符向量矩阵卷积得到N元语法局部特征。

7.根据权利要求3所述的网络舆情分析方法，其特征在于，所述深度神经网络模型为自然语言处理的BERT自监督预训练模型。

8.根据权利要求3所述的网络舆情分析方法，其特征在于，在所述预训练迁移学习中，采用在线知识蒸馏以提高模型泛化能力；

所述在线知识蒸馏包括以下步骤：

将所述老师目标作为软目标来训练每一个模型，后期训练的模型不仅预测样本的正确类别，并且所述后期训练的模型的预测与老师目标的预测尽可能接近。

9.根据权利要求1-8任意一项所述的网络舆情分析方法，其特征在于，

所述词序融合神经网络为BiLSTM词法分析模型；

所述对每一帧网络舆情信息进行舆情特征提取的步骤还包括：

使用分类器作为前馈网络，所述前馈网络用于对所述BiLSTM词法分析模型的最后一个隐藏层表示进行分类。

10.一种网络舆情分析系统，包括至少一个处理器、与所述至少一个处理器通信连接的存储器以及通信组件，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行时，通过通信组件建立数据通道，以使所述至少一个处理器能够执行权利要求1-8任一项所述的网络舆情分析方法。