CN109145216A

CN109145216A - 网络舆情监控方法、装置及存储介质

Info

Publication number: CN109145216A
Application number: CN201810998134.5A
Authority: CN
Inventors: 陆柏含; 盛瑞生; 高巍华; 张兆轶; 苑利慧; 李温键
Original assignee: Ping An Insurance Group Company of China Ltd
Current assignee: Ping An Insurance Group Company of China Ltd
Priority date: 2018-08-29
Filing date: 2018-08-29
Publication date: 2019-01-04
Anticipated expiration: 2038-08-29
Also published as: CN109145216B

Abstract

本发明提供一种网络舆情监控方法，包括：通过网络爬虫从预设的数据渠道采集与预设关键词相关的舆情文章；对所述舆情文章的情感倾向进行分析，并根据分析结果从所述舆情文章中筛选出负面舆情文章；获取所述舆情文章的发布媒体，根据发布媒体对应的媒体权重指数及媒体级别指数，分别计算所述负面舆情文章的负面舆情影响力及所述舆情文章的总舆情影响力；及，利用所述负面舆情影响力及所述总舆情影响力，计算关于所述预设关键词的舆情健康度。本发明还提出一种电子装置及存储介质。利用本发明，可以提高对舆情的监控预警能力，帮助用户针对舆情事件进行相应决策。

Description

网络舆情监控方法、装置及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种网络舆情监控方法、电子装置及计算机可读存储介质。

背景技术

网络舆情是指在网络上流行的对社会事件不同看法的网络舆论，是社会舆论的一种表现形式。近年来，网络舆情对生活秩序和社会稳定的影响与日俱增，一些重大的网络舆情事件使人们开始认识到网络对社会监督起到的巨大作用。同时，网络舆情突发事件如果处理不当，极有可能诱发民众的不良情绪，引发群众的违规和过激行为，进而对社会稳定构成威胁。

因此，对于网络舆情状态的监测就变得尤为重要。目前舆情系统大多是通过舆情分析师筛选舆情，然后对系统进行跟踪，从而对事件在影响力上对其舆情状态有一个大致的判断，但是这种方案存在监测媒体源不够全面的缺陷，且无法直观地了解到网络舆情的舆情状态，进而导致无法及时准确地进行监控预警。

发明内容

本发明提供一种网络舆情监控方法、电子装置及计算机可读存储介质，其主要目的在于提高对舆情的监控预警能力。

为实现上述目的，本发明提供一种网络舆情监控方法，该方法包括：

通过网络爬虫从预设的数据渠道采集与预设关键词相关的舆情文章；

对所述舆情文章的情感倾向进行分析，并根据分析结果从所述舆情文章中筛选出负面舆情文章；

获取所述舆情文章的发布媒体，根据发布媒体对应的媒体权重指数及媒体级别指数，分别计算所述负面舆情文章的负面舆情影响力及所述舆情文章的总舆情影响力；及

利用所述负面舆情影响力及所述总舆情影响力，计算关于所述预设关键词的舆情健康度。

此外，为实现上述目的，本发明提供一种电子装置，该装置包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的网络舆情监控程序，该程序被所述处理器执行时实现如下步骤：

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有网络舆情监控程序，该程序被处理器执行时实现如上所述的网络舆情监控方法的任意步骤。

相较于现有技术，本发明提出的网络舆情监控方法、电子装置及计算机可读存储介质，对采集的舆情文章进行聚类分析，构建观点主题，实现了对舆情文章的高度概括；利用情感评分模型计算概括得到的观点主题的情感得分，确定舆情文章的情感倾向，提高了对舆情文章的情感分析准确率，进而提高总舆情健康度的准确率；通过计算所有舆情文章的总舆情健康度，直观地展示了当前的舆情状况；通过舆情文章的传播路径确定中心媒体并进行预警，提高了对舆情的监控预警能力。

附图说明

图1为本发明电子装置较佳实施例的示意图；

图2为图1中网络舆情监控程序的程序模块示意图；

图3为本发明网络舆情监控方法较佳实施例的流程图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种网络舆情监控方法，该方法应用于一种电子装置1。参照图1所示，为本发明电子装置1较佳实施例的示意图。

在本实施例中，电子装置1可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有数据处理功能的终端设备，所述服务器可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器。

该电子装置1包括存储器11、处理器12，通信总线13，及网络接口14。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是所述电子装置1的内部存储单元，例如该电子装置1的硬盘。存储器11在另一些实施例中也可以是所述电子装置1的外部存储设备，例如该电子装置1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括该电子装置1的内部存储单元也包括外部存储设备。

存储器11不仅可以用于存储安装于该电子装置1的应用软件及各类数据，例如网络舆情监控程序10等，还可以用于暂时地存储已经输出或者将要输出的数据。处理器12在一些实施例中可以是一中央处理器(Central ProcessingUnit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如网络舆情监控程序10等。

通信总线13用于实现这些组件之间的连接通信。

网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该电子装置1与其他电子设备之间建立通信连接。

图1仅示出了具有组件11-14的电子装置1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

可选地，该电子装置1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。

可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode，OLED)触摸器等。其中，显示器也可以称为显示屏或显示单元，用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。

在图1所示的装置实施例中，存储器11中存储有网络舆情监控程序10。处理器12执行存储器11中存储的网络舆情监控程序10时实现如下步骤：

以集团A为例对本发明的方案进行说明，假设需了解集团A的舆情现状，在采集关于集团A的舆情文章之前，需针对集团A预先设置相关的一个或多个关键词，例如，集团A的法人名称、集团A旗下各公司的法人名称等，并预先设置待爬取的统一资源定位符(URL)列表，使用网络爬虫根据上述URL列表中的URL地址及预先设置的一个或多个关键词，从预设的数据渠道采集预设时间内(例如，一周)与集团A相关的舆情文章。具体地，预设的数据渠道包括但不仅限于微博、微信、论坛等，从上述数据渠道获取到的舆情文章主要包括新闻评论、论坛帖子、微博博文、微信文章等。

上述采集与预设关键词相关的舆情文章的频率可根据需要设置，例如，实时，或者设置固定的时间间隔(例如，1天)，或者在接收到用户发出的采集指令时执行采集与预设关键词相关的舆情文章的步骤。

采集到关于集团A在预设时间内的舆情文章后，需分别确定每篇舆情文章的情感倾向，具体地，该步骤可以细化为以下步骤：

对所述舆情文章进行分词处理，得到每篇舆情文章对应的词汇集合；

采用聚类算法对所述舆情文章进行聚类分析，生成所述舆情事件的多个观点主题，根据观点主题包含的舆情文章的词向量计算观点主题的词向量；及

将观点主题的词向量输入到预先训练好的情感评分模型中，输出观点主题的情感得分，根据情感得分确定观点主题对应的舆情文章所属的情感倾向，情感倾向包括：正面、负面及中立。

在对舆情文章进行分词处理之前，分别提取每篇舆情文章的正文数据，去除超级文本标记语言(HTML)标签数据(例如，图片、链接，甚至音乐、程序等非文字元素)、图像标记等无关数据，然后通过正则表达式去除正文数据中的非中文字符。

然后，对保留的正文数据通过分词工具进行分词，将中文段落生成以空格分隔的初始词汇集合。按照预设的停用词词表对初始词汇集合进行去停用词处理，将经去停用词处理后的词汇集合作为该舆情文章的词汇集合，即以空格分隔的词汇集合作为特征用来表征舆情文章。

在获取到各个舆情文章的词汇集合之后，对以空格分隔的词汇集合表征的舆情文章进行聚类。由于大众对于一个事件的看法可能是多种多样的、因此通过对采集到的所有舆情文章进行聚类分析，实现对舆情文章的高度概括，获取到多个观点主题，具体地，该步骤可以细化为以下步骤：

获取预设的语料库，例如，中文维基百科语料库，基于该语料库，根据词频-逆文档频率指数(TF-IDF)算法计算每篇舆情文章对应的词汇集合中各个词汇的重要程度，根据重要程度由高到低的顺序对每篇舆情文章对应的词汇集合中的各个词汇进行排序。选择每篇舆情文章对应的词汇集合中的排序靠前的预设数量的(例如，N个，其中，N＞0，且N为整数)词汇作为每篇舆情文章的关键词。

另外，基于中文维基百科语料库生成中文语料的词向量模型(Word2vec模型)，通过该Word2vec模型分别计算每篇舆情文章的N个关键词的词向量，并利用上述步骤得到的N个关键词的词向量计算每篇舆情文章的词向量。

在计算得到各舆情文章的词向量后，根据Kmeans算法(K均值算法)对所有舆情文章进行聚类分析，分成为多个观点主题。Kmeans算法的K值的初始值随机设置，K值为分类的类群的数量，根据对分类结果的评估调整K值，直至分类结果的准确度达到设定的阈值。

将每个观点主题中的所有舆情文章的关键词汇总，计算每个关键词的词频，词频体现了该关键词的权重。通过Word2vec模型计算观点主题中汇总的各个关键词的词向量，根据关键词的词向量和词频计算观点主题的词向量。

计算各舆情文章的情感评分前，预先根据构建的样本库训练预设深度神经网络模型，确定模型参数，将确定模型参数的深度神经网络模型作为情感评分模型。具体地，该步骤可细化为以下步骤：获取添加有标签数据的舆情文本数据，构成样本库，其中，标签数据为根据文本数据的情感倾向(例如，正面、负面、中立)对文本数据标注的情感分数，例如正面为“1”、负面为“-1”、中立为“0”；通过维基百科语料库，结合TF-IDF算法提取样本库中的舆情文本数据的关键词，并通过训练好的词向量模型计算关键词的词向量；将样本库中的舆情文本数据的词向量和标签数据作为训练样本，输入到预设的深度神经网络模型中进行训练，以确定模型参数，并将确定了模型参数的深度神经网络模型作为情感评分模型。此外，为了防止过拟合，采取交叉验证的方式训练模型。

使用上述训练好的情感评分模型计算各个观点主题的情感得分，其中，情感得分的取值区间为[-1，1]，若观点主题的情感得分为负数，则说明该观点主题的情感偏向于负面；若观点主题的情感得分为正数，则说明该观点主题的情感偏向于正面；若观点主题的情感得分在0附近，则说明该观点主题的情感可能倾向于中立。

根据观点主题的情感得分，分别确定不同观点主题对应的舆情文章对应的情感倾向，并为每篇舆情文章标注相应的情感标签“1”、“0”、“-1”。并从所有舆情文章中筛选出情感标签为“-1”的舆情文章，即负面舆情文章。

获取所述舆情文章的发布媒体，根据发布媒体对应的媒体权重指数及媒体级别指数，分别计算所述负面舆情文章的负面舆情影响力及所述舆情文章的总舆情影响力；

具体地，该步骤可细化为以下步骤：获取每篇舆情文章的发布媒体信息，根据发布媒体信息对所述舆情文章进行分类；分别确定不同的发布媒体信息对应的媒体权重指数；根据发布媒体与媒体级别的映射关系，确定每篇舆情文章的发布媒体对应的媒体级别及媒体级别指数；及，计算所述负面舆情文章的负面舆情影响力及所述舆情文章的总舆情影响力。

在本实施例中，所述发布媒体信息为媒体名称，例如，人民网、新华网、新浪网、搜狐网、财经网、和讯网、金融界、今日头条等。可以理解的是，不同的舆情文章的发布媒体可能相同，也可能不同，在确定每篇舆情文章的发布媒体后，根据发布媒体将所有舆情文章划分为多个类别。

然后，分别确定不同的发布媒体对应的媒体权重指数，在本实施例中，媒体权重指数可直接从一些网站提取直接从一些网站上手动提取，或者通过程序对外接口直接提取，例如，从“站长之家”获取不同发布媒体的百度权重指数，作为不同发布媒体的媒体权重指数α_i。

优选地，媒体级别包括：包括：中央权威、核心财经、财经垂直、综合门户、资讯客户端、自媒体大V及其他。不同的媒体级别对应不同的媒体级别指数，媒体级别越高，媒体级别指数越大。例如，中央权威：5、核心财经：4.5、财经垂直：4、综合门户：3.5、资讯客户端：3、自媒体大V：2.5、其他：2。分别确定不同发布媒体对应的媒体级别指数β_i。

分别统计不同发布媒体发布的负面舆情文章的数量，并计算所述负面舆情文章的负面舆情影响力，具体地，所述负面舆情影响力的计算公式为：

I_N＝ΣQ_Ni*α_i*β_i

其中，Q_Ni表示不同发布媒体i发布的负面舆情文章的数量，α_i表示不同发布媒体i对应的媒体权重指数，β_i表示不同发布媒体i对应的媒体级别指数。

分别统计不同发布媒体发布的舆情文章的总数，包括负面舆情文章、正面舆情文章及中立舆情文章，并计算所述舆情文章的总舆情影响力，具体地，所述总舆情影响力的计算公式为：

I_T＝ΣQ_Ti*α_i*β_i

其中，Q_Ti表示不同发布媒体i发布的舆情文章的总数，α_i表示不同发布媒体i对应的媒体权重指数，β_i表示不同发布媒体i对应的媒体级别指数。

优选地，所述舆情健康度的计算公式为：

H＝(1-I_N/I_T)*10

其中，I_N表示所述负面舆情文章的负面舆情影响力，I_T表示所述舆情文章的总舆情影响力。

上述实施例提出的电子装置1，对采集的舆情文章进行聚类分析，构建观点主题，实现了对舆情文章的高度概括；利用情感评分模型计算概括得到的观点主题的情感得分，确定舆情文章的情感倾向，提高了对舆情文章的情感分析准确率；通过计算所有舆情文章的总舆情健康度，直观地展示了当前的舆情状况，提高了对舆情的监控能力。

可选地，在其他的实施例中，网络舆情监控程序10还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由一个或多个处理器(本实施例为处理器12)所执行，以完成本发明，本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。例如，参照图2所示，为图1中网络舆情监控程序10的模块示意图，该实施例中，网络舆情监控程序10可以被分割为采集模块110、情感分析模块120、第一计算模块130、第二计算模块140及预警模块150，所述模块110-150所实现的功能或操作步骤均与上文类似，此处不再详述，示例性地，例如其中：

采集模块110，用于通过网络爬虫从预设的数据渠道采集与预设关键词相关的舆情文章；

情感分析模块120，用于对所述舆情文章的情感倾向进行分析，并根据分析结果从所述舆情文章中筛选出负面舆情文章；

第一计算模块130，用于获取所述舆情文章的发布媒体，根据发布媒体对应的媒体权重指数及媒体级别指数，分别计算所述负面舆情文章的负面舆情影响力及所述舆情文章的总舆情影响力；

第二计算模块140，用于利用所述负面舆情影响力及所述总舆情影响力，计算关于所述预设关键词的舆情健康度；及

预警模块150，用于获取所述舆情文章的传播路径，生成媒体曝光分布图，确定所述舆情文章的中心媒体，当所述舆情健康度低于预设阈值时，根据中心媒体及舆情健康度生成预警信息并输出。

此外，本发明还提供一种网络舆情监控方法。参照图3所示，为本发明网络舆情监控方法第一个较佳实施例的流程图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，网络舆情监控方法包括步骤S1-S4：

S1、通过网络爬虫从预设的数据渠道采集与预设关键词相关的舆情文章；

S2、对所述舆情文章的情感倾向进行分析，并根据分析结果从所述舆情文章中筛选出负面舆情文章；

S201、对所述舆情文章进行分词处理，得到每篇舆情文章对应的词汇集合；

S202、采用聚类算法对所述舆情文章进行聚类分析，生成所述舆情事件的多个观点主题，根据观点主题包含的舆情文章的词向量计算观点主题的词向量；

S203、将观点主题的词向量输入到预先训练好的情感评分模型中，输出观点主题的情感得分，根据情感得分确定观点主题对应的舆情文章所属的情感倾向，情感倾向包括：正面、负面及中立。

S3、获取所述舆情文章的发布媒体，根据发布媒体对应的媒体权重指数及媒体级别指数，分别计算所述负面舆情文章的负面舆情影响力及所述舆情文章的总舆情影响力；

I_N＝ΣQ_Ni*α_i*β_i

I_T＝ΣQ_Ti*α_i*β_i

S4、利用所述负面舆情影响力及所述总舆情影响力，计算关于所述预设关键词的舆情健康度。

优选地，所述舆情健康度的计算公式为：

H＝(1-I_N/I_T)*10

其中，I_N表示所述负面舆情文章的负面舆情影响力，I_I表示所述舆情文章的总舆情影响力。

在其他实施例中，该方法还包括：

获取所述舆情文章的传播路径，生成媒体曝光分布图，确定所述舆情文章的中心媒体；及

当所述舆情健康度低于预设阈值时，根据中心媒体及舆情健康度生成预警信息并输出。

根据舆情文章的转载信息，了解每篇舆情文章的传播路径，并根据传播路径生成舆情曝光分布图，确定曝光分布图中的中心媒体。

可以理解的是，舆情健康度越低，说明集团A当前的舆情状况越不容乐观，在本实施例中，预先设置一个舆情健康度阈值，当舆情健康度低于舆情健康度阈值时，集团A需适当控制当前的舆情状况，此时，则需根据舆情健康度及中心媒体生成预警信息并输出。

上述实施例提出的网络舆情监控方法，对采集的舆情文章进行聚类分析，构建观点主题，实现了对舆情文章的高度概括；利用情感评分模型计算概括得到的观点主题的情感得分，确定舆情文章的情感倾向，提高了对舆情文章的情感分析准确率；通过计算所有舆情文章的总舆情健康度，直观地展示了当前的舆情状况；通过舆情文章的传播路径确定中心媒体并进行预警，提高了对舆情的监控预警能力。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有网络舆情监控程序10，该程序被处理器执行时实现如下操作：

本发明计算机可读存储介质具体实施方式与上述网络舆情监控方法和电子装置1各实施例基本相同，在此不作累述。

需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种网络舆情监控方法，应用于电子装置，其特征在于，该方法包括：

2.如权利要求1所述的网络舆情监控方法，其特征在于，所述“根据预设的分析规则，分析所述舆情文章所属的情感倾向”的步骤包括：

采用聚类算法对所述舆情文章进行聚类分析，生成所述舆情事件的多个观点主题，根据观点主题包含的舆情文章的词向量计算观点主题的词向量；

将观点主题的词向量输入到预先训练好的情感评分模型中，输出观点主题的情感得分；及

根据情感得分确定观点主题对应的舆情文章所属的情感倾向，情感倾向包括：正面、负面及中立。

3.如权利要求1所述的网络舆情监控方法，其特征在于，所述负面舆情影响力的计算公式为为：

I_N＝∑Q_Ni*α_i*β_i

其中，Q_Ni表示不同发布媒体i发布的负面舆情文章的数量，α_i表示不同发布媒体i对应的媒体权重指数，β_i表示不同发布媒体i对应的媒体级别指数；

所述总舆情影响力的计算公式为：

I_T＝∑Q_Ti*α_i*β_i

其中，Q_Ti表示不同发布媒体i发布的舆情文章的数量，α_i表示不同发布媒体i对应的媒体权重指数，β_i表示不同发布媒体i对应的媒体级别指数；及

所述舆情健康度的计算公式为：

H＝(1-I_N/I_T)*10

4.如权利要求1至3中任一项所述的网络舆情监控方法，其特征在于，所述情感评分模型的训练步骤包括：

获取添加有标签数据的舆情文本数据，构成样本库；

结合TF-IDF算法提取样本库中的舆情文本数据的关键词，并通过训练好的词向量模型计算关键词的词向量；及

将样本库中的舆情文本数据的词向量和标签数据作为训练样本，输入到预设的深度神经网络模型中进行训练，以确定模型参数，并将确定了模型参数的深度神经网络模型作为所述情感评分模型。

5.如权利要求4中所述的网络舆情监控方法，其特征在于，该方法还包括：

6.一种电子装置，其特征在于，该装置包括：存储器、处理器，所述存储器上存储有可在所述处理器上运行的网络舆情监控程序，该程序被所述处理器执行时实现如下步骤：

7.如权利要求6所述的电子装置，其特征在于，所述“根据预设的分析规则，分析所述舆情文章所属的情感倾向”的步骤包括：

8.如权利要求7所述的电子装置，其特征在于，所述负面舆情影响力的计算公式为为：

I_N＝∑Q_Ni*α_i*β_i

所述总舆情影响力的计算公式为：

I_T＝∑Q_Ti*α_i*β_i

其中，Q_Ti表示不同发布媒体i发布的舆情文章的数量，α_i表示不同发布媒体i对应的媒体权重指数，β_i表示不同发布媒体i对应的媒体级别指数；及所述舆情健康度的计算公式为：

H＝(1-I_N/I_T)*10

9.如权利要求6至8中任意一项所述的电子装置，其特征在于，所述网络舆情监控程序被所述处理器执行时还实现如下步骤：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有网络舆情监控程序，该程序被处理器执行时实现如权利要求1至5中任一项所述的网络舆情监控方法的步骤。