CN112183093A

CN112183093A - 一种企业舆情分析方法、装置、设备及可读存储介质

Info

Publication number: CN112183093A
Application number: CN202011203351.4A
Authority: CN
Inventors: 曾旭; 戚华春
Original assignee: Hangzhou Anheng Information Security Technology Co Ltd
Current assignee: Hangzhou Anheng Information Security Technology Co Ltd
Priority date: 2020-11-02
Filing date: 2020-11-02
Publication date: 2021-01-05

Abstract

本申请公开了一种企业舆情分析方法、装置、设备及可读存储介质。本申请公开的方法包括：获取与目标企业有关联的网页信息；从网页信息中提取纯文本，并对纯文本进行分词，得到分词结果；基于分词结果分别提取各篇文本分别对应的分词特征，并利用卡方检验对分词特征进行筛选，以得到舆情特征；利用朴素贝叶斯算法对舆情特征进行分类，得到分类结果，并利用情感分析语料库识别分类结果，以得到企业舆情分析结果。本申请能够提高企业舆情分析的准确率和效率，也能够为监管部门提供较为真实的监管依据。相应地，本申请提供的一种企业舆情分析装置、设备及可读存储介质，也同样具有上述技术效果。

Description

一种企业舆情分析方法、装置、设备及可读存储介质

技术领域

本申请涉及计算机技术领域，特别涉及一种企业舆情分析方法、装置、设备及可读存储介质。

背景技术

随着互联网的快速发展，网络上催生了大量的舆情信息，这些舆情信息中既存在对企业有积极影响的信息，也存在对企业有负面影响的信息。通过对舆情信息进行分析，可以辨别出负面舆论和正面舆论，方便企业决策者迅速制定应对策略，也可为监管部门提供可参考的监管依据。现有技术对舆情信息的分析比较单一，导致舆情分析结果的准确性较低。

因此，如何提高舆情分析结果的准确性，是本领域技术人员需要解决的问题。

发明内容

有鉴于此，本申请的目的在于提供一种企业舆情分析方法、装置、设备及可读存储介质，以提高舆情分析结果的准确性。其具体方案如下：

第一方面，本申请提供了一种企业舆情分析方法，包括：

获取与目标企业有关联的网页信息；

从所述网页信息中提取纯文本，并对所述纯文本进行分词，得到分词结果；

基于所述分词结果分别提取各篇文本分别对应的分词特征，并利用卡方检验对所述分词特征进行筛选，以得到舆情特征；

利用朴素贝叶斯算法对所述舆情特征进行分类，得到分类结果，并利用情感分析语料库识别所述分类结果，以得到企业舆情分析结果。

优选地，所述获取与目标企业有关联的网页信息，包括：

获取所述目标企业的企业名称，删除所述企业名称中的地域属性、企业属性和经营属性，得到企业简称；

利用所述企业简称获取所述网页信息。

优选地，所述从所述网页信息中提取纯文本，包括：

利用jsoup技术提取所述网页信息中的html内容，并删除所述网页信息中的图片；

从所述html内容中提取所述纯文本。

优选地，所述从所述html内容中提取所述纯文本之前，还包括：

利用OCR技术识别所述图片中的文本信息，并将所述文本信息添加至所述纯文本中的目标位置；所述目标位置为所述图片在所述网页信息中的位置。

优选地，所述对所述纯文本进行分词，得到分词结果，包括：

利用hanlp对所述纯文本进行分词，得到所述分词结果。

优选地，所述利用卡方检验对所述分词特征进行筛选，以得到舆情特征，包括：

利用所述卡方检验计算所述分词特征与相应文本的预设文本特征之间的差异值；

若所述差异值大于预设阈值，则删除所述分词特征；否则，将所述分词特征确定为所述舆情特征。

优选地，还包括：

存储并显示所述企业舆情分析结果。

第二方面，本申请提供了一种企业舆情分析装置，包括：

获取模块，用于获取与目标企业有关联的网页信息；

提取模块，用于从所述网页信息中提取纯文本，并对所述纯文本进行分词，得到分词结果；

筛选模块，用于基于所述分词结果分别提取各篇文本分别对应的分词特征，并利用卡方检验对所述分词特征进行筛选，以得到舆情特征；

分析模块，用于利用朴素贝叶斯算法对所述舆情特征进行分类，得到分类结果，并利用情感分析语料库识别所述分类结果，以得到企业舆情分析结果。

第三方面，本申请提供了一种企业舆情分析设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，以实现前述公开的企业舆情分析方法。

第四方面，本申请提供了一种可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述公开的企业舆情分析方法。

通过以上方案可知，本申请提供了一种企业舆情分析方法，包括：获取与目标企业有关联的网页信息；从所述网页信息中提取纯文本，并对所述纯文本进行分词，得到分词结果；基于所述分词结果分别提取各篇文本分别对应的分词特征，并利用卡方检验对所述分词特征进行筛选，以得到舆情特征；利用朴素贝叶斯算法对所述舆情特征进行分类，得到分类结果，并利用情感分析语料库识别所述分类结果，以得到企业舆情分析结果。

可见，本申请获取与目标企业有关联的网页信息后，从网页信息中提取纯文本，并对纯文本进行分词，得到分词结果；然后基于分词结果分别提取各篇文本分别对应的分词特征，并利用卡方检验对分词特征进行筛选，以得到更能表征舆情走向的舆情特征；最后利用朴素贝叶斯算法对舆情特征进行分类，得到分类结果，并利用情感分析语料库识别分类结果，以得到企业舆情分析结果。其中，朴素贝叶斯算法对更能表征舆情走向的舆情特征进行分类，并利用情感分析语料库识别分类结果，因此得到的企业舆情分析结果更为准确，且由于卡方检验对分词特征进行了筛选，因此降低了朴素贝叶斯算法和情感分析语料库的数据处理量，故分析效率也得到了提升。可见本申请能够提高企业舆情分析的准确率和效率。该企业舆情分析结果也能够为监管部门提供较为真实的监管依据。

相应地，本申请提供的一种企业舆情分析装置、设备及可读存储介质，也同样具有上述技术效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请公开的第一种企业舆情分析方法流程图；

图2为本申请公开的一种企业舆情分析系统示意图；

图3为本申请公开的一种企业舆情分析装置示意图；

图4为本申请公开的一种企业舆情分析设备示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，现有技术对舆情信息的分析比较单一，导致舆情分析结果的准确性较低。为此，本申请提供了一种企业舆情分析方案，提高舆情分析结果的准确性。

参见图1所示，本申请实施例公开了一种企业舆情分析方法，包括：

S101、获取与目标企业有关联的网页信息。

在一种具体实施方式中，获取与目标企业有关联的网页信息，包括：获取目标企业的企业名称，删除企业名称中的地域属性(如中国、杭州、浙江等)、企业属性(如股份、有限、控股、责任、集团等)和经营属性(如信息、技术、科技、数字、管理、文化、传媒、网络等)，得到企业简称；利用企业简称获取网页信息，即：以企业简称作为关键字，爬取网络上与企业简称有关联的至少一个网页，组成网页信息。

S102、从网页信息中提取纯文本，并对纯文本进行分词，得到分词结果。

在一种具体实施方式中，从网页信息中提取纯文本，包括：利用jsoup技术提取网页信息中的html内容，并删除网页信息中的图片；从html内容中提取纯文本。其中，从html内容中提取纯文本之前，还包括：利用OCR(Optical Character Recognition，光学字符识别)技术识别图片中的文本信息，并将文本信息添加至纯文本中的目标位置；目标位置为图片在网页信息中的位置。

S103、基于分词结果分别提取各篇文本分别对应的分词特征，并利用卡方检验对分词特征进行筛选，以得到舆情特征。

在一种具体实施方式中，对纯文本进行分词，得到分词结果，包括：利用hanlp对纯文本进行分词，得到分词结果。Hanlp是用于自然语言处理的工具，其能够实现中文分词、关键词提取等功能。

其中，分词结果中包括中文分词、词性标注、实体识别等。

需要说明的是，与企业简称有关联的网页可能有多个，而每个网页中都可能有至少一篇文本。针对任一篇文本，计算其包括的分词特征与其预设文本特征之间的差异值，若差异值大于预设阈值，则表明这些分词特征不能较准确地表征当前文本要表达的舆情信息，故删除分词特征；否则，这些分词特征能较准确地表征当前文本要表达的舆情信息，故将分词特征确定为舆情特征。当然，若文本包括的分词特征与其预设文本特征之间的差异值大于预设阈值，则可以在文本中另外找一些分词特征计算新的差异值。

在一种具体实施方式中，利用卡方检验对分词特征进行筛选，以得到舆情特征，包括：利用卡方检验计算分词特征与相应文本的预设文本特征之间的差异值；若差异值大于预设阈值，则删除分词特征；否则，将分词特征确定为舆情特征。

可以认为预设文本特征能够准确表征文本要表达的舆情信息，其可以是文本要表达的主旨信息。预设阈值可根据文本所发布的平台的不同而取值不同。例如：个人用户平台上发表的文本可能有更明确的观点倾向，此时预设阈值可以较大，即：允许文本中的分词特征与文本要表达的主旨信息有较大的差异，以确保收集到更多不同观点的舆情信息。官方平台上发表的文本的观点倾向可能比较中立，此时预设阈值可以较小，即：不允许文本中的分词特征与文本要表达的主旨信息有较大的差异。因为官方平台上发表的文本的观点往往比较中立，因此与文本要表达的主旨信息更接近的分词特征能较好的表征该文本的主旨信息。

S104、利用朴素贝叶斯算法对舆情特征进行分类，得到分类结果，并利用情感分析语料库识别分类结果，以得到企业舆情分析结果。

其中，情感分析语料库中包括众多标注有情感色彩的语料，故若某一分类结果与某一语料最为相似，就可以认为该分类结果中所有舆情特征要表达的舆情信息就是该语料的情感色彩。

在一种具体实施方式中，还包括：存储并显示企业舆情分析结果，以便用户查询。

可见，本申请实施例获取与目标企业有关联的网页信息后，从网页信息中提取纯文本，并对纯文本进行分词，得到分词结果；然后基于分词结果分别提取各篇文本分别对应的分词特征，并利用卡方检验对分词特征进行筛选，以得到更能表征舆情走向的舆情特征；最后利用朴素贝叶斯算法对舆情特征进行分类，得到分类结果，并利用情感分析语料库识别分类结果，以得到企业舆情分析结果。其中，朴素贝叶斯算法对更能表征舆情走向的舆情特征进行分类，并利用情感分析语料库识别分类结果，因此得到的企业舆情分析结果更为准确，且由于卡方检验对分词特征进行了筛选，因此降低了朴素贝叶斯算法和情感分析语料库的数据处理量，故分析效率也得到了提升。可见本申请能够提高企业舆情分析的准确率和效率。该企业舆情分析结果也能够为监管部门提供较为真实的监管依据。

本申请实施例公开了一种企业舆情分析系统，包括：数据预处理子系统、数据采集子系统、舆情分析子系统。

其中，数据预处理子系统用于对需要进行舆情分析的各个企业的企业名称进行预处理，具体可参见图2。

预处理逻辑：

1.去除企业名称中的所有区域性属性，例如(杭州)，(上海)等。

表现形式：一般中文括号内包含地区字符。

处理方式：将区域性属性后面的所有字符全部去除，可以利用字符串“(”进行匹配。例如：阿里巴巴(中国)有限公司，直接去除(中国)之后的所有词汇，保留“阿里巴巴”。

2.去除区域名称，例如：浙江，杭州，中国等。

表现形式：一般企业名称包含区域字符。

处理方式：将区域字符全部去除，其余字符保留，可以利用中国省、市、地区的词库进行匹配，去除命中词语。例如：针对浙江大华科技有限公司，去除其中的“浙江”，得到大华科技有限公司。

3.去除企业属性词汇，例如：股份，有限，控股，集团等词汇。

表现形式：一般企业名称包含企业属性字符。

处理方式：将企业属性之后的所有字符全部去除，可以利用已知的企业属性词语进行匹配，命中企业属性词语位置，去除此位置之后的所有字符。。例如：针对浙江大华科技有限公司，去除其中的“有限公司”，得到浙江大华科技。

4.去除经营属性词汇，例如：信息，技术，科技，数字，商业，管理，文化，传媒，物业，服务，工程，咨询，企业，软件，网络，通讯，餐饮，资产等词汇。

表现形式：一般企业名称包含经营属性字符。

处理方式：将经营属性字符之后所有字符全部去除，可以利用已知的经营属性词语进行匹配，命中经营属性词语位置，去除此位置之后的所有字符。例如：针对浙江大华科技有限公司，去除其中的“科技有限公司”，得到浙江大华。

5.如果按照上述规则去除之后只剩下两个字，则找回区域属性，例如：浙江大华科技有限公司按照上述规则去除后，得到“大华”这两个字，那么将“浙江”重新添加在“大华”前面，以得到“浙江大华”，并将此作为该企业的企业简称(即企业别称)。

之后，以企业简称作为关键字，在互联网中爬取与之有关的网站内容，能够精准化企业舆论识别方向，增加检索命中率，扩充企业在互联网范围相关事件的范围。

数据采集子系统可以采集与各个企业有关的互联网中的所有舆情信息。例如微信文章，今日头条，新浪财经，百家号，中财网，新浪网，网易新闻，澎湃新闻，百度新闻等舆情内容传播平台。对互联网公开数据进行采集，并进行所有采集数据的预处理，如：去除无关符号、图案等。其目的在于：尽可能全面、及时、准确地发现企业舆情信息，并实现企业总体情况的实时动态监测，为风险监测、及时预警实现基础数据的动态积累。

其中，采集的数据内容可以按照如下格式记录：

舆情相关信息：{"新闻","新闻时间","新闻内容","新闻原页面","新闻Url","新闻来源","新闻类型"}。

舆情分析子系统包括：

页面筛选：获取到与某一企业相关的网站页面，从原始网站页面中截取首页网页和二级网页，并将相应的HTML结构和相关内容保存下来，便于后续的提取和对比。

内容提取：通过jsoup技术提取出网页中的html内容，并剔除其中的图片，将html内容保留为纯文字内容，并保留其插入图片的节点位置。针对图片，将图片按照原节点位置逐一进行OCR识别，以提取图片中的文字，并将提取出的文字重新插入纯文字内容中的相应图片的节点位置，获得完整页面文字内容。

分词与词性提取：利用感知机做序列标注任务，对页面文字内容进行中文分词、词性标注与命名实体识别。中文分词可以使用hanlp。

根据实体语义可分离出专有名词(NR)，动词(VC)，其他动词(VV)，其他名词(NN)，补语成分(DEC)，标点符号(PU)等，并将其完整语句保留作为词性关联关系。

情感分析：针对分词结果进行特征提取。特征提取指的是从所有词中，选取最有助于情感分类决策的词语。理想状态下所有词语都有助于分类决策，但现实情况是，如果将所有词语都纳入计算，则训练速度将非常慢，内存开销非常大且最终模型的体积非常大。

因此可以利用卡方检验对特征进行筛选，以得到那些最能表征情感色彩的特征，既可以降低运算量(例如限定最终特征数不超过100万)，又可保障准确率。卡方检验就是统计样本的实际观测值(即分词特征)与理论推断值(即预设文本特征)之间的偏离程度，实际观测值与理论推断值之间的偏离程度决定卡方值的大小，如果卡方值越大，二者偏差程度越大；反之，二者偏差越小；若两个值完全相等时，卡方值就为0。

针对筛选后的特征，利用朴素贝叶斯法进行分类，而后利用情感分析语料库ChnSentiCorp识别分类结果的正负面倾向，作为企业舆情分析结果。

可见，本申请可以监测与某一企业相关的舆情内容，并据此综合评定舆情内容的舆论方向，能够提高企业舆情分析的准确率和效率。该企业舆情分析结果也能够为监管部门提供较为真实的监管依据。

下面对本申请实施例提供的一种企业舆情分析装置进行介绍，下文描述的一种企业舆情分析装置与上文描述的一种企业舆情分析方法可以相互参照。

参见图3所示，本申请实施例公开了一种企业舆情分析装置，包括：

获取模块301，用于获取与目标企业有关联的网页信息；

提取模块302，用于从网页信息中提取纯文本，并对纯文本进行分词，得到分词结果；

筛选模块303，用于基于分词结果分别提取各篇文本分别对应的分词特征，并利用卡方检验对分词特征进行筛选，以得到舆情特征；

分析模块304，用于利用朴素贝叶斯算法对舆情特征进行分类，得到分类结果，并利用情感分析语料库识别分类结果，以得到企业舆情分析结果。

在一种具体实施方式中，获取模块具体用于：

获取目标企业的企业名称，删除企业名称中的地域属性、企业属性和经营属性，得到企业简称；利用企业简称获取网页信息。

在一种具体实施方式中，提取模块具体用于：

利用jsoup技术提取网页信息中的html内容，并删除网页信息中的图片；从html内容中提取纯文本。

在一种具体实施方式中，提取模块还用于：

利用OCR技术识别图片中的文本信息，并将文本信息添加至纯文本中的目标位置；目标位置为图片在网页信息中的位置。

在一种具体实施方式中，提取模块具体用于：

利用hanlp对纯文本进行分词，得到分词结果。

在一种具体实施方式中，筛选模块具体用于：

利用卡方检验计算分词特征与相应文本的预设文本特征之间的差异值；

若差异值大于预设阈值，则删除分词特征；否则，将分词特征确定为舆情特征。

在一种具体实施方式中，还包括：

存储模块，用于存储并显示企业舆情分析结果。

其中，关于本实施例中各个模块、单元更加具体的工作过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

可见，本实施例提供了一种企业舆情分析装置，该装置能够提高企业舆情分析的准确率和效率。该企业舆情分析结果也能够为监管部门提供较为真实的监管依据。

下面对本申请实施例提供的一种企业舆情分析设备进行介绍，下文描述的一种企业舆情分析设备与上文描述的一种企业舆情分析方法及装置可以相互参照。

参见图4所示，本申请实施例公开了一种企业舆情分析设备，包括：

存储器401，用于保存计算机程序；

处理器402，用于执行所述计算机程序，以实现上述任意实施例公开的方法。

下面对本申请实施例提供的一种可读存储介质进行介绍，下文描述的一种可读存储介质与上文描述的一种企业舆情分析方法、装置及设备可以相互参照。

一种可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述实施例公开的企业舆情分析方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容，在此不再进行赘述。

本申请涉及的“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法或设备固有的其它步骤或单元。

需要说明的是，在本申请中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的可读存储介质中。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种企业舆情分析方法，其特征在于，包括：

获取与目标企业有关联的网页信息；

2.根据权利要求1所述的企业舆情分析方法，其特征在于，所述获取与目标企业有关联的网页信息，包括：

利用所述企业简称获取所述网页信息。

3.根据权利要求1所述的企业舆情分析方法，其特征在于，所述从所述网页信息中提取纯文本，包括：

从所述html内容中提取所述纯文本。

4.根据权利要求3所述的企业舆情分析方法，其特征在于，所述从所述html内容中提取所述纯文本之前，还包括：

5.根据权利要求1所述的企业舆情分析方法，其特征在于，所述对所述纯文本进行分词，得到分词结果，包括：

利用hanlp对所述纯文本进行分词，得到所述分词结果。

6.根据权利要求1所述的企业舆情分析方法，其特征在于，所述利用卡方检验对所述分词特征进行筛选，以得到舆情特征，包括：

7.根据权利要求1至6任一项所述的企业舆情分析方法，其特征在于，还包括：

存储并显示所述企业舆情分析结果。

8.一种企业舆情分析装置，其特征在于，包括：

获取模块，用于获取与目标企业有关联的网页信息；

9.一种企业舆情分析设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1至7任一项所述的企业舆情分析方法。

10.一种可读存储介质，其特征在于，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的企业舆情分析方法。