CN113918794A

CN113918794A - 企业网络舆情效益分析方法、系统、电子设备及存储介质

Info

Publication number: CN113918794A
Application number: CN202111513711.5A
Authority: CN
Inventors: 吴敦; 孙华; 张裕洲; 徐央杰; 费佳宁; 顾家慧; 王倩
Original assignee: Baolue Technology Zhejiang Co ltd
Current assignee: Baolue Technology Zhejiang Co ltd
Priority date: 2021-12-13
Filing date: 2021-12-13
Publication date: 2022-01-11
Anticipated expiration: 2041-12-13
Also published as: CN113918794B

Abstract

本发明提供了企业网络舆情效益分析方法、系统、电子设备及存储介质，涉及网络技术领域，本方法包括步骤：S1：通过网络爬虫在互联网上获取目标企业的营业执照信息，并对所述目标企业的营业执照信息的合法性进行验证；S2：通过Scrapy‑Redis架构进行分布式实时爬取与所述目标企业的营业执照信息相对应的互联网舆情信息，得到目标企业的多源数据舆情信息；Scrapy‑Redis架构由舆情获取控制节点和舆情爬取节点构成。本方法能够对目标区域内的企业的网络舆情进行实时同步抓取，并针对企业相关舆情做出可信度判定，同时将正面舆情和负面舆情与企业的关联度进行分析。

Description

企业网络舆情效益分析方法、系统、电子设备及存储介质

技术领域

本发明涉及网络技术领域，具体而言，涉及企业网络舆情效益分析方法、系统、电子设备及存储介质。

背景技术

企业舆情是“企业舆论情况”的简称，是指在一定的社会空间内，围绕某一企业事件的发生、发展和变化，对事件所持有的信念、态度、意见和情绪等表达的集合。它包括舆论和公众对有关企业的任何话题的讨论、报道和反映。对企业来说，有效地监测，第一时间了解，并及时的处理企业在网络上的相关信息就显得尤为重要，特别是利用企业舆情监测，第一时间最快速预警负面舆情，及时发现和处理企业的负面信息，保持企业的健康良好形象。近年来，企业舆情应对能力不足，舆情预警滞后，这些都造成了舆情危机处置困难重重，造成企业形象被破坏，给企业的发展带来极大的负面影响。

发明内容

本发明解决的问题是如何对目标区域内的企业的网络舆情进行实时同步抓取，并针对企业相关舆情做出可信度判定，来克服企业舆情应对能力不足的缺陷；将正面舆情和负面舆情与企业的关联度进行分析，来克服舆情预警滞后的缺陷。

为解决上述问题，本发明提供企业网络舆情效益分析方法，包括步骤：

S1：通过网络爬虫在互联网上获取目标企业的营业执照信息，并对所述目标企业的营业执照信息的合法性进行验证；

S2：通过Scrapy-Redis架构分布式实时爬取与所述目标企业的营业执照信息相对应的互联网舆情信息，得到目标企业的多源数据舆情信息；所述Scrapy-Redis架构由舆情获取控制节点和舆情爬取节点构成；

S3：根据所述目标企业的多源数据舆情信息，构建分布式Beautiful_Soup-Lxml架构，并对所述目标企业的多源数据舆情信息进行文本解析提取，得到舆情信息的来源网站信息；

S4：调取CAC互联网新闻信息服务单位许可信息；根据所述舆情信息的来源网站信息与所述CAC互联网新闻信息服务单位许可信息进行可信度验证；

S5：基于SVM-CN-DBpedia构建企业网络舆情分词库；新建并配置Libsvm，构建所述企业网络舆情分词库的深度学习模型；

S6：利用可信度验证后的所述目标企业的多源数据舆情信息生成训练样本集，将所述训练样本集输入到步骤S5的所述深度学习模型中，经过Libsvm的向量特征提取分析，得到定义为正面的舆情分析结果和负面的舆情分析结果；

S7：根据步骤S6得到的所述目标企业的多源数据舆情信息、所述正面的舆情分析结果和所述负面的舆情分析结果，搭建企业的网络舆情分析展示平台。

上述方法中，验证目标企业的营业执照信息是否合法，剔除其中不合法的目标企业、合并目标企业各种称谓及各级分公司的信息，提高抓取效率及全面性；目标采用Scrapy-Redis架构进行分布大范围的爬取、监测和自动化测试；其中，舆情获取控制节点管理多个分布式舆情爬取节点，多个舆情爬取节点则从舆情获取控制节点获取舆情信息爬取任务，并完成爬取任务；通过slaver部署爬虫提取网页、解析提取数据和存储数据，实现多个spider对多个URL的同时处理操作，实现同时对大量目标企业互联网舆情的快速分布式爬取，极大提高抓取效率。

上述方法中，构建企业的实时舆情效益分析展示平台采用React技术架构采用虚拟DOM加DIFF算法，从而减少DOM操作来提高渲染性能，虚拟DOM解决了跨浏览器问题；通过反馈值为0或1的函数来更新模型训练，实现深度学习模型的不断迭代，其中，0表示错误，1表示正确。

进一步地，所述步骤S3中对所述目标企业的多源数据舆情信息进行文本解析提取包括：

S31：在每个所述舆情爬取节点中搭建一个Beautiful_Soup-Lxml架构，运用Beautiful_Soup将所述舆情信息的来源网站信息的文本转换为HTML源代码，Beautiful_Soup通过读取HTML源代码，进行解析并产生一个包含整个HTML文件的树结构，通过树结构搜索舆情字段信息；

S32：当Beautiful_Soup架构在爬取过程报错且无法正确解析所述目标企业的多源数据舆情信息时，运行Lxml架构；生成Element核心类，Element对象是爬取所述目标企业的多源数据舆情信息的节点；指定HTML文件名，读取HTML文件并识别HTML节点的树结构；设置状态使Lxml加载一个命名的HTML元素并枚举HTML元素的属性和子元素；

S33：通过Unicode编码将所述舆情信息的来源网站信息输出为utf-8编码的舆情信息的来源网站信息文档。

进一步地，所述步骤S4中完成舆情信息的来源网站信息的可信度验证包括：

S41：通过Scrapy-Redis架构对CAC数据库中的信息进行分布式抓取，得到所述CAC互联网新闻信息服务单位许可信息；

S42：通过Beautiful_Soup-Lxml技术架构，对爬取的所述CAC互联网新闻信息服务单位许可信息进行文本解析提取，并通过Unicode编码将所述CAC互联网新闻信息服务单位许可信息输出为utf-8编码的CAC互联网新闻信息服务单位许可信息文档；

S43：将所述舆情信息的来源网站信息文档与所述CAC互联网新闻信息服务单位许可信息文档进行匹配，完成舆情来源的可信度验证。

上述方法中，采用的CAC互联网新闻信息服务单位许可核对，实现对互联网舆情来源进行核对，确认了互联网舆情的可信度。

进一步地，所述步骤S5中依据SVM-CN-DBpedia构建企业网络舆情分词库包括：

S51：新建并配置词库CN-DBpedia的API，输入实体指称项名称，返回格式为json格式的对应实体列表；

S52：访问URL，输入请求参数；其中，所述请求参数包括实体指称项名称和开发者的访问密钥；

S53：当服务器成功返回结果后，构建所述企业网络舆情分词库。

企业网络舆情效益分析系统，包括第一爬取模块、第一验证服务器、第二爬取模块、解析提取模块、第二验证服务器、企业网络舆情分词库和企业舆情分析结果展示平台，其中，

所述第一爬取模块：使用/利用网络爬虫爬取目标企业的营业执照信息，

所述第一验证服务器：用于对所述目标企业的营业执照信息的合法性进行验证；

所述第二爬取模块：包括由舆情获取控制节点和舆情爬取节点构成的Scrapy-Redis架构，通过所述Scrapy-Redis架构进行分布式实时爬取与所述目标企业的营业执照信息相对应的互联网舆情信息，得到目标企业的多源数据舆情信息；所述第二爬取模块还用于通过所述Scrapy-Redis架构获取CAC互联网新闻信息服务单位许可信息；

所述解析提取模块：根据所述目标企业的多源数据舆情信息构建分布式Beautiful_Soup-Lxml架构，并对所述目标企业的多源数据舆情信息进行文本解析提取，得到舆情信息的来源网站信息；

所述第二验证服务器：用于对所述舆情信息的来源网站信息与所述CAC互联网新闻信息服务单位许可信息进行可信度验证；

所述企业网络舆情分词库基于SVM-CN-DBpedia构建；通过新建并配置Libsvm搭建所述企业网络舆情分词库的深度学习模型，所述深度学习模型的输入为所述第二验证服务器验证后的所述目标企业的多源数据舆情信息所生成的训练样本集，所述深度学习模型通过Libsvm对输入的训练样本集进行向量特征提取分析，所述深度学习模型的输出为正面的舆情分析结果和负面的舆情分析结果；

所述企业舆情分析结果展示平台用于展示目标企业的多源数据舆情信息、正面的舆情分析结果和负面的舆情分析结果。

进一步地，所述解析提取模块包括：

文本转换解析单元：用于在每个所述舆情爬取节点中搭建一个Beautiful_Soup-Lxml架构，运用Beautiful_Soup将所述舆情信息的来源网站信息的文本转换为HTML源代码，Beautiful_Soup通过读取HTML源代码，进行解析并产生一个包含整个HTML文件的树结构，通过树结构搜索舆情字段信息；

报错校正单元：当Beautiful_Soup架构在爬取过程报错且无法正确解析所述目标企业的多源数据舆情信息时，运行Lxml架构；生成Element核心类，Element对象是爬取所述目标企业的多源数据舆情信息的节点；指定HTML文件名，则会读取HTML文件并识别HTML节点的树结构；设置状态使Lxml加载一个命名的HTML元素并枚举HTML元素的属性和子元素；

第一编码单元：通过Unicode编码将所述舆情信息的来源网站信息输出为utf-8编码的舆情信息的来源网站信息文档。

进一步地，所述第二爬取模块还包括：

爬取单元：通过Scrapy-Redis架构对CAC数据库中的信息进行分布式抓取，得到所述CAC互联网新闻信息服务单位许可信息；

第二编码单元：通过Beautiful_Soup-Lxml技术架构，对爬取的所述CAC互联网新闻信息服务单位许可信息进行文本解析提取，并通过Unicode编码将所述CAC互联网新闻信息服务单位许可信息输出为utf-8编码的CAC互联网新闻信息服务单位许可信息文档；

验证单元：用于将所述舆情信息的来源网站信息文档与所述CAC互联网新闻信息服务单位许可信息文档进行匹配，完成舆情来源的可信度验证。

进一步地，所述企业网络舆情分词库包括：

配置单元：用于新建并配置词库CN-DBpedia的API，输入实体指称项名称，返回格式为json格式的对应实体列表；

访问输入单元：用于访问URL，输入请求参数；其中，请求参数包括实体指称项名称和开发者的访问密钥；

返回单元：当服务器成功返回结果后，构建所述企业网络舆情分词库。

一种电子设备，所述电子设备包括：

存储器：用于存储可执行指令；

处理器：用于运行所述存储器存储的可执行指令时，实现企业网络舆情效益分析方法。

一种计算机可读存储介质，存储有可执行指令，所述可执行指令被处理器执行时实现企业网络舆情效益分析方法。

本发明采用上述技术方案包括以下有益效果：

本发明采用Scrapy-Redis架构进行分布大范围的爬取、监测和自动化测试；架构由舆情获取控制节点和舆情爬取节点构成；舆情获取控制节点管理多个分布式舆情爬取节点，多个舆情爬取节点则从舆情获取控制节点获取舆情信息爬取任务，并完成爬取任务，slaver部署爬虫提取网页、解析提取数据和存储数据，实现多个spider对多个URL的同时处理操作，实现同时对大量目标企业互联网舆情进行实时快速的分布式爬取，极大提高了抓取效率，提高企业获取舆情信息的及时性。采用的CAC互联网新闻信息服务单位许可核对，实现对互联网舆情来源的合法性进行验证，确认互联网舆情的可信度。在每个爬取服务器的舆情爬取节点下构建一个基于SVM-CN-DBpedia的深度学习模型，并对深度学习模型进行训练，经过Libsvm向量特征提取分析，帮助企业准确定位可信的正面舆情与负面舆情，解决了目前企业舆情预警滞后、应对不足的问题。

附图说明

图1为本发明实施例一提供的企业网络舆情效益分析方法流程图一；

图2为本发明实施例一提供的企业网络舆情效益分析方法流程图二；

图3为本发明实施例二提供的企业网络舆情效益分析系统结构图一；

图4为本发明实施例二提供的企业网络舆情效益分析系统结构图二；

图5为本发明实施例提供的企业网络舆情效益分析方法的分布式爬取舆情信息架构技术原理图；

图6为本发明实施例提供的企业网络舆情效益分析方法的数据处理方法的流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

以下是本发明的具体实施例并结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于这些实施例。

实施例一

本实施例提供了企业网络舆情效益分析方法，如图1和图2所示，本方法包括步骤：

具体的，验证目标企业的营业执照信息是否合法，剔除其中不合法的目标企业，提高抓取效率及全面性；目标采用Scrapy-Redis架构进行分布大范围的爬取、监测和自动化测试；其中，舆情获取控制节点管理多个分布式舆情爬取节点，多个舆情爬取节点则从舆情获取控制节点获取舆情信息爬取任务，并完成爬取任务；通过slaver部署爬虫提取网页、解析提取数据和存储数据，实现多个spider对多个URL的同时处理操作，实现同时对大量目标企业互联网舆情的快速分布式爬取，极大提高抓取效率。

具体的，构建企业的实时舆情效益分析展示平台采用React技术架构采用虚拟DOM加DIFF算法，从而减少DOM操作来提高渲染性能，虚拟DOM解决了跨浏览器问题；通过反馈值为0或1的函数来更新模型训练，实现深度学习模型的不断迭代，其中，0表示错误，1表示正确。

具体的，步骤S2中爬取目标企业互联网舆情信息包括搜索来自百度、搜狗、必应的企业互联网舆情。主要使用Scrapy-Redis架构实现快速分布大批量式爬取、监测和自动化测试。整个架构系统由舆情获取控制节点和舆情爬取节点构成；舆情获取控制节点管理多个分布式舆情爬取节点，多个舆情爬取节点则从舆情获取控制节点获取舆情信息爬取任务，并完成爬取任务。

其中，步骤S3中对目标企业的多源数据舆情信息进行文本解析提取包括：

S31：在每个舆情爬取节点中搭建一个Beautiful_Soup-Lxml架构，运用Beautiful_Soup将舆情信息的来源网站信息的文本转换为HTML源代码，Beautiful_Soup通过读取HTML源代码，进行解析并产生一个包含整个HTML文件的树结构，通过树结构搜索舆情字段信息；

S32：当Beautiful_Soup架构在爬取过程报错且无法正确解析目标企业的多源数据舆情信息时，运行Lxml架构；生成Element核心类，Element对象是爬取目标企业的多源数据舆情信息的节点；指定HTML文件名，读取HTML文件并识别HTML节点的树结构；设置状态使Lxml加载一个命名的HTML元素并枚举HTML元素的属性和子元素；

S33：通过Unicode编码将舆情信息的来源网站信息输出为utf-8编码的舆情信息的来源网站信息文档；

其中，步骤S4中完成舆情信息的来源网站信息的可信度验证包括：

S41：通过Scrapy-Redis架构对CAC数据库中的信息进行分布式抓取，得到CAC互联网新闻信息服务单位许可信息；

S42：通过Beautiful_Soup-Lxml技术架构，对爬取的CAC互联网新闻信息服务单位许可信息进行文本解析提取，并通过Unicode编码将CAC互联网新闻信息服务单位许可信息输出为utf-8编码的CAC互联网新闻信息服务单位许可信息文档；

S43：将舆情信息的来源网站信息文档与所述CAC互联网新闻信息服务单位许可信息文档进行匹配，完成舆情来源的可信度验证。

具体的，通过调取CAC数据库，对比舆情信息内容提取的信息来源网站，验证该网站是否进入互联网新闻信息服务单位许可库中，确定舆情来源可信度。

进入CAC网站互联网新闻信息服务单位许可信息页，使用Scrapy-Redis技术架构进行分布式抓取CAC网站互联网新闻信息服务单位许可信息。

使用分布式Beautiful_Soup-Lxml技术架构，对爬取的网站互联网新闻信息服务单位许可信息进行文本解析提取，并通过Unicode编码将网页内容输出为utf-8编码的文档。

将爬取解析的目标企业网络舆情信息的来源网站与爬取解析的CAC互联网新闻信息服务单位许可库进行匹配，完成舆情来源可信度验证。

参阅图5，具体的，每个爬取服务器由任务调度器、数据列队通道、爬取器、下载容器构成，其中：

任务调度器是用于接收搜索引擎发出的请求信息,将请求信息压入到队列中,并在搜索引擎再次发出请求信息的时候返回，该队列是一个抓取网页的网址或者链接的优先队列，由它来决定下一个要抓取的网址是什么，同时去除重复的网址。

下载容器是用于下载目标爬取网页的相关内容，并将网页内容返回给建立在高效的异步模型上的下载器。

爬取器是用于从特定的目标网页中提取爬虫任务需要的信息，同时也支持用户从目标网页上提取链接，让任务调度器继续爬取下一个目标链接的页面。

数据列队通道是负责处理爬取器从目标网页中抽取的所需信息，主要的功能是持久化实体、验证实体的有效性、清除不需要的信息，当页面被爬取器解析后，将被发送到数据列队通道，并经过几个特定的次序处理数据。

下载中介是介于搜索引擎和下载容器之间的框架，主要是处理搜索引擎与下载容器之间的爬取任务请求及爬取器的响应。

爬取中介是介于搜索引擎和爬取器之间的框架，主要工作是处理爬取器的响应输入和请求输出。

任务中介是介于搜索引擎和任务调度器之间的中间件，从搜索引擎发送爬取任务请求和响应到任务调度器。

其中，舆情获取控制节点为Scrapy-Redis架构构建下的主状态管理器，舆情爬取节点为Scrapy-Redis架构构建下的爬取服务器，主状态管理器连接多个爬取服务器。

具体的，由舆情获取控制节点和多个分布式舆情爬取节点分布式爬取目标企业互联网舆情信息，包括搜索爬取来自百度、搜狗、必应的企业互联网舆情。

其中，步骤S5中依据SVM-CN-DBpedia构建企业网络舆情分词库包括：

S52：访问URL，输入请求参数；其中，请求参数包括实体指称项名称和开发者的访问密钥；

S53：当服务器成功返回结果后，构建企业网络舆情分词库。

具体的，使用的分布式基于SVM（分类方法）-CN-DBpedia（知识图谱）构建的企业网络舆情分词库，新建并配置词库CN-DBpedia的API（应用程序编程接口），输入实体指称项名称，返回格式为json格式的对应实体的列表；访问URL（统一资源定位符），输入请求参数，如实体指称项名称和开发者的访问密钥；服务器成功返回结果后，构建企业网络舆情分词库；根据企业网络舆情分词库，输出构建utf-8编码的企业网络舆情分词库；新建并配置Libsvm（数据保存格式），根据utf-8编码的企业网络舆情分词库构建深度学习模型。

具体的，对深度学习模型进行训练：

根据可信度验证后的所述目标企业的多源数据舆情信息生成训练样本集，将所述训练样本集输入到步骤S5的所述深度学习模型中，经过Libsvm的向量特征提取分析，得到定义为正面的舆情分析结果和负面的舆情分析结果，即获得深度学习模型的输出结果。

参阅图6，具体的，根据爬取的目标企业多源网络舆情数据，对爬取的信息数据进行文本解析提取。

在每个舆情爬取节点中搭建一个Beautiful_Soup-Lxml架构，并在构建下的爬取服务器舆情爬取节点，运用Beautiful_Soup技术将目标互联网舆情网页的文本转换为源代码，Beautiful_Soup通过读取HTML源代码，自动进行解析并产生一个BeautifulSoup物件，此物件中包含了整个HTML文件的树结构,通过树结构可以搜索查找需要的舆情字段信息。

最终通过Unicode编码将网页内容输出为utf-8编码的文档。

其中，步骤S7中的搭建企业的网络舆情分析展示平台采用React(用于创建Web用户交互界面）技术架构。

具体的，构建企业的网络舆情分析展示平台；相比其他Web网络应用程序，如Ember、Angular、Vue等，本发明采用的React技术架构并不直接对DOM进行操作，引入虚拟DOM在javascript（运行在客户端的脚本语言）中，大大加快了运行速度。虚拟DOM 提供标准化的API，解决了跨浏览器问题。React技术架构使用组件化代码，增加代码可重复使用性和后期维护性。React使用RequireJS，Browserify和Webpack构建应用，增加了不同场景规模下的兼容性。

目前，中国国内企业网络舆情风险一般以文本形式展示，基于企业的网络舆情进行不同时间尺度范围内的风险量化标准及分级评估甚少。因此有效地监测，特别是利用企业舆情监测，及时进行不同时间尺度上的网络舆情评估分析，对保持企业的健康良好形象尤为重要。

本发明中，还包括将步骤S7中完成判断的互联网舆情数据分析结果进行时间序列自适应分析,具体包括：

S71：定义获取的企业网络舆情的负面的舆情分析结果中，法律诉讼权重为

，司法处罚权重为

，行政处罚权重为

，负面新闻权重为

；

S72：定义获取的企业网络舆情的负面的舆情分析结果中，给定时间尺度（比如每天）下法律诉讼数量为

，司法处罚数量为

，行政处罚数量为

，负面新闻数量为

；

S73：给定时间尺度下的数据平稳性检测，公式如下：

公式（1）；

具体的，公式（1）中，

表示为第t天的企业负面网络舆情（比如负面新闻）的数量，

表示为截距常数，

表示为第t天的时间趋势的系数，

表示为第t-1天的企业负面网络舆情数量，

表示为第t-1天的时间趋势系数，并以此类推；

表示为该时间尺度下（比如每天）负面网络舆情数量的自回归的滞后阶数；令α=0及β=0，对应于对随机时间尺度建模；

若

始终在某一常数的正负范围内波动，则表明该时间序列数据稳定；若

常数展示出类线性的正相关或负相关，则表明该时间序列数据不稳定；对于不稳定的时间序列，进行对数转换；

S74：基于稳定的时间序列数据，在给定的时间尺度下对企业互联网舆情建立Poisson分布连接的自适应风险分析模型，公式如下：

公式（2）；

具体的，公式（2）中，

表示为

连接函数，

表示为第t天的互联网舆情风险值，

表示为截距常数，

表示为B样条函数，

表示为自由度函数，在这里

定义为3，

表示为时间序列的单位间距（比如每天）；

S75：基于时间序列舆情风险值，建立给定时间范围尺度下的企业网络舆情风险指数分级，定义为基于每个时间序列单位（比如每天），确定风险指数分布在25百分位点、50百分位点和75百分位点所对应的互联网舆情风险值，划分为4个区间，分别定义为低风险时段、中风险时段、中高风险时段和高风险时段。

具体的，提供一种面向兼容长短时间范围尺度的企业网络舆情风险自适应分析方法，将完成判断的互联网舆情数据进行风险时间序列转化和分析，形成时间尺度范围内的企业互联网舆情自适应分析，生成兼容不同时间尺度下的企业互联网舆情风险量化标准及风险分级。

本发明通过分布式实时爬取与目标企业的互联网舆情信息并使用分布式深度学习模型，通过核函数解决非线性的分类，达到分类效果最优化，基于企业的网络舆情数据进行风险时间序列转化和分析，形成时间尺度范围内的企业互联网舆情自适应分析，该方法输出兼容不同时间尺度下的企业互联网舆情风险量化标准及风险分级。

具体的，使用分布式Scrapy-Redis架构，采用主从结构，实现多个spider对多个URL的同时处理操作，实现同时对大量目标企业互联网舆情的快速分布式爬取，极大提高程序的抓取效率。采用的CAC互联网新闻信息服务单位许可核对，实现对互联网舆情来源进行核对，确认了互联网舆情的可信度。使用的分布式基于SVM-CN-DBpedia的深度学习模型，通过核函数解决了非线性的分类，达到分类效果最优化。基于企业的网络舆情进行企业互联网舆情风险时间序列转化和分析，形成时间尺度范围内的企业互联网舆情自适应分析，有助于生成兼容不同时间尺度下的企业互联网舆情风险量化标准及风险分级。

本实施例提供了一种电子设备，电子设备包括：

存储器：用于存储可执行指令；

处理器：用于运行存储器存储的可执行指令时，实现企业网络舆情效益分析方法。

本实施例提供了一种计算机可读存储介质，存储有可执行指令，可执行指令被处理器执行时实现企业网络舆情效益分析方法。

本方法采用Scrapy-Redis架构进行分布大范围的爬取、监测和自动化测试；架构由舆情获取控制节点和舆情爬取节点构成；舆情获取控制节点管理多个分布式舆情爬取节点，多个舆情爬取节点则从舆情获取控制节点获取舆情信息爬取任务，并完成爬取任务，slaver部署爬虫提取网页、解析提取数据和存储数据，实现多个spider对多个URL的同时处理操作，实现同时对大量目标企业互联网舆情进行实时快速的分布式爬取，极大提高了抓取效率，提高企业获取舆情信息的及时性。采用的CAC互联网新闻信息服务单位许可核对，实现对互联网舆情来源的合法性进行验证，确认互联网舆情的可信度。在每个爬取服务器的舆情爬取节点下构建一个基于SVM-CN-DBpedia的深度学习模型，并对深度学习模型进行训练，经过Libsvm向量特征提取分析，帮助企业准确定位可信的正面舆情与负面舆情，解决了目前企业舆情预警滞后、应对不足的问题。

实施例二

本实施例提供了企业网络舆情效益分析系统，如图3和图4所示，本系统包括第一爬取模块、第一验证服务器、第二爬取模块、解析提取模块、第二验证服务器、企业网络舆情分词库和企业舆情分析结果展示平台，其中，

第一爬取模块：使用/利用网络爬虫爬取目标企业的营业执照信息，

第一验证服务器：用于对目标企业的营业执照信息的合法性进行验证；

第二爬取模块：包括由舆情获取控制节点和舆情爬取节点构成的Scrapy-Redis架构，通过Scrapy-Redis架构进行分布式实时爬取与目标企业的营业执照信息相对应的互联网舆情信息，得到目标企业的多源数据舆情信息；第二爬取模块还用于通过Scrapy-Redis架构获取CAC互联网新闻信息服务单位许可信息；

解析提取模块：根据目标企业的多源数据舆情信息构建分布式Beautiful_Soup-Lxml架构，并对目标企业的多源数据舆情信息进行文本解析提取，得到舆情信息的来源网站信息；

第二验证服务器：用于对舆情信息的来源网站信息与CAC互联网新闻信息服务单位许可信息进行可信度验证；

企业网络舆情分词库基于SVM-CN-DBpedia构建；通过新建并配置Libsvm搭建企业网络舆情分词库的深度学习模型，深度学习模型的输入为第二验证服务器验证后的目标企业的多源数据舆情信息所生成的训练样本集，深度学习模型通过Libsvm对输入的训练样本集进行向量特征提取分析，深度学习模型的输出为正面的舆情分析结果和负面的舆情分析结果；

其中，解析提取模块包括：

文本转换解析单元：用于在每个舆情爬取节点中搭建一个Beautiful_Soup-Lxml架构，运用Beautiful_Soup将舆情信息的来源网站信息的文本转换为HTML源代码，Beautiful_Soup通过读取HTML源代码，进行解析并产生一个包含整个HTML文件的树结构，通过树结构搜索舆情字段信息；

报错校正单元：当Beautiful_Soup架构在爬取过程报错且无法正确解析所述目标企业的多源数据舆情信息时，运行Lxml架构；生成Element核心类，Element对象是爬取目标企业的多源数据舆情信息的节点；指定HTML文件名，则会读取HTML文件并识别HTML节点的树结构；设置状态使Lxml加载一个命名的HTML元素并枚举HTML元素的属性和子元素；

第一编码单元：通过Unicode编码将舆情信息的来源网站信息输出为utf-8编码的舆情信息的来源网站信息文档。

其中，第二爬取模块还包括：

爬取单元：通过Scrapy-Redis架构对CAC数据库中的信息进行分布式抓取，得到CAC互联网新闻信息服务单位许可信息；

第二编码单元：通过Beautiful_Soup-Lxml技术架构，对爬取的CAC互联网新闻信息服务单位许可信息进行文本解析提取，并通过Unicode编码将CAC互联网新闻信息服务单位许可信息输出为utf-8编码的CAC互联网新闻信息服务单位许可信息文档；

验证单元：用于将舆情信息的来源网站信息文档与所述CAC互联网新闻信息服务单位许可信息文档进行匹配，完成舆情来源的可信度验证。

其中，企业网络舆情分词库包括：

返回单元：当服务器成功返回结果后，构建企业网络舆情分词库。

本系统中通过第一爬取模块采用Scrapy-Redis架构进行分布大范围的爬取、监测和自动化测试；架构由舆情获取控制节点和舆情爬取节点构成；舆情获取控制节点管理多个分布式舆情爬取节点，多个舆情爬取节点则从舆情获取控制节点获取舆情信息爬取任务，并完成爬取任务，slaver部署爬虫提取网页、解析提取数据和存储数据，实现多个spider对多个URL的同时处理操作，实现同时对大量目标企业互联网舆情进行实时快速的分布式爬取，极大提高了抓取效率，提高企业获取舆情信息的及时性。第二爬取模块获取CAC互联网新闻信息服务单位许可信息进行核对，实现对互联网舆情来源的合法性进行验证，确认互联网舆情的可信度。在每个爬取服务器的舆情爬取节点下构建一个基于SVM-CN-DBpedia的深度学习模型，并对深度学习模型进行训练，经过Libsvm向量特征提取分析，帮助企业准确定位可信的正面舆情与负面舆情，解决了目前企业舆情预警滞后、应对不足的问题。

虽然本公开披露如上，但本公开的保护范围并非仅限于此。本领域技术人员，在不脱离本公开的精神和范围的前提下，可进行各种变更与修改，这些变更与修改均将落入本发明的保护范围。

Claims

1.企业网络舆情效益分析方法，其特征在于，包括步骤：

2.根据权利要求1所述的企业网络舆情效益分析方法，其特征在于，所述步骤S3中对所述目标企业的多源数据舆情信息进行文本解析提取包括：

3.根据权利要求2所述的企业网络舆情效益分析方法，其特征在于，所述步骤S4中完成舆情信息的来源网站信息的可信度验证包括：

4.根据权利要求1所述的企业网络舆情效益分析方法，其特征在于，所述步骤S5中依据SVM-CN-DBpedia构建企业网络舆情分词库包括：

5.企业网络舆情效益分析系统，其特征在于，包括第一爬取模块、第一验证服务器、第二爬取模块、解析提取模块、第二验证服务器、企业网络舆情分词库和企业舆情分析结果展示平台，其中，

6.根据权利要求5所述的企业网络舆情效益分析系统，其特征在于，所述解析提取模块包括：

7.根据权利要求6所述的企业网络舆情效益分析系统，其特征在于，所述第二爬取模块还包括：

8.根据权利要求5所述的企业网络舆情效益分析系统，其特征在于，所述企业网络舆情分词库包括：

9.一种电子设备，其特征在于，所述电子设备包括：

存储器：用于存储可执行指令；

处理器：用于运行所述存储器存储的可执行指令时，实现权利要求1至4任一项所述的企业网络舆情效益分析方法。

10.一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现权利要求1至4任一项所述的企业网络舆情效益分析方法。