CN114443926A

CN114443926A - 基于网络爬虫技术的电力营商环境信息采集系统

Info

Publication number: CN114443926A
Application number: CN202111612380.0A
Authority: CN
Inventors: 燕跃豪; 宋建辉; 鲍薇; 孙晨光; 李连卷; 原征; 韩丽; 陈起
Original assignee: Henan Yuhui Energy Technology Co ltd; State Grid Henan Electric Power Co Zhengzhou Power Supply Co; Zhengzhou University; State Grid Corp of China SGCC
Current assignee: Henan Yuhui Energy Technology Co ltd; State Grid Henan Electric Power Co Zhengzhou Power Supply Co; Zhengzhou University; State Grid Corp of China SGCC
Priority date: 2021-12-27
Filing date: 2021-12-27
Publication date: 2022-05-06

Abstract

本发明公开了一种基于网络爬虫技术的电力营商环境信息采集系统，包括信息采集模块、网页处理及下载模块、数据储存和展示模块，信息采集模块是整个爬虫系统实现的基础，输入关键词，它就会在模拟浏览器向万维网发送HTTP请求，检索包含这些关键字的信息，信息采集模块获得的只包含所需要采集网页的标题和链接，为了查看数据，需要对网页进行处理和下载，将下载下来的HTML文件装换为PDF文件，文件转换使用Adobe Acrobat DC软件完成。本发明可以根据电力从业者的使用要求来制定不同的爬取要求，根据使用者输入的关键字，向互联网发送请求，找到相关的信息的URL，然后在对这些URL进行处理，实现以高效便捷的方式爬取需要的相关数据，以便显著提高爬虫的速度，具有很好的推广应用价值。

Description

基于网络爬虫技术的电力营商环境信息采集系统

技术领域：

本发明涉及互联网信息采集技术领域，更具体地说，涉及一种基于网络爬虫技术的电力营商环境信息采集系统。

背景技术：

随着信息技术的快速发展，人类已经步入了大数据、云信息时代。目前全球网页总数已经超过了20亿，而且每天仍在以730万的数量不断增加。如此海量的信息里面包含了许多有价值的信息，但是如何找出这些信息中的价值就像大海捞针一样困难。

在我国的电网行业中，同样需要处理海量的信息量。我们需要从万维网上筛选出和电力营商环境相关的信息，并对这些信息进行处理，根据处理结果制定相应的执行方案。电力产业作为关系到国民经济的重要行业，积极应用相关技术推动其优化发展，是产业发展的必然趋势。

解决数据爆炸式增长带来的技术难题，网络爬虫技术应运而生。网络爬虫是一个自动下载网页的计算机程序（自动化脚本），能够从一个称之为种子集的URL集合中展开运行流程。具体来讲，它会将URL集合中的所有URL全部放入到某一个有序的待爬行队列中，按照一定顺序从中提取URL下被指定网页的页面，同时分析页面内容，最后提取新的URL并存入待爬行URL队列中，如此反复，直到URL队列为空或满足某一爬行终止条件，实现用户对Web的有效浏览。

目前在爬虫技术的广泛应用下，并没有相关技术公开利用网络爬虫技术进行电力信息数据的采集应用，并且现有的网络爬虫技术或者系统，仅具有网络数据爬取的功能，缺乏对爬取后的数据进行组织，并提供服务的功能，其很难在业内进行大范围的应用。

发明内容：

本发明所要解决的技术问题是：克服现有技术的不足，提供一种基于网络爬虫技术的电力营商环境信息采集系统，按操作人员制定的规则爬取相关的信息，并对这些信息进行相应的处理和储存。

本发明解决其技术问题所采用的技术方案是：

一种基于网络爬虫技术的电力营商环境信息采集系统，包括以下模块：

A、信息采集模块：

信息采集模块是整个爬虫系统实现的基础，它的原理类似于浏览器搜索引擎，输入需要搜索的关键词，它就会在模拟浏览器向万维网发送HTTP请求，检索包含这些关键字的信息，并将包含这些信息的网页的URL和该网页的标题下载下来，在这个过程中，通过设置，让其只检索在某一个时间段更新的网页，提高检索的效率和保证检索信息的时效性，当满足要求的网页都检索完成后，再将下载下来的结果储存在一个excel表格里；

B、网页处理及下载模块：

信息采集模块获得的只包含所需要采集网页的标题和链接，为了方便查看数据，需要对网页进行处理和下载，这一过程包括网页解析模块、网页过滤模块、预处理模块和网页分析模块：

①网页解析模块：该模块是衔接其他模块的中枢，是整个爬虫系统的主要部分，它提取采集的HTML形式网页中的重要信息链接、文本，同时利用获取的内容信息为后期网页的主题相关度计算作铺垫；

②网页过滤模块：该模块用来筛选与主题有关的URL，通过筛选抓取与主题相关的页面，确保主题爬虫系统的准确率；

③预处理模块：该模块将网页解析模块获取的网页内容信息进行处理，通过对文本分词、去停用词、词干化等预处理，将文本内容转换为计算机能够识别的数学模型，为后期主题网络爬虫中网页分析模块进行主题相似度计算做准备；

④网页分析模块：该模块是主题爬虫的核心，分为两部分:第一部分是主题相关度判断，用于判断网页的主题相关性；第二部分是主题相关度预测，预测网页URL与主题相关度，通过搜索策略，优先访问与主题相关的URL；

通过以上几个步骤的处理后下载下来的网页就是一个HTML文件，在不联网的情况下依然可以查看里面的内容，而且下载下来的网页里面包含的异常信息也已经被删除掉了，里面只包含所需要的信息；

C、数据储存和展示模块：

为了方便文件查看和修改，将下载下来的HTML文件装换为PDF文件，文件转换使用Adobe Acrobat DC软件完成；

对于网络爬虫爬取得到的数据进行保存，爬虫爬取后的数据一般选择两种存储方式:本地保存CSV、Excel格式或者直接存储到数据库，对于量小的数据直接保存在本地，对于数据量大的保存在数据库中，方便储存的同时也方便后期进一步对数据的分析、处理等。

存储到数据库有两种:一种是等所有的数据都爬完集中一次向量化清洗，一次性入库；另一种是爬一次数据清洗一次就入库；对于大规模爬虫来说，稳定性是要考虑的重要因素，在长久的爬虫过程中，不可避免地会出现一些网络错误，在这种情况下第一种方法爬出的数据会变成无用数据，而第二种则避免了类似问题，并且单次清洗和入库较快，对整体入库时间不会产生影响，因此选择第二种方法作为写入数据库的方式。

本发明具有以下有益效果：

1、在网络信息技术高速发展的大数据时代，基于网络爬虫的电力信息采集系统可以帮助电力从业人员过滤掉互联网上的无用信息，找出人们需要的关键信息，大大的缩短了信息查找的时间，提高了工作效率，让电力部门的结构更加智能化，更加信息化。

2、可以根据不同使用者的不同使用需求制定不同的信息检索规则，我们可以对检索到的信息的发布时间，类型进行需求化定制。上手简单，不需要编写大量的程序，该系统内所有的操作都是智能化的。

附图说明：

图1为本发明基于网络爬虫技术的电力营商环境信息采集系统的结构图。

具体实施方式：

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式：

实施例1

参见图1，图1为基于网络爬虫技术的电力营商环境信息采集系统的结构图，包括以下模块：

A、信息采集模块：

B、网页处理及下载模块：

C、数据储存和展示模块：

在步骤C中，存储到数据库有两种：一种是等所有的数据都爬完集中一次向量化清洗，一次性入库；另一种是爬一次数据清洗一次就入库；对于大规模爬虫来说，稳定性是要考虑的重要因素，在长久的爬虫过程中，不可避免地会出现一些网络错误，在这种情况下第一种方法爬出的数据会变成无用数据，而第二种则避免了类似问题，并且单次清洗和入库较快，对整体入库时间不会产生影响，因此选择第二种方法作为写入数据库的方式。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他任何未背离本发明的精神实质与原理下所做的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围内。

Claims

1.一种基于网络爬虫技术的电力营商环境信息采集系统，其特征在于，所述基于网络爬虫技术的电力营商环境信息采集系统包括以下模块：

A、信息采集模块：

B、网页处理及下载模块：

C、数据储存和展示模块：

2.根据权利要求1所述的基于网络爬虫技术的电力营商环境信息采集系统，其特征在于：在步骤C中，存储到数据库有两种:一种是等所有的数据都爬完集中一次向量化清洗，一次性入库；另一种是爬一次数据清洗一次就入库；对于大规模爬虫来说，稳定性是要考虑的重要因素，在长久的爬虫过程中，不可避免地会出现一些网络错误，在这种情况下第一种方法爬出的数据会变成无用数据，而第二种则避免了类似问题，并且单次清洗和入库较快，对整体入库时间不会产生影响，因此选择第二种方法作为写入数据库的方式。