CN114443926A - 基于网络爬虫技术的电力营商环境信息采集系统 - Google Patents

基于网络爬虫技术的电力营商环境信息采集系统 Download PDF

Info

Publication number
CN114443926A
CN114443926A CN202111612380.0A CN202111612380A CN114443926A CN 114443926 A CN114443926 A CN 114443926A CN 202111612380 A CN202111612380 A CN 202111612380A CN 114443926 A CN114443926 A CN 114443926A
Authority
CN
China
Prior art keywords
webpage
module
data
information
crawler
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111612380.0A
Other languages
English (en)
Inventor
燕跃豪
宋建辉
鲍薇
孙晨光
李连卷
原征
韩丽
陈起
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan Yuhui Energy Technology Co ltd
State Grid Henan Electric Power Co Zhengzhou Power Supply Co
Zhengzhou University
State Grid Corp of China SGCC
Original Assignee
Henan Yuhui Energy Technology Co ltd
State Grid Henan Electric Power Co Zhengzhou Power Supply Co
Zhengzhou University
State Grid Corp of China SGCC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan Yuhui Energy Technology Co ltd, State Grid Henan Electric Power Co Zhengzhou Power Supply Co, Zhengzhou University, State Grid Corp of China SGCC filed Critical Henan Yuhui Energy Technology Co ltd
Priority to CN202111612380.0A priority Critical patent/CN114443926A/zh
Publication of CN114443926A publication Critical patent/CN114443926A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于网络爬虫技术的电力营商环境信息采集系统,包括信息采集模块、网页处理及下载模块、数据储存和展示模块,信息采集模块是整个爬虫系统实现的基础,输入关键词,它就会在模拟浏览器向万维网发送HTTP请求,检索包含这些关键字的信息,信息采集模块获得的只包含所需要采集网页的标题和链接,为了查看数据,需要对网页进行处理和下载,将下载下来的HTML文件装换为PDF文件,文件转换使用Adobe Acrobat DC软件完成。本发明可以根据电力从业者的使用要求来制定不同的爬取要求,根据使用者输入的关键字,向互联网发送请求,找到相关的信息的URL,然后在对这些URL进行处理,实现以高效便捷的方式爬取需要的相关数据,以便显著提高爬虫的速度,具有很好的推广应用价值。

Description

基于网络爬虫技术的电力营商环境信息采集系统
技术领域:
本发明涉及互联网信息采集技术领域,更具体地说,涉及一种基于网络爬虫技术的电力营商环境信息采集系统。
背景技术:
随着信息技术的快速发展,人类已经步入了大数据、云信息时代。目前全球网页总数已经超过了20亿,而且每天仍在以730万的数量不断增加。如此海量的信息里面包含了许多有价值的信息,但是如何找出这些信息中的价值就像大海捞针一样困难。
在我国的电网行业中,同样需要处理海量的信息量。我们需要从万维网上筛选出和电力营商环境相关的信息,并对这些信息进行处理,根据处理结果制定相应的执行方案。电力产业作为关系到国民经济的重要行业,积极应用相关技术推动其优化发展,是产业发展的必然趋势。
解决数据爆炸式增长带来的技术难题,网络爬虫技术应运而生。网络爬虫是一个自动下载网页的计算机程序(自动化脚本),能够从一个称之为种子集的URL集合中展开运行流程。具体来讲,它会将URL集合中的所有URL全部放入到某一个有序的待爬行队列中,按照一定顺序从中提取URL下被指定网页的页面,同时分析页面内容,最后提取新的URL并存入待爬行URL队列中,如此反复,直到URL队列为空或满足某一爬行终止条件,实现用户对Web的有效浏览。
目前在爬虫技术的广泛应用下,并没有相关技术公开利用网络爬虫技术进行电力信息数据的采集应用,并且现有的网络爬虫技术或者系统,仅具有网络数据爬取的功能,缺乏对爬取后的数据进行组织,并提供服务的功能,其很难在业内进行大范围的应用。
发明内容:
本发明所要解决的技术问题是:克服现有技术的不足,提供一种基于网络爬虫技术的电力营商环境信息采集系统,按操作人员制定的规则爬取相关的信息,并对这些信息进行相应的处理和储存。
本发明解决其技术问题所采用的技术方案是:
一种基于网络爬虫技术的电力营商环境信息采集系统,包括以下模块:
A、信息采集模块:
信息采集模块是整个爬虫系统实现的基础,它的原理类似于浏览器搜索引擎,输入需要搜索的关键词,它就会在模拟浏览器向万维网发送HTTP请求,检索包含这些关键字的信息,并将包含这些信息的网页的URL和该网页的标题下载下来,在这个过程中,通过设置,让其只检索在某一个时间段更新的网页,提高检索的效率和保证检索信息的时效性,当满足要求的网页都检索完成后,再将下载下来的结果储存在一个excel表格里;
B、网页处理及下载模块:
信息采集模块获得的只包含所需要采集网页的标题和链接,为了方便查看数据,需要对网页进行处理和下载,这一过程包括网页解析模块、网页过滤模块、预处理模块和网页分析模块:
①网页解析模块:该模块是衔接其他模块的中枢,是整个爬虫系统的主要部分,它提取采集的HTML形式网页中的重要信息链接、文本,同时利用获取的内容信息为后期网页的主题相关度计算作铺垫;
②网页过滤模块:该模块用来筛选与主题有关的URL,通过筛选抓取与主题相关的页面,确保主题爬虫系统的准确率;
③预处理模块:该模块将网页解析模块获取的网页内容信息进行处理,通过对文本分词、去停用词、词干化等预处理,将文本内容转换为计算机能够识别的数学模型,为后期主题网络爬虫中网页分析模块进行主题相似度计算做准备;
④网页分析模块:该模块是主题爬虫的核心,分为两部分:第一部分是主题相关度判断,用于判断网页的主题相关性;第二部分是主题相关度预测,预测网页URL与主题相关度,通过搜索策略,优先访问与主题相关的URL;
通过以上几个步骤的处理后下载下来的网页就是一个HTML文件,在不联网的情况下依然可以查看里面的内容,而且下载下来的网页里面包含的异常信息也已经被删除掉了,里面只包含所需要的信息;
C、数据储存和展示模块:
为了方便文件查看和修改,将下载下来的HTML文件装换为PDF文件,文件转换使用Adobe Acrobat DC软件完成;
对于网络爬虫爬取得到的数据进行保存,爬虫爬取后的数据一般选择两种存储方式:本地保存CSV、Excel格式或者直接存储到数据库,对于量小的数据直接保存在本地,对于数据量大的保存在数据库中,方便储存的同时也方便后期进一步对数据的分析、处理等。
存储到数据库有两种:一种是等所有的数据都爬完集中一次向量化清洗,一次性入库;另一种是爬一次数据清洗一次就入库;对于大规模爬虫来说,稳定性是要考虑的重要因素,在长久的爬虫过程中,不可避免地会出现一些网络错误,在这种情况下第一种方法爬出的数据会变成无用数据,而第二种则避免了类似问题,并且单次清洗和入库较快,对整体入库时间不会产生影响,因此选择第二种方法作为写入数据库的方式。
本发明具有以下有益效果:
1、在网络信息技术高速发展的大数据时代,基于网络爬虫的电力信息采集系统可以帮助电力从业人员过滤掉互联网上的无用信息,找出人们需要的关键信息,大大的缩短了信息查找的时间,提高了工作效率,让电力部门的结构更加智能化,更加信息化。
2、可以根据不同使用者的不同使用需求制定不同的信息检索规则,我们可以对检索到的信息的发布时间,类型进行需求化定制。上手简单,不需要编写大量的程序,该系统内所有的操作都是智能化的。
附图说明:
图1为本发明基于网络爬虫技术的电力营商环境信息采集系统的结构图。
具体实施方式:
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式:
实施例1
参见图1,图1为基于网络爬虫技术的电力营商环境信息采集系统的结构图,包括以下模块:
A、信息采集模块:
信息采集模块是整个爬虫系统实现的基础,它的原理类似于浏览器搜索引擎,输入需要搜索的关键词,它就会在模拟浏览器向万维网发送HTTP请求,检索包含这些关键字的信息,并将包含这些信息的网页的URL和该网页的标题下载下来,在这个过程中,通过设置,让其只检索在某一个时间段更新的网页,提高检索的效率和保证检索信息的时效性,当满足要求的网页都检索完成后,再将下载下来的结果储存在一个excel表格里;
B、网页处理及下载模块:
信息采集模块获得的只包含所需要采集网页的标题和链接,为了方便查看数据,需要对网页进行处理和下载,这一过程包括网页解析模块、网页过滤模块、预处理模块和网页分析模块:
①网页解析模块:该模块是衔接其他模块的中枢,是整个爬虫系统的主要部分,它提取采集的HTML形式网页中的重要信息链接、文本,同时利用获取的内容信息为后期网页的主题相关度计算作铺垫;
②网页过滤模块:该模块用来筛选与主题有关的URL,通过筛选抓取与主题相关的页面,确保主题爬虫系统的准确率;
③预处理模块:该模块将网页解析模块获取的网页内容信息进行处理,通过对文本分词、去停用词、词干化等预处理,将文本内容转换为计算机能够识别的数学模型,为后期主题网络爬虫中网页分析模块进行主题相似度计算做准备;
④网页分析模块:该模块是主题爬虫的核心,分为两部分:第一部分是主题相关度判断,用于判断网页的主题相关性;第二部分是主题相关度预测,预测网页URL与主题相关度,通过搜索策略,优先访问与主题相关的URL;
通过以上几个步骤的处理后下载下来的网页就是一个HTML文件,在不联网的情况下依然可以查看里面的内容,而且下载下来的网页里面包含的异常信息也已经被删除掉了,里面只包含所需要的信息;
C、数据储存和展示模块:
为了方便文件查看和修改,将下载下来的HTML文件装换为PDF文件,文件转换使用Adobe Acrobat DC软件完成;
对于网络爬虫爬取得到的数据进行保存,爬虫爬取后的数据一般选择两种存储方式:本地保存CSV、Excel格式或者直接存储到数据库,对于量小的数据直接保存在本地,对于数据量大的保存在数据库中,方便储存的同时也方便后期进一步对数据的分析、处理等。
在步骤C中,存储到数据库有两种:一种是等所有的数据都爬完集中一次向量化清洗,一次性入库;另一种是爬一次数据清洗一次就入库;对于大规模爬虫来说,稳定性是要考虑的重要因素,在长久的爬虫过程中,不可避免地会出现一些网络错误,在这种情况下第一种方法爬出的数据会变成无用数据,而第二种则避免了类似问题,并且单次清洗和入库较快,对整体入库时间不会产生影响,因此选择第二种方法作为写入数据库的方式。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他任何未背离本发明的精神实质与原理下所做的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围内。

Claims (2)

1.一种基于网络爬虫技术的电力营商环境信息采集系统,其特征在于,所述基于网络爬虫技术的电力营商环境信息采集系统包括以下模块:
A、信息采集模块:
信息采集模块是整个爬虫系统实现的基础,它的原理类似于浏览器搜索引擎,输入需要搜索的关键词,它就会在模拟浏览器向万维网发送HTTP请求,检索包含这些关键字的信息,并将包含这些信息的网页的URL和该网页的标题下载下来,在这个过程中,通过设置,让其只检索在某一个时间段更新的网页,提高检索的效率和保证检索信息的时效性,当满足要求的网页都检索完成后,再将下载下来的结果储存在一个excel表格里;
B、网页处理及下载模块:
信息采集模块获得的只包含所需要采集网页的标题和链接,为了方便查看数据,需要对网页进行处理和下载,这一过程包括网页解析模块、网页过滤模块、预处理模块和网页分析模块:
①网页解析模块:该模块是衔接其他模块的中枢,是整个爬虫系统的主要部分,它提取采集的HTML形式网页中的重要信息链接、文本,同时利用获取的内容信息为后期网页的主题相关度计算作铺垫;
②网页过滤模块:该模块用来筛选与主题有关的URL,通过筛选抓取与主题相关的页面,确保主题爬虫系统的准确率;
③预处理模块:该模块将网页解析模块获取的网页内容信息进行处理,通过对文本分词、去停用词、词干化等预处理,将文本内容转换为计算机能够识别的数学模型,为后期主题网络爬虫中网页分析模块进行主题相似度计算做准备;
④网页分析模块:该模块是主题爬虫的核心,分为两部分:第一部分是主题相关度判断,用于判断网页的主题相关性;第二部分是主题相关度预测,预测网页URL与主题相关度,通过搜索策略,优先访问与主题相关的URL;
通过以上几个步骤的处理后下载下来的网页就是一个HTML文件,在不联网的情况下依然可以查看里面的内容,而且下载下来的网页里面包含的异常信息也已经被删除掉了,里面只包含所需要的信息;
C、数据储存和展示模块:
为了方便文件查看和修改,将下载下来的HTML文件装换为PDF文件,文件转换使用Adobe Acrobat DC软件完成;
对于网络爬虫爬取得到的数据进行保存,爬虫爬取后的数据一般选择两种存储方式:本地保存CSV、Excel格式或者直接存储到数据库,对于量小的数据直接保存在本地,对于数据量大的保存在数据库中,方便储存的同时也方便后期进一步对数据的分析、处理等。
2.根据权利要求1所述的基于网络爬虫技术的电力营商环境信息采集系统,其特征在于:在步骤C中,存储到数据库有两种:一种是等所有的数据都爬完集中一次向量化清洗,一次性入库;另一种是爬一次数据清洗一次就入库;对于大规模爬虫来说,稳定性是要考虑的重要因素,在长久的爬虫过程中,不可避免地会出现一些网络错误,在这种情况下第一种方法爬出的数据会变成无用数据,而第二种则避免了类似问题,并且单次清洗和入库较快,对整体入库时间不会产生影响,因此选择第二种方法作为写入数据库的方式。
CN202111612380.0A 2021-12-27 2021-12-27 基于网络爬虫技术的电力营商环境信息采集系统 Pending CN114443926A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111612380.0A CN114443926A (zh) 2021-12-27 2021-12-27 基于网络爬虫技术的电力营商环境信息采集系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111612380.0A CN114443926A (zh) 2021-12-27 2021-12-27 基于网络爬虫技术的电力营商环境信息采集系统

Publications (1)

Publication Number Publication Date
CN114443926A true CN114443926A (zh) 2022-05-06

Family

ID=81363540

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111612380.0A Pending CN114443926A (zh) 2021-12-27 2021-12-27 基于网络爬虫技术的电力营商环境信息采集系统

Country Status (1)

Country Link
CN (1) CN114443926A (zh)

Similar Documents

Publication Publication Date Title
US7707161B2 (en) Method and system for creating a concept-object database
CN101908071B (zh) 一种提高搜索引擎搜索效率的方法及其系统
US20070198727A1 (en) Method, apparatus and system for extracting field-specific structured data from the web using sample
CN102073725A (zh) 结构化数据的搜索方法和实现该搜索方法的搜索引擎系统
CN102073726A (zh) 搜索引擎系统及该搜索引擎系统的结构化数据引入方法
CN111626568B (zh) 自然灾害领域知识库构建方法以及知识搜索方法、系统
CN104391978A (zh) 用于浏览器的网页收藏处理方法及装置
CN103745006A (zh) 一种互联网信息搜索系统及方法
Nadee et al. Towards data extraction of dynamic content from JavaScript Web applications
CN111368167A (zh) 基于网络爬虫技术的中文文献数据自动化获取方法
Chang A Survey of Modern Crawler Methods
CN112597369A (zh) 基于改良云平台的网页蜘蛛主题式搜索系统
US20030018617A1 (en) Information retrieval using enhanced document vectors
CN114443926A (zh) 基于网络爬虫技术的电力营商环境信息采集系统
CN114443927A (zh) 一种高效网络爬取方法及装置
Manral et al. An innovative approach for online meta search engine optimization
Wang Research on Python Crawler Search System Based on Computer Big Data
Xu et al. Method of deep web collection for mobile application store based on category keyword searching
Fan et al. Novel of Web search strategy based on Web page block granularity analysis algorithm and correlation calculation model
Pan et al. Design and implementation of web crawler system based on Python
Wang et al. Multilingual focused crawler system based on web content extraction and path configuration
Neeli et al. Automated data mining from web servers using perl script
Jeyalatha et al. Web Usage Mining Algorithm for an Academic Search Application
CN102890715A (zh) 一种特定领域信息自动化组织的装置及其方法
Pardakhe et al. Enhancement of web search engine results using keyword frequency based ranking

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination