CN114443926A - 基于网络爬虫技术的电力营商环境信息采集系统 - Google Patents
基于网络爬虫技术的电力营商环境信息采集系统 Download PDFInfo
- Publication number
- CN114443926A CN114443926A CN202111612380.0A CN202111612380A CN114443926A CN 114443926 A CN114443926 A CN 114443926A CN 202111612380 A CN202111612380 A CN 202111612380A CN 114443926 A CN114443926 A CN 114443926A
- Authority
- CN
- China
- Prior art keywords
- webpage
- module
- data
- information
- crawler
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005516 engineering process Methods 0.000 title claims abstract description 16
- 238000000034 method Methods 0.000 claims abstract description 31
- 230000009193 crawling Effects 0.000 claims abstract description 9
- 238000012545 processing Methods 0.000 claims abstract description 8
- 238000006243 chemical reaction Methods 0.000 claims abstract description 4
- 238000013500 data storage Methods 0.000 claims abstract description 4
- 238000004088 simulation Methods 0.000 claims abstract description 4
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000004140 cleaning Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 238000012986 modification Methods 0.000 claims description 5
- 230000004048 modification Effects 0.000 claims description 5
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 230000009849 deactivation Effects 0.000 claims description 3
- 238000001035 drying Methods 0.000 claims description 3
- 230000007613 environmental effect Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 238000013178 mathematical model Methods 0.000 claims description 3
- 230000006855 networking Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000007774 longterm Effects 0.000 claims description 2
- 239000012141 concentrate Substances 0.000 claims 1
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/986—Document structures and storage, e.g. HTML extensions
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种基于网络爬虫技术的电力营商环境信息采集系统,包括信息采集模块、网页处理及下载模块、数据储存和展示模块,信息采集模块是整个爬虫系统实现的基础,输入关键词,它就会在模拟浏览器向万维网发送HTTP请求,检索包含这些关键字的信息,信息采集模块获得的只包含所需要采集网页的标题和链接,为了查看数据,需要对网页进行处理和下载,将下载下来的HTML文件装换为PDF文件,文件转换使用Adobe Acrobat DC软件完成。本发明可以根据电力从业者的使用要求来制定不同的爬取要求,根据使用者输入的关键字,向互联网发送请求,找到相关的信息的URL,然后在对这些URL进行处理,实现以高效便捷的方式爬取需要的相关数据,以便显著提高爬虫的速度,具有很好的推广应用价值。
Description
技术领域:
本发明涉及互联网信息采集技术领域,更具体地说,涉及一种基于网络爬虫技术的电力营商环境信息采集系统。
背景技术:
随着信息技术的快速发展,人类已经步入了大数据、云信息时代。目前全球网页总数已经超过了20亿,而且每天仍在以730万的数量不断增加。如此海量的信息里面包含了许多有价值的信息,但是如何找出这些信息中的价值就像大海捞针一样困难。
在我国的电网行业中,同样需要处理海量的信息量。我们需要从万维网上筛选出和电力营商环境相关的信息,并对这些信息进行处理,根据处理结果制定相应的执行方案。电力产业作为关系到国民经济的重要行业,积极应用相关技术推动其优化发展,是产业发展的必然趋势。
解决数据爆炸式增长带来的技术难题,网络爬虫技术应运而生。网络爬虫是一个自动下载网页的计算机程序(自动化脚本),能够从一个称之为种子集的URL集合中展开运行流程。具体来讲,它会将URL集合中的所有URL全部放入到某一个有序的待爬行队列中,按照一定顺序从中提取URL下被指定网页的页面,同时分析页面内容,最后提取新的URL并存入待爬行URL队列中,如此反复,直到URL队列为空或满足某一爬行终止条件,实现用户对Web的有效浏览。
目前在爬虫技术的广泛应用下,并没有相关技术公开利用网络爬虫技术进行电力信息数据的采集应用,并且现有的网络爬虫技术或者系统,仅具有网络数据爬取的功能,缺乏对爬取后的数据进行组织,并提供服务的功能,其很难在业内进行大范围的应用。
发明内容:
本发明所要解决的技术问题是:克服现有技术的不足,提供一种基于网络爬虫技术的电力营商环境信息采集系统,按操作人员制定的规则爬取相关的信息,并对这些信息进行相应的处理和储存。
本发明解决其技术问题所采用的技术方案是:
一种基于网络爬虫技术的电力营商环境信息采集系统,包括以下模块:
A、信息采集模块:
信息采集模块是整个爬虫系统实现的基础,它的原理类似于浏览器搜索引擎,输入需要搜索的关键词,它就会在模拟浏览器向万维网发送HTTP请求,检索包含这些关键字的信息,并将包含这些信息的网页的URL和该网页的标题下载下来,在这个过程中,通过设置,让其只检索在某一个时间段更新的网页,提高检索的效率和保证检索信息的时效性,当满足要求的网页都检索完成后,再将下载下来的结果储存在一个excel表格里;
B、网页处理及下载模块:
信息采集模块获得的只包含所需要采集网页的标题和链接,为了方便查看数据,需要对网页进行处理和下载,这一过程包括网页解析模块、网页过滤模块、预处理模块和网页分析模块:
①网页解析模块:该模块是衔接其他模块的中枢,是整个爬虫系统的主要部分,它提取采集的HTML形式网页中的重要信息链接、文本,同时利用获取的内容信息为后期网页的主题相关度计算作铺垫;
②网页过滤模块:该模块用来筛选与主题有关的URL,通过筛选抓取与主题相关的页面,确保主题爬虫系统的准确率;
③预处理模块:该模块将网页解析模块获取的网页内容信息进行处理,通过对文本分词、去停用词、词干化等预处理,将文本内容转换为计算机能够识别的数学模型,为后期主题网络爬虫中网页分析模块进行主题相似度计算做准备;
④网页分析模块:该模块是主题爬虫的核心,分为两部分:第一部分是主题相关度判断,用于判断网页的主题相关性;第二部分是主题相关度预测,预测网页URL与主题相关度,通过搜索策略,优先访问与主题相关的URL;
通过以上几个步骤的处理后下载下来的网页就是一个HTML文件,在不联网的情况下依然可以查看里面的内容,而且下载下来的网页里面包含的异常信息也已经被删除掉了,里面只包含所需要的信息;
C、数据储存和展示模块:
为了方便文件查看和修改,将下载下来的HTML文件装换为PDF文件,文件转换使用Adobe Acrobat DC软件完成;
对于网络爬虫爬取得到的数据进行保存,爬虫爬取后的数据一般选择两种存储方式:本地保存CSV、Excel格式或者直接存储到数据库,对于量小的数据直接保存在本地,对于数据量大的保存在数据库中,方便储存的同时也方便后期进一步对数据的分析、处理等。
存储到数据库有两种:一种是等所有的数据都爬完集中一次向量化清洗,一次性入库;另一种是爬一次数据清洗一次就入库;对于大规模爬虫来说,稳定性是要考虑的重要因素,在长久的爬虫过程中,不可避免地会出现一些网络错误,在这种情况下第一种方法爬出的数据会变成无用数据,而第二种则避免了类似问题,并且单次清洗和入库较快,对整体入库时间不会产生影响,因此选择第二种方法作为写入数据库的方式。
本发明具有以下有益效果:
1、在网络信息技术高速发展的大数据时代,基于网络爬虫的电力信息采集系统可以帮助电力从业人员过滤掉互联网上的无用信息,找出人们需要的关键信息,大大的缩短了信息查找的时间,提高了工作效率,让电力部门的结构更加智能化,更加信息化。
2、可以根据不同使用者的不同使用需求制定不同的信息检索规则,我们可以对检索到的信息的发布时间,类型进行需求化定制。上手简单,不需要编写大量的程序,该系统内所有的操作都是智能化的。
附图说明:
图1为本发明基于网络爬虫技术的电力营商环境信息采集系统的结构图。
具体实施方式:
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式:
实施例1
参见图1,图1为基于网络爬虫技术的电力营商环境信息采集系统的结构图,包括以下模块:
A、信息采集模块:
信息采集模块是整个爬虫系统实现的基础,它的原理类似于浏览器搜索引擎,输入需要搜索的关键词,它就会在模拟浏览器向万维网发送HTTP请求,检索包含这些关键字的信息,并将包含这些信息的网页的URL和该网页的标题下载下来,在这个过程中,通过设置,让其只检索在某一个时间段更新的网页,提高检索的效率和保证检索信息的时效性,当满足要求的网页都检索完成后,再将下载下来的结果储存在一个excel表格里;
B、网页处理及下载模块:
信息采集模块获得的只包含所需要采集网页的标题和链接,为了方便查看数据,需要对网页进行处理和下载,这一过程包括网页解析模块、网页过滤模块、预处理模块和网页分析模块:
①网页解析模块:该模块是衔接其他模块的中枢,是整个爬虫系统的主要部分,它提取采集的HTML形式网页中的重要信息链接、文本,同时利用获取的内容信息为后期网页的主题相关度计算作铺垫;
②网页过滤模块:该模块用来筛选与主题有关的URL,通过筛选抓取与主题相关的页面,确保主题爬虫系统的准确率;
③预处理模块:该模块将网页解析模块获取的网页内容信息进行处理,通过对文本分词、去停用词、词干化等预处理,将文本内容转换为计算机能够识别的数学模型,为后期主题网络爬虫中网页分析模块进行主题相似度计算做准备;
④网页分析模块:该模块是主题爬虫的核心,分为两部分:第一部分是主题相关度判断,用于判断网页的主题相关性;第二部分是主题相关度预测,预测网页URL与主题相关度,通过搜索策略,优先访问与主题相关的URL;
通过以上几个步骤的处理后下载下来的网页就是一个HTML文件,在不联网的情况下依然可以查看里面的内容,而且下载下来的网页里面包含的异常信息也已经被删除掉了,里面只包含所需要的信息;
C、数据储存和展示模块:
为了方便文件查看和修改,将下载下来的HTML文件装换为PDF文件,文件转换使用Adobe Acrobat DC软件完成;
对于网络爬虫爬取得到的数据进行保存,爬虫爬取后的数据一般选择两种存储方式:本地保存CSV、Excel格式或者直接存储到数据库,对于量小的数据直接保存在本地,对于数据量大的保存在数据库中,方便储存的同时也方便后期进一步对数据的分析、处理等。
在步骤C中,存储到数据库有两种:一种是等所有的数据都爬完集中一次向量化清洗,一次性入库;另一种是爬一次数据清洗一次就入库;对于大规模爬虫来说,稳定性是要考虑的重要因素,在长久的爬虫过程中,不可避免地会出现一些网络错误,在这种情况下第一种方法爬出的数据会变成无用数据,而第二种则避免了类似问题,并且单次清洗和入库较快,对整体入库时间不会产生影响,因此选择第二种方法作为写入数据库的方式。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他任何未背离本发明的精神实质与原理下所做的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围内。
Claims (2)
1.一种基于网络爬虫技术的电力营商环境信息采集系统,其特征在于,所述基于网络爬虫技术的电力营商环境信息采集系统包括以下模块:
A、信息采集模块:
信息采集模块是整个爬虫系统实现的基础,它的原理类似于浏览器搜索引擎,输入需要搜索的关键词,它就会在模拟浏览器向万维网发送HTTP请求,检索包含这些关键字的信息,并将包含这些信息的网页的URL和该网页的标题下载下来,在这个过程中,通过设置,让其只检索在某一个时间段更新的网页,提高检索的效率和保证检索信息的时效性,当满足要求的网页都检索完成后,再将下载下来的结果储存在一个excel表格里;
B、网页处理及下载模块:
信息采集模块获得的只包含所需要采集网页的标题和链接,为了方便查看数据,需要对网页进行处理和下载,这一过程包括网页解析模块、网页过滤模块、预处理模块和网页分析模块:
①网页解析模块:该模块是衔接其他模块的中枢,是整个爬虫系统的主要部分,它提取采集的HTML形式网页中的重要信息链接、文本,同时利用获取的内容信息为后期网页的主题相关度计算作铺垫;
②网页过滤模块:该模块用来筛选与主题有关的URL,通过筛选抓取与主题相关的页面,确保主题爬虫系统的准确率;
③预处理模块:该模块将网页解析模块获取的网页内容信息进行处理,通过对文本分词、去停用词、词干化等预处理,将文本内容转换为计算机能够识别的数学模型,为后期主题网络爬虫中网页分析模块进行主题相似度计算做准备;
④网页分析模块:该模块是主题爬虫的核心,分为两部分:第一部分是主题相关度判断,用于判断网页的主题相关性;第二部分是主题相关度预测,预测网页URL与主题相关度,通过搜索策略,优先访问与主题相关的URL;
通过以上几个步骤的处理后下载下来的网页就是一个HTML文件,在不联网的情况下依然可以查看里面的内容,而且下载下来的网页里面包含的异常信息也已经被删除掉了,里面只包含所需要的信息;
C、数据储存和展示模块:
为了方便文件查看和修改,将下载下来的HTML文件装换为PDF文件,文件转换使用Adobe Acrobat DC软件完成;
对于网络爬虫爬取得到的数据进行保存,爬虫爬取后的数据一般选择两种存储方式:本地保存CSV、Excel格式或者直接存储到数据库,对于量小的数据直接保存在本地,对于数据量大的保存在数据库中,方便储存的同时也方便后期进一步对数据的分析、处理等。
2.根据权利要求1所述的基于网络爬虫技术的电力营商环境信息采集系统,其特征在于:在步骤C中,存储到数据库有两种:一种是等所有的数据都爬完集中一次向量化清洗,一次性入库;另一种是爬一次数据清洗一次就入库;对于大规模爬虫来说,稳定性是要考虑的重要因素,在长久的爬虫过程中,不可避免地会出现一些网络错误,在这种情况下第一种方法爬出的数据会变成无用数据,而第二种则避免了类似问题,并且单次清洗和入库较快,对整体入库时间不会产生影响,因此选择第二种方法作为写入数据库的方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111612380.0A CN114443926A (zh) | 2021-12-27 | 2021-12-27 | 基于网络爬虫技术的电力营商环境信息采集系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111612380.0A CN114443926A (zh) | 2021-12-27 | 2021-12-27 | 基于网络爬虫技术的电力营商环境信息采集系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114443926A true CN114443926A (zh) | 2022-05-06 |
Family
ID=81363540
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111612380.0A Pending CN114443926A (zh) | 2021-12-27 | 2021-12-27 | 基于网络爬虫技术的电力营商环境信息采集系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114443926A (zh) |
-
2021
- 2021-12-27 CN CN202111612380.0A patent/CN114443926A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7707161B2 (en) | Method and system for creating a concept-object database | |
CN101908071B (zh) | 一种提高搜索引擎搜索效率的方法及其系统 | |
US20070198727A1 (en) | Method, apparatus and system for extracting field-specific structured data from the web using sample | |
CN102073725A (zh) | 结构化数据的搜索方法和实现该搜索方法的搜索引擎系统 | |
CN102073726A (zh) | 搜索引擎系统及该搜索引擎系统的结构化数据引入方法 | |
CN111626568B (zh) | 自然灾害领域知识库构建方法以及知识搜索方法、系统 | |
CN104391978A (zh) | 用于浏览器的网页收藏处理方法及装置 | |
CN103745006A (zh) | 一种互联网信息搜索系统及方法 | |
Nadee et al. | Towards data extraction of dynamic content from JavaScript Web applications | |
CN111368167A (zh) | 基于网络爬虫技术的中文文献数据自动化获取方法 | |
Chang | A Survey of Modern Crawler Methods | |
CN112597369A (zh) | 基于改良云平台的网页蜘蛛主题式搜索系统 | |
US20030018617A1 (en) | Information retrieval using enhanced document vectors | |
CN114443926A (zh) | 基于网络爬虫技术的电力营商环境信息采集系统 | |
CN114443927A (zh) | 一种高效网络爬取方法及装置 | |
Manral et al. | An innovative approach for online meta search engine optimization | |
Wang | Research on Python Crawler Search System Based on Computer Big Data | |
Xu et al. | Method of deep web collection for mobile application store based on category keyword searching | |
Fan et al. | Novel of Web search strategy based on Web page block granularity analysis algorithm and correlation calculation model | |
Pan et al. | Design and implementation of web crawler system based on Python | |
Wang et al. | Multilingual focused crawler system based on web content extraction and path configuration | |
Neeli et al. | Automated data mining from web servers using perl script | |
Jeyalatha et al. | Web Usage Mining Algorithm for an Academic Search Application | |
CN102890715A (zh) | 一种特定领域信息自动化组织的装置及其方法 | |
Pardakhe et al. | Enhancement of web search engine results using keyword frequency based ranking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |