CN109902217A - 一种天文学数据筛选与下载的爬虫软件 - Google Patents

一种天文学数据筛选与下载的爬虫软件 Download PDF

Info

Publication number
CN109902217A
CN109902217A CN201910212731.5A CN201910212731A CN109902217A CN 109902217 A CN109902217 A CN 109902217A CN 201910212731 A CN201910212731 A CN 201910212731A CN 109902217 A CN109902217 A CN 109902217A
Authority
CN
China
Prior art keywords
website
data
module
solar
noaa
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910212731.5A
Other languages
English (en)
Inventor
王新硕
郑艳芳
李雪宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University of Science and Technology
Original Assignee
Jiangsu University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University of Science and Technology filed Critical Jiangsu University of Science and Technology
Priority to CN201910212731.5A priority Critical patent/CN109902217A/zh
Publication of CN109902217A publication Critical patent/CN109902217A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种天文学数据筛选与下载的爬虫软件,软件包括:NOAA网站的模拟HTTP请求与解析模块、Solar Monitor网站的模拟HTTP请求与解析模块、NOAA网站与Solar Monitor网站数据匹配模块及JSOC网站下载链接获取模块,上述各模块是通过Python的一个库requests构建,其中,requests是使用Apache2 licensed许可证的HTTP库,用Python编写且支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动响应内容的编码,支持国际化的URL和POST数据自动编码,还在Python内置模块的基础上进行了高度的封装,使得Python进行网络请求时,实现requests完成浏览器可有的任何操作。本发明使JSOC网站数据采集周期大大算短,使网站中现有的所有数据都能够被采集、使用,使利用此网站的科研工作者能更快的获得期望的数据集。

Description

一种天文学数据筛选与下载的爬虫软件
技术领域
本发明涉及天文学数据筛选与下载的爬虫软件,属于计算机数据采集技术领域。
背景技术
宇宙学在近期从一个几个人一个组就能独立做的领域,变成一个大数据、大组织的领域。大部分的宇宙学项目,比如:针对宇宙微波背景的Planck、十年内要启动的欧洲ESO的Euclid、美国NASA的WFIRST、美国NSF的LSST,大都是千人级的大组织。未来的数据量也将变得非常庞大,比如LSST每晚的观测数据量是15TB。目前天文学界尚无法处理这大数据,所以天文学越来越多需要计算机领域帮助。就现有技术而言,JSOC网站上的数据采集工作需要人力去查找、比对、下载,耗时耗力。为此,需要研发一款新的适应的软件来解决。
发明内容
本发明是针对现有技术存在的不足,提供一种天文学数据筛选与下载的爬虫软件,可以解决现有技术中存在的效率低下问题,同时提供一种天文学数据自动化下载的可用流程,满足实际使用要求。
为解决上述问题,本发明所采取的技术方案如下:
一种天文学数据筛选与下载的爬虫软件,所述软件包括:NOAA网站的模拟HTTP请求与解析模块、Solar Monitor网站的模拟HTTP请求与解析模块、NOAA网站与SolarMonitor网站数据匹配模块及JSOC网站下载链接获取模块,上述各模块是通过Python的一个库requests构建,其中,requests是使用Apache2 licensed许可证的HTTP库,用Python编写且支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动响应内容的编码,支持国际化的URL和POST数据自动编码,还在Python内置模块的基础上进行了高度的封装,使得Python进行网络请求时,实现requests完成浏览器可有的任何操作。
作为上述技术方案的改进,所述的NOAA网站的模拟HTTP请求与解析模块为:可以对NOAA网站发送HTTP请求并得到NOAA网站1975年1月1日至2017年12月31日间的每天太阳活动的时间、等级数据,可将NOAA网站指定网页筛选后的特定数据项保存到磁盘。
作为上述技术方案的改进,所述Solar Monitor网站的模拟HTTP请求与解析模块为:可以循环遍历2010年1月1日至2018年10月1日间的Solar Monitor网站记录的每天的太阳活动记录的时间信息、经纬度信息以及等级信息,可以将筛选后的Solar Monitor网站的指定信息保存到磁盘。
作为上述技术方案的改进,所述NOAA网站与Solar Monitor网站数据匹配模块为:能够根据前面两个模块得到的磁盘文件进行匹配,匹配规则为若两个文件中的记录行中的太阳活动的起始时间与等级相等那么就完成匹配,否则不完成,将完成匹配的一条记录写入磁盘指定位置,从而将上述两个模块生成的数据文件合并成一个包含太阳活动的起始时间、结束时间、经度、纬度、等级信息的数据文件。
作为上述技术方案的改进,所述JSOC网站下载链接获取模块为:能够根据文本文件中的数据填写待下载书的各项参数并发送HTTP请求,之后解析JSOC网站返回的参数获得数据的下载链接。
作为上述技术方案的改进,所述的天文学数据筛选与下载的爬虫软件还包括天文学数据自动化下载方法,方法如下:
步骤1:使用网络爬虫采集NOAA网站的太阳活动发生区域的起始时间、结束时间、活动等级数据;
步骤2:使用网络爬虫采集Solar Monitor网站的太阳活动发生区域的起始时间、区域编号、活动等级、以及对应区域的经纬度信息;
步骤3:根据太阳活动爆发区域的起始时间与等级关系匹配步骤1和步骤2得到的数据集,得到每个太阳活动发生区域的区域编号、发生时间、结束时间、活动等级;
步骤4:利用步骤3得到的数据,去JSOC网站利用网络爬虫发送请求,并得到请求数据的下载链接;
步骤5:得到下载链接之后就可以利用任意下载工具进行下载。
本发明与现有技术相比较,本发明的实施效果如下:
使JSOC网站数据采集周期大大算短,使网站中现有的所有数据都能够被采集、使用,使利用此网站的科研工作者能更快的获得期望的数据集。
附图说明
图1为本所述软件整体流程图;
图2为本发明实施例演示示意图;
图3为本发明实施例演示获得网页代码示意图;
图4为本发明实施例从网页代码获取参数示意图;
图5为本发明所述步骤1采集完成的部分数据示意图;
图6为本发明所述步骤2对应的部分数据示意图;
图7为本发明所述步骤2对应模块运行的部分截图;
图8为本发明所述步骤3对应的部分数据示意图;
图9为本发明所述步骤4对应的部分数据示意图;
图10为本发明所述步骤4对应程序运行的截图。
具体实施方式
下面将结合具体的实施例来说明本发明的内容。
实施例:天文学数据筛选与下载的爬虫软件,软件包括:NOAA网站的模拟HTTP请求与解析模块、Solar Monitor网站的模拟HTTP请求与解析模块、NOAA网站与Solar Monitor网站数据匹配模块及JSOC网站下载链接获取模块,上述各模块是通过Python的一个库requests构建,其中,requests是使用Apache2 licensed许可证的HTTP库,用Python编写且支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动响应内容的编码,支持国际化的URL和POST数据自动编码,还在Python内置模块的基础上进行了高度的封装,使得Python进行网络请求时,实现requests完成浏览器可有的任何操作。
其中,NOAA网站的模拟HTTP请求与解析模块为:可以对NOAA网站发送HTTP请求并得到NOAA网站1975年1月1日至2017年12月31日间的每天太阳活动的时间、等级数据,可将NOAA网站指定网页筛选后的特定数据项保存到磁盘。
Solar Monitor网站的模拟HTTP请求与解析模块为:可以循环遍历2010年1月1日至2018年10月1日间的Solar Monitor网站记录的每天的太阳活动记录的时间信息、经纬度信息以及等级信息,可以将筛选后的Solar Monitor网站的指定信息保存到磁盘。
NOAA网站与Solar Monitor网站数据匹配模块为:能够根据前面两个模块得到的磁盘文件进行匹配,匹配规则为若两个文件中的记录行中的太阳活动的起始时间与等级相等那么就完成匹配,否则不完成,将完成匹配的一条记录写入磁盘指定位置,从而将上述两个模块生成的数据文件合并成一个包含太阳活动的起始时间、结束时间、经度、纬度、等级信息的数据文件。
JSOC网站下载链接获取模块为:能够根据文本文件中的数据填写待下载书的各项参数并发送HTTP请求,之后解析JSOC网站返回的参数获得数据的下载链接。
本发明的各个模块的实现思路相同,主要思想是利用Python的requests库模拟发送HTTP请求,从而得到指定网页的HTML代码,然后从HTML中提取出对我们有用的数据,下面以获取Solar Monitor网站的箭头所指向的NOAA Number为例进行演示,如图1所示。
首先加载相关库函数,请求https://www.solarmonitor.org网站进行测试(测试是否可以得到该网页的HTML代码):如图2所示。
然后,我们请求带有指定日期参数的Solar Monitor网页,利用解析HTML的方法我们可以从该网站的HTML中提取出我们想要的参数:12492;如图3所示。
这样就得到了我们想要的数据,其他网站或者其他数据项的采集原理同上。
具体地,所述天文学数据筛选与下载的爬虫软件还包括天文学数据自动化下载方法,方法如下:
步骤1:使用网络爬虫采集NOAA网站的太阳活动发生区域的起始时间、结束时间、活动等级数据,如图5所示;
步骤2:使用网络爬虫采集Solar Monitor网站的太阳活动发生区域的起始时间、区域编号、活动等级、以及对应区域的经纬度信息,如图6和图7所示;
步骤3:根据太阳活动爆发区域的起始时间与等级关系匹配步骤1和步骤2得到的数据集,得到每个太阳活动发生区域的区域编号、发生时间、结束时间、活动等级,如图8所示;
步骤4:利用步骤3得到的数据,去JSOC网站利用网络爬虫发送请求,并得到请求数据的下载链接,如图9和图10所示;
步骤5:得到下载链接之后就可以利用任意下载工具进行下载。
进一步地,一般来说,人工采集一条数据的周期大概是3~5分钟左右,但使用我们这款软件采集一条数据的周期大概是2~3秒,大大节约了采集时间,避免了人工采集过程中可能出现的差错。
以上内容是结合具体的实施例对本发明所作的详细说明,不能认定本发明具体实施仅限于这些说明。对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明保护的范围。

Claims (6)

1.一种天文学数据筛选与下载的爬虫软件,其特征在于:软件包括:NOAA网站的模拟HTTP请求与解析模块、Solar Monitor网站的模拟HTTP请求与解析模块、NOAA网站与SolarMonitor网站数据匹配模块及JSOC网站下载链接获取模块,上述各模块是通过Python的一个库requests构建,其中,requests是使用Apache2licensed许可证的HTTP库,用Python编写且支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动响应内容的编码,支持国际化的URL和POST数据自动编码,还在Python内置模块的基础上进行了高度的封装,使得Python进行网络请求时,实现requests完成浏览器可有的任何操作。
2.根据权利要求1所述的天文学数据筛选与下载的爬虫软件,其特征在于:所述的NOAA网站的模拟HTTP请求与解析模块为:可以对NOAA网站发送HTTP请求并得到NOAA网站1975年1月1日至2017年12月31日间的每天太阳活动的时间、等级数据,可将NOAA网站指定网页筛选后的特定数据项保存到磁盘。
3.根据权利要求1所述的天文学数据筛选与下载的爬虫软件,其特征在于:所述SolarMonitor网站的模拟HTTP请求与解析模块为:可以循环遍历2010年1月1日至2018年10月1日间的Solar Monitor网站记录的每天的太阳活动记录的时间信息、经纬度信息以及等级信息,可以将筛选后的Solar Monitor网站的指定信息保存到磁盘。
4.根据权利要求1所述的天文学数据筛选与下载的爬虫软件,其特征在于:所述NOAA网站与Solar Monitor网站数据匹配模块为:能够根据前面两个模块得到的磁盘文件进行匹配,匹配规则为若两个文件中的记录行中的太阳活动的起始时间与等级相等那么就完成匹配,否则不完成,将完成匹配的一条记录写入磁盘指定位置,从而将上述两个模块生成的数据文件合并成一个包含太阳活动的起始时间、结束时间、经度、纬度、等级信息的数据文件。
5.根据权利要求1所述的天文学数据筛选与下载的爬虫软件,其特征在于:所述JSOC网站下载链接获取模块为:能够根据文本文件中的数据填写待下载书的各项参数并发送HTTP请求,之后解析JSOC网站返回的参数获得数据的下载链接。
6.根据权利要求1所述的天文学数据筛选与下载的爬虫软件,其特征在于:还包括天文学数据自动化下载方法,所述方法如下:
步骤1:使用网络爬虫采集NOAA网站的太阳活动发生区域的起始时间、结束时间、活动等级数据;
步骤2:使用网络爬虫采集Solar Monitor网站的太阳活动发生区域的起始时间、区域编号、活动等级、以及对应区域的经纬度信息;
步骤3:根据太阳活动爆发区域的起始时间与等级关系匹配步骤1和步骤2得到的数据集,得到每个太阳活动发生区域的区域编号、发生时间、结束时间、活动等级;
步骤4:利用步骤3得到的数据,去JSOC网站利用网络爬虫发送请求,并得到请求数据的下载链接;
步骤5:得到下载链接之后就可以利用任意下载工具进行下载。
CN201910212731.5A 2019-03-20 2019-03-20 一种天文学数据筛选与下载的爬虫软件 Pending CN109902217A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910212731.5A CN109902217A (zh) 2019-03-20 2019-03-20 一种天文学数据筛选与下载的爬虫软件

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910212731.5A CN109902217A (zh) 2019-03-20 2019-03-20 一种天文学数据筛选与下载的爬虫软件

Publications (1)

Publication Number Publication Date
CN109902217A true CN109902217A (zh) 2019-06-18

Family

ID=66952424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910212731.5A Pending CN109902217A (zh) 2019-03-20 2019-03-20 一种天文学数据筛选与下载的爬虫软件

Country Status (1)

Country Link
CN (1) CN109902217A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111538550A (zh) * 2020-04-17 2020-08-14 姜海强 一种基于图像检测算法的网页信息筛查方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6952730B1 (en) * 2000-06-30 2005-10-04 Hewlett-Packard Development Company, L.P. System and method for efficient filtering of data set addresses in a web crawler
CN102999549A (zh) * 2012-09-25 2013-03-27 金博 一种实现网络爬虫任务的方法
CN106933973A (zh) * 2017-02-14 2017-07-07 广州优亿信息科技有限公司 一种可视化网络爬虫方法
CN107092632A (zh) * 2017-02-09 2017-08-25 北京小度信息科技有限公司 数据处理方法及装置
CN108052632A (zh) * 2017-12-20 2018-05-18 成都律云科技有限公司 一种网络信息获取方法、系统及企业信息搜索系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6952730B1 (en) * 2000-06-30 2005-10-04 Hewlett-Packard Development Company, L.P. System and method for efficient filtering of data set addresses in a web crawler
CN102999549A (zh) * 2012-09-25 2013-03-27 金博 一种实现网络爬虫任务的方法
CN107092632A (zh) * 2017-02-09 2017-08-25 北京小度信息科技有限公司 数据处理方法及装置
CN106933973A (zh) * 2017-02-14 2017-07-07 广州优亿信息科技有限公司 一种可视化网络爬虫方法
CN108052632A (zh) * 2017-12-20 2018-05-18 成都律云科技有限公司 一种网络信息获取方法、系统及企业信息搜索系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
胡鹏: "学习资源爬虫系统设计与实现", 《软件导刊》 *
-零: "python爬虫之下载文件的方式以及下载实例", 《博客园-HTTPS://WWW.CNBLOGS.COM/-WENLI/P/10160351.HTML》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111538550A (zh) * 2020-04-17 2020-08-14 姜海强 一种基于图像检测算法的网页信息筛查方法

Similar Documents

Publication Publication Date Title
CN103297469B (zh) 一种网站数据的采集方法及装置
Madder et al. e-Surveillance in Animal Health: use and evaluation of mobile tools
CN101196885A (zh) 网页数据自动填充系统及方法
CN110276041A (zh) 一种基于谷歌浏览器插件的网页数据获取方法及系统
CN101996196A (zh) 一种动态网页的采集方法及装置
CN109684210A (zh) 一种网站自动化测试方法、装置、设备及可读存储介质
CN110555146A (zh) 一种网络爬虫伪装数据的生成方法及系统
Tokmakoff et al. AusPlots Rangelands field data collection and publication: Infrastructure for ecological monitoring
CN109902217A (zh) 一种天文学数据筛选与下载的爬虫软件
CN110457283A (zh) 一种基于数据挖掘的教学点评与推荐系统及其方法
CN108256106B (zh) 一种模拟访问网站适配器系统
Ramachandran et al. Climate data initiative: A geocuration effort to support climate resilience
Malek Evaluation of Effectiveness of PPP for Road projects in Gujarat
Adewumi Deployment and usability evaluation of mobile access to institutional repository
Car et al. Towards a new generation of irrigation decision support systems-irrigation informatics
US11709861B1 (en) Access enhancements for network based interactive planning systems
Zhang et al. Mockup-driven fast-prototyping methodology for Web Applications
KR20170068353A (ko) 웹 기반으로 어학 연수 운영 시스템 및 방법
BioInteractive Coral Bleaching Mapping Activity
Zhou ZhaoZhi et al. Waste-to-energy: a review of life cycle assessment and its extension methods.
Ramapriyan NASA's Earth science data systems-past, present and future
Dahlin Remote Sensing of Plants and Topography in R (Project EDDIE)
Hathi Identification And Implementation Of Performance Improvement Approaches For Virtual Labs Experiments
Liu Intelligent Ecological Momentary Assessment Platform: Front-End Web App and Predictive Models
Nithya An integrated and automated testing approach in intelligent time critical systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Li Xuebao

Inventor after: Wang Xinshuo

Inventor after: Zheng Yanfang

Inventor before: Wang Xinshuo

Inventor before: Zheng Yanfang

Inventor before: Li Xuebao

CB03 Change of inventor or designer information
RJ01 Rejection of invention patent application after publication

Application publication date: 20190618

RJ01 Rejection of invention patent application after publication