CN116304273B - 一种基于网络爬虫技术的水文数据展示平台的管理方法 - Google Patents

一种基于网络爬虫技术的水文数据展示平台的管理方法 Download PDF

Info

Publication number
CN116304273B
CN116304273B CN202310592145.4A CN202310592145A CN116304273B CN 116304273 B CN116304273 B CN 116304273B CN 202310592145 A CN202310592145 A CN 202310592145A CN 116304273 B CN116304273 B CN 116304273B
Authority
CN
China
Prior art keywords
data
hydrologic
hydrological
module
website
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310592145.4A
Other languages
English (en)
Other versions
CN116304273A (zh
Inventor
李家华
覃杰
陈良志
刘洋
黄黎明
吴乔
王浩
林宁
夏立伟
万浩然
朱峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CCCC FHDI Engineering Co Ltd
Original Assignee
CCCC FHDI Engineering Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CCCC FHDI Engineering Co Ltd filed Critical CCCC FHDI Engineering Co Ltd
Priority to CN202310592145.4A priority Critical patent/CN116304273B/zh
Publication of CN116304273A publication Critical patent/CN116304273A/zh
Application granted granted Critical
Publication of CN116304273B publication Critical patent/CN116304273B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A10/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
    • Y02A10/40Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于网络爬虫技术的水文数据展示平台的管理方法,包括以下步骤:基于网络爬虫技术Python,所述Python的请求模块中的水文信息数据访问接口对专业水文网站数据网址进行水文数据获取,所述水文数据分为水文数据一类和水文数据二类,对所述水文数据一类进行数据提取,生成第一类水文数据;对网页源码进行解析,生成所述水文数据二类,对所述水文数据二类进行数据提取,生成第二类水文数据,数据整合第一类水文数据与第二类水文数据后生成最终水文数据,构建水文信息数据库,所述最终水文数据通过Python的数据库连接模块存储至所述水文信息数据库,最后在水文数据展示平台的项目智慧大屏上实时展示最终水文数据。

Description

一种基于网络爬虫技术的水文数据展示平台的管理方法
技术领域
本发明涉及信息管理技术领域,特别是一种基于网络爬虫技术的水文数据平台。
背景技术
施工海域的波浪、水流流向、水流流速等水文环境会对水工施工产生影响,在恶劣的环境中施工会对人身安全、财产安全造成损失。水文数据包括海浪预报信息、海温预报信息、海潮预报信息、海流信息和潮汐信息,水文数据作用如以下几点:一是为地方水利建设提供基础服务,主要以中型水利水电工程以上建设设立专用水文站,收集整编了大量基础水文资料,为水利工程的设计、立项、审批、建设提供了准确可靠的水文依据;二是为地方防汛减灾提供及时服务,为防汛抗旱减灾提供水文技术支撑,各水文站准确、及时、可靠的水文情报预报为地方政府、防办指挥决策、防洪抢险提供了科学的依据,提供了及时的服务,充分发挥了水文情报预报在防汛工作中的耳目和参谋作用,为防汛减灾和保证人民生命财产安全做出保;三是为地方水资源管理提供全面服务,积极做好水资源工作,为水资源管理和保护提供水文支撑。
水文数据对接在项目智慧大屏上以可视化视图的形式出现,为水工结构施工提供决策参考,提升项目安全施工水平。
发明内容
本发明克服了现有技术的不足,提供了一种基于网络爬虫技术的水文数据展示平台的管理方法。
为达到上述目的,本发明采用的技术方案为:
本发明第一方面提供了一种基于网络爬虫技术的水文数据展示平台的管理方法,包括以下步骤:
获取网络爬虫技术Python中的请求模块Requests模块,基于所述请求模块Requests模块中的水文信息数据访问接口在专业水文网站数据网址上获取水文数据;
所述Requests模块中的水文信息数据访问接口接收水文数据一类,基于Python对所述水文数据一类进行数据提取,生成第一类水文数据;通过网页解析模块将网页源代码解析成水文数据二类,对所述水文数据二类进行数据解析后根据正则表达式进行字符串的匹配拆分,最后进行数据提取,生成第二类水文数据;
构建水文信息数据库,对所述第一类水文数据与第二类水文数据进行数据整合,生成最终水文数据,将所述最终水文数据通过Python的数据库连接模块存储至所述水文信息数据库;
基于水文信息数据库,通过数据传输模块将所述最终水文数据传输至水文数据展示平台的项目智慧大屏进行实时展示;
所述水文数据展示平台中的水文数据在水文数据页面内以可视化视图形式展示,所述水文数据可以通过查询模块查询并通过导出模块导出。
进一步的,本发明的一个较佳实施例中,所述获取网络爬虫技术Python中的请求模块Requests模块,基于所述请求模块Requests模块中的水文信息数据访问接口在专业水文网站数据网址上获取水文数据,具体为:
打开需要获取数据的专业水文网站网页,查看所述专业水文网站网页的源代码并查找所需水文数据是否在所述专业水文网站网页中;
确定所述专业水文网站网页中有所需水文数据,导入基于Python的请求模块Requests模块,获取网页状态码,对所述专业水文网站网页输入源代码构造请求代码,运行源代码构造请求代码进行源代码构造请求;若代码返回值为200,则源代码构造请求代码正常运行,所述Requests模块正常响应;
若代码返回值为其他数值,则源代码构造请求代码错误,检查源代码构造请求代码错误是否正确后,重新输入源代码构造请求代码并运行源代码构造请求代码;
基于Python编写水文数据获取代码,基于所述Requests模块中水文信息数据访问接口在专业水文网站数据网址上进行水文数据获取。
进一步的,本发明的一个较佳实施例中,所述Requests模块中的水文信息数据访问接口接收水文数据一类,基于Python对所述水文数据一类进行数据提取,生成第一类水文数据;通过网页解析模块将网页源代码解析成水文数据二类,对所述水文数据二类进行数据解析后根据正则表达式进行字符串的匹配拆分,最后进行数据提取,生成第二类水文数据,具体为:
运行所述Python的水文数据获取代码,获取水文数据一类,通过Requests模块中的水文信息数据访问接口接收水文数据一类;
所述水文数据一类以字符串形式表达,确定所需要获取的水文数据一类字符串,根据正则表达式,定义需要获取直接返回的水文数据特定字符及特定字符组合,组成规则字符串,所述规则字符串用于对水文数据字符串进行过滤筛选;
通过所述正则表达式对水文数据一类进行数据提取,提取后的水文数据定义为第一类水文数据;
导入BeautifulSoup模块,所述BeautifulSoup模块为特定内容解析器,在所述BeautifulSoup模块中输入专业水文网站数据网址源代码, 所述BeautifulSoup模块将所述专业水文网站数据网址源代码转换为HTML文本;
对HTML文本进行解析得到水文数据二类,所述水文数据二类以字符串形式表达,确定所需要获取的水文数据二类字符串,根据正则表达式,定义需要获取的水文数据二类特定字符及特定字符组合,组成规则字符串,通过所述正则表达式对水文数据二类进行数据提取,提取后的水文数据定义为第二类水文数据。
进一步的,本发明的一个较佳实施例中,所述构建水文信息数据库,对所述第一类水文数据与第二类水文数据进行数据整合,生成最终水文数据,将所述最终水文数据通过Python的数据库连接模块存储至所述水文信息数据库,具体为:
构建虚拟空间,基于所述虚拟空间,导入第一类水文数据与第二类水文数据,在所述虚拟空间内对所述第一类水文数据与第二类水文数据进行数据整合,得到最终水文数据;
构建水文信息数据库,所述Python中包括数据库连接模块, 所述数据库连接模块基于所述水文信息数据库工作,将得到的最终水文数据储存至水文信息数据库。
进一步的,本发明的一个较佳实施例中,所述基于水文信息数据库,通过数据传输模块将所述最终水文数据传输至水文数据展示平台的项目智慧大屏进行实时展示,具体为:
通过数据传输模块,连接所述水文信息数据库和水文数据展示平台,所述水文信息数据库内的水文数据实时更新,通过数据传输模块将所述实时更新的水文数据传输至水文数据展示平台;
所述水文数据展示平台连接项目智慧大屏,项目智慧大屏通过柱状图和条形图的视图方式展示实时更新的水文数据。
进一步的,本发明的一个较佳实施例中,所述水文数据展示平台中的水文数据在水文数据页面内以可视化视图形式展示,所述水文数据可以通过查询模块查询并通过导出模块导出,具体为:
所述水文数据展示平台连接所述水文信息数据库,所述水文数据展示平台接收来自所述水文信息数据库提供的实时更新的水文数据后,对实时更新的水文数据进行分类,分类后的水文信息在所述水文数据展示平台实时展示,以下是对实时更新的水文数据的分类方式:
使用正则表达式对实时更新的水文数据进行分类,所述实时更新的水文数据以字符串形式表达,基于Python,分别定义实时更新的各种水文信息的特定字符及特定字符组合,组成规则字符串,所述规则字符串对实时更新的水文数据字符串进行过滤筛选后,在所述水文数据展示平台分类实时展示;
所述水文数据展示平台中的水文数据可以通过查询模块查询并通过导出模块导出。
本发明第二方面还提供了一种基于网络爬虫技术的水文数据展示平台的管理系统,所述水文数据展示平台的管理系统包括存储器与处理器,所述存储器中储存有水文数据展示平台管理方法程序,所述水文数据展示平台管理方法程序被所属处理器执行时,实现如下步骤:
获取网络爬虫技术Python中的请求模块Requests模块,基于所述请求模块Requests模块中的水文信息数据访问接口在专业水文网站数据网址上获取水文数据;
所述Requests模块中的水文信息数据访问接口接收水文数据一类,基于Python对所述水文数据一类进行数据提取,生成第一类水文数据;通过网页解析模块将网页源代码解析成水文数据二类,对所述水文数据二类进行数据解析后根据正则表达式进行字符串的匹配拆分,最后进行数据提取,生成第二类水文数据;
构建水文信息数据库,对所述第一类水文数据与第二类水文数据进行数据整合,生成最终水文数据,将所述最终水文数据通过Python的数据库连接模块存储至所述水文信息数据库;
基于水文信息数据库,通过数据传输模块将所述最终水文数据传输至水文数据展示平台的项目智慧大屏进行实时展示;
所述水文数据展示平台中的水文数据在水文数据页面内以可视化视图形式展示,所述水文数据可以通过查询模块查询并通过导出模块导出。
进一步的,本发明的一个较佳实施例中,所述Requests模块中的水文信息数据访问接口接收水文数据一类,基于Python对所述水文数据一类进行数据提取,生成第一类水文数据;通过网页解析模块将网页源代码解析成水文数据二类,对所述水文数据二类进行数据解析后根据正则表达式进行字符串的匹配拆分,最后进行数据提取,生成第二类水文数据,具体为:
运行所述Python的水文数据获取代码,获取水文数据一类,通过Requests模块中的水文信息数据访问接口接收水文数据一类;
所述水文数据一类以字符串形式表达,确定所需要获取的水文数据一类字符串,根据正则表达式,定义需要获取直接返回的水文数据特定字符及特定字符组合,组成规则字符串,所述规则字符串用于对水文数据字符串进行过滤筛选;
通过所述正则表达式对水文数据一类进行数据提取,提取后的水文数据定义为第一类水文数据;
导入BeautifulSoup模块,所述BeautifulSoup模块为特定内容解析器,在所述BeautifulSoup模块中输入专业水文网站数据网址源代码, 所述BeautifulSoup模块将所述专业水文网站数据网址源代码转换为HTML文本;
对HTML文本进行解析得到水文数据二类,所述水文数据二类以字符串形式表达,确定所需要获取的水文数据二类字符串,根据正则表达式,定义需要获取的水文数据二类特定字符及特定字符组合,组成规则字符串,通过所述正则表达式对水文数据二类进行数据提取,提取后的水文数据定义为第二类水文数据。
进一步的,本发明的一个较佳实施例中,所述构建水文信息数据库,对所述第一类水文数据与第二类水文数据进行数据整合,生成最终水文数据,将所述最终水文数据通过Python的数据库连接模块存储至所述水文信息数据库,具体为:
构建虚拟空间,基于所述虚拟空间,导入第一类水文数据与第二类水文数据,在所述虚拟空间内对所述第一类水文数据与第二类水文数据进行数据整合,得到最终水文数据;
构建水文信息数据库,所述Python中包括数据库连接模块, 所述数据库连接模块基于所述水文信息数据库工作,将得到的最终水文数据储存至水文信息数据库。
本发明解决的背景技术中存在的技术缺陷,本发明具备以下有益效果:基于网络爬虫技术Python,所述Python的请求模块中的水文信息数据访问接口对专业水文网站数据网址进行水文数据获取,所述水文数据分为水文数据一类和水文数据二类,对所述水文数据一类进行数据提取,生成第一类水文数据;对网页源码进行解析,生成所述水文数据二类,对所述水文数据二类进行数据提取,生成第二类水文数据,数据整合第一类水文数据与第二类水文数据后生成最终水文数据,构建水文信息数据库,所述最终水文数据通过Python的数据库连接模块存储至所述水文信息数据库,最后在水文数据展示平台的项目智慧大屏上实时展示最终水文数据。本发明为水工结构施工提供决策参考,从而提升项目安全施工水平。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他实施例的附图。
图1示出了一种基于网络爬虫技术的水文数据展示平台的管理方法的流程图;
图2示出了Python在专业水文网站网页上进行数据获取工作的流程图;
图3示出了一种基于网络爬虫技术的水文数据展示平台的管理系统的流程图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
如图1所示,本发明提供了一种基于网络爬虫技术的水文数据展示平台的管理方法,包括以下步骤:
S102, 获取网络爬虫技术Python中的请求模块Requests模块,基于所述请求模块Requests模块中的水文信息数据访问接口在专业水文网站数据网址上获取水文数据;
S104,所述Requests模块中的水文信息数据访问接口接收水文数据一类,基于Python对所述水文数据一类进行数据提取,生成第一类水文数据;通过网页解析模块将网页源代码解析成水文数据二类,对所述水文数据二类进行数据解析后根据正则表达式进行字符串的匹配拆分,最后进行数据提取,生成第二类水文数据;
S106,构建水文信息数据库,对所述第一类水文数据与第二类水文数据进行数据整合,生成最终水文数据,将所述最终水文数据通过Python的数据库连接模块存储至所述水文信息数据库;
S108,基于水文信息数据库,通过数据传输模块将所述最终水文数据传输至水文数据展示平台的项目智慧大屏进行实时展示;
S110,所述水文数据展示平台中的水文数据在水文数据页面内以可视化视图形式展示,所述水文数据可以通过查询模块查询并通过导出模块导出。
需要说明的是,本发明能为水工结构施工提供海洋环境参考,提升项目安全施工水平,保护施工人员的生命安全与财产安全。
进一步的,本发明的一个较佳实施例中,所述获取网络爬虫技术Python中的请求模块Requests模块,基于所述请求模块Requests模块中的水文信息数据访问接口在专业水文网站数据网址上获取水文数据,具体为:
打开需要获取数据的专业水文网站网页,查看所述专业水文网站网页的源代码并查找所需水文数据是否在所述专业水文网站网页中;
确定所述专业水文网站网页中有所需水文数据,导入基于Python的请求模块Requests模块,获取网页状态码,对所述专业水文网站网页输入源代码构造请求代码,运行源代码构造请求代码进行源代码构造请求;若代码返回值为200,则源代码构造请求代码正常运行,所述Requests模块正常响应;
若代码返回值为其他数值,则源代码构造请求代码错误,检查源代码构造请求代码错误是否正确后,重新输入源代码构造请求代码并运行源代码构造请求代码;
基于Python编写水文数据获取代码,基于所述Requests模块中水文信息数据访问接口在专业水文网站数据网址上进行水文数据获取。
需要说明的是,所述请求模块Requests模块中的水文信息数据访问接口接收的水文数据为直接在网页上利用Python技术抓取的数据,缺乏完整性,可能存在抓取数据不完整的错误;所述源代码构造请求代码用于判定源代码运行环境是否正常,若源代码运行正常响应,Python能够抓取网页上的水文数据,若源代码运行不正常响应,Python运行环境显示错误,Python不能抓取网页上的水文数据。本方法能够通过Requests模块中的水文信息数据访问接口对专业水文网站网页上的数据进行数据接收。
进一步的,本发明的一个较佳实施例中,所述构建水文信息数据库,对所述第一类水文数据与第二类水文数据进行数据整合,生成最终水文数据,将所述最终水文数据通过Python的数据库连接模块存储至所述水文信息数据库,具体为:
构建虚拟空间,基于所述虚拟空间,导入第一类水文数据与第二类水文数据,在所述虚拟空间内对所述第一类水文数据与第二类水文数据进行数据整合,得到最终水文数据;
构建水文信息数据库,所述Python中包括数据库连接模块, 所述数据库连接模块基于所述水文信息数据库工作,将得到的最终水文数据储存至水文信息数据库。
需要说明的是,水文信息数据库存储有历史水文信息和实时更新的水文数据,所述最终水文数据为实时更新的水文数据;所述虚拟空间用于第一类水文数据与第二类水文数据之间的数据整合。本方法能够对第一类水文数据和第二类水文数据进行数据整合生成最终水文数据。
进一步的,本发明的一个较佳实施例中,所述水文数据展示平台中的水文数据在水文数据页面内以可视化视图形式展示,所述水文数据可以通过查询模块查询并通过导出模块导出,具体为:
所述水文数据展示平台连接所述水文信息数据库,所述水文数据展示平台接收来自所述水文信息数据库提供的实时更新的水文数据后,对实时更新的水文数据进行分类,分类后的水文信息在所述水文数据展示平台实时展示,以下是对实时更新的水文数据的分类方式:
使用正则表达式对实时更新的水文数据进行分类,所述实时更新的水文数据以字符串形式表达,基于Python,分别定义实时更新的各种水文信息的特定字符及特定字符组合,组成规则字符串,所述规则字符串对实时更新的水文数据字符串进行过滤筛选后,在所述水文数据展示平台分类实时展示;
所述水文数据展示平台中的水文数据可以通过查询模块查询并通过导出模块导出。
需要说明的是,所述可通过查询模块查询并通过导出模块导出的水文数据包括水文信息数据库内的历史水文数据和实时更新的水文数据,所述实时更新的水文数据包括海浪预报信息、海温预报信息、海潮预报信息、海流预报信息和潮汐信息。本方法能够对水文数据展示平台的各种水文数据以可视化视图的方式进行分类展示。
图2示出了Python在专业水文网站网页上进行数据获取工作的流程图,包括以下步骤:
S202,所述Requests模块通过水文信息数据访问接口接收水文数据一类,基于Python对所述水文数据一类进行数据提取,得到第一类水文数据;
S204,通过网页解析模块将网页源代码解析成水文数据二类;
S206,解析后的水文数据二类根据正则表达式进行字符串的匹配拆分,然后进行数据提取,生成第二类水文数据。
进一步的,本发明的一个较佳实施例中,所述Requests模块通过水文信息数据访问接口接收水文数据一类,基于Python对所述水文数据一类进行数据提取,得到第一类水文数据,具体为:
运行所述Python的水文数据获取代码,获取水文数据一类,通过Requests模块中的水文信息数据访问接口接收水文数据一类;
所述水文数据一类以字符串形式表达,确定所需要获取的水文数据一类字符串,根据正则表达式,定义需要获取直接返回的水文数据特定字符及特定字符组合,组成规则字符串,所述规则字符串用于对水文数据字符串进行过滤筛选;
通过所述正则表达式对水文数据一类进行数据提取,提取后的水文数据定义为第一类水文数据;
需要说明的是,所述水文数据一类为Python直接从网页上抓取的水文数据,缺乏完整性,需要通过数据整合完善;所述正则表达式对所述水文数据一类进行过滤筛选,提取出所需要的水文数据,定义为第一类水文数据。本方法能够获得专业水文网站的数据并提取出所需要的水文数据。
进一步的,本发明的一个较佳实施例中,所述通过网页解析模块将网页源代码解析成水文数据二类,具体为:
导入BeautifulSoup模块,所述BeautifulSoup模块为特定内容解析器,在所述BeautifulSoup模块中输入专业水文网站数据网址源代码, 所述BeautifulSoup模块将所述专业水文网站数据网址源代码转换为HTML文本,对所述HTML文本进行解析得到水文数据二类。
需要说明的是,HTML主要工作为编辑文本结构和文本内容,便于浏览器显示简洁正确的处理后的文本;所述BeautifulSoup模块为Python的一个库,主要功能为在网页上抓取数据,以及解析和提取HTML/XML数据,所述BeautifulSoup模块能够通过转换器实现惯用的文档导航、查找以及修改文档,使用所述BeautifulSoup能够提高提取数据的效率与爬虫开发效率。本方法能够通过BeautifulSoup模块实现对网址源代码的转换。
进一步的,本发明的一个较佳实施例中,所述解析后的水文数据二类根据正则表达式进行字符串的匹配拆分,然后进行数据提取,生成第二类水文数据,具体为:
对HTML文本进行解析得到水文数据二类,所述水文数据二类以字符串形式表达,确定所需要获取的水文数据二类字符串,根据正则表达式,定义需要获取的水文数据二类特定字符及特定字符组合,组成规则字符串,通过所述正则表达式对水文数据二类进行数据提取,提取后的水文数据定义为第二类水文数据;
需要说明的是,所述水文数据二类由HTML文本解析得出,所述HTML文本由网页源代码转变而来,因此水文数据二类完整性与准确性较之所述水文数据一类更高;所述正则表达式对所述水文数据二类进行过滤筛选,提取出所需要的水文数据,定义为第二类水文数据。本方法能够准确提取出所需要的水文数据,对HTML文本进行解析得到的第二类水文数据更完整。
此外,所述一种基于网络爬虫技术的水文数据展示平台的管理方法,还包括以下步骤:
由于水文数据不断更新,所述Python对专业水文网站网页进行数据获取工作需要不断进行,对Python获取水文数据的程序设置循环抓取命令,使所述Python获取水文数据的程序不间断对专业水文网站网页进行数据获取工作。
需要说明的是,所述Python获取水文数据程序的循环抓取命令存在周期性,所述Python获取水文数据程序不必一直不停抓取,一直不停抓取水文数据会导致水文数据重复,浪费人力财力,对工作做无用功,可设置Python获取水文数据程序按照一定周期进行抓取,使所述水文数据更精确。本方法能够对专业水文网站网页上的水文数据进行循环抓取,提高水文数据准确性。
如图3所示,本发明第二方面提供了一种基于网络爬虫技术水文数据展示平台的管理系统,所述数据展示平台的管理系统包括储存器31以及处理器32,所述储存器31包括水文数据展示平台管理方法程序,所述水文数据展示平台管理方法程序被所属处理器32执行时,实现如下步骤:
获取网络爬虫技术Python中的请求模块Requests模块,基于所述请求模块Requests模块中的水文信息数据访问接口在专业水文网站数据网址上获取水文数据;
所述Requests模块中的水文信息数据访问接口接收水文数据一类,基于Python对所述水文数据一类进行数据提取,生成第一类水文数据;通过网页解析模块将网页源代码解析成水文数据二类,对所述水文数据二类进行数据解析后根据正则表达式进行字符串的匹配拆分,最后进行数据提取,生成第二类水文数据;
构建水文信息数据库,对所述第一类水文数据与第二类水文数据进行数据整合,生成最终水文数据,将所述最终水文数据通过Python的数据库连接模块存储至所述水文信息数据库;
基于水文信息数据库,通过数据传输模块将所述最终水文数据传输至水文数据展示平台的项目智慧大屏进行实时展示;
所述水文数据展示平台中的水文数据在水文数据页面内以可视化视图形式展示,所述水文数据可以通过查询模块查询并通过导出模块导出。
进一步的,本发明的一个较佳实施例中,所述构建水文信息数据库,对所述第一类水文数据与第二类水文数据进行数据整合,生成最终水文数据,将所述最终水文数据通过Python的数据库连接模块存储至所述水文信息数据库,具体为:
构建虚拟空间,基于所述虚拟空间,导入第一类水文数据与第二类水文数据,在所述虚拟空间内对所述第一类水文数据与第二类水文数据进行数据整合,得到最终水文数据;
构建水文信息数据库,所述Python中包括数据库连接模块, 所述数据库连接模块基于所述水文信息数据库工作,将得到的最终水文数据储存至水文信息数据库。
需要说明的是,水文信息数据库存储有历史水文信息和实时更新的水文数据,所述最终水文数据为实时更新的水文数据;所述虚拟空间用于第一类水文数据与第二类水文数据之间的数据整合。本方法能够对第一类水文数据和第二类水文数据进行数据整合生成最终水文数据。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (2)

1.一种基于网络爬虫技术的水文数据展示平台的管理方法,其特征在于,包括以下步骤:
获取网络爬虫技术Python中的请求模块Requests模块,基于所述请求模块Requests模块中的水文信息数据访问接口在专业水文网站数据网址上获取水文数据;
所述Requests模块中的水文信息数据访问接口接收水文数据一类,基于Python对所述水文数据一类进行数据提取,生成第一类水文数据;通过网页解析模块将网页源代码解析成水文数据二类,对所述水文数据二类进行数据解析后根据正则表达式进行字符串的匹配拆分,最后进行数据提取,生成第二类水文数据;
构建水文信息数据库,对所述第一类水文数据与第二类水文数据进行数据整合,生成最终水文数据,将所述最终水文数据通过Python的数据库连接模块存储至所述水文信息数据库;
通过数据传输模块将所述水文信息数据库中的最终水文数据传输至水文数据展示平台的项目智慧大屏进行实时展示;
所述水文数据展示平台中的水文数据在水文数据页面内以可视化视图形式展示,所述水文数据通过查询模块查询并通过导出模块导出;
其中,所述获取网络爬虫技术Python中的请求模块Requests模块,基于所述请求模块Requests模块中的水文信息数据访问接口在专业水文网站数据网址上获取水文数据,具体为:
打开需要获取数据的专业水文网站网页,查看所述专业水文网站网页的源代码并查找所需水文数据是否在所述专业水文网站网页中;
确定所述专业水文网站网页中有所需水文数据,导入基于Python的请求模块Requests模块,获取网页状态码,对所述专业水文网站网页输入源代码构造请求代码,运行源代码构造请求代码进行源代码构造请求;若代码返回值为200,则源代码构造请求代码正常运行,所述Requests模块正常响应;
若代码返回值为其他数值,则源代码构造请求代码错误,检查源代码构造请求代码错误是否正确后,重新输入源代码构造请求代码并运行源代码构造请求代码;
基于Python编写水文数据获取代码,基于所述Requests模块中水文信息数据访问接口在专业水文网站数据网址上进行水文数据获取;
其中所述Requests模块中的水文信息数据访问接口接收水文数据一类,基于Python对所述水文数据一类进行数据提取,生成第一类水文数据;通过网页解析模块将网页源代码解析成水文数据二类,对所述水文数据二类进行数据解析后根据正则表达式进行字符串的匹配拆分,最后进行数据提取,生成第二类水文数据,具体为:
运行所述Python的水文数据获取代码,获取水文数据一类,通过Requests模块中的水文信息数据访问接口接收水文数据一类;
所述水文数据一类以字符串形式表达,确定所需要获取的水文数据一类字符串,根据正则表达式,定义需要获取直接返回的水文数据的特定字符及特定字符组合,组成规则字符串,所述规则字符串用于对水文数据字符串进行过滤筛选;
通过所述正则表达式对水文数据一类进行数据提取,提取后的水文数据定义为第一类水文数据;
导入BeautifulSoup模块,所述BeautifulSoup模块为特定内容解析器,在所述BeautifulSoup模块中输入专业水文网站数据网址源代码, 所述BeautifulSoup模块将所述专业水文网站数据网址源代码转换为HTML文本;
对HTML文本进行解析得到水文数据二类,所述水文数据二类以字符串形式表达,确定所需要获取的水文数据二类字符串,根据正则表达式,定义所述需要获取的水文数据二类的特定字符及特定字符组合,组成规则字符串,通过所述正则表达式对水文数据二类进行数据提取,提取后的水文数据定义为第二类水文数据;
其中所述构建水文信息数据库,对所述第一类水文数据与第二类水文数据进行数据整合,生成最终水文数据,将所述最终水文数据通过Python的数据库连接模块存储至所述水文信息数据库,具体为:
构建虚拟空间,将所述第一类水文数据与所述第二类水文数据导入所述虚拟空间中,在所述虚拟空间内对所述第一类水文数据与第二类水文数据进行数据整合,得到最终水文数据;
构建水文信息数据库,所述Python中包括数据库连接模块, 所述数据库连接模块基于所述水文信息数据库工作,将所述得到的最终水文数据储存至水文信息数据库;
其中,通过数据传输模块将所述水文信息数据库中的最终水文数据传输至水文数据展示平台的项目智慧大屏进行实时展示,具体为:
通过数据传输模块,连接所述水文信息数据库和水文数据展示平台,所述水文信息数据库内的水文数据实时更新,通过数据传输模块将所述实时更新的水文数据传输至水文数据展示平台;
所述水文数据展示平台连接项目智慧大屏,项目智慧大屏通过柱状图和条形图的视图方式展示所述实时更新的水文数据;
其中所述水文数据展示平台中的水文数据在水文数据页面内以可视化视图形式展示,所述水文数据通过查询模块查询并通过导出模块导出,具体为:
所述水文数据展示平台连接所述水文信息数据库,所述水文数据展示平台接收来自所述水文信息数据库提供的实时更新的水文数据后,对实时更新的水文数据进行分类,分类后的水文信息在所述水文数据展示平台实时展示,以下是对实时更新的水文数据的分类方式:
使用正则表达式对实时更新的水文数据进行分类,所述实时更新的水文数据以字符串形式表达,基于Python,分别定义实时更新的各种水文信息的特定字符及特定字符组合,组成规则字符串,所述规则字符串对所述实时更新的水文数据字符串进行过滤筛选后,在所述水文数据展示平台分类实时展示;
所述水文数据展示平台中的水文数据通过查询模块查询并通过导出模块导出;
其中,还包括以下步骤:
由于水文数据不断更新,所述Python对专业水文网站网页进行数据获取工作需要不断进行,对Python获取水文数据的程序设置循环抓取命令,使所述Python获取水文数据的程序不间断对专业水文网站网页进行数据获取工作。
2.一种基于网络爬虫技术的水文数据展示平台的管理系统,其特征在于,所述水文数据展示平台的管理系统包括存储器与处理器,所述存储器中储存有水文数据展示平台管理方法程序,所述水文数据展示平台管理方法程序被所属处理器执行时,实现如下步骤:
获取网络爬虫技术Python中的请求模块Requests模块,基于所述请求模块Requests模块中的水文信息数据访问接口在专业水文网站数据网址上获取水文数据;
所述Requests模块中的水文信息数据访问接口接收水文数据一类,基于Python对所述水文数据一类进行数据提取,生成第一类水文数据;通过网页解析模块将网页源代码解析成水文数据二类,对所述水文数据二类进行数据解析后根据正则表达式进行字符串的匹配拆分,最后进行数据提取,生成第二类水文数据;
构建水文信息数据库,对所述第一类水文数据与第二类水文数据进行数据整合,生成最终水文数据,将所述最终水文数据通过Python的数据库连接模块存储至所述水文信息数据库;
通过数据传输模块将所述水文信息数据库中的最终水文数据传输至水文数据展示平台的项目智慧大屏进行实时展示;
所述水文数据展示平台中的水文数据在水文数据页面内以可视化视图形式展示,所述水文数据通过查询模块查询并通过导出模块导出;
其中,所述获取网络爬虫技术Python中的请求模块Requests模块,基于所述请求模块Requests模块中的水文信息数据访问接口在专业水文网站数据网址上获取水文数据,具体为:
打开需要获取数据的专业水文网站网页,查看所述专业水文网站网页的源代码并查找所需水文数据是否在所述专业水文网站网页中;
确定所述专业水文网站网页中有所需水文数据,导入基于Python的请求模块Requests模块,获取网页状态码,对所述专业水文网站网页输入源代码构造请求代码,运行源代码构造请求代码进行源代码构造请求;若代码返回值为200,则源代码构造请求代码正常运行,所述Requests模块正常响应;
若代码返回值为其他数值,则源代码构造请求代码错误,检查源代码构造请求代码错误是否正确后,重新输入源代码构造请求代码并运行源代码构造请求代码;
基于Python编写水文数据获取代码,基于所述Requests模块中水文信息数据访问接口在专业水文网站数据网址上进行水文数据获取;
其中所述Requests模块中的水文信息数据访问接口接收水文数据一类,基于Python对所述水文数据一类进行数据提取,生成第一类水文数据;通过网页解析模块将网页源代码解析成水文数据二类,对所述水文数据二类进行数据解析后根据正则表达式进行字符串的匹配拆分,最后进行数据提取,生成第二类水文数据,具体为:
运行所述Python的水文数据获取代码,获取水文数据一类,通过Requests模块中的水文信息数据访问接口接收水文数据一类;
所述水文数据一类以字符串形式表达,确定所需要获取的水文数据一类字符串,根据正则表达式,定义需要获取直接返回的水文数据的特定字符及特定字符组合,组成规则字符串,所述规则字符串用于对水文数据字符串进行过滤筛选;
通过所述正则表达式对水文数据一类进行数据提取,提取后的水文数据定义为第一类水文数据;
导入BeautifulSoup模块,所述BeautifulSoup模块为特定内容解析器,在所述BeautifulSoup模块中输入专业水文网站数据网址源代码, 所述BeautifulSoup模块将所述专业水文网站数据网址源代码转换为HTML文本;
对HTML文本进行解析得到水文数据二类,所述水文数据二类以字符串形式表达,确定所需要获取的水文数据二类字符串,根据正则表达式,定义所述需要获取的水文数据二类的特定字符及特定字符组合,组成规则字符串,通过所述正则表达式对水文数据二类进行数据提取,提取后的水文数据定义为第二类水文数据;
其中所述构建水文信息数据库,对所述第一类水文数据与第二类水文数据进行数据整合,生成最终水文数据,将所述最终水文数据通过Python的数据库连接模块存储至所述水文信息数据库,具体为:
构建虚拟空间,将所述第一类水文数据与所述第二类水文数据导入所述虚拟空间中,在所述虚拟空间内对所述第一类水文数据与第二类水文数据进行数据整合,得到最终水文数据;
构建水文信息数据库,所述Python中包括数据库连接模块, 所述数据库连接模块基于所述水文信息数据库工作,将所述得到的最终水文数据储存至水文信息数据库;
其中,通过数据传输模块将所述水文信息数据库中的最终水文数据传输至水文数据展示平台的项目智慧大屏进行实时展示,具体为:
通过数据传输模块,连接所述水文信息数据库和水文数据展示平台,所述水文信息数据库内的水文数据实时更新,通过数据传输模块将所述实时更新的水文数据传输至水文数据展示平台;
所述水文数据展示平台连接项目智慧大屏,项目智慧大屏通过柱状图和条形图的视图方式展示所述实时更新的水文数据;
其中所述水文数据展示平台中的水文数据在水文数据页面内以可视化视图形式展示,所述水文数据通过查询模块查询并通过导出模块导出,具体为:
所述水文数据展示平台连接所述水文信息数据库,所述水文数据展示平台接收来自所述水文信息数据库提供的实时更新的水文数据后,对实时更新的水文数据进行分类,分类后的水文信息在所述水文数据展示平台实时展示,以下是对实时更新的水文数据的分类方式:
使用正则表达式对实时更新的水文数据进行分类,所述实时更新的水文数据以字符串形式表达,基于Python,分别定义实时更新的各种水文信息的特定字符及特定字符组合,组成规则字符串,所述规则字符串对所述实时更新的水文数据字符串进行过滤筛选后,在所述水文数据展示平台分类实时展示;
所述水文数据展示平台中的水文数据通过查询模块查询并通过导出模块导出;
其中,还包括以下步骤:
由于水文数据不断更新,所述Python对专业水文网站网页进行数据获取工作需要不断进行,对Python获取水文数据的程序设置循环抓取命令,使所述Python获取水文数据的程序不间断对专业水文网站网页进行数据获取工作。
CN202310592145.4A 2023-05-24 2023-05-24 一种基于网络爬虫技术的水文数据展示平台的管理方法 Active CN116304273B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310592145.4A CN116304273B (zh) 2023-05-24 2023-05-24 一种基于网络爬虫技术的水文数据展示平台的管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310592145.4A CN116304273B (zh) 2023-05-24 2023-05-24 一种基于网络爬虫技术的水文数据展示平台的管理方法

Publications (2)

Publication Number Publication Date
CN116304273A CN116304273A (zh) 2023-06-23
CN116304273B true CN116304273B (zh) 2023-08-18

Family

ID=86815361

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310592145.4A Active CN116304273B (zh) 2023-05-24 2023-05-24 一种基于网络爬虫技术的水文数据展示平台的管理方法

Country Status (1)

Country Link
CN (1) CN116304273B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110968782A (zh) * 2019-10-15 2020-04-07 东北大学 一种面向学者的用户画像构建及应用方法
CN111859067A (zh) * 2020-06-30 2020-10-30 中国地质大学(武汉) 一种基于网络爬虫技术的水文水质数据采集方法及系统
CN112818292A (zh) * 2021-01-20 2021-05-18 天津市陆海测绘有限公司 一种预报潮汐数据快速获取与拟合方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11709854B2 (en) * 2018-01-02 2023-07-25 Bank Of America Corporation Artificial intelligence based smart data engine

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110968782A (zh) * 2019-10-15 2020-04-07 东北大学 一种面向学者的用户画像构建及应用方法
CN111859067A (zh) * 2020-06-30 2020-10-30 中国地质大学(武汉) 一种基于网络爬虫技术的水文水质数据采集方法及系统
CN112818292A (zh) * 2021-01-20 2021-05-18 天津市陆海测绘有限公司 一种预报潮汐数据快速获取与拟合方法

Also Published As

Publication number Publication date
CN116304273A (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
CN102034042B (zh) 基于函数调用关系图特征的恶意代码检测新方法
CN103049532A (zh) 基于突发事件应急管理的知识库引擎构建及其查询方法
CN113282955B (zh) 隐私政策中隐私信息提取方法、系统、终端及介质
CN102739679A (zh) 一种基于url分类的钓鱼网站检测方法
CN113051929A (zh) 一种基于细粒度语义信息增强的实体关系抽取的方法
CN107341399A (zh) 评估代码文件安全性的方法及装置
CN114648393A (zh) 一种应用于招投标的数据挖掘方法、系统及设备
CN101782897A (zh) 基于事件的中文语料标注方法
KR102396771B1 (ko) 재난원인 정보 자동 추출 방법
CN103810251A (zh) 一种文本提取方法及装置
CN114862169A (zh) 一种基于bim的隧道工程安全风险监测系统及方法
CN115905553A (zh) 面向施工图审查规范知识抽取与知识图谱构建方法及系统
CN116010612A (zh) 流域防洪知识图谱构建方法、装置及电子设备
CN116304273B (zh) 一种基于网络爬虫技术的水文数据展示平台的管理方法
CN116910104B (zh) 基于大语言模型的建筑业施工安全智能日志记录方法
CN116881395A (zh) 一种舆情信息检测方法和装置
CN114328956B (zh) 文本信息的确定方法、装置、电子设备及存储介质
CN115222058A (zh) 调控系统运行状态分析模型构建方法及装置、介质及设备
CN101814098A (zh) 基于垂直搜索及语义标注获取软件安全缺陷的方法
CN113609842A (zh) 一种获取景区评论数据、旅行体验评价的方法
CN113688346A (zh) 一种违法网站识别方法、装置、设备及存储介质
CN112966296A (zh) 基于规则配置和机器学习的敏感信息过滤方法和系统
Galhardas et al. A framework for classifying scientific metadata
Scharl Web coverage of renewable energy

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant