CN112507191A - 用于智慧城市的海量水利数据采集优化方法、装置及系统 - Google Patents
用于智慧城市的海量水利数据采集优化方法、装置及系统 Download PDFInfo
- Publication number
- CN112507191A CN112507191A CN202110162018.1A CN202110162018A CN112507191A CN 112507191 A CN112507191 A CN 112507191A CN 202110162018 A CN202110162018 A CN 202110162018A CN 112507191 A CN112507191 A CN 112507191A
- Authority
- CN
- China
- Prior art keywords
- data
- water conservancy
- webpage
- content
- theme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 title claims abstract description 319
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000005457 optimization Methods 0.000 title claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 47
- 238000012545 processing Methods 0.000 claims abstract description 43
- 230000008569 process Effects 0.000 claims abstract description 23
- 230000009193 crawling Effects 0.000 claims abstract description 10
- 238000000605 extraction Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 4
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000002689 soil Substances 0.000 description 2
- 238000004162 soil erosion Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种用于智慧城市的海量水利数据采集优化方法、装置及系统,该方法包括:获取具有水利数据的种子网页集;以所述种子网页集为起点,通过主题爬虫工具爬取并下载水利数据网页;对所述水利数据网页进行内容提取,并通过预设的主题相关性算法判断所述水利数据网页中的内容是否符合预设的水利数据主题;若所述水利数据网页中的内容符合所述水利数据主题,则对所述水利数据网页中的内容进行分析,以确定所述水利数据网页中的内容的数据格式类型;调用与所述数据格式类型相对应的数据处理算法对所述水利数据网页中的内容进行处理,并对处理后得到的数据进行存储。本发明能够解决现有技术作业效率低下,采集准确率较低的问题。
Description
技术领域
本发明涉及智慧城市技术领域,特别是涉及一种用于智慧城市的海量水利数据采集优化方法、装置及系统。
背景技术
智慧城市是指利用各种信息技术或创新概念,将城市的系统和服务打通、集成,智慧城市能够实现信息化、工业化与城镇化深度融合,有助于提升资源运用的效率,优化城市管理和服务,以及改善市民生活质量。
对城市中的水利数据进行采集分析是实现智慧城市的重要前提,而随着信息时代发展,互联网上累积了海量的水利数据,这些水利数据的数据量大,分布离散,结构复杂,传统的人工采集方式作业效率低下,采集准确率也较低,容易采集到与水利相关度不大的数据。
发明内容
为此,本发明的一个实施例提出一种用于智慧城市的海量水利数据采集优化方法,以解决现有技术作业效率低下,采集准确率较低的问题。
根据本发明一实施例的用于智慧城市的海量水利数据采集优化方法,包括:
获取具有水利数据的种子网页集;
以所述种子网页集为起点,通过主题爬虫工具爬取并下载水利数据网页;
对所述水利数据网页进行内容提取,并通过预设的主题相关性算法判断所述水利数据网页中的内容是否符合预设的水利数据主题;
若所述水利数据网页中的内容符合所述水利数据主题,则对所述水利数据网页中的内容进行分析,以确定所述水利数据网页中的内容的数据格式类型;
调用与所述数据格式类型相对应的数据处理算法对所述水利数据网页中的内容进行处理,并对处理后得到的数据进行存储。
根据本发明实施例的无用于智慧城市的海量水利数据采集优化方法,首先获取具有水利数据的种子网页集,然后以所述种子网页集为起点,通过主题爬虫工具爬取并下载水利数据网页,实现了水利数据的自动采集,降低了人工作业的劳动强度,提升了作业效率,此外,再对水利数据网页进行内容提取,并通过预设的主题相关性算法判断水利数据网页中的内容是否符合预设的水利数据主题,只有符合预设的水利数据主题的内容才会被采集到,提升了水利数据采集的准确率,最后对水利数据网页中的内容进行分析,确定内容的数据格式类型,调用相对应的数据处理算法对水利数据网页中的内容进行处理,便于后续水利数据的调用和展示。
另外,根据本发明上述实施例的用于智慧城市的海量水利数据采集优化方法,还可以具有如下附加的技术特征:
进一步地,对所述水利数据网页进行内容提取,并通过预设的主题相关性算法判断所述水利数据网页中的内容是否符合预设的水利数据主题的步骤具体包括:
对所述水利数据网页进行内容提取,以获取所述水利数据网页中的水利描述信息;
对所述水利描述信息进行关键词提取,以获取所述水利描述信息的关键词,并生成相应的关键词集合;
将所述关键词集合与预设的水利主题描述集进行对比,根据预设的主题相关性算法判断所述关键词集合与预设的水利主题描述集是否匹配,从而确定所述水利数据网页中的内容是否符合预设的水利数据主题。
进一步地,根据预设的主题相关性算法判断所述关键词集合与预设的水利主题描述集是否匹配的步骤具体包括:
通过布尔模型计算所述水利主题描述集中的特征词集合与所述关键词集合的目标交集数量,并将所述目标交集数量与交集数量阈值进行比较;
若所述目标交集数量大于或等于所述交集数量阈值,则判定所述水利数据网页中的内容符合预设的水利数据主题;
若所述目标交集数量小于所述交集数量阈值,则判定所述水利数据网页中的内容不符合预设的水利数据主题。
进一步地,当所述数据格式类型为地理信息系统数据时,调用与所述数据格式类型相对应的数据处理算法对所述水利数据网页中的内容进行处理的步骤具体包括:
对所述水利数据网页中的文本数据与地理信息系统数据区分识别,以确定所述地理信息系统数据在所述水利数据网页中的位置和大小,所述地理信息系统数据由多个瓦片数据组成;
根据所述水利数据网页的网页地址、地图的缩放等级以及每个所述瓦片数据在地图中的坐标编号确定计算出每个所述瓦片数据的统一资源定位系统;
通过所述主题爬虫工具根据所述统一资源定位系统对每个所述瓦片数据分别进行下载,并根据每个所述瓦片数据的坐标编号对下载到的瓦片数据进行拼接,以完成数据格式类型为地理信息系统数据的内容的处理。
进一步地,当所述数据格式类型为文字数据时,调用与所述数据格式类型相对应的数据处理算法对所述水利数据网页中的内容进行处理的步骤具体包括:
通过所述水利数据网页的第五代超文本标记语言的源码标签定位网页中的水利文字;
通过所述主题爬虫工具的下载模块对所述水利文字进行下载。
进一步地,当所述数据格式类型为表格数据时,调用与所述数据格式类型相对应的数据处理算法对所述水利数据网页中的内容进行处理的步骤具体包括:
通过所述水利数据网页的第五代超文本标记语言的表格标签定位网页中的数据表格;
通过所述主题爬虫工具的下载模块对所述数据表格进行下载。
进一步地,当所述数据格式类型为图片数据时,调用与所述数据格式类型相对应的数据处理算法对所述水利数据网页中的内容进行处理的步骤具体包括:
通过所述水利数据网页的第五代超文本标记语言的图片标签定位网页中的水利数据图片;
通过所述主题爬虫工具的下载模块对所述水利数据图片进行下载。
本发明的另一个实施例提出一种用于智慧城市的海量水利数据采集优化装置,以解决现有技术作业效率低下,采集准确率较低的问题。
根据本发明一实施例的用于智慧城市的海量水利数据采集优化装置,包括:
获取模块,用于获取具有水利数据的种子网页集;
爬取模块,用于以所述种子网页集为起点,通过主题爬虫工具爬取并下载水利数据网页;
提取模块,用于对所述水利数据网页进行内容提取,并通过预设的主题相关性算法判断所述水利数据网页中的内容是否符合预设的水利数据主题;
确定模块,用于若所述水利数据网页中的内容符合所述水利数据主题,则对所述水利数据网页中的内容进行分析,以确定所述水利数据网页中的内容的数据格式类型;
处理模块,用于调用与所述数据格式类型相对应的数据处理算法对所述水利数据网页中的内容进行处理,并对处理后得到的数据进行存储。
根据本发明实施例的用于智慧城市的海量水利数据采集优化装置,首先获取具有水利数据的种子网页集,然后以所述种子网页集为起点,通过主题爬虫工具爬取并下载水利数据网页,实现了水利数据的自动采集,降低了人工作业的劳动强度,提升了作业效率,此外,再对水利数据网页进行内容提取,并通过预设的主题相关性算法判断水利数据网页中的内容是否符合预设的水利数据主题,只有符合预设的水利数据主题的内容才会被采集到,提升了水利数据采集的准确率,最后对水利数据网页中的内容进行分析,确定内容的数据格式类型,调用相对应的数据处理算法对水利数据网页中的内容进行处理,便于后续水利数据的调用和展示。
另外,根据本发明上述实施例的用于智慧城市的海量水利数据采集优化装置,还可以具有如下附加的技术特征:
进一步地,所述提取模块包括:
第一提取单元,用于对所述水利数据网页进行内容提取,以获取所述水利数据网页中的水利描述信息;
第二提取单元,用于对所述水利描述信息进行关键词提取,以获取所述水利描述信息的关键词,并生成相应的关键词集合;
对比单元,用于将所述关键词集合与预设的水利主题描述集进行对比,根据预设的主题相关性算法判断所述关键词集合与预设的水利主题描述集是否匹配,从而确定所述水利数据网页中的内容是否符合预设的水利数据主题。
进一步地,所述对比单元具体用于:
通过布尔模型计算所述水利主题描述集中的特征词集合与所述关键词集合的目标交集数量,并将所述目标交集数量与交集数量阈值进行比较;
若所述目标交集数量大于或等于所述交集数量阈值,则判定所述水利数据网页中的内容符合预设的水利数据主题;
若所述目标交集数量小于所述交集数量阈值,则判定所述水利数据网页中的内容不符合预设的水利数据主题。
进一步地,当所述数据格式类型为地理信息系统数据时,所述处理模块具体用于:
对所述水利数据网页中的文本数据与地理信息系统数据区分识别,以确定所述地理信息系统数据在所述水利数据网页中的位置和大小,所述地理信息系统数据由多个瓦片数据组成;
根据所述水利数据网页的网页地址、地图的缩放等级以及每个所述瓦片数据在地图中的坐标编号确定计算出每个所述瓦片数据的统一资源定位系统;
通过所述主题爬虫工具根据所述统一资源定位系统对每个所述瓦片数据分别进行下载,并根据每个所述瓦片数据的坐标编号对下载到的瓦片数据进行拼接,以完成数据格式类型为地理信息系统数据的内容的处理。
进一步地,当所述数据格式类型为文字数据时,所述处理模块具体用于:
通过所述水利数据网页的第五代超文本标记语言的源码标签定位网页中的水利文字;
通过所述主题爬虫工具的下载模块对所述水利文字进行下载。
进一步地,当所述数据格式类型为表格数据时,所述处理模块具体用于:
通过所述水利数据网页的第五代超文本标记语言的表格标签定位网页中的数据表格;
通过所述主题爬虫工具的下载模块对所述数据表格进行下载。
进一步地,当所述数据格式类型为图片数据时,所述处理模块具体用于:
通过所述水利数据网页的第五代超文本标记语言的图片标签定位网页中的水利数据图片;
通过所述主题爬虫工具的下载模块对所述水利数据图片进行下载。
本发明的另一个实施例还提出一种用于智慧城市的海量水利数据采集优化系统,包括计算机设备,所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述方法的步骤。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
附图说明
本发明实施例的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本发明一实施例的用于智慧城市的海量水利数据采集优化方法的流程图;
图2是图1中步骤S103的详细流程图;
图3是根据本发明另一实施例的用于智慧城市的海量水利数据采集优化装置的结构示意图。
图4是图3中提取模块的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明一实施例提出的用于智慧城市的海量水利数据采集优化方法,包括步骤S101~S105:
S101,获取具有水利数据的种子网页集。
其中,种子网页集是由多个网页组成的集合,也是爬虫开始的起点,具有水利数据的种子网页集是指含有水利数据的多个网页的集合。水利数据可以包括水文数据、水资源数据、水利工程数据、水土保持数据等。水文数据例如具体是水位、水量等数据,水资源数据例如具体是水资源量、水资源开发利用数据等,水利工程数据例如具体是水利地形数据、水利建筑物数据等,水土保持数据例如具体是土壤流失数据、水土流失治理度等数据。
S102,以所述种子网页集为起点,通过主题爬虫工具爬取并下载水利数据网页。
其中,爬虫是一种根据特定规则从互联网上抓取指定信息的脚本,主题爬虫只选择一些与主题相关的页面进行信息的爬取,通过使用主题爬虫工具可以方便快捷地收集数据量庞大,主题相关性高的水利数据。
S103,对所述水利数据网页进行内容提取,并通过预设的主题相关性算法判断所述水利数据网页中的内容是否符合预设的水利数据主题。
其中,为了提升爬取的数据的精度,需要先对水利数据网页进行内容提取,并通过预设的主题相关性算法判断水利数据网页中的内容是否符合预设的水利数据主题。具体的,请参阅图2,步骤S103包括步骤S1031~S1033:
S1031,对所述水利数据网页进行内容提取,以获取所述水利数据网页中的水利描述信息。
S1032,对所述水利描述信息进行关键词提取,以获取所述水利描述信息的关键词,并生成相应的关键词集合。
S1033,将所述关键词集合与预设的水利主题描述集进行对比,根据预设的主题相关性算法判断所述关键词集合与预设的水利主题描述集是否匹配,从而确定所述水利数据网页中的内容是否符合预设的水利数据主题。
其中,步骤S1033中,根据预设的主题相关性算法判断所述关键词集合与预设的水利主题描述集是否匹配具体包括:
通过布尔模型计算所述水利主题描述集中的特征词集合与所述关键词集合的目标交集数量,目标交集数量表示了特征词集合与关键词集合的重合度,然后将目标交集数量与交集数量阈值进行比较;
若所述目标交集数量大于或等于所述交集数量阈值,则判定所述水利数据网页中的内容符合预设的水利数据主题;
若所述目标交集数量小于所述交集数量阈值,则判定所述水利数据网页中的内容不符合预设的水利数据主题,并对该水利数据网页中的内容进行舍弃。
S104,若所述水利数据网页中的内容符合所述水利数据主题,则对所述水利数据网页中的内容进行分析,以确定所述水利数据网页中的内容的数据格式类型。
S105,调用与所述数据格式类型相对应的数据处理算法对所述水利数据网页中的内容进行处理,并对处理后得到的数据进行存储。
其中,对于不同类型的数据格式需要使用不同的数据处理算法对水利数据网页中的内容进行处理。
当所述数据格式类型为地理信息系统数据时,调用与所述数据格式类型相对应的数据处理算法对所述水利数据网页中的内容进行处理的步骤具体包括:
对所述水利数据网页中的文本数据与地理信息系统数据区分识别,以确定所述地理信息系统数据在所述水利数据网页中的位置和大小,所述地理信息系统数据由多个瓦片数据组成;
根据所述水利数据网页的网页地址、地图的缩放等级以及每个所述瓦片数据在地图中的坐标编号确定计算出每个所述瓦片数据的统一资源定位系统;
通过所述主题爬虫工具根据所述统一资源定位系统对每个所述瓦片数据分别进行下载,并根据每个所述瓦片数据的坐标编号对下载到的瓦片数据进行拼接,以完成数据格式类型为地理信息系统数据的内容的处理。由此实现了地理信息系统数据类型的水利数据的获取和存储。
当所述数据格式类型为文字数据时,调用与所述数据格式类型相对应的数据处理算法对所述水利数据网页中的内容进行处理的步骤具体包括:
通过所述水利数据网页的第五代超文本标记语言的源码标签定位网页中的水利文字;
通过所述主题爬虫工具的下载模块对所述水利文字进行下载。
当所述数据格式类型为表格数据时,调用与所述数据格式类型相对应的数据处理算法对所述水利数据网页中的内容进行处理的步骤具体包括:
通过所述水利数据网页的第五代超文本标记语言的表格标签定位网页中的数据表格;
通过所述主题爬虫工具的下载模块对所述数据表格进行下载。
当所述数据格式类型为图片数据时,调用与所述数据格式类型相对应的数据处理算法对所述水利数据网页中的内容进行处理的步骤具体包括:
通过所述水利数据网页的第五代超文本标记语言的图片标签定位网页中的水利数据图片;
通过所述主题爬虫工具的下载模块对所述水利数据图片进行下载。
根据本实施例提供的用于智慧城市的海量水利数据采集优化方法,首先获取具有水利数据的种子网页集,然后以所述种子网页集为起点,通过主题爬虫工具爬取并下载水利数据网页,实现了水利数据的自动采集,降低了人工作业的劳动强度,提升了作业效率,此外,再对水利数据网页进行内容提取,并通过预设的主题相关性算法判断水利数据网页中的内容是否符合预设的水利数据主题,只有符合预设的水利数据主题的内容才会被采集到,提升了水利数据采集的准确率,最后对水利数据网页中的内容进行分析,确定内容的数据格式类型,调用相对应的数据处理算法对水利数据网页中的内容进行处理,便于后续水利数据的调用和展示。
请参阅图3和图4,基于同一发明构思,本发明另一实施例提出的用于智慧城市的海量水利数据采集优化装置,包括:
获取模块10,用于获取具有水利数据的种子网页集;
爬取模块20,用于以所述种子网页集为起点,通过主题爬虫工具爬取并下载水利数据网页;
提取模块30,用于对所述水利数据网页进行内容提取,并通过预设的主题相关性算法判断所述水利数据网页中的内容是否符合预设的水利数据主题;
确定模块40,用于若所述水利数据网页中的内容符合所述水利数据主题,则对所述水利数据网页中的内容进行分析,以确定所述水利数据网页中的内容的数据格式类型;
处理模块50,用于调用与所述数据格式类型相对应的数据处理算法对所述水利数据网页中的内容进行处理,并对处理后得到的数据进行存储。
本实施例中,所述提取模块30包括:
第一提取单元31,用于对所述水利数据网页进行内容提取,以获取所述水利数据网页中的水利描述信息;
第二提取单元32,用于对所述水利描述信息进行关键词提取,以获取所述水利描述信息的关键词,并生成相应的关键词集合;
对比单元33,用于将所述关键词集合与预设的水利主题描述集进行对比,根据预设的主题相关性算法判断所述关键词集合与预设的水利主题描述集是否匹配,从而确定所述水利数据网页中的内容是否符合预设的水利数据主题。
本实施例中,所述对比单元33具体用于:
通过布尔模型计算所述水利主题描述集中的特征词集合与所述关键词集合的目标交集数量,并将所述目标交集数量与交集数量阈值进行比较;
若所述目标交集数量大于或等于所述交集数量阈值,则判定所述水利数据网页中的内容符合预设的水利数据主题;
若所述目标交集数量小于所述交集数量阈值,则判定所述水利数据网页中的内容不符合预设的水利数据主题。
本实施例中,当所述数据格式类型为地理信息系统数据时,所述处理模块50具体用于:
对所述水利数据网页中的文本数据与地理信息系统数据区分识别,以确定所述地理信息系统数据在所述水利数据网页中的位置和大小,所述地理信息系统数据由多个瓦片数据组成;
根据所述水利数据网页的网页地址、地图的缩放等级以及每个所述瓦片数据在地图中的坐标编号确定计算出每个所述瓦片数据的统一资源定位系统;
通过所述主题爬虫工具根据所述统一资源定位系统对每个所述瓦片数据分别进行下载,并根据每个所述瓦片数据的坐标编号对下载到的瓦片数据进行拼接,以完成数据格式类型为地理信息系统数据的内容的处理。
本实施例中,当所述数据格式类型为文字数据时,所述处理模块50具体用于:
通过所述水利数据网页的第五代超文本标记语言的源码标签定位网页中的水利文字;
通过所述主题爬虫工具的下载模块对所述水利文字进行下载。
本实施例中,当所述数据格式类型为表格数据时,所述处理模块50具体用于:
通过所述水利数据网页的第五代超文本标记语言的表格标签定位网页中的数据表格;
通过所述主题爬虫工具的下载模块对所述数据表格进行下载。
本实施例中,当所述数据格式类型为图片数据时,所述处理模块50具体用于:
通过所述水利数据网页的第五代超文本标记语言的图片标签定位网页中的水利数据图片;
通过所述主题爬虫工具的下载模块对所述水利数据图片进行下载。
根据本实施例提供的用于智慧城市的海量水利数据采集优化装置,首先获取具有水利数据的种子网页集,然后以所述种子网页集为起点,通过主题爬虫工具爬取并下载水利数据网页,实现了水利数据的自动采集,降低了人工作业的劳动强度,提升了作业效率,此外,再对水利数据网页进行内容提取,并通过预设的主题相关性算法判断水利数据网页中的内容是否符合预设的水利数据主题,只有符合预设的水利数据主题的内容才会被采集到,提升了水利数据采集的准确率,最后对水利数据网页中的内容进行分析,确定内容的数据格式类型,调用相对应的数据处理算法对水利数据网页中的内容进行处理,便于后续水利数据的调用和展示。
此外,本发明的实施例还提出一种用于智慧城市的海量水利数据采集优化系统,包括计算机设备,所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述方法的步骤。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
Claims (9)
1.一种用于智慧城市的海量水利数据采集优化方法,其特征在于,包括:
获取具有水利数据的种子网页集;
以所述种子网页集为起点,通过主题爬虫工具爬取并下载水利数据网页;
对所述水利数据网页进行内容提取,并通过预设的主题相关性算法判断所述水利数据网页中的内容是否符合预设的水利数据主题;
若所述水利数据网页中的内容符合所述水利数据主题,则对所述水利数据网页中的内容进行分析,以确定所述水利数据网页中的内容的数据格式类型;
调用与所述数据格式类型相对应的数据处理算法对所述水利数据网页中的内容进行处理,并对处理后得到的数据进行存储;
当所述数据格式类型为地理信息系统数据时,调用与所述数据格式类型相对应的数据处理算法对所述水利数据网页中的内容进行处理的步骤具体包括:
对所述水利数据网页中的文本数据与地理信息系统数据区分识别,以确定所述地理信息系统数据在所述水利数据网页中的位置和大小,所述地理信息系统数据由多个瓦片数据组成;
根据所述水利数据网页的网页地址、地图的缩放等级以及每个所述瓦片数据在地图中的坐标编号确定计算出每个所述瓦片数据的统一资源定位系统;
通过所述主题爬虫工具根据所述统一资源定位系统对每个所述瓦片数据分别进行下载,并根据每个所述瓦片数据的坐标编号对下载到的瓦片数据进行拼接,以完成数据格式类型为地理信息系统数据的内容的处理。
2.根据权利要求1所述的用于智慧城市的海量水利数据采集优化方法,其特征在于,对所述水利数据网页进行内容提取,并通过预设的主题相关性算法判断所述水利数据网页中的内容是否符合预设的水利数据主题的步骤具体包括:
对所述水利数据网页进行内容提取,以获取所述水利数据网页中的水利描述信息;
对所述水利描述信息进行关键词提取,以获取所述水利描述信息的关键词,并生成相应的关键词集合;
将所述关键词集合与预设的水利主题描述集进行对比,根据预设的主题相关性算法判断所述关键词集合与预设的水利主题描述集是否匹配,从而确定所述水利数据网页中的内容是否符合预设的水利数据主题。
3.根据权利要求2所述的用于智慧城市的海量水利数据采集优化方法,其特征在于,根据预设的主题相关性算法判断所述关键词集合与预设的水利主题描述集是否匹配的步骤具体包括:
通过布尔模型计算所述水利主题描述集中的特征词集合与所述关键词集合的目标交集数量,并将所述目标交集数量与交集数量阈值进行比较;
若所述目标交集数量大于或等于所述交集数量阈值,则判定所述水利数据网页中的内容符合预设的水利数据主题;
若所述目标交集数量小于所述交集数量阈值,则判定所述水利数据网页中的内容不符合预设的水利数据主题。
4.根据权利要求1所述的用于智慧城市的海量水利数据采集优化方法,其特征在于,当所述数据格式类型为文字数据时,调用与所述数据格式类型相对应的数据处理算法对所述水利数据网页中的内容进行处理的步骤具体包括:
通过所述水利数据网页的第五代超文本标记语言的源码标签定位网页中的水利文字;
通过所述主题爬虫工具的下载模块对所述水利文字进行下载。
5.根据权利要求1所述的用于智慧城市的海量水利数据采集优化方法,其特征在于,当所述数据格式类型为表格数据时,调用与所述数据格式类型相对应的数据处理算法对所述水利数据网页中的内容进行处理的步骤具体包括:
通过所述水利数据网页的第五代超文本标记语言的表格标签定位网页中的数据表格;
通过所述主题爬虫工具的下载模块对所述数据表格进行下载。
6.根据权利要求1所述的用于智慧城市的海量水利数据采集优化方法,其特征在于,当所述数据格式类型为图片数据时,调用与所述数据格式类型相对应的数据处理算法对所述水利数据网页中的内容进行处理的步骤具体包括:
通过所述水利数据网页的第五代超文本标记语言的图片标签定位网页中的水利数据图片;
通过所述主题爬虫工具的下载模块对所述水利数据图片进行下载。
7.一种用于智慧城市的海量水利数据采集优化装置,其特征在于,包括:
获取模块,用于获取具有水利数据的种子网页集;
爬取模块,用于以所述种子网页集为起点,通过主题爬虫工具爬取并下载水利数据网页;
提取模块,用于对所述水利数据网页进行内容提取,并通过预设的主题相关性算法判断所述水利数据网页中的内容是否符合预设的水利数据主题;
确定模块,用于若所述水利数据网页中的内容符合所述水利数据主题,则对所述水利数据网页中的内容进行分析,以确定所述水利数据网页中的内容的数据格式类型;
处理模块,用于调用与所述数据格式类型相对应的数据处理算法对所述水利数据网页中的内容进行处理,并对处理后得到的数据进行存储;
当所述数据格式类型为地理信息系统数据时,所述处理模块还用于:
对所述水利数据网页中的文本数据与地理信息系统数据区分识别,以确定所述地理信息系统数据在所述水利数据网页中的位置和大小,所述地理信息系统数据由多个瓦片数据组成;
根据所述水利数据网页的网页地址、地图的缩放等级以及每个所述瓦片数据在地图中的坐标编号确定计算出每个所述瓦片数据的统一资源定位系统;
通过所述主题爬虫工具根据所述统一资源定位系统对每个所述瓦片数据分别进行下载,并根据每个所述瓦片数据的坐标编号对下载到的瓦片数据进行拼接,以完成数据格式类型为地理信息系统数据的内容的处理。
8.根据权利要求7所述的用于智慧城市的海量水利数据采集优化装置,其特征在于,所述提取模块包括:
第一提取单元,用于对所述水利数据网页进行内容提取,以获取所述水利数据网页中的水利描述信息;
第二提取单元,用于对所述水利描述信息进行关键词提取,以获取所述水利描述信息的关键词,并生成相应的关键词集合;
对比单元,用于将所述关键词集合与预设的水利主题描述集进行对比,根据预设的主题相关性算法判断所述关键词集合与预设的水利主题描述集是否匹配,从而确定所述水利数据网页中的内容是否符合预设的水利数据主题。
9.一种用于智慧城市的海量水利数据采集优化系统,其特征在于,包括计算机设备,所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1至6任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110162018.1A CN112507191B (zh) | 2021-02-05 | 2021-02-05 | 用于智慧城市的海量水利数据采集优化方法、装置及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110162018.1A CN112507191B (zh) | 2021-02-05 | 2021-02-05 | 用于智慧城市的海量水利数据采集优化方法、装置及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112507191A true CN112507191A (zh) | 2021-03-16 |
CN112507191B CN112507191B (zh) | 2021-06-15 |
Family
ID=74953113
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110162018.1A Active CN112507191B (zh) | 2021-02-05 | 2021-02-05 | 用于智慧城市的海量水利数据采集优化方法、装置及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112507191B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114969513A (zh) * | 2022-05-07 | 2022-08-30 | 江苏吉高信息技术有限公司 | 一种基于网络爬虫技术的自然灾害主动推送方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776907A (zh) * | 2016-11-30 | 2017-05-31 | 江苏省邮电规划设计院有限责任公司 | 一种智慧城市海量数据采集优化方法 |
CN107391651A (zh) * | 2017-07-17 | 2017-11-24 | 河海大学 | 基于网络爬虫的水利信息检索系统及方法 |
CN110457408A (zh) * | 2019-06-24 | 2019-11-15 | 平安国际智慧城市科技股份有限公司 | 个性化地图下载方法、装置、设备及存储介质 |
-
2021
- 2021-02-05 CN CN202110162018.1A patent/CN112507191B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776907A (zh) * | 2016-11-30 | 2017-05-31 | 江苏省邮电规划设计院有限责任公司 | 一种智慧城市海量数据采集优化方法 |
CN107391651A (zh) * | 2017-07-17 | 2017-11-24 | 河海大学 | 基于网络爬虫的水利信息检索系统及方法 |
CN110457408A (zh) * | 2019-06-24 | 2019-11-15 | 平安国际智慧城市科技股份有限公司 | 个性化地图下载方法、装置、设备及存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114969513A (zh) * | 2022-05-07 | 2022-08-30 | 江苏吉高信息技术有限公司 | 一种基于网络爬虫技术的自然灾害主动推送方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112507191B (zh) | 2021-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109033261A (zh) | 图像处理方法、装置、处理设备及其存储介质 | |
CN112507191B (zh) | 用于智慧城市的海量水利数据采集优化方法、装置及系统 | |
CN107015986B (zh) | 一种爬虫爬取网页的方法及装置 | |
CN116127960B (zh) | 信息抽取方法、装置、存储介质及计算机设备 | |
CN117332823A (zh) | 目标内容自动生成方法、装置、电子设备及可读存储介质 | |
CN117520690A (zh) | 基于css样式预渲染对比的ui自动化方法及相关装置 | |
CN112732969A (zh) | 图像语义分析方法、装置、存储介质及电子设备 | |
CN110458383B (zh) | 需求处理服务化的实现方法、装置及计算机设备、存储介质 | |
CN117077668A (zh) | 风险画像展示方法、装置、计算机设备和可读存储介质 | |
CN104750604A (zh) | 浏览器兼容性测试案例的生成方法和装置 | |
CN110807286A (zh) | 一种结构网格识别方法 | |
CN115186240A (zh) | 基于关联性信息的社交网络用户对齐方法、装置、介质 | |
CN106776654B (zh) | 一种数据搜索方法及装置 | |
CN110609861A (zh) | 车辆识别方法、装置、电子设备及存储介质 | |
CN114610766A (zh) | 一种离线数据服务系统、方法、设备及存储介质 | |
CN105824871A (zh) | 一种图片检测方法与设备 | |
CN112131418A (zh) | 目标标注方法、目标标注装置和计算机可读存储介质 | |
CN116302513B (zh) | 量化因子的处理方法、装置、计算机设备和可读存储介质 | |
CN113535737B (zh) | 特征的生成方法、装置、电子设备及计算机存储介质 | |
CN113672134B (zh) | 媒体信息编辑方法、装置、计算机可读介质及电子设备 | |
Zhou et al. | Generalisation of spatial data for web presentation | |
CN117807154B (zh) | 一种用于展示系统的时序数据可视化方法、设备和介质 | |
CN116542124B (zh) | 一种分布式水文模型的辅助建模方法 | |
CN112395377B (zh) | 地址识别方法、装置和存储介质 | |
CN117010377A (zh) | 一种关键信息提取方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |