CN110647673A - 一种实现生态环境空间大数据集成共享的方法 - Google Patents

一种实现生态环境空间大数据集成共享的方法 Download PDF

Info

Publication number
CN110647673A
CN110647673A CN201910895748.5A CN201910895748A CN110647673A CN 110647673 A CN110647673 A CN 110647673A CN 201910895748 A CN201910895748 A CN 201910895748A CN 110647673 A CN110647673 A CN 110647673A
Authority
CN
China
Prior art keywords
data
information
ecological environment
sharing
ecological
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910895748.5A
Other languages
English (en)
Inventor
殷君茹
黄伟
陈启强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou University of Light Industry
Original Assignee
Zhengzhou University of Light Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou University of Light Industry filed Critical Zhengzhou University of Light Industry
Priority to CN201910895748.5A priority Critical patent/CN110647673A/zh
Publication of CN110647673A publication Critical patent/CN110647673A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A20/00Water conservation; Efficient water supply; Efficient water use
    • Y02A20/152Water filtration

Abstract

本发明公开了一种实现生态环境空间大数据集成共享的方法,涉及生态环境保护技术领域,通过分时段、分地点采集水质环境监测信息、大气环境监测信息、土壤环境监测信息、生态环境污染源信息、生态垃圾监测处理信息、生态垃圾治理信息和生态垃圾污染信息,并将这些信息通过语法映射和字段映射存储在源端,通过输入检索信息的方式抓取目的信息,并同时生成关联信息,此时用户获取到需要的信息,实现安全共享环境信息资源的问题,将采集的信息分时段、分地点进行存储和共享。

Description

一种实现生态环境空间大数据集成共享的方法
技术领域
本发明涉及生态环境保护技术领域,特别涉及一种实现生态环境空间大数据集成共享的方法。
背景技术
生态环境(ecological environment),即是“由生态关系组成的环境”的简称,是指与人类密切相关的,影响人类生活和生产活动的各种自然(包括人工干预下形成的第二自然)力量(物质和能量)或作用的总和。
生态环境[1]是指影响人类生存与发展的水资源、土地资源、生物资源以及气候资源数量与质量的总称,是关系到社会和经济持续发展的复合生态系统。生态环境问题是指人类为其自身生存和发展,在利用和改造自然的过程中,对自然环境破坏和污染所产生的危害人类生存的各种负反馈效应。
随着我国人口的持续增长和社会经济的快速发展,对于资源的利用强度不断增大,水土流失、荒漠化土地扩大、天然植被和生物多样性遭到破坏、灾害加剧等一系列资源环境问题仍然存在,在部分地区甚至有加剧趋势。为了逐步实现可持续发展,急需对于全国生态环境背景开展多方位数据支持下的空间特征综合研究。但现有的生态数据集成方法操作存在数据杂糅,无法保证用户搜取信息直接、迅速、高效。
本申请提供了一种实现生态环境空间大数据集成共享的方法,能够解决现有环境信息资源因分散而不能实现安全共享的问题,将采集的信息分时段、分地点进行存储和共享。
发明内容
本发明的目的在于提供一种实现生态环境空间大数据集成共享的方法,能够解决现有环境信息资源因分散而不能实现安全共享的问题,将采集的信息分时段、分地点进行存储和共享。
本发明提供了一种实现生态环境空间大数据集成共享的方法,包括以下步骤:
S1:采用网络爬虫程序,从互联网络上分时段、分地点采集生态环境数据 An;
S2:An内部根据数据类别进行分类,并将分类后的An根据采集时间、采集地点的一一映射在源端;
S3:对分类存储在源端内的An生成检索关键字、检索链接和关联信息链接;
S4:进行目标数据的检索,从而获取源端An数据内容。
进一步地,所述An数据内容包括水质环境监测信息、大气环境监测信息、土壤环境监测信息、生态环境污染源信息、生态垃圾监测处理信息、生态垃圾治理信息和生态垃圾污染信息。
进一步地,所述An数据信息包括数据结构、字段信息和数据操作。
进一步地,所述An的映射为对数据源进行数据时间特征提取、数据地点特征提取、验证、清理、整合、聚集和装入的处理手段。
进一步地,用户基于搜索引擎输入检索信息,生成跳转去源端内对应信息的链接,且生成关联信息链接。
进一步地,所述数据映射包括语法映射和字段映射。
与现有技术相比,本发明具有如下显著优点:
本发明提供了一种实现生态环境空间大数据集成共享的方法,通过分时段、分地点采集水质环境监测信息、大气环境监测信息、土壤环境监测信息、生态环境污染源信息、生态垃圾监测处理信息、生态垃圾治理信息和生态垃圾污染信息,并将这些信息通过语法映射和字段映射存储在源端,实现信息的精准分类,通过输入检索信息的方式抓取目的信息,并同时生成关联信息,目的信息与关联信息均根据搜索的时间信息特征和地点信息特征进行准确的抓取,此时用户获取到需要的信息,实现安全共享环境信息资源的问题,解决了现有的生态数据集成方法操作存在数据杂糅,无法保证用户搜取信息直接、迅速、高效。
附图说明
图1为本发明提供的一种实现生态环境空间大数据集成共享方法的结构组成图;
图2为本发明提供的一种实现生态环境空间大数据集成共享方法的步骤流程图。
具体实施方式
下面结合本发明中的附图,对本发明实施例的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
为了便于理解和说明,本发明提供了一种实现生态环境空间大数据集成共享的方法,包括以下步骤:
S1:采用网络爬虫程序,从互联网络上分时段、分地点采集生态环境数据 An;
S2:An内部根据数据类别进行分类,并将分类后的An根据采集时间、采集地点的一一映射在源端;
S3:对分类存储在源端内的An生成检索关键字、检索链接和关联信息链接;
S4:进行目标数据的检索,从而获取源端An数据内容。
其中,网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。
基于目标信息特征的网络爬虫所抓取、存储并索引的对象一般为网站或网页。An数据获取方式可分为:
(1)、预先给定的初始抓取种子样本;
(2)、预先给定的网页分类目录和与分类目录对应的种子样本;
(3)、通过用户行为确定的抓取目标样例,分为:
a用户浏览过程中显示标注的抓取样本;
b通过用户日志挖掘得到访问模式及相关样本。
检索关键字包括时间信息、地点信息、时间信息与地点信息三种形式,通过检索时间信息,获取目的时间的生态环境数据,并在同一时间的基础上进行不同地点信息的生态环境数据对比;通过检索地点信息,获取目的地点的生态环境数据,并在同一地点的基础上进行不同时间信息的生态环境数据对比;通过检索时间信息与地点信息,获取唯一准确的目的时间、目的地点的生态环境数据。
关联类信息是指与用户行为相关的,反映和影响用户行为和心理等因素的相关信息。用户获取生态环境数据时,根据目的信息的时间和地点,再提供目的信息的同时,提供差异性较小的关联信息,便于用户进行信息的比较。关联信息指时间差异小、地点距离近、时间差异小并且地点距离近的生态环境信息。
进一步地,所述An数据内容包括水质环境监测信息、大气环境监测信息、土壤环境监测信息、生态环境污染源信息、生态垃圾监测处理信息、生态垃圾治理信息和生态垃圾污染信息。
所述An数据信息包括数据结构、字段信息和数据操作。
其中,数据结构(data structure)是带有结构特性的数据元素的集合,它研究的是数据的逻辑结构和数据的物理结构以及它们之间的相互关系,并对这种结构定义相适应的运算,设计出相应的算法,并确保经过这些运算以后所得到的新结构仍保持原来的结构类型。简而言之,数据结构是相互之间存在一种或多种特定关系的数据元素的集合,即带“结构”的数据元素的集合。“结构”就是指数据元素之间存在的关系,分为逻辑结构和存储结构。
数据的逻辑结构和物理结构是数据结构的两个密切相关的方面,同一逻辑结构可以对应不同的存储结构。算法的设计取决于数据的逻辑结构,而算法的实现依赖于指定的存储结构。
数据结构的研究内容是构造复杂软件系统的基础,它的核心技术是分解与抽象。通过分解可以划分出数据的3个层次;再通过抽象,舍弃数据元素的具体内容,就得到逻辑结构。类似地,通过分解将处理要求划分成各种功能,再通过抽象舍弃实现细节,就得到运算的定义。上述两个方面的结合可以将问题变换为数据结构。这是一个从具体(即具体问题)到抽象(即数据结构)的过程。然后,通过增加对实现细节的考虑进一步得到存储结构和实现运算,从而完成设计任务。这是一个从抽象(即数据结构)到具体(即具体实现)的过程。
数据操作是用于描述系统的动态特征,是对数据库中各种对象的实例所允许执行的操作的集合。数据库主要有查询和修改两类操作。数据模型要定义这些操作的确切含义、操作及实现操作的语言。
对这些空间数据进行数据操作还包括:①拼接操作。即将同一专题的两个或两个以上地理位置相邻区域的图形或图像数据文件,拼接为一个完整区域的数据文件;②剪辑操作。即将一个区域某一专题图形或图像数据文件,按指定地理范围进行剪辑,保留范围以内的数据并生成新的数据文件;③合并操作。即将一幅图形或图像数据,从一种分级分类系统上升到高一级分级分类系统而完成的相关类型的合并;④叠合操作。是将同一区域不同专题的图形或图像数据,按照相同位置关系进行叠合处理,产生有综合信息的新图形或图像数据文件。
所述An的映射为对数据源进行数据时间特征提取、数据地点特征提取、验证、清理、整合、聚集和装入的处理手段。
映射是个术语,指两个元素的集之间元素相互“对应”的关系,为名词。在本申请中意为将An中的数据根据时间信息和地点信息进行分类并存储,每个时间、地点均对应一组数据,用于搜索同一时间或者同一地点的生态环境数据,而同时搜索时间信息和地点信息,则能够准确对应具体的数据,获取在目的地点相对应的目的时间采集到的数据。便于集成互联网内能够搜寻到的生态环境空间大数据,实现其共享。
用户基于搜索引擎输入检索信息,生成跳转去源端内对应信息的链接,且生成关联信息链接。
所述数据映射包括语法映射和字段映射。
所述语法映射就是将数据源的命名规则和数据类型映射为目的数据的命名规则和数据类型;
所述字段映射就是将数据源的内容和含义映射为目的数据的内容和含义,字段映射包括字段拆分、字段合并、字段数据格式变换和字段转移。

Claims (6)

1.一种实现生态环境空间大数据集成共享的方法,其特征在于,包括以下步骤:
S1:采用网络爬虫程序,从互联网络上分时段、分地点采集生态环境数据An;
S2:An内部根据数据类别进行分类,并将分类后的An根据采集时间、采集地点的一一映射在源端;
S3:对分类存储在源端内的An生成检索关键字、检索链接和关联信息链接;
S4:进行目标数据的检索,从而获取源端An数据内容。
2.如权利要求1所述的一种实现生态环境空间大数据集成共享的方法,其特征在于,所述An数据内容包括水质环境监测信息、大气环境监测信息、土壤环境监测信息、生态环境污染源信息、生态垃圾监测处理信息、生态垃圾治理信息和生态垃圾污染信息。
3.如权利要求1所述的一种实现生态环境空间大数据集成共享的方法,其特征在于,所述An数据信息包括数据结构、字段信息和数据操作。
4.如权利要求1所述的一种实现生态环境空间大数据集成共享的方法,其特征在于,所述An的映射为对数据源进行数据时间特征提取、数据地点特征提取、验证、清理、整合、聚集和装入的处理手段。
5.如权利要求1所述的一种实现生态环境空间大数据集成共享的方法,其特征在于,用户基于搜索引擎输入检索信息,生成跳转去源端内对应信息的链接,且生成关联信息链接。
6.如权利要求1所述的一种实现生态环境空间大数据集成共享的方法,其特征在于,所述数据映射包括语法映射和字段映射。
CN201910895748.5A 2019-09-21 2019-09-21 一种实现生态环境空间大数据集成共享的方法 Pending CN110647673A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910895748.5A CN110647673A (zh) 2019-09-21 2019-09-21 一种实现生态环境空间大数据集成共享的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910895748.5A CN110647673A (zh) 2019-09-21 2019-09-21 一种实现生态环境空间大数据集成共享的方法

Publications (1)

Publication Number Publication Date
CN110647673A true CN110647673A (zh) 2020-01-03

Family

ID=69010908

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910895748.5A Pending CN110647673A (zh) 2019-09-21 2019-09-21 一种实现生态环境空间大数据集成共享的方法

Country Status (1)

Country Link
CN (1) CN110647673A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112579570A (zh) * 2020-12-16 2021-03-30 中国辐射防护研究院 一种核环境数据存储方法和装置
CN113219151A (zh) * 2021-03-29 2021-08-06 核工业二八0研究所 一种土壤污染监测装置及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109688223A (zh) * 2018-12-27 2019-04-26 华迪计算机集团有限公司 生态环境数据资源共享方法及装置
CN109885782A (zh) * 2019-03-05 2019-06-14 重庆工商大学融智学院 一种生态环境空间大数据集成方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109688223A (zh) * 2018-12-27 2019-04-26 华迪计算机集团有限公司 生态环境数据资源共享方法及装置
CN109885782A (zh) * 2019-03-05 2019-06-14 重庆工商大学融智学院 一种生态环境空间大数据集成方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
朱扬勇: "《大数据资源》", 31 January 2018, 上海科学技术出版社 *
李勇帆等: "《大学计算机基础》", 31 August 2013, 中国铁道出版社 *
谢跟踪: "《GIS在区域生态环境信息系统研究中的应用》", 31 July 2004, 中国环境科学出版社 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112579570A (zh) * 2020-12-16 2021-03-30 中国辐射防护研究院 一种核环境数据存储方法和装置
CN113219151A (zh) * 2021-03-29 2021-08-06 核工业二八0研究所 一种土壤污染监测装置及方法
CN113219151B (zh) * 2021-03-29 2023-03-21 核工业二八0研究所 一种土壤污染监测装置及方法

Similar Documents

Publication Publication Date Title
Udapure et al. Study of web crawler and its different types
CN107291778B (zh) 数据的收集方法及装置
Gunawan et al. Improving data collection on article clustering by using distributed focused crawler
Sabri et al. Web data extraction approach for deep web using WEIDJ
CN110647673A (zh) 一种实现生态环境空间大数据集成共享的方法
Ruocco et al. A scalable algorithm for extraction and clustering of event-related pictures
Devi et al. An efficient approach for web indexing of big data through hyperlinks in web crawling
CN110970112A (zh) 一种面向营养健康的知识图谱构建方法和系统
US9230210B2 (en) Information processing apparatus and method for obtaining a knowledge item based on relation information and an attribute of the relation
CN103226601B (zh) 一种图片搜索的方法和装置
Langhnoja et al. Web usage mining to discover visitor group with common behavior using DBSCAN clustering algorithm
Azad et al. Semantic-Synaptic web mining: A novel model for improving the web mining
CN114238735B (zh) 一种互联网数据智能采集方法
CN102214179A (zh) 网络信息抓取方法
Khan et al. Self-adaptive ontology-based focused crawling: a literature survey
CN110472125B (zh) 一种基于网络爬虫的多级页面的级联爬取方法和设备
CN104281693A (zh) 一种语义搜索方法及系统
Návrat et al. Acquiring, organising and presenting information and knowledge from the web
Gunasundari et al. Removing non-informative blocks from the web pages
Ju et al. Improvement of page ranking algorithm based on timestamp and link
Tsikrika et al. Focussed crawling of environmental web resources: A pilot study on the combination of multimedia evidence.
Wardekar et al. SmartCrawler: A Personalized Web Search for Relevant Web Pages
Taherdoost et al. Information Mining on the Web: E-business Application
da Silva et al. A Focused Crawler for Web Feature Service and Web Map Service Discovering
Han et al. Key Technologies of Protected Animal Image Retrieval Based on Content

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200103

RJ01 Rejection of invention patent application after publication