CN109885782B - 一种生态环境空间大数据集成方法 - Google Patents

一种生态环境空间大数据集成方法 Download PDF

Info

Publication number
CN109885782B
CN109885782B CN201910164115.7A CN201910164115A CN109885782B CN 109885782 B CN109885782 B CN 109885782B CN 201910164115 A CN201910164115 A CN 201910164115A CN 109885782 B CN109885782 B CN 109885782B
Authority
CN
China
Prior art keywords
data
ecological environment
word
topic
spatial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201910164115.7A
Other languages
English (en)
Other versions
CN109885782A (zh
Inventor
陈国彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rongzhi College Of Chongqing Technology And Business University
Original Assignee
Rongzhi College Of Chongqing Technology And Business University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rongzhi College Of Chongqing Technology And Business University filed Critical Rongzhi College Of Chongqing Technology And Business University
Priority to CN201910164115.7A priority Critical patent/CN109885782B/zh
Publication of CN109885782A publication Critical patent/CN109885782A/zh
Application granted granted Critical
Publication of CN109885782B publication Critical patent/CN109885782B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开一种生态环境空间大数据集成方法,生态环境数据获取步骤如下:S1、利用网络爬虫获取的网页中与生态环境主题相关的数据;S2、将数据进行清洗和整理,并建立索引存入数据库中;空间地理数据获取步骤如下:L1、直接从地理信息服务器中获取空间地理数据;L2、通过GIS脱密处理方法对L1中获取的空间地理数据进行脱密处理;生态环境空间大数据集成步骤如下:从存入数据库中提取目标数据,并加载到脱密处理后的空间地理数据中,得到集成的生态环境空间大数据。本发明通过脱密处理的空间地理数据既可以满足信息化的实用价值又可以保证涉及国家安全的数据保密,数据集成实现网络化环境信息系统间不同尺度数据交换、传输和共享、数据互操作。

Description

一种生态环境空间大数据集成方法
技术领域
本发明属于空间数据集成领域,具体涉及一种生态环境空间大数据集成方法。
背景技术
大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态,全面推进大数据发展和应用,加快建设数据强国,已经成为我国的的国家战略。国务院《促进大数据发展行动纲要》等文件要求推动政府信息系统和公共数据互联共享,促进大数据在各行业创新应用;运用现代信息技术加强政府公共服务和市场监管,推动简政放权和政府职能转变,构建“互联网+”绿色生态,实现生态环境数据互联互通和开放共享。
合理的资源利用与良好的区域生态环境是实现社会经济可持续发展的重要基础条件,我国许多地区生态环境脆弱,近年来生态环境恶化的趋势尚未得到有效遏制,以灾害为主要表现形式的的各种生态环境问题对于我国国民经济的长期、稳定发展的制约作用愈加明显,资源环境利用效益降低、区域环境受到不利影响、各种灾害频繁发生等问题受到普遍重视。随着我国人口的持续增长和社会经济的快速发展,对于资源的利用强度不断增大,水土流失、荒漠化土地扩大、天然植被和生物多样性遭到破坏、灾害加剧等一系列资源环境问题仍然存在,在部分地区甚至有加剧趋势。为了逐步实现可持续发展战略,急需对于全国生态环境背景开展多方位数据支持下的空间特征综合研究。
发明内容
为了解决现有技术存在的上述问题,本发明目的在于提供一种生态环境空间大数据集成方法。
本发明所采用的技术方案为:
一种生态环境空间大数据集成方法,包括如下生态环境数据获取步骤、空间地理数据获取步骤,和生态环境空间大数据集成步骤:
生态环境数据获取步骤如下:
S1、利用网络爬虫从多个初始URL开始下载网页内容,通过搜索策略获取网页中与生态环境主题相关的数据,同时不断从当前页面提取新的URL,根据网页抓取策略放入待抓取URL队列中,循环执行,直至停止,循环结束,其中,生态环境主题相关的数据包括水质监测数据、大气环境监测数据、土壤环境检测数据或/和生态环境污染源信息;
S2、将S1中获取的网页中与生态环境主题相关的数据进行清洗和整理,并建立索引存入数据库中;
空间地理数据获取步骤如下:
L1、直接从地理信息服务器中获取空间地理数据;
L2、通过GIS脱密处理方法对L1中获取的空间地理数据进行脱密处理;
生态环境空间大数据集成步骤如下:
从步骤S2中的数据库中提取目标数据,并加载到脱密处理后的空间地理数据中,得到集成的生态环境空间大数据。
所述生态环境主题为生态环境关键词集,生态环境关键词集的获取过程为:
S001、定期地从学术论文网站上获取论文,并将新获取的论文保存在语料库中;
S002、对语料库中各篇论文的词语集进行数值化处理;
S003、将数值化处理结果作为训练样本导入Word2Vec模型进行训练,得到各个词语的词向量;
S004、针对每个词语,分别根据词向量计算该词语与其它各个词语的欧式距离或向量夹角,然后根据计算结果选取欧式距离最近或向量夹角最小的前N个其它词语作为相关词语,得到相关词语集,其中,N为介于20~100之间的自然数;
S005、将词语为“生态环境”的相关词语集作为生态环境关键词集;
在步骤S005后,对生态环境关键词集进行补充,包括以下步骤:
S006、将步骤S002的数值化处理结果作为训练样本导入LDA主题模型进行训练,得到主题-词语矩阵和论文-主题矩阵,其中,所述主题-词语矩阵表示每个主题中出现每个词语的概率,所述论文-主题矩阵表示每篇论文中出现每个主题的概率;
S007、针对所述主题-词语矩阵中的各个主题,选取在对应主题中出现概率最大的前M个词语作为特征词语,得到特征词语集合,同时根据所述论文-主题矩阵获取各个主题的关联主题,其中,M为介于20~100之间的自然数,所述关联主题是指与某个主题共同出现在同一篇论文中的另一共现主题;
S008、针对现有生态环境关键词集合中的各个词语,将其分别作为目标词语,查找到在特征词语集合中包含该目标词语的所有目标主题,以及查找到与各个目标主题对应的目标关联主题;
S009、将所有目标主题和所有目标关联主题中的且不在现有生态环境关键词集合中的词语,添加到现有生态环境关键词集合中;
其中,获取各个主题的关联主体过程为:
S0071、针对所述论文-主题矩阵中的各个主题,分别计算其与另一主题共同出现在各篇论文中的共现概率之和;
S0072、针对所述论文-主题矩阵中的各个主题,选取对应于其共现概率之和最大的前K个另一主题作为关联主题,其中,K为介于3~10之间的自然数;
其中,步骤S002中对各篇论文的词语集进行数值化处理包括以下步骤:
S0021、对语料库中的所有论文进行切词处理,获取不同的词语,得到所述语料库的总词语集和各篇论文的词语集;
S0022、对所述总词语集中的所有词语进行唯一编码,得到包含有所有词语和与各个词语对应的数字唯一标识的词典;
S0023、根据所述词典将论文词语集中的词语转换为对应的数字唯一标识。
在上述技术方案的基础上,所述S1的实现过程为:
S101、启动网络爬虫程序;
S102、选取多个初始URL,并将其放入待抓取URL队列中;
S103、从待抓取URL队列中取出某个URL,并下载该URL对应的网页内容,然后将该URL放入到已抓取URL队列;
S104、通过搜索获取网页内容中与生态环境主题相关的数据,判断获取的数据是否已被历史获取,若是则丢弃该数据和网页内容,若否则缓存该数据,丢弃网页内容,同时解析该网页中所包含的URL,判断该URL是否是已抓取URL队列中所包含的URL,若是,则丢弃,若否,则将其放入待抓取URL队列中;
S105、循环执行S103-S104,直至待抓取URL队列中的所有URL被完全抓取,或系统命令停止抓取,循环结束。
在上述技术方案的基础上:所述S2的实现过程为:将S104缓存的数据进行清洗和整理,并建立索引存入数据库中。
在上述技术方案的基础上,所述GIS脱密处理方法包括地理要素数据及其属性脱密步骤,和空间位置精度脱密步骤,地理要素数据及其属性脱密步骤包括:使用GIS软件提供的编辑工具,删除涉密的空间地理数据及其属性数据;
空间位置精度脱密步骤包括:利用GIS软件提供的投影转换和空间校正工具对源空间地理数据的空间位置进行精度干扰。
在上述技术方案的基础上,所述空间位置精度脱密的具体实现过程为:
L201、投影前新建一个投影坐标系用于输出图幅,设置投影坐标系名称及参数,完成投影坐标系定义;
L202、在GIS工具中选择“投影”工具,输入参数,选择新建立的投影坐标系作为原始图幅的输出坐标系;
L203、重复L202,选择需要的投影坐标系为最终坐标系;
L204、加载待变换的原始数据,打开“空间校正”工具;
L205、选择需校正的数据,选择射影校正方法,使用工具对图幅创建移位连接;
L206、进行校正、保存,完成数据变换。
在上述技术方案的基础上,所述生态环境空间大数据的集成包括同要素空间数据集成和不同要素的空间数据集成;
同要素空间数据集成包括:
a、对各精度较高的小区域中的数据进行综合,提取其主要特征并归并,形成精度较低但空间范围较大的大区域的数据;
b、确定精度较低的大区域的数据精度,将大区域覆盖各精度较高小区域的部分提取出来,对提取出来的区域进行数据综合使其精度满足要求,最后进行接边处理形成完整的区域特定尺度数据提取;
c、由某区域同尺度不同时间的多个数据集推断出在单个数据集中分辨不出的生态环境或利用数据表达地学过程或特征的相关性来提高原来数据的精度;
d、使用多分辨率模型来表达空间实体,实现数据更新;
不同要素的空间数据集成包括:
h、不同要素空间尺度可比时,利用环境要素的相关性由某一或某些数据对某特定要素进行质量检测、数据综合、数据细化、辅助推导进行空间相关分析;利用不同要素之间的相关性生成新数据;
i、不同要素空间尺度不可比时,利用不同数据集进行背景参照分析和要素加权分析。
本发明的有益效果为:
本发明基于GIS软件提供的数据和图像处理工具,从地理数据内容和空间地理数据空间精度两个方面,进行了空间地理数据的脱密处理,通过脱密处理的空间地理数据既可以满足信息化的实用价值又可以保证涉及国家安全的数据保密。
本发明通过数据集成,数据集成实现网络化环境信息系统间不同尺度数据交换、传输和共享、数据互操作,是利用空间数据进行环境空间分析和决策的重要环节。
具体实施方式
下面结合具体实施例对本发明作进一步阐述。
实施例:
本实施例的一种生态环境空间大数据集成方法,包括生态环境数据获取步骤、空间地理数据获取步骤,和生态环境空间大数据集成步骤:
生态环境数据获取步骤如下:
第一步、利用网络爬虫从多个初始URL开始下载网页内容,通过搜索策略获取网页中与生态环境主题相关的数据,同时不断从当前页面提取新的URL,根据网页抓取策略放入待抓取URL队列中,循环执行,直至停止,循环结束,其中,生态环境主题相关的数据包括水质监测数据、大气环境监测数据、土壤环境检测数据或/和生态环境污染源信息。具体的实现过程如下:
S101、启动网络爬虫程序;
S102、选取多个初始URL,并将其放入待抓取URL队列中;
S103、从待抓取URL队列中取出某个URL,并下载该URL对应的网页内容,然后将该URL放入到已抓取URL队列;
S104、通过搜索获取网页内容中与生态环境主题相关的数据,判断获取的数据是否已被历史获取,若是则丢弃该数据和网页内容,若否则缓存该数据,丢弃网页内容,同时解析该网页中所包含的URL,判断该URL是否是已抓取URL队列中所包含的URL,若是,则丢弃,若否,则将其放入待抓取URL队列中;
S105、循环执行S103-S104,直至待抓取URL队列中的所有URL被完全抓取,或系统命令停止抓取,循环结束。
抓取策略包括广度优先搜索策略、深度优先搜索策略和最佳优先搜索策略。
广度优先搜索策略的主要思想是:由根节点开始,首先遍历当前层次的搜索,然后才进行下一层的搜索,依次类推逐层的搜索。
深度优先搜索策略的主要思想是:从根节点出发找出叶子节点,在一个网页中,选择一个超链接,被链接的网页将执行深度优先搜索,形成单独的一条搜索链,当没有其他超链接时,搜索结束。
最佳优先搜索策略,通过计算URL描述文本与目标网页的相似度,或者与主题的相关性,根据所设定的阈值选出有效URL进行抓取。
系统包括爬虫主控模块、网页下载模块、网页解析模块、URL调度模块、数据清洗模块和数据显示模块。
爬虫主控模块,生成初始URL,并将这些初始URL放入待抓取URL队列,启动网页下载器下载网页内容,然后解析网页内容,提取需要的数据和URL地址,进入工作循环,控制各个模块工作流程,协调各个模块之间的工作。
网页下载模块,对于可匿名访问的网页,可以直接下载,对于需要身份验证的,需要模拟用户登录后再下载,对于需要数字签名或数字证书才能访问的网站,需要获取相应证书,加载到程序中,通过验证之后才能下载网页,数据下载完成后,将下载的网页数据传递给网页解析模块,将URL地址放入已抓取URL队列。
网页解析模块,从网页中提取满足要求的信息传递给清洗模块,提取URL地址传递给URL调度模块,另外还通过正则表达式匹配的方式或直接搜索的方式来提取满足特定要求的数据,将这些数据传递给数据清洗模块。
URL调度模块,接收网页解析模块传递来的URL地址,然后将这些URL地址和已抓取URL队列中的URL地址比较,如果URL存在于已抓取URL队列中,就丢弃这些URL地址,如果不存在于已抓取URL队列中,就按系统采集的网页抓取策略,将URL放入待抓取URL地址相应的位置。
数据清洗模块,接收网页解析模块传来的数据,网页解析模块提取的数据,然后对这些数据进行清洗整理,整理为满足一定格式的数据,然后存入数据库中。
生态环境主题为生态环境关键词集,生态环境关键词集的获取过程为:
S001、定期地从学术论文网站上获取论文,并将新获取的论文保存在语料库中;
S002、对语料库中各篇论文的词语集进行数值化处理;
S003、将数值化处理结果作为训练样本导入Word2Vec模型进行训练,得到各个词语的词向量;
S004、针对每个词语,分别根据词向量计算该词语与其它各个词语的欧式距离或向量夹角,然后根据计算结果选取欧式距离最近或向量夹角最小的前N个其它词语作为相关词语,得到相关词语集,其中,N为介于20~100之间的自然数;
S005、将词语为“生态环境”的相关词语集作为生态环境关键词集,然后对生态环境关键词集进行补充;
S006、将步骤S002的数值化处理结果作为训练样本导入LDA主题模型进行训练,得到主题-词语矩阵和论文-主题矩阵,其中,所述主题-词语矩阵表示每个主题中出现每个词语的概率,所述论文-主题矩阵表示每篇论文中出现每个主题的概率;
S007、针对所述主题-词语矩阵中的各个主题,选取在对应主题中出现概率最大的前M个词语作为特征词语,得到特征词语集合,同时根据所述论文-主题矩阵获取各个主题的关联主题,其中,M为介于20~100之间的自然数,所述关联主题是指与某个主题共同出现在同一篇论文中的另一共现主题;
S008、针对现有生态环境关键词集合中的各个词语,将其分别作为目标词语,查找到在特征词语集合中包含该目标词语的所有目标主题,以及查找到与各个目标主题对应的目标关联主题;
S009、将所有目标主题和所有目标关联主题中的且不在现有生态环境关键词集合中的词语,添加到现有生态环境关键词集合中。
获取各个主题的关联主题的过程为:
S0071、针对所述论文-主题矩阵中的各个主题,分别计算其与另一主题共同出现在各篇论文中的共现概率之和;
S0072、针对所述论文-主题矩阵中的各个主题,选取对应于其共现概率之和最大的前K个另一主题作为关联主题,其中,K为介于3~10之间的自然数。
对各篇论文的词语集进行数值化处理:
S0021、对语料库中的所有论文进行切词处理,获取不同的词语,得到所述语料库的总词语集和各篇论文的词语集;
S0022、对所述总词语集中的所有词语进行唯一编码,得到包含有所有词语和与各个词语对应的数字唯一标识的词典;
S0023、根据所述词典将论文词语集中的词语转换为对应的数字唯一标识。
第二步、将第一步中获取的网页中与生态环境主题相关的数据进行清洗和整理,并建立索引存入数据库中。
具体是:将S104缓存的数据进行清洗和整理,并建立索引存入数据库中。
空间地理数据获取步骤如下:
第一步、直接从地理信息服务器中获取空间地理数据。
第二步、通过GIS脱密处理方法对L1中获取的空间地理数据进行脱密处理。
GIS脱密处理方法包括地理要素数据及其属性脱密步骤,和空间位置精度脱密步骤,地理要素数据及其属性脱密步骤包括:使用GIS软件提供的编辑工具,删除涉密的空间地理数据及其属性数据;
空间位置精度脱密步骤包括:利用GIS软件提供的投影转换和空间校正工具对源空间地理数据的空间位置进行精度干扰。
具体的实现过程为:
L201、投影前新建一个投影坐标系用于输出图幅,设置投影坐标系名称及参数,完成投影坐标系定义;
L202、在GIS工具中选择“投影”工具,输入参数,选择新建立的投影坐标系作为原始图幅的输出坐标系;
L203、重复L202,选择需要的投影坐标系为最终坐标系;
L204、加载待变换的原始数据,打开“空间校正”工具;
L205、选择需校正的数据,选择射影校正方法,使用工具对图幅创建移位连接;
L206、进行校正、保存,完成数据变换。
基于GIS软件提供的数据和图像处理工具,从地理数据内容和空间地理数据空间精度两个方面,进行了空间地理数据的脱密处理,通过脱密处理的空间地理数据既可以满足信息化的实用价值又可以保证涉及国家安全的数据保密。
生态环境空间大数据集成步骤如下:
从步骤S2中的数据库中提取目标数据,并加载到脱密处理后的空间地理数据中,得到集成的生态环境空间大数据。
数据集成是对数据空间、时间和属性的统一处理,但由于计算机数据表达的离散化、人们处理事务的思维方式和已有地球空间数据的静态特征,导致在数据集成中常把时间作为一个常量或参数对待,结果使不同空间尺度数据集成为数据集成中最经常的形式,由于的同种地学环境现象或过程在不同空间尺度上表现出不尽相同的性质,需要用到各尺度的数据才能完全反映一种物理过程,在多要素分析中,在某一个尺度上的数据要用到另一尺度上的其他要素数据时也涉及到多尺度数据的集成。
生态环境空间大数据的集成包括同要素空间数据集成和不同要素的空间数据集成。
同要素空间数据集成,空间实体和地学过程在时间上有一定的稳定性,因而在地学分析中常把时间处理为常数,同种要素多尺度数据集成在使用中可以表现为不同的形式,同要素空间数据集成包括:
a、对各精度较高的小区域中的数据进行综合,提取其主要特征并归并,形成精度较低但空间范围较大的大区域的数据;
b、确定精度较低的大区域的数据精度,将大区域覆盖各精度较高小区域的部分提取出来,对提取出来的区域进行数据综合使其精度满足要求,最后进行接边处理形成完整的区域特定尺度数据提取;
c、由某区域同尺度不同时间的多个数据集推断出在单个数据集中分辨不出的生态环境或利用数据表达地学过程或特征的相关性来提高原来数据的精度;
d、使用多分辨率模型来表达空间实体,实现数据更新;
不同要素的空间数据集成包括:
h、不同要素空间尺度可比时,利用环境要素的相关性由某一或某些数据对某特定要素进行质量检测、数据综合、数据细化、辅助推导进行空间相关分析;利用不同要素之间的相关性生成新数据;
i、不同要素空间尺度不可比时,利用不同数据集进行背景参照分析和要素加权分析。
本发明通过数据集成,数据集成实现网络化环境信息系统间不同尺度数据交换、传输和共享、数据互操作,是利用空间数据进行环境空间分析和决策的重要环节。
本发明不局限于上述可选实施方式,任何人在本发明的启示下都可得出其他各种形式的产品,但不论在其形状或结构上作任何变化,凡是落入本发明权利要求界定范围内的技术方案,均落在本发明的保护范围之内。

Claims (6)

1.一种生态环境空间大数据集成方法,其特征在于:包括生态环境数据获取步骤、空间地理数据获取步骤,和生态环境空间大数据集成步骤:
生态环境数据获取步骤如下:
S1、利用网络爬虫从多个初始URL开始下载网页内容,通过搜索策略获取网页中与生态环境主题相关的数据,同时不断从当前页面提取新的URL,根据网页抓取策略放入待抓取URL队列中,循环执行,直至停止,循环结束,其中,生态环境主题相关的数据包括水质监测数据、大气环境监测数据、土壤环境检测数据或/和生态环境污染源信息;
S2、将S1中获取的网页中与生态环境主题相关的数据进行清洗和整理,并建立索引存入数据库中;
空间地理数据获取步骤如下:
L1、直接从地理信息服务器中获取空间地理数据;
L2、通过GIS脱密处理方法对L1中获取的空间地理数据进行脱密处理;
生态环境空间大数据集成步骤如下:
从步骤S2中的数据库中提取目标数据,并加载到脱密处理后的空间地理数据中,得到集成的生态环境空间大数据;
所述生态环境主题为生态环境关键词集,生态环境关键词集的获取过程为:
S001、定期地从学术论文网站上获取论文,并将新获取的论文保存在语料库中;
S002、对语料库中各篇论文的词语集进行数值化处理;
S003、将数值化处理结果作为训练样本导入Word2Vec模型进行训练,得到各个词语的词向量;
S004、针对每个词语,分别根据词向量计算该词语与其它各个词语的欧式距离或向量夹角,然后根据计算结果选取欧式距离最近或向量夹角最小的前N个其它词语作为相关词语,得到相关词语集,其中,N为介于20~100之间的自然数;
S005、将词语为“生态环境”的相关词语集作为生态环境关键词集;
在步骤S005后,对生态环境关键词集进行补充,包括以下步骤:
S006、将步骤S002的数值化处理结果作为训练样本导入LDA主题模型进行训练,得到主题-词语矩阵和论文-主题矩阵,其中,所述主题-词语矩阵表示每个主题中出现每个词语的概率,所述论文-主题矩阵表示每篇论文中出现每个主题的概率;
S007、针对所述主题-词语矩阵中的各个主题,选取在对应主题中出现概率最大的前M个词语作为特征词语,得到特征词语集合,同时根据所述论文-主题矩阵获取各个主题的关联主题,其中,M为介于20~100之间的自然数,所述关联主题是指与某个主题共同出现在同一篇论文中的另一共现主题;
S008、针对现有生态环境关键词集合中的各个词语,将其分别作为目标词语,查找到在特征词语集合中包含该目标词语的所有目标主题,以及查找到与各个目标主题对应的目标关联主题;
S009、将所有目标主题和所有目标关联主题中的且不在现有生态环境关键词集合中的词语,添加到现有生态环境关键词集合中;
其中,获取各个主题的关联主题 过程为:
S0071、针对所述论文-主题矩阵中的各个主题,分别计算其与另一主题共同出现在各篇论文中的共现概率之和;
S0072、针对所述论文-主题矩阵中的各个主题,选取对应于其共现概率之和最大的前K个另一主题作为关联主题,其中,K为介于3~10之间的自然数;
其中,步骤S002中对各篇论文的词语集进行数值化处理包括以下步骤:
S0021、对语料库中的所有论文进行切词处理,获取不同的词语,得到所述语料库的总词语集和各篇论文的词语集;
S0022、对所述总词语集中的所有词语进行唯一编码,得到包含有所有词语和与各个词语对应的数字唯一标识的词典;
S0023、根据所述词典将论文词语集中的词语转换为对应的数字唯一标识。
2.根据权利要求1所述的一种生态环境空间大数据集成方法,其特征在于:所述S1的实现过程为:
S101、启动网络爬虫程序;
S102、选取多个初始URL,并将其放入待抓取URL队列中;
S103、从待抓取URL队列中取出某个URL,并下载该URL对应的网页内容,然后将该URL放入到已抓取URL队列;
S104、通过搜索获取网页内容中与生态环境主题相关的数据,判断获取的数据是否已被历史获取,若是则丢弃该数据和网页内容,若否则缓存该数据,丢弃网页内容,同时解析该网页中所包含的URL,判断该URL是否是已抓取URL队列中所包含的URL,若是,则丢弃,若否,则将其放入待抓取URL队列中;
S105、循环执行S103-S104,直至待抓取URL队列中的所有URL被完全抓取,或系统命令停止抓取,循环结束。
3.根据权利要求2所述的一种生态环境空间大数据集成方法,其特征在于:所述S2的实现过程为:将S104缓存的数据进行清洗和整理,并建立索引存入数据库中。
4.根据权利要求1所述的一种生态环境空间大数据集成方法,其特征在于:所述GIS脱密处理方法包括地理要素数据及其属性脱密步骤,和空间位置精度脱密步骤,地理要素数据及其属性脱密步骤包括:使用GIS软件提供的编辑工具,删除涉密的空间地理数据及其属性数据;
空间位置精度脱密步骤包括:利用GIS软件提供的投影转换和空间校正工具对源空间地理数据的空间位置进行精度干扰。
5.根据权利要求4所述的一种生态环境空间大数据集成方法,其特征在于:所述空间位置精度脱密的具体实现过程为:
L201、投影前新建一个投影坐标系用于输出图幅,设置投影坐标系名称及参数,完成投影坐标系定义;
L202、在GIS工具中选择“投影”工具,输入参数,选择新建立的投影坐标系作为原始图幅的输出坐标系;
L203、重复L202,选择需要的投影坐标系为最终坐标系;
L204、加载待变换的原始数据,打开“空间校正”工具;
L205、选择需校正的数据,选择射影校正方法,使用工具对图幅创建移位连接;
L206、进行校正、保存,完成数据变换。
6.根据权利要求1所述的一种生态环境空间大数据集成方法,其特征在于:所述生态环境空间大数据的集成包括同要素空间数据集成和不同要素的空间数据集成;
同要素空间数据集成包括:
a、对各精度较高的小区域中的数据进行综合,提取其主要特征并归并,形成精度较低但空间范围较大的大区域的数据;
b、确定精度较低的大区域的数据精度,将大区域覆盖各精度较高小区域的部分提取出来,对提取出来的区域进行数据综合使其精度满足要求,最后进行接边处理形成完整的区域特定尺度数据提取;
c、由某区域同尺度不同时间的多个数据集推断出在单个数据集中分辨不出的生态环境或利用数据表达地学过程或特征的相关性来提高原来数据的精度;
d、使用多分辨率模型来表达空间实体,实现数据更新;
不同要素的空间数据集成包括:
h、不同要素空间尺度可比时,利用环境要素的相关性由某一或某些数据对某特定要素进行质量检测、数据综合、数据细化、辅助推导进行空间相关分析;利用不同要素之间的相关性生成新数据;
i、不同要素空间尺度不可比时,利用不同数据集进行背景参照分析和要素加权分析。
CN201910164115.7A 2019-03-05 2019-03-05 一种生态环境空间大数据集成方法 Expired - Fee Related CN109885782B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910164115.7A CN109885782B (zh) 2019-03-05 2019-03-05 一种生态环境空间大数据集成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910164115.7A CN109885782B (zh) 2019-03-05 2019-03-05 一种生态环境空间大数据集成方法

Publications (2)

Publication Number Publication Date
CN109885782A CN109885782A (zh) 2019-06-14
CN109885782B true CN109885782B (zh) 2020-05-15

Family

ID=66930735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910164115.7A Expired - Fee Related CN109885782B (zh) 2019-03-05 2019-03-05 一种生态环境空间大数据集成方法

Country Status (1)

Country Link
CN (1) CN109885782B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427450A (zh) * 2019-08-09 2019-11-08 深圳四维集思技术服务有限公司 基于互联网地图的油气管线数据处理方法和系统
CN110647673A (zh) * 2019-09-21 2020-01-03 郑州轻工业学院 一种实现生态环境空间大数据集成共享的方法
CN112325966B (zh) * 2020-10-30 2023-12-08 重庆工商大学 面向智能水表数据发布行为的差分隐私发布方法
CN112417250A (zh) * 2020-11-27 2021-02-26 生态环境部华南环境科学研究所 一种基于网络爬虫的土壤污染场地环境信息采集方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103390039A (zh) * 2013-07-17 2013-11-13 北京建筑工程学院 基于网络信息的城市灾害专题图实时生成的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10783173B2 (en) * 2016-04-08 2020-09-22 Global Grid Systems Inc. Methods and systems for selecting and analyzing geospatial data on a discrete global grid system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103390039A (zh) * 2013-07-17 2013-11-13 北京建筑工程学院 基于网络信息的城市灾害专题图实时生成的方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
基于GIS的测绘地理数据脱密方法及应用;林海;《中国水运》;20140715;第14卷(第7期);第336-337、340页 *
大数据环境下基于python的网络爬虫技术;谢克武;《电子制作》;20170501;第44-45页 *
生态环境空间数据的多尺度集成方法;陈崇成 等;《环境科学研究》;20000730;第13卷(第4期);第34-38页 *
领域关键词抽取:结合LDA与Word2Vec;韦强申;《中国优秀硕士学位论文全文数据库信息科技辑》;20161215(第12期);第1-23页 *

Also Published As

Publication number Publication date
CN109885782A (zh) 2019-06-14

Similar Documents

Publication Publication Date Title
CN109885782B (zh) 一种生态环境空间大数据集成方法
WO2022068196A1 (zh) 跨模态的数据处理方法、装置、存储介质以及电子装置
Zhang et al. An incremental CFS algorithm for clustering large data in industrial internet of things
US11899681B2 (en) Knowledge graph building method, electronic apparatus and non-transitory computer readable storage medium
CN108108499B (zh) 人脸检索方法、装置、存储介质及设备
Liu Computing infrastructure for big data processing
CN110134714B (zh) 适用于大数据迭代计算的分布式计算框架缓存索引方法
CN110990638A (zh) 基于fpga-cpu异构环境的大规模数据查询加速装置及方法
CN104820708B (zh) 一种基于云计算平台的大数据聚类方法和装置
CN105706078A (zh) 实体集合的自动定义
CN107766555A (zh) 基于软约束无监督型跨模态哈希的图像检索方法
CN109829320B (zh) 一种信息的处理方法和装置
CN110321437B (zh) 一种语料数据处理方法、装置、电子设备及介质
Hsu et al. Integrating machine learning and open data into social Chatbot for filtering information rumor
Banaei et al. Hadoop and its role in modern image processing
CN112084781B (zh) 一种标准术语确定方法、装置及存储介质
CN113254630A (zh) 一种面向全球综合观测成果的领域知识图谱推荐方法
CN106874425A (zh) 基于Storm的实时关键词近似搜索算法
Zhang et al. Fast eclat algorithms based on minwise hashing for large scale transactions
CN111177404A (zh) 家装知识的知识图谱构建方法、装置、计算机设备
CN106599305B (zh) 一种基于众包的异构媒体语义融合方法
CN109726292A (zh) 面向大规模多语种数据的文本分析方法和装置
WO2023169496A1 (zh) 一种数据处理方法、装置、电子设备和存储介质
CN110020214B (zh) 一种融合知识的社交网络流式事件检测系统
Chen et al. DBSCAN-PSM: an improvement method of DBSCAN algorithm on Spark

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200515