CN109885775B

CN109885775B - 一种实现生态环境空间大数据集成共享的方法

Info

Publication number: CN109885775B
Application number: CN201910165375.6A
Authority: CN
Inventors: 陈国彬
Original assignee: Industrial And Commercial University Of Chongqing School Of Wisdom
Current assignee: Industrial And Commercial University Of Chongqing School Of Wisdom
Priority date: 2019-03-05
Filing date: 2019-03-05
Publication date: 2020-03-17
Anticipated expiration: 2039-03-05
Also published as: CN109885775A

Abstract

本发明涉及生态环保技术领域，公开了一种实现生态环境空间大数据集成共享的方法。通过本发明创造，提供了一种生态环境空间大数据集成共享平台及系统的工作方法，不但可以通过网络爬虫技术自动地从互联网络上获取生态环境元数据，并予以数据存储，还可以在共享生态环境元数据时，实现针对不同用户访问权限等级的数据响应和地理空间数据脱密处理，最终将集成有目标生态环境元数据和已脱密地理空间数据的生态环境空间大数据安全地反馈给访问发起者，从而既能够实现分散化环境信息资源的集中共享，又能针对不同等级的部门或需求人员实现分级共享和安全共享目的，满足了实际共享需求，并保障了信息安全。

Description

一种实现生态环境空间大数据集成共享的方法

技术领域

本发明属于生态环保技术领域，具体涉及一种实现生态环境空间大数据集成共享的方法。

背景技术

近年来，随着社会经济的发展和人类活动的增加，我国污染事件的发生越来越频繁，特别是流域水环境的污染，备受人们的关注，同时也引起了国家有关部门的高度重视。控制与治理环境污染对社会经济的发展和人类生命安全是至关重要的，如何科学合理地利用环境信息资源(包括各种生态环境监测数据、生态环境污染源信息以及地理空间信息等)来进行生态环境评估与监控预警是极其重要的，同时又可以为国家环保部门控制和治理污染提供快速准确的决策依据。

为了使有关部门对将来可能的环境质量发展趋势做出准确的判断和预测，从而有的放矢地采取相应对策，建立生态环境空间大数据集成共享平台及其实现方法势在必行，不但可以减少环境数据监测节点的重复建设，使环境信息资源能够被有效利用，还可以为不同地方、不同单位提供环境信息资源的共享，以利于不同部门对环境状况及时做出合理的决策。

虽然我国在许多科技领域都进行了不同程度科学研究工作，同时也产生了海量的科学数据，例如大量的地质调查数据、气象观测数据、环境监测数据、水文观测数据以及地形测绘数据等，但是这些环境信息资源大部分都分散在不同单位、不同部门和一些研究人员的手中，很多宝贵的环境信息资源都并没有得到充分的共享，从而造成了数据资源的重复采集，不能充分有效的利用这些数据资源，也造成了大量的人力和物力的浪费。

另外，出于对环境信息资源的安全考虑，在共享过程中针对不同分享对象，还应当配合法律法规赋予对应的共享权限，例如对于国家或省级等高级部门，可以获取所有的环境监测数据和弱脱密的地理空间数据等，而对于地级或县级等中级部门，可以获取大部分的环境监测数据和强脱密的地理空间数据等，而对于普通人员则只能获取少部分的环境监测数据和完全脱密的地理空间数据等。此外，还需在共享过程中，采取一定的数据安全措施来保护共享平台侧和用户终端侧的信息安全。

发明内容

为了解决现有环境信息资源因分散而不能共享以及进一步不能实现分级共享和安全共享的问题，本发明目的在于提供一种实现生态环境空间大数据集成共享的方法。

本发明所采用的技术方案为：

一种实现生态环境空间大数据集成共享的方法，其特征在于，包括如下步骤：

S101.定期启动主题网络爬虫程序，并基于内容评价的搜索策略从互联网络上抓取与生态环境主题相关的网页内容；

S102.判断新抓取的网页内容是否已被历史抓取，若是则放弃该网页内容，否则缓存该网页内容；

S103.若从新缓存的网页内容中提取出生态环境元数据，则将所述生态环境元数据存储在元数据库中，然后放弃该网页内容，否则直接放弃该网页内容，其中，所述生态环境元数据包含有数据唯一标识信息、数据覆盖范围信息、数据内容描述信息和数据访问限制信息，所述数据内容描述信息为水质环境监测信息、大气环境监测信息、土壤环境监测信息和/或生态环境污染源信息；

S104.接收来自用户终端的且包含有访问目标信息和用户验证哈希值的访问请求消息，其中，所述用户验证哈希值为对用户终端侧的唯一用户认证信息和所述访问目标信息进行哈希运算而得到的哈希值；

S105.针对本地存储的各个唯一用户认证信息，逐一地将其和所述访问目标信息进行哈希运算，直到哈希运算结果与所述用户验证哈希值匹配，若均不匹配则判定验证失败，向用户终端反馈访问请求失败消息，否则判定验证成功，并根据匹配时对应的唯一用户认证信息确定用户访问权限等级；

S106.根据所述访问目标信息从元数据库中检索出符合访问要求的目标生态环境元数据；

S107.若由所述目标生态环境元数据中的数据访问限制信息指示的数据访问权限等级高于所述用户访问权限等级，则向用户终端反馈访问请求失败消息，否则根据由所述目标生态环境元数据中的数据覆盖范围信息指示的空间范围从地理空间数据库中提取出包罗该空间范围的地理空间数据；

S108.删除所述地理空间数据中访问权限等级属性高于所述用户访问权限等级的地理要素信息，然后根据所述用户访问权限等级调取对应的预置投影比例因子，最后在采用投影转换坐标系的方式对地理空间数据进行坐标重新投影的过程中使用所述预置投影比例因子，得到已脱密地理空间数据；

S109.将所述目标生态环境元数据加载到所述已脱密地理空间数据中，得到集成的生态环境空间大数据；

S110.对在步骤S105中匹配时对应的唯一用户认证信息和所述用户验证哈希值进行哈希运算，得到第一密钥选择哈希值，然后根据所述第一密钥选择哈希值的尾部数值从本地存储区中选择对应的加密密钥，最后使用所述加密密钥对所述生态环境空间大数据进行加密，得到加密数据；

S111.对所述加密数据和所述第一密钥选择哈希值进行哈希运算，得到数据验证哈希值；

S112.向用户终端反馈包含所述加密数据和所述数据验证哈希值的访问响应消息。

优化的，用户终端在收到所述访问响应消息后，按照如下步骤展示生态环境空间大数据：

S201.对用户终端侧的唯一用户认证信息和访问请求消息中的用户验证哈希值进行哈希运算，得到第二密钥选择哈希值；

S202.对访问响应消息中的加密数据和所述第二密钥选择哈希值进行哈希运算，若哈希运算结果与所述访问响应消息中的数据验证哈希值匹配，则根据所述第二密钥选择哈希值的尾部数值从本地存储区中选择对应的解密密钥，否则删除所述访问响应消息中的加密数据和数据验证哈希值，其中，所述解密密钥与在步骤S110中所使用的加密密钥匹配；

S203.使用所述解密密钥对所述加密数据进行解密，获取生态环境空间大数据，最后输出展示该生态环境空间大数据。

优化的，在基于内容评价的搜索策略进行网页抓取的过程中，所使用的生态环境主题为生态环境关键词集合，并在所述步骤S101之前，按照如下步骤获取该生态环境关键词集合：

S301.定期地从学术论文网站上获取论文，并将新获取的论文保存在语料库中；

S302.对所述语料库中各篇论文的词语集合进行数值化处理；

S303.将数值化处理结果作为训练样本导入Word2Vec模型进行训练，得到各个词语的词向量；

S304.针对每个词语，分别根据词向量计算该词语与其它各个词语的欧式距离或向量夹角，然后根据计算结果选取欧式距离最近或向量夹角最小的前N个其它词语作为相关词语，得到相关词语集合，其中，N为介于20～100之间的自然数；

S305.将词语为“生态环境”的相关词语集合作为所述生态环境关键词集合。

进一步优化的，在所述步骤S305之后，还按照如下步骤补充所述生态环境关键词集合：

S401.将步骤S302的数值化处理结果作为训练样本导入LDA主题模型进行训练，得到主题-词语矩阵和论文-主题矩阵，其中，所述主题-词语矩阵表示每个主题中出现每个词语的概率，所述论文-主题矩阵表示每篇论文中出现每个主题的概率；

S402.针对所述主题-词语矩阵中的各个主题，选取在对应主题中出现概率最大的前M个词语作为特征词语，得到特征词语集合，同时根据所述论文-主题矩阵获取各个主题的关联主题，其中，M为介于20～100之间的自然数，所述关联主题是指与某个主题共同出现在同一篇论文中的另一共现主题；

S403.针对现有生态环境关键词集合中的各个词语，将其分别作为目标词语，查找到在特征词语集合中包含该目标词语的所有目标主题，以及查找到与各个目标主题对应的目标关联主题；

S404.将所有目标主题和所有目标关联主题中的且不在现有生态环境关键词集合中的词语，添加到现有生态环境关键词集合中。

详细优化的，按照如下步骤获取各个主题的关联主题：

S501.针对所述论文-主题矩阵中的各个主题，分别计算其与另一主题共同出现在各篇论文中的共现概率之和；

S502.针对所述论文-主题矩阵中的各个主题，选取对应与其共现概率之和最大的前K个另一主题作为关联主题，其中，K为介于3～10之间的自然数。

进一步优化的，按照如下步骤对各篇论文的词语集合进行数值化处理：

S601.对语料库中的所有论文进行切词处理，获取不同的词语，得到所述语料库的总词语集合和各篇论文的词语集合；

S602.对所述总词语集合中的所有词语进行唯一编码，得到包含有所有词语和与各个词语对应的数字唯一标识的词典；

S603.根据所述词典将论文词语集合中的词语转换为对应的数字唯一标识。

详细优化的，在所述步骤S601中，按照如下方式对论文进行切词处理：

应用正向最大匹配法进行中文分词，和/或构建数据结构字典树并结合正向最大匹配法进行英文词组识别。

优化的，在所述步骤S104之前还包括有如下步骤：

在用户终端的注册过程中，授予对应的用户访问权限等级和预置投影比例因子，并将该用户访问权限等级和该预置投影比例因子与来自用户终端的唯一用户认证信息一起予以绑定存储。

优化的，在所述步骤S108中，所述采用投影转换坐标系的方式对地理空间数据进行坐标重新投影的步骤包括如下：

S801.获取地理空间数据中的且在墨卡托投影下的所有原坐标(X_N,Y_E)；

S802.通过墨卡托投影坐标反解公式对所有原坐标(X_N,Y_E)进行反解，得到新的地理坐标(B,L)；

S803.将新的地理坐标(B,L)通过高斯-克吕格投影坐标正解公式或UTM投影坐标正解公式转换为目标地理坐标(X′_N,Y′_E)，其中，所使用的预置投影比例因子即为高斯-克吕格投影比例因子或UTM投影比例因子。

优化的，所述生态环境元数据还包含有数据维护信息、数据质量信息和/或数据分发信息。

本发明的有益效果为：

(1)本发明创造提供了一种生态环境空间大数据集成共享平台及系统的工作方法，不但可以通过网络爬虫技术自动地从互联网络上获取生态环境元数据，并予以数据存储，还可以在共享生态环境元数据时，实现针对不同用户访问权限等级的数据响应和地理空间数据脱密处理，最终将集成有目标生态环境元数据和已脱密地理空间数据的生态环境空间大数据安全地反馈给访问发起者，从而既能够实现分散化环境信息资源的集中共享，又能针对不同等级的部门或需求人员实现分级共享和安全共享目的，满足了实际共享需求，并保障了信息安全；

(2)在消息空口传输过程中，通过利用哈希算法及哈希值的唯一且不可逆特点，可避免对唯一用户认证信息和公钥等涉密信息进行直接传输，大大提升了共享平台侧和用户终端侧的信息安全性；

(3)通过将Word2Vec模型/和LDA主题模型两种理论引入主题网络爬虫的且基于内容评价的搜索策略中，可以利用词语统计学上的语义关联性，自动丰富在搜索策略中所需使用的生态环境关键词集合，确保网页内容抓取的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的实现生态环境空间大数据集成共享的方法流程示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步阐述。在此需要说明的是，对于这些实施例方式的说明用于帮助理解本发明，但并不构成对本发明的限定。本文公开的特定结构和功能细节仅用于描述本发明的示例实施例。然而，可用很多备选的形式来体现本发明，并且不应当理解为本发明限制在本文阐述的实施例中。

应当理解，尽管本文可以使用术语第一、第二等等来描述各种单元，这些单元不应当受到这些术语的限制。这些术语仅用于区分一个单元和另一个单元。例如可以将第一单元称作第二单元,并且类似地可以将第二单元称作第一单元，同时不脱离本发明的示例实施例的范围。

应当理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，单独存在B，同时存在A和B三种情况，本文中术语“/和”是描述另一种关联对象关系，表示可以存在两种关系，例如，A/和B，可以表示：单独存在A，单独存在A和B两种情况，另外，本文中字符“/”，一般表示前后关联对象是一种“或”关系。

应当理解，当将单元称作与另一个单元“连接”、“相连”或“耦合”时，它可以与另一个单元直相连接或耦合，或中间单元可以存在。相対地，当将单元称作与另一个单元“直接相连”或“直接耦合”时，不存在中间单元。应当以类似方式来解释用于描述单元之间的关系的其他单词(例如，“在……之间”对“直接在……之间”,“相邻”对“直接相邻”等等)。

本文使用的术语仅用于描述特定实施例，并不意在限制本发明的示例实施例。如本文所使用的，单数形式“一”、“一个”以及“该”意在包括复数形式，除非上下文明确指示相反意思。还应当理解术语“包括”、“包括了”、“包含”和/或“包含了”在本文中使用时,指定所声明的特征、整数、步骤、操作、单元和/或组件的存在性,并且不排除一个或多个其他特征、数量、步骤、操作、单元、组件和/或他们的组合存在性或增加。

还应当注意到在一些备选实施例中，所出现的功能/动作可能与附图出现的顺序不同。例如,取决于所涉及的功能/动作,实际上可以实质上并发地执行,或者有时可以以相反的顺序来执行连续示出的两个图。

在下面的描述中提供了特定的细节,以便于对示例实施例的完全理解。然而,本领域普通技术人员应当理解可以在没有这些特定细节的情况下实现示例实施例。例如可以在框图中示出系统，以避免用不必要的细节来使得示例不清楚。在其他实例中，可以不以不必要的细节来示出众所周知的过程、结构和技术，以避免使得示例实施例不清楚。

实施例一

如图1所示，本实施例提供的所述实现生态环境空间大数据集成共享的方法，可以但不限于包括如下步骤。

S101.定期启动主题网络爬虫程序，并基于内容评价的搜索策略从互联网络上抓取与生态环境主题相关的网页内容。

在所述步骤S101中，所述主题网络爬虫程序是一种区分于通用网络爬虫程序的现有网络爬虫程序(网络爬虫程序是一种自动提取网页的程序，它为搜索引擎从互联网络上下载网页，是搜索引擎的重要组成部分，一般可分为通用网络爬虫程序和主题网络爬虫程序，前者从一个或若干初始网页的URL开始，获得初始网页上的URL列表，并在抓取网页的过程中，不断从当前页面上抽取新的URL放入待爬队列，直到满足系统的停止条件)，其根据一定的网页分析算法过滤与主题无关的链接，保留主题相关的链接并将其放入待抓取的URL(Uniform Resource Locator,统一资源定位符)队列中，然后根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复前述过程，直到达到系统的某一条件时停止。此外，定期启动的时间长度可以但不限于为1个小时、自然日或自然周等。

相对于通用网络爬虫的搜索策略，主题网络爬虫是通过结合已知的启发信息而形成的启发式搜索策略，通常可以利用的启发信息由网页内容和链接结构，因此也就形成了基于内容评价的搜索策略和基于链接结构评价的搜索策略。本实施例采用基于内容评价的搜索策略，根据生态环境主题与锚文本(指链接周围的说明文字)的相似度来评价链接价值，其中，所使用的生态环境主题为生态环境关键词集合，文本的相似度计算可使用向量的夹角余弦值。优化的，为了自动化地获取及更新所述生态环境关键词集合，在所述步骤S101之前，还包括如下步骤S301至S305。

S301.定期地从学术论文网站上获取论文，并将新获取的论文保存在语料库中。在所述步骤S301中，所述语料库用于为后续的Word2Vec模型以及LDA(Latent DirichletAllocation，文档主题生成模型)主题模型的训练进程提供足量的训练语料，所述训练语料由各种文档数据(即包含有大量专业词语的论文)构成，每篇论文可以但不限于由标题、摘要、关键词、正文、附件名目、附件内容和作者信息等中的一部分字段或几部分字段构成。此外，定期获取的时间长度可以但不限于为1个小时、自然日或自然周等，通过长期的论文获取动作，即可使所述语料库存储有海量的学术论文，足以构成一个专业词典。

S302.对所述语料库中各篇论文的词语集合进行数值化处理。在所述步骤S302中，考虑Word2Vec模型以及LDA主题模型的训练算法是无法处理词语(本文中的所述词语可以但不限于包括单词、字符串和/或它们的组合)的输入和输出，因此需要把论文中的词语转换为对应的数字唯一标识，即实现训练样本数值化，方便进行后续的模型训练。进一步优化的，可以但不限于按照如下步骤对各篇论文的词语集合进行数值化处理：S601.对语料库中的所有论文进行切词处理，获取不同的词语，得到所述语料库的总词语集合和各篇论文的词语集合；S602.对所述总词语集合中的所有词语进行唯一编码，得到包含有所有词语和与各个词语对应的数字唯一标识的词典；S603.根据所述词典将论文词语集合中的词语转换为对应的数字唯一标识。

在所述步骤S601中，为了表达更好的语义效果，特别需要现有的中文分词技术和/或英文词组识别技术进行技术支撑，例如对于“长江流域”、“水文数据”或“排污管道”等，需要将这些词语分别识别为一个独立词语，这样可以使得搜索提示出来的词语表达出更好的语义效果。详细优化的，可以但不限于按照如下方式对论文进行切词处理：应用正向最大匹配法进行中文分词，和/或构建数据结构字典树并结合正向最大匹配法进行英文词组识别。其中，所述正向最大匹配法为现有常用的中文分词方法，其算法原理一般是从左到右将待分词文本(等同于论文文档)中的几个连续字符与词表(由成千上万个常用的且已经分好的词语组成)中的所有词语逐一匹配，如果匹配上，则切分出一个词语，为了做到最大匹配，并不是第一次匹配到就可以切分的，即从第一个字符开始，当扫描到第二个字符的时候，发现第一个字符已经在词表中了，但还不能切分出来，因为不知道后面的词语能不能组成更长的词(即最大匹配)，因此需要扫描迭代，使最大匹配出的词语必须保证下一个扫描不是词表中的词语或词语的前缀才可以结束。英文词组的识别扫描与中文相同，需要将英文空格转换为“|”或者其他具有表征意义的字符，能够表示为一个词组即可。此外，中文分词和英文词组的识别均是采用正向最大匹配算法，为了加快英文词组的识别速度，还可以采用特定的数据结构字典树(又称单词查找树或Trie树，是一种树形结构和一种哈希树的变种，其典型应用是用于统计、排序和保存大量的字符串，所以经常被搜索引擎系统用于文本词频统计，其主要优点是可利用字符串的公共前缀来减少查询时间，最大限度地减少无谓的字符串比较，查询效率比哈希树高)来辅助英文词组的识别。

S303.将数值化处理结果作为训练样本导入Word2Vec模型进行训练，得到各个词语的词向量。在所述步骤S303中，所述Word2Vec模型的技术解释和训练过程可参见现有技术文献(例如http://www.dataguru.cn/article-13488-1.html和https://blog.csdn.net/u011630575/article/details/81054810)，其一般过程为在导入一系列论文的数值化样本后，选择两种不同训练模式中任何一种：CBOW(Continuous Bag-of-WordsModel)和Skip-gram(Continuous Skip-gram Model)；以及选择两种加速方法中的任何一种：Negative Sample和Hierarchical Softmax；以及通过训练可导出各个词语的词向量。本实施例可举例选用Skip-Gram训练模型和Hierarchical Softmax加速方法。此外，迭代次数Epoch、向量维度Vectorsize以及学习率Learningrate等参数，都可以根据训练和测试结果进行选取。例如，在本实施例中，迭代次数Epoch的选取范围介于10～25之间，向量维度Vectorsize的选取范围介于45～100之间,学习率Learningrate的选取范围介于0.001-0.03之间(推荐使用默认数值0.025)，并使用大数据开源框架SPARK(其为大规模数据处理而设计的快速通用的计算引擎)进行训练。

S304.针对每个词语，分别根据词向量计算该词语与其它各个词语的欧式距离或向量夹角，然后根据计算结果选取欧式距离最近或向量夹角最小的前N个其它词语作为相关词语，得到相关词语集合，其中，N为介于20～100之间的自然数。在所述步骤S304中，自然数N一般可默认为30。

S305.将词语为“生态环境”的相关词语集合作为所述生态环境关键词集合。在所述步骤S305中，由于“生态环境”为现有论文的常见词语，因此必然能得到所述生态环境关键词集合。进一步优化的，考虑单个词的相关词语数目一定，为了对所述生态环境关键词集合进行有效扩充，在所述步骤S305之后，还可以但不限于按照如下步骤S401～S404补充所述生态环境关键词集合。

S401.将步骤S302的数值化处理结果作为训练样本导入LDA主题模型进行训练，得到主题-词语矩阵和论文-主题矩阵，其中，所述主题-词语矩阵表示每个主题中出现每个词语的概率，所述论文-主题矩阵表示每篇论文中出现每个主题的概率。所述LDA主题模型的技术解释和训练过程可参见现有技术文献(例如https://blog.csdn.net/huagong_adu/article/details/7937616和https://blog.csdn.net/u010159842/article/details/80332030)，其一般过程为在导入一系列文档的数值化样本后，通过计算各个文档中每个词语的词频，得到所述主题-词语矩阵和文档-主题矩阵，其中，所述文档-主题矩阵表示每个文档中出现每个主题的概率。此外，诸如主题预设数目等参数可以根据训练和测试结果进行选取，例如，主题预设数目的范围可介于100～10000之间。

S402.针对所述主题-词语矩阵中的各个主题，选取在对应主题中出现概率最大的前M个词语作为特征词语，得到特征词语集合，同时根据所述论文-主题矩阵获取各个主题的关联主题，其中，M为介于20～100之间的自然数，所述关联主题是指与某个主题共同出现在同一篇论文中的另一共现主题。在所述步骤S402中，自然数M一般可默认为30。另外，可以但不限于按照如下步骤S501～S502获取各个主题的关联主题：S501.针对所述论文-主题矩阵中的各个主题，分别计算其与另一主题共同出现在各篇论文中的共现概率之和；S502.针对所述论文-主题矩阵中的各个主题，选取对应与其共现概率之和最大的前K个另一主题作为关联主题，其中，K为介于3～10之间的自然数，一般可默认为5。例如主题T0与另一主题T1～T12的共现概率之和分别为0.12、0.21、0.19、0.18、0.09、0.35、0.51、0.22、0.28、0.03、0.01和0.01，选取对应与主题T0共现概率之和为0.51、0.35、0.28、0.22和0.21的另一主题T7、T6、T9、T8和T2作为主题T0的关联主题。此外，两主题在某篇论文中的共现概率可通过计算所述论文-主题矩阵中对应位置的元素之积得到。

S403.针对现有生态环境关键词集合中的各个词语，将其分别作为目标词语，查找到在特征词语集合中包含该目标词语的所有目标主题，以及查找到与各个目标主题对应的目标关联主题。

S102.判断新抓取的网页内容是否已被历史抓取，若是则放弃该网页内容，否则缓存该网页内容。

在所述步骤S102之前，可设置历史抓取记录表来记录历史抓取网页的URL，若新抓取网页的URL在该历史抓取记录表中存在，则判定新抓取的网页内容已被历史抓取，否则判定未被历史抓取，并将新抓取网页的URL记录在该历史抓取记录表中。

S103.若从新缓存的网页内容中提取出生态环境元数据，则将所述生态环境元数据存储在元数据库中，然后放弃该网页内容，否则直接放弃该网页内容，其中，所述生态环境元数据可以但不限于包含有数据唯一标识信息、数据覆盖范围信息、数据内容描述信息和数据访问限制信息等，所述数据内容描述信息可以但不限于为水质环境监测信息、大气环境监测信息、土壤环境监测信息和/或生态环境污染源信息等。

在所述步骤S103中，从网页内容中提取生态环境元数据的方法可参见现有技术(例如https://www.cnblogs.com/yubaohong/articles/2424140.html)。在所述生态环境元数据中，所述数据唯一标识信息用于唯一标识环境信息资源，具体内容可以但不限于包含环境信息的数据集名称、数据集发布日期、数据集摘要、数据集提供方、关键词、数据集分类和数据量等任意唯一性组合。所述数据覆盖范围信息用于提供数据覆盖范围的描述，具体内容可以但不限于包含空间范围/和时间范围等。所述数据内容描述信息用于提供环境信息内容的具体描述，其中，所述水质环境监测信息可以但不限于为PH值、悬浮固体含量、可沉固体含量、COD(化学需氧量)、BOD(生化需氧量)、氨氮含量和/或硝酸盐含量等；所述大气环境监测信息可以但不限于为硫氧化物含量、氮氧化物含量、一氧化碳含量、臭氧含量、卤代烃含量、碳氢化合物含量、PM2.5值和/或环境噪声值等；所述土壤环境监测信息可以但不限于为汞含量、镉含量、铅含量、砷含量、铜含量、铝含量、镍含量、锌含量、硒含量、铬含量、钒含量、锰含量、硫酸盐含量、硝酸盐含量、卤化物含量和/或碳酸盐含量等；所述生态环境污染源信息可以但不限于为工厂信息、垃圾站信息、管道排污口信息和/或废气烟囱信息等。所述数据访问限制信息用于记录对应生态环境元数据的数据访问权限等级，只有高于该数据访问权限等级才允许访问，若在网页内容中无特别指示，一般可设置为最低级别。

此外，在所述步骤S103中，所述生态环境元数据还可以但不限于包含有数据维护信息、数据质量信息和/或数据分发信息等，其中，所述数据维护信息用于描述相关数据集的更新频率；所述数据质量信息用于描述相关数据集的数据质量，例如数据精度等；所述数据分发信息用于记录数据集的获取途径和/或分发格式，例如在线资源链接地址等。

S104.接收来自用户终端的且包含有访问目标信息和用户验证哈希值的访问请求消息，其中，所述用户验证哈希值为对用户终端侧的唯一用户认证信息和所述访问目标信息进行哈希运算而得到的哈希值。

在所述步骤S104中，所述用户终端即为分享对象(例如各级环保相关部门或环保研究人员等)所持有的电子设备，具体可以但不限于为电脑、平板或智能手机等。所述访问请求消息用于在用户终端侧发起数据分享请求，其中，所述访问目标信息用于指示分享对象所想要获取的生态环境元数据的目标特征，例如为数据覆盖范围信息和/或数据内容描述信息的目标关键词等；所述唯一用户认证信息用于唯一标识用户终端，其可以但不限于为登录密码、数字签名和/或生物信息特征码等。另外，为了便于后续能够快速确定本次访问的用户访问权限等级和预置投影比例因子，在所述步骤S104之前，还包括有如下步骤：在用户终端的注册过程中，授予对应的用户访问权限等级和预置投影比例因子，并将该用户访问权限等级和该预置投影比例因子与来自用户终端的唯一用户认证信息一起予以绑定存储。所述注册过程为现有方法，于此不再赘述。

S105.针对本地存储的各个唯一用户认证信息，逐一地将其和所述访问目标信息进行哈希运算，直到哈希运算结果与所述用户验证哈希值匹配，若均不匹配则判定验证失败，向用户终端反馈访问请求失败消息，否则判定验证成功，并根据匹配时对应的唯一用户认证信息确定用户访问权限等级。

在所述步骤S105中，哈希算法是一种将任意长度的二进制值映射为较短的且固定长度的二进制值的现有算法。由于哈希值具有唯一性和不可逆向性，因此通过步骤S105，不但可以对发起访问请求的用户终端进行认证，还可以保护所述唯一用户认证信息的空口安全，因为所述唯一用户认证信息不会在空口中传输，且所述访问目标信息会影响每次访问时所述用户验证哈希值的具体二机制值，即使空口截取了所述访问目标信息和所述用户验证哈希值，也会因缺乏一个存储有所有唯一用户认证信息的数据库而难以逆推得到唯一用户认证信息。

S106.根据所述访问目标信息从元数据库中检索出符合访问要求的目标生态环境元数据。

S107.若由所述目标生态环境元数据中的数据访问限制信息指示的数据访问权限等级高于所述用户访问权限等级，则向用户终端反馈访问请求失败消息，否则根据由所述目标生态环境元数据中的数据覆盖范围信息指示的空间范围从地理空间数据库中提取出包罗该空间范围的地理空间数据。

S108.删除所述地理空间数据中访问权限等级属性高于所述用户访问权限等级的地理要素信息，然后根据所述用户访问权限等级调取对应的预置投影比例因子，最后在采用投影转换坐标系的方式对地理空间数据进行坐标重新投影的过程中使用所述预置投影比例因子，得到已脱密地理空间数据。

在所述步骤S108中，由于地理空间数据通常处于保密的情况下，不能直接对社会需求实现共享与应用，因此需要通过步骤S108所描述的从地理要素属性、地理空间坐标和地理空间精度等几个方面出发进行脱密处理：首先删除访问权限等级属性高于所述用户访问权限等级的地理要素信息，实现对地理要素属性的适当脱密，其次采用投影转换坐标系的方式实现对地理空间坐标和精度的适当脱密。

在所述步骤S108中，优化的，所述采用投影转换坐标系的方式对地理空间数据进行坐标重新投影的步骤可以但不限于包括如下：S801.获取地理空间数据中的且在墨卡托投影下的所有原坐标(X_N,Y_E)；S802.通过墨卡托投影坐标反解公式对所有原坐标(X_N,Y_E)进行反解，得到新的地理坐标(B,L)；S803.将新的地理坐标(B,L)通过高斯-克吕格投影坐标正解公式或UTM投影坐标正解公式转换为目标地理坐标(X′_N,Y′_E)，其中，所使用的预置投影比例因子即为高斯-克吕格投影比例因子或UTM投影比例因子。所述墨卡托投影坐标反解公式、高斯-克吕格投影坐标正解公式和所述UTM(通用横轴墨卡托投影)投影坐标正解公式为现有计算公式(可参见http://www.gissky.net/Article/81.htm)，所使用的高斯-克吕格投影比例因子或UTM投影比例因子的具体取值可影响最终坐标重新投影后的地理空间坐标和精度，其中，所述高斯-克吕格投影比例因子越接近于1或所述UTM投影比例因子越接近于0.9996，则坐标重新投影后精度越高，因此针对不同的用户访问权限等级设置不同的预置投影比例因子，可以对地理空间坐标和精度进行适当脱密，使国家或省级等高级部门，可以获取弱脱密的地理空间数据，使地级或县级等中级部门，可以获取强脱密的地理空间数据，而使普通人员只能完全脱密的地理空间数据。

S109.将所述目标生态环境元数据加载到所述已脱密地理空间数据中，得到集成的生态环境空间大数据。

在所述步骤S109中，可以但不限于根据由所述目标生态环境元数据中的数据覆盖范围信息指示的空间范围将元数据加载到在所述已脱密地理空间数据的可视化地图中的相应位置，以方便在用户终端侧进行直观的输出展示。

S110.对在步骤S105中匹配时对应的唯一用户认证信息和所述用户验证哈希值进行哈希运算，得到第一密钥选择哈希值，然后根据所述第一密钥选择哈希值的尾部数值从本地存储区中选择对应的加密密钥，最后使用所述加密密钥对所述生态环境空间大数据进行加密，得到加密数据。

在所述步骤S110中，由于在用户终端侧也能得到唯一用户认证信息和发送访问请求时的用户验证哈希值，因此在用户终端也能够根据哈希算法得到与所述第一密钥选择哈希值一致的第二密钥选择哈希值。如果在平台侧和用户终端侧分别一一匹配地提前预置若干加密密钥和解密密钥，则在用户终端侧能够根据所述第二密钥选择哈希值的尾部数值选择对应的解密密钥，从而实现对加密数据进行解密的目的。例如在平台侧提前预置有256个加密密钥，在用户终端侧也一一匹配地预置有256个解密密钥，若所述第一密钥选择哈希值的尾部8位数值为00111001(即数值57)，则可选择第57号加密密钥进行加密动作，而在用户终端侧所得到的第二密钥选择哈希值的尾部8位数值也必然为00111001，可选择第57号解密密钥(其与第57号加密密钥相匹配)进行解密动作，获取其中的生态环境空间大数据。由于“黑客”不能提前拥有解密密钥库，因此很难破解得到加密数据中的生态环境空间大数据，保障了数据传输的安全。

S111.对所述加密数据和所述第一密钥选择哈希值进行哈希运算，得到数据验证哈希值。

在所述步骤S111中，所述数据验证哈希值用于校验所述加密数据是否被正常接收到或者遭到篡改。

在所述步骤S112中，由于所述访问响应消息包含有所述数据验证哈希值而没有包含所述第一密钥选择哈希值，使得“黑客”也不能逆向得到该第一密钥选择哈希值，进而也无法知道本次加密所选择的加密密钥，进一步保障了数据传输的安全。

在所述步骤S112之后，优化的，用户终端在收到所述访问响应消息后，可以但不限于按照如下步骤S201～S203展示生态环境空间大数据：S201.对用户终端侧的唯一用户认证信息和访问请求消息中的用户验证哈希值进行哈希运算，得到第二密钥选择哈希值；S202.对访问响应消息中的加密数据和所述第二密钥选择哈希值进行哈希运算，若哈希运算结果与所述访问响应消息中的数据验证哈希值匹配，则根据所述第二密钥选择哈希值的尾部数值从本地存储区中选择对应的解密密钥，否则删除所述访问响应消息中的加密数据和数据验证哈希值，其中，所述解密密钥与在步骤S110中所使用的加密密钥匹配；S203.使用所述解密密钥对所述加密数据进行解密，获取生态环境空间大数据，最后输出展示该生态环境空间大数据。

由此通过前述步骤S101～S112以及步骤S201～S203所详细描述的新方法，不但可以通过网络爬虫技术自动地从互联网络上获取生态环境元数据，并予以数据存储，还可以在共享生态环境元数据时，实现针对不同用户访问权限等级的数据响应和地理空间数据脱密处理，最终将集成有目标生态环境元数据和已脱密地理空间数据的生态环境空间大数据安全地反馈给访问发起者，从而既能够实现分散化环境信息资源的集中共享，又能针对不同等级的部门或人员实现分级共享和安全共享目的，满足了实际共享需求，并保障了信息安全。另外，在消息空口传输过程中，通过利用哈希算法及哈希值的唯一且不可逆特点，可避免对唯一用户认证信息和公钥等涉密信息进行直接传输，大大提升了共享平台侧和用户终端侧的信息安全。

综上，采用本实施例所提供的实现生态环境空间大数据集成共享的方法，具有如下技术效果：

(1)本实施例提供了一种生态环境空间大数据集成共享平台及系统的工作方法，不但可以通过网络爬虫技术自动地从互联网络上获取生态环境元数据，并予以数据存储，还可以在共享生态环境元数据时，实现针对不同用户访问权限等级的数据响应和地理空间数据脱密处理，最终将集成有目标生态环境元数据和已脱密地理空间数据的生态环境空间大数据安全地反馈给访问发起者，从而既能够实现分散化环境信息资源的集中共享，又能针对不同等级的部门或需求人员实现分级共享和安全共享目的，满足了实际共享需求，并保障了信息安全；

以上所描述的多个实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备执行各个实施例或者实施例的某些部分所述的方法。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

最后应说明的是，本发明不局限于上述可选的实施方式，任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制，本发明的保护范围应当以权利要求书中界定的为准，并且说明书可以用于解释权利要求书。

Claims

1.一种实现生态环境空间大数据集成共享的方法，其特征在于，包括如下步骤：

S101.定期启动主题网络爬虫程序，并基于内容评价的搜索策略从互联网络上抓取与生态环境主题相关的网页内容，其中，在基于内容评价的搜索策略进行网页抓取的过程中，所使用的生态环境主题为生态环境关键词集合，并在所述步骤S101之前，按照如下步骤S301～S305获取该生态环境关键词集合；

S302.对所述语料库中各篇论文的词语集合进行数值化处理；

S305.将词语为“生态环境”的相关词语集合作为所述生态环境关键词集合；

在所述步骤S305之后，还按照如下步骤S401～S404补充所述生态环境关键词集合；

S402.针对所述主题-词语矩阵中的各个主题，选取在对应主题中出现概率最大的前M个词语作为特征词语，得到特征词语集合，同时根据所述论文-主题矩阵获取各个主题的关联主题，其中，M为介于20～100之间的自然数，所述关联主题是指与某个主题共同出现在同一篇论文中的另一共现主题，并按照如下步骤S501～S502获取各个主题的关联主题；

S501.针对所述论文-主题矩阵中的各个主题，分别计算其与另一主题共同出现在各篇论文中的共现概率之和，其中，两主题在某篇论文中的共现概率通过计算所述论文-主题矩阵中对应位置的元素之积得到；

S502.针对所述论文-主题矩阵中的各个主题，选取对应与其共现概率之和最大的前K个另一主题作为关联主题，其中，K为介于3～10之间的自然数；

S404.将所有目标主题和所有目标关联主题中的且不在现有生态环境关键词集合中的词语，添加到现有生态环境关键词集合中；

2.如权利要求1所述的一种实现生态环境空间大数据集成共享的方法，其特征在于，用户终端在收到所述访问响应消息后，按照如下步骤展示生态环境空间大数据：

3.如权利要求1所述的一种实现生态环境空间大数据集成共享的方法，其特征在于，按照如下步骤对各篇论文的词语集合进行数值化处理：

4.如权利要求3所述的一种实现生态环境空间大数据集成共享的方法，其特征在于，在所述步骤S601中，按照如下方式对论文进行切词处理：

5.如权利要求1所述的一种实现生态环境空间大数据集成共享的方法，其特征在于，在所述步骤S104之前还包括有如下步骤：

6.如权利要求1所述的一种实现生态环境空间大数据集成共享的方法，其特征在于，在所述步骤S108中，所述采用投影转换坐标系的方式对地理空间数据进行坐标重新投影的步骤包括如下：

7.如权利要求1所述的一种实现生态环境空间大数据集成共享的方法，其特征在于，所述生态环境元数据还包含有数据维护信息、数据质量信息和/或数据分发信息。