CN109543087A - 一种国际三极数据互操作引擎系统的构建方法及使用方法 - Google Patents
一种国际三极数据互操作引擎系统的构建方法及使用方法 Download PDFInfo
- Publication number
- CN109543087A CN109543087A CN201811380457.4A CN201811380457A CN109543087A CN 109543087 A CN109543087 A CN 109543087A CN 201811380457 A CN201811380457 A CN 201811380457A CN 109543087 A CN109543087 A CN 109543087A
- Authority
- CN
- China
- Prior art keywords
- data
- international
- poles
- pole
- interoperation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000010276 construction Methods 0.000 title claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 30
- 238000003860 storage Methods 0.000 claims abstract description 19
- 238000007726 management method Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 18
- 238000012800 visualization Methods 0.000 claims description 18
- 238000004458 analytical method Methods 0.000 claims description 16
- 238000001514 detection method Methods 0.000 claims description 14
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 230000000007 visual effect Effects 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000013079 data visualisation Methods 0.000 claims description 7
- 241001269238 Data Species 0.000 claims description 6
- 238000009877 rendering Methods 0.000 claims description 6
- 238000013499 data model Methods 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 4
- 241000270322 Lepidosauria Species 0.000 claims description 3
- 238000012938 design process Methods 0.000 claims description 3
- 238000012372 quality testing Methods 0.000 claims description 3
- 230000009193 crawling Effects 0.000 claims description 2
- 238000012876 topography Methods 0.000 claims description 2
- 239000006185 dispersion Substances 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 description 12
- 238000007405 data analysis Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 8
- 238000013523 data management Methods 0.000 description 7
- 238000009825 accumulation Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 102100036345 Calicin Human genes 0.000 description 1
- 101000714682 Homo sapiens Calicin Proteins 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005200 bud stage Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000001983 electron spin resonance imaging Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000013505 freshwater Substances 0.000 description 1
- 238000003306 harvesting Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004573 interface analysis Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000002844 melting Methods 0.000 description 1
- 230000008018 melting Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种国际三极数据互操作引擎系统的构建方法及使用方法,构建方法包括如下步骤:实时自动获取国际三极站点的国际三级数据;国际三极数据进行存储与管理;设计国际三极数据的共享互操作标准,连接不同结构类型的国际三极数据;对国际三极数据进行互操作特征处理,构建国际三极数据互操作引擎系统。使用方法包括如下步骤:用户输入检索配置及关键字;后台启动执行查询的任务,并将后端得到的检索结果进行可视化操作;在后台执行查询检索的同时,后台记录用户检索条件;基于检索结果,过滤数据;根据用户需求,下载数据。本发明有效解决了地球三极地区的科学数据存在的数据分散、不成体系,数据众多、缺乏共享的问题。
Description
技术领域
本发明涉及构建方法及使用方法,尤其涉及一种国际三极数据互操作引擎系统的构建方法及使用方法。
背景技术
南极、北极和青藏高原作为地球上的三极,不仅蕴藏着全球主要的淡水资源,且油气资源丰富,是全球资源、能源开发潜在的战略性储备区域,也对我国未来发展、国家利益和安全战略具有十分特殊的重要意义。
科学认知,数据为先;善治极地,数据为先。国际上一些研究机构,一直以来对三极的科学观测不遗余力,已经积累了大量的三极科学数据,并建立了相应的科学数据库,如GEOSS门户三极数据、CEOP AEGIS数据、SAON(北极可持续观测网络)北极数据委员会、IEEE南北极数据门户、INTAROS、CAS NASA冰川融化工具门户(GMELT)、日本极地中心、加拿大CCIN PDC极地数据编目中心、芬兰北极观测中心、PEEX数据库,及INTERACT数据库等。虽然三极地区科学数据日益呈现出大数据的特点,卫星和航空遥感、地面传感网、多圈层模型与同化数据空前丰富,然而,地球三极地区的科学数据仍存在数据分散、不成体系,数据众多、缺乏共享的问题。
此外,目前现有的数据管理技术一般跟存储的业务数据特点紧密相关,从管理的数据类型上专注于结构化数据、半结构化数据、非结构化数据或者是几种数据类型的组合,不具有通用性,数据互操作方案也不具有广泛的通用性,对原始数据的价值分析尚处于萌芽阶段,尚未形成一套完整的三极数据互操作引擎系统。
发明内容
为了解决上述技术所存在的不足之处,本发明提供了一种国际三极数据互操作引擎系统的构建方法及使用方法。
为了解决以上技术问题,本发明采用的技术方案是:一种国际三极数据互操作引擎系统的构建方法,包括如下步骤:
步骤一、实时自动爬取国际三极站点的国际三级数据,国际三级数据包括国际三极站点的原始数据以及国际三极站点的更新数据、新增数据;
步骤二、对步骤一所获取到的国际三级站点的国际三极数据进行存储与管理;
步骤三、设计国际三极数据的共享互操作标准,连接不同结构类型的国际三极数据;
步骤四、对国际三极数据进行互操作特征处理,构建国际三极数据互操作引擎系统。
进一步地,步骤一中国际三极数据站点原始数据、更新数据、新增数据的自动发现与爬取过程为:
1)人工收集国际三极数据的站点集合,爬取国际三极数据站点原始数据;
2)国际三极站点更新数据的检测:通过python脚本对不同的国际站点定时提取其数据更新的特征,反馈检测的国际站点是否有数据发生更新;
3)国际三极站点新增数据的检测:通过python脚本对不同的国际数据站点定时提取其数据组织结构特征,反馈检测的国际站点是否有新增数据;
4)触发分布式爬虫去抓取数据和元数据:若步骤2)检测到国际站点中存在数据更新或步骤3)中检测到国际站点中存在新增数据,则触发分布式python脚本,完成对更新数据、新增数据以及元数据下载;其中,元数据是通过自动抽取转换获得的;
5)基于模型的数据质量检测和爬取:基于数据模型,对步骤1)和步骤4)中获得的全部数据进行质量检测;
7)国际三极数据python脚本的修正:针对国际三极数据的更新情况,及时修正python脚本。
进一步地,步骤二中国际三极数据的存储与管理的过程为:
1)获取步骤一所得到的国际三极站点的国际三极数据;
2)国际三极数据的标准化处理:国际三极站点的国际三级数据不是标准统一的,针对不同的国际三极数据分别进行解析并完成标准统一工作;
3)国际三极数据的分类并存储:标准统一后的国际三极数据分类为元数据、原始数据、分析结果数据和统计数据四类,元数据采用GeoHash算法进行存储,原始数据主要采用对象-关系型数据库管理系统进行存储,分析结果数据、统计数据均采用对象-关系型数据库管理系统进行存储;
4)国际三极数据的备份:国际三极数据的备份包括数据实体备份和数据库备份,数据实体备份采用Hadoop分布式文件系统,数据库备份采用增量备份加完整备份的方式。
进一步地,步骤三中国际三极数据共享互操作标准的设计过程为:
1)构建国际三极数据的本体库:通过定义国际三极数据本体描述的统一表达以及本体数据结构,形成面向国际三极数据领域的本体库;
2)定义互操作语义和模型:基于上述国际三极数据的本体库,将系统支持的国际互操作协议进行封装和转解码;
3)国际三极数据互操作接入;
4)国际三级数据备份。
5、根据权利要求1所述的国际三极数据互操作引擎系统,其特征在于:步骤四中所述国际三极数据的互操作特征处理过程为:
1)国际三极数据的预处理:对国际三极数据进行抽取转换加载操作,使其转换成计算机程序能够处理的格式;
2)对预处理后的国际三极数据进行互操作特征处理,包括数值型特征处理、文本类型特征处理、地图类数据特征处理;
3)构建国际三极数据互操作算法库:以spark计算引擎本身包含的MLlib分布式机器学习算法库为基础,将上述互操作特征处理后的国际三级数据构建为适用于三极数据分析的国际三极数据互操作引擎系统。
一种国际三极数据互操作引擎系统的使用方法,包括如下步骤:
步骤一、用户输入检索配置及关键字;
步骤二、后台接收到用户输入的检索配置和关键字之后,启动执行查询的任务,并将后端得到的检索数据进行可视化操作,可视化的检索数据返回给用户界面;
步骤三、在后台执行查询检索的同时,后台记录用户检索条件;
步骤四、基于检索结果,过滤数据;
步骤五、根据用户需求,下载数据。
进一步地,检索数据的可视化包括地图数据可视化和图表数据可视化;
地图数据可视化过程为:
1)瓦片地图服务:将原本完整的一整张地图切割为尺寸固定的图片,并且每个缩放等级显示的数据,渲染的颜色有所差异;
2)基础底图缓存:将客户端在使用地图前端引擎加载时,建立瓦片在客户端的缓存,当客户端再次访问基础底图时,将极大的提高访问速度;
3)专题数据加载层:客户端根据服务器提供的专题图层数据访问方式自动加载该图层,如果是矢量文件,则直接加载渲染,如果是瓦片图层,则调用瓦片;
4)三维地图可视化:使用基于Web图形库可视化功能,基础底图使用与平面地图相同的瓦片服务,对于极地和特定的关注点,增加数字高程模型数据的瓦片服务实现三维地形展示;
5)客户端可视化展示;
图表数据可视化的过程为:
1)将图表数据按照数据量及实时性划分为普通数据量、实时数据和大量数据;对于普通数据量采用客户端浏览器直接渲染的方式可视化,实时数据采用客户端与服务器端持续连接的方式可视化,大量数据使用前后端交互的方式进行可视化制图;
2)客户端可视化展示。
本发明提供了一种国际三极数据互操作引擎系统的构建方法及使用方法,有效解决了地球三极地区的科学数据存在的数据分散、不成体系,数据众多、缺乏共享的问题,通过本发明所提供的构建方法,能针对国际三极数据的特点形成一套完整的三极数据互操作引擎系统,并且适应性的提供了该三极数据互操作引擎系统的使用方法,本使用方法操作简单,可行性强,并对检索数据可视化,应用性强。
附图说明
图1为本发明的本发明国际三极数据互操作引擎系统的构建方法流程图。
图2为本发明国际三极数据的存储与管理流程图。
图3为本发明国际三极数据的共享互操作标准设计过程流程图。
图4为本发明国际三极数据的互操作特征处理过程流程图。
图5为本发明国际三极数据互操作引擎系统的使用方法流程图。
图6为本发明检索数据的可视化流程图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。
一种国际三极数据互操作引擎系统的构建方法,包括如下步骤:
步骤一、实时自动获取国际三极站点的国际三级数据,国际三级数据包括国际三极站点的原始数据以及国际三极站点的更新数据、新增数据;
步骤二、对步骤一所获取到的国际三级站点的国际三极数据进行存储与管理;
步骤三、设计国际三极数据的共享互操作标准,连接不同结构类型的国际三极数据;
步骤四、对国际三极数据进行互操作特征处理,构建国际三极数据互操作引擎系统。
一种国际三极数据互操作引擎系统的使用方法,包括如下步骤:
步骤一、用户输入检索配置及关键字;
步骤二、后台接收到用户输入的检索配置和关键字之后,启动执行查询的任务,并将后端得到的检索数据进行可视化操作,可视化的检索数据返回给用户界面;
步骤三、在后台执行查询检索的同时,后台记录用户检索条件;
步骤四、基于检索结果,过滤数据;
步骤五、根据用户需求,下载数据。
本发明涉及的技术有:
技术一:结构化与非结构化数据管理技术。数据管理是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程。其目的在于充分有效地发挥数据的作用,实现数据有效管理的关键是数据组织。根据数据的组织形式可以将数据类型划分为结构化数据、半结构化数据和非结构化数据。结构化数据通常指数据存在固定类型、长度和特定关系,可以使用关系型数据库表示和存储,表现为二维形式的数据;半结构化数据是结构化数据的一种形式,它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层,因此,它也被称为自描述的结构;非结构化数据是指没有固定结构的数据,各类文档、图片、音视频等都属于非结构化数据,对于此类数据,通常直接整体存储为二进制的数据格式。
技术二:数据分析技术。数据分析本质上是以数学理论为基础,采用计算机技术为辅助,实现由数据中提取有价值的信息,提供给相关人员作出判断,以便采用适当行动。因此,数据分析涉及到统计分析、机器学习和数据挖掘等领域。数据分析也是同业务数据特点紧密结合的一项技术,本发明采用数据分析技术与国际三极数据的特点相结合的方式,实现三极数据的互操作特征计算、遥感数据识别与分类、三极数据关联分析等关键技术。
技术三:数据互操作技术。数据互操作技术是实现数据共享的一种特定方法,目标是高效地实现不同组织机构和数据源之间的数据互操作共享,提升原始数据和结果数据的利用率。通常数据的互操作需要定义明确的数据共享标准、数据共享接口等交互界面,不同行业的数据具备不同的特点,本发明根据国际三极数据的特点,借鉴已有的数据互操作规范,构建一套适用于国际三极大数据的互操作引擎系统。
因此,借鉴数据管理、数据分析和数据互操作技术,结合三极数据数据来源多、数据类型复杂、数据量巨大的特点,发明了一种国际三极数据互操作引擎系统的构建方法和使用方法。
下面对本发明国际三极数据互操作引擎系统的构建方法做进一步详细的说明:
一、实时自动爬取国际三极站点的国际三级数据,国际三级数据包括国际三极站点的原始数据以及国际三极站点的更新数据、新增数据。
国际三极数据互操作引擎构建的基础就是国际三极原始数据的积累,本步骤的主要功能是对收录到互操作平台中的国际三极数据站点自动抓取其原始数据,同时实时获取更新或新增的国际三极数据以及元数据,为后续的国际三极数据互操作积累数据。通过对接国际、国内的三极大数据互操作标准和规范,基于云计算和云服务平台,形成自主可控的三极大数据采集系统。三极大数据的采集包括国际三极数据的更新检测、自动发现、元数据和具体数据的爬取和入库以及数据质量检测过程。
主要包含以下具体步骤:
1)人工收集国际三极数据的站点集合,爬取国际三极数据站点原始数据;
2)国际三极站点更新数据的检测:通过python脚本对不同的国际站点定时提取其数据更新的特征,反馈检测的国际站点是否有数据发生更新;
3)国际三极站点新增数据的检测:通过python脚本对不同的国际数据站点定时提取其数据组织结构特征,反馈检测的国际站点是否有新增数据;
4)触发分布式爬虫去抓取数据和元数据:若步骤2)检测到国际站点中存在数据更新或步骤3)中检测到国际站点中存在新增数据,则触发分布式python脚本,完成对更新数据、新增数据以及元数据下载;通常元数据会存在缺失的情况,因此需要对爬取的国际三极数据进行自动化元数据抽取转换,并将元数据结果存入数据库;
5)基于模型的数据质量检测和爬取:上述步骤1)和步骤4)爬取的国际三极数据会存在数据完整性不够、数据格式不规范等质量问题,因此基于数据模型,对步骤4)中获得的全部数据进行质量检测;
7)国际三极数据python脚本的修正:针对国际三极数据的更新情况,及时修正python脚本。
二、对国际三极数据进行存储与管理
随着卫星遥感时间、空间和光谱分辨率的不断提高和相互补充,特别的,三极地区历来是全球变化和冰冻圈研究的热点区域,相关地面观测、科考数据、数值模拟及同化数据、文献、灰色文档等科学成果众多。针对上述国际三极数据的海量性、异构性和快速增长特点,需要设计海量异构国际三极数据的存储与管理平台。国际三极数据的存储与管理包括数据类型分析、结构化数据库设计、非结构化数据存储以及数据自动接收入库过程。
如附图2所示,具体实施步骤如下:
1)获取步骤一所得到的国际三极站点的国际三极数据;
2)国际三极数据的标准化处理:由不同国际三极数据站点获取的数据通常不是标准统一的,需要对不同的数据类型进行解析并完成标准化工作。例如,文件伺服模块自动启动后续的解析模块,将接收到的数据字符串按设计规则进行自动分析拆解,拆解后的归一化数据字符串交由自动入库模块来完成数据入库工作。
3)国际三极数据的分类并存储:根据数据在国际三极数据互操作引擎中的产生阶段,可以将整个数据存储与管理模块中的数据分类为元数据、原始数据、分析结果数据和统计数据四类。针对不同类型的数据,设计对应的数据存储方案,具体为:
a)元数据管理。元数据管理模块包括元数据的录入、发布、管理、编辑、提示等功能;整理包含国际三极相关组织的项目元数据、数据站点元数据和具体数据集的元数据。使用GeoHash算法对元数据进行编码和解码,将空间位置信息用唯一的编码表示,并且根据GeoHash编码反演出对应的空间信息。
b)原始数据管理。原始数据主要采用对象-关系型数据库管理系统进行存储,如PostgreSQL数据库、PostGIS数据库,通常原始数据包括结构化关系型数据、文本数据、遥感数据等。针对不同的原始数据类型采用相应的存储方案,其中,结构化数据采用PostgreSQL数据库存储,文本类数据采用Hadoop分布式文件系统(HDFS)存储,遥感及地图数据采用PostGIS数据库存储。
c)分析结果数据和统计数据管理。针对原始三极数据进行数据分析后,会产生大量的分析结果数据和统计数据,对其采用PostgreSQL数据库存储。
4)国际三极数据的备份:本发明中涉及到的数据备份包括数据实体备份和数据库备份,数据实体备份采用Hadoop分布式文件系统(HDFS)实现,使用HDFS存储数据实体文件后,每个文件在HDFS中将会创建3份备份,丢失任意一份都能找回原文件,并且通过设置还可以增加备份个数;数据库备份采用增量备份加完整备份的方式,每周内使用增量备份,每周结束时进行一次完整备份,完整备份后对备份的可用性和完整性进行自动化测试,测试通过后删除周内的增量备份,这种做法可以减少备份所消耗的空间,并且保证了数据恢复的便利性。
三、设计国际三极数据的共享互操作标准,连接不同结构类型的国际三极数据源。
国际三极数据的积累与管理目标是满足不同国际三极研究机构之间实现数据共享需求,实现不同机构建设系统之间的数据互操作,因此需形成国际三极数据互操作的标准和规范,通过定义异构国际三极科学数据互操作语义和数据结构,连接不同结构类型的三极数据源。
如附图3所示,具体实施步骤如下:
1)构建国际三极数据的本体库:国际三极数据的本体库是一种面向国际三极数据领域的本体知识模型,通过定义三极数据本体描述的统一表达,以及数据源、组织、尺度,遥感数据对象的本体数据结构,形成面向国际三极观测数据和元数据的本体库。
2)定义互操作语义和模型:基于上述步骤1)中设计的国际三极数据的本体库,将系统支持国际互操作的协议进行封装和转解码,包括:开放地理空间信息联盟(OGC)、仓库管理系统(WMS)、Web要素服务(WFS)、仓储控制系统(WCS)、Web处理服务(WPS即WebProcessing Service)、WebDAV、ESRI GeoPortal REST、数据通路服务(ARCSDE service)、Web目录服务(CSW即Catalogue Services for the Web)、Sensor Observation Service(SOS)、元数据收割协议OAI-PMH、THREDDS Catalog;标准采用ISO标准:iso19139、iso19115等。
3)国际三极数据互操作接入:对上述步骤2)定义的不同组织机构之间的三极数据互操作边界相对应,进行互操作的数据包括:国际三极相关组织项目元数据、数据站点元数据、具体数据集元数据和具体数据,所提供的数据接口为数据服务的接口,包括对外提供数据服务的Web Service接口、WMS接口、WFS接口、WCS接口、提供数据入库、标记、编辑、发布的服务接口、国际三极遥感数据的服务接口。
4)国际三级数据备份。
四、国际三极数据的互操作特征处理,构建国际三极数据互操作引擎系统。
国际三极数据的互操作引擎系统不仅完成对原始国际三极数据的积累与共享,还进一步提供针对国际三极数据的科学研究功能,主要包括若干三极大数据分析算法,因此,需要对原始的国际三极数据进行特定的互操作特征处理,包括特征检测、特征识别、特征相似度计算,以及存储特征处理结果形成特征库。通过国际三极数据的互操作处理实现对国际三极数据的科学分析,本发明中涉及的数据互操作不仅包括原始数据的互操作,还包括分析结果数据的共享,实现遥感图像识别与分类、三极数据关联分析、空间数据挖掘、深度学习和三极数据质量检测等数据分析处理。
如附图4所示,国际三极数据的互操作特征处理过程为:
1)国际三极数据的预处理:在进行数据分析之前需要对原始三极数据进行预处理,使其达到计算机程序能够处理的格式。对数据进行ETL(抽取转换加载)操作,将PostGIS或者HDFS中的数据转换成可以被方法库和Spark直接调用的类型(如RDD、DataFrame)。
2)对预处理后的国际三极数据进行互操作特征处理,包括数值型特征处理、文本类型特征处理、地图类数据特征处理。针对数值型特征处理包括聚合性和散度特征,数据聚合性采用均值、中位数、众数和中列数等指标来度量,数据的散度特征通过数据的极差、四分位数、四分位数极差、五数概括和盒图,以及数据的方差和标准差等指标来度量;文本类型特征通过word2vec、doc2vec特征计算模型将文本转换为向量空间;地图类数据特征通过深度学习方法提取图形不同层级的特征。
3)构建国际三极数据互操作算法库:以spark计算引擎本身包含的MLlib分布式机器学习算法库为基础,将上述互操作特征处理后的国际三级数据构建为适用于三极数据分析的国际三极数据互操作引擎系统;包括:分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道API。此外,基于spark分布式计算环境,提供统一的数据读写接口和算法编程界面,使得相关用户可以利用原始三极数据,开发自我目标导向的数据分析方法。
下面对本发明国际三极数据互操作引擎系统的使用方法做进一步详细的说明:
通过本发明的构建方法所形成的国际三极数据互操作引擎系统,能进行国际三极大数据的检索,对外提供检索服和查询务,支持按照数据名称、关键字、资源名称、服务名称、组织名称、空间范围、图层等进行全文检索,批量构建倒排索引,检索词的联想提示,同时具有遥感数据的空间查询、地图查询和GeoSpatial查询等功能。
如附图5所示,具体的使用方法如下所示:
一、用户输入检索配置及关键字:用户可以通过逐一预览选择自已所需的数据,也可以利用高级检索方式搜索所需数据集,高级检索方式支持用户选择时间范围、数据类型、数据来源等配置项和关键字;
二、据用户输入,后台执行查询检索:后台接收到用户输入的检索配置和关键字之后,启动执行查询的任务,并将后端得到的检索数据以及原始数据进行可视化操作,可视化的检索结果返回给用户界面;
三、在后台执行查询检索的同时,后台记录用户检索条件:在后台执行查询检索的同时,记录用户输入的检索条件,为后续智能化检索(关键词联想等)提供知识积累;
四、基于检索结果,过滤数据:用户可以根据检索结果,根据自己的下载需求执行二次过滤;
五、根据用户需求,下载数据。
其中,通常检索到的原始数据不利于相关决策人员观看,需要对检索到的原始数据进行可视化展示,检索数据的可视化包括地图数据可视化和图表数据可视化;如附图6所示,
地图数据可视化过程为:
1)瓦片地图服务:使用海洋、陆地、重要道路、河流、湖泊等基础地理信息数据绘制的地图将被作为基础底图使用,由于这些数据普遍数据量大,并且具有类型多、属性多的特点,直接浏览如此大量的数据往往在单机上也效率较低,所以需要引入瓦片地图服务。瓦片地图能将原本完整的一整张地图切割为尺寸固定的图片,并且每个缩放等级显示的数据,渲染的颜色有所差异,其主要目的是客户端查看地图时只显示某个范围中的若干张图片,而无需加载完整的地图,以达到快速访问的目的。
2)基础底图缓存:由于基础底图通常数据量大,上述步骤1)完成服务器端的基础底图的切分(瓦片化),本步骤将客户端在使用地图前端引擎加载时,建立瓦片在客户端的缓存,当客户端再次访问基础底图时,将极大的提高访问速度。
3)专题数据加载层:考察站分布点、极地动物分布点、冻土分布等地理信息数据因其空间范围较局限,或属性特定,或具有特定时间序列等性质,在可视化时可作为叠加在基础底图上的专题图层显示,客户端浏览器或APP根据服务器提供的专题图层数据访问方式自动加载该图层,如果是矢量文件,则直接加载渲染,如果是瓦片图层,则调用瓦片。
4)三维地图可视化:三维地图可视化使用基于Web图形库(WebGL)可视化功能,基础底图使用与平面地图相同的瓦片服务,对于极地和特定的关注点,增加DEM数据的瓦片服务实现三维地形展示,特定的建筑物也可叠加3D工具制作渲染的模型。维地图场景中用户的交互除平面地图的放大、缩小、移动范围外,还具有视角旋转的特殊功能,用户可根据需要调整当前查看的角度。
5)客户端可视化展示:最终实现在客户端中地图数据可视化。
图表数据可视化的过程为:
1)图表数据可视化:将图表数据按照数据量及实时性划分为普通数据量、实时数据和大量数据;针对普通数据量图表数据,由于数据量较小,对数据实时性要求也不高,采用客户端浏览器直接渲染的方式可视化;针对实时数据,由于实时图表可视化展示对实时性要求较高,客户端需要频繁访问服务器端,因此本发明采用客户端与服务器端持续连接的方式以提高数据可视化的实时性;针对大量数据,使用前后端交互的方式进行可视化制图,客户端将目前浏览的数据时间范围和空间范围发送到服务器,服务器端则根据对应的数据范围在可视化数据库中查询,然后对可视化图表的构图使用矢量描述并返回给客户端浏览器,客户端只需要绘制矢量图像即可形成大数据可视化。
2)客户端可视化展示:最终实现图表数据在客户端中的可视化展示。
本发明提供了一种国际三极数据互操作引擎系统的构建方法及使用方法,有效解决了地球三极地区的科学数据存在的数据分散、不成体系,数据众多、缺乏共享的问题,通过对国际三极数据源的持续获取与融合,建立一个面向三极科学研究的国际三极数据互操作引擎系统,其综合性强,提供数据汇集、数据管理、数据分析、数据可视化和数据共享的功能。
上述实施方式并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的技术方案范围内所做出的变化、改型、添加或替换,也均属于本发明的保护范围。
Claims (7)
1.一种国际三极数据互操作引擎系统的构建方法,其特征在于:所述构建方法包括如下步骤:
步骤一、实时自动爬取国际三极站点的国际三级数据,国际三级数据包括国际三极站点的原始数据以及国际三极站点的更新数据、新增数据;
步骤二、对步骤一所获取到的国际三级站点的国际三极数据进行存储与管理;
步骤三、设计国际三极数据的共享互操作标准,连接不同结构类型的国际三极数据;
步骤四、对国际三极数据进行互操作特征处理,构建国际三极数据互操作引擎系统。
2.根据权利要求1所述的国际三极数据互操作引擎系统的构建方法,其特征在于:步骤一中国际三极数据站点原始数据、更新数据、新增数据的自动发现与爬取过程为:
1)人工收集国际三极数据的站点集合,爬取国际三极数据站点原始数据;
2)国际三极站点更新数据的检测:通过python脚本对不同的国际站点定时提取其数据更新的特征,反馈检测的国际站点是否有数据发生更新;
3)国际三极站点新增数据的检测:通过python脚本对不同的国际数据站点定时提取其数据组织结构特征,反馈检测的国际站点是否有新增数据;
4)触发分布式爬虫去抓取数据和元数据:若步骤2)检测到国际站点中存在数据更新或步骤3)中检测到国际站点中存在新增数据,则触发分布式python脚本,完成对更新数据、新增数据以及元数据下载;其中,元数据是通过自动抽取转换获得的;
5)基于模型的数据质量检测和爬取:基于数据模型,对步骤1)和步骤4)中获得的全部数据进行质量检测;
7)国际三极数据python脚本的修正:针对国际三极数据的更新情况,及时修正python脚本。
3.根据权利要求1所述的国际三极数据互操作引擎系统的构建方法,其特征在于:步骤二中国际三极数据的存储与管理的过程为:
1)获取步骤一所得到的国际三极站点的国际三极数据;
2)国际三极数据的标准化处理:国际三极站点的国际三级数据不是标准统一的,针对不同的国际三极数据分别进行解析并完成标准统一工作;
3)国际三极数据的分类并存储:标准统一后的国际三极数据分类为元数据、原始数据、分析结果数据和统计数据四类,元数据采用GeoHash算法进行存储,原始数据主要采用对象-关系型数据库管理系统进行存储,分析结果数据、统计数据均采用对象-关系型数据库管理系统进行存储;
4)国际三极数据的备份:国际三极数据的备份包括数据实体备份和数据库备份,数据实体备份采用Hadoop分布式文件系统,数据库备份采用增量备份加完整备份的方式。
4.根据权利要求1所述的国际三极数据互操作引擎系统的构建方法,其特征在于:步骤三中国际三极数据共享互操作标准的设计过程为:
1)构建国际三极数据的本体库:通过定义国际三极数据本体描述的统一表达以及本体数据结构,形成面向国际三极数据领域的本体库;
2)定义互操作语义和模型:基于上述国际三极数据的本体库,将系统支持的国际互操作协议进行封装和转解码;
3)国际三极数据互操作接入;
4)国际三级数据备份。
5.根据权利要求1所述的国际三极数据互操作引擎系统,其特征在于:步骤四中所述国际三极数据的互操作特征处理过程为:
1)国际三极数据的预处理:对国际三极数据进行抽取转换加载操作,使其转换成计算机程序能够处理的格式;
2)对预处理后的国际三极数据进行互操作特征处理,包括数值型特征处理、文本类型特征处理、地图类数据特征处理;
3)构建国际三极数据互操作算法库:以spark计算引擎本身包含的MLlib分布式机器学习算法库为基础,将上述互操作特征处理后的国际三级数据构建为适用于三极数据分析的国际三极数据互操作引擎系统。
6.一种国际三极数据互操作引擎系统的使用方法,其特征在于:所述使用方法包括如下步骤:
步骤一、用户输入检索配置及关键字;
步骤二、后台接收到用户输入的检索配置和关键字之后,启动执行查询的任务,并将后端得到的检索数据进行可视化操作,可视化的检索数据返回给用户界面;
步骤三、在后台执行查询检索的同时,后台记录用户检索条件;
步骤四、基于检索结果,过滤数据;
步骤五、根据用户需求,下载数据。
7.根据权利要求6所述的国际三极数据互操作引擎系统的使用方法,其特征在于:检索数据的可视化包括地图数据可视化和图表数据可视化;
所述地图数据可视化过程为:
1)瓦片地图服务:将原本完整的一整张地图切割为尺寸固定的图片,并且每个缩放等级显示的数据,渲染的颜色有所差异;
2)基础底图缓存:将客户端在使用地图前端引擎加载时,建立瓦片在客户端的缓存,当客户端再次访问基础底图时,将极大的提高访问速度;
3)专题数据加载层:客户端根据服务器提供的专题图层数据访问方式自动加载该图层,如果是矢量文件,则直接加载渲染,如果是瓦片图层,则调用瓦片;
4)三维地图可视化:使用基于Web图形库可视化功能,基础底图使用与平面地图相同的瓦片服务,对于极地和特定的关注点,增加数字高程模型数据的瓦片服务实现三维地形展示;
5)客户端可视化展示;
所述图表数据可视化的过程为:
1)将图表数据按照数据量及实时性划分为普通数据量、实时数据和大量数据;对于普通数据量采用客户端浏览器直接渲染的方式可视化,实时数据采用客户端与服务器端持续连接的方式可视化,大量数据使用前后端交互的方式进行可视化制图;
2)客户端可视化展示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811380457.4A CN109543087A (zh) | 2018-11-20 | 2018-11-20 | 一种国际三极数据互操作引擎系统的构建方法及使用方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811380457.4A CN109543087A (zh) | 2018-11-20 | 2018-11-20 | 一种国际三极数据互操作引擎系统的构建方法及使用方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109543087A true CN109543087A (zh) | 2019-03-29 |
Family
ID=65848341
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811380457.4A Pending CN109543087A (zh) | 2018-11-20 | 2018-11-20 | 一种国际三极数据互操作引擎系统的构建方法及使用方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109543087A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110992437A (zh) * | 2019-11-28 | 2020-04-10 | 安徽理工大学 | 一种冰川编目快速更新方法 |
CN111242006A (zh) * | 2020-01-10 | 2020-06-05 | 长江水利委员会长江科学院 | 一种将基于Mask R-CNN的遥感影像地物检测实现为地理WPS服务的方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130246382A1 (en) * | 2012-03-19 | 2013-09-19 | Simon J. Cantrell | Ontology-based search engine in support of a decision support system |
CN105005608A (zh) * | 2015-07-07 | 2015-10-28 | 中国科学院遥感与数字地球研究所 | 基于OpenSearch轻量级卫星数据分布式协同服务系统 |
CN107770177A (zh) * | 2017-10-25 | 2018-03-06 | 湖南普天科技集团有限公司 | 基于移动数据分布式协同服务系统 |
CN108090061A (zh) * | 2016-11-21 | 2018-05-29 | 辽宁东鹰航空装备科技股份有限公司 | 一种差别机构数据源系统 |
-
2018
- 2018-11-20 CN CN201811380457.4A patent/CN109543087A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130246382A1 (en) * | 2012-03-19 | 2013-09-19 | Simon J. Cantrell | Ontology-based search engine in support of a decision support system |
CN105005608A (zh) * | 2015-07-07 | 2015-10-28 | 中国科学院遥感与数字地球研究所 | 基于OpenSearch轻量级卫星数据分布式协同服务系统 |
CN108090061A (zh) * | 2016-11-21 | 2018-05-29 | 辽宁东鹰航空装备科技股份有限公司 | 一种差别机构数据源系统 |
CN107770177A (zh) * | 2017-10-25 | 2018-03-06 | 湖南普天科技集团有限公司 | 基于移动数据分布式协同服务系统 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110992437A (zh) * | 2019-11-28 | 2020-04-10 | 安徽理工大学 | 一种冰川编目快速更新方法 |
CN111242006A (zh) * | 2020-01-10 | 2020-06-05 | 长江水利委员会长江科学院 | 一种将基于Mask R-CNN的遥感影像地物检测实现为地理WPS服务的方法 |
CN111242006B (zh) * | 2020-01-10 | 2021-04-09 | 长江水利委员会长江科学院 | 一种将基于Mask R-CNN的遥感影像地物检测实现为地理WPS服务的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112115198B (zh) | 一种城市遥感智能服务平台 | |
CN110309264B (zh) | 基于知识图谱获取地理产品数据的方法和装置 | |
Wang et al. | Retrieving and indexing spatial data in the cloud computing environment | |
Costamagna et al. | CityGML for architectural heritage | |
Gao et al. | A multi-source spatio-temporal data cube for large-scale geospatial analysis | |
CN109543087A (zh) | 一种国际三极数据互操作引擎系统的构建方法及使用方法 | |
Kraiem et al. | OLAP of the tweets: From modeling toward exploitation | |
CN117762943A (zh) | 面向自然资源生态环境监测的时空大数据索引方法 | |
Ames et al. | Introducing the open source CUAHSI Hydrologic Information System desktop application (HIS Desktop) | |
Yin et al. | A webGIS framework for vector geospatial data sharing based on open source projects | |
Li et al. | A2CI: A cloud-based, service-oriented geospatial cyberinfrastructure to support atmospheric research | |
Kaczmarek et al. | New spatial planning data access methods through the implementation of the INSPIRE directive | |
Yao et al. | LandQ v1: A GIS cluster-based management information system for arable land quality big data | |
Ivánová et al. | Provenance in the next-generation spatial knowledge infrastructure | |
Li et al. | A web-based remote sensing data processing and production system with the unified integration of multi-disciplinary data and models | |
Ladra et al. | A toponym resolution service following the OGC WPS standard | |
Zhang et al. | Spatial data infrastructure for e-government based on the geospatial services | |
Abdalla et al. | A unified approach for spatial data query | |
Zhang et al. | Big Geospatial Data and the Geospatial Semantic Web: Current State and Future Opportunities | |
Döner et al. | Modelling and mapping third dimension in a spatial database | |
Alizadehashrafi | Introducing a Customized Framework for 3D Spatial Data Infrastructure of Iran Based on OGC Standards | |
YueShun et al. | A study of spatial data mining architecture and technology | |
Rustad et al. | Exposing military sensor data using SpatioTemporal Asset Catalog (STAC) | |
Kliment et al. | Bolegweb platform–contribution to the web communities | |
Song et al. | A framework for land-surface remote sensing data sharing and collaboration |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190329 |
|
RJ01 | Rejection of invention patent application after publication |