CN107220363B - 一种支持全局复杂检索的跨地域查询方法及系统 - Google Patents

一种支持全局复杂检索的跨地域查询方法及系统 Download PDF

Info

Publication number
CN107220363B
CN107220363B CN201710422561.4A CN201710422561A CN107220363B CN 107220363 B CN107220363 B CN 107220363B CN 201710422561 A CN201710422561 A CN 201710422561A CN 107220363 B CN107220363 B CN 107220363B
Authority
CN
China
Prior art keywords
global
data
query
data center
view
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710422561.4A
Other languages
English (en)
Other versions
CN107220363A (zh
Inventor
李斌斌
张晓宇
王振宇
丁煜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201710422561.4A priority Critical patent/CN107220363B/zh
Publication of CN107220363A publication Critical patent/CN107220363A/zh
Application granted granted Critical
Publication of CN107220363B publication Critical patent/CN107220363B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种支持全局复杂检索的跨地域查询方法及系统。该方法包括:1)建立用于跨地域查询的全局元数据组织结构,其包括全局视图以及全局视图与各数据中心的数据表的映射关系;2)根据各数据中心的数据表的结构调整,动态调整全局视图与各数据中心的数据表的映射关系;3)解析用户的查询请求,根据全局元数据组织结构将查询任务下发至各数据中心执行查询,各数据中心将查询结果反馈至全局点;4)全局点将各数据中心返回的查询结果进行汇总,并将汇总后的数据展示给用户,从而实现跨地域查询。本发明能够提高对各数据中心大数据的综合分析能力,在大数据处理领域具有很强的实用性和应用范围,具有广阔的应用前景。

Description

一种支持全局复杂检索的跨地域查询方法及系统
技术领域
本发明涉及一种支持对数据中心海量数据的全局分组、统计、排序等复杂检索的跨地域查询方法及系统,属于大数据处理领域。
背景技术
随着计算机技术的不断发展和信息化程度的不断提高,数据量迅速增长,面向海量数据存储及应用也随之蓬勃发展,大数据应用越来越广泛。如,在网络安全上,使用大数据技术分析网络攻击行为;在电子商务上,使用大数据技术分析用户购物喜好或最受青睐的商品;在城市建设上,利用大数据技术构建智慧城市,方便人民出行。诸如此类,大数据技术在建设节约型社会,提高生成效率等方面起到了积极的推动作用。
但随着数据量的持续增大和大数据应用的不断发展,用于分业务或分省点存储数据的数据中心也越来越多。某些行业或机构(尤其政府、公安、部队等领域)常设立多个数据中心用于存储业务数据,如此在海量数据分析应用中,只能对单数据中心进行数据提取,对各数据中心的所有数据作为整体数据集进行分组、统计、排序等简单分析的需求也日益明显。在大数据应用中,将存储于各数据中心的海量数据作为整体进行分析是必备手段之一。因此,研究一个囊括各数据中心所有数据并提供全局查询的软件系统成为解决该需求的关键。
发明内容
为解决上述问题,本发明的目的就是提供一种支持全局分组、排序等复杂查询的跨地域查询方法及系统,提高对各数据中心大数据的综合分析能力。
本发明采用的技术方案如下:
一种支持全局复杂检索的跨地域查询方法,包括以下步骤:
1)建立用于跨地域查询的全局元数据组织结构,其包括全局视图以及全局视图与各数据中心的数据表的映射关系;
2)根据各数据中心的数据表的结构调整,动态调整全局视图与各数据中心的数据表的映射关系;
3)解析用户的查询请求,根据全局元数据组织结构将查询任务下发至各数据中心执行查询,各数据中心将查询结果反馈至全局点;
4)全局点将各数据中心返回的查询结果进行汇总,并将汇总后的数据展示给用户,从而实现跨地域查询。
进一步地,所述全局元数据组织结构中包括数据中心的各数据表所在引擎、库以及字段名和类型的描述,全局用户以及权限相关的描述;各数据中心建立本地查询代理的路由配置信息结构。
进一步地,各数据中心的表结构信息中包括数据中心别称、表所在引擎、表所在库、表名及字段描述,其中字段描述中包含字段名称及字段类型;各数据中心的路由配置信息包括数据中心别称、本地查询代理IP1和本地查询代理IP2以及虚拟IP;全局用户分为root用户和普通用户,root用户拥有全局最高权限,普通用户由root用户创建并分配权限;所述权限包括增/删视图权限、查询权限。
进一步地,全局视图包括全局视图名及视图字段的描述信息;全局视图与数据中心的实体表的映射信息包括全局视图各字段映射的数据中心的具体引擎、库、表和字段。
进一步地,各数据中心实时推送数据表的增、删、改动作,由此联动修改全局元数据,供全局用户查看数据中心的数据表,并且动态调整因数据中心的数据表的修改所引起的全局视图的映射关系。
一种采用上述方法的支持全局复杂检索的跨地域查询系统,包括全局点和各数据中心,对全局点和各数据中心建立用于跨地域查询的全局元数据组织结构,其包括全局视图以及全局视图与各数据中心的数据表的映射关系;根据各数据中心的数据表的结构调整,动态调整全局视图与各数据中心的数据表的映射关系;根据全局元数据组织结构将查询任务下发至各数据中心执行查询,各数据中心将查询结果反馈至全局点;全局点将各数据中心返回的查询结果进行汇总,并将汇总后的数据展示给用户,从而实现跨地域查询。
本发明的有益效果如下:
本发明的主要创新点是提供了一种支持全局分组、排序等复杂查询的跨地域查询方案,不仅能够实现对数据中心别结构变化的动态感知,而且能从全局将数据中心数据集当做整体来进行数据分析,能够提高对各数据中心大数据的综合分析能力,符合目前的大数据分析应用需求,在大数据处理领域具有很强的实用性和应用范围,具有广阔的应用前景。
附图说明
图1为跨地域查询系统的元数据组织结构示意图;
图2为全局元数据动态感知流程图;
图3为全局查询流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步说明。
本发明提供支持分组、排序等复杂检索且具备用户和权限控制的跨地域查询方案,以满足将数据中心当作整体数据集来处理的需求,实现不同用户不同级别的权限控制,有效提高对各数据中心海量数据的综合分析能力。
本发明的第一方面,给出了跨地域查询系统的元数据组织结构和数据中心(后文也称为分中心)本地查询代理的路由配置信息结构。其中,元数据包括全局二维视图的描述,全局视图与数据中心实体表到字段级的映射关系,数据中心各数据表所在引擎、库以及字段名和类型的描述,全局用户以及权限相关的描述;路由配置信息包括数据中心别称、本地查询代理IP1和本地查询代理IP2以及虚拟IP。以上数据组织格式支持全局点由于数据中心数据表结构调整的动态感知以及历史视图的映射关系的动态调整。
本发明的第二方面,该系统支持数据中心实时推送本中心的数据表的增、删、改等动作,由此联动修改全局元数据,提供全局用户查看数据中心的数据表,并且动态调整因数据中心的数据表的修改所引起的历史全局视图映射关系。
本发明的第三方面,该系统支持用户和权限。用户分为root用户和普通用户,root用户拥有全局最高权限,普通用户由root用户创建并分配权限;权限分为增/删视图、查询(字段级)权限。
本发明的第四方面,该系统支持用户创建全局视图,并手动指定与数据中心的数据表的映射关系,由此建立的全局视图在全局用户看来是一个囊括了各数据中心的实体表的大表。
图1给出了跨地域查询系统的元数据组织结构示意图。一种实施例中,分中心表结构信息中包括分中心别称、表所在引擎、表所在库、表名及字段描述等基本信息,其中字段描述中包含字段名称及字段类型;各数据中心本地查询所属的数据中心别称、主ProxyIP、备ProxyIP以及虚拟IP;全局视图的元数据信息包括视图名及视图字段的描述信息;全局视图与数据中心实体表的映射信息包括全局视图各字段要映射到数据中心具体哪个引擎的哪个库的哪个表的哪个字段,在创建映射信息时,会对全局视图的字段类型与映射字段类型进行校验,主要是进行字段类型是否匹配的校验。
图2示出了全局元数据动态感知流程图,具体步骤如下:
步骤201:接收数据中心的表结构增/删/修改的HTTP请求;
步骤202:更新全局点的分中心表结构描述信息;
步骤203:判断是否为增加数据表操作,若是,则执行步骤201;否则执行204;
步骤204:转向对历史映射关系的校准模块,并执行相关逻辑:如果为删除分中心数据表的请求,则对全局映射关系的所有关于该表的映射记录删除;如果为更新分中心数据表的请求,则判断如果为增加字段请求,则不对已有的全局映射关系做任何调整;如果为删除字段请求,则将该表所对应的全局视图中对应的该字段删除;如果为更新字段名;则将该表所对应的全局视图中对应的该字段名更新;
步骤205:根据步骤204得出是否需要更新映射关系,若不是,则执行步骤201,否则执行步骤206;
步骤206:更新映射关系,并转向步骤201。
图3给出了全局查询流程图,该步骤执行的输入为符合全局语法的SQL,具体步骤如下:
步骤301:对用户输入的SQL语句进行解析;
步骤302:读取元数据及路由信息,对解析后的SQL语句进行语义校验;
步骤303:根据步骤302语义校验结果进行判断,若SQL有误,则直接退出;否则执行步骤304;
步骤304:将SQL语句下发至各数据中心执行查询;
步骤305:等待数据中心反馈的查询结果,若所有数据中心查询有误(例如:分中心查询引擎故障,或是数据中心至全局点的链路网络故障,等等),则结束,否则执行步骤306;
步骤306:向查询无误的数据中心下发取数据请求,数据中心分批次将数据返回全局点;
步骤307:判断各数据中心是否将所有数据全部返回,若无,则继续执行步骤306,否则执行步骤308;
步骤308:判断是否为普通检索,若是,则直接将分中心返回的数据展示给全局用户,然后结束;否则执行步骤309;
步骤309:将各数据中心返回的查询结果进行汇总(这里使用将分中心上报的数据结果生成本地文件,并远程上传至hive数据仓库,使用HQL语法进行包括分组,排序,limit等查询),然后将数据展示给全局用户,最后结束本次查询。
应该注意到并理解,在不脱离后附的权利要求所要求的本发明的精神和范围的情况下,能够对上述详细描述的本发明做出各种修改和改进。因此,要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。本发明的保护范围应以权利要求书所述为准。

Claims (7)

1.一种支持全局复杂检索的跨地域查询方法,其特征在于,包括以下步骤:
1)建立用于跨地域查询的全局元数据组织结构,其包括全局视图以及全局视图与各数据中心的数据表的映射关系;所述全局元数据组织结构中包括数据中心的各数据表所在引擎、库以及字段名和类型的描述,全局用户以及权限相关的描述;
各数据中心建立本地查询代理的路由配置信息结构;各数据中心的表结构信息中包括数据中心别称、表所在引擎、表所在库、表名及字段描述,其中字段描述中包含字段名称及字段类型;各数据中心的路由配置信息包括数据中心别称、本地查询代理IP1和本地查询代理IP2以及虚拟IP;
全局视图与数据中心的实体表的映射信息包括全局视图各字段映射的数据中心的具体引擎、库、表和字段;
2)根据各数据中心的数据表的结构调整,动态调整全局视图与各数据中心的数据表的映射关系;
各数据中心实时推送数据表的增、删、改动作,由此联动修改全局元数据,供全局用户查看数据中心的数据表,并且动态调整因数据中心的数据表的修改所引起的全局视图的映射关系;
3)解析用户的查询请求,根据全局元数据组织结构将查询任务下发至各数据中心执行查询,各数据中心将查询结果反馈至全局点;
4)全局点将各数据中心返回的查询结果进行汇总,并将汇总后的数据展示给用户,从而实现跨地域查询。
2.如权利要求1所述的方法,其特征在于,全局用户分为root用户和普通用户,root用户拥有全局最高权限,普通用户由root用户创建并分配权限;所述权限包括增/删视图权限、查询权限。
3.如权利要求1所述的方法,其特征在于,全局视图包括全局视图名及视图字段的描述信息。
4.如权利要求1所述的方法,其特征在于,通过以下步骤实现全局元数据的动态感知:
01:接收数据中心的表结构增/删/修改的HTTP请求;
02:更新全局点的分中心表结构描述信息;
03:判断是否为增加数据表操作,若是,则执行步骤01;否则执行04;
04:转向对历史映射关系的校准模块,并执行相关逻辑;
05:根据步骤04得出是否需要更新映射关系,若不是,则执行步骤01,否则执行步骤06;
06:更新映射关系,并转向步骤01。
5.如权利要求1所述的方法,其特征在于,通过以下步骤实现全局查询:
01:对用户输入的SQL语句进行解析;
02:读取元数据及路由信息,对解析后的SQL语句进行语义校验;
03:根据步骤02的语义校验结果进行判断,若SQL有误,则直接退出;否则执行步骤04;
04:将SQL语句下发至各数据中心执行查询;
05:等待数据中心反馈的查询结果,若所有数据中心查询有误则结束,否则执行步骤06;
06:向查询无误的数据中心下发取数据请求,数据中心分批次将数据返回全局点;
07:判断各数据中心是否将所有数据全部返回,若无,则继续执行步骤06,否则执行步骤08;
08:判断是否为普通检索,若是则直接将分中心返回的数据展示给全局用户,然后结束;否则执行步骤09;
09:将各数据中心返回的查询结果进行汇总,然后将数据展示给全局用户,最后结束本次查询。
6.一种采用权利要求1所述方法的支持全局复杂检索的跨地域查询系统,其特征在于,包括全局点和各数据中心,对全局点和各数据中心建立用于跨地域查询的全局元数据组织结构,其包括全局视图以及全局视图与各数据中心的数据表的映射关系;根据各数据中心的数据表的结构调整,动态调整全局视图与各数据中心的数据表的映射关系;根据全局元数据组织结构将查询任务下发至各数据中心执行查询,各数据中心将查询结果反馈至全局点;全局点将各数据中心返回的查询结果进行汇总,并将汇总后的数据展示给用户,从而实现跨地域查询。
7.如权利要求6所述的系统,其特征在于,全局视图包括全局视图名及视图字段的描述信息。
CN201710422561.4A 2017-06-07 2017-06-07 一种支持全局复杂检索的跨地域查询方法及系统 Active CN107220363B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710422561.4A CN107220363B (zh) 2017-06-07 2017-06-07 一种支持全局复杂检索的跨地域查询方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710422561.4A CN107220363B (zh) 2017-06-07 2017-06-07 一种支持全局复杂检索的跨地域查询方法及系统

Publications (2)

Publication Number Publication Date
CN107220363A CN107220363A (zh) 2017-09-29
CN107220363B true CN107220363B (zh) 2020-09-22

Family

ID=59947345

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710422561.4A Active CN107220363B (zh) 2017-06-07 2017-06-07 一种支持全局复杂检索的跨地域查询方法及系统

Country Status (1)

Country Link
CN (1) CN107220363B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107844561A (zh) * 2017-11-01 2018-03-27 山东浪潮云服务信息科技有限公司 一种数据量统计方法及装置
CN110046062B (zh) * 2019-03-07 2021-03-19 佳都新太科技股份有限公司 分布式数据处理方法及系统
CN110533789B (zh) * 2019-07-23 2021-08-10 中国联合网络通信集团有限公司 一种基于区块链的设备巡检管理方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101201842A (zh) * 2007-10-30 2008-06-18 北京航空航天大学 数字博物馆网格及其构造方法
CN101694665A (zh) * 2009-10-27 2010-04-14 中兴通讯股份有限公司 一种异构数据源数据查询方法及装置
CN102694824A (zh) * 2011-03-22 2012-09-26 中国移动通信集团公司 一种用户数据存储系统及其数据访问方法
CN106528612A (zh) * 2016-09-29 2017-03-22 河海大学 一种面向行业元数据注册和分布式检索系统及方法
CN106572191A (zh) * 2016-11-15 2017-04-19 厦门市美亚柏科信息股份有限公司 跨数据中心协同计算方法及其系统
CN106682147A (zh) * 2016-12-22 2017-05-17 北京锐安科技有限公司 一种基于海量数据的查询方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101201842A (zh) * 2007-10-30 2008-06-18 北京航空航天大学 数字博物馆网格及其构造方法
CN101694665A (zh) * 2009-10-27 2010-04-14 中兴通讯股份有限公司 一种异构数据源数据查询方法及装置
CN102694824A (zh) * 2011-03-22 2012-09-26 中国移动通信集团公司 一种用户数据存储系统及其数据访问方法
CN106528612A (zh) * 2016-09-29 2017-03-22 河海大学 一种面向行业元数据注册和分布式检索系统及方法
CN106572191A (zh) * 2016-11-15 2017-04-19 厦门市美亚柏科信息股份有限公司 跨数据中心协同计算方法及其系统
CN106682147A (zh) * 2016-12-22 2017-05-17 北京锐安科技有限公司 一种基于海量数据的查询方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Solr的分布式铁路科技资源整合与检索实践;李雪山;《铁路计算机应用》;20140725;第23卷(第7期);第39-42,47页,正文第3.1节 *

Also Published As

Publication number Publication date
CN107220363A (zh) 2017-09-29

Similar Documents

Publication Publication Date Title
US9418101B2 (en) Query optimization
US9158843B1 (en) Addressing mechanism for data at world wide scale
US8862566B2 (en) Systems and methods for intelligent parallel searching
US9747349B2 (en) System and method for distributing queries to a group of databases and expediting data access
US11681927B2 (en) Analyzing geotemporal proximity of entities through a knowledge graph
WO2020238130A1 (zh) 一种大数据日志监控方法及装置、存储介质和计算机设备
EP3039574A1 (en) Queries involving multiple databases and execution engines
US9930113B2 (en) Data retrieval via a telecommunication network
EP2609525A1 (en) Geospatial database integration
CN109241384B (zh) 一种科研信息的可视化方法及装置
US20140095145A1 (en) Responding to natural language queries
CN107220363B (zh) 一种支持全局复杂检索的跨地域查询方法及系统
CN103455335A (zh) 一种多级分类的Web实现方法
CN114328574A (zh) 一种数据查询方法、装置、电子设备及计算机可读存储介质
US9177037B2 (en) In-memory runtime for multidimensional analytical views
CN104199978A (zh) 基于NoSQL实现元数据缓存与分析的系统及方法
CN112416991A (zh) 一种数据处理方法、装置以及存储介质
JP2005018778A (ja) ディメンジョン属性およびディメンジョン当たり複数の階層を使用するオンライン分析処理のためのシステムおよび方法
CN113568923A (zh) 数据库中数据的查询方法和装置、存储介质及电子设备
KR20210040310A (ko) 지도 검색 테스트 방법, 장치, 기기, 저장매체 및 프로그램
US10838947B2 (en) Consistency check for foreign key definition
CN111104408A (zh) 基于地图数据的数据交换方法、装置及存储介质
US10169083B1 (en) Scalable method for optimizing information pathway
CN115221254A (zh) 多数据源处理方法、装置、设备及存储介质
WO2008055202A2 (en) System and method for distributing queries to a group of databases and expediting data access

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant