CN104391957A - 一种针对混合型大数据处理系统的数据交互分析方法 - Google Patents

一种针对混合型大数据处理系统的数据交互分析方法 Download PDF

Info

Publication number
CN104391957A
CN104391957A CN201410710850.0A CN201410710850A CN104391957A CN 104391957 A CN104391957 A CN 104391957A CN 201410710850 A CN201410710850 A CN 201410710850A CN 104391957 A CN104391957 A CN 104391957A
Authority
CN
China
Prior art keywords
join
data
hbase
bucket
hive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410710850.0A
Other languages
English (en)
Inventor
亓开元
卢军佐
杨勇
辛国茂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201410710850.0A priority Critical patent/CN104391957A/zh
Publication of CN104391957A publication Critical patent/CN104391957A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • G06F16/24542Plan optimisation
    • G06F16/24544Join order optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/221Column-oriented storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2425Iterative querying; Query formulation based on the results of a preceding query

Abstract

本发明公开了一种针对混合型大数据处理系统的数据交互分析方法,属于大数据分析技术领域,混合型大数据处理系统是基于HBase数据库及基于内存计算引擎的Hive系统构建,交互查询sql语句由客户端发出,包括针对Hive表和HBase表的join操作,其特征在于采用bucketjoin方法进行数据交互,bucketjoin方法包括数据准备过程和运行时执行过程。本发明通过分桶、coprocessr和mapjoin的方式,大大提高了跨Hive和HBase系统的关联分析性能,能够满足行业大数据针对混合处理系统的交互分析业务应用需求。

Description

一种针对混合型大数据处理系统的数据交互分析方法
技术领域
本发明涉及一种大数据分析技术领域,具体地说是一种针对混合型大数据处理系统的数据交互分析方法。
背景技术
为了应对行业日益复杂的业务需求,当前出现一种融合了批处理、内存计算、流处理、NoSQL数据库等多种处理模式的混合型大数据处理系统。在混合型大数据处理系统支持的处理模式中,由于MapReduce、Spark、HBase等都引入了新的编程模型,学习成本较大,因此,基于各类大数据处理系统构建的交互分析应用最为广泛。交互分析的模式和效果与传统数据库应用非常相似的,数据以表的形式存储,应用层采用标准的SQL语句发起各种数据请求,支持对数据扫描、统计、聚合、多表关联等操作的高并发、低延迟的处理。当前出现的基于MapReduce的Hive、基于Spark的Shark都属于这一类交互分析引擎。
MapReduce是Google提出的一个软件架构,用于大规模数据集(大于1TB)的并行运算。主要思想为Map(映射)和Reduce(化简)。MapReduce通过把对数据集的大规模操作分发给网络上的每个节点实现可靠性;每个节点会周期性的把完成的工作和状态的更新报告回来。如果一个节点保持沉默超过一个预设的时间间隔,主节点(类同Google File System中的主服务器)记录下这个节点状态为死亡,并把分配给这个节点的数据发到别的节点。每个操作使用命名文件的原子操作以确保不会发生并行线程间的冲突;当文件被改名的时候,系统可能会把他们复制到任务名以外的另一个名字上去。
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。
Spark有分配任务的主节点(Driver)和执行计算的工作节点(Worker)Spark的核心概念是RDD (resilientdistributed dataset),指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。
Shark基本上就是在Spark的框架基础上提供和Hive一样的H iveQL命令接口,为了最大程度的保持和Hive的兼容性,Shark使用了Hive的API来实现query Parsing和 Logic Plan generation,最后的PhysicalPlan execution阶段用Spark代替Hadoop MapReduce。通过配置Shark参数,Shark可以自动在内存中缓存特定的RDD,实现数据重用,进而加快特定数据集的检索。同时,Shark通过UDF用户自定义函数实现特定的数据分析学习算法,使得SQL数据查询和运算分析能结合在一起,最大化RDD的重复使用。
HBase是一个分布式的、面向列的开源数据库,该技术来源于Chang et al所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。 
然而,现有混合型大数据处理系统中的交互分析引擎,还仅是针对单一的大数据系统,无法实现跨系统的数据处理。例如,当前Hive与HBase中的数据无法直接建立关联,通常的做法是将进行一次数据迁移,在Hive或HBase单一系统中进行,在大量数据情况下造成的数据冗余以及传输延迟都是不可容忍的。为了实现混合型大数据架构中各类处理系统的真正融合,需要研究跨异构系统间的数据交互分析方法,其中比较重要的一种就是关联join分析。join又称连接查询,是关系数据库中最主要的查询,主要包括内连接、外连接和交叉连接等;通过连接运算符可以实现多个表查询。
在基于MapReduce的Hive中,join大多采用Hash join(哈希连接)方式,Hash join方式需要将某个表广播到所有处理节点进行全部缓存,因此仅适用于大表和小表的关联情况,否则会因为传输的数据量太大影响性能,甚至造成处理节点内存溢出。
发明内容
本发明的技术任务是提供一种能够减少数据传输量和缓存,通过分桶、coprocessr和map join的方式,大大提高了跨Hive和HBase系统的关联分析性能,能够满足行业大数据针对混合处理系统的交互分析业务应用需求的一种针对混合型大数据处理系统的数据交互分析方法。
本发明的技术任务是按以下方式实现的:
一种针对混合型大数据处理系统的数据交互分析方法,混合型大数据处理系统是基于HBase数据库及基于内存计算引擎的Hive系统构建,交互查询sql语句由客户端发出,包括针对Hive表和HBase表的join操作,采用bucket join(桶连接)方法进行数据交互,bucket join方法包括数据准备过程和运行时执行过程;
数据准备过程:建立Hive表并按关联字段join_key分桶,按分桶导入数据,显式的设置参与分桶的reduce(简化)数与分桶数n相同,按照hashCode=join_key % n将数据分别存入n个桶文件;建立hbase表并导入数据,hbase的主键除了表的key外,为了便于做join,在key之前连接join_key的hashCode;
运行时执行过程:客户端Driver解释sql语句,编译执行计划,在客户端构造内存空间、线程池用于驱动执行的运行时环境。
利用HBase coprocessor(HBase协处理器)引擎实现bucket join;Coprocessor是一个可构建分布式服务编程模型,在HBase Master和RegionServer进程内的运行时框架执行用户代码,在HBase内实现灵活、轻量级的分布式数据处理功能,并可以随HBase自动扩展和负载均衡等;Coprocessor分为Observer(观察者)和EndPoint(终端),Observer监听HBase Get、 Put、Delete、Scan数据操作,以及元数据和日志操作,实现类似数据库驱动器的功能;EndPoint属于远过程调用RPC类型的Coprocessor,客户端通过调用PRC接口按每个row或range的位置自动分片为多个并行的RPC调用,实现类似数据库中存储过程的功能。
RegionServer是HBase集群运行在每个工作节点上的服务。它是整个HBase系统的关键所在,一方面它维护了Region(域)的状态,提供了对于Region的管理和服务;另一方面,它与Master交互,上传Region的负载信息上传,参与Master的分布式协调管理。
    在bucket join方法中,客户端调用HBase的Endpoint类型coprocessor Server Caching Protocal(协处理器服务器缓存协议)进行数据缓存;在Server Caching Protocal(服务器缓存协议)的实现中,每个Region调用Hive驱动查询分桶数据,Hive引擎仅仅针对所需分桶执行查询操作,返回结果后,以HashMap形式缓存在内存cache中,并通知客户端。
客户端Driver调用设定scan的类型为bucket join,发出scan调用原语;每个Region的Obesever型coprocessor region sever Scan Observer(协处理器地区切断扫描观察)拦截该join请求,调用MapJoin Scanner;Map Join Scanner执行Hash join算法;针对在本Region Sever上扫描结果result中的每个tuple,判断是否在cache中存在相同join_key的数据,如有,则进行join处理;各个Region Server将join结果返回客户端。
本发明的一种针对混合型大数据处理系统的数据交互分析方法具有以下优点:通过对Hive数据和Hbase数据进行分桶,能够大大减少参与数据传输、数据缓存和join过程的数据量,并且充分利用大数据系统的分布式架构使所有节点的缓存过程同时并行执行,减少处理延迟、避免缓存溢出。此外,通过在各节点缓存数据,能够加快join执行效率。Bucket join方法适用于关联字段规模大,重复较少,且不易分类的场景。
附图说明
 下面结合附图对本发明进一步说明。
附图1为一种针对混合型大数据处理系统的数据交互分析方法的bucket join运行机制和处理过程。
图中虚线箭头线表示指令流,粗连接线表示数据流,实线箭头线表示指令数据流。
具体实施方式
参照说明书附图和具体实施例对本发明的一种针对混合型大数据处理系统的数据交互分析方法作以下详细地说明。
实施例1:
本发明的一种针对混合型大数据处理系统的数据交互分析方法,混合型大数据处理系统是基于HBase数据库及基于内存计算引擎的Hive系统构建,交互查询sql语句由客户端发出,包括针对Hive表和HBase表的join操作,采用bucket join方法进行数据交互,bucket join方法包括数据准备过程和运行时执行过程;
数据准备过程:建立Hive表并按关联字段join_key分桶,按分桶导入数据,显式的设置参与分桶的reduce数与分桶数n相同,按照hashCode=join_key % n将数据分别存入n个桶文件;建立hbase表并导入数据,hbase的主键除了表的key外,为了便于做join,在key之前连接join_key的hashCode;
运行时执行过程:客户端Driver解释sql语句,编译执行计划,在客户端构造内存空间、线程池用于驱动执行的运行时环境。
  利用HBase coprocessor引擎实现bucket join;Coprocessor是一个可构建分布式服务编程模型,在HBase Master和RegionServer进程内的运行时框架执行用户代码,在HBase内实现灵活、轻量级的分布式数据处理功能,并可以随HBase自动扩展和负载均衡等;Coprocessor分为Observer和EndPoint,Observer监听HBase Get、 Put、Delete、Scan数据操作,以及元数据和日志操作,实现类似数据库驱动器的功能;EndPoint属于远过程调用RPC类型的Coprocessor,客户端通过调用PRC接口按每个row或range的位置自动分片为多个并行的RPC调用,实现类似数据库中存储过程的功能。
    在bucket join方法中,客户端调用HBase的Endpoint类型coprocessor Server Caching Protocal进行数据缓存;在Server Caching Protocal的实现中,每个Region调用Hive驱动查询分桶数据,Hive引擎仅仅针对所需分桶执行查询操作,返回结果后,以HashMap形式缓存在内存cache中,并通知客户端。
客户端Driver调用设定scan的类型为bucket join,发出scan调用原语;每个Region的Obesever型coprocessor region sever Scan Observer拦截该join请求,调用MapJoin Scanner;Map Join Scanner执行Hash join算法;针对在本Region Sever上扫描结果result中的每个tuple,判断是否在cache中存在相同join_key的数据,如有,则进行join处理;各个Region Server将join结果返回客户端。
实施例2:
本发明的一种针对混合型大数据处理系统的数据交互分析方法,混合型大数据处理系统是基于HBase数据库及基于内存计算引擎的Hive系统构建,交互查询sql语句由客户端发出,包括针对Hive表和HBase表的join操作,采用bucket join方法进行数据交互,bucket join方法包括数据准备过程和运行时执行过程;
数据准备过程:建立Hive表并按关联字段join_key分桶,按分桶导入数据,显式的设置参与分桶的reduce数与分桶数n相同,按照hashCode=join_key % n将数据分别存入n个桶文件;建立hbase表并导入数据,hbase的主键除了表的key外,为了便于做join,在key之前连接join_key的hashCode;
运行时执行过程:客户端Driver解释sql语句,编译执行计划,在客户端构造内存空间、线程池用于驱动执行的运行时环境。
设有Hive系统的表hive_table,包括主键id,内容字段value, HBase系统中表hbase_table, 包括主键id,内容字段value,链接字段join_key为id。对此执行如下join查询
select id,a.value,b.value from hive_table as a 
join hbase_table as b on a.id=b.id
1.  数据准备过程
(1)建立Hive表并按id分桶。
create table hive_table (
id int,
value string
)
clustered by(bucket) into 3 buckets
stored as rcfile;
按分桶导入数据,显式的设置参与分桶的reduce数与分桶数相同,按照hashCode=id % 3将数据分别存入三个桶文件。
set hive.enforce.bucketing=true;
set mapred.reduce.tasks=3;
insert overwrite table hive_table select id,value from datasources distribute by (id);
最终hive_table表存储按hash值组织为三个桶。
(2)建立hbase表并导入数据。
create ‘hbase_table’,‘cf’;
hbase的主键除了表的id外,为了偏于做join,在id之前连接id的hashCode,即如某条数据的id为001,该条数据的主键为1_001;
put ‘hbase_table’, ’1_001’ ‘cf:value’, ’v’;
2.  Bucket join 方法
select id,a.value,b.value from hive_table as a join hbase_table as b on a.id=b.id
bucket join的运行机制和处理过程如图1所示:
(1)客户端Driver解释sql语句,编译执行计划,在客户端构造内存空间、线程池等用于驱动执行的运行时环境;
(2)客户端调用ServerCachingProtocal进行数据缓存, 在ServerCachingProtocal的实现中,每个region调用hive驱动查询分桶数据,Hive引擎仅仅针对所需分桶执行查询操作,返回结果后,以HashMap形式缓存在内存cache中,并通知客户端
  ServerCache cache = hashClient.addHashCache(“Hive”,” select id,a.value from hive_table as a where hashCode=’2’”);
(3)客户端Driver调用设定scan的类型为join,发出scan调用 原语;
(4)每个Region的regionseverScanObserver拦截请求,判断为join,调用MapJoinScanner;
(5)MapJoinScanner执行Hash join算法。即针对在本Region上扫描结果result中的每个tuple的主键的非hashCode部分,判断是否在cache中存在相同key的数据,如有,则进行join处理。
for(Tuple tupleA: result)
pk=getkey(tupleA).split(“_”)
id=pk[1]
tupleB=cache.get(id)!
if (tupleB!=null)join(tupleA,tupleB)
(6)各个RegionServer将join结果返回客户端。
上例bucket join方法与map join方式相比,减少了数据传输量和参与join的数据量,避免了HBase端缓存溢出的可能性,处理性能提高1/3以上。
通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。

Claims (4)

1.一种针对混合型大数据处理系统的数据交互分析方法,混合型大数据处理系统是基于HBase数据库及基于内存计算引擎的Hive系统构建,交互查询sql语句由客户端发出,包括针对Hive表和HBase表的join操作,其特征在于采用bucket join方法进行数据交互,bucket join方法包括数据准备过程和运行时执行过程;
数据准备过程:建立Hive表并按关联字段join_key分桶,按分桶导入数据,显式的设置参与分桶的reduce数与分桶数n相同,按照hashCode=join_key % n将数据分别存入n个桶文件;建立hbase表并导入数据,hbase的主键除了表的key外,在key之前连接join_key的hashCode;
运行时执行过程:客户端Driver解释sql语句,编译执行计划,在客户端构造内存空间、线程池用于驱动执行的运行时环境。
2.根据权利要求1所述的一种针对混合型大数据处理系统的数据交互分析方法,其特征在于利用HBase coprocessor引擎实现bucket join; Coprocessor分为Observer和EndPoint,Observer监听HBase Get、 Put、Delete、Scan数据操作,以及元数据和日志操作;EndPoint属于远过程调用RPC类型的Coprocessor,客户端通过调用PRC接口按每个row或range的位置自动分片为多个并行的RPC调用。
3. 根据权利要求1所述的一种针对混合型大数据处理系统的数据交互分析方法,其特征在于在bucket join方法中,客户端调用HBase的Endpoint类型coprocessor Server Caching Protocal进行数据缓存;在Server Caching Protocal的实现中,每个Region调用Hive驱动查询分桶数据,Hive引擎仅仅针对所需分桶执行查询操作,返回结果后,以HashMap形式缓存在内存cache中,并通知客户端。
4.根据权利要求1所述的一种针对混合型大数据处理系统的数据交互分析方法,其特征在于客户端Driver调用设定scan的类型为bucket join,发出scan调用原语;每个Region的Obesever型coprocessor region sever Scan Observer拦截该join请求,调用MapJoin Scanner;Map Join Scanner执行Hash join算法;针对在本Region Sever上扫描结果result中的每个tuple,判断是否在cache中存在相同join_key的数据,如有,则进行join处理;各个Region Server将join结果返回客户端。
CN201410710850.0A 2014-12-01 2014-12-01 一种针对混合型大数据处理系统的数据交互分析方法 Pending CN104391957A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410710850.0A CN104391957A (zh) 2014-12-01 2014-12-01 一种针对混合型大数据处理系统的数据交互分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410710850.0A CN104391957A (zh) 2014-12-01 2014-12-01 一种针对混合型大数据处理系统的数据交互分析方法

Publications (1)

Publication Number Publication Date
CN104391957A true CN104391957A (zh) 2015-03-04

Family

ID=52609861

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410710850.0A Pending CN104391957A (zh) 2014-12-01 2014-12-01 一种针对混合型大数据处理系统的数据交互分析方法

Country Status (1)

Country Link
CN (1) CN104391957A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731595A (zh) * 2015-03-26 2015-06-24 江苏物联网研究发展中心 面向大数据分析的混合计算系统
CN106407207A (zh) * 2015-07-29 2017-02-15 阿里巴巴集团控股有限公司 一种实时新增数据更新方法和装置
CN106528810A (zh) * 2016-11-18 2017-03-22 党玉龙 一种融合异构数据便于快速大数据分析的方法
WO2017148297A1 (zh) * 2016-03-02 2017-09-08 阿里巴巴集团控股有限公司 数据表连接方法及装置
CN107169097A (zh) * 2017-05-15 2017-09-15 郑州云海信息技术有限公司 一种Spark Broadcasthashjoin操作的改进方法
CN107368477A (zh) * 2016-05-11 2017-11-21 北京京东尚科信息技术有限公司 基于HBase协处理器的类SQL查询的方法和系统
CN108021578A (zh) * 2016-11-03 2018-05-11 北京国双科技有限公司 数据文件的关联查询方法及装置
CN108241724A (zh) * 2017-05-11 2018-07-03 新华三大数据技术有限公司 一种元数据管理方法和装置
CN110597808A (zh) * 2019-08-20 2019-12-20 阿里巴巴集团控股有限公司 分布式数据库表连接方法、装置、系统、服务器及介质
WO2020206952A1 (zh) * 2019-04-09 2020-10-15 苏宁云计算有限公司 一种图数据库的数据导入方法及装置
CN112905854A (zh) * 2021-03-05 2021-06-04 北京中经惠众科技有限公司 数据处理方法、装置、计算设备及存储介质
US11036733B2 (en) 2019-08-20 2021-06-15 Ant Financial (Hang Zhou) Network Technology Co., Ltd. Method, apparatus, system, server, and storage medium for connecting tables stored at distributed database
US11036698B2 (en) 2018-12-06 2021-06-15 International Business Machines Corporation Non-relational database coprocessor for reading raw data files copied from relational databases

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102685221A (zh) * 2012-04-29 2012-09-19 华北电力大学(保定) 一种状态监测数据的分布式存储与并行挖掘方法
CN102799622A (zh) * 2012-06-19 2012-11-28 北京大学 基于MapReduce扩展框架的分布式SQL查询方法
US20130298111A1 (en) * 2012-04-16 2013-11-07 International Business Machines Corporation Code converting method, program, and system
CN103729453A (zh) * 2014-01-02 2014-04-16 浪潮电子信息产业股份有限公司 一种HBase表联合查询优化的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130298111A1 (en) * 2012-04-16 2013-11-07 International Business Machines Corporation Code converting method, program, and system
CN102685221A (zh) * 2012-04-29 2012-09-19 华北电力大学(保定) 一种状态监测数据的分布式存储与并行挖掘方法
CN102799622A (zh) * 2012-06-19 2012-11-28 北京大学 基于MapReduce扩展框架的分布式SQL查询方法
CN103729453A (zh) * 2014-01-02 2014-04-16 浪潮电子信息产业股份有限公司 一种HBase表联合查询优化的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
TOBYQIU: ""Hive Join 优化"", 《HTTP://ITINDEX.NET/DETAIL/48877-HIVE-JOIN-%E4%BC%98%E5%8C%96?UTM_SOURCE=TUICOOL&UTM_MEDIUM=REFERRAL》 *
WISGOOD: ""Hive基础之:分区、桶、Sort Merge Bucket Join"", 《CSDN-BLOG.CSDN.NET/WISGOOD/ARTICLE/DETAILS/17186107》 *
片刻: ""hive与hbase数据交互的详解指南"", 《开源中国社区博客专区-HTTP://MY.OSCHINA.NET/REPINE/BLOG/285015》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731595A (zh) * 2015-03-26 2015-06-24 江苏物联网研究发展中心 面向大数据分析的混合计算系统
CN106407207A (zh) * 2015-07-29 2017-02-15 阿里巴巴集团控股有限公司 一种实时新增数据更新方法和装置
CN106407207B (zh) * 2015-07-29 2020-06-16 阿里巴巴集团控股有限公司 一种实时新增数据更新方法和装置
WO2017148297A1 (zh) * 2016-03-02 2017-09-08 阿里巴巴集团控股有限公司 数据表连接方法及装置
CN107368477A (zh) * 2016-05-11 2017-11-21 北京京东尚科信息技术有限公司 基于HBase协处理器的类SQL查询的方法和系统
CN108021578A (zh) * 2016-11-03 2018-05-11 北京国双科技有限公司 数据文件的关联查询方法及装置
CN106528810A (zh) * 2016-11-18 2017-03-22 党玉龙 一种融合异构数据便于快速大数据分析的方法
CN106528810B (zh) * 2016-11-18 2021-07-13 党玉龙 一种融合异构数据便于快速大数据分析的方法
CN108241724A (zh) * 2017-05-11 2018-07-03 新华三大数据技术有限公司 一种元数据管理方法和装置
CN107169097A (zh) * 2017-05-15 2017-09-15 郑州云海信息技术有限公司 一种Spark Broadcasthashjoin操作的改进方法
US11036698B2 (en) 2018-12-06 2021-06-15 International Business Machines Corporation Non-relational database coprocessor for reading raw data files copied from relational databases
WO2020206952A1 (zh) * 2019-04-09 2020-10-15 苏宁云计算有限公司 一种图数据库的数据导入方法及装置
CN110597808A (zh) * 2019-08-20 2019-12-20 阿里巴巴集团控股有限公司 分布式数据库表连接方法、装置、系统、服务器及介质
US11036733B2 (en) 2019-08-20 2021-06-15 Ant Financial (Hang Zhou) Network Technology Co., Ltd. Method, apparatus, system, server, and storage medium for connecting tables stored at distributed database
CN110597808B (zh) * 2019-08-20 2021-05-18 蚂蚁金服(杭州)网络技术有限公司 分布式数据库表连接方法、装置、系统、服务器及介质
CN112905854A (zh) * 2021-03-05 2021-06-04 北京中经惠众科技有限公司 数据处理方法、装置、计算设备及存储介质

Similar Documents

Publication Publication Date Title
CN104391957A (zh) 一种针对混合型大数据处理系统的数据交互分析方法
CN103631870B (zh) 一种用于大规模分布式数据处理的系统及其方法
KR102177190B1 (ko) 유연한 스키마를 사용한 데이터 관리
CN106599043A (zh) 用于多级数据库的中间件和多级数据库系统
CN107402995A (zh) 一种分布式newSQL数据库系统及方法
US9336270B2 (en) Techniques for accessing a parallel database system via external programs using vertical and/or horizontal partitioning
CN105930387A (zh) 一种基于数据路由、分库分表的数据操作系统及方法
CN104346447A (zh) 一种面向混合型大数据处理系统的分区连接方法
WO2020135613A1 (zh) 数据查询处理方法、装置及系统、计算机可读存储介质
CN103605698A (zh) 一种用于分布异构数据资源整合的云数据库系统
US20120158453A1 (en) Workflow processing system for supporting multi-tenant, and method thereof
CN112148788A (zh) 异构数据源的数据同步方法及系统
CN114756577A (zh) 多源异构数据的处理方法、计算机设备及存储介质
CN110909077A (zh) 一种分布式存储方法
CN106020847A (zh) 一种持久层开发框架配置sql的方法和装置
CN109885585B (zh) 支持存储过程、触发器与视图的分布式数据库系统和方法
US20190228009A1 (en) Information processing system and information processing method
CN104462351A (zh) 一种面向MapReduce范型的数据查询模型与方法
CN111125248A (zh) 一种大数据存储解析查询系统
CN112487075B (zh) 一种集成关系型和非关系型数据库数据转换算子的方法
US20230237043A1 (en) Accelerating change data capture determination using row bitsets
CN116431635A (zh) 基于湖仓一体的配电物联网数据实时处理系统及方法
CN116775712A (zh) 联表查询方法、装置、电子设备、分布式系统和存储介质
CN114969165A (zh) 数据查询请求的处理方法、装置、设备及存储介质
CN104156419A (zh) 一种异构数据源的实体化方法及其引擎

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150304