CN106294757B - 一种基于超图划分的分布式数据库及其集群分区方法 - Google Patents

一种基于超图划分的分布式数据库及其集群分区方法 Download PDF

Info

Publication number
CN106294757B
CN106294757B CN201610656475.5A CN201610656475A CN106294757B CN 106294757 B CN106294757 B CN 106294757B CN 201610656475 A CN201610656475 A CN 201610656475A CN 106294757 B CN106294757 B CN 106294757B
Authority
CN
China
Prior art keywords
data
module
hypergraph
subregion
statistics
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610656475.5A
Other languages
English (en)
Other versions
CN106294757A (zh
Inventor
管海兵
陈文康
马汝辉
李健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201610656475.5A priority Critical patent/CN106294757B/zh
Publication of CN106294757A publication Critical patent/CN106294757A/zh
Application granted granted Critical
Publication of CN106294757B publication Critical patent/CN106294757B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Abstract

本发明公开了一种基于超图划分的分布式数据库及其集群分区方法,涉及大数据环境下的数据库的数据放置技术,包括:数据统计模块、历史数据分析模块和数据迁移模块,其中事务访问集存储在原始的文本和日志文件数据中,算法模块集存储平台集成算法模块的数学建模和算法求解;数据分析模块由两个过程组成,日志读取解析过程和数据建模与算法求解过程。数据分析模块中的日志读取解析过程用于管理用户日志上传、预处理和格式转换,生成解析后的事务日志;调度模块有序调度建模、算法、数据迁移,并分析计算结果重新分区。本发明实现了市场需求和日志分析、算法模块的结合,可高效地调整平台的数据放置和分区;提高了数据库的可扩展性、可维护性。

Description

一种基于超图划分的分布式数据库及其集群分区方法
技术领域
本发明涉及大数据环境下的数据库领域,尤其涉及一种基于超图划分的分布式数据库及其集群分区方法。
背景技术
现代企业的数据中心日渐庞大,分布式数据库被广泛运用于企业应用中,并对企业的业务活动提供有效的管理和支持。此外,在线事务处理是商业环境下对分布式数据库的新的需求。简单的说,在线事务处理(OLTP)是重复性、大批量的业务的自动化处理。随着在线事务处理的应用场景的快速增长,催生了针对联机事务处理而设计的分布式数据库管理系统。通过分析系统历史日志文件,统计事务在系统中访问的分布情况,通过优化分区的方式,提出了一种高吞吐、低延迟的数据库。这种俗称“NewSQL”的系统在继承了关系型数据库的在线事务处理功能,保证的事务ACID的特性,通过将数据非共享的分布在机器集群上,提高并发来提高性能。
VoltDB是一个分布式的、基于行存储的、使用主存储器的、运行在一个数据无共享的机器集群上的关系型数据库。VoltDB每个节点是一台物理机器,每个节点包含了一个或多个处理执行引擎,该引擎使用单线程处理来自外部客户端的联机事务处理请求。如图1所示,每个数据库中的关系(Relation),或称为表(Table),在VoltDB中被水平切分(partition)成一个或多个数据快,即将组成该表的全部元组按照主键的值分成一份或者多份,每个数据块会被放置在一个或者多个具体的执行引擎上。如图2所示,数据库中所有的表切分放置后,每个执行引擎所拥有的所有数据组成了一个数据分区,所有表最终切分放置方法组成了分区表。
由于数据关联的复杂程度、集群分区的规模巨大,事务在查询和修改具有短、小、重复的特点,根据数据的放置策略,将会有很大一部分事务访问多个物理机上的数据,而多分区事务的网络通信开销是巨大的,这将大大限制了多分区事务网络通信的普及。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是旨在根据用户的需求和在线事务处理的特点,并在基于实现环境中,建立原型系统的统计模块、历史数据分析模块和数据迁移模块,以解决现有技术的多分区事务的网络通信开销巨大的问题。
为实现上述目的,本发明提供了一种基于超图划分的分布式数据库,包括平台基础层和算法建模层,所述平台基础层包括数据统计模块、历史数据分析模块和数据迁移模块,其中:
所述数据统计模块被配置为在数据库运行一段时间后,通过网络连接接收数据库集群的日志统计数据,并进行建模、预处理、噪声去除;
所述历史数据分析模块被配置为将所述数据统计模块处理过的日志统计数据生成重分区方案和迁移计划;
所述数据迁移模块被配置为以历史数据分析模块生成的迁移计划和数据统计模块解析的日志统计数据作为输入,在数据库集群各个机器之间迁移数据;
所述算法建模层包括超图最小割模块、复杂网络社团发现模块和日志统计模块,其中:
超图最小割模块被配置为对超图进行建模和重分区;
复杂网络社团发现模块被配置为通过发现日志统计数据的内在关系的社团属性,并将相同社团属性的日志统计数据放入相应的机器中;
日志统计模块被配置为通过对输入日志对象中不同维度的统计,产生日志统计数据。
进一步地,所述日志统计模块被配置为将上传到分布式文件系统的日志统计数据读入所述超图最小割模块,所述超图最小割模块对统计过的日志文件建立超图模型。
进一步地,所述数据统计模块被配置为估算出服务器的容量,服务器的在联机事务处理系统运行时,使用写日志文件的方式,对一段时间内进行访问样本的采样,并记录系统中每个事务访问的分区,计算出所有同时访问分区的分布式事务的数量和访问频率。
进一步地,所述历史数据分析模块被配置为将所述数据统计模块统计的数据建模,形成了一个集群间的超图模型,将分区的问题抽象成一个图,再通过贪心算法分析出重分区方案和迁移计划,其中,所述超图模型的点是分区,边是每一条事务,边的权值是事务访问的频率。
进一步地,所述日志统计模块对输入日志对象的不同维度统计的数据包括事务编号、执行时间、事务访问的分区。
进一步地,所述日志统计模块产生的日志统计数据包括事务执行频率统计、访问分区和跨分区事务的统计、各节点的容量和节点访问频率统计内容。
本发明还提供了一种基于超图划分的分布式数据库的集群分区方法,包括以下步骤:
提供平台基础层和算法建模层,其中所述平台基础层包括数据统计模块、历史数据分析模块和数据迁移模块,所述算法建模层包括超图最小割模块、复杂网络社团发现模块和日志统计模块;
在数据库运行一段时间后,所述数据统计模块通过网络连接接收数据库集群的日志统计数据;
所述日志统计模块将日志统计数据读入所述超图最小割模块;
所述超图最小割模块对统计过的日志文件建立超图模型;
所述数据统计模块估算出服务器的容量,服务器的在联机事务处理系统运行时,使用写日志文件的方式,对一段时间内进行访问样本的采样,并记录系统中每个事务访问的分区,计算出所有同时访问分区的分布式事务的数量和访问频率;
所述历史数据分析模块将所述数据统计模块统计的数据建模,形成了一个集群间的超图模型,将分区的问题抽象成一个图,再通过贪心算法分析出重分区方案和迁移计划;
所述数据迁移模块以历史数据分析模块生成的迁移计划和数据统计模块解析的日志统计数据作为输入,在数据库集群各个机器之间迁移数据。
进一步地,其特征在于,所述超图模型的点是分区,边是每一条事务,边的权值是事务访问的频率。
进一步地,所述日志统计模块对输入日志对象的不同维度统计的数据包括事务编号、执行时间、事务访问的分区。
进一步地,所述日志统计模块产生的日志统计数据包括事务执行频率统计、访问分区和跨分区事务的统计、各节点的容量和节点访问频率统计内容。
本发明数据库系统的模型示意图如图3所示,包括数据统计模块,历史数据分析模块以及数据迁移模块;本发明的目标是分析用户的历史数据,并对查询的数据在集群中迁移,达到可扩展地动态适应负载。以下对涉及到的各个模块分别进行阐述:
数据统计模块:统计模块计估算出服务器的容量。服务器的在联机事务处理系统运行时,使用写日志文件的方式,对一段时间内进行访问样本的采样,即记录系统中每个事务都访问了哪些分区。从采样中我们可以计算出所有同时访问分区的分布式事务的数量和访问频率。
历史数据分析模块:统计数据是一个很大的工作量,将这些数据建模,形成了一个集群间超图的模型。其中超图的点是分区,边是每一条事务,边的权值是事务访问的频率。这样能够将分区的问题抽象成一个图。而通过分析这个超图,通过贪心算法分析出一种更优的分区方案,该方案是根据数据的分析动态生成的。
数据迁移模块:数据根据分区的方案,在每一个分区上生成一个迁移计划,数据会在迁移计划下进行数据迁移。
系统的主要过程如下:我们在拥有分区方法的基础上,统计集群各机器的日志文件,将机器间的网络通信延时对分布式数据库系统的影响进行了建模量化,并提出了使用超图模型进行分区的分组、贪心算法进行分组的放置。
本发明提出了一种结合无共享架构、事务的特性和数据库分区技术来生成重分区策略的新方法。该方法在历史处理日志文件分析的基础上,对用户需求进行理解、设计了一种基于超图的重分区算法,通过无共享架构的NewSQL平台构建基础层、日志文件统计层、超图模型层、重新部署层。实现对统计数据的建模和分析,完成对输入日志的流程挖掘分析。整个平台建立在无共享架构上,提高了数据库系统的可扩展性,与此同时,超图算法模型实现了对用户日志文件的数学建模,实现了重分区的按需分析。本发明根据联机在线事务的需求对数据库的通信延迟和网络开销进行了数倍的提升,并且实现了动态自动化的数据库可扩展,动态算法在设计上针对现实生活中数据的联系和属性进行了数据的重分区,使得在线事务处理更好的适应应用场景和现实数据。
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1为本发明VoltDB数据库Schema分区和复制策略示意图;
图2为本发明多分区事务的访问数据库集群示意图;
图3为本发明一个较佳实施例的系统模块分析图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行数据库集群环境下的实施,以下给出了详细的实施方式和具体的操作过程。
如图3所示,本发明所述的基于超图划分的分布式数据库集群分区方法,操作过程包括:数据统计、历史数据分析、数据迁移。
平台基础层:是整个系统架构的输入接口和实现基础,包括三个模块,分别是数据统计模块、历史数据分析模块和数据迁移模块。
数据统计模块:在数据库运行一段时间后,模块通过日志数据统计与数据库集群的日志数据建立网络连接(如HTTP或FTP访问)传输日志数据,并将接受的数据经过日志预处理模块进行建模、预处理、噪声去除。
历史数据分析模块:将数据统一进行处理分析,生成一个重分区方案。最后将处理结果经由日志解析模块生成平台集成模块可供数据库处理的迁移计划分发给各分区。
数据迁移模块:该模块以数据分析模块生成的迁移计划为插和日志处理模块解析的迁移计划作为输入,数据库开始在集群个各个机器之间迁移数据,迁移的同时,事务仍可以访问未迁移的数据,带数据迁移完毕后将等待的事务继续处理。
算法建模层:是整个系统架构的核心处理单元,包括各数据的建模、数据分析、模型求解的具体实现。在本实施例中主要包括三个模块,分别是超图建模与最小割算法模块、复杂网络社团发现模块和日志统计模块。
hmetis模块:该模块实现了对超图的重分区,提供高效精确的分区算法。一次对hmetis独立的运算比其他的算法例如FM、KL、CLIP更快。另外,因为它的很好的平均削减幅度的特性,使得高性能的高速的分区算法成为可能。该算法在大于100000结点的超图上运行只需要数分钟。
复杂网络社团发现模块:该模块实现了复杂网络领域的社团发现算法,该算法通过发现数据的内在关系的社团属性,并将相同社团的数据放入对应的机器中。
日志统计模块:该模块实现了对输入日志对象的统计功能。通过对输入日志对象中不同维度(如事务编号、执行时间、事务访问的分区等)的统计,产生日志的统计数据,包括事务执行频率统计、访问分区和跨分区事务的统计、各节点的容量和节点访问频率统计等内容。
系统各模块的调用过程如下。日志统计模块先将上传到分布式文件系统的日志文件读入hmetis模块,hmetis模块将统计过的日志文件建模超图,超图模型。
本发明所述系统的主要特点是基于无共享架构的DBMS;支持多模块动态集成;主要技术和语言是JAVA、C++、Xml、Hmetis等。运行时环境为3个节点的分布式集群,运行时利用hmetis,提高了算法的时间和空间效率,并且对于大规模集群能迅速求解,并且支持算法模块在算法模块层进行动态地增加、修改和删除。由算法模块可动态的重分区并且迁移数据,使得分布式事务减少,跟好的保证了数据库的一致性。数据库可扩展性强。
使用了本发明中提出的构建方法后,在按需分析的同时,使得整个DBMS平台实现在线事务处理的用户需求和算法的模型,进而能够动态地调整平台的分区策略,提高了系统的可扩展性、可维护性和易用性,同时降低了延迟并提高了吞吐量。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (9)

1.一种基于超图划分的分布式数据库,其特征在于,包括平台基础层和算法建模层,所述平台基础层包括数据统计模块、历史数据分析模块和数据迁移模块,其中:
所述数据统计模块被配置为在数据库运行一段时间后,通过网络连接接收数据库集群的日志统计数据,并进行建模、预处理、噪声去除;
所述历史数据分析模块被配置为将所述数据统计模块统计的数据建模,形成了一个集群间的超图模型,将分区的问题抽象成一个图,再通过贪心算法分析出重分区方案和迁移计划,其中,所述超图模型的点是分区,边是每一条事务,边的权值是事务访问的频率;
所述数据迁移模块被配置为以历史数据分析模块生成的迁移计划和数据统计模块解析的日志统计数据作为输入,在数据库集群各个机器之间迁移数据;
所述算法建模层包括超图最小割模块、复杂网络社团发现模块和日志统计模块,其中:
超图最小割模块被配置为对超图进行建模和重分区;
复杂网络社团发现模块被配置为通过发现日志统计数据的内在关系的社团属性,并将相同社团属性的日志统计数据放入相应的机器中;
日志统计模块被配置为通过对输入日志对象中不同维度的统计,产生日志统计数据。
2.根据权利要求1所述的基于超图划分的分布式数据库,其特征在于,所述日志统计模块被配置为将上传到分布式文件系统的日志统计数据读入所述超图最小割模块,所述超图最小割模块对统计过的日志文件建立超图模型。
3.根据权利要求1所述的基于超图划分的分布式数据库,其特征在于,所述数据统计模块被配置为估算出服务器的容量,服务器的在联机事务处理系统运行时,使用写日志文件的方式,对一段时间内进行访问样本的采样,并记录系统中每个事务访问的分区,计算出所有同时访问分区的分布式事务的数量和访问频率。
4.根据权利要求1所述的基于超图划分的分布式数据库,其特征在于,所述日志统计模块对输入日志对象的不同维度统计的数据包括事务编号、执行时间、事务访问的分区。
5.根据权利要求1所述的基于超图划分的分布式数据库,其特征在于,所述日志统计模块产生的日志统计数据包括事务执行频率统计、访问分区和跨分区事务的统计、各节点的容量和节点访问频率统计内容。
6.根据权利要求1-5中任一一种所述的基于超图划分的分布式数据库的集群分区方法,其特征在于,包括以下步骤:
提供平台基础层和算法建模层,其中所述平台基础层包括数据统计模块、历史数据分析模块和数据迁移模块,所述算法建模层包括超图最小割模块、复杂网络社团发现模块和日志统计模块;
在数据库运行一段时间后,所述数据统计模块通过网络连接接收数据库集群的日志统计数据;
所述日志统计模块将日志统计数据读入所述超图最小割模块;
所述超图最小割模块对统计过的日志文件建立超图模型;
所述数据统计模块估算出服务器的容量,服务器的在联机事务处理系统运行时,使用写日志文件的方式,对一段时间内进行访问样本的采样,并记录系统中每个事务访问的分区,计算出所有同时访问分区的分布式事务的数量和访问频率;
所述历史数据分析模块将所述数据统计模块统计的数据建模,形成了一个集群间的超图模型,将分区的问题抽象成一个图,再通过贪心算法分析出重分区方案和迁移计划;
所述数据迁移模块以历史数据分析模块生成的迁移计划和数据统计模块解析的日志统计数据作为输入,在数据库集群各个机器之间迁移数据。
7.根据权利要求6所述的基于超图划分的分布式数据库集群分区方法,其特征在于,所述超图模型的点是分区,边是每一条事务,边的权值是事务访问的频率。
8.根据权利要求6所述的基于超图划分的分布式数据库集群分区方法,其特征在于,所述日志统计模块对输入日志对象的不同维度统计的数据包括事务编号、执行时间、事务访问的分区。
9.根据权利要求6所述的基于超图划分的分布式数据库集群分区方法,其特征在于,所述日志统计模块产生的日志统计数据包括事务执行频率统计、访问分区和跨分区事务的统计、各节点的容量和节点访问频率统计内容。
CN201610656475.5A 2016-08-11 2016-08-11 一种基于超图划分的分布式数据库及其集群分区方法 Active CN106294757B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610656475.5A CN106294757B (zh) 2016-08-11 2016-08-11 一种基于超图划分的分布式数据库及其集群分区方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610656475.5A CN106294757B (zh) 2016-08-11 2016-08-11 一种基于超图划分的分布式数据库及其集群分区方法

Publications (2)

Publication Number Publication Date
CN106294757A CN106294757A (zh) 2017-01-04
CN106294757B true CN106294757B (zh) 2019-09-10

Family

ID=57669277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610656475.5A Active CN106294757B (zh) 2016-08-11 2016-08-11 一种基于超图划分的分布式数据库及其集群分区方法

Country Status (1)

Country Link
CN (1) CN106294757B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11620565B1 (en) * 2017-02-24 2023-04-04 Iqvia Inc. System and method for enhanced distribution of data to compute nodes
CN108932282B (zh) * 2018-05-18 2023-04-18 腾讯科技(深圳)有限公司 一种数据库迁移方法、装置和存储介质
CN108984308A (zh) * 2018-07-25 2018-12-11 国网山东省电力公司信息通信公司 一种基于工作负载的云数据处理方法及系统
CN110008199B (zh) * 2019-03-25 2023-02-14 华南理工大学 一种基于访问热度的数据迁移部署方法
CN112395366A (zh) * 2019-08-19 2021-02-23 阿里巴巴集团控股有限公司 分布式数据库的数据处理及创建方法、装置及电子设备
US20210103827A1 (en) * 2019-10-07 2021-04-08 International Business Machines Corporation Ontology-based data storage for distributed knowledge bases
WO2021185338A1 (zh) * 2020-03-19 2021-09-23 华为技术有限公司 事务处理系统的管理方法、装置、设备及介质
CN113535742B (zh) * 2021-06-21 2022-10-28 华东师范大学 一种多主云数据库场景下基于分区的并发控制方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336808A (zh) * 2013-06-25 2013-10-02 中国科学院信息工程研究所 一种基于bsp模型的实时图数据处理系统及方法
CN103885839A (zh) * 2014-04-06 2014-06-25 孙凌宇 基于多水平划分法和赋权有向超图的云计算任务调度方法
CN103970879A (zh) * 2014-05-16 2014-08-06 中国人民解放军国防科学技术大学 一种调整数据块存储位置的方法及系统
CN104506632A (zh) * 2014-12-25 2015-04-08 中国科学院电子学研究所 一种基于分布式多中心的资源共享系统及方法
CN104899250A (zh) * 2015-05-07 2015-09-09 上海交通大学 基于图结构与数据信息分离的图计算伸缩方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336808A (zh) * 2013-06-25 2013-10-02 中国科学院信息工程研究所 一种基于bsp模型的实时图数据处理系统及方法
CN103885839A (zh) * 2014-04-06 2014-06-25 孙凌宇 基于多水平划分法和赋权有向超图的云计算任务调度方法
CN103970879A (zh) * 2014-05-16 2014-08-06 中国人民解放军国防科学技术大学 一种调整数据块存储位置的方法及系统
CN104506632A (zh) * 2014-12-25 2015-04-08 中国科学院电子学研究所 一种基于分布式多中心的资源共享系统及方法
CN104899250A (zh) * 2015-05-07 2015-09-09 上海交通大学 基于图结构与数据信息分离的图计算伸缩方法

Also Published As

Publication number Publication date
CN106294757A (zh) 2017-01-04

Similar Documents

Publication Publication Date Title
CN106294757B (zh) 一种基于超图划分的分布式数据库及其集群分区方法
US11888702B2 (en) Intelligent analytic cloud provisioning
US10210221B2 (en) System and method for distributed database query engines
Tao et al. Minimal mapreduce algorithms
WO2020211300A1 (zh) 资源分配方法、装置、计算机设备和存储介质
US20160253402A1 (en) Adaptive data repartitioning and adaptive data replication
Lai et al. Towards a framework for large-scale multimedia data storage and processing on Hadoop platform
CN108509453B (zh) 一种信息处理方法及装置
Ciritoglu et al. Towards a better replica management for hadoop distributed file system
Hamdeni et al. Data popularity measurements in distributed systems: Survey and design directions
CN116108057A (zh) 一种分布式数据库访问方法、装置、设备及存储介质
CN108932258A (zh) 数据索引处理方法及装置
CN116431635A (zh) 基于湖仓一体的配电物联网数据实时处理系统及方法
Xu et al. Banian: a cross-platform interactive query system for structured big data
CN116226250A (zh) 针对发电领域海量时序数据管理的汇聚式管理方法及系统
CN115982230A (zh) 数据库的跨数据源查询方法、系统、设备及存储介质
Guo et al. Handling data skew at reduce stage in Spark by ReducePartition
CN115481097A (zh) 实现海量流量下实时数据报表的方法、装置和计算机设备
Iamnitchi et al. Workload characterization in a high-energy data grid and impact on resource management
Li et al. The research of performance optimization methods based on Impala cluster
Zhang et al. Improving performance for geo-distributed data process in wide-area
CN117390040B (zh) 基于实时宽表的业务请求处理方法、设备及存储介质
Dokeroglu et al. Improving Hadoop hive query response times through efficient virtual resource allocation
Monu et al. A Review on Storage and Large-Scale Processing of Data-Sets Using Map Reduce, YARN, SPARK, AVRO, MongoDB
Kiefer Allocation Strategies for Data-Oriented Architectures

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant