CN106570029B - 分布式关系型数据库的数据处理方法及系统 - Google Patents

分布式关系型数据库的数据处理方法及系统 Download PDF

Info

Publication number
CN106570029B
CN106570029B CN201510656831.9A CN201510656831A CN106570029B CN 106570029 B CN106570029 B CN 106570029B CN 201510656831 A CN201510656831 A CN 201510656831A CN 106570029 B CN106570029 B CN 106570029B
Authority
CN
China
Prior art keywords
data
server cluster
sub
synchronization
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510656831.9A
Other languages
English (en)
Other versions
CN106570029A (zh
Inventor
王奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Advanced New Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced New Technologies Co Ltd filed Critical Advanced New Technologies Co Ltd
Priority to CN201510656831.9A priority Critical patent/CN106570029B/zh
Publication of CN106570029A publication Critical patent/CN106570029A/zh
Application granted granted Critical
Publication of CN106570029B publication Critical patent/CN106570029B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases

Abstract

本申请公开了一种分布式关系型数据库的数据处理方法及其系统。该方法包括:获取待处理数据;同步待处理数据,生成同步数据;根据同步数据的属性类别定向存储所述同步数据。在本申请提供的方案中,根据同步数据的属性类别定向存储所述同步数据,定向存储的同步数据满足预设的存储条件,因而数据处理方法可以根据预设的存储条件设计,因而数据处理方法相对简易,同时,定向存储于同一位置的同步数据之间不需要通信,因而,通信带宽要求相对低。

Description

分布式关系型数据库的数据处理方法及系统
技术领域
本申请涉及大数据技术领域,尤其涉及一种分布式关系型数据库的数据处理方法及系统。
背景技术
现有技术中,一种分布式并行运算的数据处理是在Hadoop框架下进行的。Hadoop是一个由Apache基金会所开发的支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架。Hadoop框架支持在商品硬件构建的大型集群上运行应用程序,也就是说,Hadoop框架支持在成本低廉、性能普通的服务器构建的大型集群上运行应用程序。Hadoop框架实现了名称为MapReduce的编程范式,即应用程序被分割成许多小部分,而每个部分都能在集群中的任意节点上执行或重新执行。Hadoop还提供了分布式文件系统,用以存储所有计算节点的数据。分布式文件系统的要求非常高的集群带宽。MapReduce和分布式文件系统的设计,使得Hadoop框架能够自动处理节点故障,并且使应用程序在成千上万的计算机上独立进行运算和实现PB级(1PB=1024TB)数据的处理。
在实现现有技术过程中,发明人发现现有技术中至少存在如下问题:
分布式并行运算在Hadoop框架下进行时,应用程序被分割成许多小部分,而每个部分要求能在集群中的任意节点上执行或重新执行,需要设计复杂的MapReduce应用程序以解决每个部分在节点上的分布与执行,同时,将节点的数据实时进行提取与存储,这就要求集群内的通信带宽非常高。
发明内容
本申请实施例提供一种分布式关系型数据库的数据处理方法,该数据处理方法相对简易、通信带宽要求相对低。具体的,一种分布式关系型数据库的数据处理方法,适用于服务器集群,服务器集群包括采集子服务器集群、同步子服务器集群、存储子服务器集群;
所述方法包括:
采集子服务器集群获取待处理数据;
同步子服务器集群同步待处理数据,生成同步数据;
存储子服务器集群根据同步数据的属性类别定向存储所述同步数据;
其中,所述数据库位于构成服务器集群的服务器。
本申请实施例还提供一种分布式关系型数据库的数据处理系统,包括:
采集子服务器集群,用于获取待处理数据;
同步子服务器集群,用于同步待处理数据,生成同步数据;
存储子服务器集群,用于根据同步数据的属性类别定向存储所述同步数据。
本申请实施例提供的分布式关系型数据库的数据处理方法和系统,至少具有如下有益效果:
关系型数据库可以是由二维表及二维表之间的联系组成的结构化的数据组织。在本申请实施例提供的数据处理方法中,根据同步数据的属性类别定向存储所述同步数据,定向存储的同步数据满足预设的存储条件,因而数据处理方法可以根据预设的存储条件设计,因而数据处理方法相对简易,同时,定向存储于同一位置的同步数据之间不需要通信,因而,通信带宽要求相对低。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的分布式关系型数据库的数据处理方法的流程图。
图2为本申请实施例提供的分布式关系型数据库的数据处理系统的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
分布式数据库是指利用高速计算机网络将物理上分散的多个数据存储单元连接起来组成一个逻辑上统一的数据库,通常可以表现为将多个服务器利用高速计算机网络连接而成的服务器集群。分布式数据库将集中式数据库中的数据分散存储到多个通过网络连接的数据存储节点上,从而提高了存储容量。此外,分布式数据库采用备份的策略实现容错,保证数据的高可靠性,同时,在读取数据的时候,客户端可以并发地从多个备份服务器同时读取,从而提高了数据访问速度。服务器集群包括采集子服务器集群10、同步子服务器集群20、存储子服务器集群30、运算子服务器集群40。
图1为本申请实施例提供的分布式关系型数据库的数据处理方法的流程图,具体包括以下步骤:
S100:采集子服务器集群获取待处理数据。
数据库可以存储的数据对象多种多样,包括但不限于交易数据库、商品数据库、用户浏览行为数据库等。数据库可以是一个数据存储结构体,也可以是若干个数据存储结构体的集合体。例如,由1024个服务器的存储器构成的数据存储结构体的集合体。数据库可以通过数据库名称、数据库地址以及数据库存储的待处理数据的属性类别来区分。数据库位于构成服务器集群的服务器。
例如,表1记载了待处理数据的信息。
表1
属性类别 数据库名称 数据库地址
交易 Trade DB 01 交易节点地址1
交易 Trade DB 02 交易节点地址2
…… …… ……
登录 Login DB 01 登录节点地址1
…… …… ……
其中,第一列用于标识待处理数据的属性类别,第二列用于标识数据库名称,第三列用于标识数据库地址。
采集子服务器集群10获取待处理数据,具体的可以为采集子服务器集群10根据数据库分布规则,即数据库地址的分布规律,从分布式的关系型数据库获取待处理数据。更进一步的,采集子服务器集群10记录各数据库的地址,从而可以通过地址访问各数据库进而获取数据库中的待处理数据。
在本申请提供的又一实施例中,进一步的,获取待处理数据,还包括:获取待处理数据时,同时记载待处理数据来源的数据库名称和待处理数据的属性类别,或者同时记载数据库地址和待处理数据的属性类别,或者同时记载数据库名称、数据库地址和待处理数据的属性类别。
进一步的,获取待处理数据,具体的可以为采集子服务器集群10获取待处理数据。采集子服务器集群10获取待处理数据,还包括:
采集子服务器集群10获取待处理数据时,同时记载待处理数据来源的数据库名称和待处理数据的属性类别,或者同时记载数据库地址和待处理数据的属性类别,或者同时记载数据库名称、数据库地址和待处理数据的属性类别。
数据库名称和数据库地址之间具有确定的映射关系。因此,采集子服务器集群10可以根据数据库名称查出数据库地址,同样,采集子服务器集群10也可以根据数据库地址查出数据库名称。为了进行数据来源的追踪,在本申请实施例中,采集子服务器集群10获取待处理数据时,可以采取以下三种方式中的一种:
记载待处理数据来源的数据库名称和待处理数据的属性类别;或者
记载数据库地址和待处理数据的属性类别;或者
数据库名称、数据库地址和待处理数据的属性类别。
在该实施方式中,可以通过数据库名称和/或数据库地址追踪待处理数据的来源。
S200:同步子服务器集群同步待处理数据,生成同步数据。
同步子服务器集群20将若干不同来源的待处理数据进行同步,生成同步数据,用以处理某段时间内新增的数据。在本申请提供的实施例中,同步子服务器集群20同步待处理数据,生成同步数据,具体包括:
同步子服务器集群20确定第一同步点和第二同步点;
同步子服务器集群20筛选待处理数据中位于第一同步点和第二同步点之间的数据,生成同步数据。
同步子服务器集群20将若干不同来源的待处理数据进行同步,生成同步数据,用以处理某段时间内新增的数据。
具体的,同步子服务器集群20确定第一同步点和第二同步点,然后,同步子服务器集群20筛选待处理数据中位于第一同步点和第二同步点之间的数据,生成同步数据。
第一同步点为某个时间点。第二同步点可以为与第一同步点具有一定时间间隔的时间点。第一同步点和第二同步点之间的时间间隔可以根据实际情形,适应性设置。例如,可以是一周,或者是一日,还可以是其它预设的时长。
例如,表2记载了待处理数据的同步信息。
表2
属性类别 数据库名称 数据库地址 同步标志
交易 Trade DB 01 交易节点地址1 Trade_Time
交易 Trade DB 02 交易节点地址2 Trade_Time
…… …… …… ……
登录 Login DB 01 登录节点地址1 Login_Time
…… …… …… ……
其中,第四列用于标识待处理数据的同步标志。
如表2中所示,不同属性类别的数据,具有不同的同步标志。
同步数据具有属性类别。属性类别包括但不限于交易类、特定行为类。
对于交易类属性类别的数据,筛选交易时间处于第一同步点和第二同步点之间的数据,生成同步数据。
对于特定行为类数据,筛选特定行为时间处于第一同步点和第二同步点之间的数据,生成同步数据。
S300:存储子服务器集群根据同步数据的属性类别定向存储所述同步数据。
具体的,同步数据具有属性类别。同步待处理数据,生成同步数据,可以为存储子服务器集群30根据同步数据的属性类别定向存储所述同步数据。存储子服务器集群30根据同步数据的属性类别定向存储所述同步数据,具体包括:
存储子服务器集群30将同一属性类别的同步数据根据分配规则存入指定的数据库。
更进一步的,在本申请提供的又一实施例中,属性类别包括交易类。交易类同步数据具有交易标识码。
将同一属性类别的同步数据根据分配规则存入指定的数据库,具体包括:
当同步数据的属性类别为交易类时,选择交易类同步数据预存储规则;
根据交易类同步数据预存储规则,计算交易标识码的MD5码值;
计算所述码值对预设参数的余值;
将交易类的同步数据存储至与所述余值对应的数据库。
具体的,将同一属性类别的同步数据根据分配规则存入指定的数据库,可以为存储子服务器集群30将同一属性类别的同步数据根据分配规则存入指定的数据库。存储子服务器集群30将同一属性类别的同步数据根据分配规则存入指定的数据库,具体包括:当同步数据的属性类别为交易类时,存储子服务器集群30选择交易类同步数据预存储规则;
存储子服务器集群30根据交易类同步数据预存储规则,计算交易标识码的MD5码值;
存储子服务器集群30计算所述码值对预设参数的余值;
存储子服务器集群30将交易类的同步数据存储至与所述余值对应的数据库。
请参见表3。
表3
属性类别 数据库名称 数据库地址 同步方式 预存储规则
交易 Trade DB 01 交易节点地址1 Trade_Time MD5(Trade_NO)
交易 Trade DB 02 交易节点地址2 Trade_Time MD5(Trade_NO)
…… …… …… …… ……
登录 Login DB 01 登录节点地址1 Login_Time Range(USER_ID)
…… …… …… …… ……
下面举例来说明。假设,MD5(Trade_NO)表示计算交易标识码的MD5码值。在本申请实施例中,进一步计算所述码值对预设参数——例如100——的余值。假设,余值为30,那么,将同步数据存储至与余值30对应的数据库。
更进一步的,在本申请提供的又一实施例中,属性类别包括特定行为类。特定行为类数据具有行为主体标识码。将同一属性类别的同步数据根据分配规则存入指定的数据库,具体包括:
当同步数据的属性类别为特定行为类时,选择特定行为类同步数据预存储规则;
根据特定行为类同步数据预存储规则,计算行为主体标识码所属的区间代码;
将特定行为类同步数据存储至与所述区间代码对应的数据库。
具体的,将同一属性类别的同步数据根据分配规则存入指定的数据库,可以为存储子服务器集群30将同一属性类别的同步数据根据分配规则存入指定的数据库。存储子服务器集群30将同一属性类别的同步数据根据分配规则存入指定的数据库,具体包括:
当同步数据的属性类别为特定行为类时,存储子服务器集群30选择特定行为类同步数据预存储规则;
存储子服务器集群30根据特定行为类同步数据预存储规则,计算行为主体标识码所属的区间代码;
存储子服务器集群30将特定行为类同步数据存储至与所述区间代码对应的数据库。
下面举例来说明。假设,Range(USER_ID)表示计算行为主体标识码所属的区间代码。在本申请实施例中,假设主体标识码位于区间代码为3的区间。那么,将同步数据存储至与区间代码3对应的数据库。
进一步的,一个余值或一个区间代码可以对应多个数据库。在读取数据的时候,客户端可以并发地从存储子服务器集群30内的多个数据库同时读取,从而提高了数据访问速度。
在本申请实施例提供的数据处理方法中,根据同步数据的属性类别定向存储同步数据。定向存储的同步数据满足预设的存储条件,因而数据处理方法可以根据预设的存储条件设计,因而数据处理方法相对简易。相较于Hadoop框架下需要设计复杂的MapReduce应用程序以解决每个部分在节点上的分布与执行,数据处理方法相对简易。同时,定向存储于同一位置的同步数据之间不需要通信,因而,通信带宽要求相对低。
在本申请提供的又一实施例中,所述方法还包括:
处理定向存储的所述同步数据,生成结果数据。
具体的,处理定向存储的所述同步数据,生成结果数据,可以为运算子服务器集群处理定向存储的所述同步数据,生成结果数据。
进一步的,在本申请提供的又一实施例中,运算子服务器集群处理定向存储的所述同步数据,生成结果数据,具体包括:
运算子服务器集群筛选同步数据中满足第一条件的第一中间数据;
运算子服务器集群处理第一中间数据,生成结果数据。
进一步的,在本申请提供的又一实施例中,运算子服务器集群包括本地节点服务器和公共节点服务器。运算子服务器集群处理定向存储的所述同步数据,生成结果数据,具体包括:
本地节点服务器筛选本地的同步数据中满足第一条件的第一中间数据;
本地节点服务器汇总第一中间数据生成第二中间数据;
本地节点服务器向公共节点服务器发送第二中间数据;
公共节点服务器汇总第二中间数据生成结果数据。
例如,运算子服务器集群40的本地节点服务器筛选本地的同步数据中满足第一条件的第一中间数据。具体的,本地节点服务器根据筛选规则,筛选单笔交易金额大于100元的第一中间数据。本地节点服务器汇总第一中间数据生成第二中间数据。具体的,本地节点服务器汇总当天单笔交易金额大于100元的第一中间数据,生成第二中间数据。本地节点服务器向公共节点服务器发送第二中间数据,公共节点服务器汇总第二中间数据生成结果数据。具体的,公共节点服务器接收并汇总若干本地节点服务器的第二中间数据生成结果数据。
应当指出的是,这里仅筛选、汇总可以根据具体业务对象的不同,进行适应性设计。例如,筛选、汇总的先后顺序、层次、具体方式等。
在本申请提供的又一实施例中,所述方法还包括:
存储子服务器集群30根据同步数据的属性类别定向存储所述同步数据后,向运算子服务器集群40发送第一指令信息;
运算子服务器集群40处理定向存储的所述同步数据,生成结果数据。
进一步的,所述方法还包括:存储子服务器集群30存储第一指令信息。
在本申请实施例提供的技术方案中,存储子服务器集群30完成同步数据的定向存储后,向运算子服务器集群40发送第一指令信息。运算子服务器集群40接收到内部生成的第一指令信息后,根据指令处理定向存储的同步数据,生成结果数据。进一步的,存储子服务器集群30还可以存储生成的第一指令信息备查。
在本申请提供的又一实施例中,所述方法还包括:
采集子服务器集群10获取并向运算子服务器集群40发送第二指令信息;
运算子服务器集群40接收第二指令信息,并根据第二指令信息处理定向存储的同步数据,生成结果数据。
在本申请实施例提供的技术方案中,采集子服务器集群10可以获取外部的第二指令信息。然后,采集子服务器集群10向运算子服务器集群40发送该第二指令信息。运算子服务器集群40接收到外部发出的第二指令信息后,根据指令处理定向存储的同步数据,生成结果数据。
应当指出的是,这里的第二指令信息可以来源于服务器集群外部,而第一指令信息则可以来源于服务器集群内部。
以上是本申请实施例提供的数据处理的方法,基于同样的思路,本申请还提供分布式关系型数据库的数据处理系统1。请参照图2,数据处理系统1包括:
采集子服务器集群10,用于获取待处理数据;
同步子服务器集群20,用于同步待处理数据,生成同步数据;
存储子服务器集群30,用于根据同步数据的属性类别定向存储所述同步数据;
其中,所述数据库位于构成服务器集群的服务器。
在本申请提供的又一实施例中,采集子服务器集群10还用于:
获取待处理数据时,同时记载待处理数据来源的数据库名称和待处理数据的属性类别,或者同时记载数据库地址和待处理数据的属性类别,或者同时记载数据库名称、数据库地址和待处理数据的属性类别。
在本申请提供的又一实施例中,同步子服务器集群20用于同步待处理数据,生成同步数据,具体用于:
确定第一同步点和第二同步点;
筛选待处理数据中位于第一同步点和第二同步点之间的数据,生成同步数据。
在本申请提供的又一实施例中,同步数据具有属性类别。存储子服务器集群30,用于根据同步数据的属性类别定向存储所述同步数据,具体用于:
将同一属性类别的同步数据根据分配规则存入指定的数据库。
在本申请提供的又一实施例中,属性类别包括交易类。交易类同步数据具有交易标识码。存储子服务器集群30,用于将同一属性类别的同步数据根据分配规则存入指定的数据库,具体用于:
当同步数据的属性类别为交易类时,选择交易类同步数据预存储规则;
根据交易类同步数据预存储规则,计算交易标识码的MD5码值;
计算所述码值对预设参数的余值;
将交易类的同步数据存储至与所述余值对应的数据库。
在本申请提供的又一实施例中,属性类别包括特定行为类。特定行为类数据具有行为主体标识码。存储子服务器集群30,用于将同一属性类别的同步数据根据分配规则存入指定的数据库,具体用于:
当同步数据的属性类别为特定行为类时,选择特定行为类同步数据预存储规则;
根据特定行为类同步数据预存储规则,计算行为主体标识码所属的区间代码;
将特定行为类同步数据存储至与所述区间代码对应的数据库。
在本申请提供的又一实施例中,系统还包括运算子服务器集群40。运算子服务器集群40用于处理定向存储的所述同步数据,生成结果数据。
在本申请提供的又一实施例中,运算子服务器集群40用于处理定向存储的所述同步数据,生成结果数据,具体包括:
筛选同步数据中满足第一条件的第一中间数据;
处理第一中间数据,生成结果数据。
在本申请提供的又一实施例中,运算子服务器集群40包括本地节点服务器和公共节点服务器。运算子服务器集群40,用于处理同步数据,生成结果数据,具体用于:
本地节点服务器筛选同步数据中满足第一条件的第一中间数据;
本地节点服务器汇总第一中间数据生成第二中间数据;
本地节点服务器向公共节点服务器发送第二中间数据;
公共节点服务器汇总第二中间数据生成结果数据。
在本申请提供的又一实施例中,存储子服务器集群30还用于:存储同步数据后,向运算子服务器集群40发送第一指令信息。运算子服务器集群40还用于:接收第一指令信息,并根据第一指令信息处理定向存储的同步数据,生成结果数据。
在本申请提供的又一实施例中,存储子服务器集群30还用于存储第一指令信息。
在本申请提供的又一实施例中,采集子服务器集群10还用于:获取并向运算子服务器集群40发送第二指令信息。运算子服务器集群40还用于:接收第二指令信息,并根据第二指令信息处理定向存储的同步数据,生成结果数据。
本申请实施例提供的数据处理系统中,在本申请实施例提供的数据处理方法中,根据同步数据的属性类别定向存储同步数据。定向存储的同步数据满足预设的存储条件,因而数据处理方法可以根据预设的存储条件设计,因而数据处理方法相对简易。相较于Hadoop框架下需要设计复杂的MapReduce应用程序以解决每个部分在节点上的分布与执行,数据处理方法相对简易。同时,定向存储于同一位置的同步数据之间不需要通信,因而,通信带宽要求相对低。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数值处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数值处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数值处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数值处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数值结构、程序的模块或其他数值。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数值信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (18)

1.一种分布式关系型数据库的数据处理方法,适用于服务器集群,其特征在于,服务器集群包括采集子服务器集群、同步子服务器集群、存储子服务器集群和运算子服务器集群;
所述方法包括:
采集子服务器集群获取待处理数据;
同步子服务器集群同步待处理数据,生成同步数据;
存储子服务器集群根据同步数据的属性类别定向存储所述同步数据,并向所述运算子服务器集群发送第一指令信息,其中,同一属性类别的同步数据存储于同一指定的数据库;
所述运算子服务器集群接收所述第一指令信息,并根据所述第一指令信息处理定向存储的同步数据,生成结果数据;
其中,所述数据库位于构成服务器集群的服务器,对所述同步数据的处理至少包括筛选和汇总。
2.如权利要求1所述的方法,其特征在于,采集子服务器集群获取待处理数据,还包括:
采集子服务器集群获取待处理数据时,同时记载待处理数据来源的数据库名称和待处理数据的属性类别,或者同时记载数据库地址和待处理数据的属性类别,或者同时记载数据库名称、数据库地址和待处理数据的属性类别。
3.如权利要求1所述的方法,其特征在于,同步子服务器集群同步待处理数据,生成同步数据,具体包括:
同步子服务器集群确定第一同步点和第二同步点;
同步子服务器集群筛选待处理数据中位于第一同步点和第二同步点之间的数据,生成同步数据。
4.如权利要求1所述的方法,其特征在于,所述同步数据具有属性类别;
存储子服务器集群根据同步数据的属性类别定向存储所述同步数据,具体包括:
存储子服务器集群将同一属性类别的同步数据根据分配规则存入指定的数据库。
5.如权利要求4所述的方法,其特征在于,所述属性类别包括交易类;
交易类同步数据具有交易标识码;
存储子服务器集群将同一属性类别的同步数据根据分配规则存入指定的数据库,具体包括:
当同步数据的属性类别为交易类时,存储子服务器集群选择交易类同步数据预存储规则;
存储子服务器集群根据交易类同步数据预存储规则,计算交易标识码的MD5码值;
存储子服务器集群计算所述码值对预设参数的余值;
存储子服务器集群将交易类的同步数据存储至与所述余值对应的数据库。
6.如权利要求4所述的方法,其特征在于,所述属性类别包括特定行为类;
特定行为类数据具有行为主体标识码;
存储子服务器集群将同一属性类别的同步数据根据分配规则存入指定的数据库,具体包括:
当同步数据的属性类别为特定行为类时,存储子服务器集群选择特定行为类同步数据预存储规则;
存储子服务器集群根据特定行为类同步数据预存储规则,计算行为主体标识码所属的区间代码;
存储子服务器集群将特定行为类同步数据存储至与所述区间代码对应的数据库。
7.如权利要求1所述的方法,其特征在于,运算子服务器集群处理定向存储的所述同步数据,生成结果数据,具体包括:
运算子服务器集群筛选同步数据中满足第一条件的第一中间数据;
运算子服务器集群处理第一中间数据,生成结果数据。
8.如权利要求1所述的方法,其特征在于,所述运算子服务器集群包括本地节点服务器和公共节点服务器;
运算子服务器集群处理定向存储的所述同步数据,生成结果数据,具体包括:
本地节点服务器筛选本地的同步数据中满足第一条件的第一中间数据;
本地节点服务器汇总第一中间数据生成第二中间数据;
本地节点服务器向公共节点服务器发送第二中间数据;
公共节点服务器汇总第二中间数据生成结果数据。
9.如权利要求1所述的方法,其特征在于,所述方法还包括:
采集子服务器集群获取并向运算子服务器集群发送第二指令信息;
运算子服务器集群接收第二指令信息,并根据第二指令信息处理定向存储的同步数据,生成结果数据。
10.一种分布式关系型数据库的数据处理系统,其特征在于,包括:
采集子服务器集群,用于获取待处理数据;
同步子服务器集群,用于同步待处理数据,生成同步数据;
存储子服务器集群,用于根据同步数据的属性类别定向存储所述同步数据,并向所述运算子服务器集群发送第一指令信息,其中,同一属性类别的同步数据存储于同一指定的数据库;
运算子服务器集群,用于接收所述第一指令信息,并根据所述第一指令信息处理定向存储的同步数据,生成结果数据;
其中,所述数据库位于构成服务器集群的服务器,对所述同步数据的处理至少包括筛选和汇总。
11.如权利要求10所述的系统,其特征在于,所述采集子服务器集群,用于获取待处理数据,还用于:
获取待处理数据时,同时记载待处理数据来源的数据库名称和待处理数据的属性类别,或者同时记载数据库地址和待处理数据的属性类别,或者同时记载数据库名称、数据库地址和待处理数据的属性类别。
12.如权利要求10所述的系统,其特征在于,所述同步子服务器集群,用于同步待处理数据,生成同步数据,具体用于:
确定第一同步点和第二同步点;
筛选待处理数据中位于第一同步点和第二同步点之间的数据,生成同步数据。
13.如权利要求10所述的系统,其特征在于,所述同步数据具有属性类别;
所述存储子服务器集群,用于根据同步数据的属性类别定向存储所述同步数据,具体用于:
将同一属性类别的同步数据根据分配规则存入指定的数据库。
14.如权利要求13所述的系统,其特征在于,所述属性类别包括交易类;
交易类同步数据具有交易标识码;
所述存储子服务器集群,用于将同一属性类别的同步数据根据分配规则存入指定的数据库,具体用于:
当同步数据的属性类别为交易类时,选择交易类同步数据预存储规则;
根据交易类同步数据预存储规则,计算交易标识码的MD5码值;
计算所述码值对预设参数的余值;
将交易类的同步数据存储至与所述余值对应的数据库。
15.如权利要求13所述的系统,其特征在于,所述属性类别包括特定行为类;
特定行为类数据具有行为主体标识码;
所述存储子服务器集群,将同一属性类别的同步数据根据分配规则存入指定的数据库,具体用于:
当同步数据的属性类别为特定行为类时,选择特定行为类同步数据预存储规则;
根据特定行为类同步数据预存储规则,计算行为主体标识码所属的区间代码;
将特定行为类同步数据存储至与所述区间代码对应的数据库。
16.如权利要求10所述的系统,其特征在于,所述运算子服务器集群用于处理定向存储的所述同步数据,生成结果数据,具体用于:
筛选同步数据中满足第一条件的第一中间数据;
处理第一中间数据,生成结果数据。
17.如权利要求10所述的系统,其特征在于,所述运算子服务器集群包括本地节点服务器和公共节点服务器;
所述运算子服务器集群用于处理定向存储的所述同步数据,生成结果数据,具体用于:
本地节点服务器筛选本地的同步数据中满足第一条件的第一中间数据;
本地节点服务器汇总第一中间数据生成第二中间数据;
本地节点服务器向公共节点服务器发送第二中间数据;
公共节点服务器汇总第二中间数据生成结果数据。
18.如权利要求10所述的系统,其特征在于,所述采集子服务器集群还用于:
获取并向运算子服务器集群发送第二指令信息;
所述运算子服务器集群,用于接收第二指令信息,并根据第二指令信息处理定向存储的同步数据,生成结果数据。
CN201510656831.9A 2015-10-12 2015-10-12 分布式关系型数据库的数据处理方法及系统 Active CN106570029B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510656831.9A CN106570029B (zh) 2015-10-12 2015-10-12 分布式关系型数据库的数据处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510656831.9A CN106570029B (zh) 2015-10-12 2015-10-12 分布式关系型数据库的数据处理方法及系统

Publications (2)

Publication Number Publication Date
CN106570029A CN106570029A (zh) 2017-04-19
CN106570029B true CN106570029B (zh) 2021-01-12

Family

ID=58508150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510656831.9A Active CN106570029B (zh) 2015-10-12 2015-10-12 分布式关系型数据库的数据处理方法及系统

Country Status (1)

Country Link
CN (1) CN106570029B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309191B (zh) * 2018-04-08 2023-07-04 腾讯科技(深圳)有限公司 存储业务数据的方法、装置和系统
CN109062557A (zh) * 2018-06-23 2018-12-21 上海泽阳智能科技有限公司 一种实现相同目标的编程方法
CN110175159B (zh) * 2019-05-29 2020-07-31 京东数字科技控股有限公司 用于对象存储集群的数据同步方法与系统
CN111782733A (zh) * 2020-07-22 2020-10-16 支付宝(杭州)信息技术有限公司 多级数据汇总的方法、分布式数据管理系统及汇总数据管理系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101453792A (zh) * 2008-12-01 2009-06-10 飞拓无限信息技术(北京)有限公司 网络信息提供方法和装置
CN103064890A (zh) * 2012-12-11 2013-04-24 泉州豪杰信息科技发展有限公司 一种gps海量数据处理方法
CN103473276A (zh) * 2013-08-26 2013-12-25 广东电网公司电力调度控制中心 超大型数据存储方法、分布式数据库系统及其检索方法
CN103902230A (zh) * 2012-12-27 2014-07-02 中国移动通信集团公司 一种数据处理方法、设备和系统
CN104731827A (zh) * 2013-12-24 2015-06-24 重庆新媒农信科技有限公司 快速分布式文件系统文件元数据的生成方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101453792A (zh) * 2008-12-01 2009-06-10 飞拓无限信息技术(北京)有限公司 网络信息提供方法和装置
CN103064890A (zh) * 2012-12-11 2013-04-24 泉州豪杰信息科技发展有限公司 一种gps海量数据处理方法
CN103902230A (zh) * 2012-12-27 2014-07-02 中国移动通信集团公司 一种数据处理方法、设备和系统
CN103473276A (zh) * 2013-08-26 2013-12-25 广东电网公司电力调度控制中心 超大型数据存储方法、分布式数据库系统及其检索方法
CN104731827A (zh) * 2013-12-24 2015-06-24 重庆新媒农信科技有限公司 快速分布式文件系统文件元数据的生成方法及装置

Also Published As

Publication number Publication date
CN106570029A (zh) 2017-04-19

Similar Documents

Publication Publication Date Title
US10949447B2 (en) Blockchain-based data synchronizing and data block parsing method and device
CN106528787B (zh) 一种基于海量数据多维分析的查询方法及装置
CN106570029B (zh) 分布式关系型数据库的数据处理方法及系统
CN108959510B (zh) 一种分布式数据库的分区级连接方法和装置
TWI694700B (zh) 資料處理方法和裝置、用戶端
CN106897342B (zh) 一种数据校验方法和设备
CN111343241B (zh) 一种图数据更新方法、装置及系统
CN106547646B (zh) 一种数据备份及恢复方法、数据备份及恢复装置
CN110389989B (zh) 一种数据处理方法、装置及设备
TWI686703B (zh) 資料儲存與業務處理的方法及裝置
CN107818116B (zh) 用于确定用户行为区域位置信息的方法与设备
CN107832446B (zh) 一种配置项信息的搜索方法及计算设备
US20240004883A1 (en) Data ingestion with spatial and temporal locality
CN107451204B (zh) 一种数据查询方法、装置及设备
CN108234566B (zh) 一种集群的数据处理方法及装置
CN111857981A (zh) 一种数据处理方法以及装置
CN104598463A (zh) 用于切换数据库的方法和装置
WO2016169420A1 (zh) 一种业务请求执行状态的查询方法、装置及系统
CN110532243A (zh) 数据处理方法、装置和电子设备
CN108241624B (zh) 一种查询脚本的生成方法及装置
CN110532248B (zh) 一种基于cmdb的服务器应用信息获取及调整方法
Pandey et al. Influence of CAP theorem on big data analysis
CN110990378A (zh) 一种基于区块链的数据一致性对比方法及设备、介质
US10331627B2 (en) Method and system for unified technological stack management for relational databases
CN104239576A (zh) 查找HBase表列值中所有行的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200921

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200921

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

GR01 Patent grant
GR01 Patent grant