CN109726250B

CN109726250B - 数据存储系统、元数据库同步及数据跨域计算方法

Info

Publication number: CN109726250B
Application number: CN201811614654.8A
Authority: CN
Inventors: 李光跃; 边雨; 刘汪根
Original assignee: Xinghuan Information Technology (shanghai) Co Ltd
Current assignee: Transwarp Technology Shanghai Co Ltd
Priority date: 2018-12-27
Filing date: 2018-12-27
Publication date: 2020-01-17
Anticipated expiration: 2038-12-27
Also published as: CN109726250A

Abstract

本发明公开了数据存储系统、元数据库同步及数据跨域计算方法。数据存储系统包括：至少两个数据中心，数据中心包括：访问层、编译层、计算层、存储层以及底层容器云平台；访问层，用于提供统一数据访问接口；编译节点，用于根据接收的SQL语句，查询元数据库，生成匹配的执行计划，根据执行计划将作业任务分配给计算节点执行；计算节点，用于根据作业任务，从所在数据中心的数据节点中获取数据进行计算，将计算结果发送至作为汇总节点的计算节点中；数据节点，用于存储数据；底层容器云平台，用于对同一数据中心的所有服务进行容器化管理。本发明实施例的技术方案在高质量提供跨域计算服务的同时，节约投入成本，并满足数据合规性需求。

Description

数据存储系统、元数据库同步及数据跨域计算方法

技术领域

本发明实施例涉及信息处理技术，尤其涉及一种数据存储系统、元数据库同步及数据跨域计算方法。

背景技术

随着数据量的日益增长以及业务的拓展需要，越来越多的企业开始部署自身的数据中心。因为一些特殊行业的需要，有时候需要联合多家企业或者组织的数据进行联合计算的需求，也就是说，需要解决跨数据中心的数据联合计算的问题。每个数据中心相当于是一个域，域内部的网络很快，但是域之间的网络相比于域内部的网络要慢很多且不稳定，所以在进行联合计算时，如果产生大量的网络开销，就会产生比较大的性能问题。

目前，市面上存在有强一致性、可扩展的全球分布式数据库，上述全球分布式数据库主要有两点缺陷，一个是需要高成本的投入，另一个是不满足数据合规性需求，数据合规性需求，也即某一数据中心中的数据不能外流至其他数据中心的要求。

产生第一个缺陷的原因是，为了满足性能可用的场景需求，需要将各个数据中心之间的延时降到非常低的标准，这必然需要对数据中心之间的网络有比较高的投入和优化；产生第二个缺陷的原因是，从业务层面考虑，在进行跨数据中心的计算时使用的可能不是同一家公司的数据中心，因为，所有数据中心同时使用同一个数据库的可能性比较小，而现有的全球分布式数据库都是通过多副本的方式实现就近计算的，也就是数据在写入的时候就会写到其他数据中心，因此这种方式是不满足数据合规性需求的。

发明内容

本发明实施例提供一种数据存储系统、元数据库同步及数据跨域计算方法，以实现在高质量提供跨域计算服务的同时，节约投入成本，并满足数据合规性需求。

第一方面，本发明实施例提供了一种数据存储系统，包括至少两个数据中心，不同数据中心之间建立有通信连接，每个数据中心包括：访问层、编译层、计算层、存储层以及底层容器云平台；

所述编译层包括元数据库以及至少一个编译节点，所述计算层包括至少三个计算节点，所述存储层包括至少三个数据节点；

所述访问层，用于向用户提供统一数据访问接口，通过统一数据访问接口接收SQL语句，并将所述SQL语句发送至所在数据中心的编译层；

所述元数据库，用于存储所述数据存储系统中全部数据节点所存储数据的元数据；

所述编译节点，用于根据接收的SQL语句，查询所在编译层中的元数据库，生成匹配的执行计划，并根据执行计划将作业任务分配给至少一个计算节点执行；其中，接收到所述作业任务的计算节点属于所述数据存储系统中相同或者不同的数据中心；

所述计算节点，用于根据接收的作业任务，从所在数据中心的数据节点中获取数据进行计算，并将计算结果直接或者间接发送至作为汇总节点的计算节点中，以使所述汇总节点生成与接收的计算结果匹配的数据计算汇总结果反馈至对应的统一数据访问接口；

所述数据节点，用于存储数据；所述底层容器云平台，用于对同一数据中心的所有服务进行容器化管理。

第二方面，本发明实施例还提供了一种元数据库同步方法，应用于如本发明任意实施例所述的数据存储系统中，包括：

在数据存储系统的全部元数据库中，确定主数据库以及从数据库，并建立各元数据库间的级联拓扑图，其中，所述数据存储系统中的各元数据库之间通过设定拓扑关系相连；

在检测到所述主数据库中完成数据写入操作后，阻塞所述主数据库的新数据写入，并根据所述级联拓扑图，完成所述从数据库对所述主数据库中的数据的主从复制。

第三方面，本发明实施例还提供了一种数据计算方法，应用于如本发明任意实施例所述的数据存储系统中，包括：

通过第一目标数据中心的目标访问层接收SQL语句，并将所述SQL语句发送至所述第一目标数据中心的目标编译层；

通过所述目标编译层中的目标编译节点根据接收的SQL语句，查询所在目标编译层中的元数据库，生成匹配的执行计划，并根据执行计划将作业任务分配给至少一个目标计算节点进行执行，其中，所述目标计算节点属于所述数据存储系统中相同或者不同的数据中心；

通过至少一个目标计算节点根据接收的作业任务，从目标计算节点所在数据中心的数据节点中获取数据进行计算，并将计算结果直接或者间接发送至作为汇总节点的计算节点中；

通过所述汇总节点生成与接收的计算结果匹配的数据计算汇总结果，反馈至所述目标访问层。

本发明实施例构建的数据存储系统仅对外界用户提供统一数据访问接口进行数据访问，对计算层以及编译层都进行了封装，并在每个数据中心(也可称为域)中均存储全域统一的元数据库，基于该元数据库可以根据SQL语句在全域中确定计算节点完成数据的查询并返回至统一数据访问接口。既满足了跨域计算对外透明的需求，又满足了不同数据中心之间数据合规性的需求。同时，本发明实施例还提供了一种基于上述数据存储系统的元数据库同步方法以及数据作业生成和调度方法，使得在进行跨域计算时，能够尽可能的提高性能。进而可以实现在数据跨域的场景下，使得网络开销达到最小，并最大化提高计算的性能。

附图说明

图1为本发明实施例一中的一种数据存储系统的结构图；

图2是本发明实施例二中的一种元数据库同步方法的流程图；

图3a是本发明实施例三中的一种元数据库同步方法的流程图；

图3b是本发明实施例三所适用的一种元数据库时延拓扑图的结构示意图；

图3c是本发明实施例三所适用的一种级联拓扑图的结构示意图；

图3d是本发明实施例三所适用的一种元数据库同步的结构示意图；

图3e是本发明实施例三所适用的一种加入新元数据库后级联拓扑图的变更示意图；

图3f是本发明实施例的元数据库同步方法的具体应用场景的实现流程图；

图4a是本发明实施例四中的一种数据跨域计算方法的流程图；

图4b是本发明实施例的数据跨域计算方法的具体应用场景的实现流程图；

图4c是本发明实施例的具体应用场景的SQL语句对应的数据分布图；

图4d是本发明实施例的具体应用场景的数据计算过程的执行流程图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的数据存储系统的结构图，如图1所示，所述数据存储系统包括：至少两个数据中心(作为示例而非限定，在图1中示出了三个数据中心，也即：数据中心A，110、数据中心B，120以及数据中心C，130)。

其中，不同数据中心之间建立有通信连接(例如，采用公网或者专网进行连接)。典型的，每个数据中心整体采用一个分布式的数据库系统。

每个数据中心(在图1中以数据中心A，110为例)包括：访问层1101、编译层1102、计算层1103、存储层1104以及底层容器云平台1105；

编译层1102包括元数据库11021以及至少一个编译节点11022(在图1中以三个编译节点作为示例)，计算层1103包括至少三个计算节点11031(在图1以三个计算节点作为示例)，存储层1104包括至少三个数据节点11041(在图1以三个数据节点作为示例)。

访问层1101，用于向用户提供统一数据访问接口11011，通过统一数据访问接口11011接收SQL语句，典型的，SQL(Structured Query Language，结构化查询语句)，并将所述SQL语句发送至所在数据中心110的编译层1102。

也即，如果数据中心B，120的访问层通过统计数据访问接口接收到用户发送的SQL语句，则会将上述SQL语句发送至数据中心B，120的编译层。在应用层的视野中，是不会感知下层数据节点存储的数据是分布在哪个数据中心的，也不会感知计算任务是如何分配和执行的，它只负责从统一数据访问接口中获取到相应的SQL语句。

其中，访问层1101主要用于提供对访问协议的支持，上述访问协议主要包括：Jdbc(java数据库连接)、ODBC(开放数据库互联)以及Thrift(一种软件框架，用来进行可扩展且跨语言的服务的开发)等。

元数据库11021，用于存储所述数据存储系统中全部数据节点所存储数据的元数据。

元数据(Metadata)，又称中介数据或者中继数据，为描述数据的数据(data aboutdata)，主要是描述数据属性(property)的信息，用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。在本实施例中，每个数据中心的编译层中均存储一个元数据库，该元数据库中存储有数据存储系统中全部的数据节点所存储数据的元数据。

在本实施例的一个可选的实施方式中，数据存储系统中的元数据库(与数据中心相匹配)中包括：一个主数据库，以及至少一个从数据库；所述数据存储系统中的各元数据库之间按照设定拓扑关系相连；所述主数据库为可写的元数据库，所述从数据库通过主从复制的方式，对所述主数据库中存储的信息进行同步。

其中，所述设定拓扑关系可以根据实际情况进行预设，典型的，可以设置为两两元数据库均相连的形式，也可以按照预设的级联形式保证任意两个元数据库可以通过一个或者多个作为中介元数据库间接相连即可，也即，上述拓扑关系在选择时以能够涵盖全部元数据库为宜。典型的，所述设定拓扑关系可以与元数据库同步时使用的级联拓扑图(后文会详细介绍)相匹配。

进一步的，为了实现主数据库以及从数据库的读写分离，主数据库设置为仅用来接收写请求，而不用来接收读请求；而从数据库设置为仅用来接收读请求，而不用来接收写请求。

也即：在该数据存储系统中，仅有一个数据中心中存储的元数据库为可写的元数据库，其他元数据库都采取主从级联复制的方式对该可写的元数据库中的数据进行同步。

可选的，编译层1102还可以包括：编译控制接口11023。

所述编译控制接口11023，用于接收所在访问层1101发送的SQL语句，并根据所在编译层1101中每个编译节点11022的负载情况，在所在编译层1101中确定目标编译节点，并将所述SQL语句发送至所述目标编译节点。

在一个具体的例子中，所述编译控制接口11023可以在所在编译层1101中选择当前负载最轻的一个编译节点作为对该SQL语句进行处理的目标编译节点。相应的，通过引入编译控制接口在编译节点中选择轻负载的编译节点的方式，可以进一步提高整个数据存储系统的处理及计算性能。

编译节点11022，用于根据接收的SQL语句，查询所在编译层1102中的元数据库11021，生成匹配的执行计划，并根据执行计划将作业任务分配给至少一个计算节点执行；其中，接收到所述作业任务的计算节点属于所述数据存储系统中相同或者不同的数据中心。

在本实施例中，编译节点可以根据SQL语句，查询所在编译层的元数据库，进而确定与SQL语句匹配的数据在各个数据中心的分布，进而使用对应数据中心的计算节点完成对相应数据的处理，以满足了不同数据中心之间数据合规性的需求。

计算节点11031，用于根据接收的作业任务，从所在数据中心110的数据节点11041中获取数据进行计算，并将计算结果直接或者间接发送至作为汇总节点的计算节点中，以使所述汇总节点生成与接收的计算结果匹配的数据计算汇总结果反馈至对应的统一数据访问接口11011。

其中，计算层1103由分布式计算引擎构成，在每个数据中心，存在着一个或多个计算节点集群，为了计算本地性的考虑，每个域的计算节点和数据节点之间都是1:1的关系，也即，在每个数据中心中，所述编译节点与所述数据节点一一对应，且编译节点，以及与编译节点对应的数据节点配置于同一服务器中。也就是当数据中心中存在同一数据的多副本时，计算节点会优先从本机的硬盘中(与计算节点一一对应的数据节点)去读取数据，以减少网络开销。

所述数据节点11041，用于存储数据；所述底层容器云平台1105，用于对同一数据中心的全部服务进行容器化管理。

其中，存储层1104主要构成为分布式存储系统，在每个数据中心，存在着一个或多个数据节点集群，他们之间相互构成联邦，彼此之间都知道对方的数据信息。数据以多副本的方式存储在存储层的每个数据节点当中。但是数据中心间的存储层之间相互是不感知的。在所述数据存储系统中，数据以多副本的方式存储于各数据中心的各数据节点中。

需要说明的是，本发明实施例的数据存储系统对每个数据中心的存储层采用的分布式存储系统没有强需求，不同数据中心可以采用相同或者不同的分布式存储系统，分布式存储系统可以采用HDFS(Hadoop分布式文件系统)，也可以采用其他任何形式的分布式存储系统，本实施例对此并不进行限制。

本发明实施例构建的数据存储系统仅对外界用户提供统一数据访问接口进行数据访问，对计算层以及编译层都进行了封装，并在每个数据中心(也可称为域)中均存储全域统一的元数据库，基于该元数据库可以根据SQL语句在全域中确定计算节点，完成数据的跨域计算并返回至统一数据访问接口。既满足了跨域计算对外透明的需求，又满足了不同数据中心之间数据合规性的需求。同时，本发明实施例还提供了一种基于上述数据存储系统的元数据库同步方法以及数据查询方法，使得在进行跨域计算时，能够尽可能的提高性能。进而可以实现在数据跨域的场景下，使得网络开销达到最小，并最大化提高计算的性能。

此外，通过本发明实施例提供的数据存储系统，可以将多个数据中心间的分布式数据库进行联合，对外形成一个整体。并能够通过一系列的算法和优化技术来调度计算任务和数据分布，并在一定程度上满足数据一致性的需求(后文会详细描述)。

在上述各实施例的基础上，所述主数据库所在数据中心的编译层还可以包括：与所述主数据库相连的第一从数据库；其余数据中心中存储的从数据库作为第二从数据库与所述第一从数据库相连；

所述第一从数据库，用于以主从复制的方式，对所述主数据库中存储的信息进行同步；所述第二从数据库，用于以主从复制的方式，对所述第一从数据库中存储的信息进行同步。

也即，主数据库(可写的元数据库)所在的数据中心除了存储该主数据库之外，还存储有一个与主数据库直接相连的第一从数据库，其余数据中心的元数据库作为第二从数据库与该第一从数据库相连，而不是直接与该主数据库直接相连。

这样设置的好处在于：保证了主数据库的读写分离，主数据库只负责写，如图1所示，在每个数据中心从编译层下发的对元数据的变更操作(一条SQL语句)都是写往主数据库的，这就要求主数据库需要有足够强的资源和性能来保证大量的写入，而主数据库所在的编译层去读取元数据时，可以从与该主数据库相连的从数据库中去读取的，这样的读写分离最大化的保证了主数据库的性能，以及各自的编译层和计算层去访问元数据库时的效率问题。

实施例二

图2为本发明实施例二提供的一种元数据库同步方法的流程图，本实施例可适用于对本发明实施例所述的数据存储系统中每个数据中心存储的元数据库进行数据同步的情况，该方法可以由本发明实施例提供的元数据库同步装置来执行，该装置可采用软件和/或硬件的方式实现，并一般可集成在数据存储系统中，由数据存储系统中的一个或者多个编译层执行，例如，由该数据存储系统中各个数据中心的编译层集成于的各个服务器配合执行。

如图2所示，本发明实施例的方法包括：

S210、在数据存储系统的全部元数据库中，确定主数据库以及从数据库，并建立各元数据库间的级联拓扑图，其中，所述数据存储系统中的各元数据库之间两两相连。

在本实施例中，数据存储系统中的元数据库(与数据中心相匹配)中包括：一个主数据库，以及至少一个从数据库；所述数据存储系统中的各元数据库之间两两相连；所述主数据库为可写的元数据库，所述从数据库通过主从复制的方式，对所述主数据库中存储的信息进行同步。

相应的，为了实现数据存储系统中各个元数据库的数据同步，需要在数据存储系统中的各个元数据库中识别确定出主数据库以及从数据库。其中，所述级联拓扑图中记录有各个元数据库(主数据库以及从数据库)的级联关系，上述级联拓扑图用于实现按照该级联拓扑图的级联顺序，将主数据库中的数据同步至从数据库中。

在一个具体例子中，数据存储系统中包括：元数据库A、元数据库B以及元数据库C，其中，元数据库A为主数据库，元数据库B以及元数据库C为从数据库。其中，级联拓扑图中记录了元数据库B与元数据库A直接相连，元数据库C与元数据库B直接相连。相应的，在元数据库A中的数据被更新后，首先由元数据库B按照主从复制的方式，完成对元数据库A中数据的同步，在元数据库B完成元数据的同步过程后，由元数据库C按照主从复制的方式，完成对元数据库B中数据的同步。

可选的，在确定主数据库以及从数据库时，可以根据各个数据中心的计算性能预先指定，例如，计算性能最好的数据中心用于存储该主数据库，其他数据中心用于存储从数据库。或者，还可以根据两两元数据库之间的通信时延，确定主数据库以及从数据库等，本实施例对此并不进行限制。

S220、在检测到所述主数据库中完成数据写入操作后，阻塞所述主数据库的新数据写入，并根据所述级联拓扑图，完成所述从数据库对所述主数据库中的数据的主从复制。

在本实施例中，在检测到所述主数据库中完成了一次数据写入操作后，需要将其他从数据库中的数据与主数据库中的数据进行同步。以保证数据的统一性。其中，所述数据写入操作包括：对元数据库中数据的添加、修改以及删除等。

本发明实施例的技术方案提供了一种针对本发明实施例的数据存储系统的全数据中心(或者说全域)统一的元数据库的同步方法，通过选定主数据库以及从数据库并相应建立级联拓扑图，可以实现在主数据库中的数据被更新后，从数据库能够快速响应，并准确高效的完成对主数据库中更新内容的同步，进一步保证了数据存储系统在进行跨域数据计算时的计算准确性，并进一步提高了整个数据存储系统的性能。

实施例三

图3a为本发明实施例三提供的一种元数据库同步方法的流程图，本实施例以上述实施例为基础进行优化，在本实施例中，将在数据存储系统的全部元数据库中，确定主数据库以及从数据库，并建立各元数据库间的级联拓扑图的操作进行具体化，相应的，本发明实施例的方法具体包括：

S310、在所述数据存储系统中包括的全部元数据库中，统计两两元数据库之间的通信时延。

在本实施例中，所述数据存储系统中包括的全部元数据库之间两两相连。相应的，可以通过在两两元数据库中间收发测试信息，以统计两两元数据库之间的通信时延。进而通过通信时延的不同统计值，在全部元数据库中确定出主数据库以及从数据库。

S320、以元数据库为顶点，通信时延为边，构建元数据库时延拓扑图。

在本实施例中，为了确定出主数据库，首先基于通信时延构建元数据库时延拓扑图。上述元数据库时延拓扑图用于指示两两元数据库之间的通信时延。

以A、B、C以及D四个元数据库为例来说明，首先计算四个元数据库之间的两两通信时延，得到通信时延计算结果：

A<->B：10ms，A<->C：20ms，A<->D：40ms，B<->C：30ms，B<->D：20ms，C<->D：30ms。

其中，表达式A<->B：10ms代表元数据库A到元数据库B的通信时延为10ms，元数据库B到元数据库A的通信时延为10ms。其余表达式与上述表达式代表的含义类似，这里不再进行赘述。

相应的，基于上述通信时延计算结果，在图3b中示出了本发明实施例三所适用的一种元数据库时延拓扑图的结构示意图。也即：以元数据库为顶点，通信时延为边，构建出如图3b所示的元数据库时延拓扑图。

S330、在所述元数据库时延拓扑图中，获取经过全部顶点且通信总时延最小的一条通路作为目标通路。

在本实施例中，通过遍历经过元数据库时延拓扑图的全部顶点的全部通路，并相应获取各个通路的通信总时延，可以最终获取经过全部顶点且通信总时延最小的一条通路作为目标通路。

如图3b所示，通路：A<->B<->D，A<->C，即为上述通信总时延最小的目标通路。

S340、在所述目标通路中，获取出度最高的一个顶点作为所述主数据库，并将除去所述主数据库之外的其他元数据库作为所述从数据库。

其中，出度以某顶点为弧尾，起始于该顶点的弧的数目称为该顶点的出度，在该目标通路中，一个顶点的出度越高，则以该顶点作为主数据库时，数据的主从复制的效率也就越高。相应的，可以在所述目标通路中，获取出度最高的一个顶点作为所述主数据库，并将除去所述主数据库之外的其他元数据库作为所述从数据库。

续前例，在目标通路：A<->B<->D，A<->C中，元数据库A的出度最高，则可以将元数据库A确定为主数据库，相应可以将元数据库B、C以及D作为从数据库。

S350、在所述主数据库所在的数据中心中，生成与所述主数据库相同的新的元数据库作为第一从数据库，所述第一从数据库与所述主数据库相连。

在本实施例中，为了实现主数据库的读写分离，以进一步提高对主数据库的访问效率，在本实施例中，进一步在主数据库所在的数据中心中，生成与所述主数据库相同的新的元数据库作为第一从数据库。

相应的，通过将第一从数据库与所述主数据库相连，并将与该主数据库相连的从数据库与主数据库之间的级联关系转接到第一从数据库上，在保证主从复制的性能不变的基础上，简单、便捷的实现主数据库的读写分离。

S360、在所述目标通路中，将所述主数据库替换为所述第一从数据库，并加入所述第一从数据库与所述主数据库之间的连接关系，以形成所述各元数据库间的级联拓扑图。

续前例，在选择元数据库A作为主数据库后，可以在元数据库A所在的数据中心(也可称为域)中启动一个新的元数据库A’，并将目标通路中各个节点的连接关系转移到元数据库A’，以形成所述各元数据库间的级联拓扑图。

相应的，在图3c中示出了本发明实施例三所适用的一种级联拓扑图的结构示意图。如图3c所示，按照级联排列，元数据库A’是元数据库A的从数据库，元数据库B是元数据库A’的从数据库，元数据库C是元数据库A’的从数据库，元数据库D是元数据库B的从数据库。上述级联拓扑图可以实现在主数据库A中的数据被更新后，其他从数据库基于该级联拓扑图中各个节点的连接顺序，完成对全部从数据库的数据更新。

其中，元数据库A’中存储的信息与元数据库A中存储的信息完全一致，且该元数据库A即为本发明实施例所述的第一从数据库。

S370、在检测到所述主数据库中完成数据写入操作后，阻塞所述主数据库的新数据写入，并根据所述级联拓扑图，完成所述从数据库对所述主数据库中的数据的主从复制。

可选的，根据所述级联拓扑图，完成所述从数据库对所述主数据库中的数据的主从复制的方式可以为：

完成所述第一从数据库对所述主数据库中的数据的主从复制；将所述第一从数据库作为数据复制源库，并在所述级联拓扑图中获取与所述数据复制源库级联的至少一个第二从数据库作为数据复制目的库；完成所述数据复制目的库对所述数据复制源库中的数据的主从复制；将各所述数据复制目的库作为新的数据复制源库后，返回执行在所述级联拓扑图中获取与所述数据复制源库级联的至少一个第二从数据库作为数据复制目的库的操作，直至完成对所述级联拓扑图中全部从数据库的主从复制。

在一个具体例子中，如图3c所示，在元数据库A中的存储的数据完成更新后，首先由与该元数据库A部署在同一数据中心的元数据库A’实现对元数据库A的主从复制，其中，将元数据库A与元数据库A’部署在同一服务器中时，两者的通信时延接近于0(Near 0)。在元数据库A’完成数据同步后，与该元数据库A’级联的元数据库B以及元数据库C分别完成对元数据库A’中的主从复制，最后，在元数据库B完成主从复制后，与该元数据库B级联的元数据库D完成对该元数据库B中的主从复制。

为了便于理解，在图3d中示出了一种元数据库同步的结构示意图。通过图3d可以明显的看出，配置在数据中心B上的主数据库(Master)实现了读写分离，各个数据中心的编译控制节点均可以向该主数据库中写入数据，但是在涉及到数据读取时，数据中心A以及数据中心C的编译控制节点从各自的第二从数据库(Slave)中读取数据，而数据中心B的编译控制节点从第一从数据库(Slave)中读取数据。

同时，仅仅数据中心B中配置的第一从数据库可以对该主数据库进行主从复制，其他数据中心(数据中心A以及数据中心C)中的第二从数据库均对该第一从数据库进行主从复制。

本发明实施例的技术方案通过根据数据存储系统中各个元数据库之间的通信时延确定主数据库以及从数据库，可以进一步提高整个数据存储系统的主从复制效率，此外，通过将选定的主数据库进行读写分离，可以最大化的保证主数据库的性能，并提高各个数据中心的编译层访问各自元数据库的效率。

在上述各实施例的基础上，在根据所述通信时延，建立各元数据库间的级联拓扑图之后，还可以包括：

如果检测针对新的数据中心的新元数据库加入请求，则检测所述主数据库当前是否存在数据写入操作；若是，则在所述主数据库完成数据写入操作后，阻塞所述主数据库的新数据写入，并根据所述级联拓扑图，完成所述从数据库对所述主数据库中的数据的主从复制；将所述新元数据库中存储的数据同步至所述主数据库中，并根据所述新元数据库与所述数据存储系统中各元数据库的通信时延，确定与所述新元数据库对应的级联元数据库；在所述级联拓扑图中，将所述新元数据库与所述级联元数据库相连，以形成新的级联拓扑图；根据所述新的级联拓扑图，完成所述从数据库对所述主数据库中的数据的主从复制。

在本实施例中，进一步给出了元数据库动态伸缩的实现方式。也即：在有新的数据中心加入数据存储系统后，需要将与该新的数据中心对应的新元数据库中存储的信息加入至主数据库中，同时，也需要将上述新元数据库加入至级联拓扑图中，以保证在主数据库进行数据更新后，后续主从复制的有效执行。

具体的，而当需要进行动态扩展时，这个时候为了稳定性考虑，不会重新计算主数据库，而是采用原来的主数据库。相应的，可以首先保证主数据库已经完全写完毕，之后开始阻塞编译层对主数据库的写入，然后等待主从复制完毕，将新加入的新元数据库的数据同步到主数据库，再然后计算新加入的元数据库和已有元数据库之间的时延并排序，选择最小的时延连接然后作为从数据库，进行主从复制，最终达到全局的元数据统一。

如前例，如果在图3b关联的四个数据中心的数据存储系统中，加入了一个新的数据中心，并引入了一个新元数据库E，通过计算元数据库E与各个现有元数据库之间的通信时延，确定计算得到的C<->E之间的时延最小，那么就选择E作为C的从数据库，相应形成的新的级联拓扑图如图3e所示。

其中，在图3f中示出了本发明实施例的元数据库同步方法的具体应用场景的实现流程图。如图3f所示，在具体应用场景中，元数据库同步方法共包括两个阶段，部署阶段和非部署阶段。在部署阶段，需要首先在各个域(数据中心)的各个元数据库中首先根据两两元数据库之间的通信时延确定出主数据库，之后基于计算得到的经过所有元数据库顶点且时延值和(节点间的通信总时延)最小的通路，并根据该通路中各个顶点的出度进行排序，最大出度的顶点即为主数据库，其他从数据库按照在该通路中的路径与主数据库进行级联排序后，可以进而在主数据库所在域中启动另一个从数据库，其他级联到主数据库的从数据库均级联到新启动的从数据库后，完成主数据库以及从数据库的部署。

在非部署阶段，在确定有新数据中心的新元数据库要加入时，首先等待主数据库写完毕，在确定其写完毕后，阻塞编译层的主数据库写入，并等待现有的其他从数据库对主数据库当前写入的内容完成主从复制。之后可以完成将新加入的新元数据库中的数据同步到主数据库，并相应将该新元数据库级联至现有的一个元数据库(可能为主数据库，也可能为其他现有从数据库)的后面，作为该元数据库的级联从数据库。

实施例四

图4a为本发明实施例四提供的一种数据跨域计算方法的流程图，本实施例可适用于基于本发明实施例所述的数据存储系统进行数据跨域计算的情况，特别的，进行跨数据中心的数据跨域计算的情况。该方法可以由本发明实施例提供的数据跨域计算装置来执行，该装置可采用软件和/或硬件的方式实现，并一般可集成在数据存储系统中，由数据存储系统各个参与数据跨域计算的数据中心配合执行。相应的，本发明实施例的方法可以包括：

S410、通过第一目标数据中心的目标访问层接收SQL语句，并将所述SQL语句发送至所述第一目标数据中心的目标编译层。

可选的，在通过第一目标数据中心的目标访问层接收SQL语句，将所述SQL语句发送至所述第一目标数据中心的目标编译层之后，还可以包括：

通过所述目标编译层中的目标编译控制接口根据所述目标编译层中每个编译节点的负载情况，在所述目标编译层中确定目标编译节点；通过所述编译控制接口将所述SQL语句发送至所述目标编译节点。

S420、通过所述目标编译层中的目标编译节点根据接收的SQL语句，查询所在目标编译层中的元数据库，生成匹配的执行计划，并根据执行计划将作业任务分配给至少一个目标计算节点进行执行。

其中，所述目标计算节点属于所述数据存储系统中相同或者不同的数据中心。

其中，通过所述目标编译层中的目标编译节点根据接收的SQL语句，查询所在目标编译层中的元数据库，生成匹配的执行计划，可以包括：

通过所述目标编译节点根据接收的SQL语句，查询所在目标编译层中的元数据库，获取与所述SQL语句关联的数据在各数据中心的数据节点上的分布状态；根据所述分布状态，生成所述执行计划。

可选的，通过至少一个目标计算节点根据接收的作业任务，从目标计算节点所在数据中心的数据节点中获取数据进行计算，可以包括：

通过所述目标计算节点根据所述SQL语句的发起时间以及所述作业任务，从目标计算节点所在数据中心的数据节点中，获取与所述发起时间匹配的数据版本号的数据进行计算；

其中，所述计算节点中存储的数据根据数据存储时间配置有数据版本号。

这样设置的原因是：数据跨域计算大多是分析性的需求，对于一致性的要求不高，因此本发明实施例中可以不要求数据的完全强一致。只会保证在与SQL语句对应的计算请求发起时的那一个时间切面的数据一致即可。为了实现上述效果，需要在存储层对存储的数据做了版本控制，也即，通过在存储层中的各个数据节点中存储的数据加入数据版本号实现。

相应的，针对每一次的接收到的SQL语句，都会按照数据版本号选择一个时间切面的最新的数据版本，这样保证了在这个时间切面上，数据是完全一致的，至于在计算过程中，数据发生了改变，产生了新的版本，也不会放在此次计算的考虑当中。相应的，可以进一步采用动态锁机制来保证数据在内存中或者读取过程中不被进行修改。

S430、通过至少一个目标计算节点根据接收的作业任务，从目标计算节点所在数据中心的数据节点中获取数据进行计算，并将计算结果直接或者间接发送至作为汇总节点的计算节点中。

可选的，通过至少一个目标计算节点将计算结果直接或者间接发送至作为汇总节点的计算节点中，可以包括：

通过各所述目标计算节点如果确定所述作业任务分配到至少两个第二目标数据中心的目标计算节点执行，则根据各所述目标计算节点的计算量，在各所述第二目标数据中心的目标计算节点中分别确定汇总中介节点；

通过各所述目标计算节点将计算结果发送至所在第二目标数据中心的所述汇总中介节点中；

通过各所述所述汇总中介节点统计对应的汇总数据量，并根据所述汇总数据量在各所述汇总中介节点中确定汇总节点；

通过各所述汇总中介节点将汇总中介数据发送至所述汇总节点。

S440、通过所述汇总节点生成与接收的计算结果匹配的数据计算汇总结果，反馈至所述目标访问层。

本发明实施例的技术方案通过采用通过第一目标数据中心的目标访问层接收SQL语句，并将所述SQL语句发送至所述第一目标数据中心的目标编译层；通过所述目标编译层中的目标编译节点根据接收的SQL语句，查询所在目标编译层中的元数据库，生成匹配的执行计划，并根据执行计划将作业任务分配给至少一个目标计算节点进行执行；通过目标计算节点根据接收的作业任务，从目标计算节点所在数据中心的数据节点中获取数据进行计算，并将计算结果直接或者间接发送至作为汇总节点的计算节点中；通过所述汇总节点生成与接收的计算结果匹配的数据计算汇总结果，反馈至所述目标访问层的技术手段，实现了一种基于数据存储系统的跨域计算模式，使得在进行跨域计算时，能够尽可能的提高性能。进而可以实现在数据跨域的场景下，使得网络开销达到最小，并最大化提高计算的性能。

在图4b中示出了本发明实施例的数据跨域计算方法的具体应用场景的实现流程图。在图4b中，所述应用层以及所述编译层，为接收到跨域计算SQL语句(SQL语句)的数据中心中的应用层以及所述编译层。所述计算层，为数据存储系统中全部参与对所述跨域计算SQL语句匹配的数据进行计算的计算层。

在本具体应用场景中，以一条跨域计算SQL语句为例，来解释编译层是如何解析SQL并根据数据状态去分配执行作业，以及在计算层得到中间结果时，又是如何进行数据的调整以及汇总计算并返回的。

作为示例而非限定，该跨域计算SQL语句如下：

SELECT a.name,COUNT(*)FROM db1.a JOIN db2.b ON a.id＝b.id GROUP BYa.name

其中，上述跨域计算SQL语句所查询的数据表db1和db2在数据节点中的数据分布信息如图4c所示。如图4c所示，数据表db1以多副本的方式分布在域A(数据中心A)中的数据节点A、数据节点B以及数据节点C中；数据表db2以多副本的方式分布在域B(数据中心B)中的数据节点D、数据节点E以及数据节点F中。上述数据表的数据分布信息分别存储在数据中心A以及数据中心B的编译层的元数据库中。

其中，在图4d中示出了针对图4c所示的数据分布的一种具体的数据计算的执行过程。

在图4d中，以数据标号代表了整个数据计算的执行顺序。

步骤1、域A内的数据中心A产生了一条SQL语句，并发送至域A内的统一数据访问接口；

步骤2、该SQL语句从统一数据访问接口发送至域A的编译层中的编译控制接口；

步骤3、该编译控制接口根据域A中编译层每个编译节点的负载信息，选择一个负载轻的编译节点，并向该编译节点发送SQL语句；

步骤4、编译节点收到该SQL语句后进行SQL编译工作：编译节点先访问域A编译层中存储的元数据库，获得db1.a和db2.b这两张表的数据分布信息，并掌握了这两张表分别处于域A和域B当中，因此编译节点匹配的执行计划，相应的，该SQL语句被编译成：

步骤5以及步骤6、通过解析执行计划可知：计算可以分别分配到域A以及域B中去并行的执行。其中，(SELECT COUNT(*)count,id,name FROM db1.a GROUP BY id,name)ASa被分配到了域A的计算节点A、B以及C上执行，三个计算节点分别从对应的三个数据节点A、B以及C中去读取数据，通过MAP操作将计算均分到三个计算节点中执行。最终可以在选定的计算节点C(随机指定或者根据负载量指定)上进行汇总。

此外，(SELECT COUNT(*)count,id FROM db2.b GROUP BY id)AS b被分配到了域B中计算节点D，E以及F上执行。其中，计算节点D与数据节点D配置在一台服务器中，计算节点E与数据节点E配置在一台服务器中，计算节点F与数据节点F配置在一台服务器中。因为只有对应的数据节点D，E，F上拥有db2.b表的数据，为了尽可能的采用本地计算，降低网络开销，所以选择计算节点D，E以及F。同理，上述计算完后将会将数据集中在计算节点D(随机指定或者根据负载量指定)上。

步骤7、在本步骤中，将会再次进行数据的分析过程，在计算节点C以及计算节点D中分别分析在计算节点C以及计算节点D上产生的两个计算的中间结果的数据量，在本应用场景中，假设在域A中计算的中间结果较少，因此选择将A中的中间结果拷贝到计算节点D中，再次进行JOIN和GROUP BY计算，得到最终结果；

步骤8、因为是在域A中发起针对SQL语句的计算请求，最终结果还需要从域B中返回到域A的接口层中的统一数据访问接口并返回到应用A中；

进一步的，在步骤8之后还可以包括步骤9(图中未示出)、数据计算中间结果的回收，增加上述操作既可以保证合规性要求，又保证了不浪费资源。

通过上述具体应用场景可以看出，本发明的解决的技术问题就是在数据跨域的场景下，如何智能的进行数据调整以及计算作业调度，使得网络开销达到最小，最大化提高计算的性能。本方案对于数据的强一致性没有特别高的要求，因此在本身的性能上会比以上三种数据库要快很多。本发明实施例中所涉及的访问层，编译层，计算层以及存储层均能够进行动态伸缩，并保证全局统一。最后，本发明实施例的技术方案设计了一套高性能的元数据库访问和同步方法以及基于数据分布和网络流速的作业优化和调度策略，使得在进行跨域计算时，能够尽可能的提高性能。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种数据存储系统，其特征在于，包括至少两个数据中心，不同数据中心之间建立有通信连接，每个数据中心包括：访问层、编译层、计算层、存储层以及底层容器云平台；

所述数据节点，用于存储数据；所述底层容器云平台，用于对同一数据中心的所有服务进行容器化管理；

其中，所述编译层还包括：编译控制接口；

所述编译控制接口，用于接收所在访问层发送的SQL语句，并根据所在编译层中每个编译节点的负载情况，在所在编译层中确定目标编译节点，并将所述SQL语句发送至所述目标编译节点。

2.根据权利要求1所述的数据存储系统，其特征在于，所述数据存储系统中的元数据库中包括：一个主数据库，以及至少一个从数据库；所述数据存储系统中的各元数据库之间按照设定拓扑关系相连；

所述主数据库为可写的元数据库，所述从数据库通过主从复制的方式，对所述主数据库中存储的信息进行同步。

3.根据权利要求2所述的数据存储系统，其特征在于，所述主数据库所在数据中心的编译层还包括：与所述主数据库相连的第一从数据库；其余数据中心中存储的从数据库作为第二从数据库与所述第一从数据库相连；

所述第一从数据库，用于以主从复制的方式，对所述主数据库中存储的信息进行同步；

所述第二从数据库，用于以主从复制的方式，对所述第一从数据库中存储的信息进行同步。

4.根据权利要求1-3任一项所述的数据存储系统，其特征在于：

在每个数据中心中，所述编译节点与所述数据节点一一对应，且编译节点，以及与编译节点对应的数据节点配置于同一服务器中；和/或，

在所述数据存储系统中，数据以多副本的方式存储于各数据中心的各数据节点中。

5.一种元数据库同步方法，应用于如权利要求1-4任一项所述的数据存储系统中，其特征在于，包括：

在数据存储系统的全部元数据库中，确定主数据库以及从数据库，并建立各元数据库间的级联拓扑图，其中，所述数据存储系统中的各元数据库之间按照设定拓扑关系相连；

6.根据权利要求5所述的方法，其特征在于，在数据存储系统的全部元数据库中，确定主数据库以及从数据库，包括：

在所述数据存储系统中包括的全部元数据库中，统计两两元数据库之间的通信时延；

以元数据库为顶点，通信时延为边，构建元数据库时延拓扑图；

在所述元数据库时延拓扑图中，获取经过全部顶点且通信总时延最小的一条通路作为目标通路；

在所述目标通路中，获取出度最高的一个顶点作为所述主数据库，并将除去所述主数据库之外的其他元数据库作为所述从数据库。

7.根据权利要求6所述的方法，其特征在于，建立各元数据库间的级联拓扑图，包括：

在所述主数据库所在的数据中心中，生成与所述主数据库相同的新的元数据库作为第一从数据库，所述第一从数据库与所述主数据库相连；

在所述目标通路中，将所述主数据库替换为所述第一从数据库，并加入所述第一从数据库与所述主数据库之间的连接关系，以形成所述各元数据库间的级联拓扑图。

8.根据权利要求6-7任一项所述的方法，其特征在于，在根据所述通信时延，建立各元数据库间的级联拓扑图之后，还包括：

如果检测针对新的数据中心的新元数据库加入请求，则检测所述主数据库当前是否存在数据写入操作；

若是，则在所述主数据库完成数据写入操作后，阻塞所述主数据库的新数据写入，并根据所述级联拓扑图，完成所述从数据库对所述主数据库中的数据的主从复制；

将所述新元数据库中存储的数据同步至所述主数据库中，并根据所述新元数据库与所述数据存储系统中各元数据库的通信时延，确定与所述新元数据库对应的级联元数据库；

在所述级联拓扑图中，将所述新元数据库与所述级联元数据库相连，以形成新的级联拓扑图；

根据所述新的级联拓扑图，完成所述从数据库对所述主数据库中的数据的主从复制。

9.根据权利要求7所述的方法，其特征在于，根据所述级联拓扑图，完成所述从数据库对所述主数据库中的数据的主从复制，包括：

完成所述第一从数据库对所述主数据库中的数据的主从复制；

将所述第一从数据库作为数据复制源库，并在所述级联拓扑图中获取与所述数据复制源库级联的至少一个第二从数据库作为数据复制目的库；

完成所述数据复制目的库对所述数据复制源库中的数据的主从复制；

将各所述数据复制目的库作为新的数据复制源库后，返回执行在所述级联拓扑图中获取与所述数据复制源库级联的至少一个第二从数据库作为数据复制目的库的操作，直至完成对所述级联拓扑图中全部从数据库的主从复制。

10.一种数据跨域计算方法，应用于如权利要求1-4任一项所述的数据存储系统中，其特征在于，包括：

11.根据权利要求10所述的方法，其特征在于，在通过第一目标数据中心的目标访问层接收SQL语句，并将所述SQL语句发送至所述目标数据中心的目标编译层之后，还包括：

通过所述目标编译层中的目标编译控制接口根据所述目标编译层中每个编译节点的负载情况，在所述目标编译层中确定目标编译节点；

通过所述编译控制接口将所述SQL语句发送至所述目标编译节点。

12.根据权利要求10所述的方法，其特征在于，通过所述目标编译层中的目标编译节点根据接收的SQL语句，查询所在目标编译层中的元数据库，生成匹配的执行计划，包括：

通过所述目标编译节点根据接收的SQL语句，查询所在目标编译层中的元数据库，获取与所述SQL语句关联的数据在各数据中心的数据节点上的分布状态；

根据所述分布状态，生成所述执行计划。

13.根据权利要求10所述的方法，其特征在于，通过至少一个目标计算节点根据接收的作业任务，从目标计算节点所在数据中心的数据节点中获取数据进行计算，包括：

14.根据权利要求10所述的方法，其特征在于，通过至少一个目标计算节点将计算结果直接或者间接发送至作为汇总节点的计算节点中，包括：