CN114281895B

CN114281895B - 支持远程拉取的多数据中心同步方法

Info

Publication number: CN114281895B
Application number: CN202111596972.8A
Authority: CN
Inventors: 吴春中; 张浩阳
Original assignee: Chengdu Sobey Digital Technology Co Ltd
Current assignee: Chengdu Sobey Digital Technology Co Ltd
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2023-12-08
Anticipated expiration: 2041-12-24
Also published as: CN114281895A

Abstract

本发明公开了一种支持远程拉取的多数据中心同步方法，属于时序数据库技术领域，包括步骤：在多数据中心之间进行数据同步时，依据用户SQL语句中所涉及的数据进行拉取，并以数据块为单位进行按需同步；并且，用户在进行降采样查询时，只同步相关统计信息，而不同步数据本身；在对数据进行压缩过程中，获取数据块时无需解码，传输至目标库后也无需再次编码。本发明尤其适合在带宽受限情况下的多数据中心同步，同步无需特殊的SQL语句，实现同步操作对用户无感，提升了同步效率。

Description

支持远程拉取的多数据中心同步方法

技术领域

本发明涉及时序数据库技术领域，更为具体的，涉及一种支持远程拉取的多数据中心同步方法。

背景技术

传统数据库如果希望从远端向本地同步数据，通常有两种方式：

(1)数据库集群：这种方式下集群中各数据库中数据需要保持实时同步，所以对网络带宽要求较高，在网络延迟较高的环境中，集群性能较低，容易出现大量的事务回滚。并且，同步方式不够灵活，即便本地用户只关心远端的少量数据，也必须同步整个数据库，造成存储资源浪费。

(2)远程查询+本地插入：这种方式是从远程表中查询数据，然后插入本地表。这种方式足够灵活，但是同步粒度又太细，结果集在传输过程中，面临组织和压缩的问题。不能充分发挥时序数据按照时间有序组织数据的优势。

发明内容

本发明的目的在于克服现有技术的不足，提供一种支持远程拉取的多数据中心同步方法，解决背景中提出的技术问题，尤其适合在带宽受限情况下的多数据中心同步，同步无需特殊的SQL语句，实现同步操作对用户无感，提升了同步效率等。

本发明的目的是通过以下方案实现的：

一种支持远程拉取的多数据中心同步方法，包括步骤：在多数据中心之间进行数据同步时，依据用户SQL语句中所涉及的数据进行拉取，并以数据块为单位进行按需同步；并且，用户在进行降采样查询时，只同步相关统计信息，而不同步数据本身；在对数据进行压缩过程中，获取数据块时无需解码，传输至目标库后也无需再次编码。

进一步地，包括子步骤：

S1，本地数据库接收同步SQL语句，分析语句，判断是否需要远程拉取数据，如需拉取数据，则将语句传至远程数据库，并对SQL语句进行再次判定后拉取相应数据；

S2，将所需同步的数据块，传输至本地数据库；

S3，重新构建数据块统计信息的上下级关系。

进一步地，在步骤S1中，包括子步骤：用户在本地数据库执行查询时，本地数据库会首先判断所查询的数据是否存在于本地数据库，如果存在则直接从本地数据库获取数据，如果不存在则以Data Page为单位向远程数据库发起数据同步并将对应层的数据块存放位置提前挪出。

进一步地，所述Data Page都组织成64K的数据块。

进一步地，在步骤S1中，所述需要拉取哪一层中的数据具体：如果语句为count(*)，则只需拉取Houre-Chunck层对应数据即可，无需拉取下层数据。

进一步地，在步骤S3中，远程数据库在收到远程同步请求后，会搜集这些数据块，搜集数据库块的过程实际就是顺序读取的过程。

进一步地，在步骤S3中，搜集完毕后，数据库会采用列存方式打包数据，打包成块后，直接传输回用户的本地数据库。

进一步地，在步骤S3中，包括子步骤：本地数据库在收到数据块后执行插入操作，并重新构建统计信息上下级关系。

进一步地，所述对SQL语句进行再次判定后拉取相应数据具包括子步骤：如SQL语句是做降采样查询，且时间颗粒度为Second-Chunk层或Minute-Chuck层或Hour-Chunk层的整数倍，则只需拉取远程数据库中对应层及其上层的数据；如果SQL语句是查询具体源数据，则需以data-page为单位，拉取远程数据库中的数据，并在本地数据库中提前挪出位置。

进一步地，所述本地数据库和远程数据库均根据时序数据本身自带顺序的特点，保留顺序写；并且按时间颗粒度进行统计信息分层，每一层之间直接访问，无需返回根节点或上层节点，所述统计信息按统一的数据块来进行管理。

本发明的有益效果是：

本发明实施例提供了以数据块为单位的按需同步策略，实现数据的按需同步，解决了带宽受限情况下数据同步的延迟问题，尤其适合在带宽受限情况下的多数据中心同步，同步无需特殊的SQL语句，实现同步操作对用户无感。

本发明实施例，可以极大减少同步量，提升同步效率。同时，在数据压缩环节，获取数据块时无需解码，传输至目标库后也无需再次编码，精简了数据传输过程，确保有限带宽下数据传输的性能，能够进一步提升同步效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的架构示意图；

图2为本发明方法的步骤流程图。

Data-page：原始数据层；

Second-Chunk：秒级层；

Minute-Chuck：分钟层；

Hour-Chunk：小时层；

partition：数据库会按照维度字段分为多个Partition，每个Partition中包含相同维度的不同数据；

Chunk：一个Partition分为多个Chunk，每一个Chunk都会记录相应时间范围内所有数据字段的范围及统计信息；

Root：每一个Hour-Chunk Block对应一条Root记录，即Root层管理着Hour-Chunk；

Tags：维度字段，用户在创建表时可以指定哪些字段为维度字段。

具体实施方式

本说明书中所有实施例公开的所有特征，或隐含公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合和/或扩展、替换。

下面根据附图1～图2，对本发明要解决的技术问题、技术构思、工作原理、工作过程和有益效果作进一步详细说明。

如图1～图2所示，一种支持远程拉取的多数据中心同步方法，针对背景技术中存在的问题，基于时序数据库引擎，至少解决如下两个问题：(1)多数据中心按需数据库同步的问题；(2)带宽受限情况下数据同步的延迟问题。

本发明实施例的方案包括：1)按需同步策略：依据用户SQL语句中所涉及的数据进行拉取，尤其用户在进行降采样查询时，只同步相关统计信息，而不同步数据本身，从而极大减少同步量，提升同步效率。2)数据压缩设计：为了进一步提升同步效率，获取数据块时无需解码，传输至目标库后也无需再次编码，精简数据传输过程，确保有限带宽下数据传输的性能。

对于用户而言，只是执行一个常规查询语句，数据库会自动判断是否需要进行数据同步，以及同步多少数据。在具体应用时，包括步骤：

步骤1：本地DB接收同步SQL语句，分析语句，判断是否需要远程拉取数据，如需拉取数据，则将语句传至远程数据库，判定需拉取哪一层中的数据，然后将对应层及其上层数据拉取至本地(如语句为count(*)则只需拉取Houre-Chunck层对应数据即可，无需拉取下层数据)；并且，将语句传至远程DB，获取对应数据块；

在该步骤1中，如图1所示：在三层中(Hour-Chunk层、Minute-Chuck层、Second-Chunk层)，假设同步的数据只需要Minute-Chuck层，那上层的Hour-Chunk层也需要同步，但root层(图1中未画出)就不需要了，因为root层本身就是用来管理Hour-Chunk层的，会自动产生，partition层(图1中未画出)也不需要，因为在拉取数据的时候，也必须是去同一个partition层拉取。

步骤2：将所需同步的数据块，传输至本地DB；

步骤3：重新构建数据块统计信息的上下级关系。

本发明的方案架构如图1～图2所示，用户在本地数据库执行查询时，数据库会首先判断所查询的数据是否存在于本地数据库，如果存在则直接从本地数据库获取数据，如果不存在则以Data Page为单位向远程数据库发起数据同步并将对应层的数据块存放位置提前挪出。Data Page都组织成64K的数据块，由于时序数据都是顺序写入且不存在修改和删除，所以不用像传统数据库那样需要在块中预留空间以备可能发生的数据更新，数据块具有极高的有效载荷。远端数据库在收到远程同步请求后，会搜集这些数据块，由于时序数据库始终数据是按照时间先后存放，所以数据块也是按照时间先后存放，搜集数据库块的过程实际就是顺序读取的过程，顺序读取的性能会非常高。搜集完毕后，数据库会采用列存方式打包数据，打包成块后，直接传输回用户的本地数据库，从而降低通信开销，提升同步效率。其他节点收到数据块后执行插入操作，并重新构建统计信息上下级关系。

实施例1：一种支持远程拉取的多数据中心同步方法，包括步骤：在多数据中心之间进行数据同步时，依据用户SQL语句中所涉及的数据进行拉取，并以数据块为单位进行按需同步；并且，用户在进行降采样查询时，只同步相关统计信息，而不同步数据本身；在对数据进行压缩过程中，获取数据块时无需解码，传输至目标库后也无需再次编码。

实施例2：在实施例1的基础上，包括子步骤：

S2，将所需同步的数据块，传输至本地数据库；

S3，重新构建数据块统计信息的上下级关系。

实施例3：在实施例2的基础上，在步骤S1中，包括子步骤：用户在本地数据库执行查询时，本地数据库会首先判断所查询的数据是否存在于本地数据库，如果存在则直接从本地数据库获取数据，如果不存在则以Data Page为单位向远程数据库发起数据同步并将对应层的数据块存放位置提前挪出。

实施例4：在实施例3的基础上，所述Data Page都组织成64K的数据块。

实施例5：在实施例2的基础上，在步骤S1中，所述需要拉取哪一层中的数据具体：如果语句为count(*)，则只需拉取Houre-Chunck层对应数据即可，无需拉取下层数据。

实施例6：在实施例2的基础上，在步骤S3中，远程数据库在收到远程同步请求后，会搜集这些数据块，搜集数据库块的过程实际就是顺序读取的过程。

实施例7：在实施例6的基础上，在步骤S3中，搜集完毕后，数据库会采用列存方式打包数据，打包成块后，直接传输回用户的本地数据库。

实施例8：在实施例1的基础上，在步骤S3中，包括子步骤：本地数据库在收到数据块后执行插入操作，并重新构建统计信息上下级关系。

实施例9：在实施例2的基础上，所述对SQL语句进行再次判定后拉取相应数据具包括子步骤：如SQL语句是做降采样查询，且时间颗粒度为Second-Chunk层或Minute-Chuck层或Hour-Chunk层的整数倍，则只需拉取远程数据库中对应层及其上层的数据；如果SQL语句是查询具体源数据，则需以data-page为单位，拉取远程数据库中的数据，并在本地数据库中提前挪出位置。

实施例10：在任一实施例2～9的基础上，所述本地数据库和远程数据库均根据时序数据本身自带顺序的特点，保留顺序写；并且按时间颗粒度进行统计信息分层，每一层之间直接访问，无需返回根节点或上层节点，所述统计信息按统一的数据块来进行管理。

本发明功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，在一台计算机设备(可以是个人计算机，服务器，或者网络设备等)以及相应的软件中执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、或者光盘等各种可以存储程序代码的介质，进行测试或者实际的数据在程序实现中存在于只读存储器(Random Access Memory，RAM)、随机存取存储器(Random Access Memory，RAM)等。

Claims

1.一种支持远程拉取的多数据中心同步方法，其特征在于，包括步骤：

在多数据中心之间进行数据同步时，依据用户SQL语句中所涉及的数据进行拉取，并以数据块为单位进行按需同步；并且，用户在进行降采样查询时，只同步相关统计信息，而不同步数据本身；在对数据进行压缩过程中，获取数据块时无需解码，传输至目标库后也无需再次编码；包括子步骤：

S2，将所需同步的数据块，传输至本地数据库；

S3，重新构建数据块统计信息的上下级关系；

所述对SQL语句进行再次判定后拉取相应数据具包括子步骤：如SQL语句是做降采样查询，且时间颗粒度为Second-Chunk层或Minute-Chunk层或Hour-Chunk层的整数倍，则只需拉取远程数据库中对应层及其上层的数据；如果SQL语句是查询具体源数据，则需以data-page为单位，拉取远程数据库中的数据，并在本地数据库中提前挪出位置；

所述本地数据库和远程数据库均根据时序数据本身自带顺序的特点，保留顺序写；并且按时间颗粒度进行统计信息分层，每一层之间直接访问，无需返回根节点或上层节点，所述统计信息按统一的数据块来进行管理。

2.根据权利要求1所述的支持远程拉取的多数据中心同步方法，其特征在于，在步骤S1中，包括子步骤：用户在本地数据库执行查询时，本地数据库会首先判断所查询的数据是否存在于本地数据库，如果存在则直接从本地数据库获取数据，如果不存在则以data-page为单位向远程数据库发起数据同步并将对应层的数据块存放位置提前挪出。

3.根据权利要求2所述的支持远程拉取的多数据中心同步方法，其特征在于，所述data-page都组织成64K的数据块。

4.根据权利要求1所述的支持远程拉取的多数据中心同步方法，其特征在于，在步骤S1中，需要拉取哪一层中的数据，具体：如果语句为count(*)，则只需拉取Hour-Chunk层对应数据即可，无需拉取下层数据。

5.根据权利要求1所述的支持远程拉取的多数据中心同步方法，其特征在于，在步骤S3中，远程数据库在收到远程同步请求后，会搜集这些数据块，搜集数据库块的过程实际就是顺序读取的过程。

6.根据权利要求5所述的支持远程拉取的多数据中心同步方法，其特征在于，在步骤S3中，搜集完毕后，数据库会采用列存方式打包数据，打包成块后，直接传输回用户的本地数据库。

7.根据权利要求1所述的支持远程拉取的多数据中心同步方法，其特征在于，在步骤S3中，包括子步骤：本地数据库在收到数据块后执行插入操作，并重新构建统计信息上下级关系。