CN112925859A

CN112925859A - 数据存储方法和装置

Info

Publication number: CN112925859A
Application number: CN202110352541.0A
Authority: CN
Inventors: 郑阳; 龙礡涛; 张文豪; 高继威; 王将
Original assignee: China Construction Bank Corp
Current assignee: China Construction Bank Corp
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2021-06-08

Abstract

本发明公开了一种数据存储方法和装置，涉及大数据技术领域。该方法的一具体实施方式包括：获取多个待存储数据表，对多个待存储数据表进行分类，得到多个待存储表组；对于每一待存储表组，确定与待存储表组对应的目标数据库集群；确定所述待存储表组对应的路由策略，依据所述路由策略，将所述待存储表组中的待存储数据表存储至所述目标数据库集群中对应的分片上。该实施方式能够动态的对数据进行分类存储，结合垂直拆分与水平拆分的方式，将关系紧密的数据存储在一起，满足分布式存储的需求，同时满足多场景数据存储的复杂性的需求；减少了分布式事务，提高了分布式系统处理数据的性能。

Description

数据存储方法和装置

技术领域

本发明涉及大数据技术领域，尤其涉及一种数据存储方法和装置。

背景技术

随着金融业的飞速发展，银行间竞争也日趋激烈。为减少应用成本，各大银行已经把分布式的改造提上日程。而银行的交易系统，其特点是交易类型多，交易场景复杂，存储数据量庞大，数据集中存储于DB2数据库。目前系统内数据库表的数据量，最高可以达到百亿级，大部分数据量在千万到数十亿不等。在分布式存储的改造过程中，数据需要从DB2数据库迁移到基于开源或自研的数据库系统内。现有的集中存储策略受制于数据节点服务器的性能，无法满足交易的性能要求。分布式改造的做法是通过设立一个统一的分片键进行数据拆分，满足数据均匀分布以及多分片分布的要求。但是单纯地进行分片拆分，会造成如下问题：由于每个业务场景的流程、条件、数据结构都不尽相同，使用统一分片策略无法满足金融业务的复杂场景需求；使用统一的分片策略对现有系统的侵入较大，需要应用进行重构；5.跨多个表进行交易的场景下，所涉及的数据存储于不同分片会造成分布式事务，影响交易的性能。因此亟需一种大数据体量的情况下数据动态部署的方案，不受数据库类型的影响，满足金融的复杂交易场景并提高交易的性能。

发明内容

有鉴于此，本发明实施例提供一种数据存储方法和装置，能够动态的对数据进行分类存储，结合垂直拆分与水平拆分的方式，将关系紧密的数据存储在一起，满足分布式存储的需求，同时满足多场景数据存储的复杂性的需求；减少了分布式事务，提高了分布式系统处理数据的性能。

为实现上述目的，根据本发明实施例的一个方面，提供了一种数据存储方法，所述方法应用于分布式存储系统中，所述分布式存储系统包括多个数据库集群，每个所述数据库集群包括多个分片；所述方法包括：

获取多个待存储数据表，对所述多个待存储数据表进行分类，得到多个待存储表组，其中，每个待存储表组中至少包括一个所述待存储数据表；

对于每一待存储表组，确定与所述待存储表组对应的目标数据库集群；

确定所述待存储表组对应的路由策略，依据所述路由策略，将所述待存储表组中的待存储数据表存储至所述目标数据库集群中对应的分片上。

可选地，对所述多个待存储数据表进行分类包括：

对于每一待存储数据表，统计所述待存储数据表的操作信息；

根据所述操作信息，确定所述待存储数据表的类别。

可选地，所述操作信息包括以下一种或多种操作在单位时间内的操作次数：插入、删除、修改，查询和游标；

根据所述操作信息，确定所述待存储数据表的类别包括：

根据所述一种或多种操作在单位时间内的操作次数，确定所述待存储数据表的类别。

可选地，根据所述一种或多种操作在单位时间内的操作次数，确定所述待存储数据表的类别包括：

当所述查询操作的操作次数大于或等于第一阈值，且所述插入操作、删除操作、修改操作和游标操作的操作次数均小于或等于第二阈值时，所述待存储数据表的类别为查询类；

当所述插入操作的操作次数大于或等于第一阈值，且所述查询操作、删除操作、修改操作和游标操作的操作次数均小于或等于第二阈值时，所述待存储数据表的类别为插入类；

当所述查询操作、插入操作、删除操作、修改操作和游标操作的操作次数之间的差值小于或等于第三阈值时，所述待存储数据表的类别为更新类。

可选地，确定所述待存储表组对应的路由策略，依据所述路由策略，将所述待存储表组中的待存储数据表存储至所述目标数据库集群中对应的分片上包括：

若所述待存储表组的类别为查询类，则将所述待存储表组存储在所述目标数据库集群中的每一分片上；

若所述待存储表组的类别为插入类或更新类，则确定所述目标数据库集群的分片键设置规则，根据所述分片键设置规则，确定所述待存储表组中每一待存储数据表对应的分片，并将所述待存储数据表存储于其对应的分片上。

可选地，根据所述分片键设置规则，确定所述待存储表组中每一待存储数据表对应的分片包括：

从所述待存储表组的多个待存储数据表中确定主表，并将所述待存储表组中除所述主表的其他待存储数据表作为子表；

根据所述分片键设置规则，在所述目标数据库集群中确定与所述主表对应的目标分片；

从所述子表中确定与所述主表具有关联关系的目标子表，将所述目标分片作为与所述目标子表对应的分片。

可选地，从所述待存储表组的多个待存储数据表中确定主表包括：

确定所述待存储表组中各个待存储数据表之间的关联权重；

根据所述关联权重，从所述待存储表组的待存储数据表中确定主表。

可选地，根据所述分片键设置规则，在所述目标数据库集群中确定与所述主表对应的目标分片包括：

根据所述分片键设置规则，对所述主表的每一记录计算，以确定所述记录对应的目标分片；

将所述目标分片作为与所述目标子表对应的分片包括：对于所述目标子表的每一待存储记录，在所述主表中确定与所述待存储记录相关联的目标记录，将所述目标记录所在的目标分片作为所述待存储记录对应的分片。

可选地，所述方法还包括：将除所述目标子表的其他子表散列存储于所述目标数据库集群的分片上。

可选地，将除所述目标子表的其他子表散列存储于所述目标数据库集群的分片上包括：利用哈希算法计算所述其他子表的主键，得到哈希值；根据所述哈希值，确定所述其他子表对应的分片。

可选地，所述方法还包括：根据所述主表与所述目标子表的关联关系，生成关联信息拓扑图。

可选地，确定所述待存储表组中各个待存储数据表之间的关联权重包括：

从所述待存储表组中任意选取两个待存储数据表，将其中一个待存储数据表作为第一数据表，另一个待存储数据表作为第二数据表；

确定所述第一数据表和所述第二数据表是否在同一事务中进行修改；

若是，则统计所述事务的数量，将所述数量作为所述第一数据表和所述第二数据表的关联权重。

可选地，在获取多个待存储数据表之前，所述方法还包括：

对于每个所述数据库集群，确定所述数据库集群对应的分片键设置规则，根据所述分片键设置规则，确定所述数据库集群中每个分片的分片键，以使得所述分片键具有如下一种或多种特征：

所述分片键与存储在该分片上的数据所共有的数据项相关；

所述分片键与业务场景无关；

所述分片键的变化频率小于预设值。

为实现上述目的，根据本发明实施例的另一个方面，提供了一种数据存储装置，所述装置应用于分布式存储系统中，所述分布式存储系统包括多个数据库集群，每个所述数据库集群包括多个分片；所述方法包括：

分类模块，用于获取多个待存储数据表，对所述多个待存储数据表进行分类，得到多个待存储表组，其中，每个待存储表组中至少包括一个所述待存储数据表；

集群确定模块，用于对于每一待存储表组，确定与所述待存储表组对应的目标数据库集群；

分片确定模块，用于确定所述待存储表组对应的路由策略，依据所述路由策略，将所述待存储表组中的待存储数据表存储至所述目标数据库集群中对应的分片上。

可选地，所述装置还包括分片键设置模块，用于：

所述分片键与存储在该分片上的数据所共有的数据项相关；

所述分片键与业务场景无关；

所述分片键的变化频率小于预设值。

可选地，所述分类模块还用于：对于每一待存储数据表，统计所述待存储数据表的操作信息；根据所述操作信息，确定所述待存储数据表的类别。

所述分类模块还用于：根据所述一种或多种操作在单位时间内的操作次数，确定所述待存储数据表的类别。

可选地，所述分类模块还用于：当所述查询操作的操作次数大于或等于第一阈值，且所述插入操作、删除操作、修改操作和游标操作的操作次数均小于或等于第二阈值时，所述待存储数据表的类别为查询类；当所述插入操作的操作次数大于或等于第一阈值，且所述查询操作、删除操作、修改操作和游标操作的操作次数均小于或等于第二阈值时，所述待存储数据表的类别为插入类；当所述查询操作、插入操作、删除操作、修改操作和游标操作的操作次数之间的差值小于或等于第三阈值时，所述待存储数据表的类别为更新类。

可选地，所述分片确定模块还用于：

可选地，所述分片确定模块还用于：确定所述待存储表组中各个待存储数据表之间的关联权重；根据所述关联权重，从所述待存储表组的待存储数据表中确定主表。

可选地，所述分片确定模块还用于：

可选地，所述分片确定模块还用于：将除所述目标子表的其他子表散列存储于所述目标数据库集群的分片上。

可选地，所述分片确定模块还用于：利用哈希算法计算所述其他子表的主键，得到哈希值；根据所述哈希值，确定所述其他子表对应的分片。

可选地，所述装置还包括拓扑图生成模块，用于根据所述主表与所述目标子表的关联关系，生成关联信息拓扑图。

可选地，所述分片确定模块还用于：

为实现上述目的，根据本发明实施例的又一个方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明实施例的数据存储方法。

为实现上述目的，根据本发明实施例的再一个方面，提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明实施例的数据存储方法。

上述发明中的一个实施例具有如下优点或有益效果：通过获取多个待存储数据表，对所述多个待存储数据表进行分类，得到多个待存储表组，其中，每个待存储表组中至少包括一个所述待存储数据表；对于每一待存储表组，确定与所述待存储表组对应的目标数据库集群；确定所述待存储表组对应的路由策略，依据所述路由策略，将所述待存储表组中的待存储数据表存储至所述目标数据库集群中对应的分片上，能够动态的对数据进行分类存储，结合垂直拆分与水平拆分的方式，将关系紧密的数据存储在一起，满足分布式存储的需求，同时满足多场景数据存储的复杂性的需求；减少了分布式事务，提高了分布式系统处理数据的性能。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是本发明实施例的数据存储方法的主要流程的示意图；

图2是本发明实施例的分布式存储系统的架构示意图；

图3是本发明实施例的数据存储方法的子流程的示意图；

图4是本发明实施例的数据存储装置的主要模块的示意图；

图5是本发明实施例可以应用于其中的示例性系统架构图；

图6是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是本发明实施例的数据存储方法的主要步骤的流程示意图，如图1所示，该方法包括：

步骤S101：获取多个待存储数据表，对所述多个待存储数据表进行分类，得到多个待存储表组，其中，每个待存储表组中至少包括一个所述待存储数据表；

步骤S102：对于每一待存储表组，确定与所述待存储表组对应的目标数据库集群；

步骤S103：确定所述待存储表组对应的路由策略，依据所述路由策略，将所述待存储表组中的待存储数据表存储至所述目标数据库集群中对应的分片上。

本发明实施例的数据存储方法可以应用于分布式存储系统中。该分布式存储系统包括多个数据库集群，不同的数据库集群用于存储不同类型的数据。每个数据库集群包括多个分片，即每个数据库集群中包括多个数据库。每个分片都具有分片键，通过该分片键区分不同的分片。不同的分片存储的数据不同。本实施例的分布式存储系统先将数据库进行垂直拆分(即将数据库垂直拆分成多个数据库集群)，再进行水平拆分(将每个数据库集群拆分成多个分片)，使相关联数据部署在相同分片，减少分布式事务，显著提高分布式存储系统的性能。

在本发明实施例的方法中，在存储待存储的数据表之前，需要确定各个分片的分片键。作为可选的实施例，可以根据如下过程确定各个分片的分片键：

所述分片键与存储在该分片上的数据所共有的数据项相关；

所述分片键与业务场景无关；

所述分片键的变化频率小于预设值。

具体的，为了使分片键具有以上特征，在设置分片键时：尽量选择已有的数据列，且大部分数据表中都包含该列，即保证无需大规模的数据表变更结构，具体的，可以选择存储的数据表的某一列或将某一列进行计算(如哈希计算)得到的结果作为分片键；尽量选择无业务含义的字段，该字段的变化不会硬性业务，不会引起大规模的应用改造；尽量选择不受业务数据变化影响的字段，即变化不大，否则可能引起大规模数据迁移。因此，在本实施例中，可以根据数据表之间的关联列的字段生成分片键。对于银行业务系统的应用场景，数据表之间的关联列的字段一般是账号信息、银行卡号信息和客户编号信息。则，在设置分片键时可以根据账号信息对应的省行编号和账号对应的客户编号进行设置，也可以根据卡号对应的省行编号和卡号对应的客户编号进行设置，也可以根据客户编号对应的省行编号和客户编号进行设置。

在可选的实施例中，该分布式存储系统还可以包括应用路由集群，该应用路由集群用于存储分片键设置规则。该应用路由集群还可以存储数据的存储位置，即记录数据在数据库集群上的位置信息。该分布式存储系统采用二层架构，上层为应用路由集群，下层为数据库集群，该分布式存储系统通过应用路由集群存储不同的分片键设置规则(数据分片规则)，分片键设置规则的新增与变更也会动态反应在应用路由集群内，实现了数据动态存储，满足了多场景数据部署的复杂性。

作为具体的示例，如图2所示，该分布式存储系统包括应用路由集群和多个数据库集群，每个数据库集群包括多个分片，即每个数据库集群中包括多个数据库。每个分片都具有分片键，通过该分片键区分不同的分片。

在本实施例中，可以将数据库集群分类三类，分别用于存储查询类数据、插入类数据和更新类数据。其中，查询类数据是指属性为只读的数据，该类数据一般为参数类数据表，该类数据通常不修改或修改频率较低，数据表的存储位置不敏感，数据实时性不敏感，可跨数据源访问。插入类数据是指流水类数据表、明细类数据表，该类数据的体量大，增长量极大，有按时间清理的需求，数据通常不修改或修改频率较低，该类数据可以在事务外写入(即异步处理，该类数据的插入不会影响对应事务的提交或回滚)。更新类数据通常是信心类数据表，该类数据修改频率较高，数据表的存储位置敏感，数据变化时，可能要求其他表的数据更新同步提交或回滚。应用路由集群可以使用nosql(非关系型数据库)存储数据与所在集群的位置关系信息，可以用于路由至数据所在的分片。用户通过应用集群接入该分布式存储系统，通过应用路由集群获取路由信息，并路由至对应的分片。

本实施例的分布式存储系统，可以满足多场景数据部署的复杂性，同时可动态的进行数据重部署，可以应用于银行业务系统中。

在确定分布式存储系统的各个分片的分片键之后，就可以根据步骤S101-S103向该分布式存储系统中存储数据了。

对于步骤S101，在上述实施例中将数据库集群进行了分类，每一类数据库集群存储一种类型的数据。因此，在本步骤中需要对待存储数据表进行分类，以确定各个待存储数据表对应的数据库集群。

具体的，可以根据如下过程对待存储数据表进行分类：

对于每一待存储数据表，统计所述待存储数据表的操作信息；其中，所述操作信息包括以下一种或多种操作在单位时间内的操作次数：插入、删除、修改，查询和游标；

根据所述操作信息，确定所述待存储数据表的类别。即根据该一种或多种操作在单位时间内的操作次数，确定所述待存储数据表的类别。当所述查询操作的操作次数大于或等于第一阈值，且所述插入操作、删除操作、修改操作和游标操作的操作次数均小于或等于第二阈值时，所述待存储数据表的类别为查询类；当所述插入操作的操作次数大于或等于第一阈值，且所述查询操作、删除操作、修改操作和游标操作的操作次数均小于或等于第二阈值时，所述待存储数据表的类别为插入类；当所述查询操作、插入操作、删除操作、修改操作和游标操作的操作次数之间的差值小于或等于第三阈值时，所述待存储数据表的类别为更新类。其中，第一阈值、第二阈值和第三阈值可以根据应用场景灵活设置，本发明在此不做限制。作为示例，查询类的待存储数据表的查询操作的次数的量级大于其他操作的次数的量级；插入类的待存储数据表的插入操作的次数的量级大于其他操作的次数的；更新类的待存储数据表的各操作的次数不存在量级的差异。

对于步骤S102，属于查询类的待存储数据表存储于查询类的数据库集群中，属于插入类的待存储数据表存储于插入类的数据库集群中，属于更新类的待存储数据表存储于更新类的数据库集群中。

对于步骤S103，在确定待存储数据表对应的数据库集群之后，需要确定待存储数据表对应的分片。具体的，先确定每类待存储表组对应的路由策略，再依据该路由策略，将所述待存储表组中的待存储数据表存储至所述目标数据库集群中对应的分片上。

更具体的，若所述待存储表组的类别为查询类，则将所述待存储表组存储在所述目标数据库集群中的每一分片上。对于查询类的待存储数据表，由于该类数据表的主要使用场景为查询，单个存储节点(即单个数据库)即可满足全量数据的存储需求。因此，可以将该类待存储数据表存储于查询类的数据库集群中的任一分片上。为了分散单存储节点的查询压力，可以将该类待存储数据表存储在查询类的数据库集群中的每一分片上。在可选的实施例中，可以不需要确定查询类的待存储表组中的主表和子表，直接将该类的待存储数据表直接写入查询类的数据库集群中的所有分片上。

对于分布式存储系统，相同事务内跨片访问的场景越少，产生的分布式事务越少，系统处理数据的性能就越好。基于该前提，对于插入类和更新类的待存储数据表，本实施例采用了一种基于关联关系的数据存储模型，以将具有关联关系的待存储数据表存储于同一分片中。在该数据模型中，需要先确定待存储表组中的主表和子表(若待存储表组中只有一个待存储数据表，则该待存储数据表为主表)，然后确定主表对应的分片，并将该主表存储于该分片上，然后将与主表具有关联关系的目标子表存储于该分片上，其中，目标子表与主表具有相同的字段。对于与主表没有关联关系的子表，可以散列存储于该数据库集群中的任意分片上(该数据库集群是指主表对应的数据库集群)。

更具体的，可以根据待存储表组中各个待存储数据表之间的关联权重确定主表。其中，如图3所示，各个待存储数据表之间的关联权重可以根据如下过程确定：

步骤S301：从所述待存储表组中任意选取两个待存储数据表，将其中一个待存储数据表作为第一数据表，另一个待存储数据表作为第二数据表；

步骤S302：确定所述第一数据表和所述第二数据表是否在同一事务中进行修改；

步骤S303：若是，则统计所述事务的数量，将所述数量作为所述第一数据表和所述第二数据表的关联权重。

在本实施例中引入了一个可量化的指标，即数据表之间的关联权重Ω。Ω_ab表示数据表a和数据表b之间的关联权重。若数据表a和数据表b在N个事务中同时修改了，则数据表a和数据表b之间的关联权重为N，N为整数。

在得到各个待存储数据表之间的关联权重之后，可以统计各个待存储数据表与其他待存储数据表的关联权重的和，将与其他待存储数据表的关联权重的和最大的待存储数据表作为主表。

作为示例，假设存在5个待存储数据表，分别是数据表a、数据表b、数据表c、数据表d和数据表e，其之间的关联权重如下表1所示：

表1：

	a	b	c	d	e
						a	NA	2	3	5	4
b	2	NA	1	4	3
						c	3	1	NA	2	0
d	5	4	2	NA	1
						e	4	3	0	1	NA

由该表进行统计：数据表a与其他数据表之间的关联权重的和为14；数据表b与其他数据表之间的关联权重的和为10；数据表c与其他数据表之间的关联权重的和为6；数据表d与其他数据表之间的关联权重的和为12；数据表e与其他数据表之间的关联权重的和为8。数据表a与其他数据表之间的关联权重的和最大，则数据表a为主表，数据表b、数据表c、数据表d和数据表e为子表。

在确定主表和目标子表之后，先对所述主表的每一记录计算，以确定所述记录对应的目标分片，然后对所述目标子表的每一待存储记录，在所述主表中确定与所述待存储记录相关联的目标记录，将所述目标记录所在的目标分片作为所述待存储记录对应的分片，最后将除所述目标子表的其他子表散列存储于所述目标数据库集群的分片上。具体的，先确定主表对应的数据库集群的分片键设置规则，然后根据该分片键设置规则对主表的每一记录计算，以确定所述记录对应的目标分片。例如，假设目标子表与主表的相同的列的字段为账号信息，主表对应的分片键设置规则为根据账号信息对应的省行编号和账号对应的客户编号进行设置，则对于主表的每一记录，根据该记录中的账号信息对应的省行编号和账号信息对应的客户编号进行计算，计算结果记为目标分片的分片键。然后，对于目标子表的每一待存储记录，在主表中确定与待存储记录中的账号信息相同的目标记录，将所述目标记录所在的目标分片作为所述待存储记录对应的分片。

与主表没有关联关系的子表(即与主表没有关联列的子表)的使用场景较为冷门，强行和主表进行关联意义不大，因此这种表数据散列存储。因此对于除目标子表的其他子表(即与主表没有关联关系的子表，与主表没有关联列的子表)，可以根据如下过程散列于所述目标数据库集群的分片上：

利用哈希算法计算所述其他子表的主键，得到哈希值；

根据所述哈希值，确定所述其他子表对应的分片。

具体的，首先利用哈希算法计算其他子表中每条记录的主键，得到哈希值，假设该哈希值为7位数。然后，确定该哈希值落入的预先划分的区间对应的分片键，将该记录存储在该分片键对应的分片中。

在可选的实施例中，该方法还包括根据所述主表与所述目标子表的关联关系，生成关联信息拓扑图。具体的，可以统计相关主表、目标子表间的关联列(一般为账号信息，银行卡号信息，客户编号信息)根据关联列画出不同主表和目标子表间的拓扑图。拓扑图用来统计主表和目标子表间的关联关系信息，即相关联的列，根据拓扑图可以更确定主表的分片键生成规则。

本发明实施例的数据存储方法，通过获取多个待存储数据表，对所述多个待存储数据表进行分类，得到多个待存储表组，其中，每个待存储表组中至少包括一个所述待存储数据表；对于每一待存储表组，确定与所述待存储表组对应的目标数据库集群；确定所述待存储表组对应的路由策略，依据所述路由策略，将所述待存储表组中的待存储数据表存储至所述目标数据库集群中对应的分片上，能够动态的对数据进行分类存储，结合垂直拆分与水平拆分的方式，将关系紧密的数据存储在一起，满足分布式存储的需求，同时满足多场景数据存储的复杂性的需求；减少了分布式事务，提高了分布式系统处理数据的性能。

图4是本发明实施例的数据存储装置400的结构示意图，所述装置应用于分布式存储系统中，所述分布式存储系统包括多个数据库集群，每个所述数据库集群包括多个分片。如图4所示，该装置400包括：

分类模块401，用于获取多个待存储数据表，对所述多个待存储数据表进行分类，得到多个待存储表组，其中，每个待存储表组中至少包括一个所述待存储数据表；

集群确定模块402，用于对于每一待存储表组，确定与所述待存储表组对应的目标数据库集群；

分片确定模块403，用于确定所述待存储表组对应的路由策略，依据所述路由策略，将所述待存储表组中的待存储数据表存储至所述目标数据库集群中对应的分片上。

可选地，所述装置还包括分片键设置模块，用于：对于每个所述数据库集群，确定所述数据库集群对应的分片键设置规则，根据所述分片键设置规则，确定所述数据库集群中每个分片的分片键，以使得所述分片键具有如下一种或多种特征：所述分片键与存储在该分片上的数据所共有的数据项相关；所述分片键与业务场景无关；所述分片键的变化频率小于预设值。

可选地，所述分类模块401还用于：对于每一待存储数据表，统计所述待存储数据表的操作信息；根据所述操作信息，确定所述待存储数据表的类别。

所述分类模块401还用于：根据所述一种或多种操作在单位时间内的操作次数，确定所述待存储数据表的类别。

可选地，所述分类模块401还用于：当所述查询操作的操作次数大于或等于第一阈值，且所述插入操作、删除操作、修改操作和游标操作的操作次数均小于或等于第二阈值时，所述待存储数据表的类别为查询类；当所述插入操作的操作次数大于或等于第一阈值，且所述查询操作、删除操作、修改操作和游标操作的操作次数均小于或等于第二阈值时，所述待存储数据表的类别为插入类；当所述查询操作、插入操作、删除操作、修改操作和游标操作的操作次数之间的差值小于或等于第三阈值时，所述待存储数据表的类别为更新类。

可选地，所述分片确定模块403还用于：若所述待存储表组的类别为查询类，则将所述待存储表组存储在所述目标数据库集群中的每一分片上；若所述待存储表组的类别为插入类或更新类，则确定所述目标数据库集群的分片键设置规则，根据所述分片键设置规则，确定所述待存储表组中每一待存储数据表对应的分片，并将所述待存储数据表存储于其对应的分片上。

可选地，所述分片确定模块403还用于：从所述待存储表组的多个待存储数据表中确定主表，并将所述待存储表组中除所述主表的其他待存储数据表作为子表；根据所述分片键设置规则，在所述目标数据库集群中确定与所述主表对应的目标分片；从所述子表中确定与所述主表具有关联关系的目标子表，将所述目标分片作为与所述目标子表对应的分片。

可选地，所述分片确定模块403还用于：确定所述待存储表组中各个待存储数据表之间的关联权重；根据所述关联权重，从所述待存储表组的待存储数据表中确定主表。

可选地，所述分片确定模块403还用于：根据所述分片键设置规则，对所述主表的每一记录计算，以确定所述记录对应的目标分片；将所述目标分片作为与所述目标子表对应的分片包括：对于所述目标子表的每一待存储记录，在所述主表中确定与所述待存储记录相关联的目标记录，将所述目标记录所在的目标分片作为所述待存储记录对应的分片。

可选地，所述分片确定模块403还用于：将除所述目标子表的其他子表散列存储于所述目标数据库集群的分片上。

可选地，所述分片确定模块403还用于：利用哈希算法计算所述其他子表的主键，得到哈希值；根据所述哈希值，确定所述其他子表对应的分片。

可选地，所述分片确定模块403还用于：从所述待存储表组中任意选取两个待存储数据表，将其中一个待存储数据表作为第一数据表，另一个待存储数据表作为第二数据表；确定所述第一数据表和所述第二数据表是否在同一事务中进行修改；若是，则统计所述事务的数量，将所述数量作为所述第一数据表和所述第二数据表的关联权重。

本发明实施例的数据存储装置，通过获取多个待存储数据表，对所述多个待存储数据表进行分类，得到多个待存储表组，其中，每个待存储表组中至少包括一个所述待存储数据表；对于每一待存储表组，确定与所述待存储表组对应的目标数据库集群；确定所述待存储表组对应的路由策略，依据所述路由策略，将所述待存储表组中的待存储数据表存储至所述目标数据库集群中对应的分片上，能够动态的对数据进行分类存储，结合垂直拆分与水平拆分的方式，将关系紧密的数据存储在一起，满足分布式存储的需求，同时满足多场景数据存储的复杂性的需求；减少了分布式事务，提高了分布式系统处理数据的性能。

上述装置可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

图5示出了可以应用本发明实施例的数据存储方法或数据存储装置的示例性系统架构500。

如图5所示，系统架构500可以包括终端设备501、502、503，网络504和服务器505。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备501、502、503通过网络504与服务器505交互，以接收或发送消息等。终端设备501、502、503上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备501、502、503可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器505可以是提供各种服务的服务器，例如对用户利用终端设备501、502、503所浏览的购物类网站提供支持的后台管理服务器。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如目标推送信息、产品信息)反馈给终端设备。

需要说明的是，本发明实施例所提供的数据存储方法一般由服务器505执行，相应地，数据存储装置一般设置于服务器505中。

应该理解，图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图6，其示出了适于用来实现本发明实施例的终端设备的计算机系统600的结构示意图。图6示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到散列访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、散列访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括发送模块、获取模块、确定模块和第一处理模块。其中，这些模块的名称在某种情况下并不构成对该单元本身的限定，例如，发送模块还可以被描述为“向所连接的服务端发送图片获取请求的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：

当所述待存储表组中存在多个待存储数据表时，从所述待存储表组的多个待存储数据表中确定主表，并将所述待存储表组中除所述主表的其他待存储数据表作为子表；在所述目标数据库集群中确定与所述主表对应的目标分片，并将所述主表存储于所述目标分片中；从所述子表中确定与所述主表具有关联关系的目标子表，将所述目标子表存储在所述目标分片中

本发明实施例的技术方案，能够动态的对数据进行分类存储，结合垂直拆分与水平拆分的方式，将关系紧密的数据存储在一起，满足分布式存储的需求，同时满足多场景数据存储的复杂性的需求；减少了分布式事务，提高了分布式系统处理数据的性能。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种数据存储方法，其特征在于，所述方法应用于分布式存储系统中，所述分布式存储系统包括多个数据库集群，每个所述数据库集群包括多个分片；所述方法包括：

2.根据权利要求1所述的方法，其特征在于，对所述多个待存储数据表进行分类包括：

根据所述操作信息，确定所述待存储数据表的类别。

3.根据权利要求2所述的方法，其特征在于，所述操作信息包括以下一种或多种操作在单位时间内的操作次数：插入、删除、修改，查询和游标；

根据所述操作信息，确定所述待存储数据表的类别包括：

4.根据权利要求3所述的方法，其特征在于，根据所述一种或多种操作在单位时间内的操作次数，确定所述待存储数据表的类别包括：

5.根据权利要求4所述的方法，其特征在于，确定所述待存储表组对应的路由策略，依据所述路由策略，将所述待存储表组中的待存储数据表存储至所述目标数据库集群中对应的分片上包括：

6.根据权利要求5所述的方法，其特征在于，根据所述分片键设置规则，确定所述待存储表组中每一待存储数据表对应的分片包括：

从所述子表中确定与所述主表具有关联关系的目标子表，将所述目标分片作为与所述目标子表对应的分片，其中，所述目标子表与所述主表具有相同的列。

7.根据权利要求6所述的方法，其特征在于，从所述待存储表组的多个待存储数据表中确定主表包括：

确定所述待存储表组中各个待存储数据表之间的关联权重；

8.根据权利要求7所述的方法，其特征在于，根据所述分片键设置规则，在所述目标数据库集群中确定与所述主表对应的目标分片包括：

9.根据权利要求6所述的方法，其特征在于，所述方法还包括：

将除所述目标子表的其他子表散列存储于所述目标数据库集群的分片上。

10.根据权利要求9所述的方法，其特征在于，将除所述目标子表的其他子表散列存储于所述目标数据库集群的分片上包括：

利用哈希算法计算所述其他子表的主键，得到哈希值；

根据所述哈希值，确定所述其他子表对应的分片。

11.根据权利要求6所述的方法，其特征在于，所述方法还包括：

根据所述主表与所述目标子表的关联关系，生成关联信息拓扑图。

12.根据权利要求7所述的方法，其特征在于，确定所述待存储表组中各个待存储数据表之间的关联权重包括：

13.根据权利要求1所述的方法，其特征在于，在获取多个待存储数据表之前，所述方法还包括：

所述分片键与存储在该分片上的数据所共有的数据项相关；

所述分片键与业务场景无关；

所述分片键的变化频率小于预设值。

14.一种数据存储装置，其特征在于，所述装置应用于分布式存储系统中，所述分布式存储系统包括多个数据库集群，每个所述数据库集群包括多个分片；所述方法包括：

15.根据权利要求14所述的装置，其特征在于，所述装置还包括分片键设置模块，用于：

所述分片键与存储在该分片上的数据所共有的数据项相关；

所述分片键与业务场景无关；

所述分片键的变化频率小于预设值。

16.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-13中任一所述的方法。

17.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-13中任一所述的方法。