CN109597567B

CN109597567B - 一种数据处理方法和装置

Info

Publication number: CN109597567B
Application number: CN201710937871.XA
Authority: CN
Inventors: 郭金湖; 邹博引; 吴小云; 陈青龙
Original assignee: Wangsu Science and Technology Co Ltd
Current assignee: Wangsu Science and Technology Co Ltd
Priority date: 2017-09-30
Filing date: 2017-09-30
Publication date: 2022-03-08
Anticipated expiration: 2037-09-30
Also published as: CN109597567A

Abstract

本发明实施例涉及数据处理领域，尤其涉及一种数据处理方法和装置，用于现有技术中存在扩容时在集群内增加物理节点造成集群内数据迁移，进而用户存储数据和读取数据效率问题。本发明实施例中，适用于分布式分布式存储系统，分布式存储系统中包括多个集群，每个集群归属于至少一个虚拟组；方法包括：获取待存储数据的所属用户标识；根据待存储数据的所属用户标识，确定存储待存储数据的虚拟组；根据待存储数据的虚拟组的存储规则，确定存储待存储数据的目标存储集群；所述目标存储集群为所述多个集群中的一个；将待存储数据存入目标存储集群。由于本发明实施例中，虚拟组内增加或删减集群的方式实现扩容或缩容，避免集群内增删节点引起数据迁移。

Description

一种数据处理方法和装置

技术领域

本发明实施例涉及数据处理领域，尤其涉及一种数据处理方法和装置。

背景技术

分布式存储系统将数据分散存储于多个独立的物理服务器上，多个独立的理服务器分担系统中存储的数据的负荷。但是，采用现有技术的分布式存储系统，如果要进行扩容通常采用横向增加物理服务器的方式；为了维护分布式存储系统中存储结构的平衡，系统内部会自发将物理服务器上的其他物理服务器中的部分数据迁移至新增的物理服务器上。

而且，随着物理服务器的规模的扩大、某个物理服务器不可用、网络异常或者磁盘损坏等各类物理故障发生率高。在故障恢复后，系统内部亦会产生数据迁移，实现存储结构的平衡。但是在分布式存储系统内部进行数据迁移时，需要占用带宽、CPU等资源，因此会降低用户进行数据读取或者存储速率，即降低集群对外服务的质量。

发明内容

本发明实施例提供一种数据处理方法和装置，用以解决现有技术中存在扩容时在集群内增加物理节点造成集群内数据迁移，进而用户存储数据和读取数据效率问题。

本发明实施例提供一种数据处理方法，所述方法适用于分布式存储系统分布式存储系统，所述分布式存储系统中包括多个集群，每个集群归属于至少一个虚拟组；所述方法包括：获取待存储数据的所属用户标识；根据所述待存储数据的所属用户标识，确定存储所述待存储数据的虚拟组；根据所述待存储数据的虚拟组的存储规则，确定存储所述待存储数据的目标存储集群地址；将所述待存储数据存入所述目标存储集群地址对应的目标存储集群。

可选地，所述确定存储所述待存储数据的目标存储集群地址之后，还包括：获取所述待存储数据的数据标识；将所述待存储数据的数据标识、所述目标存储集群地址与所述待存储数据的属性信息存储至索引关系中；其中，所述索引关系包含集群字段，所述集群字段用于记录存储所述待存储数据的集群地址；针对任一所述待存储数据的数据标识，所述索引关系中包含的集群字段对应至少一个存储所述待存储数据的集群地址。

可选地，所述将所述待存储数据的数据标识、所述目标存储集群地址与所述待存储数据的属性信息存储至索引关系中，包括：所述索引关系包括多个索引条目；确定所述索引关系中是否包含第一索引条目，所述第一索引条目中的数据标识为所述待存储数据的数据标识，所述第一索引条目中记录的集群为所述目标存储集群地址；若存在，则确定存储请求是否为覆盖写；若所述存储请求为非覆盖写，则无需更新所述索引关系；若所述存储请求为覆盖写，则更新所述第一索引条目的属性信息为所述待存储数据的属性信息；若不存在，则在所述索引关系中增加第二索引条目，所述第二索引条目包括所述待存储数据的数据标识、所述目标存储集群地址与所述待存储数据的属性信息。

可选地，还包括：获取待读取数据的数据标识；从所述索引关系中确定所述待读取数据的数据标识对应的准目标访问集群地址；若所述准目标访问集群地址为多个，则根据所述准目标访问集群地址对应的所述待读取数据的存储时间顺序确定目标访问集群地址；若所述准目标访问集群为一个，则确定所述准目标访问集群地址为所述目标访问集群地址；从所述目标访问集群地址对应的目标访问集群中读取所述待读取数据。

可选地，若所述索引关系存在异常，则确定所述待读取数据的访问地址；根据所述待读取数据的访问地址，确定所述待读取数据的所属用户标识；根据所述待读取数据的所属用户标识，确定所述待读取数据所在的虚拟组；从所述待读取数据所在的虚拟组中查询所述待读取数据。

可选地，通过以下方式配置各虚拟组的存储规则：针对每个虚拟组，根据所述虚拟组内各集群的资源信息确定各集群存储数据的权重；根据所述各集群存储数据的权重确定所述虚拟组的存储规则；其中，集群存储数据的权重小于等于权重阈值时，禁止在该集群内存储非覆盖写的待存储数据。

可选地，还包括：监控所述虚拟组内每个集群是否发生故障；若发生故障，则将所述集群存储数据的权重调整成故障状态对应的权重，并禁止对所述集群中数据的读取和写入。

可选地，所述各集群内的物理节点的数量在预设数量范围内。

本发明实施例中提供了一种数据处理装置，适用于分布式存储系统分布式存储系统，所述分布式存储系统中包括多个集群，每个集群归属于至少一个虚拟组；所述装置包括：获取单元，用于获取待存储数据的所属用户标识；确定单元，用于根据所述待存储数据的所属用户标识，确定存储所述待存储数据的虚拟组；根据所述待存储数据的虚拟组的存储规则，确定存储所述待存储数据的目标存储集群地址；存储单元，用于将所述待存储数据存入所述目标存储集群地址对应的目标存储集群。

可选地，所述获取单元，还用于：获取所述待存数数据的数据标识；所述存储单元，用于将所述待存储数据的数据标识、所述目标存储集群地址与所述待存储数据的属性信息存储至索引关系中；其中，所述索引关系包含集群字段，所述集群字段用于记录存储所述待存储数据的集群地址；针对任一所述待存储数据的数据标识，所述索引关系中包含的集群字段对应至少一个存储所述待存储数据的集群地址。

可选地，所述索引关系包括多个索引条目；所述确定单元，还用于：确定所述索引关系中是否包含第一索引条目，所述第一索引条目中的数据标识为所述待存储数据的数据标识，所述第一索引条目中记录的集群为所述目标存储集群地址；若所述确定单元确定存在，则确定存储请求是否为覆盖写；若所述存储请求为非覆盖写，则所述存储单元无需更新所述索引关系；若所述存储请求为覆盖写，则所述存储单元更新所述第一索引条目的属性信息为所述待存储数据的属性信息；若所述确定单元确定不存在，所述存储单元在所述索引关系中增加第二索引条目，所述第二索引条目包括所述待存储数据的数据标识、所述目标存储集群地址与所述待存储数据的属性信息。

可选地，所述获取单元，还用于：获取待读取数据的数据标识；所述确定单元，还用于：从所述索引关系中确定所述待读取数据的数据标识对应的准目标访问集群地址；若所述准目标访问集群地址为多个，则根据所述准目标访问集群地址对应的所述待读取数据的存储时间顺序确定目标访问集群地址；若所述准目标访问集群地址为一个，则确定所述准目标访问集群地址为所述目标访问集群地址；读取单元，用于：从所述目标访问集群地址对应的目标访问集群中读取所述待读取数据。

可选地，所述确定单元，还用于在所述索引关系存在异常时，确定所述待读取数据的访问地址；根据所述待读取数据的访问地址，确定所述待读取数据的所属用户标识；根据所述待读取数据的所属用户标识，确定所述待读取数据所在的虚拟组；所述读取单元，还用于：从所述待读取数据所在的虚拟组中查询所述待读取数据。

可选地，所述装置还包括配置单元，所述配置单元通过以下方式配置各虚拟组的存储规则：针对每个虚拟组，根据所述虚拟组内各集群的资源信息确定各集群存储数据的权重；所述确定单元，还用于：根据所述各集群存储数据的权重确定所述虚拟组的存储规则；其中，集群存储数据的权重小于等于权重阈值时，禁止在该集群内存储非覆盖写的待存储数据。

可选地，所述系统还包括监控单元，所述监控单元，用于：监控所述虚拟组内每个集群是否发生故障；若发生故障，则将所述集群存储数据的权重调整成故障状态对应的权重，并禁止对所述集群中数据的读取和写入。

本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使所述计算机执行上述所述的方法。

本发明实施例提一种计算机设备，包括：存储器，用于存储程序指令；处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行上述所述的方法。

本发明实施例中，获取待存储数据的所属用户标识；根据所述待存储数据的所属用户标识，确定存储所述待存储数据的虚拟组；根据所述待存储数据的虚拟组的存储规则，确定存储所述待存储数据的目标存储集群地址；将所述待存储数据存入所述目标存储集群地址对应的目标存储集群。由于本发明实施例中，待存储数据有对应的用户标识，确定出待存储数据的虚拟组，每个虚拟组内又包括多个集群。因此，当待存储数据量增大或减小时，可以通过在虚拟组内增加集群或删减集群的方式实现扩容或者缩容，可以有效避免在集群内增删节点而引起的数据迁移从而造成存储待存储数据效率低的问题；进而，通过虚拟组的存储规则实现了在原本集群内部资源平衡的基础上可根据实际需求对待存储数据进行数据的存储分布。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种分布式存储系统架构示意图；

图2为本发明实施例提供的一种数据处理方法的方法流程示意图；

图3为本发明实施例提供的一种存储索引条目的方法流程示意图；

图4为本发明实施例提供的一种读取数据的方法流程示意图；

图5为本发明实施例提供的一种数据处理的分布式存储系统的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1示出了应用本发明实施例的一种分布式存储系统的架构示意图。如图1所示，分布式存储系统包括三层，业务层101、接口层102、存储后端103；其中，接口层102面向用户提供不同的接口，比如块存储接口、对象存储接口、文件系统接口；本发明实施例中主要针对业务层101和存储后端103进行说明。

存储后端103包括多个虚拟组，每个虚拟组中包括多个集群，每个集群归属于至少一个虚拟组中；本发明实施例中以3个虚拟组为例说明：虚拟组1、虚拟组2和虚拟组3；其中虚拟组1、2和3之间相互独立。其中，虚拟组1包括集群a₁、a₂、a₃……a_m；虚拟组2包括集群b₁、b₂、b₃……b_n；虚拟组3包括集群c₁、c₂、c₃……c_p；虚拟组1、虚拟组2、虚拟组3中集群的数量可以相等也可以不相等，集群a₁、a₂、a₃……a_m、b₁、b₂、b₃……b_n、c₁、c₂、c₃……c_p可以相同也可以不相同，一个集群可以同时属于多个虚拟组。

业务层101包括配置模块1011、监控模块1012、数据库1013；配置模块1011用于配置用户标识、虚拟组、集群之间的关系；一个用户标识对应一个虚拟组，一个虚拟组可以对应多个用户。本发明实施例中以用户标识A配置的虚拟组为虚拟组1，用户标识B和用户标识C配置的虚拟组为虚拟组2，用户标识C配置的虚拟组为虚拟组3为例说明。其中，虚拟组1包括集群a₁、a₂、a₃……a_m；虚拟组2包括集群b₁、b₂、b₃……b_n；虚拟组3包括集群c₁、c₂、c₃……c_p。监控模块1012用于监控虚拟组中集群的资源信息和健康状况等信息；根据监控模块监控获得的虚拟组中集群的情况，配置虚拟组内集群的权重。数据库1013用于存储配置模块配置的用户标识、虚拟组、集群之间的关系和待存储数据的数据标识、存储待存储数据的集群、待存储数据的属性信息之间的索引关系；该索引关系的便于用户快速读取待读取数据。

基于图1所示的系统架构，图2示例性示出了本发明实施例提供的一种数据处理方法的方法流程示意图，如图2所示，该数据处理的方法包括以下步骤：

步骤201，获取待存储数据的所属用户标识；

步骤202，根据待存储数据的所属用户标识，确定存储待存储数据的虚拟组；

步骤203，根据待存储数据的虚拟组的存储规则，确定存储待存储数据的目标存储集群地址；

步骤204，将待存储数据存入目标存储集群地址对应的目标集群。

由于本发明实施例中，待存储数据有对应的用户标识，确定出待存储数据的虚拟组，每个虚拟组内又包括多个集群。因此，当待存储数据量增大或减小时，可以通过在虚拟组内增加集群或删减集群的方式实现扩容或者缩容，可以有效避免在集群内增删节点而引起的数据迁移从而造成存储待存储数据效率低的问题；进而，通过虚拟组的存储规则实现了在原本集群内部资源平衡的基础上可根据实际需求对待存储数据进行数据的存储分布。

本发明实施例中，根据待存储数据的所属用户标识，确定存储待存储数据的虚拟组。可选地，即针对不同的用户，配置有不同的虚拟组。一个用户标识对应一个虚拟组，一个虚拟组中包多个集群。本发明实施例中虚拟组中集群的数量可以根据实际需要动态调整，虚拟组与用户标识之间的关系也可以根据实际情况进行动态调整。对于用户来说，与一个虚拟组对应，如果需要扩容，只需要在虚拟组内增加集群，但由于用户是与虚拟组对应的，因此，在虚拟组中增加集群，对用户是没有任何影响的，因此，可以灵活的将多个独立的集群规划到一个统一对用户的虚拟组中；如此，虚拟组内可以增加多个集群，多个集群可以存放在一个机房也可以存放在多个机房，对于用户来说没有影响，既可解决了现有技术中单机房导致的存储容量上限的问题，又满足了用户海量存储的需求，用户体验较好。

可选地，一个集群也可以同时属于多个虚拟组；便于实现集群资源的充分利用。比如，虚拟组1的读取数据的量较大，虚拟组1对IO并发能力要求较高；虚拟组2存储数据的量比较大，对磁盘的容量需求较大，某一集群可以既属于虚拟组1又同时属于虚拟组2，这样，可以充分利用该集群a的IO和磁盘容量提高了集群的资源利用率。

需要说明的是，在步骤203中，根据待存储数据的虚拟组的存储规则，确定存储所述待存储数据的目标存储集群时；其中，存储规则的确定需考虑到所述虚拟组内集群的状况，比如虚拟组内集群的资源信息、集群的健康状况等因素，确定出的目标存储集群为健康的且可以存储待存储数据的集群。

本发明实施例中可以通过以下方式配置各虚拟组的存储规则：针对每个虚拟组，根据所述虚拟组内各集群的资源信息确定各集群存储数据的权重；根据所述各集群存储数据的权重确定所述虚拟组的存储规则；其中，集群存储数据的权重小于等于权重阈值时，禁止在该集群内存储非覆盖写的待存储数据。

可选地，虚拟组内集群存储数据的权重也可以是根据需求人工配置也可以通过配置规则自动调整，以满足用户的需求。实现了在原本集群内部资源平衡的基础上进行人工控制数据存储的分布。当虚拟组中的集群存储数据的权重低于权重阈值时，禁止在该集群内存储非覆盖写的待存储数据、并发出告警；便于运维人员的调控和监视。本发明实施例中，虚拟组内各集群的资源信息包括硬盘类型、存取速度、网络带宽、剩余中央处理器CPU资源、剩余内存资源和剩余磁盘空间中的任意一项或任几项组合。比如虚拟组内每个集群存储数据的权重根据每个集群CPU资源来确定，在确定集群CPU资源大于第一阈值时，权重设置为A；确定集群CPU资源大于第二阈值小于第一阈值时，权重设置为B；其中，第一阈值大于第二阈值，权重A大于权重B。

为了便于方案的理解，本发明实施例以虚拟组1为例来说明配置虚拟组的存储规则。虚拟组1包括集群a、集群b、集群c；假设集群a的权重为0.5，集群b的权重为0.3，集群c的权重为0.2；根据所述各集群存储数据的权重确定所述虚拟组的存储规则，确定出的虚拟组的存储规则为前5个待存储数据存储在集群a中，再来的3个待存储数据存储在集群b中，再来的2个待存储数据存储在集群c中；如此循环存储待存储数据。

本发明实施例中，在确定待存储数据的存储规则的时候，根据的是虚拟组内集群存储数据的权重，虚拟组内集群存储数据的权重不是固定不变的，是可以根据集群的资源信息或者人工动态的调整的。本发明实施例中提供了一种确定虚拟组内集群的资源和状态的方法：实时或者周期性的监控各虚拟组内各集群的资源信息及集群的运行状态。当监控到虚拟组内某个集群发生故障时，将该发生故障的集群标识为故障集群，并发出告警，便于运维人员的修复。并将故障集群存储数据的权重调整成故障状态对应的权重，并禁止对所述集群中数据的读取和写入，以免故障集群占用连接数资源；若有覆盖写请求时，将覆盖写请求的待存储数据存储在其他集群中。

本发明实施例中，故障集群被修复后，更新索引关系中的该集群的地址字段，同时删除故障集群上的数据。可以是实时或周期性的对索引关系中条目进行更新，减少索引关系的复杂度，便于索引关系的维护。

可选地，集群存储数据的权重为零但是该集群为正常运行的集群；比如在根据集群资源信息配置虚拟组内集群存储数据的权重时，在确定虚拟组中某个集群没有用户可以使用的资源时，可以将该集群存储数据的权重调整为零，但是该集群的仍为正常集群，此时，可以对该集群内的数据进行读取，且可以在该集群内存储覆盖写的待存储数据。

可选地，监控所述虚拟组内每个集群是否发生故障；若发生故障，则将所述集群存储数据的权重调整成故障状态对应的权重，并禁止对所述集群中数据的读取和写入。本发明实施例中，监控虚拟组内的集群是否发生故障的方法可以是设置故障规则，当虚拟组内的集群满足该故障规则时，则认为该集群为发生故障的集群。故障规则可以为1分钟存储待存储数据的失败的次数大于阈值、或者监控到集群的某些指标不在预设范围内、或者触发了预设的故障信息等。

本发明实施例中，当用户向该分布式存储系统中存储待存储数据时，该分布式存储系统接收到存储待存储数据的请求后，确定该待存储数据所属的用户标识，根据待存储数据的所述所属标识，确定存储所述待存储数据的虚拟组，根据所述待存储数据的虚拟组的存储规则，确定存储所述待存储数据的目标存储集群地址。为了便于对存储的数据进行读取，需要对待存储数据的位置进行记录，即建立待存储数据和存储待存储数据存储的集群的索引关系。

可选地，本发明实施例中，在确定出待存储数据的目标存储集群地址后，获取所述待存数数据的数据标识；将所述待存储数据的数据标识、所述目标存储集群地址与所述待存储数据的属性信息存储至索引关系中。其中，所述索引关系包含集群字段，所述集群字段用于记录存储所述待存储数据的集群地址；针对任一所述待存储数据的数据标识，所述索引关系中包含的集群字段对应至少一个存储所述待存储数据的集群地址。所述索引关系包括多个索引条目；每个索引条目对应一个数据标识。具体地，图3示例性示出了本发明实施例提供的一种存储索引条目的方法流程示意图，如图3所示，存储索引条目的方法包括如下步骤：

步骤301，确定待存储数据的数据标识；

可选地，对待存储数据的数据名的进行HASH算法，获取所述待存储数据的唯一数据标识；

步骤302，根据确定出的待存储数据的数据标识确定索引关系中是否包含第一索引条目，第一索引条目中的数据标识为待存储数据的数据标识，第一索引条目中的集群为目标存储集群地址；若不存在，折执行步骤303，若存在，则执行步骤304；

可选地，所述索引关系可以在数据库中维护，以提高读取数据的效率和避免资源的浪费；

步骤303，在索引关系中增加第二索引条目，第二索引条目包括待存储数据的数据标识、目标存储集群与待存储数据的属性信息；

步骤304，确定存储请求是否为覆盖写；若为非覆盖写则无需更新索引关系；若为覆盖写，则执行步骤305；

步骤305，则更新所述第一索引条目的属性信息为所述待存储数据的属性信息。

本发明实施例中，确定出待存储数据的数据标识和待存储数据的目标存储集群地址后，确定所述索引关系中是否包含第一索引条目时，还包括，确定所述索引关系中包括待存储数据的数据标识，但是待存储数据的数据标识对应的集群地址不是索引关系中已有的目标存储集群地址，假设为新确定出的目标存储集群地址，此时，可以在该第一索引条目中集群字段的位置增加新确定出的目标存储集群地址，且该第一索引条目中增加了新确定出的目标集群地址后能标识出该新确定的目标集群地址是新增的集群地址，此时，在第一索引条目中的待存储数据的标识对应两个集群地址，已有索引关系中的目标存储集群地址和新确定出的目标存储集群地址，且记录了集群地址的存数时间的先后顺序；便于识别出已有索引关系中的目标存储集群地址是旧集群地址、新却确定出的目标存储集群地址是新集群地址。

可选地，所述索引关系和集群地址的写入做到同一个事务中，可避免索引关系和集群异常影响数据的一致性。

本发明实施例中，待存储数据在索引关系中记录成功后，存储在对应的目标存储集群中，当所述待存储数据在所述目标存储集群中存储成功后，则所述待存储数据存储成功；若在索引关系中记录成功，但在目标存储集群中存储失败，则所述待存储数据存储失败，返回存储失败的响应。

本发明实施例，分布式存储系统中存储的数据被访问时，首先获取该待读取数据的数据标识；获取待读取数据的数据标识；从所述索引关系中确定所述待读取数据的数据标识对应的准目标访问集群地址；若所述准目标访问集群地址为多个，则根据所述准目标访问集群地址对应的所述待读取数据的存储时间顺序确定目标访问集群地址；若所述准目标访问集群地址为一个，则确定所述准目标访问集群地址为所述目标访问集群地址，从所述目标访问集群地址对应的目标访问集群中读取所述待读取数据。

本发明实施例中，由于索引关系会被频繁的操作，因此，可能会出现索引关系异常的情况。若所述索引关系存在异常，则确定所述待读取数据的访问地址；根据所述待读取数据的访问地址，确定所述待读取数据的所属用户标识；根据所述待读取数据的所属用户标识，确定所述待读取数据所在的虚拟组；从所述待读取数据所在的虚拟组中查询所述待读取数据。

可选地，所述待读取数据的访问地址为域名，每个域名绑定到一个存储空间；每个存储空间对应一个用户标识，每个用户标识对应一个虚拟组；因此，根据所述待读取数据的访问地址可以确定出待读取数据所在的虚拟组。

可选地，从所述待读取数据所在的虚拟组中查询所述待读取数据具体包括：根据所述待读取数据所在的虚拟组的轮询机制，确定所述待读取数据所在的目标访问集群地址；读取待读取数据时，每个虚拟组中设置有一定的读取数据的规则，比如轮询机制，轮询机制可以按照集群存储数据的权重从大到小的顺序轮询，也可以按照集群的标识的顺序轮询，根据实际情况设置。

图4示例性示出了本发明实施例提供的一种读取数据的方法流程示意图，如图4所示，读取数据的方法步骤包括：

步骤401，获取待读取数据的数据标识；

步骤402，确定索引关系是否存在异常；若存在异常，执行步骤403,；若不存在异常，执行步骤407；

步骤403，确定待读取数据的访问地址；

步骤404，根据待读取数据的访问地址，确定待读取数据的所属用户标识；

步骤405，根据待读取数据的所属用户标识，确定待读取数据所在的虚拟组；

步骤406，从待读取数据所在的虚拟组中查询待读取数据；

可选地，在虚拟组内可以采用轮训机制查询待读取数据；

步骤407，从索引关系中确定待读取数据的数据标识对应的准目标访问集群地址；

可选地，所述目标存储集群地址与所述准目标访问集群地址可以为同一个集群，也可以为不同的集群；

步骤408，确定准目标访问集群地址是否为多个；若为一个，执行步骤409；若为多个，执行步骤410；

步骤409，确定准目标访问集群地址为目标访问集群地址；

步骤410，根据准目标访问集群地址对应的待读取数据的存储时间顺序确定目标访问集群地址；

可选地，根据待读取数据的索引关系中记录的集群地址的先后顺序确定目标访问集群；

步骤411，从目标访问集群地址对应的目标访问集群中读取待读取数据。

本发明实施例中，从索引关系中直接确定待读取数据的数据标识对应的准目标访问集群地址，可有效提高读取数据的效率；而且当索引关系异常时，可以通过待读取数据所属的用户标识，确定出待读取数据所在的虚拟组，在虚拟组内查询待读取数据，查询的范围是一个虚拟组，而不是整个存储后端，因此查询待读取数据的范围较小，进一步提高了读取数据的效率。

本发明实施例中，当某一虚拟组内某用户存储待存储数据的量突然增加时，可以动态的调整虚拟组内集群的数量，可以针对该用户所在的集群增加一个或多个集群，比如在第二虚拟组中增加了一个第三集群，调整增加所述第三集群的虚拟组内的各集群存储数据的权重。可选地，第三集群可以为新增加的一个集群，即分布式存储系统中目前没有；也可以是其它虚拟组中的某一集群，比如第三集群位于第一虚拟组，在确定第二虚拟组需要增加集群时，且第一虚拟组能满足预定需求，确定所述第三集群属于所述第二虚拟组。在第二虚拟组中增加了新的集群第三集群后，第三集群在第二虚拟组中的初始权重为零，待用户信息初始化成功后，调整第二虚拟组内各集群存储数据的权重，新增的第三级集群即可对外服务。通过本发明实施例中增加集群的方式实现扩容，可以避免现有技术中通过增加集群内节点的方式扩容带来数据迁移的问题。进而，通过虚拟组的存储规则实现了在原本集群内部资源平衡的基础上可根据实际需求对待存储数据进行数据的存储分布。

本发明实施例中，所述各集群内的物理节点的数量小于预设值，当某个集群中的物理节点挂掉后，由于各集群内的物理极节点的数量小于预设值，系统恢复该集群中物理节点的时间较端，且不会对用户存储待存储数据有严重的影响。

从上述内容可以看出：本发明实施例中，由于本发明实施例中，待存储数据有对应的用户标识，确定出待存储数据的虚拟组，每个虚拟组内又包括多个集群。因此，当待存储数据量增大或减小时，可以通过在虚拟组内增加集群或删减集群的方式实现扩容或者缩容，可以有效避免在集群增删节点而引起的数据迁移造成存储待存储数据效率低的问题；进而，通过虚拟组的存储规则实现了在原本集群内部资源平衡的基础上可根据实际需求对待存储数据进行数据的存储分布。

基于相同的技术构思，本发明实施例提供一种数据处理装置，适用于分布式存储系统，所述分布式存储系统中包括多个集群，每个集群归属于至少一个虚拟组；该装置可执行上述方法实施例。图5为本发明实施例提供了一种数据处理装置的结构示意图，如图5所示，该数据处理装置500包括获取单元501、确定单元502和存储单元503，还包括读取单元504、配置单元505和监控单元506。其中：

获取单元，用于获取待存储数据的所属用户标识；确定单元，用于根据所述待存储数据的所属用户标识，确定存储所述待存储数据的虚拟组；根据所述待存储数据的虚拟组的存储规则，确定存储所述待存储数据的目标存储集群地址；存储单元，用于将所述待存储数据存入所述目标存储集群地址对应的目标存储集群。

可选地，所述获取单元，还用于：获取所述待存数数据的数据标识；所述存储单元，还用于：将所述待存储数据的数据标识、所述目标存储集群地址与所述待存储数据的属性信息存储至索引关系中；其中，所述索引关系包含集群字段，所述集群字段用于记录存储所述待存储数据的集群地址；针对任一所述待存储数据的数据标识，所述索引关系中包含的集群字段对应至少一个存储所述待存储数据的集群地址。

从上述内容可以看出：本发明实施例中，由于本发明实施例中，待存储数据有对应的用户标识，确定出待存储数据的虚拟组，每个虚拟组内又包括多个集群。因此，当待存储数据量增大或减小时，可以通过在虚拟组内增加集群或删减集群的方式实现扩容或者缩容，可以有效避免在集群内增删节点而引起的数据迁移从而造成存储待存储数据效率低的问题；进而，通过虚拟组的存储规则实现了在原本集群内部资源平衡的基础上可根据实际需求对待存储数据进行数据的存储分布。

本领域内的技术人员应明白，本发明的实施例可提供为方法、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种数据处理方法，其特征在于，适用于分布式存储系统，所述分布式存储系统包括多个独立集群，每个集群归属于至少一个虚拟组；所述方法包括：

获取待存储数据的所属用户标识；

根据所述待存储数据的所属用户标识，确定存储所述待存储数据的虚拟组；

根据所述待存储数据的虚拟组的存储规则，确定存储所述待存储数据的目标存储集群地址；将所述待存储数据存入所述目标存储集群地址对应的目标存储集群；所述虚拟组的存储规则是基于所述虚拟组内各集群的存储状况确定出各集群存储数据的权重，并根据所述各集群存储数据的权重确定的。

2.如权利要求1所述的方法，其特征在于，所述确定存储所述待存储数据的目标存储集群地址之后，还包括：

获取所述待存储数据的数据标识；

将所述待存储数据的数据标识、所述目标存储集群地址与所述待存储数据的属性信息存储至索引关系中；其中，所述索引关系包含集群字段，所述集群字段用于记录存储所述待存储数据的集群地址；

针对任一所述待存储数据的数据标识，所述索引关系中包含的集群字段对应至少一个存储所述待存储数据的集群地址。

3.如权利要求2所述的方法，其特征在于，所述将所述待存储数据的数据标识、所述目标存储集群地址与所述待存储数据的属性信息存储至索引关系中，包括：

所述索引关系包括多个索引条目；

确定所述索引关系中是否包含第一索引条目，所述第一索引条目中的数据标识为所述待存储数据的数据标识，所述第一索引条目中记录的集群为所述目标存储集群地址；

若存在，则确定存储请求是否为覆盖写；若所述存储请求为非覆盖写，则无需更新所述索引关系；若所述存储请求为覆盖写，则更新所述第一索引条目的属性信息为所述待存储数据的属性信息；

若不存在，则在所述索引关系中增加第二索引条目，所述第二索引条目包括所述待存储数据的数据标识、所述目标存储集群地址与所述待存储数据的属性信息。

4.如权利要求2所述的方法，其特征在于，还包括：

获取待读取数据的数据标识；

从所述索引关系中确定所述待读取数据的数据标识对应的准目标访问集群地址；

若所述准目标访问集群地址为多个，则根据所述准目标访问集群地址对应的所述待读取数据的存储时间顺序确定目标访问集群地址；若所述准目标访问集群为一个，则确定所述准目标访问集群地址为所述目标访问集群地址；

从所述目标访问集群地址对应的目标访问集群中读取所述待读取数据。

5.如权利要求4所述的方法，其特征在于，若所述索引关系存在异常，则确定所述待读取数据的访问地址；

根据所述待读取数据的访问地址，确定所述待读取数据的所属用户标识；

根据所述待读取数据的所属用户标识，确定所述待读取数据所在的虚拟组；

从所述待读取数据所在的虚拟组中查询所述待读取数据。

6.如权利要求1所述的方法，其特征在于，通过以下方式配置各虚拟组的存储规则：

针对每个虚拟组，根据所述虚拟组内各集群的资源信息确定各集群存储数据的权重；根据所述各集群存储数据的权重确定所述虚拟组的存储规则；其中，集群存储数据的权重小于等于权重阈值时，禁止在该集群内存储非覆盖写的待存储数据。

7.如权利要求6所述的方法，其特征在于，还包括：监控所述虚拟组内每个集群是否发生故障；

若发生故障，则将所述集群存储数据的权重调整成故障状态对应的权重，并禁止对所述集群中数据的读取和写入。

8.如权利要求1至7任一项所述的方法，其特征在于，所述各集群内的物理节点的数量在预设数量范围内。

9.一种数据处理装置，其特征在于，适用于分布式存储系统，所述分布式存储系统中包括多个集群，每个集群归属于至少一个虚拟组；所述装置包括：

获取单元，用于获取待存储数据的所属用户标识；

确定单元，用于根据所述待存储数据的所属用户标识，确定存储所述待存储数据的虚拟组；根据所述待存储数据的虚拟组的存储规则，确定存储所述待存储数据的目标存储集群地址；所述虚拟组的存储规则是基于所述虚拟组内各集群的存储状况确定出各集群存储数据的权重，并根据所述各集群存储数据的权重确定的；

存储单元，用于将所述待存储数据存入所述目标存储集群地址对应的目标存储集群。

10.如权利要求9所述的装置，其特征在于，所述获取单元，还用于：获取所述待存储数据的数据标识；

所述存储单元，用于将所述待存储数据的数据标识、所述目标存储集群地址与所述待存储数据的属性信息存储至索引关系中；其中，所述索引关系包含集群字段，所述集群字段用于记录存储所述待存储数据的集群地址；针对任一所述待存储数据的数据标识，所述索引关系中包含的集群字段对应至少一个存储所述待存储数据的集群地址。

11.如权利要求10所述的装置，其特征在于，所述索引关系包括多个索引条目；

所述确定单元，还用于：确定所述索引关系中是否包含第一索引条目，所述第一索引条目中的数据标识为所述待存储数据的数据标识，所述第一索引条目中记录的集群为所述目标存储集群地址；

若所述确定单元确定存在，则确定存储请求是否为覆盖写；若所述存储请求为非覆盖写，则所述存储单元无需更新所述索引关系；若所述存储请求为覆盖写，则所述存储单元更新所述第一索引条目的属性信息为所述待存储数据的属性信息；

若所述确定单元确定不存在，所述存储单元在所述索引关系中增加第二索引条目，所述第二索引条目包括所述待存储数据的数据标识、所述目标存储集群地址与所述待存储数据的属性信息。

12.如权利要求10所述的装置，其特征在于，所述获取单元，还用于：获取待读取数据的数据标识；

所述确定单元，还用于：从所述索引关系中确定所述待读取数据的数据标识对应的准目标访问集群地址；若所述准目标访问集群地址为多个，则根据所述准目标访问集群地址对应的所述待读取数据的存储时间顺序确定目标访问集群地址；若所述准目标访问集群地址为一个，则确定所述准目标访问集群地址为所述目标访问集群地址；

读取单元，用于：从所述目标访问集群地址对应的目标访问集群中读取所述待读取数据。

13.如权利要求12所述的装置，其特征在于，所述确定单元，还用于在所述索引关系存在异常时，确定所述待读取数据的访问地址；根据所述待读取数据的访问地址，确定所述待读取数据的所属用户标识；根据所述待读取数据的所属用户标识，确定所述待读取数据所在的虚拟组；

所述读取单元，还用于：从所述待读取数据所在的虚拟组中查询所述待读取数据。

14.如权利要求9所述的装置，其特征在于，所述装置还包括配置单元，所述配置单元通过以下方式配置各虚拟组的存储规则：

针对每个虚拟组，根据所述虚拟组内各集群的资源信息确定各集群存储数据的权重；

所述确定单元，还用于：根据所述各集群存储数据的权重确定所述虚拟组的存储规则；其中，集群存储数据的权重小于等于权重阈值时，禁止在该集群内存储非覆盖写的待存储数据。

15.如权利要求14所述的装置，其特征在于，所述系统还包括监控单元，所述监控单元，用于：监控所述虚拟组内每个集群是否发生故障；若发生故障，则将所述集群存储数据的权重调整成故障状态对应的权重，并禁止对所述集群中数据的读取和写入。

16.如权利要求9至15任一项所述的装置，其特征在于，所述各集群内的物理节点的数量在预设数量范围内。

17.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使所述计算机执行权利要求1至8任一权利要求所述的方法。

18.一种计算机设备，其特征在于，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行如权利要求1至8任一权利要求所述的方法。