CN113946274A

CN113946274A - 数据处理方法、装置、设备及介质

Info

Publication number: CN113946274A
Application number: CN202010681909.3A
Authority: CN
Inventors: 石岩
Original assignee: Zhejiang Uniview Technologies Co Ltd
Current assignee: Zhejiang Uniview Technologies Co Ltd
Priority date: 2020-07-15
Filing date: 2020-07-15
Publication date: 2022-01-18
Anticipated expiration: 2040-07-15
Also published as: CN113946274B

Abstract

本发明实施例公开了一种数据处理方法、装置、设备及介质。所述方法包括：确定不同对象大小的目标数据对象在存储空间的占比信息；目标数据对象包括需要进行数据迁移及修复的数据对象；依据不同对象大小的目标数据对象在存储空间的占比信息，确定在目标数据处理周期参与数据迁移或修复的目标数据对象的目标参与个数；依据目标参与个数确定目标数据处理周期使用的目标数据处理配置信息，用于执行数据迁移或修复操作。采用本申请方案，能够决策得到目标数据处理周期参与数据迁移或修复的目标数据对象的目标参与个数，实现在目标数据处理周期内对业务数据性能与数据迁移及修复效率进行均衡，尽可能保证目标数据处理周期内最大化利用系统资源。

Description

数据处理方法、装置、设备及介质

技术领域

本发明实施例涉及云存储技术领域，尤其涉及一种数据处理方法、装置、设备及介质。

背景技术

在云存储系统服务中，如果系统出现了资源增加、删除、上线以及下线等情况，最终都会导致数据迁移及数据修复等操作。而，系统整体处理能力是固定的，所以需要对客户端的业务数据性能与数据迁移及修复效率进行均衡。

目前，在各个数据处理周期内，通常是通过初始默认修复参数或者临时手动人为干预调整修复参数的方式进行业务跟修复的均衡调整。但是，在复杂的业务环境中，初始默认修复参数或者人工干预调整很难均衡各个数据处理周期内业务数据性能与数据迁移及修复效率，不仅影响业务数据性能，而且还会影响数据迁移及修复效率。

发明内容

本发明实施例中提供了一种数据处理方法、装置、设备及介质，以实现在指定数据处理周期内对业务数据性能与数据迁移及修复效率进行均衡。

第一方面，本发明实施例中提供了一种数据处理方法，包括：

确定不同对象大小区间的目标数据对象在存储空间的占比信息；所述目标数据对象包括需要进行数据迁移及修复的数据对象；

依据所述在存储空间的占比信息，确定在目标数据处理周期参与数据迁移或修复的目标数据对象的目标参与个数；

依据所述目标参与个数，确定目标数据处理周期使用的目标数据处理配置信息，用于执行数据迁移或修复操作。

第二方面，本发明实施例中还提供了一种数据处理装置，包括：

对象占比确定模块，用于确定不同对象大小区间的目标数据对象在存储空间的占比信息；所述目标数据对象包括需要进行数据迁移及修复的数据对象；

对象个数确定模块，用于依据所述在存储空间的占比信息，确定在目标数据处理周期参与数据迁移或修复的目标数据对象的目标参与个数；

配置信息确定模块，用于依据所述目标参与个数，确定目标数据处理周期使用的目标数据处理配置信息，用于执行数据迁移或修复操作。

第三方面，本发明实施例中还提供了一种电子设备，包括：

一个或多个处理装置；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理装置执行，使得所述一个或多个处理装置实现本发明实施例中提供的数据处理方法。

第四方面，本发明实施例中还提供了一种可读介质，其上存储有计算机程序，该程序被处理装置执行时实现本发明实施例中提供的数据处理方法。

本发明实施例中提供了一种数据处理方法，在启动数据迁移或数据迁移任务的情况下，可确定需要进行数据迁移或数据修读的不同对象大小区间的目标数据对象在存储空间的占比信息，并根据不同目标数据对象在存储空间的占比信息来决定需要在目标数据处理周期参与数据迁移或修复的目标数据对象的目标参与个数，并以此确定目标数据处理周期使用的目标数据处理配置信息，用于执行数据迁移或修复操作。采用本申请技术方案，能够决策得到目标数据处理周期参与数据迁移或修复的目标数据对象的目标参与个数，进而得到在目标数据处理周期使用的数据处理配置信息，实现在目标数据处理周期内对业务数据性能与数据迁移及修复效率进行均衡，尽可能保证目标数据处理周期内最大化利用系统资源。

上述发明内容仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例中提供的一种数据处理方法的流程图；

图2是本发明实施例中提供的另一种数据处理方法的流程图；

图3是本发明实施例中提供的又一种数据处理方法的流程图；

图4是本发明实施例中提供的一种分布式云存储的业务网络和集群网络的规划示意图；

图5是本发明实施例中提供的一种数据处理装置的结构框图；

图6是本发明实施例中提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前，应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作(或步骤)可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

为了更好地理解本申请技术方案，下面对数据迁移或数据修复操作过程中使用的数据处理配置信息中包括的各个参数进行简述。对于执行数据修复或数据迁移操作过程中所需要使用数据处理配置信息的设置，可采用以下五个维度的参数进行设置。具体可为，max_num参数为：每个磁盘一次能选中几个数据对象集合进行数据迁移或数据修复，且保证只有数据对象集合里的数据对象都修复完，才能选择新的数据对象集合；max_object参数为：每个磁盘最多能迁移或修复的数据对象个数；max_single_object参数为：每个数据对象集合一次能迁移或修复几个数据对象，用于限制单个数据对象集合里的数据对象迁移数量或修复数量，避免数据对象集合对应的某几个磁盘成为瓶颈；leep_time参数为：每个磁盘下发迁移或修复线程的休眠时间，两次数据迁移或数据修复操作之间的时间间隔；repair_op_priority参数为：设置数据迁移操作或数据修复操作的优先级。不难发现，数据处理配置信息中包括的各个参数，均能影响数据处理配置信息的设定。

下面通过各实施例及各实施例的可选方案，对本申请方案中提供的数据处理方法、装置、设备及介质进行详细阐述。

图1是本发明实施例中提供的一种数据处理方法的流程图。本发明实施例可适用于在同一存储设备中或者不同存储设备之间进行数据迁移或修复的情况。该数据处理方法可由数据处理装置执行，该数据处理装置可采用软件和/或硬件的方式实现，并可集成在任何具有网络通信功能的设备上。如图1所示，本发明实施例中提供的数据处理方法，可包括以下步骤S110-S130：

S110、确定不同对象大小的目标数据对象在存储空间的占比信息；其中目标数据对象包括需要进行数据迁移及修复的数据对象。

在本实施例中，在云存储系统中，如果系统出现了资源增加、删除、上线以及下线等情况，均会导致出现数据迁移及数据修复等操作。对于这部分由于资源增加、删除、上线以及下线，而需要进行据迁移及修复的数据对象可记为目标数据对象。云存储系统的存储空间中包括的各个目标数据对象的对象大小不完全相同，例如写入存储空间的不同业务类型的目标数据对象的对象大小会有所不同，因此会使不同对象大小的目标数据对象的个数会有所不同，这样一来不同对象大小的目标数据对象在存储空间的占比也会有所不同。进而，隶属于不同对象大小区间的目标数据对象在存储空间的占比会有所差异。

在本实施例的一种可选方案中，确定不同对象大小的目标数据对象在存储空间的占比信息，可包括以下操作：

从已加载的数据对象统计表中，确定写入存储空间的不同对象大小的目标数据对象个数与写入存储空间的总目标数据对象个数的比值。

在本实施例中，针对云存储系统的存储空间中的各个目标数据对象，可按照各个目标数据对象的对象大小(比如在云存储系统中占用的块大小)，对各个目标数据进行分类，并记录隶属于不同对象大小区间的目标数据对象的个数占云存储系统的存储空间中目标数据对象总个数的百分比。例如，总共写入存储空间中100个目标数据对象，其中，位于0M到4M对象大小区间的目标数据对象有10个，位于4M到8M对象大小区间的目标数据对象有5个，位于8M到16M对象大小区间的目标数据对象有5个，大于64M对象大小区间的目标数据对象有80个，则不同对象大小区间的目标数据对象的占比情况，如下表1所示：

表1不同对象大小的目标数据对象在存储空间的占比情况

对象大小(单位：M)

(0,4]

(4,8]

(8,16]

(16,32]

(32,64]

(64,+∞]

对象占比(百分比)

a＝0.1

b＝0.05

c＝0.05

d＝0

e＝0

f＝0.8

在本实施例中，从已加载的数据对象统计表中，确定不同对象大小的目标数据对象所在的对象大小区间；依据不同对象大小的目标数据对象所在的对象大小区间，确定写入存储空间的不同对象大小的目标数据对象个数与总目标数据对象个数之间的比值。

在本实施例中，可在内存中建立一个数据对象统计表，在对存储空间中的各个目标数据对象进行写入、修改以及删除等操作时，可根据对各个目标数据对象的操作，在数据对象统计表中对隶属于不同对象区间大小的目标数据对象的个数进行更新。可选地，在存在多种业务混合时，可根据上层业务落到存储空间时内存里记录不同数据对象个数，并对数据对象统计表中记录的不同对象大小区间的目标数据对象的占比情况进行更新记录。其中，内存中加载的数据对象统计表只是起到概率统计作用，占用很小的内存空间，对系统基本无消耗。

在本实施例中，数据对象统计表可定期记录到云存储系统的非易失存储介质中，当云存储系统重新启动后，可重新加载已记录的数据对象统计表，一个云存储系统里不同对象大小的目标数据对象在存储空间的占比情况在一定时间后可以趋于稳定。当云存储系统重新下发初始化新业务类型时，需要重置该数据对象统计表中内容，重新统计云存储系统的存储空间中不同对象大小的目标数据对象在存储空间的占比情况，以便加载使用。

S120、依据不同对象大小的目标数据对象在存储空间的占比信息，确定在目标数据处理周期参与数据迁移或修复的目标数据对象的目标参与个数。

在本实施例中，在分布式云存储系统或单机存储系统中，当对集群或者单机设备中需要进行数据迁移或数据修复等操作的全部目标数据对象，执行数据迁移或数据修复操作时，可能需要持续较长的时间。为此，可将执行数据迁移操作或数据修复的操作的数据处理过程，划分为多个数据处理周期来完成。这样，需要经历多个数据处理周期才能完成整个数据迁移或数据修复操作，而不仅限于一个数据处理周期。在本实施例中，在执行数据迁移或数据修复操作时，需要占用集群存储系统或者单节点存储系统的一部分处理资源，而在执行数据迁移或数据修复操作的过程中，还会执行针对业务数据的处理操作。因此，需要确定在各个数据处理周期参与数据迁移或修复的目标数据对象的个数，以便进一步确定在各个数据周期使用的数据处理配置信息，以均衡客户端的业务数据性能跟数据迁移及修复效率。

在本实施例的一种可选方案中，目标数据处理周期可为在执行数据迁移操作或数据修复操作时对应的各个数据处理周期中的第一个或者首轮数据处理周期。可选地，目标数据处理周期可为在启动数据迁移或数据修复任务时需要开始执行数据迁移操作或数据修复操作的第一个或首轮数据处理周期。

在本实施例中，通常可通过监测集群存储系统或者单节点存储系统的当前的资源使用状态判断是否占用过多的处理资源，并以此来确定合适的数据处理配置信息，以便得到下一数据处理周期使用的数据处理配置信息。但是，由于在首轮数据处理周期还没有执行数据迁移或数据修复操作无法得到资源使用状态，因此只能采用默认参数取值或者临时手动干预调整参数来设置首轮数据处理周期使用的数据处理配置信息，以保证客户端的业务数据性能跟数据迁移及修复效率的均衡。而，在复杂的业务环境中，无论是初始默认修复参数或者人工干预调整均很难得到一个能均衡首轮处理周期内业务数据性能与数据迁移及修复效率的合适数据处理配置信息。为此，可将目标数据处理周期设定为首轮数据处理周期，以解决在第一个数据处理周期无法自动且准确地确定数据配置信息的问题。

在本实施例中，本申请方案从max_object参数的维度分析如何对目标数据处理周期所要使用的数据处理配置信息进行设定。通过分析可知，如果数据处理配置信息设定的每个磁盘最多能迁移或修复的数据对象个数过多，那么很容易造成在数据迁移或数据修复过程中占有云存储系统较多的资源，从而影响系统的业务数据性能。为此，本申请方案需要准确分析目标数据处理周期所要参与数据迁移或修复的目标数据对象的目标参与个数，避免由于目标参与个数过多影响系统的业务数据性能，或者避免由于目标参与个数过少导致无法最大化利用云存储系统的系统资源。

在本实施例中，云存储系统中数据修复或者数据迁移操作对业务数据性能的影响与云存储系统中各个目标数据对象的对象大小以及max_object参数的设置存在着密切关系。在固定max_object参数取值的情况下，如果在目标数据处理周期参与数据修复或者数据迁移的数据对象的大部分都很大，例如大部分目标数据对象均为64M，那么其与在目标数据处理周期参与数据修复或者数据迁移的数据对象只有4M相比，其对云存储系统的业务数据性能的影响压力是不同的。尤其是，在分布式存储系统中，在固定max_object参数的情况下，如果同时参与数据修复或者数据迁移的各个数据对象中大对象的占比高，那其对业务数据性能的影响就会越大。因此，可根据不同对象大小区间的目标数据对象在存储空间的占比信息，得到在目标数据处理周期同时参数数据修复或数据迁移的目标数据对象的目标参数个数，这样就可进一步依照得到的目标参数个数来对max_object参数的取值进行设定。

采用本实施例的上述方式，能够根据统计的底层存储空间中不同对象大小区间的目标数据对象的百分比，来分析参与数据修复或者数据迁移的目标数据对象的对象大小趋势，以便根据可能参与数据迁移或数据修复的目标数据对象的对象大小决策得到在目标数据处理周期参与数据迁移或修复的目标数据对象的目标参与个数，进而准确设定目标数据处理周期使用的数据处理配置信息。

S130、依据目标数据对象的目标参与个数，确定目标数据处理周期使用的目标数据处理配置信息，用于执行数据迁移或修复操作。

在本实施例的一种可选方案中，依据目标数据对象的目标参与个数，确定目标数据处理周期使用的目标数据处理配置信息，可包括以下操作：

依据目标参与个数，对默认设置的数据处理配置信息中包括的目标数据对象的参与个数的取值进行更改，以得到目标数据处理配置信息；

其中，数据处理配置信息包括用于执行数据修复或数据迁移所需的目标数据对象的参与个数的参数字段以及取值。

需要说明的是，本实施例仅用于解决在目标数据处理周期内无法均衡业务数据性能与数据迁移及修复效率的问题，因此具体出阐述目标数据处理周期所要使用的数据处理配置信息设定。而，具体在目标数据处理周期以后的其他数据处理周期的业务数据性能与数据迁移及修复效率可依据前一数据处理周期的资源使用状态来调整，具体过程这里不进行阐述。

在本实施例中，为了保证在目标数据处理周期执行数据迁移或数据修复操作时尽可能不影响客户端业务数据的数据处理操作，本申请方案会采用前述设定供目标数据处理周期使用的合适目标参数个数，来对默认设置的数据处理配置信息中包括的目标数据对象的参与个数的取值进行更改。这样设置的数据处理配置信息能够从目标数据处理周期中数据处理对象的参与个数上，保证业务数据性能跟数据迁移及修复效率的均衡，避免数据迁移或者数据修复过多占用集群存储系统或者单节点存储系统的处理资源，以保证客户端业务的正常进行。

本发明实施例中提供了一种数据处理方法，采用本申请技术方案，在启动数据迁移或数据迁移任务的情况下，可确定需要进行数据迁移或数据修读的不同对象大小区间的目标数据对象在存储空间的占比信息，能够决策得到目标数据处理周期参与数据迁移或修复的目标数据对象的目标参与个数，进而得到在目标数据处理周期使用的数据处理配置信息，实现在目标数据处理周期内对业务数据性能与数据迁移及修复效率进行均衡，尽可能保证目标数据处理周期内最大化利用系统资源。

图2是本发明实施例中提供的另一种数据处理方法的流程图。本发明实施例在上述实施例的基础上进行优化，本实施例可以与上述一个或者多个实施例中各个可选方案结合。如图2所示，本发明实施例中提供的数据处理方法，可包括以下步骤S210-S250：

S210、确定不同对象大小的目标数据对象在存储空间的占比信息；目标数据对象包括需要进行数据迁移及修复的数据对象。

S220、确定云存储系统中存储节点在目标数据处理周期所处时间段的目标业务量和在基准时间段的基准业务量。

在本实施例中，在云存储系统提供业务时，不同时间段的上层业务压力不同，即忙时业务压力和闲时业务压力不同，造成不同时间段所产生的业务量有所不同，使得有的时间段业务量较大，而有的时间段业务量较少。经过分析可将每一天划分为多个时间段，例如，可将每一天划分为12个时间段或者24个时间段，并统计不同时间段的业务量分布如表2所示。此外，通过统计不同时间段实际落到存储空间的数据对象进行记录，从长久时间的统计来看，不同天的同一时间段的业务量具有相似性(法定节假日除外暂不考虑)。

表2云存储系统在不同时间段的业务量分布

在本实施例中，在启动数据修复或者数据迁移任务的情况下，可确定目标数据处理周期所处的时间段，然后查表获取云存储系统中存储节点在目标数据处理周期所处时间段的目标业务量。例如，以目标数据处理周期所处时间段为8-10点的时间段为例，云存储系统中存储节点在8-10点的时间段的目标业务量为500万。同时，还可确定与目标数据处理周期所处时间段在基准时间段的基准业务量。其中，基准时间段可为对每一天进行划分时间段后，从各个时间段中选取的业务最空闲的时间段或者从不同天的时间段中选定的时间段。以基准时段为与目标数据处理周期所处时间段同日的0-2点的时间段为例，可获取云存储系统中存储节点在0-2点的时间段的基准业务量为20万。

S230、依据目标业务量和基准业务量，确定目标数据处理周期的业务繁忙系数。

在本实施例中，在确定在目标数据处理周期所处时间段的目标业务量和在同日的基准时间段的基准业务量后，可计算基准业务量与目标业务量之间的业务量比值，得到目标数据处理周期的业务繁忙系数的取值。其中，基准业务量与目标业务量之间的业务量比值越小，目标数据处理周期所处时间段的业务相对基准时间段的业务会越繁忙，此时目标数据处理周期的业务繁忙系数的取值越小；基准业务量与目标业务量之间的业务量比值越大，目标数据处理周期所处时间段的业务相对基准时间段的业务会越空闲，此时目标数据处理周期的业务繁忙系数的取值越大。

在本实施例中，当云存储系统的业务繁忙系数取值越小，表面此时云存储系统的业务量比较大，需要适当减少参数数据修复或数据迁移的目标数据对象的数量，来降低数据迁移及修复效率，避免数据迁移或者数据修复过多占用云存储系统中单个存储节点或存储集群的处理资源，以保证客户端业务的正常进行。因此，目标数据处理周期的业务繁忙系数，也可用于决定目标数据处理周期参与数据修复或数据迁移的对象个数的一个分析维度。

S240、依据业务繁忙系数和不同对象大小区间的目标数据对象在存储空间的占比信息，确定在目标数据处理周期内参与数据迁移或修复的目标数据对象的目标参与个数。

在本实施例中，通过不同对象大小区间的目标数据对象在存储空间的占比信息，可反映目标数据处理周期内所要进行数据修复或数据迁移的目标数据对象的对象大小的大小趋势。因此，在预估确定与目标数据处理周期所处时间段同日的基准时间段的数据对象的参与个数基准值的情况下，由于业务繁忙系数可以反映目标数据处理周期所处时间段相对基准时间段的业务繁忙程度，集合不同对象大小区间的目标数据对象在存储空间的占比信息，就可确定在目标数据处理周期内参与数据迁移或修复的目标数据对象的目标参与个数。

示例性地，以0-2点为基准时间段，8-10点为目标数据处理周期所处的时间段为例，设定0-2点基准时间段繁忙系数为初始值1，那么在该8-10点的时间段启动数据修复或数据迁移任务时，目标数据处理配置信息中的max_object参数的取值可以设置为：max_object＝max_object’*m*(1-p)，max_object的值可向下取大于等于1的整数。

其中，max_object’为预估确定的0-2点的基准时间段参与数据迁移或修复的目标数据对象的参与个数，当前其取值可为50；在目标数据处理周期的业务繁忙系数m＝20/500(0-2点对应时间段的业务量为20w,8-10点对应时间段的业务量为500w)；目标数据处理周期内所要进行数据修复或数据迁移的目标数据对象的对象大小的大小趋势p＝(2*a+6*b+12*c+24*d+48*e+64*f)/(2+6+12+24+48+64)；其中，上述公式中的“2”、“6”、“12”、“24”、“48”以及64等是根据预先设定的各个对象大小区间的区间上限值与下限值确定，例如，上述的2”、“6”、“12”、“24”以及“48”分别是(0,4]、(4,8]、(8,16]、(16,32]以及(32,64]指示的对象大小区间的上限值与下限值的平均值，而“64”是(64,+∞]指示的对象大小区间的下限值。

S250、依据目标数据对象的目标参与个数，确定目标数据处理周期使用的目标数据处理配置信息，用于执行数据迁移或修复操作。

本发明实施例中提供了一种数据处理方法，采用本申请技术方案，在启动数据迁移或数据迁移任务的情况下，可确定需要进行数据迁移或数据修读的不同对象大小区间的目标数据对象在存储空间的占比信息，同时还能确定单个存储节点在目标数据处理周期所处时间段的业务量，得到在目标数据处理周期的业务繁忙系数，进而结合业务繁忙系数与不同对象大小区间的目标数据对象在存储空间的占比信息来共同决策得到目标数据处理周期参与数据迁移或修复的目标数据对象的目标参与个数，进而得到在目标数据处理周期使用的数据处理配置信息，实现在目标数据处理周期内对业务数据性能与数据迁移及修复效率进行均衡，尽可能保证目标数据处理周期内最大化利用系统资源。

图3是本发明实施例中提供的又一种数据处理方法的流程图。本发明实施例在上述实施例的基础上进行优化，本实施例可以与上述一个或者多个实施例中各个可选方案结合。如图3所示，本发明实施例中提供的数据处理方法，可包括以下步骤S310-S340：

S310、确定不同对象大小的目标数据对象在存储空间的占比信息；目标数据对象包括需要进行数据迁移及修复的数据对象。

S320、确定云存储系统的集群内部网口剩余带宽；集群内部网口剩余带宽包括在集群间提供分发、修复以及迁移的网络剩余带宽。

在本实施例中，图4是本发明实施例中提供的一种分布式云存储的业务网络和集群网络的规划示意图。参见图4，在分布式云存储的实际应用场景中可以将客户端业务网络和集群内部cluster网络进行分离规划。在分布式的云存储中，当执行云存储中集群数据的数据迁移或数据修复操作时需要占用的集群处理资源包括CPU、内存以及网络带宽及磁盘带宽。通过分析可知，当需要在节点间进行数据修复、数据迁移以及业务处理时，集群内部网口带宽会对客户端业务数据、数据迁移及修复效率产生影响。因此，本申请方案还可借助云存储系统的存储节点之间提供数据迁移、数据修复以及节点间业务分发的集群内部网口的网络剩余带宽，来分析决策在目标数据处理周期内参与数据迁移或修复的目标数据对象的目标参与个数。

S330、依据集群内部网口剩余带宽和所述在存储空间的占比信息，确定在目标数据处理周期内参与数据迁移或修复的目标数据对象的目标参与个数。

在本实施例中，在需要保持客户端的业务数据性能跟数据迁移及修复效率均衡的情况下，如果集群内部网口剩余带宽越大，其能使在目标数据处理周期同时参数数据迁移或数据修复的目标对象的参数个数越多。而，在需要保持客户端的业务数据性能跟数据迁移及修复效率均衡的情况下，如果目标数据处理周期内所要进行数据修复或数据迁移的目标数据对象的对象大小的取值越大，其能使在目标数据处理周期同时参数数据迁移或数据修复的目标对象的参数个数越少。为此，可通过集群内部网口剩余带宽和所述在存储空间的占比信息两个维度来分析目标数据处理周期内参与数据迁移或修复的目标数据对象的目标参与个数。

在本实施例中，考虑cluster网络的剩余资源，因为cluster带宽包含了业务在集群间分发以及修复的双重带宽，节点间的管理流量占用带宽非常小可以忽略不计，在修复未开时前该网络主要是业务带宽。假设cluster间用万兆网络单网口连接，去除网络利用率的百分比影响后，假设节点cluster网络剩余带宽为200Mb，那么结合表1可确定在数据修复或数据迁移任务启动是，目标数据处理周期所要使用的目标数据处理配置信息中包括的max_object参数的取值可采用以下公式进行计算得到：max_object＝剩余带宽/8/(2*a+6*b+12*c+24*d+48*e+64*f)，向下取大于等于1的整数。

S340、依据目标数据对象的目标参与个数，确定目标数据处理周期使用的目标数据处理配置信息，用于执行数据迁移或修复操作。

本发明实施例中提供了一种数据处理方法，采用本申请技术方案，在启动数据迁移或数据迁移任务的情况下，可确定需要进行数据迁移或数据修读的不同对象大小区间的目标数据对象在存储空间的占比信息，同时还能确定云存储系统的集群内部网口剩余带宽，进而结合集群内部网口剩余带宽与不同对象大小区间的目标数据对象在存储空间的占比信息来共同决策得到目标数据处理周期参与数据迁移或修复的目标数据对象的目标参与个数，进而得到在目标数据处理周期使用的数据处理配置信息，实现在目标数据处理周期内对业务数据性能与数据迁移及修复效率进行均衡，尽可能保证目标数据处理周期内最大化利用系统资源。

图5是本发明实施例中提供的一种数据处理装置的结构框图。本发明实施例可适用于在同一存储设备中或者不同存储设备之间进行数据迁移和数据修复的情况。该数据处理装置可以采用软件和/或硬件的方式实现，并可集成在任何具有网络通信功能的设备上。如图5所示，本发明实施例中提供的数据处理装置，可包括：对象占比确定模块510、对象个数确定模块520和配置信息确定模块530。其中：

对象占比确定模块510，用于确定不同对象大小的目标数据对象在存储空间的占比信息；目标数据对象包括需要进行数据迁移及修复的数据对象；

对象个数确定模块520，用于依据所述不同对象大小的目标数据对象在存储空间的占比信息，确定在目标数据处理周期参与数据迁移或修复的目标数据对象的目标参与个数；

配置信息确定模块530，用于依据所述目标数据对象的目标参与个数，确定目标数据处理周期使用的目标数据处理配置信息，用于执行数据迁移或修复操作。

在上述实施例的基础上，可选地，对象占比确定模块510包括：

从已加载的数据对象统计表中，确定不同对象大小的目标数据对象所在的对象大小区间；

依据不同对象大小的目标数据对象所在的对象大小区间，确定写入存储空间的不同对象大小的目标数据对象个数与总目标数据对象个数之间的比值。

在上述实施例的基础上，可选地，对象个数确定模块520包括：

确定云存储系统中存储节点在所述目标数据处理周期所处时间段的目标业务量和在基准时间段的基准业务量；

依据所述目标业务量和所述基准业务量，确定所述目标数据处理周期的业务繁忙系数；

依据所述业务繁忙系数和所述在存储空间的占比信息，确定在所述目标数据处理周期内参与数据迁移或修复的目标数据对象的目标参与个数。

确定云存储系统的集群内部网口剩余带宽；所述集群内部网口剩余带宽包括在集群间提供分发、修复以及迁移的网络剩余带宽；

依据所述集群内部网口剩余带宽和所述在存储空间的占比信息，确定在所述目标数据处理周期内参与数据迁移或修复的目标数据对象的目标参与个数。

在上述实施例的基础上，可选地，配置信息确定模块530包括：

依据所述目标数据对象的目标参与个数，对默认设置的数据处理配置信息中包括的目标数据对象的参与个数的取值进行更改，以得到所述目标数据处理配置信息；

本发明实施例中所提供的数据处理装置可执行上述本发明任意实施例中所提供的数据处理方法，具备执行该数据处理方法相应的功能和有益效果，未在上述实施例中详尽描述的技术细节，可参见本申请任意实施例中所提供的数据处理方法。

图6是本发明实施例中提供的一种电子设备的结构示意图。如图6所示结构，本发明实施例中提供的电子设备包括：一个或多个处理器610和存储装置620；该电子设备中的处理器610可以是一个或多个，图6中以一个处理器610为例；存储装置620用于存储一个或多个程序；所述一个或多个程序被所述一个或多个处理器610执行，使得所述一个或多个处理器610实现如本发明实施例中任一项所述的数据处理方法。

该电子设备还可以包括：输入装置630和输出装置640。

该电子设备中的处理器610、存储装置620、输入装置630和输出装置640可以通过总线或其他方式连接，图6中以通过总线连接为例。

该电子设备中的存储装置620作为一种计算机可读存储介质，可用于存储一个或多个程序，所述程序可以是软件程序、计算机可执行程序以及模块，如本发明实施例中所提供的数据处理方法对应的程序指令/模块。处理器610通过运行存储在存储装置620中的软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述方法实施例中数据处理方法。

存储装置620可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储装置620可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储装置620可进一步包括相对于处理器610远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置630可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置640可包括显示屏等显示设备。

并且，当上述电子设备所包括一个或者多个程序被所述一个或者多个处理器610执行时，程序进行如下操作：

确定不同对象大小的目标数据对象在存储空间的占比信息；所述目标数据对象包括需要进行数据迁移及修复的数据对象；

依据所述不同对象大小的目标数据对象在存储空间的占比信息，确定在目标数据处理周期参与数据迁移或修复的目标数据对象的目标参与个数；

依据所述目标数据对象的目标参与个数，确定目标数据处理周期使用的目标数据处理配置信息，用于执行数据迁移或修复操作。

当然，本领域技术人员可以理解，当上述电子设备所包括一个或者多个程序被所述一个或者多个处理器610执行时，程序还可以进行本发明任意实施例中所提供的数据处理方法中的相关操作。

本发明实施例中提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时用于执行数据处理方法，该方法包括：

可选的，该程序被处理器执行时还可以用于执行本发明任意实施例中所提供的数据处理方法。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(Random AccessMemory，RAM)、只读存储器(Read Only Memory，ROM)、可擦式可编程只读存储器(ErasableProgrammable Read Only Memory，EPROM)、闪存、光纤、便携式CD-ROM、光存储器件、磁存储器件、或者上述的任意合适的组合。计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于：电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、无线电频率(RadioFrequency，RF)等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种数据处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，确定不同对象大小的目标数据对象在存储空间的占比信息，包括：

3.根据权利要求1所述的方法，其特征在于，依据所述不同对象大小的目标数据对象在存储空间的占比信息，确定在目标数据处理周期参与数据迁移或修复的目标数据对象的目标参与个数，包括：

依据所述业务繁忙系数和所述不同对象大小的目标数据对象在存储空间的占比信息，确定在所述目标数据处理周期内参与数据迁移或修复的目标数据对象的目标参与个数。

4.根据权利要求1所述的方法，其特征在于，依据所述不同对象大小的目标数据对象在存储空间的占比信息，确定在目标数据处理周期参与数据迁移或修复的目标数据对象的目标参与个数，包括：

5.根据权利要求1所述的方法，其特征在于，依据所述目标数据对象的目标参与个数，确定目标数据处理周期使用的目标数据处理配置信息，包括：

6.一种数据处理装置，其特征在于，包括：

对象占比确定模块，用于确定不同对象大小的目标数据对象在存储空间的占比信息；所述目标数据对象包括需要进行数据迁移及修复的数据对象；

对象个数确定模块，用于依据所述不同对象大小的目标数据对象在存储空间的占比信息，确定在目标数据处理周期参与数据迁移或修复的目标数据对象的目标参与个数；

配置信息确定模块，用于依据所述目标数据对象的目标参与个数，确定目标数据处理周期使用的目标数据处理配置信息，用于执行数据迁移或修复操作。

7.根据权利要求6所述的装置，其特征在于，对象个数确定模块包括：

8.根据权利要求6所述的装置，其特征在于，对象个数确定模块包括：

9.一种电子设备，其特征在于，包括：

一个或多个处理装置；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理装置执行，使得所述一个或多个处理装置实现权利要求1-5中任一所述的数据处理方法。

10.一种可读介质，其上存储有计算机程序，其特征在于，该程序被处理装置执行时实现权利要求1-5中任一所述的数据处理方法。