CN115599315B

CN115599315B - 数据处理方法、装置、系统、设备及介质

Info

Publication number: CN115599315B
Application number: CN202211600738.2A
Authority: CN
Inventors: 魏舒展; 赵亚飞; 顾隽清; 董元元
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-12-14
Filing date: 2022-12-14
Publication date: 2023-04-07
Anticipated expiration: 2042-12-14
Also published as: CN115599315A

Abstract

本申请实施例提供数据处理方法、装置、系统、设备及介质。该方法包括：确定已存储第一数据条带中的第一校验数据块所在的第一存储节点；接收到第二数据条带后，判断第一数据条带与第一数据条带是否具有合并需求；若具有合并需求，则按照写入规则将第二数据条带中的第二校验数据块写入第一存储节点；响应于对第一数据条带和第二数据条带的条带合并请求，对第一存储节点中的第一校验数据块和第二校验数据块进行合并处理，得到第三数据条带。条带写入的时候按照写入规则执行写入任务，以便后续条带合并的时候可以直接进行合并，不需要对校验数据块迁移，降低存储资源占用的同时，能够有效减少在合并过程中流量开销，还能够有效提高数据条带合并效率。

Description

数据处理方法、装置、系统、设备及介质

技术领域

本申请涉及计算机技术领域，尤其涉及数据处理方法、装置、系统、设备及介质。

背景技术

随着计算机技术的快速发展，数据存储需求越来越多。分布式存储系统得到了广泛的应用。

随着存储系统的存储规模的扩大，存储数据安全问题越来越需要重视。当存储规模很大时，难免因为某个存储设备故障导致数据丢失。在确保存储系统中数据存储安全的同时又要兼顾数据存储成本，在现有技术中广泛采用纠删码技术。当存储的数据量比较大的时候，相应的原始数据也会占用相当大的存储空间。为了减少纠删码对存储空间的占用，会对一些原始数据进行合并。然而，在对原始数据进行合并的过程中，往往会造成比较大的流量开销。

发明内容

为解决或改善现有技术中存在的问题，本申请各实施例提供了数据处理方法、装置、系统、设备及介质。

第一方面，在本申请的一个实施例中，提供了一种数据处理方法。该方法包括：

确定已存储第一数据条带中的第一校验数据块所在的第一存储节点；

接收到第二数据条带后，判断所述第一数据条带与所述第一数据条带是否具有合并需求；

若具有合并需求，则按照写入规则将所述第二数据条带中的第二校验数据块写入所述第一存储节点；

响应于对所述第一数据条带和所述第二数据条带的条带合并请求，对所述第一存储节点中的所述第一校验数据块和所述第二校验数据块进行合并处理，得到第三数据条带。

第二方面，本申请的一个实施例中，提供了一种数据存储系统，包括：

客户端，向存储设备发送待存储的原始数据；

所述存储设备，包括多个存储节点，用于执行第一方面所述的方法对所述原始数据对应的数据条带进行处理。

第三方面，在本申请的一个实施例中，提供了一种数据处理装置，所述装置包括：

确定模块，用于确定已存储第一数据条带中的第一校验数据块所在的第一存储节点；

判断模块，用于接收到第二数据条带后，判断所述第一数据条带与所述第一数据条带是否具有合并需求；

写入模块，用于若具有合并需求，则按照写入规则将所述第二数据条带中的第二校验数据块写入所述第一存储节点；

合并模块，用于响应于对所述第一数据条带和所述第二数据条带的条带合并请求，对所述第一存储节点中的所述第一校验数据块和所述第二校验数据块进行合并处理，得到第三数据条带。

第四方面，在本申请的一个实施例中，提供了一种电子设备，包括存储器及处理器；其中，

所述存储器，用于存储程序；

所述处理器，与所述存储器耦合，用于执行所述存储器中存储的所述程序，以用于实现第一方面所述的数据处理方法。

第五方面，在本申请的一个实施例中，提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如第一方面所述的数据处理方法。

本申请实施例提供的技术方案，在进行纠删码存储的时候，会预先判断数据条带是否有合并需求，比如，原始数据的数据类型由热数据变为冷数据，则为了节省存储空间会对纠删码的数据条带进行合并处理。若有合并需求，则会根据预设的写入规则将后续的至少一个第二数据条带按照写入规则进行写入，从而使得第二数据条带的第二校验数据块与在先存储的第一数据条带的第一校验数据块在同一个存储节点中，当需要对第一数据条带和第二数据条带合并的时候，可以基于第一存储节点直接执行合并任务，将第一校验数据块和第二校验数据块合并，从而得到第三数据条带。通过上述方案，在对数据条带写入的时候按照写入规则执行写入任务，以便后续执行数据条带合并的时候可以直接进行合并，而不需要对校验数据块进行迁移，在满足降低存储资源占用的同时，还能够有效减少在合并过程中流量开销，还能够有效提高数据条带合并效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例举例说明的存储系统中数据处理方法的流程示意图；

图2为本申请举例说明的按照写入规则写入时的流程示意图；

图3为本申请实施例举例说明数据写入的示意图；

图4为本申请实施例举例说明的条带合并的示意图；

图5为本申请实施例提供的数据处理系统的结构示意图；

图6为本申请实施例提供的数据处理装置的结构示意图；

图7为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

在本申请的说明书、权利要求书及上述附图中描述的一些流程中，包含了按照特定顺序出现的多个操作，这些操作可以不按照其在本文中出现的顺序来执行或并行执行。操作的序号如101、102等，仅仅是用于区分各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。此外，下文描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

分布式系统（比如，HDFS）的存储规模正在变得越来越大；而分布式系统中的存储错误是一个不容忽视的问题。因此数据的存储成本与可靠性都是分布式系统设计时需要考虑的因素。在实际应用中，纠删码文件可以在保证数据可靠性的前提下，最小化系统的存储开销，因此纠删码技术广泛地应用在存储技术领域。纠删码技术将K个原始数据块计算生成M个校验数据块，当任意K个原始数据块和校验数据块存在的情况下，系统可以使用他们将其他丢失的数据块恢复出来。然而，随着数据的增多，这些原始数据块和校验数据块所占用的存储空间也显著增多。为了减少纠删码以及校验数据块所占用的存储空间，会对纠删码和校验所在的不同条带进行合并处理。然而，合并过程中涉及到多次数据迁移工作，明显产生很大的数据开销。因此，需要一种能够实现简单高效的数据处理方案。

术语解释：

纠删码（Erasure Code，EC）是一种编码容错技术，它的基本原理是把存储的数据分片，并将k个原始数据通过一定的校验计算方式生成k+m份数据，并能通过k+m份中的任意k份数据，还原为原始数据。这样即使部分数据丢失，系统仍然能将原始数据恢复出来。

校验数据块：对将k个原始数据块通过一定的校验计算方式生成m个校验数据块。

数据块（Block）是数据的基本单位。

条带（Stripe）纠删码进行编解码的基本单位，包含k个原始数据块和m个校验数据块。

下面将结合具体实施例对本申请实现的技术方案进行解释说明。

如图1为本申请实施例举例说明的存储系统中数据处理方法的流程示意图。该方法的执行主体可以是服务器（包括本地服务器或者云服务器），该存储系统可以是图1所示系统或者基于图1所示系统根据实际需求进行适应性改进。从图中可以看到具体包括如下步骤：

步骤101：确定已存储第一数据条带中的第一校验数据块所在的第一存储节点。

步骤102：接收到第二数据条带后，判断所述第一数据条带与所述第一数据条带是否具有合并需求。

步骤103：若具有合并需求，则按照写入规则将所述第二数据条带中的第二校验数据块写入所述第一存储节点。

步骤104：响应于对所述第一数据条带和所述第二数据条带的条带合并请求，对所述第一存储节点中的所述第一校验数据块和所述第二校验数据块进行合并处理，得到第三数据条带。

本申请方案可以应用于分布式存储系统中，分布式存储系统为了实现更灵活的扩展性和更大的存储规模，采用无中心的组网方式，每个存储节点都可以同时提供计算和存储能力。各个存储节点之间通过内部交换机互联起来，基于分布式存储软件提供统一的存储资源池。为了确保存储系统中数据的安全可靠，采用纠删码技术进程可靠存储。如前文所述，在接收到原始数据后，会对其进行切块处理，比如切分得到k个原始数据块，利用编码算法得到m个校验数据块。将得到的k个原始数据块和m个校验数据块作为一个数据条带进行存储。在存储的时候，将k个原始数据块和m个校验数据块作为一个数据条带进行存储，需要遵守纠删码数据放置策略，同一条带中各个原始数据块和校验数据块分别存放在不同的存储节点中，能够有效避免某个存储节点故障会导致多个原始数据块或校验数据块同时丢失。

前文所述的第一数据条带，是包含有第一校验数据和第一原始数据块，其中，第一原始数据块是对原始数据进行切分得到的，第一校验数据块是基于得到的多个第一原始数据块进行编码处理得到的。若第一数据条带为第一个数据条带，则可以根据纠删码数据放置策略随意放置。这里可以假设第一校验数据块存储在第一存储节点。

在执行任务过程中，会不断有新的数据写入。这里假设有第二数据条带将要写入，则会提前判断该第二数据条带是否有后续合并的需求。比如，该第二数据条带对应的原始数据的数据类型会由热数据变为冷数据，或者比如，当前存储空间不足，需要进行存储资源整合以便获得更多的存储空间。

若没有合并需求，则第二数据条带可以纠删码数据放置策略，将该第二数据条带中各个原始数据块和校验数据块分别存放在不同的存储节点中，在存放的时候，不用考虑某个存储节点中是否有第一数据条带相关的第一校验数据块或第一原始数据块。换言之，可以将第二数据条带中的第二校验数据块存储在第一存储节点中，也可以不存储在第一存储节点中，不受第一数据条带中各个原始数据块和校验数据块存储位置影响。

若有合并需求，考虑到后续合并得到的新的数据条带符合纠删码数据放置策略，需要对第二数据条带各个原始数据块和校验数据块写入作出写入规则的限定。具体来说，若第二数据条带需要在某个时刻与第一数据条带进行合并得到一个整体的第三数据条带，该第三数据条带中的各个原始数据块和校验数据库的存储方式也要遵守纠删码数据放置策略，因此，需要将第二校验数据块存储到第一校验数据块所在的第一存储节点中，以避免合并的时候对校验数据块迁移。

容易理解的是，若不遵守写入规则，则在进行合并的时候，需要将在同一个存储节点中的多个原始数据块分别迁移到不同的存储节点，同时还需要将存储在不同存储节点中的多个校验数据块迁移到同一个存储节点中，在迁移过程中将带来明显的流量开销。

需要说明的是，这里所说的第一数据条带是指在先存储的数据条带，而第二数据条带则是晚于第一数据条带存储的，这里所说的第一数据条带和第二数据条带的数量可以有一个也可以有多个。这里区分第一数据条带和第二数据条带是为了说明在进行存储的时候，具有合并需求的至少两个条带需要遵守写入规则。

在对原始数据块和校验数据块分开存储的时候，可以按照上述方式以存储节点为基本单元进行分开存储或合并存储，还可以以存储机架为基本单元进行分开存储或合并存储。

上述技术方案，在进行数据写入之前，需要先对待写入数据后续是否具有合并需求进行预判，若有合并需求，则在存储的时候，按照写入规则将可能会合并的两个条带中的原始数据库分开存储（也就是分别存储在不同存储节点），并将校验数据库集中存储（也就是存储到相同的存储节点），从而在执行合并任务的时候，能够有效避免数据迁移所带来的流量开销。

在本申请的一个或者多个实施例中，所述判断所述第一数据条带与所述第一数据条带是否具有合并需求，包括：若感知到所述第一数据条带和/或所述第二数据条带对应的原始数据存在由热数据变为冷数据的数据类型变化需求，则确定所述第一数据条带和/或所述第二数据条带具有合并需求。

在实际应用中，由于热数据的使用频率比冷数据使用频率高，因此，若为热数据则在频繁读写过程中，容易出错，为了提高容错能力和恢复数据能力，以第二数据条带效率更高且所需流量更小。合并后的条带，当m值固定的情况下，k的数值越大，数据的冗余存储空间就占用的越少，但是当数据出现丢失时所需要读取的数据量就越大，数据丢失对用户请求的影响也就越大。但是若变为冷数据，则读写频率显著降低，出错的频率也显著降低，因此，可以考虑将该冷数据与其他冷数据对应的数据条带进行合并存储，从而能够节省出更多的存储资源。

此外，若在执行存储任务中，由于突发事件导致存储数据大量陡增，为了满足存储需求，也可以对当前已有数据条带进行合并处理。则可以根据这些原始数据的重要程度或者冷热程度，从中选择一些数据条带进行合并，并认为这些数据条带为具有合并需求。这里仅作为举例说明，在实际应用中还可能有其他原因导致某些数据条带具有合并需求，这里就不再一一举例说明。而且上述两种具有合并需求的情况仅作为举例说明，并不构成对本申请技术方案的限制，在实际应用中用户可以根据自己的需要对合并需求进行适应性调整和限定。

如图2为本申请举例说明的按照写入规则写入时的流程示意图。从图2中可以看到，所述若具有合并需求，则按照写入规则将所述第二数据条带中的第二校验数据块写入所述第一存储节点，包括：

步骤201：确定所述第一数据条带中所述第一校验数据块所在的第一存储节点，以及第一原始数据块所在的第二存储节点。

步骤202：若具有合并需求，则将所述第二数据条带中的第二校验数据块写入所述第一校验数据块所在的所述第一存储节点。

步骤203：将所述第二数据条带中的第二原始数据块写入未包含所述第一原始数据块的第三存储节点。

步骤204：若不具有合并需求，则将第二原始数据块和所述第二校验数据块存储在存储设备中包括所述第一存储节点和所述第二存储节点在内的任一存储节点。

在实际应用中，由于第一数据条带为在先写入存储设备的，为了使得后续数据写入满足写入规则，需要准确知道第一数据条带中各个原始数据块、校验数据块分别所在的存储节点。这里假设第一校验数据块存储在第一存储节点，第一原始数据块存储在第二存储节点。

在进行合并需求分析的时候，需要被判断的第一数据条带和第二数据条带都具有合并需求的时候，才被允许合并，若其中任意一个没有合并需求，或者两个都没有合并需求，则无法完成合并任务。当第一数据条带和第二数据条带都具有合并需求，和第一数据条带和第二数据条带不具有合并需求两种情况下，第二数据条带的存储方式不同。

简单来说，具有合并需求的情况下，要遵守写入规则，而不具有合并需求的情况下不需要遵守写入规则，而只需要确保第二数据条带写入的时候符合纠删码数据放置策略。具体来说，具有合并需求的时候，将所述第二数据条带中的第二校验数据块写入所述第一校验数据块所在的所述第一存储节点，以便在后续合并过程中，可以在第一存储节点中完成合并任务，而不需要进行校验数据块的迁移，避免不必要的流量开销。同时，将所述第二数据条带中的第二原始数据块写入未包含所述第一原始数据块的第三存储节点，这里所说的第三存储节点可以理解为除了存储有第一数据条带的数据块的第一存储节点、第二存储节点之外的任意一个存储节点，即便后续第一数据条带和第二数据条带被合并为一个数据条带，也不需要对第二原始数据块或第一原始数据块进行迁移，避免不必要的流量开销。

通过对原始数据的合并需求预先分析并预判，并按照写入规则执行后续数据的存储任务，能够为后续条带合并提供便利条件，以便合并的时候能够避免不必要的流量开销，还能提高合并效率。

为了便于理解，下面将结合具体实施例来举例说明。如图3为本申请实施例举例说明数据写入的示意图。从图3中可以看到，假设第一数据条带所具有的原始数据块分别为原始数据块D1和原始数据块D2，以及校验数据块P1。第二数据条带所具有的原始数据块分别为原始数据块D3和原始数据块D4，以及校验数据块P2。

假设第一数据条带为第一个写入的数据条带，先将第一数据条带的原始数据块D1和原始数据块D2，以及校验数据块P1写入。如图3所示，将原始数据块D1写入到存储节点1（Node1）中，将原始数据块D2写入到存储节点2（Node2）中，将校验数据块P1写入到存储节点5（Node5）中。

在接收到第二数据条带之后，将按照写入规则执行写入操作。具体来说，将原始数据块D3写入到存储节点6（Node6）中，将原始数据块D4写入到存储节点4（Node4）中，将校验数据块P2写入到存储节点5（Node5）中。

从而可以看到，在写入第二数据条带的时候，按照写入规则，使得原始数据块D1、原始数据块D2、原始数据块D3、原始数据块D4分别在不同的存储节点，同时还使得校验数据块P1和校验数据块P2在相同数据节点，能够为后续条带合并提供便利条件，以便合并的时候能够避免不必要的流量开销，还能提高合并效率。

在本申请的一个或者多个实施例中，所述响应于对所述第一数据条带和所述第二数据条带的条带合并请求，对所述第一存储节点中的所述第一校验数据块和所述第二校验数据块进行合并处理，得到第三数据条带，包括：

响应于对所述第一数据条带和所述第二数据条带的条带合并请求，判断所述第一数据条带与所述第二数据条带是否满足合并条件；

若满足合并条件，则将所述第一校验数据块与所述第二校验数据块合并生成第三校验数据块；

将所述第三校验数据块存储在所述第一存储节点，并删除所述第一存储节点中的所述第一校验数据块和所述第二校验数据块；

生成所述第三数据条带。

在实际应用中，需要判断同时具有合并需求的第一数据条带和第二数据条带当前是否满足合并条件。若满足合并条件，则意味着第一数据条带中的各个原始数据块与第二数据条带中的各个原始数据块分别存储在不同的存储节点，在对第一数据条带和第二数据条带合并的时候，不需要对这些原始数据模块进行迁移。同时，还意味着第一数据条带中的校验数据块和第二数据条带中的校验数据块在相同的存储节点，在对第一数据条带和第二数据条带合并的时候，可以直接在第一存储节点中进行合并，也不需要对第一校验数据块或第二校验数据块进行迁移。从而能够有效避免不必要流量开销，同时能够有效提高工作效率。这里所说的合并条件将在下述实施例中具体举例说明，这里就不在重复赘述。

通过上述方式，由于第二数据条带是按照写入规则写入的，在对第一数据条带和第二数据条带进行合并的时候，不需要做任何数据迁移任务，而是直接在第一存储节点中针对第一校验数据块和第二校验数据块进行合并处理，相比于传统的数据迁移合并来说，能够有效避免数据迁移所造成的流量开销。而且本申请技术方案合并过程更加简单，合并效率也更高。

如图4为本申请实施例举例说明的条带合并的示意图。从图4中可以看到，在存储节点中，分别存储有第一数据条带和第二数据条带的数据块。具体来说，第一数据条带的原始数据块D1存储在存储节点1（Node1）中，原始数据块D2存储在存储节点2（Node2）中，校验数据块P1存储在存储节点5（Node5）中。第二数据条带的原始数据块D3存储在存储节点6（Node6）中，将原始数据块D4存储在存储节点4（Node4）中，将校验数据块P2存储在存储节点5（Node5）中。在执行合并任务的时候，由于原始数据块D1、原始数据块D2、原始数据块D3、原始数据块D4分别在不同的存储节点中，也就不需要对任何一个原始数据块做迁移，能够有效避免原始数据块迁移引起的流量开销。同时，由于校验数据块P1和校验数据块P2都在存储节点5（Node5）中，可以直接进行合并，不需要对校验数据块P1或校验数据块P2中任何一个进行数据迁移，就可以得到第三校验数据块Pm，能够有效避免校验数据块迁移引起的流量开销。

在本申请的一个或者多个实施例中，所述条带合并请求的生成方式包括：判断所述第一数据条带和/或所述第二数据条带对应的原始数据的数据类型是否由热数据变为冷数据；若所述原始数据的访问频率低于频率阈值，或者访问间隔时长大于间隔阈值，则确定所述原始数据的数据类型由热数据变为冷数据；生成所述第一数据条带和/或所述第二数据条带对应的所述条带合并请求。

在实际应用中，热数据可以理解为是需要被计算节点频繁访问的在线类数据，冷数据可以理解为是对于离线类不经常访问的数据，比如企业备份数据、操作日志数据等。因此，在本方案中，可以针对冷热数据设定评价标准，比如，可以设定对原始数据进行访问的频率阈值，或对原始数据进行两次访问之间时间间隔的间隔阈值。

需要说明的是，还可以根据数据生命周期来判断原始数据的数据类型是否会发生变化，比如，具有明显周期性或季节性的数据，则会存在明显的冷热数据变化。

基于上述方案，可以预先知道原始数据是否会存在冷热数据类型的变化，若存在，则会对冷数据对应的条带进行合并处理，从而能够有效减少冷数据及其纠删码对存储空间的资源占用。通过预判的方式，按照写入规则指导后续写入的条带执行写入任务，以便后续能够实现无数据迁移的条带高效合并（本质上只需要对校验数据块进行合并，合并效率更高）。

在本申请的一个或者多个实施例中，判断所述第一数据条带与所述第二数据条带是否满足合并条件，包括：

判断所述第一数据条带的第一校验块和所述第二数据条带的第二校验块符合所述第三校验数据块的生成需求，若符合则确定满足条带合并条件；和/或，

判断所述第一数据条带和所述第二数据条带的数据生命周期是否匹配，若匹配则确定满足条带合并条件。

在实际应用中，判断第三数据条带的第三校验数据块是否可以由第一数据条带的第一校验数据块与第二数据条带的第二校验数据块生成。举例来说，第一校验数据块为：P1= x1 * D1 + x2 * D2，第二校验数据块为：P2 = y1 * D3 + y2 * D4，第三校验数据块为：P3=z1*D5+z2*D6。需要判断D5是否等于x1 * D1 + x2 * D2，以及判断D6是否等于y1 * D3+ y2 * D4。若判断结果为D5等于x1 * D1 + x2 * D2，以及D6等于y1 * D3 + y2 * D4，进而得到第三校验数据块为：P3 = z1 * (x1 * D1 + x2 * D2) + z2 * (y1 * D3 + y2 *D4)，则可知第一校验数据块和第二校验数据块符合第三校验数据块的生成需求。若判断结果为D5不等于x1 * D1 + x2 * D2，和/或D6不等于y1 * D3 + y2 * D4，则可知第一校验数据块和第二校验数据块不符合第三校验数据块的生成需求。因为当第一校验数据块以及第二校验数据块符合第三校验数据块的生成需求情况下的条带合并更加简单、快速、高效。

此外，还需要判断生命周期是否匹配，这里所说的匹配可以是完全相同或相近。尤其是基于生命周期确定原始数据的数据状态发生变化的时间是否完全相同或者相近。若匹配，则表示很快就可以对第一数据条带和第二数据条带进行合并。若不匹配，则表示其中一个数据条带要等待很久才能够合并。

除此之外，还需要判断当前原始数据块和校验数据块的存储规则是否满足前文所述的写入规则。若不满足，则还需要对某些原始数据块和/或校验数据块进行数据迁移。

在本申请的一个或者多个实施例中，所述若满足合并条件，则将所述第一校验数据块与所述第二校验数据块合并生成第三校验数据块，包括：

若满足合并条件，则将合并任务发送给所述第一存储节点，以便在所述第一存储节点中基于所述第一校验数据块与所述第二校验数据块进行编码处理，生成所述第三校验数据块。

如前文所述，在分布式存储系统中，有的存储节点是同时具有计算能力和存储能力的，因此，在进行合并的时候，可以由各个存储节点执行合并任务。具体来说，当存储系统接收到合并请求之后，由于待合并的第一校验数据块和第二校验数据块同时存储在同一个第一存储节点中，因此，可以直接给第一存储节点发送合并任务，并由第一存储节点自己进行合并得到第三校验数据块。在执行编码处理的时候，按照目标编码参数执行编码处理任务。在得到第三校验数据块后，将原本存储在第一存储节点中的第一校验数据块和第二校验数据库删除，避免占用存储资源，由两个数据块合并为一个数据块，进一步减少对存储空间的占用。

在本申请的一个或者多个实施例中，按照写入规则将所述第二数据条带中的第二校验数据块写入所述第一存储节点，还包括：若所述第一存储节点中包含有多个校验数据块，则按照合并先后顺序将所述第二校验数据块写入所述第一存储节点。

在实际应用中，若有多个数据条带都有合并需求，而且都满足相同的合并条件，那么在合并的时候，则可以采用临近合并的方式。具体来说，由于有多个条带同时具有合并需求，可以将多个条带合并为一个条带，也可以将多个条带合并为少量条带，则会根据合并先后顺序或者进行合并分组。为了方便后续合并，在写入校验数据块的时候，根据合并先后顺序或者写入先后顺序写入。并按照存储节点中的顺序采用临近合并的方案。该方式适合多个条带同时具有合并需求、同时符合合并条件的情况。由于本方案进行条带合并的时候本质上只需要对校验数据块合并就可以了，因此只需要对校验数据块顺序存储，从而能够有效提高条带合并效率。

基于同样的思路，本申请实施例还提供一种数据处理系统。如图5为本申请实施例提供的数据处理系统的结构示意图。从图5中可以看到，该系统包括：

客户端51，向存储设备52发送待存储的原始数据；

所述存储设备52，包括多个存储节点53，用于执行图1至图4中各个实施例所述的方法对所述原始数据对应的数据条带进行处理。

具体来说，存储设备52用于确定已存储第一数据条带中的第一校验数据块所在的第一存储节点；接收到第二数据条带后，判断所述第一数据条带与所述第一数据条带是否具有合并需求；若具有合并需求，则按照写入规则将所述第二数据条带中的第二校验数据块写入所述第一存储节点；响应于对所述第一数据条带和所述第二数据条带的条带合并请求，对所述第一存储节点中的所述第一校验数据块和所述第二校验数据块进行合并处理，得到第三数据条带。

该数据处理系统中可以包含客户端51和存储设备52，其中存储设备52可以是由多个存储节点521构成分布式存储关系。每个存储节点中都可以配置计算单元和存储单元，从而使得每个存储节点都具有计算能力和存储能力。随着存储需求增多、存储的原始数据量增多，对应的用于保证数据安全的数据副本和/或纠删码数据等也增多，存储资源变得比较紧张。在实际应用中，不同场景中原始数据的使用频率不同，比如具有明显季节性或周期性的数据，则会在某个特定时段使用比较频繁，而在其他时段则几乎无使用需求，容易理解的是，使用频率越低，发生数据丢失或故障的可能性也会相对降低，则可以针对这类原始数据及对应的纠删码数据进行合并整理。首先需要说明的是，纠删码数据放置策略中限定同一条带中的各个原始数据块和校验数据块不允许放置在相同的存储节点中。对于被合并的第一数据条带和第二数据条带，也需要各自的原始数据块都在不同的存储节点中。但是在执行条带合并的时候，校验数据块需要重新编码，因此，为了避免校验数据块迁移的流量开销，还需要各自的校验数据块在相同的存储节点中。该数据处理系统在执行写入任务的时候按照写入规则写入，以便后续能够实现对条带高效率、低流量开销的执行合并任务，降低对存储资源的占用。

基于同样的思路，本身实施例还提供一种数据处理装置。如图6为本申请实施例提供的数据处理装置的结构示意图。从图6中可以看到，所述装置包括：

确定模块61，用于确定已存储第一数据条带中的第一校验数据块所在的第一存储节点。

判断模块62，用于接收到第二数据条带后，判断所述第一数据条带与所述第一数据条带是否具有合并需求。

写入模块63，用于若具有合并需求，则按照写入规则将所述第二数据条带中的第二校验数据块写入所述第一存储节点。

合并模块64，用于响应于对所述第一数据条带和所述第二数据条带的条带合并请求，对所述第一存储节点中的所述第一校验数据块和所述第二校验数据块进行合并处理，得到第三数据条带。

可选地，判断模块62，还用于若感知到所述第一数据条带和/或所述第二数据条带对应的原始数据存在由热数据变为冷数据的数据类型变化需求，则确定所述第一数据条带和/或所述第二数据条带具有合并需求。

可选地，写入模块63，还用于确定所述第一数据条带中所述第一校验数据块所在的第一存储节点，以及第一原始数据块所在的第二存储节点；

若具有合并需求，则将所述第二数据条带中的第二校验数据块写入所述第一校验数据块所在的所述第一存储节点；

将所述第二数据条带中的第二原始数据块写入未包含所述第一原始数据块的第三存储节点。

可选地，写入模块63，还用于若不具有合并需求，则将第二原始数据块和所述第二校验数据块存储在存储设备中包括所述第一存储节点和所述第二存储节点在内的任一存储节点。

可选地，合并模块64，用于响应于对所述第一数据条带和所述第二数据条带的条带合并请求，判断所述第一数据条带与所述第二数据条带是否满足合并条件；

生成所述第三数据条带。

可选地，还包括生成模块65用于判断所述第一数据条带和/或所述第二数据条带对应的原始数据的数据类型是否由热数据变为冷数据；

若所述原始数据的访问频率低于频率阈值，或者访问间隔时长大于间隔阈值，则确定所述原始数据的数据类型由热数据变为冷数据；

生成所述第一数据条带和/或所述第二数据条带对应的所述条带合并请求。

可选地，判断模块62，用于判断所述第一数据条带的第一校验块和所述第二数据条带的第二校验块符合所述第三校验数据块的生成需求，若符合则确定满足条带合并条件；和/或，

可选地，合并模块64，用于若满足合并条件，则将合并任务发送给所述第一存储节点，以便在所述第一存储节点中基于所述第一校验数据块与所述第二校验数据块进行编码处理，生成所述第三校验数据块。

可选地，写入模块63，还用于若所述第一存储节点中包含有多个校验数据块，则按照合并先后顺序将所述第二校验数据块写入所述第一存储节点。

本申请一个实施例还提供一种电子设备。该电子设备为计算单元中主节点电子设备。如图7为本申请实施例提供的一种电子设备的结构示意图。该电子设备包括存储器701、处理器702及通信组件703；其中，

所述存储器701，用于存储程序；

所述处理器702，与所述存储器耦合，用于执行所述存储器中存储的所述程序，以用于：

确定已存储第一数据条带中的第一校验数据块所在的第一存储节点；接收到第二数据条带后，判断所述第一数据条带与所述第一数据条带是否具有合并需求；若具有合并需求，则按照写入规则将所述第二数据条带中的第二校验数据块写入所述第一存储节点；响应于对所述第一数据条带和所述第二数据条带的条带合并请求，对所述第一存储节点中的所述第一校验数据块和所述第二校验数据块进行合并处理，得到第三数据条带。

处理器702还用于若感知到所述第一数据条带和/或所述第二数据条带对应的原始数据存在由热数据变为冷数据的数据类型变化需求，则确定所述第一数据条带和/或所述第二数据条带具有合并需求。

处理器702还用于确定所述第一数据条带中所述第一校验数据块所在的第一存储节点，以及第一原始数据块所在的第二存储节点；

处理器702还用于若不具有合并需求，则将第二原始数据块和所述第二校验数据块存储在存储设备中包括所述第一存储节点和所述第二存储节点在内的任一存储节点。

处理器702还用于响应于对所述第一数据条带和所述第二数据条带的条带合并请求，判断所述第一数据条带与所述第二数据条带是否满足合并条件；

生成所述第三数据条带。

处理器702还用于判断所述第一数据条带和/或所述第二数据条带对应的原始数据的数据类型是否由热数据变为冷数据；

处理器702还用于判断所述第一数据条带的第一校验块和所述第二数据条带的第二校验块符合所述第三校验数据块的生成需求，若符合则确定满足条带合并条件；和/或，

处理器702还用于若满足合并条件，则将合并任务发送给所述第一存储节点，以便在所述第一存储节点中基于所述第一校验数据块与所述第二校验数据块进行编码处理，生成所述第三校验数据块。

处理器702还用于若所述第一存储节点中包含有多个校验数据块，则按照合并先后顺序将所述第二校验数据块写入所述第一存储节点。

上述存储器701可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（SRAM），电可擦除可编程只读存储器（EEPROM），可擦除可编程只读存储器（EPROM），可编程只读存储器（PROM），只读存储器（ROM），磁存储器，快闪存储器，磁盘或光盘。

进一步地，本实施例中的所述处理器702可以具体是：可编程交换处理芯片，该可编程交换处理芯片中配置有数据复制引擎，能对接收到的数据进行复制。

上述处理器702在执行存储器中的程序时，除了上面的功能之外，还可实现其它功能，具体可参见前面各实施例的描述。进一步，如图7所示，电子设备还包括：电源组件704等其它组件。

本申请实施例还提供一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行图1对应实施例所述的方法。

基于上述实施例，在进行纠删码存储的时候，会预先判断数据条带是否有合并需求，比如，原始数据的数据类型由热数据变为冷数据，则为了节省存储空间会对纠删码的数据条带进行合并处理。若有合并需求，则会根据预设的写入规则将后续的至少一个第二数据条带按照写入规则进行写入，从而使得第二数据条带的第二校验数据块与在先存储的第一数据条带的第一校验数据块在同一个存储节点中，当需要对第一数据条带和第二数据条带合并的时候，可以基于第一存储节点直接执行合并任务，将第一校验数据块和第二校验数据块合并，从而得到第三数据条带。通过上述方案，在对数据条带写入的时候按照写入规则执行写入任务，以便后续执行数据条带合并的时候可以直接进行合并，而不需要对校验数据块进行迁移，在满足降低存储资源占用的同时，还能够有效减少在合并过程中流量开销，还能够有效提高数据条带合并效率。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种数据处理方法，应用于存储设备，所述方法包括：

接收到第二数据条带后，判断所述第一数据条带与所述第一数据条带是否具有合并需求；所述合并需求包括：数据条带对应的原始数据存在由热数据变为冷数据的数据类型变化需求；

若具有合并需求，则按照写入规则将所述第二数据条带中的第二校验数据块写入存储有所述第一校验数据块的所述第一存储节点；其中，所述写入规则包括：将待合并的数据条带中的原始数据块分别写入在不同存储节点，各个校验数据块写入在相同存储节点；

2.根据权利要求1所述的方法，所述判断所述第一数据条带与所述第一数据条带是否具有合并需求，包括：

若感知到所述第一数据条带和/或所述第二数据条带对应的原始数据存在由热数据变为冷数据的数据类型变化需求，则确定所述第一数据条带和/或所述第二数据条带具有合并需求。

3.根据权利要求1所述的方法，所述若具有合并需求，则按照写入规则将所述第二数据条带中的第二校验数据块写入所述第一存储节点，包括：

确定所述第一数据条带中所述第一校验数据块所在的第一存储节点，以及第一原始数据块所在的第二存储节点；

4.根据权利要求3所述的方法，还包括：

若不具有合并需求，则将第二原始数据块和所述第二校验数据块存储在存储设备中包括所述第一存储节点和所述第二存储节点在内的任一存储节点。

5.根据权利要求1至4中任一项所述的方法，所述响应于对所述第一数据条带和所述第二数据条带的条带合并请求，对所述第一存储节点中的所述第一校验数据块和所述第二校验数据块进行合并处理，得到第三数据条带，包括：

生成所述第三数据条带。

6.根据权利要求1所述的方法，所述条带合并请求的生成方式包括：

判断所述第一数据条带和/或所述第二数据条带对应的原始数据的数据类型是否由热数据变为冷数据；

7.根据权利要求5所述的方法，判断所述第一数据条带与所述第二数据条带是否满足合并条件，包括：

8.根据权利要求5所述的方法，所述若满足合并条件，则将所述第一校验数据块与所述第二校验数据块合并生成第三校验数据块，包括：

9.根据权利要求1所述的方法，按照写入规则将所述第二数据条带中的第二校验数据块写入所述第一存储节点，还包括：

若所述第一存储节点中包含有多个校验数据块，则按照合并先后顺序将所述第二校验数据块写入所述第一存储节点。

10.一种数据处理系统，所述系统包括：

客户端，向存储设备发送待存储的原始数据；

所述存储设备，包括多个存储节点，用于执行权利要求1至9中任一项所述的方法对所述原始数据对应的数据条带进行处理。

11.一种数据处理装置，所述装置包括：

判断模块，用于接收到第二数据条带后，判断所述第一数据条带与所述第一数据条带是否具有合并需求；所述合并需求包括：数据条带对应的原始数据存在由热数据变为冷数据的数据类型变化需求；

写入模块，用于若具有合并需求，则按照写入规则将所述第二数据条带中的第二校验数据块写入存储有所述第一校验数据块的所述第一存储节点；其中，所述写入规则包括：将待合并的数据条带中的原始数据块分别写入在不同存储节点，各个校验数据块写入在相同存储节点；

12.一种电子设备，包括存储器及处理器；其中，

所述存储器，用于存储程序；

所述处理器，与所述存储器耦合，用于执行所述存储器中存储的所述程序，以用于实现上述权利要求1至9中任一项所述的方法。

13.一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至9中任一项所述的方法。