CN113608695A

CN113608695A - 一种数据处理方法、系统、设备以及介质

Info

Publication number: CN113608695A
Application number: CN202110865895.5A
Authority: CN
Inventors: 张义坤; 孟祥瑞
Original assignee: Jinan Inspur Data Technology Co Ltd
Current assignee: Jinan Inspur Data Technology Co Ltd
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2021-11-05

Abstract

本发明公开了一种数据处理方法，包括以下步骤：响应于接收到写请求，判断所述写请求携带的待写入数据的大小是否大于预设大小；响应于待写入数据的大小大于预设大小，判断所述待写入数据的大小是否为所述预设大小的整数倍；响应于所述待写入数据的大小不是所述预设大小的整数倍，将所述待写入数据拆分成第一子数据块和若干个第二子数据块，其中每一个第二子数据块的大小等于所述预设大小；将所述第一子数据块写入缓存池并将每一个第二子数据块写入数据池。本发明还公开了一种系统、计算机设备以及可读存储介质。本发明提出的方案能够控制缓存池水位不会快速上升，同时减少了缓存下刷、淘汰操作的次数。

Description

一种数据处理方法、系统、设备以及介质

技术领域

本发明涉及存储领域，具体涉及一种数据处理方法、系统、设备以及存储介质。

背景技术

分布式的集群一般采用机械盘存放数据，其特点：容量大，但I/O性能较低，尤其随机IO性能，为了提升存储系统的I/O性能，一种方法是全部使用更快速的磁盘设备（例如SSD，固态硬盘）构造集群；另一方法是部分使用更快速的磁盘设备创建cache。第一种方法能快速提升性能，但成本较高。目前大多使用第二种方式，即在数据池之前添加一个由SSD创建的缓存池，即通过分层缓存，提升客户端的I/O性能。但ceph集群原生的分层存储不能根据IO大小进行存储，且不同的I/O场景需要设置不同的cache mode，局限性很大。原生ceph虽然支持缓存池采用副本的方式存储数据，数据池采用纠删的方式存储数据，但缓存池与数据池的I/O大小没有联系，会跨分片读写，降低读写性能。

发明内容

有鉴于此，为了克服上述问题的至少一个方面，本发明实施例提出一种数据处理方法，包括以下步骤：

响应于接收到写请求，判断所述写请求携带的待写入数据的大小是否大于预设大小；

响应于待写入数据的大小大于预设大小，判断所述待写入数据的大小是否为所述预设大小的整数倍；

响应于所述待写入数据的大小不是所述预设大小的整数倍，将所述待写入数据拆分成第一子数据块和若干个第二子数据块，其中每一个第二子数据块的大小等于所述预设大小；

将所述第一子数据块写入缓存池并将每一个第二子数据块写入数据池，

响应于所述待写入数据是初次写，将所述第一子数据块和所述第二子数据块分别在缓存池和数据池的位置进行记录，

响应于所述待写入数据不是初次写，确定所述待写入数据是覆盖写还是追加写，

响应于所述待写入数据是覆盖写，利用待写入数据将之前的数据覆盖，并且

响应于所述待写入数据是追加写，直接将待写入数据写入到相应位置。

在一些实施例中，还包括：

响应于所述待写入数据的大小是所述预设大小的整数倍，将所述待写入数据只拆分成若干个第二子数据块，其中每一个第二子数据块的大小等于所述预设大小；

将每一个所述第二子数据块写入数据池。

在一些实施例中，方法还包括：

判断所述写请求中携带的待写入数据对应的对象是否存在对应的元数据；

响应于不存在对应的元数据，将第一子数据块和/或第二子数据块的写入位置记录到元数据中。

在一些实施例中，方法还包括：

响应于存在对应的元数据，更新元数据中相应的写入位置。

在一些实施例中，方法还包括：

响应于接收到读请求，确定所述读请求中待读取数据对应的对象；

根据所述待读取数据对应的对象确定相应的元数据；

根据所述相应的元数据确定在缓存池中的部分待读取数据和/或在数据池中的剩余部分数据；

从所述缓存池中获取所述部分待读取数据和/或从所述数据池中获取所述剩余部分数据；

将所述部分待读取数据和所述剩余部分数据合并后返回。

在一些实施例中，方法还包括：

响应于所述缓存池中的数据量达到阈值，将所述缓存池中的数据下刷到所述数据池。

在一些实施例中，将所述缓存池中的数据下刷到所述数据池，进一步包括：

将所述缓存池中大小大于阈值的数据块下刷到所述数据池。

基于同一发明构思，根据本发明的另一个方面，本发明的实施例还提供了一种数据处理系，包括：

第一判断模块，配置为响应于接收到写请求，判断所述写请求携带的待写入数据的大小是否大于预设大小；

第二判断模块，配置为响应于待写入数据的大小大于预设大小，判断所述待写入数据的大小是否为所述预设大小的整数倍；

拆分模块，配置为响应于所述待写入数据的大小不是所述预设大小的整数倍，将所述待写入数据拆分成第一子数据块和若干个第二子数据块，其中每一个第二子数据块的大小等于所述预设大小；

写入模块，配置为将所述第一子数据块写入缓存池并将每一个第二子数据块写入数据池，

第三判断模块，配置为：

基于同一发明构思，根据本发明的另一个方面，本发明的实施例还提供了一种计算机设备，包括：

至少一个处理器；以及

存储器，所述存储器存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时执行以下步骤：

在一些实施例中，还包括：

将每一个所述第二子数据块写入数据池。

在一些实施例中，步骤还包括：

响应于存在对应的元数据，更新元数据中相应的写入位置。

在一些实施例中，步骤还包括：

根据所述待读取数据对应的对象确定相应的元数据；

将所述部分待读取数据和所述剩余部分数据合并后返回。

在一些实施例中，步骤还包括：

将所述缓存池中大小大于阈值的数据块下刷到所述数据池。

基于同一发明构思，根据本发明的另一个方面，本发明的实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时执行以下步骤：

在一些实施例中，步骤还包括：

将每一个所述第二子数据块写入数据池。

在一些实施例中，步骤还包括：

响应于存在对应的元数据，更新元数据中相应的写入位置。

在一些实施例中，步骤还包括：

根据所述待读取数据对应的对象确定相应的元数据；

将所述部分待读取数据和所述剩余部分数据合并后返回。

在一些实施例中，步骤还包括：

将所述缓存池中大小大于阈值的数据块下刷到所述数据池。

本发明具有以下有益技术效果之一：本发明实施例提出的方案能够使得缓存池的水位不会快速上升，缓存池的空间得到了很好的使用，进而减少了缓存下刷、淘汰操作的次数，加快了集群读写请求的执行效率，降低了客户端请求响应延时，提高了系统的整体存储性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1为本发明的实施例提供的数据处理方法的流程示意图；

图2为本发明的实施例提供的数据处理系统的结构示意图；

图3为本发明的实施例提供的计算机设备的结构示意图；

图4为本发明的实施例提供的计算机可读存储介质的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

根据本发明的一个方面，本发明的实施例提出一种数据处理方法，如图1所示，其可以包括步骤：

S1，响应于接收到写请求，判断所述写请求携带的待写入数据的大小是否大于预设大小；

S2，响应于待写入数据的大小大于预设大小，判断所述待写入数据的大小是否为所述预设大小的整数倍；

S3，响应于所述待写入数据的大小不是所述预设大小的整数倍，将所述待写入数据拆分成第一子数据块和若干个第二子数据块，其中每一个第二子数据块的大小等于所述预设大小；

S4，将所述第一子数据块写入缓存池并将每一个第二子数据块写入数据池。

本发明实施例提出的方案能够使得缓存池的水位不会快速上升，缓存池的空间得到了很好的使用，进而减少了缓存下刷、淘汰操作的次数，加快了集群读写请求的执行效率，降低了客户端请求响应延时，提高了系统的整体存储性能。

在一些实施例中，还包括：

将每一个所述第二子数据块写入数据池。

具体的，当接收到写请求时，可以先判断待写入的数据的大小是否大于数据池的纠删条带，若不大于纠删条带，则可以直接将其存储到缓存池。如大于数据池的纠删条带，则可以再判断待写入的数据的大小是否为纠删条带的整数倍，如果是整数倍，则直接将其分成多个纠删条带大小的子数据块（第二子数据块），然后将每一个子数据块再存储到数据池。如果不是纠删条带的整数倍，则需要将其拆分成一个第一子数据块和若干个第二子数据块，将第一子数据块存储到缓存池，将每一个第二子数据块存储到数据池。

例如，纠删条带的大小为1M，待写入的数据的大小为5.2M时，其中0.2M的数据写入缓存池，其余5M的数据分成5个1M大小的子数据块写入数据池。待写入的数据的大小为5M时，直接将其分成5个1M大小的子数据块写入数据池。待写入的数据的大小为0.2M时，直接将其写入缓存池。

在一些实施例中，还包括：

具体的，当接收到写请求中，可以先确定写请求中携带的待写入的数据对应的对象是否是现有对象，即本次写入是初次写还是覆盖写或追加写。若不存在对应的元数据，则说明本次是初次写，则可以将第一子数据块和/或第二子数据块分别在缓存池和数据池的位置记录到元数据中，这样当进行数据读取时，可以根据元数据中记录的位置分别到缓存池和数据池中获取到相应的数据块，然后将其合并后返回给数据请求方。

在一些实施例中，还包括：

响应于存在对应的元数据，更新元数据中相应的写入位置。

具体的，若存在对应的元数据，则说明本次为追加写或覆盖写，则可以根据写请求中携带的数据写入位置，确定是追加写还是覆盖写，如果写请求中携带的写入位置与之前的数据的位置有重合，则说明是覆盖写，则利用写请求中的数据将之前的数据覆盖，并在元数据中更新写入位置，如果未重合，则说明是追加写，直接将写请求中携带的数据写入到相应位置即可。

在一些实施例中，还包括：

根据所述待读取数据对应的对象确定相应的元数据；

将所述部分待读取数据和所述剩余部分数据合并后返回。

具体的，当接收到请求为读请求时，可以先确定所述读请求中待读取数据对应的对象，然后根据对象找到对应的元数据，接着根据元数据中记录的待读取数据在缓存池中和/或数据池中的位置，最后即可根据在缓存池中和/或数据池中的位置读取到相应的数据。

若待读取的数据只存在缓存池或者数据池，则直接在缓存池或数据池中将数据获取到后返回即可，若待读取数据一部分在缓存池，一部分在数据池，则需要在缓存池和数据池中分别获取到相应的数据，然后进行合并后返回。

在一些实施例中，还包括：

将所述缓存池中大小大于阈值的数据块下刷到所述数据池。

具体的，当缓存池中的数据量达到阈值，这时需要将缓存池中的数据下发到数据池，并且可以优先下刷数据块较大的数据。

基于同一发明构思，根据本发明的另一个方面，本发明的实施例还提供了一种数据处理系400，如图2所示，包括：

第一判断模块401，配置为响应于接收到写请求，判断所述写请求携带的待写入数据的大小是否大于预设大小；

第二判断模块402，配置为响应于待写入数据的大小大于预设大小，判断所述待写入数据的大小是否为所述预设大小的整数倍；

拆分模块403，配置为响应于所述待写入数据的大小不是所述预设大小的整数倍，将所述待写入数据拆分成第一子数据块和若干个第二子数据块，其中每一个第二子数据块的大小等于所述预设大小；

写入模块404，配置为将所述第一子数据块写入缓存池并将每一个第二子数据块写入数据池。

在一些实施例中，还包括：

将每一个所述第二子数据块写入数据池。

在一些实施例中，还包括：

响应于存在对应的元数据，更新元数据中相应的写入位置。

在一些实施例中，还包括：

根据所述待读取数据对应的对象确定相应的元数据；

将所述部分待读取数据和所述剩余部分数据合并后返回。

在一些实施例中，还包括：

将所述缓存池中大小大于阈值的数据块下刷到所述数据池。

基于同一发明构思，根据本发明的另一个方面，如图3所示，本发明的实施例还提供了一种计算机设备501，包括：

至少一个处理器520；以及

存储器510，存储器510存储有可在处理器上运行的计算机程序511，处理器520执行程序时执行以下步骤：

在一些实施例中，还包括：

将每一个所述第二子数据块写入数据池。

在一些实施例中，还包括：

响应于存在对应的元数据，更新元数据中相应的写入位置。

在一些实施例中，还包括：

根据所述待读取数据对应的对象确定相应的元数据；

将所述部分待读取数据和所述剩余部分数据合并后返回。

在一些实施例中，还包括：

将所述缓存池中大小大于阈值的数据块下刷到所述数据池。

基于同一发明构思，根据本发明的另一个方面，如图4所示，本发明的实施例还提供了一种计算机可读存储介质601，计算机可读存储介质601存储有计算机程序指令610，计算机程序指令610被处理器执行时执行以下步骤：

在一些实施例中，还包括：

将每一个所述第二子数据块写入数据池。

在一些实施例中，还包括：

响应于存在对应的元数据，更新元数据中相应的写入位置。

在一些实施例中，还包括：

根据所述待读取数据对应的对象确定相应的元数据；

将所述部分待读取数据和所述剩余部分数据合并后返回。

在一些实施例中，还包括：

将所述缓存池中大小大于阈值的数据块下刷到所述数据池。

最后需要说明的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件来完成，程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。

此外，应该明白的是，本文的计算机可读存储介质（例如，存储器）可以是易失性存储器或非易失性存储器，或者可以包括易失性存储器和非易失性存储器两者。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能，但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。

以上是本发明公开的示例性实施例，但是应当注意，在不背离权利要求限定的本发明实施例公开的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外，尽管本发明实施例公开的元素可以以个体形式描述或要求，但除非明确限制为单数，也可以理解为多个。

应当理解的是，在本文中使用的，除非上下文清楚地支持例外情况，单数形式“一个”旨在也包括复数形式。还应当理解的是，在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。

上述本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明实施例公开的范围（包括权利要求）被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种数据处理方法，其特征在于，包括以下步骤：

将所述第一子数据块写入缓存池并将每一个第二子数据块写入数据池；

响应于所述待写入数据是初次写，将所述第一子数据块和所述第二子数据块分别在缓存池和数据池的位置进行记录；

响应于所述待写入数据不是初次写，确定所述待写入数据是覆盖写还是追加写；

响应于所述待写入数据是覆盖写，利用待写入数据将之前的数据覆盖；并且

2.如权利要求1所述的方法，其特征在于，还包括：

将每一个所述第二子数据块写入数据池。

3.如权利要求1或2所述的方法，其特征在于，还包括：

4.如权利要求3所述的方法，其特征在于，还包括：

响应于存在对应的元数据，更新元数据中相应的写入位置。

5.如权利要求4所述的方法，其特征在于，还包括：

根据所述待读取数据对应的对象确定相应的元数据；

将所述部分待读取数据和所述剩余部分数据合并后返回。

6.如权利要求1所述的方法，其特征在于，还包括：

7.如权利要求6所述的方法，其特征在于，将所述缓存池中的数据下刷到所述数据池，进一步包括：

将所述缓存池中大小大于阈值的数据块下刷到所述数据池。

8.一种数据处理系统，其特征在于，包括：

写入模块，配置为将所述第一子数据块写入缓存池并将每一个第二子数据块写入数据池，以及

第三判断模块，配置为：

9.一种计算机设备，包括：

至少一个处理器；以及

存储器，所述存储器存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时执行如权利要求1-7任意一项所述的方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时执行如权利要求1-7任意一项所述的方法的步骤。