CN113625953B

CN113625953B - 一种数据处理方法、装置、设备及存储介质

Info

Publication number: CN113625953B
Application number: CN202110741580.XA
Authority: CN
Inventors: 赵宝林
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2023-08-22
Anticipated expiration: 2041-06-30
Also published as: CN113625953A

Abstract

本发明公开了一种数据处理方法、装置、设备及存储介质；在本方案中，在存储第一数据时，若存在第二数据与第一数据的特征值相同，则说明第一数据为重复或者相似数据，此时需要将第一数据与第二数据的对比数据压缩后存储，由于第一数据与第二数据是相同或者相似的数据，因此其生成的对比数据中将包括大量的0值，因此可使得对比数据压缩时具有较高的压缩率，从而节省存储空间，提高存储空间利用率。

Description

一种数据处理方法、装置、设备及存储介质

技术领域

本发明涉及数据存储技术领域，更具体地说，涉及一种数据处理方法、装置、设备及存储介质。

背景技术

随着互联网、云计算、物联网、大数据等技术的发展及广泛应用，在人类生活中，时时刻刻都会产生海量的数据，这些海量的数据需要进行处理和存储，信息技术的快速发展对存储系统的性能提出了更高的要求。固态硬盘(Solid State Drive，SSD)因为其读写速度快、能耗低，而被广泛的应用。

当前固态硬盘的使用变得越来越广泛，对固态硬盘的性能、容量的要求都更高，随着闪存技术的发展、主控芯片的性能提高，固态硬盘的相关技术不断更新，使得能够尽可能满足应用的需求。在SSD应用中，固态硬盘的容量、寿命及性能是评价产品的重要指标，如何在有限的资源下提供更高的容量、更长的寿命和更好的性能成为SSD固件开发及相关技术的重要问题。目前，提高空间利用率能够很好的提高寿命和有效容量，目前通常情况下直接将数据进行压缩以节省数据空间占用，但是通过该方式压缩数据时，压缩率无法得到保证，空间节省程度也就无法保证。

发明内容

本发明的目的在于提供一种数据处理方法、装置、设备及存储介质，以提高存储数据时的数据压缩率，从而节省存储空间，提高存储空间利用率。

为实现上述目的，本发明提供一种数据处理方法，包括：

确定待存储的第一数据的目标逻辑地址；

计算所述第一数据的第一特征值；

判断L2P表中是否存储与所述第一特征值相同的表项；

若存在，则将与所述第一特征值相同的第一表项对应的第二数据与所述第一数据进行对比，并将第一对比数据压缩后存储；

将与所述目标逻辑地址对应的第二表项存储至所述L2P表；所述第二表项包括：所述第一表项的物理地址、所述第一特征值及第一VALUE值，所述第一VALUE值为所述第一对比数据压缩后存储的物理地址。

其中，若所述L2P表中未存储与所述第一特征值相同的表项，则所述数据处理方法还包括：

存储所述第一数据；

将与所述第一数据对应的第三表项存储至所述L2P表；所述第三表项包括：所述第一数据存储的物理地址、所述第一特征值及第二VALUE值，所述第二VALUE值为零。

其中，所述将与所述第一特征值相同的第一表项对应的第二数据与所述第一数据进行对比，包括：

判断所述L2P表是否存在至少两个与所述第一特征值相同的表项；

若否，则将与所述第一特征值相同的表项作为第一表项，并将所述第一表项对应的第二数据与所述第一数据进行对比；

若是，则从与所述第一特征值相同的表项中选择VALUE值为零的表项作为第一表项，并将所述第一表项对应的第二数据与所述第一数据进行对比。

其中，所述将所述第一表项对应的第二数据与所述第一数据进行对比，包括：

利用按位异或方式将所述第二数据与所述第一数据进行对比。

其中，所述将第一对比数据压缩后存储，包括：

将多个压缩后的第一对比数据组合写入NAND。

其中，所述计算所述第一数据的第一特征值，包括：

计算所述第一数据的哈希值，将所述哈希值作为所述第一特征值。

其中，还包括：

确定待读取的第三数据；

根据所述第三数据的逻辑地址从所述L2P表获取对应的第四表项；

若所述第四表项中的VALUE值为零，则直接根据所述第四表项中的物理地址读取所述第三数据；

否则，根据所述第四表项中VALUE值读取对应的压缩数据，对所述压缩数据解压后获得第二对比数据，通过所述第四表项中与物理地址对应的数据对所述第二对比数据进行还原，得到所述第三数据。

为实现上述目的，本发明进一步提供一种数据处理装置，包括：

第一确定模块，用于确定待存储的第一数据的目标逻辑地址；

计算模块，用于计算所述第一数据的第一特征值；

判断模块，用于判断L2P表中是否存储与所述第一特征值相同的表项；若存在，则触发对比模块；

所述对比模块，用于将与所述第一特征值相同的第一表项对应的第二数据与所述第一数据进行对比；

第一存储模块，用于将第一对比数据压缩后存储；

第二存储模块，用于将与所述目标逻辑地址对应的第二表项存储至所述L2P表；所述第二表项包括：所述第一表项的物理地址、所述第一特征值及第一VALUE值，所述第一VALUE值为所述第一对比数据压缩后存储的物理地址。

为实现上述目的，本发明进一步提供一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述数据处理方法的步骤。

为实现上述目的，本发明进一步提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述数据处理方法的步骤。

通过以上方案可知，本发明实施例提供的一种数据处理方法、装置、设备及存储介质；在本方案中，在存储第一数据时，若存在第二数据与第一数据的特征值相同，则说明第一数据为重复或者相似数据，此时需要将第一数据与第二数据的对比数据压缩后存储，由于第一数据与第二数据是相同或者相似的数据，因此其生成的对比数据中将包括大量的0值，因此可使得对比数据压缩时具有较高的压缩率，从而节省存储空间，提高存储空间利用率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例公开的一种数据处理方法流程示意图；

图2为本发明实施例公开的一种数据处理装置结构示意图；

图3为本发明实施例公开的一种电子设备结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种数据处理方法、装置、设备及存储介质，以提高存储数据时的数据压缩率，从而节省存储空间，提高存储空间利用率，提升SSD盘的使用率，减少NAND磨损提升寿命及性能。

参见图1，本发明实施例提供的一种数据处理方法流程示意图，通过图1可知，该数据处理方法包括：

S101、确定待存储的第一数据的目标逻辑地址；

在本实施例中，数据可存储至SSD的NAND(计算机闪存设备)。本方案中的SSD在响应主机host写入时，将每个LBA(logical block address，逻辑地址)作为目标逻辑地址，每个LBA所对应的4k数据则作为第一数据。

S102、计算第一数据的第一特征值；

在本实施例中，计算第一数据的第一特征值时，可以计算第一数据的哈希值，将哈希值作为第一特征值。也可以计算第一数据的MD5值，将MD5值作为第一特征值，在此并不具体限定。

S103、判断L2P表中是否存储与第一特征值相同的表项；若是，则执行S104；若否，则执行S106；

可以理解的是，L2P表(logical address translate to physical addresstable)为逻辑地址与物理地址映射表，L2P表中存储了与不同逻辑地址对应的表项，每个表项包括：PBA(physical base address，物理地址)、KEY和VALUE；其中，在L2P表以LBA为索引，PBA与逻辑地址具有对应关系，KEY为PBA内存储数据的特征值，VALUE用于表示PBA内存储的是否为原始数据，若VALUE为0，则说明PBA内存储的数据即为与逻辑地址对应的数据，若VALUE不为0，则说明PBA内存储的数据并非是逻辑地址对应的数据，需要将PBA内存储的数据与VALUE中物理地址内存储的对比数据进行处理，以便还原逻辑地址对应的原始数据。第一数据计算出第一特征值KEY后，需要将生成的KEY在L2P表中进行遍历搜索，查找是否存在表项的KEY与第一特征值相同，若相同，则说明第一数据为重复数据或者相似数据，则需要执行S104-S105；若不相同，则说明第一数据不为重复数据或者相似数据，则执行S106。

S104、将与第一特征值相同的第一表项对应的第二数据与第一数据进行对比，并将第一对比数据压缩后存储；

S105、将与目标逻辑地址对应的第二表项存储至L2P表；第二表项包括：第一表项的物理地址、第一特征值及第一VALUE值，第一VALUE值为第一对比数据压缩后存储的物理地址；

在本实施例中，若在L2P表中查到特征值相同的表项，则本方案需要判断L2P表是否存在至少两个与第一特征值相同的表项；若否，则将与第一特征值相同的表项作为第一表项，并将第一表项对应的第二数据与第一数据进行对比；若是，则从与第一特征值相同的表项中选择VALUE值为零的表项作为第一表项，并将第一表项对应的第二数据与第一数据进行对比。

例如：目标逻辑地址在L2P表中找到相同KEY值的表项有两个，分别是LBA0的表项和LBA1的表项，其中，LBA0的表项内VALUE值为零，LBA1的表项内VALUE值不为零，此时需要将LBA0的表项作为第一表项，将第一表项获取出来，具体为：(PBA0，KEY，VALUE＝0)。然后将LBA0对应的数据与新写入的目标逻辑地址的数据进行对比，得到对比数据，然后将对比数据通过压缩算法压缩后存储。在本实施例中，可利用按位异或方式将第二数据与第一数据进行对比，或者按字节差值的方式将第二数据与第一数据进行对比，本实施例并不具体限定。由于第二数据与第一数据的KEY值相同，说明两个数据的相似度非常高或者能够达到完全相同的程度，因此对比数据将包含大量的0值，这样对对比数据压缩时，将具有非常高的压缩率；例如：原始的第一数据大小为4k，生成的对比数据可压缩到1k以下，可以看出，通过该方式可将数据占用空间缩小到25％以下。并且，由于对比数据压缩后通常压缩到1k以下，NAND的最小操作单元为4k，因此本实施例在存储时，可将多个压缩后的第一对比数据组合写入NAND。例如：5个逻辑地址对应的对比数据压缩后共为4k，则可将这5个逻辑地址对应的对比数据组合存储，这5个逻辑地址对应物理地址相同。

需要说明的是，本实施例将第一对比数据压缩后得到压缩数据，为该压缩数据分配物理地址ADDR进行存储，然后再生成与目标逻辑地址对应的第二表项存储至L2P表，该第二表项为：(PBA0，KEY，VALUE＝ADDR)；其中，由于第一数据是通过与第一表项(PBA0，KEY，VALUE＝0)对比后存储，因此，第二表项中的物理地址应该为第一表项的物理地址，第二表项中的VALUE为压缩数据的物理地址ADDR。

S106、存储第一数据，将与第一数据对应的第三表项存储至L2P表；第三表项包括：第一数据存储的物理地址、第一特征值及第二VALUE值，第二VALUE值为零。

在本实施例中，若在L2P表中没有查到特征值相同的表项，则为目标逻辑地址LBA分配分配物理地址PBA，将(PBA，KEY，VALUE)组合的第三表项放入L2P表中；第三表项中的VALUE设置为0，表示是原始数据。

需要说明的是，本实施例在读取数据时，首先确定待读取的第三数据；根据第三数据的逻辑地址从L2P表获取对应的第四表项，若第四表项中的VALUE值为零，则直接根据第四表项中的物理地址读取第三数据；否则，根据第四表项中VALUE值读取对应的压缩数据，对压缩数据解压后获得第二对比数据，通过第四表项中与物理地址对应的数据对第二对比数据进行还原，得到第三数据。例如：用户读取数据时，查询L2P表获取到如下表项：(PBA，KEY，VALUE)表项，若查询到的表项中VALUE＝0，则直接将PBA对应的数据返回给用户，如果VALUE不为零，则需要通过VALUE值获取对应的压缩数据，并通过相应的解压缩算法获取原始的对比数据，进而与PBA对应的数据进行运算获取原始数据，返回给用户；其中，若对比方式为按位异或方式，则将对比数据与与PBA对应的数据进行按位异或方式还原出原始数据，若对比方式为按字节差值的方式，则将PBA对应的数据与对比数据进行按字节差值的方式还原出原始数据。

综上可见，由于SSD在应用过程中，会保存很多重复或者相似数据，这样SSD的NAND空间将得不到高效利用，因此本方案为了提高空间利用率，通过特征值KEY来表征数据，并通过KEY值进行数据相似性判断，相似数据通过压缩对比结果的方式缩小空间占用，节省出大量的NAND空间，这样在SSD的运行过程中就会有大量的剩余空间用于数据搬移和垃圾回收，回收效率大大提升，空间使用效率提升，从而减少了SSD的NAND寿命消耗，提升了SSD的整体寿命。

下面对本发明实施例提供的处理装置、设备及介质进行介绍，下文描述的处理装置、设备及介质与上文描述的处理方法可以相互参照。

参见图2，本发明实施例提供的一种数据处理装置结构示意图，包括：

第一确定模块11，用于确定待存储的第一数据的目标逻辑地址；

计算模块12，用于计算所述第一数据的第一特征值；

判断模块13，用于判断L2P表中是否存储与所述第一特征值相同的表项；若存在，则触发对比模块14；

所述对比模块14，用于将与所述第一特征值相同的第一表项对应的第二数据与所述第一数据进行对比；

第一存储模块15，用于将第一对比数据压缩后存储；

第二存储模块16，用于将与所述目标逻辑地址对应的第二表项存储至所述L2P表；所述第二表项包括：所述第一表项的物理地址、所述第一特征值及第一VALUE值，所述第一VALUE值为所述第一对比数据压缩后存储的物理地址。

其中，该装置还包括：

第三存储模块，用于在所述L2P表中未存储与所述第一特征值相同的表项时，存储所述第一数据；

第四存储模块，用于将与所述第一数据对应的第三表项存储至所述L2P表；所述第三表项包括：所述第一数据存储的物理地址、所述第一特征值及第二VALUE值，所述第二VALUE值为零。

其中，所述对比模块包括：

判断单元，用于判断所述L2P表是否存在至少两个与所述第一特征值相同的表项；

对比单元，用于在所述L2P表中存在一个与所述第一特征值相同的表项时，则将与所述第一特征值相同的表项作为第一表项，并将所述第一表项对应的第二数据与所述第一数据进行对比；在所述L2P表中存在至少两个与所述第一特征值相同的表项时，从与所述第一特征值相同的表项中选择VALUE值为零的表项作为第一表项，并将所述第一表项对应的第二数据与所述第一数据进行对比。

其中，所述对比单元具体用于：利用按位异或方式将所述第二数据与所述第一数据进行对比。

其中，所述第一存储模块具体用于：将多个压缩后的第一对比数据组合写入NAND。

其中，所述计算模块具体用于：计算所述第一数据的哈希值，将所述哈希值作为所述第一特征值。

其中，所述装置还包括：

第二确定模块，用于确定待读取的第三数据；

获取模块，用于根据所述第三数据的逻辑地址从所述L2P表获取对应的第四表项；

读取模块，用于在所述第四表项中的VALUE值为零时，直接根据所述第四表项中的物理地址读取所述第三数据；否则，根据所述第四表项中VALUE值读取对应的压缩数据，对所述压缩数据解压后获得第二对比数据，通过所述第四表项中与物理地址对应的数据对所述第二对比数据进行还原，得到所述第三数据。

参见图3，本发明实施例提供的一种电子设备结构示意图，通过图3可见，该电子设备包括：

存储器21，用于存储计算机程序；

处理器22，用于执行所述计算机程序时实现上述方法实施例所述的数据处理方法的步骤。

在本实施例中，设备可以是PC(Personal Computer，个人电脑)，也可以是智能手机、平板电脑、掌上电脑、便携计算机等终端设备。

该设备可以包括存储器21、处理器22和总线23。

其中，存储器21至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器21在一些实施例中可以是设备的内部存储单元，例如该设备的硬盘。存储器21在另一些实施例中也可以是设备的外部存储设备，例如设备上配备的插接式硬盘，智能存储卡(SmartMedia Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器21还可以既包括设备的内部存储单元也包括外部存储设备。存储器21不仅可以用于存储安装于设备的应用软件及各类数据，例如执行数据处理方法的程序代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器22在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器21中存储的程序代码或处理数据，例如执行数据处理方法的程序代码等。

该总线23可以是外设部件互连标准(peripheral component interconnect，简称PCI)总线或扩展工业标准结构(extended industry standard architecture，简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

进一步地，设备还可以包括网络接口24，网络接口24可选的可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等)，通常用于在该设备与其他电子设备之间建立通信连接。

可选地，该设备还可以包括用户接口25，用户接口25可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口25还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在设备中处理的信息以及用于显示可视化的用户界面。

图3仅示出了具有组件21-25的设备，本领域技术人员可以理解的是，图3示出的结构并不构成对设备的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法实施例所述的数据处理方法的步骤。

其中，该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种数据处理方法，其特征在于，包括：

确定待存储的第一数据的目标逻辑地址；

计算所述第一数据的第一特征值；

判断L2P表中是否存储与所述第一特征值相同的表项；

若存在，则将与所述第一特征值相同的第一表项对应的第二数据与所述第一数据按位异或方式进行对比，并将第一对比数据压缩后存储；

2.根据权利要求1所述的数据处理方法，其特征在于，若所述L2P表中未存储与所述第一特征值相同的表项，则所述数据处理方法还包括：

存储所述第一数据；

3.根据权利要求2所述的数据处理方法，其特征在于，所述将与所述第一特征值相同的第一表项对应的第二数据与所述第一数据进行对比，包括：

4.根据权利要求1所述的数据处理方法，其特征在于，所述将第一对比数据压缩后存储，包括：

将多个压缩后的第一对比数据组合写入NAND。

5.根据权利要求1所述的数据处理方法，其特征在于，所述计算所述第一数据的第一特征值，包括：

6.根据权利要求1至5任意一项所述的数据处理方法，其特征在于，还包括：

确定待读取的第三数据；

7.一种数据处理装置，其特征在于，包括：

计算模块，用于计算所述第一数据的第一特征值；

所述对比模块，用于将与所述第一特征值相同的第一表项对应的第二数据与所述第一数据按位异或方式进行对比；

第一存储模块，用于将第一对比数据压缩后存储；

8.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至6任一项所述的数据处理方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的数据处理方法的步骤。