CN111104053B

CN111104053B - 存储数据的方法、装置和计算机程序产品

Info

Publication number: CN111104053B
Application number: CN201811261855.4A
Authority: CN
Inventors: 肖攀; 陈培雷; 杜芳; 陈旭
Original assignee: EMC IP Holding Co LLC
Current assignee: EMC Corp
Priority date: 2018-10-26
Filing date: 2018-10-26
Publication date: 2023-08-29
Anticipated expiration: 2038-10-26
Also published as: US11429317B2; CN111104053A; US20200133583A1

Abstract

本公开的实施例涉及用于存储数据的方法、装置和计算机程序产品。一种用于存储数据的方法包括：获取待存储的第一数据；确定第一数据是否能够以超过预定阈值的压缩比被压缩；以及基于确定的结果，将第一数据存储在存储设备中。本公开的实施例能够根据所预测的数据压缩比来对数据执行相应处理，以将数据存储在存储设备中。以此方式，本公开的实施例能够在尽量减小存储数据所需的存储空间的同时，显著降低处理数据的开销。

Description

存储数据的方法、装置和计算机程序产品

技术领域

本公开的实施例总体涉及数据存储领域，具体涉及用于存储数据的方法、装置和计算机程序产品。

背景技术

现代存储系统在将数据存储到存储设备之前，可能对数据进行压缩以节省所需的存储空间。在读取以压缩方式存储的数据时，需要首先对数据执行解压缩操作，从而得到原始数据。

然而，不同数据能够实现的压缩比(即，压缩前的数据量与压缩后的数据量的比值)是不同的。例如，对于已经被压缩过的原始数据而言，对其进行再次压缩的压缩比可能很低。针对这样的数据，在存储前执行压缩操作将不会带来存储空间上的显著节省，因此压缩操作和解压缩操作所带来的处理开销可能是不必要的。

发明内容

本公开的实施例提供了用于存储数据的方法、装置和计算机程序产品。

在本公开的第一方面，提供了一种用于存储数据的方法。该方法包括：获取待存储的第一数据；确定第一数据是否能够以超过预定阈值的压缩比被压缩；以及基于确定的结果，将第一数据存储在存储设备中。

在本公开的第二方面，提供了一种用于训练预测模型的方法。该方法包括：获取用于训练预测模型的训练数据；以及利用该训练数据来训练预测模型，其中该预测模型用于确定待存储的数据是否能够以超过预定阈值的压缩比被压缩，以使得待存储的数据基于确定的结果来被存储。

在本公开的第三方面，提供了一种用于存储数据的装置。该装置包括至少一个处理单元和至少一个存储器。至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令。该指令当由至少一个处理单元执行时使得装置执行动作，该动作包括：获取待存储的第一数据；确定第一数据是否能够以超过预定阈值的压缩比被压缩；以及基于确定的结果，将第一数据存储在存储设备中。

在本公开的第四方面，提供了一种用于训练预测模型的装置。该装置包括至少一个处理单元和至少一个存储器。至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令。该指令当由至少一个处理单元执行时使得装置执行动作，该动作包括：获取用于训练预测模型的训练数据集；以及利用该训练数据集来训练预测模型，其中该预测模型用于确定待存储的数据是否能够以超过预定阈值的压缩比被压缩，以使得待存储的数据基于确定的结果来被存储。

在本公开的第五方面，提供了一种计算机程序产品。该计算机程序产品被有形地存储在非瞬态计算机存储介质中并且包括机器可执行指令。该机器可执行指令在由设备执行时使该设备执行根据本公开的第一方面所描述的方法的任意步骤。

在本公开的第六方面，提供了一种计算机程序产品。该计算机程序产品被有形地存储在非瞬态计算机存储介质中并且包括机器可执行指令。该机器可执行指令在由设备执行时使该设备执行根据本公开的第二方面所描述的方法的任意步骤。

提供发明内容部分是为了以简化的形式来介绍对概念的选择，它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或必要特征，也无意限制本公开的范围。

附图说明

通过结合附图对本公开示例性实施例进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施例中，相同的参考标号通常代表相同部件。

图1示出了本公开的实施例能够在其中被实施的示例环境的示意图；

图2示出了根据本公开的实施例的用于存储数据的示例方法的流程图；

图3示出了根据本公开的实施例的用于存储数据的示例方法的流程图；

图4示出了根据本公开的实施例的用于存储数据的示例方法的流程图；

图5示出了根据本公开的实施例的用于存储数据的示例方法的流程图；

图6示出了根据本公开的实施例的模型训练系统的框图；

图7示出了根据本公开的实施例的用于训练预测模型的示例方法的流程图；

图8示出了根据本公开的实施例的用于获取训练数据的示例方法的流程图；

图9示出了根据本公开的实施例的提取与训练数据相对应的特征向量的示意图；

图10示出了根据本公开的实施例的用于确定数据是否可压缩的示例方法的流程图；

图11示出了根据本公开的实施例的生成训练数据的标签的示例方法的流程图；以及

图12示出了可以用来实施本公开内容的实施例的示例设备的示意性框图。

在各个附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

图1示出了本公开的实施例能够在其中被实现的示例环境100的框图。如图1所示，环境100包括主机110、存储管理器120以及存储设备130。应当理解，仅出于示例性的目的描述环境100的结构，而不暗示对于本公开的范围的任何限制。例如，本公开的实施例还可以被应用到与环境100不同的环境中。

主机110可以例如是运行用户应用的任何物理计算机、虚拟机、服务器等等。主机110可以向存储管理器120发送输入/输出(I/O)请求，例如用于从存储设备130读取数据和/或向存储设备130写入数据等。响应于接收到来自主机110的读请求，存储管理器120可以从存储设备130读取数据，并且将所读取的数据返回给主机110。响应于接收到来自主机110的写请求，存储管理器120可以向存储设备130写入数据。存储设备130可以是任何目前已知或者将来开发的非易失性存储介质，例如磁盘、固态盘(SSD)或磁盘阵列等。

为了节省数据存储所需要的空间，存储管理器120中可以部署有压缩/解压缩引擎121。例如，当存储管理器120从主机110接收到向存储设备130写入数据的写请求时，存储管理器120可以利用压缩/解压缩引擎121来压缩待存储的数据，然后将经压缩的数据存储到存储设备130。这样，在读取以压缩方式存储的数据时，存储管理器120需要首先利用压缩/解压缩引擎121对所读取的数据进行解压缩，然后将经解压缩的数据返回给主机110。

如上所述，不同数据能够实现的压缩比(即，压缩前的数据量与压缩后的数据量的比值)是不同的。例如，对于已经被压缩过的数据而言，对其进行再次压缩的压缩比可能很低。针对这样的数据，在存储前执行压缩操作将不会带来存储空间上的显著节省，反而会引入压缩和解压缩操作所带来的额外处理开销。

本公开的实施例提出了一种用于存储数据的方案，以解决上述问题和其他潜在问题中的一个或多个。该方案能够根据所预测的数据压缩比来对数据执行相应处理，以将数据存储在存储设备中。以此方式，该方案能够在尽量减小存储数据所需的存储空间的同时，显著降低处理数据的开销。

图2示意性示出了根据本公开的实施例的用于存储数据的示例方法200的流程图。例如，方法200可以由如图1所示的存储管理器120来执行。应当理解，方法200还可以包括未示出的附加动作和/或可以省略所示出的动作，本公开的范围在此方面不受限制。以下结合图1来详细描述方法200。

在框210处，存储管理器120获取待存储的数据(本文中也称为“第一数据”)。

在一些实施例中，响应于从主机110接收到向存储设备130写入数据的请求，存储管理器120可以从该请求中获取要被写入的数据(本文中也被称为“第二数据”)。在一些实施例中，存储管理器120可以将第二数据划分成一组数据块，其中每个数据块可以具有预定大小(例如，8KB)。然后，存储管理器120可以从该组数据块中获取连续的多个数据块来作为第一数据。在一些实施例中，例如，存储管理器120可以每次获取16个连续数据块(即，128KB)以进行处理。应当理解，上述具体数目仅出于说明性目的给出，而不暗示对本公开范围的任何限制。

在框220处，存储管理器120确定第一数据是否能够以超过预定阈值的压缩比被压缩。在此所述的“压缩比”可以指代压缩前的数据量与压缩后的数据量的比值。例如，预定阈值可以是5。

在一些实施例中，存储管理器120可以利用经训练的预测模型来预测第一数据是否能够以超过预定阈值的压缩比被压缩。例如，预测模型可以接收第一数据所包括的多个连续数据块作为输入，并且输出相应的预测结果。在一些情况下，取决于预测模型的具体训练方式，预测模型也可以接收表示该多个连续数据块的特征向量(其中，特征向量的提取与训练过程中特征向量的提取类似，如以下结合图9所描述的)作为输入，并且输出相应的预测结果。在本文中，能够以超过预定阈值的压缩比被压缩的数据可以被认为是“可压缩的”，而不能够以超过预定阈值的压缩比被压缩的数据(例如，已经被压缩过的数据)可以被认为是“不可压缩的”。

根据不同的训练方式，预测模型的输出可以具有不同的形式。在一些实施例中，预测模型可以接收多个连续数据块并且输出第一种形式的预测结果。例如，该预测结果可以是以下之一：第一值，其指示该多个连续数据块中的每个数据块都能够以超过预定阈值的压缩比被压缩；第二值，其指示该多个连续数据块中的每个数据块都不能够以超过预定阈值的压缩比被压缩；或者第三值，其指示该多个连续数据块中的一部分能够以超过预定阈值的压缩比被压缩，而另一部分不能够以超过预定阈值的压缩比被压缩。备选地，在另一些实施例中，预测模型可以接收多个连续数据块并且输出第二种形式的预测结果。例如，该结果可以指示多个数据块中从第一个数据块起始的若干连续数据块能够以超过预定阈值的压缩比被压缩，或者从第一个数据块起始的若干连续数据块不能够以超过预定阈值的压缩比被压缩。

可以看出，以上第一种形式的预测结果是第二种形式的预测结果的简化形式。在本文中，出于示例和简化的目的，以第一种形式的预测结果为例来详细讨论本公开的实施例。然而，应当理解，这不暗示对本公开的范围的限制。本公开的实施例也适用于第二种形式的预测结果。关于预测模型的训练将在之后详细讨论。

在框230处，存储管理器120基于确定的结果将第一数据存储在存储设备130中。

图3示出了根据本公开的实施例的用于存储数据的示例方法300的流程图。方法300可以作为如图2所述框230的一种示例实现。如图3所示，在框310处，存储管理器120确定第一数据所包括的多个数据块中的每个数据块是否都能够以超过预定阈值的压缩比被压缩。例如，存储管理器120可以确定预测模型是否输入上述第一值作为结果。如果是，则在框320处，存储管理器120利用压缩/解压缩引擎121将多个数据块作为整体进行压缩。然后，在框330处，存储管理器120将经压缩的多个数据块存储在存储设备130中。

图4示出了根据本公开的实施例的用于存储数据的示例方法400的流程图。方法400可以作为如图2所述框230的一种示例实现。如图4所示，在框410处，存储管理器120确定第一数据所包括的多个数据块中的每个数据块是否都不能够以超过预定阈值的压缩比被压缩。也即，存储管理器120可以确定预测模型的输出是否为上述第二值。如果是，则在框420处，存储管理器120将未经压缩的多个数据块直接存储在存储设备130中。

图5示出了根据本公开的实施例的用于存储数据的示例方法500的流程图。方法500可以作为如图2所述框230的一种示例实现。如图5所示，在框510处，存储管理器120确定第一数据所包括的多个数据块是否一部分可压缩而另一部分不可压缩。也即，存储管理器120可以确定预测模型的输出是否为上述第三值。如果是，则在框520处，存储管理器120确定多个数据块是否已被处理。如果存在尚未处理的数据块，则在框530处，存储管理器120获取多个数据块之一以进行处理。在框540处，存储管理器120利用压缩/解压缩引擎121来压缩该数据块。在框550处，存储管理器120确定该数据块的压缩比。例如，存储管理器120可以通过计算该数据被压缩后的数据量与压缩前的数据量的比值来确定其压缩比。然后，在框560处，存储管理器120确定该压缩比是否超过预定阈值。如果是，则在框570处，存储管理器120将经压缩的该数据块存储在存储设备130中；否则，在框580处，存储管理器120将未经压缩的该数据块存储在存储设备130中。然后，方法500进行至框520，直至多个数据块全部被处理。

在一些实施例中，如上所述，在框220处确定的结果可以具有第二种形式，其例如指示第一数据所包括的多个数据块中从第一个数据块起始的若干连续数据块能够以超过预定阈值的压缩比被压缩，或者指示从第一个数据块起始的若干连续数据块不能够以超过预定阈值的压缩比被压缩。在一些实施例中，如果该结果指示第一数据所包括的多个数据块中从第一个数据块起始的若干连续数据块可压缩，则存储管理器120可以利用压缩/解压缩引擎121来将这些可压缩的连续数据块作为整体进行压缩，并且将压缩后的数据块存储在存储设备130中。针对多个数据块中的剩余数据块，存储管理器120可以通过执行上述方法500来对剩余数据块进行处理。备选地，在一些实施例中，如果该结果指示第一数据所包括的多个数据块中从第一个数据块起始的若干连续数据块不可压缩，则存储管理器120可以将这些不可压缩的连续数据块直接存储在存储设备130中。针对多个数据块中的剩余数据块，存储管理器120可以通过执行上述方法500来对剩余数据块进行处理。

以此方式，针对压缩比达不到要求的数据，存储管理器120能够不对其进行压缩而直接存储在存储设备中，从而显著降低对这些数据进行压缩和解压缩操作的开销。

以下将进一步结合附图来详细讨论预测模型的训练。图6示出了根据本公开的实施例的模型训练系统600的框图。如图6所示，系统600可以包括模型训练装置620，其被配置为获取训练数据集610并且利用训练数据集610来训练预测模型630。例如，预测模型630可以被如图1所示的存储管理器120用于确定待存储的数据是否能够以超过所述预定阈值的压缩比被压缩。

在一些实施例中，模型训练装置620可以与如图1所示的存储管理器120实现在同一物理设备上。备选地，在另一些实施例中，模型训练装置620可以与如图1所示的存储管理器120可以被分别实现在不同的物理设备上。例如，当模型训练装置620与如图1所示的存储管理器120被实现在同一物理设备上时，为了不影响存储管理的性能，模型训练过程可以在后台或者在系统不忙碌的时候被执行。

图7示出了根据本公开的实施例的用于训练预测模型的方法700的流程图。例如，方法700可以由如图6所示的模型训练装置600来执行。应当理解，方法700还可以包括未示出的附加动作和/或可以省略所示出的动作，本公开的范围在此方面不受限制。以下结合图6来详细描述方法700。

在框710处，模型训练装置600获取训练数据集610。例如，训练数据集610可以由一组训练数据构成。图8示出了根据本公开的实施例的用于获取训练数据集610中的训练数据的方法800的流程图。例如，方法800可以作为如图7所示的框710的一种示例实现。

在框810处，模型训练装置600获取用于训练预测模型630的数据(本文中被称为“第三数据”)。在一些实施例中，模型训练装置600可以例如从如图1所示的主机110获取未经压缩的大量用户数据或者可以从如图1所示的存储管理器120获取被压缩之前的数据(本文中被称为“第四数据”)。模型训练装置600可以将这些未经压缩的数据按照预定大小(例如，8KB)划分成一组数据块。然后，存储管理器120可以从该组数据块中获取连续的多个数据块来作为第三数据。在一些实施例中，例如，存储管理器120可以每次获取16个连续数据块(即，128KB)以进行处理。

备选地，在一些实施例中，所获取的多个连续数据块(即，第三数据)可以被表示为特征向量。在此假设存储管理器120每次获取16个连续数据块(即，128KB)。在一些实施例中，该128KB数据例如可以被表示为由16384个特征组成的特征向量，其中每个特征可以是无符号64位整数的数据类型，并且可以从该128KB数据中的8字节数据转换而成(或者可以是其本身)。图9示出了这样的示例。如图9所示，例如模型训练装置600所获取的未经压缩的数据910(即，第四数据)可以被划分成多个数据单元920-1、920-2……920-N，其中每个数据单元920包括预定数目的连续数据块。此外，每个数据单元920可以利用由M个特征来表示。以数据单元920-1为例，其利用由M个特征向量930-1、930-2……930-M组成的特征向量来表示。假设数据910为100GB，每个数据单元920为128KB，每个特征930为8B，则N等于819200并且M等于16384。

在框820处，模型训练装置600确定第三数据是否能够以超过预定阈值的压缩比被压缩。图10示出了根据本公开的实施例的用于确定数据是否可压缩的示例方法1000的流程图。例如，方法1000可以作为如图8所示的框820的一种示例实现。如图10所示，在框1002处，模型训练装置600确定第三数据所包括的多个数据块是否已被处理。如果存在尚未处理的数据块，则在框1004处，模型训练装置600获取多个数据块之一以进行处理。在框1006处，模型训练装置600压缩该数据块。在框1008处，模型训练装置600确定该数据块的压缩比。例如，模型训练装置600可以通过计算该数据被压缩后的数据量与压缩前的数据量的比值来确定其压缩比。然后，在框1010处，模型训练装置600确定该压缩比是否超过预定阈值。如果是，则在框1012处，模型训练装置600将该数据块确定为可压缩；否则，在框1014处，模型训练装置600将该数据块确定为不可压缩。然后，方法1000进行至框1002，直至多个数据块全部被处理。

在框830处，模型训练装置600基于确定的结果来生成与第三数据相对应的标签。在一些实施例中，带有标签的第三数据可以作为训练数据集610所包括的训练数据之一。备选地，当第三数据利用特征向量被表示时，带有标签的表示第三数据的特征向量可以作为训练数据集610所包括的训练数据之一。

在一些实施例中，例如，为了使得所训练的预测模型能够输出第一种形式的预测结果，模型训练装置600可以利用以下三种标签之一来对第三数据进行标记：第一标签，其指示第三数据所包括的多个连续数据块中的每个数据块都能够以超过预定阈值的压缩比被压缩；第二标签，其指示第三数据所包括的多个连续数据块中的每个数据块都不能够以超过预定阈值的压缩比被压缩；或者第三标签，其指示第三数据所包括的多个连续数据块中的一部分能够以超过预定阈值的压缩比被压缩，而另一部分不能够以超过预定阈值的压缩比被压缩。

图11示出了根据本公开的实施例的生成与第三数据相对应的标签的示例方法1100的流程图。例如，方法1100可以作为如图8所示的框830的一种示例实现。如图11所示，在框1102处，模型训练装置600确定多个数据块中的每个数据块是否可压缩。如果是，则在框1104处，模型训练装置600利用上述第一标签来标记第三数据。否则，方法1100进行至框1106，其中模型训练装置600确定多个数据块中的每个数据块是否不可压缩。如果是，则在框1108处，模型训练装置600利用上述第二标签来标记第三数据。否则，在框1110处，模型训练装置600利用上述第三标签来标记第三数据。

附加地或备选地，在一些实施例中，例如，为了使得所训练的预测模型能够输出第二种形式的预测结果，模型训练装置600可以利用第三数据中能够以超过预定阈值的压缩比被压缩的连续数据块的数量、或者利用第三数据中不能够以超过预定阈值的压缩比被压缩的连续数据块的数量作为标签来对第三数据进行标记。上述示例仅出于说明的目的而示出。应当理解，本公开的实施例也适用于其他标记方式。

在一些实施例中，在获取训练数据集之后，模型训练装置600可以对所获取的训练数据集进行进一步处理，以提高训练数据集的质量。例如，模型训练装置600可以移除训练数据集中重复的训练数据。此外，模型训练装置600还可以对训练数据集中的训练数据进行其他任何处理，以提高训练数据集的质量。

返回图7，在框720处，模型训练装置600利用所获取的训练数据集来训练预测模型。

在一些实施例中，模型训练装置600可以采用有监督学习法来训练预测模型。在一些实施例中，模型训练装置600可以利用训练数据集中的一部分训练数据来训练预测模型，以确定预测模型的各参数。此外，模型训练装置600可以利用训练数据集中的另一部分训练数据充当测试数据来对所训练的预测模型进行测试。通过将预测模型输出的结果与测试数据中的标签进行比较可以确定所训练的预测模型的精度，并且根据所确定的精度来对预测模型的各参数进行调整，直到预测模型的精度满足预定要求。应当理解，模型训练装置600还可以利用任何已知或将要开发的方法来进行预测模型的训练，而不仅限于以上描述的这些。

以此方式，模型训练装置600能够得到用于确定待存储的数据是否能够以超过所述预定阈值的压缩比被压缩的预测模型620，以供如图1所示的存储管理器120使用。

在上文中已经参考图1至图11详细描述了根据本公开的方法的示例实现，在下文中将描述相应的装置的实现。

在一些实施例中，提供了一种用于存储数据的装置。该装置包括：获取模块，被配置为获取待存储的第一数据；确定模块，被配置为确定第一数据是否能够以超过预定阈值的压缩比被压缩；存储模块，被配置为基于确定的结果，将第一数据存储在存储设备中。

在一些实施例中，获取模块还被配置为：获取待存储的第二数据；将第二数据划分成一组数据块；以及从一组数据块中获取连续的多个数据块作为第一数据。

在一些实施例中，确定模块还被配置为：利用经训练的预测模型来确定第一数据是否能够以超过预定阈值的压缩比被压缩。

在一些实施例中，第一数据包括多个数据块，并且存储模块还被配置为：响应于确定多个数据块中的每个数据块能够以超过预定阈值的压缩比被压缩，压缩多个数据块；以及将经压缩的多个数据块存储在存储设备中。

在一些实施例中，第一数据包括多个数据块，并且存储模块还被配置为：响应于确定多个数据块中的每个数据块不能够以超过预定阈值的压缩比被压缩，将未经压缩的多个数据块存储在存储设备中。

在一些实施例中，第一数据包括多个数据块，并且存储模块还被配置为：响应于确定多个数据块中的一部分能够以超过预定阈值的压缩比被压缩并且多个数据块中的另一部分不能够以超过预定阈值的压缩比被压缩，针对多个数据块中的每个数据块，压缩该数据块；确定该数据块的压缩比；响应于该数据块的压缩比超过预定阈值，将经压缩的数据块存储在存储设备中；以及响应于该数据块的压缩比低于预定阈值，将未经压缩的数据块存储在存储设备中。

在一些实施例中，提供了一种用于训练预测模型的装置。该装置包括：获取模块，被配置为获取用于训练预测模型的训练数据集；以及训练模块，被配置为利用训练数据集来训练该预测模型，其中该预测模型用于确定待存储的数据是否能够以超过预定阈值的压缩比被压缩，以使得待存储的数据基于确定的结果来被存储。

在一些实施例中，获取模块还被配置为：获取用于训练该预测模型的第三数据；确定第三数据是否能够以超过预定阈值的压缩比被压缩；以及基于确定的结果标记第三数据，以作为训练数据集中的训练数据。

在一些实施例中，第三数据包括多个数据块，并且获取模块还被配置为：针对多个数据块中的每个数据块，压缩该数据块；确定该数据块的压缩比；响应于该数据块的压缩比超过预定阈值，确定该数据块能够以超过预定阈值的压缩比被压缩；以及响应于该数据块的压缩比低于预定阈值，确定该数据块不能够以超过预定阈值的压缩比被压缩。

在一些实施例中，第三数据包括多个数据块，并且获取模块还被配置为：响应于确定多个数据块中的每个数据块能够以超过预定阈值的压缩比被压缩，利用指示确定的结果的第一标签来标记第三数据。

在一些实施例中，第三数据包括多个数据块，并且获取模块还被配置为：响应于确定多个数据块中的每个数据块不能够以超过预定阈值的压缩比被压缩，利用指示确定的结果的第二标签来标记第三数据。

在一些实施例中，第三数据包括多个数据块，并且获取模块还被配置为：响应于确定多个数据块中的一部分能够以超过预定阈值的压缩比被压缩并且多个数据块中的另一部分不能够以超过预定阈值的压缩比被压缩，利用指示确定的结果的第三标签来标记第三数据。

图12示出了可以用来实施本公开内容的实施例的示例设备1200的示意性框图。例如，如图1所示的存储管理器120和/或如图6所示的模型训练装置620可以由设备1200实施。如图12所示，设备1200包括中央处理单元(CPU)1201，其可以根据存储在只读存储器(ROM)1202中的计算机程序指令或者从存储单元1208加载到随机访问存储器(RAM)1203中的计算机程序指令，来执行各种适当的动作和处理。在RAM 1203中，还可存储设备1200操作所需的各种程序和数据。CPU 1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出(I/O)接口1205也连接至总线1204。

设备1200中的多个部件连接至I/O接口1205，包括：输入单元1206，例如键盘、鼠标等；输出单元1207，例如各种类型的显示器、扬声器等；存储单元1208，例如磁盘、光盘等；以及通信单元1209，例如网卡、调制解调器、无线通信收发机等。通信单元1209允许设备1200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

上文所描述的各个过程和处理，例如方法200、300、400、500、700、800、1000和/或1100，可由处理单元1201执行。例如，在一些实施例中，方法200、300、400、500、700、800、1000和/或1100可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1208。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1202和/或通信单元1209而被载入和/或安装到设备1200上。当计算机程序被加载到RAM 1203并由CPU 1201执行时，可以执行上文描述的方法200、300、400、500、700、800、1000和/或1100的一个或多个动作。

本公开可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是——但不限于——电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种用于存储数据的方法，包括：

获取待存储的第一数据；

确定所述第一数据是否能够以超过预定阈值的压缩比被压缩；以及

基于所述确定的结果，将所述第一数据存储在存储设备中，

其中所述第一数据包括多个数据块，并且其中存储所述第一数据包括：

响应于确定所述多个数据块中的一部分能够以超过所述预定阈值的压缩比被压缩并且所述多个数据块中的另一部分不能够以超过所述预定阈值的压缩比被压缩，针对所述多个数据块中的每个数据块，

压缩所述数据块；

确定所述数据块的压缩比；

响应于所述数据块的所述压缩比超过所述预定阈值，将经压缩的所述数据块存储在所述存储设备中；以及

响应于所述数据块的所述压缩比低于所述预定阈值，将未经压缩的所述数据块存储在所述存储设备中。

2.根据权利要求1所述的方法，其中获取所述第一数据包括：

获取待存储的第二数据；

将所述第二数据划分成一组数据块；以及

从所述一组数据块中获取连续的多个数据块作为所述第一数据。

3.根据权利要求1所述的方法，其中确定所述第一数据是否能够以超过所述预定阈值的压缩比被压缩包括：

利用经训练的预测模型来确定所述第一数据是否能够以超过所述预定阈值的压缩比被压缩。

4.根据权利要求1所述的方法，其中存储所述第一数据还包括：

响应于确定所述多个数据块中的每个数据块能够以超过所述预定阈值的压缩比被压缩，压缩所述多个数据块；以及

将经压缩的所述多个数据块存储在所述存储设备中。

5.根据权利要求1所述的方法，其中存储所述第一数据还包括：

响应于确定所述多个数据块中的每个数据块不能够以超过所述预定阈值的压缩比被压缩，将未经压缩的所述多个数据块存储在所述存储设备中。

6.一种用于训练预测模型的方法，包括：

获取用于训练预测模型的训练数据集；以及

利用所述训练数据集来训练所述预测模型，其中所述预测模型用于确定待存储的数据是否能够以超过预定阈值的压缩比被压缩，以使得所述待存储的数据基于所述确定的结果来被存储，

其中获取所述训练数据集包括：

获取用于训练所述预测模型的第三数据；

确定所述第三数据是否能够以超过所述预定阈值的压缩比被压缩；以及

基于所述确定的结果来标记所述第三数据，以作为所述训练数据集中的训练数据；

其中所述第三数据包括多个数据块，并且其中确定所述第三数据是否能够以超过所述预定阈值的压缩比被压缩包括：

针对所述多个数据块中的每个数据块，

压缩所述数据块；

确定所述数据块的压缩比；

响应于所述数据块的所述压缩比超过所述预定阈值，确定所述数据块能够以超过所述预定阈值的所述压缩比被压缩；以及

响应于所述数据块的所述压缩比低于所述预定阈值，确定所述数据块不能够以超过所述预定阈值的所述压缩比被压缩。

7.根据权利要求6所述的方法，其中获取所述第三数据包括：

获取用于训练所述预测模型的未经压缩的第四数据；

将所述第四数据划分成一组数据块；以及

从所述一组数据块中获取连续的多个数据块作为所述第三数据。

8.根据权利要求6所述的方法，其中标记所述第三数据包括：

响应于确定所述多个数据块中的每个数据块能够以超过所述预定阈值的压缩比被压缩，利用指示所述确定的所述结果的第一标签来标记所述第三数据。

9.根据权利要求6所述的方法，其中标记所述第三数据包括：

响应于确定所述多个数据块中的每个数据块不能够以超过所述预定阈值的压缩比被压缩，利用指示所述确定的所述结果的第二标签来标记所述第三数据。

10.根据权利要求6所述的方法，其中标记所述第三数据包括：

响应于确定所述多个数据块中的一部分能够以超过所述预定阈值的压缩比被压缩并且所述多个数据块中的另一部分不能够以超过所述预定阈值的压缩比被压缩，利用指示所述确定的所述结果的第三标签来标记所述第三数据。

11.一种用于存储数据的装置，包括：

至少一个处理单元；

至少一个存储器，所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令，所述指令当由所述至少一个处理单元执行时，使得所述装置执行动作，所述动作包括：

获取待存储的第一数据；

基于所述确定的结果，将所述第一数据存储在存储设备中，

压缩所述数据块；

确定所述数据块的压缩比；

12.根据权利要求11所述的装置，其中获取所述第一数据包括：

获取待存储的第二数据；

将所述第二数据划分成一组数据块；以及

13.根据权利要求11所述的装置，其中确定所述第一数据是否能够以超过所述预定阈值的压缩比被压缩包括：

14.根据权利要求11所述的装置，其中存储所述第一数据还包括：

将经压缩的所述多个数据块存储在所述存储设备中。

15.根据权利要求11所述的装置，其中存储所述第一数据还包括：

16.一种用于训练预测模型的装置，包括：

至少一个处理单元；

获取用于训练预测模型的训练数据集；以及

其中获取所述训练数据包括：

获取用于训练所述预测模型的第三数据；

针对所述多个数据块中的每个数据块，

压缩所述数据块；

确定所述数据块的压缩比；

17.根据权利要求16所述的装置，其中获取所述第三数据包括：

获取用于训练所述预测模型的未经压缩的第四数据；

将所述第四数据划分成一组数据块；以及

18.根据权利要求16所述的装置，其中标记所述第三数据还包括：

19.根据权利要求16所述的装置，其中标记所述第三数据包括：

20.根据权利要求16所述的装置，其中标记所述第三数据包括：

21.一种存储机器可执行指令的非瞬态计算机存储介质，所述机器可执行指令在由设备执行时使所述设备执行根据权利要求1-5中的任一项所述的方法。

22.一种存储机器可执行指令的非瞬态计算机存储介质，所述机器可执行指令在由设备执行时使所述设备执行根据权利要求6-10中的任一项所述的方法。