CN111552669A

CN111552669A - 数据处理方法、装置、计算设备和存储介质

Info

Publication number: CN111552669A
Application number: CN202010339805.4A
Authority: CN
Inventors: 申武
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-04-26
Filing date: 2020-04-26
Publication date: 2020-08-18

Abstract

本公开公开了一种数据处理方法、装置、计算设备和存储介质。用于解决相关技术中解决单纯的依赖扩展缓存空间大不能很好的满足不断增长的数据需求的问题。本公开实施例，选择了合适的压缩算法对数据进行压缩，由于不同数据可允许采用不同的压缩算法进行压缩，相比简单的购买硬件扩展存储系统，压缩数据能够提高存储系统的利用率。此外，存储系统同一时间可以同时存储不同压缩算法压缩的数据，使得存储系统对不同结构的数据采用的压缩算法，不同时期的数据采用的压缩算法均能够兼容，以此提高压缩效果进一步调高存储系统的对不同数据的需求，提高存储系统的利用率。

Description

数据处理方法、装置、计算设备和存储介质

技术领域

本公开涉及计算机技术领域，特别涉及一种数据处理方法、装置、计算设备和存储介质。

背景技术

随着信息量的不断增长，尤其在短视频应用场景，用户信息的存储一直是比较重要的事务。目前通常的做法是，购买硬件扩展缓存空间来满足信息不断膨胀的需求。

然而，购买硬件扩展缓存空间，即通过增加物理机器资源以及修改缓存系统的配置可以让系统容纳更多的数据，然而，发明人研究发现，单纯的依赖扩展缓存空间不能很好的满足不断增长的数据需求。如，单纯的进行硬件扩展缓存空间，不仅导致成本攀升，此外，根据不同缓存系统，并考虑到容灾、主从备份等因素，大型缓存系统往往由若干个小节点组成，不断的扩容会使小节点机器数增多。带来的硬件宕机的风险也就越大。而机器宕机数增多则会提高开发人员的运维成本，给运维工作带来不便。

发明内容

本公开的目的是提供一种数据处理方法、装置、计算设备和存储介质，用于解决单纯的依赖扩展缓存空间大不能很好的满足不断增长的数据需求的问题。

第一方面，本公开实施例提供了一种数据处理方法，包括：

接收终端设备发送的目标数据的获取请求；

响应所述获取请求，从存储系统中读取所述目标数据的压缩数据以及所述压缩数据对应的算法标识；其中，所述压缩数据是预先采用所述算法标识对应的压缩算法对所述目标数据进行压缩操作后得到的；

将所述压缩数据及对应的算法标识发送给所述终端设备，以使所述终端设备采用所述算法标识对应的压缩算法对所述压缩数据进行解压缩操作。

在一个实施例中，所述方法还包括：

根据以下方法确定用于压缩所述目标数据的压缩算法：

采集多个样本数据；

对多个待测试压缩算法中的任意压缩算法分别执行：对各样本数据采用所述待测试压缩算法进行压缩操作，得到各样本数据的压缩数据；并，确定所述待测试压缩算法的测试指标；

所述测试指标包括以下中的至少一种：样本数据和样本数据的压缩数据的压缩比、单位时间内对指定数量的样本数据的压缩数据的解压缩次数、执行指定次数的解压缩操作的处理器占用率；

根据各待测试压缩算法的测试指标，选择出用于压缩所述目标数据的压缩算法。

在一个实施例中，所述根据各待测试压缩算法的测试指标，选择出用于压缩所述目标数据的压缩算法之后，所述方法还包括：

当满足测试条件时，重新对所述多个待测试压缩算法进行测试并选择出新的压缩算法；

其中，所述测试条件包括以下中的至少一种：到达重新测试周期、指定数据的数据结构发生变化，所述指定数据包括存储在所述存储系统中的数据和/或待存储到所述存储系统的数据。

在一个实施例中，当最新选择出的压缩算法与上一次选择的压缩算法不同时，所述方法还包括：

从所述存储系统中读取所述目标数据的压缩数据以及对应的算法标识；

根据所述算法标识对所述目标数据的压缩数据进行解压缩操作后得到所述目标数据的解压缩数据；

对所述目标数据的解压缩数据采用所述最新选择出的压缩算法重新进行压缩操作，得到所述目标数据的新的压缩数据；

采用所述目标数据的新的压缩数据和所述最新选择出的压缩算法的算法标识、替换所述存储系统中的所述目标数据的压缩数据及对应的算法标识。

在一个实施例中，若选择出的用于压缩所述目标数据的压缩算法为带字典的压缩算法时，所述方法还包括：

采集训练样本；

对所述训练样本进行训练得到所述带字典的压缩算法的新的字典文件；并，根据所述新的字典文件更新所述带字典的压缩算法。

在一个实施例中，若选择出的压缩算法为带字典的压缩算法，则所述算法标识为字典文件标识；

所述根据所述新的字典文件更新所述带字典的压缩算法之后，所述方法还包括：

从所述存储系统中读取所述目标数据的压缩数据以及对应的字典文件标识；

采用所述字典文件标识对应的字典文件对所述目标数据的压缩数据进行解压缩操作后得到所述目标数据的解压缩数据；

对所述目标数据的解压缩数据采用所述新的字典文件重新进行压缩操作，得到所述目标数据的新的压缩数据；

采用所述目标数据的新的压缩数据和所述新的字典文件的字典文件标识、替换所述存储系统中的所述目标数据的压缩数据及对应的字典文件标识。

在一个实施例中，当所述测试指标中包括所述压缩比、所述解压缩次数以及所述处理器占用率时，所述根据各待测试压缩算法的测试指标，选择出用于压缩所述目标数据的压缩算法，包括：

筛选出处理器占用率小于指定占用率的压缩算法；从筛选出的压缩算法中选择出压缩比和解压缩次数的加权求和值最大的压缩算法；

或者，

根据设定关系确定各压缩算法的质量指标值，其中，所述质量指标值与压缩比成正比、与解压缩次数成正比且与处理器占用率成反比；并，选择质量指标值最高的压缩算法。

在一个实施例中，采集的所述多个样本数据中包括不同时间段内生成的数据。

第二方面，本公开实施例还提供了一种数据处理方法，包括：

发送目标数据的获取请求给服务器；

接收所述服务器返回的所述目标数据的压缩数据及对应的算法标识；

采用所述算法标识对应的压缩算法对所述压缩数据进行解压缩操作。

在一个实施例中，所述算法标识为字典文件标识；

所述采用所述算法标识对应的压缩算法对所述压缩数据进行解压缩操作，包括：

获取所述算法标识对应的字典文件；

采用所述字典文件对所述压缩数据进行解压缩操作。

在一个实施例中，所述字典文件配置在指定路径下，所述指定路径下的所述字典文件的文件数量为至少一个，且所述指定路径支持新增字典文件和删除字典文件。

第三方面，本公开实施例还提供了一种数据处理装置，包括：

接收模块，被配置为执行接收终端设备发送的目标数据的获取请求；

响应模块，被配置为执行响应所述获取请求，从存储系统中读取所述目标数据的压缩数据以及所述压缩数据对应的算法标识；其中，所述压缩数据是预先采用所述算法标识对应的压缩算法对所述目标数据进行压缩操作后得到的；

发送模块，被配置为执行将所述压缩数据及对应的算法标识发送给所述终端设备，以使所述终端设备采用所述算法标识对应的压缩算法对所述压缩数据进行解压缩操作。

第四方面，本公开还提供一种数据处理装置，包括：

获取请求发送模块，被配置为执行发送目标数据的获取请求给服务器；

响应接收模块，被配置为执行接收所述服务器返回的所述目标数据的压缩数据及对应的算法标识；

解压缩模块，被配置为执行采用所述算法标识对应的压缩算法对所述压缩数据进行解压缩操作。

第五方面，本公开另一实施例还提供了一种计算设备，包括至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开实施例提供的任一数据处理方法。

第六方面，本公开另一实施例还提供了一种计算机存储介质，其中，所述计算机存储介质存储有计算机程序，所述计算机程序用于使计算机执行本公开实施例中的任一数据处理方法。

本公开实施例，选择了合适的压缩算法对数据进行压缩，由于不同数据可允许采用不同的压缩算法进行压缩，相比简单的购买硬件扩展存储系统，压缩数据能够提高存储系统的利用率。此外，存储系统同一时间可以同时存储不同压缩算法压缩的数据，使得存储系统对不同结构的数据采用的压缩算法，不同时期的数据采用的压缩算法均能够兼容，以此提高压缩效果进一步调高存储系统的对不同数据的需求，提高存储系统的利用率。

本公开的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本公开而了解。本公开的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对本公开实施例中所需要使用的附图作简单地介绍，显而易见地，下面所介绍的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据本公开一个实施例的应用环境的示意图；

图2为根据本公开一个实施例的数据处理流程示意图；

图3为根据本公开一个实施例的数据处理流程另一示意图；

图4为根据本公开一个实施例的数据处理流程的再一示意图；

图5为根据本公开一个实施例的数据处理流程的又一示意图；

图6为根据本公开一个实施例的数据处理流程的另一示意图；

图7-图8为根据本公开一个实施例的数据处理的装置示意图；

图9为根据本公开一个实施例的计算设备的示意图。

具体实施方式

发明人研究发现，单纯的依赖扩展缓存空间不能很好的满足不断增长的数据需求。如，单纯的进行硬件扩展缓存空间，不仅导致成本攀升，此外，根据不同缓存系统，并考虑到容灾、主从备份等因素，大型缓存系统往往由若干个小节点组成，不断的扩容会使小节点机器数增多。带来的硬件宕机的风险也就越大。而机器宕机数增多则会提高开发人员的运维成本，给运维工作带来不便。

有鉴于此，本公开提出了一种数据处理方法、装置、计算设备和存储介质，用于解决上述问题。

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述。应当理解的是，下文描述中，以“魔法表情”作为例子来对本公开的推荐方案进行详细说明。

图1为根据本公开一个实施例的应用环境的示意图。

如图1所示，该应用环境中例如可以包括存储系统10、服务器20以及多个终端设备30。其中，各终端设备30可用来进行网络访问的任何合适的电子设备，包括但不限于计算机、笔记本电脑、智能电话、平板电脑或是其它类型的终端。存储系统10能够存储被访问的数据，服务器20用于实现与各终端设备30的交互，从存储系统中获取数据返回给终端设备30。终端设备30之间(例如，30_1与30_2或30_N之间)也可以经由网络40彼此通信。网络40可以是广义上的用于信息传递的网络，可以包括一个或多个通信网络，诸如无线通信网络、因特网、私域网、局域网、城域网、广域网或是蜂窝数据网络等。

本公开中的描述中仅就单个服务器或终端设备加以详述，但是本领域技术人员应当理解的是，示出的单个服务器20、终端设备30和存储系统10旨在表示本公开的技术方案涉及终端设备、服务器以及存储系统的操作。对单个终端设备以及单个服务器和存储系统加以详述至少为了说明方便，而非暗示对终端设备和服务器的数量、类型或是位置等具有限制。应当注意，如果向图示环境中添加附加模块或从其中去除个别模块，不会改变本公开的示例实施例的底层概念。另外，虽然为了方便说明而在图1中示出了从存储系统10到服务器20的双向箭头，但本领域技术人员可以理解的是，上述数据的收发也是可以通过网络40实现的。

需要说明的是，本公开实施例中的存储系统例如可以是缓存系统、也可以是硬盘存储、内存存储等等。

本公开实施例中，为了能够满足不断增长的数据需求，采用对数据进行压缩存储的方式来提高对存储空间的利用率。为了能够更好的利用存储空间，本公开实施例中为了能够灵活应对各种需求，可以同一时间内允许使用不同的压缩算法对需要存储在存储系统的数据进行压缩。

为了能够选择出合适的压缩算法，本申请实施例中对压缩算法的测试指标进行了合理的量化。

在一个实施例中，测试指标可以包括以下中的至少一种：

1)、压缩效果，可量化为样本数据和样本数据的压缩数据的压缩比：

其中，样本数据为用于进行测试的数据，为使得测试结果接近实际情况，样本数据均为真实数据，且样本数据可包括多个。针对每个样本数据，分别计算样本数据压缩前和压缩后的数据的数据量，得到压缩比。例如，样本数据A压缩前数据量为B1，采用压缩算法X1进行压缩后，样本数据A的压缩数据为B2，则针对压缩算法X1而言，样本数据A的压缩比为(B1/B2)。

假设具有n个样本数据(n为正整数)，针对压缩算法X1而言，其对应的压缩比，可以为n各样本数据的各自的压缩比的均值。当然，也可以是各样本数据的压缩比中占比最多的压缩比。

2)、单位时间内对指定数量的样本数据的压缩数据的解压缩次数：

例如可以为1s(秒)或1ms(毫秒)执行的解压缩次数，用于衡量不同压缩算法的吞吐效果。

3)、执行指定次数的解压缩操作的处理器占用率；

使用数据在生产环境服务器中执行相同次数的解压缩操作，并记录CPU(centralprocessing unit，中央处理器)占用率。

如图2所示，为本公开实施例中，对不同压缩算法进行测试的流程示意图，可包括以下步骤：

步骤201：采集多个样本数据。

其中，当随着时间不同，数据结构可能发生变化时，采集的所述多个样本数据中包括不同时间段内生成的数据，以使测试的样本数据能够覆盖到不同时期的真实数据。

步骤202：对多个待测试压缩算法中的任意压缩算法分别执行：对各样本数据采用所述待测试压缩算法进行压缩操作，得到各样本数据的压缩数据；并，确定所述待测试压缩算法的测试指标。

步骤203：根据各待测试压缩算法的测试指标，选择出用于压缩所述目标数据的压缩算法。

其中，当测试指标包括上述1)-3)中的一种时，如：

A)、即仅包括压缩比时，可选择压缩比最高的压缩算法。

B)、仅包括解压缩次数时，可选择解压缩次数最高的压缩算法。

C)、仅包括处理器占用率时，选择处理器占用率最低的压缩算法。

在另一个实施例中，当包括压缩比和解压缩次数时，可以分别获取压缩比和解压缩次数各自的权重因子，然后采用加权求和的方式选择压缩算法。

在又一个实施例中，当包括压缩比和处理器占用率时，本着压缩比越高越好，处理器占用率越低越好的原则，选择相应的压缩算法。

类似的，在另一个实施例中，当包括解压缩次数和处理器占用率时，本身解压缩次数越高越好，处理器占用率越低越好的原则，选择相应的压缩算法。

同理，在另一个实施例中，当包括压缩比、解压缩次数和处理器占用率时，可采用如下操作方式中的一种，选择压缩算法：

操作方式1)、筛选出处理器占用率小于指定占用率的压缩算法；从筛选出的压缩算法中选择出压缩比和解压缩次数的加权求和值最大的压缩算法；

例如，先根据处理器占用率初选出压缩算法X1、X2，则进一步的，计算压缩算法X1的压缩比和解压缩次数的加权求和结果，并计算压缩算法X2的压缩比和解压缩次数的加权求和结果，然后选择加权求和结果值最大的压缩算法。

操作方式2)、根据设定关系确定各压缩算法的质量指标值，其中，所述质量指标值与压缩比成正比、与解压缩次数成正比且与处理器占用率成反比；并，选择质量指标值最高的压缩算法。

在另一个实施例中，当处理器占用率差不多时，可以根据压缩比和解压缩次数来选择相应的压缩算法。例如，可编写java程序，使用实现了对应压缩算法的java binding库对数据进行压缩，并统计压缩效果。假设被压缩数据为google protobuf的byte数组，一般大小为1kb左右，属于典型的小数据。相应的压缩效果(即压缩比)的测试结果如表1所示，吞吐效果(即解压缩次数)的测试结果如表2所示：

表1

其中带字典的zstd压缩算法是指：使用测试数据作为训练集，使用zstd程序训练得到字典，之后使用字典对数据进行压缩与解压缩的一种方式。

其中，其他压缩算法则无需使用字典，直接调用binding库接口对测试数据压缩即可。

表2

压缩算法	吞吐(op/ms)
		Gzip	0.773
BRotli	0.015
		zstd	2.740
带字典的zstd	5.307

由上面的测试数据发现带字典的zstd压缩算法压缩效果最好，平均压缩比达到4.58，这意味着原先可以存储1个数据的容量，现在可以存储4.58个。同时它的吞吐效果也是最高的。故此，可最终选择使用带字典的zstd压缩算法对数据进行压缩。

在一个实施例中，不同的存储节点可分别进行测试，不同格式的数据可分别进行测试。相应的，不同存储节点可采用不同的压缩算法进行存储。同一存储节点可采用不同的压缩算法对不同格式的数据进行压缩。

此外，随着时间的推移，数据结构发生变化后，可以重新进行测试，选择适用的压缩算法。不同时期、不同数据结构的数据可以采用不同的压缩算法进行压缩存储到存储系统中，使得存储系统在同一时间可以存在不同压缩算法压缩的数据。

在介绍了本公开实施例中如何选择压缩算法之后，相应的下面对如何读取数据进行说明，如图3所示，为本公开实施例中数据处理的流程示意图，包括以下步骤：

步骤301：服务器接收终端设备发送的目标数据的获取请求；

步骤302：服务器响应所述获取请求，从存储系统中读取所述目标数据的压缩数据以及所述压缩数据对应的算法标识。

如前文所述，压缩数据是预先采用所述算法标识对应的压缩算法对所述目标数据进行压缩操作后得到的；

步骤303：服务器将所述压缩数据及对应的算法标识发送给所述终端设备。

步骤304：终端设备采用所述算法标识对应的压缩算法对所述压缩数据进行解压缩操作。

由此，本公开实施例中，选择了合适的压缩算法对数据进行压缩，由于不同数据可允许采用不同的压缩算法进行压缩，相比简单的购买硬件扩展存储系统，压缩数据能够提高存储系统的利用率。此外，存储系统同一时间可以同时存储不同压缩算法压缩的数据，使得存储系统对不同数据采用的压缩算法，不同时期的数据采用的压缩算法均能够兼容，以此提高压缩效果进一步调高存储系统的对不同数据的需求，提高存储系统的利用率。

在另一个实施例中，如前文所述，在根据各待测试压缩算法的测试指标，选择出用于压缩所述目标数据的压缩算法之后，还可以根据需求重新测试。例如，当满足测试条件时，重新对所述多个待测试压缩算法进行测试并选择出新的压缩算法；

其中，所述测试条件包括以下中的至少一种：

(1)到达重新测试周期、例如设定每间隔一定时间测试一次；

(2)指定数据的数据结构发生变化，所述指定数据包括存储在所述存储系统中的数据和/或待存储到所述存储系统的数据。由此，可根据数据变化情况重新进行测试，以便于选择出合理的相应的压缩算法。

相应的，在另一个实施例中，当最新选择出的压缩算法与上一次选择的压缩算法不同时，采用新选择的出的压缩算法对新数据进行压缩，并对旧数据重新进行压缩。例如，对旧数据可实施为：

步骤B1：从所述存储系统中读取所述目标数据的压缩数据以及对应的算法标识；

步骤B2：根据所述算法标识对所述目标数据的压缩数据进行解压缩操作后得到所述目标数据的解压缩数据；

步骤B3：对所述目标数据的解压缩数据采用所述最新选择出的压缩算法重新进行压缩操作，得到所述目标数据的新的压缩数据；

步骤B4：采用所述目标数据的新的压缩数据和所述最新选择出的压缩算法的算法标识、替换所述存储系统中的所述目标数据的压缩数据及对应的算法标识。

例如，根据业务需求，旧数据有变化时，可以对旧数据进行解压缩，并对旧数据更新后(例如删减不需要的信息，增加新增设的信息)，再重新使用新的压缩算法进行压缩并存储。这样，通过存储压缩数据及其对应的算法标识，能够不断的兼容旧数据。

在另一个实施例中，若选择出的用于压缩所述目标数据的压缩算法为带字典的压缩算法时，字典文件可以不断的进行更新以便于适应不同的数据需求。字典的训练更新可实施为如下步骤：

步骤C1：采集训练样本；

步骤C2：对所述训练样本进行训练得到所述带字典的压缩算法的新的字典文件；

步骤C2：根据所述新的字典文件更新所述带字典的压缩算法。

由此，字典文件可适用于不同需求进行更新，能够保持带字典的压缩算法的压缩效果。

实施时第一次测试时，选择出的压缩算法为带字典的压缩算法时，则之后可以不重复进行测试，而是不断更新字典文件。则，相应的，存储系统中存储的算法标识为字典文件标识；在每次更新字典文件之后，可实施为如图4所述的步骤：

步骤401：从所述存储系统中读取所述目标数据的压缩数据以及对应的字典文件标识；

步骤402：采用所述字典文件标识对应的字典文件对所述目标数据的压缩数据进行解压缩操作后得到所述目标数据的解压缩数据；

步骤403：对所述目标数据的解压缩数据采用所述新的字典文件重新进行压缩操作，得到所述目标数据的新的压缩数据；

步骤404：采用所述目标数据的新的压缩数据和所述新的字典文件的字典文件标识、替换所述存储系统中的所述目标数据的压缩数据及对应的字典文件标识。

由此，考虑到通过字典进行压缩的压缩效果可能随着被压缩文件的结构变化而发生退化的情况，可以不断更新字典文件适应不同数据的需求。

此外，本申请实施例中，不仅字典文件可替换，在替换期间多种字典文件可共存，且无需服务更新和重启。其实现可为通过离线程序在数据库中采集样本数据训练出字典，并将字典文件作为动态配置存放的配置系统中，当动态配置更新时，可以下发到服务端程序以便于进行压缩。当数据被压缩时，将压缩后的数据和当前使用的压缩算法的字典文件的标识(字典的代数)一起存放在缓存系统中。当从缓存系统中取出数据时，拿到字典的代数再通过配置系统中的字典解压出原始数据。

这种方法的好处是缓存系统中可以存放多种经由不同字典压缩过的数据，而因为解压所使用的字典文件是由被压缩数据决定的，所以不同字典代数的被压缩数据可以兼容。

如图5所示，可从数据库中采集数据信息用于训练出字典，在经由字典训练程序训练处字典后，将字典数据下发到配置系统。压缩数据时，可从配置系统中读取字典文件进行压缩，将数据及其采用的字典文件标识存储至缓存系统，在有数据请求时，可从缓存系统中读取字典文件标识，从配置系统中读取字典文件标识对应的自动文件对数据进行解压缩。

当然，在另一个实施例中，也可以每次测试之后，若选择出带字典的压缩算法，则在下一次重新测试压缩算法之前，不断对字典文件进行更新。

相应的，基于相同的发明构思，本公开实施例中还提供一种数据处理方法，可适用于终端设备，如图6所示，可包括以下步骤：

步骤601：发送目标数据的获取请求给服务器；

步骤602：接收所述服务器返回的所述目标数据的压缩数据及对应的算法标识；

步骤603：采用所述算法标识对应的压缩算法对所述压缩数据进行解压缩操作。

由此，不同数据可采用相应的压缩算法进行压缩存储，存储系统能够对不同压缩算法进行兼容，提高存储系统的利用率。

在一个实施例中，所述算法标识为字典文件标识；则相应的，可以先获取所述算法标识对应的字典文件；然后采用所述字典文件对所述压缩数据进行解压缩操作。基于算法标识获取字典文件，使得算法标识改变，对应的字典文件也可不同，故此实现对不同字典文件的兼容，保持压缩算法的效果。

其他方面，如字典文件的训练，压缩算法的选择是根据测试指标选择出的，如测试指标包括以下中的至少一种：样本数据和样本数据的压缩数据的压缩比、单位时间内对指定数量的样本数据的压缩数据的解压缩次数、执行指定次数的解压缩操作的处理器占用率。这些内容已在前述实施例中进行说明，这里不再赘述。

此外，本申请中的字典文件配置在指定路径下，该指定路径下的所述字典文件的文件数量为至少一个，且所述指定路径支持新增字典文件和删除字典文件。

如图7所示，基于相同的发明构思，提出一种数据处理装置700，包括：

接收模块701，被配置为执行接收终端设备发送的目标数据的获取请求；

响应模块702，被配置为执行响应所述获取请求，从存储系统中读取所述目标数据的压缩数据以及所述压缩数据对应的算法标识；其中，所述压缩数据是预先采用所述算法标识对应的压缩算法对所述目标数据进行压缩操作后得到的；

发送模块703，被配置为执行将所述压缩数据及对应的算法标识发送给所述终端设备，以使所述终端设备采用所述算法标识对应的压缩算法对所述压缩数据进行解压缩操作。

在一个实施例中，所述装置还包括：

压缩算法测试模块，被配置为执行根据以下方法确定用于压缩所述目标数据的压缩算法：

采集多个样本数据；

在一个实施例中，所述根据各待测试压缩算法的测试指标，选择出用于压缩所述目标数据的压缩算法之后，所述装置还包括：

重选模块，被配置为执行当满足测试条件时，重新对所述多个待测试压缩算法进行测试并选择出新的压缩算法；

在一个实施例中，当最新选择出的压缩算法与上一次选择的压缩算法不同时，所述装置还包括：

读取模块，被配置为执行从所述存储系统中读取所述目标数据的压缩数据以及对应的算法标识；

解压缩模块，被配置为执行根据所述算法标识对所述目标数据的压缩数据进行解压缩操作后得到所述目标数据的解压缩数据；

更新模块，被配置为执行对所述目标数据的解压缩数据采用所述最新选择出的压缩算法重新进行压缩操作，得到所述目标数据的新的压缩数据；并，采用所述目标数据的新的压缩数据和所述最新选择出的压缩算法的算法标识、替换所述存储系统中的所述目标数据的压缩数据及对应的算法标识。

在一个实施例中，若选择出的用于压缩所述目标数据的压缩算法为带字典的压缩算法时，所述装置还包括：

样本采集模块，被配置为执行采集训练样本；

字典文件更新模块，被配置为执行对所述训练样本进行训练得到所述带字典的压缩算法的新的字典文件；并，根据所述新的字典文件更新所述带字典的压缩算法。

在一个实施例中，若选择出的压缩算法为带字典的压缩算法，则所述算法标识为字典文件标识；所述装置还包括：

字典文件标识获取模块，被配置为执行在所述字典文件更新模块根据所述新的字典文件更新所述带字典的压缩算法之后，从所述存储系统中读取所述目标数据的压缩数据以及对应的字典文件标识；

数据更新模块，被配置为执行采用所述字典文件标识对应的字典文件对所述目标数据的压缩数据进行解压缩操作后得到所述目标数据的解压缩数据；并，对所述目标数据的解压缩数据采用所述新的字典文件重新进行压缩操作，得到所述目标数据的新的压缩数据；采用所述目标数据的新的压缩数据和所述新的字典文件的字典文件标识、替换所述存储系统中的所述目标数据的压缩数据及对应的字典文件标识。

在一个实施例中，当所述测试指标中包括所述压缩比、所述解压缩次数以及所述处理器占用率时，所述压缩算法测试模块，被配置为执行：

或者，

基于相同的构思，本公开实施例还提出了一种数据处理装置，如图8所述，该数据处理装置800包括：

获取请求发送模块801，被配置为执行发送的目标数据的获取请求给服务器；

响应接收模块802，被配置为执行接收所述服务器返回的所述目标数据的压缩数据及对应的算法标识；

解压缩模块803，被配置为执行采用所述算法标识对应的压缩算法对所述压缩数据进行解压缩操作。

在一个实施例中，所述算法标识为字典文件标识；

所述解压缩模块，被配置为执行：

获取所述算法标识对应的字典文件；

采用所述字典文件对所述压缩数据进行解压缩操作。

关于各数据处理装置中各操作的实施以及有益效果可参见前文方法中的描述，此处不再赘述。

在介绍了本公开示例性实施方式的数据处理方法和装置之后，接下来，介绍根据本公开的另一示例性实施方式的计算设备。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本公开的计算设备可以至少包括至少一个处理器、以及至少一个存储器。其中，存储器存储有程序代码，当程序代码被处理器执行时，使得处理器执行本说明书上述描述的根据本公开各种示例性实施方式的数据处理方法中的步骤。例如，处理器可以执行如数据处理方法中的步骤。

下面参照图9来描述根据本公开的这种实施方式的计算设备130。图9显示的计算设备130仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图9所示，计算设备130以通用计算设备的形式表现。计算设备130的组件可以包括但不限于：上述至少一个处理器131、上述至少一个存储器132、连接不同系统组件(包括存储器132和处理器131)的总线133。

总线133表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储器132可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)1321和/或高速缓存存储器1322，还可以进一步包括只读存储器(ROM)1323。

存储器132还可以包括具有一组(至少一个)程序模块1324的程序/实用工具1325，这样的程序模块1324包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算设备130也可以与一个或多个外部设备134(例如键盘、指向设备等)通信，还可与一个或者多个使得用户能与计算设备130交互的设备通信，和/或与使得该计算设备130能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口135进行。并且，计算设备130还可以通过网络适配器136与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器136通过总线133与用于计算设备130的其它模块通信。应当理解，尽管图中未示出，可以结合计算设备130使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

在一些可能的实施方式中，本公开提供的一种数据处理方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在计算机设备上运行时，程序代码用于使计算机设备执行本说明书上述描述的根据本公开各种示例性实施方式的一种数据处理方法中的步骤，例如，计算机设备可以执行如图2-3所示的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本公开的实施方式的用于数据处理的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在计算设备上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务端上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本公开的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本公开范围的所有变更和修改。

显然，本领域的技术人员可以对本公开进行各种改动和变型而不脱离本公开的精神和范围。这样，倘若本公开的这些修改和变型属于本公开权利要求及其等同技术的范围之内，则本公开也意图包含这些改动和变型在内。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

接收终端设备发送的目标数据的获取请求；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据以下方法确定用于压缩所述目标数据的压缩算法：

采集多个样本数据；

3.根据权利要求2所述的方法，其特征在于，所述根据各待测试压缩算法的测试指标，选择出用于压缩所述目标数据的压缩算法之后，所述方法还包括：

4.根据权利要求2-3中任一所述的方法，其特征在于，若选择出的用于压缩所述目标数据的压缩算法为带字典的压缩算法时，所述方法还包括：

采集训练样本；

5.根据权利要求2-3中任一所述的方法，其特征在于，当所述测试指标中包括所述压缩比、所述解压缩次数以及所述处理器占用率时，所述根据各待测试压缩算法的测试指标，选择出用于压缩所述目标数据的压缩算法，包括：

或者，

6.一种数据处理方法，其特征在于，所述方法包括：

发送目标数据的获取请求给服务器；

7.一种数据处理装置，其特征在于，所述装置包括：

8.一种数据处理装置，其特征在于，所述装置包括：

9.一种计算设备，其特征在于，包括至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行根据权利要求1-6中任何一项所述的方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序用于使计算机执行根据权利要求1-6任何一项所述的方法。