CN114579570A

CN114579570A - 数据处理方法及装置

Info

Publication number: CN114579570A
Application number: CN202210197600.6A
Authority: CN
Inventors: 梁晨; 陈天宇; 梁波; 黄镄波; 颜蒙杰
Original assignee: Guangzhou Xishanju Network Technology Co ltd; Zhuhai Kingsoft Digital Network Technology Co Ltd
Current assignee: Guangzhou Xishanju Network Technology Co ltd; Zhuhai Kingsoft Digital Network Technology Co Ltd
Priority date: 2022-03-01
Filing date: 2022-03-01
Publication date: 2022-06-03

Abstract

本申请提供数据处理方法及装置，其中所述数据处理方法包括：获取待存储数据，并将所述待存储数据拆分为至少一个待处理数据；根据待处理数据的数量确定分段规则；基于所述分段规则和预设编码表确定每个待处理数据对应的目标数据；生成每个目标数据对应的标识码，根据每个目标数据对应的标识码生成并存储所述待存储数据对应的存储标识码。通过对存储标识码进行存储，从而避免了直接对待存储数据进行存储，减少了待存储的数据量，节省了大量的存储空间。

Description

数据处理方法及装置

技术领域

本申请涉及计算机技术领域，特别涉及数据处理方法。本申请同时涉及数据处理装置、一种计算设备，以及一种计算机可读存储介质。

背景技术

随着互联网技术的发展，由于大数据时代的到来，产生的数据量也越来越多，在对海量数据进行存储时，所需的存储空间也越来越大。对于记录了包含大量数字，且数字普遍较小的数据，现有技术中，通常以分隔符的方式对多种含义的数据进行分隔并进行存储，然而，由于在存储数字的同时还需要对分隔符进行存储，这将耗费大量的存储资源，因此亟需一种有效的方案以解决上述问题。

发明内容

有鉴于此，本申请实施例提供了数据处理方法，以解决现有技术中存在的技术缺陷。本申请实施例同时提供了数据处理装置，一种计算设备，以及一种计算机可读存储介质。

根据本申请实施例的第一方面，提供了一种数据处理方法，包括：

获取待存储数据，并将所述待存储数据拆分为至少一个待处理数据；

根据待处理数据的数量确定分段规则；

基于所述分段规则和预设编码表确定每个待处理数据对应的目标数据；

生成每个目标数据对应的标识码，根据每个目标数据对应的标识码生成并存储所述待存储数据对应的存储标识码。

可选地，所述获取待存储数据，包括：

获取原始数据字符串；

基于预设的转换算法将所述原始数据字符串转换为待存储数据。

可选地，所述基于所述分段规则和预设编码表确定每个待处理数据对应的目标数据，包括：

基于所述分段规则和所述预设编码表确定每个待处理数据对应的数据区间；

根据每个待处理数据对应的数据区间计算每个待处理数据对应的目标数据。

可选地，所述基于所述分段规则和所述预设编码表确定每个待处理数据对应的数据区间，包括：

获取所述预设编码表的全局数据区间；

基于所述分段规则将所述全局数据区间划分为多个数据区间，其中，每个待处理数据对应一个数据区间。

可选地，所述根据每个待处理数据对应的数据区间计算每个待处理数据对应的目标数据，包括：

确定每个待处理数据对应的数据区间的起始数据；

根据每个待处理数据对应的起始数据，确定每个待处理数据对应的目标数据。

可选地，所述将所述待存储数据拆分为至少一个待处理数据步骤执行之后，包括：

基于所述待存储数据，确定每个待处理数据对应的位置信息。

可选地，所述生成每个目标数据对应的标识码，根据每个目标数据对应的标识码生成并存储所述待存储数据对应的存储标识码，包括：

根据每个待处理数据对应的位置信息确定每个目标数据对应的位置信息；

根据每个目标数据对应的位置信息和每个目标数据对应的标识码，确定所述待存储数据对应的存储标识码。

可选地，所述方法还包括：

接收数据读取指令，其中，所述数据读取指令中携带有存储标识码；

基于所述存储标识码确定多个标识码，并确定每个标识码对应的目标数据；根据所述分段规则和所述预设编码表确定每个目标数据对应的待处理数据；

基于每个待处理数据确定与所述存储标识码对应的待存储数据。

可选地，所述根据所述分段规则和所述预设编码表确定每个目标数据对应的待处理数据，包括：

根据所述分段规则和所述预设编码表确定每个目标数据对应的数据区间；

根据每个目标数据对应的数据区间计算每个目标数据对应的待处理数据。

根据本申请实施例的第二方面，提供了一种数据处理装置，包括：

获取模块，被配置为获取待存储数据，并将所述待存储数据拆分为至少一个待处理数据；

确定模块，被配置为根据待处理数据的数量确定分段规则；

处理模块，被配置为基于所述分段规则和预设编码表确定每个待处理数据对应的目标数据；

生成模块，被配置为生成每个目标数据对应的标识码，根据每个目标数据对应的标识码生成并存储所述待存储数据对应的存储标识码。

根据本申请实施例的第三方面，提供了另一种数据处理方法，包括：

基于所述存储标识码确定多个标识码，并确定每个标识码对应的目标数据；

根据分段规则和预设编码表确定每个目标数据对应的待处理数据；

可选地，所述根据分段规则和预设编码表确定每个目标数据对应的待处理数据，包括：

根据本申请实施例的第四方面，提供了另一种数据处理装置，包括：

接收模块，被配置为接收数据读取指令，其中，所述数据读取指令中携带有存储标识码；

第一确定模块，被配置为基于所述存储标识码确定多个标识码，并确定每个标识码对应的目标数据；

第二确定模块，被配置为根据分段规则和预设编码表确定每个目标数据对应的待处理数据；

第三确定模块，被配置为基于每个待处理数据确定与所述存储标识码对应的待存储数据。

根据本申请实施例的第五方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器执行所述计算机可执行指令时实现所述数据处理方法的步骤。

根据本申请实施例的第六方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现所述数据处理方法的步骤。

根据本申请实施例的第七方面，提供了一种芯片，其存储有计算机程序，该计算机程序被芯片执行时实现所述数据处理方法的步骤。

本申请提供的数据处理方法，通过获取待存储数据，并将待存储数据拆分为至少一个待处理数据；根据待处理数据的数量确定分段规则；基于分段规则和预设编码表确定每个待处理数据对应的目标数据；生成每个目标数据对应的标识码，根据每个目标数据对应的标识码生成并存储所述待存储数据对应的存储标识码。通过对待存储数据进行拆分，依次确定拆分后的待处理数据对应的标识码并进行存储，从而避免了直接对待存储数据进行存储，减少了待存储的数据量，节省了大量的存储空间。

附图说明

图1是本申请一实施例提供的一种数据处理方法的流程图；

图2是本申请一实施例提供的一种应用于字符串数据处理的数据处理方法的处理流程图；

图3是本申请一实施例提供的一种数据处理装置的结构示意图；

图4是本申请一实施例提供的另一种数据处理方法的流程图；

图5是本申请一实施例提供的另一种数据处理装置的结构示意图；

图6是本申请一实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

ASCII(American Standard Code for Information Interchange)，是基于拉丁字母的一套电脑编码系统，ASCII码使用指定的7位或8位二进制数组合来表示128或256种可能的字符。

BCD码(Binary-Coded Decimal)，用4位二进制数来表示1位十进制数中的0～9这10个数码，是一种二进制的数字编码形式，用二进制编码的十进制代码。BCD码这种编码形式利用了四个位元来储存一个十进制的数码，使二进制和十进制之间的转换得以快捷的进行。

字节：一个字节存储8位无符号数，用于存储0-255范围的二进制数字序列，二进制数字序列在计算机中作为一个数字单元，一般为8位二进制数。

在本申请中，提供了数据处理方法。本申请同时涉及数据处理装置、一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1示出了根据本申请一实施例提供的一数据处理方法的流程图，具体包括以下步骤：

步骤102，获取待存储数据，并将所述待存储数据拆分为至少一个待处理数据。

具体的，待存储数据是指经过哈希算法或其他数据转换算法进行转换后得到的计算机数据，将具有一定意义的数字、字母、符号等组成的数据进行转换后得到的由数字和字符组成的数据；待处理数据对应待存储数据，是由待存储数据按照一定的拆分规则拆分得到的，后续分别对拆分得到的每个待处理数据进行处理和存储。

基于此，在对待存储数据进行存储的过程中，获取待存储数据，并按照预设的拆分规则对待存储数据进行拆分，得到对应待存储数据的多个待处理数据，其中，待处理数据均以数值或字符的方式表示，以便于后续对待处理数据进行存储。

实际应用中，对待存储数据进行拆分时，可以以分隔符为拆分点对待存储数据进行拆分，也可以按照数据的位数进行拆分，每两个数字或字符拆分为一段数据。本实施例对数据的拆分规则不作具体限定。

进一步的，在获取待存储数据时，考虑到待存储数据需要由原始数据字符串经过转换算法转换得到，因此在确定待存储数据之前还需要获取原始数据字符串，并对其进行转换，具体实现如下：

获取原始数据字符串；基于预设的转换算法将所述原始数据字符串转换为待存储数据。

具体的，原始数据字符串是指具有一定意义的数字、字母、符号等组成的数据。原始数据字符串可以是用户行为数据，例如用户使用应用程序所产生的数据，包括用户的行为对应的时间、所占用的内存空间、调用的函数等，其中，用户的行为包括登录、注销、浏览等操作；原始数据字符串还可以是日志文件中的数据，即，用于记录系统操作事件的记录文件或文件集合中对应的数据；转换算法是指，将所占字节数较多的原始数据字符串转换为较为紧凑的数值表示形式的字符串的算法，在本实施例中，转换算法可以为哈希算法，字符串可以由数字和字符共同组成，例如原始数据字符串可以是函数、时间等数据，对原始数据采用哈希算法进行数据转换，即可得到数据“@12#23#1”，数据“@12#23#1”即为待存储数据。

基于此，在确定待存储数据之前，获取原始数据字符串，对原始数据字符串使用转换算法进行数据转换，将长度不固定的原始数据字符串转换为表达形式一致，字符串长度一致的待存储数据，以便于后续继续对待存储数据进行处理并进行存储。

综上所述，通过转换算法将原始数据字符串转换为长度固定且表达形式一致的待存储数据，从而实现对原始数据字符串的标准化，便于对待存储数据进行处理和存储。

进一步的，在将待存储数据拆分为至少一个待处理数据后，为了在对处理数据进行存储时，实现按照待存储数据的拆分顺序依次进行存储，还可以在对待存储数据进行拆分时，记录拆分得到的待处理数据在待存储数据中的位置信息，具体实现如下：

具体的，位置信息是指对待存储数据进行拆分时，拆分得到的每个待处理数据在待存储数据中的位置。例如，将待存储数据拆分为三个待处理数据，为每个待处理数据分配一个编号或标签用于表示此待处理数据在待存储数据中的位置。

基于此，在对待存储数据进行拆分的过程中，拆分得到每个待处理数据的同时，记录每个待处理数据在待存储数据中的位置信息，作为每个待处理数据的位置属性标签，用于表示待处理数据在待存储数据中的所处的位置。在后续对待处理数据进行处理时，也对位置属性标签进行记录。

举例说明，在对原始数据“f(x)+2000.10.02.16:40+2kb”进行存储时，采用哈希算法或其他数据转换算法对原始数据“f(x)+2000.10.02.16:40+2kb”进行转换，得到待存储数据“@12#23#1”。在待存储数据“@12#23#1”中，“12”对应“f(x)”、“23”对应“2000.10.02.16:40”、“1”对应“2kb”。再对待存储数据“@12#23#1”进行拆分，以分隔符@、#为拆分点，将待存储数据“@12#23#1”拆分为“12”、“23”、“1”这三组待处理数据，由于待处理数据“12”对应原始数据中的第一组数据“f(x)”，因此为待处理数据“12”分配标签值“1组”，以此类推，待处理数据“23”对应“2000.10.02.16:40”，标签值“2组”，待处理数据“1”对应“2kb”，标签值“3组”。

综上所述，通过记录待处理数据在待存储数据中的位置信息，实现对待存储数据的有序拆分和记录，保证了待处理存储数据的存储顺序。

步骤104，根据待处理数据的数量确定分段规则。

具体的，在上述将待存储数据拆分为多个待处理数据后，由于并不能对待处理数据直接进行存储，还需要根据拆分得到的待处理数据的数量确定分段规则，其中，分段规则是指根据待处理数据的数量确定的划分准则，每个待处理数据均有与其对应的数据分段。

基于此，在对待存储数据拆分得到多个待处理数据后，根据待处理数据的数量确定分段规则，即，每个待处理数据对应一个数据分段，同时确定每个数据分段所占的比例。

在本实施例中，确定了待处理数据的数量后，针对待处理数据的数量以及待处理数据的数值大小确定分段规则，为每个待处理数据确定分段数据所占的比例，且分段数据的数据范围包含的数据个数大于待处理数据的数据值大小。

沿用上例，在为待处理数据“12”、“23”、“1”确定分段规则时，由于待处理数据有三个，因此分段规则是划分为三个数据段，每个待处理数据对应一个数据段，由于待处理数据中的数值分别为“12”、“23”、“1”，因此在确定分段规则时，第一数据段所包含的数据个数要大于12，第二数据段所包含的数据个数要大于23，第三数据段所包含的数据个数要大于1。还可以按照2：1：1的比例确定每个数据段中所包含的数据个数，本实施例对此不作任何限定。在本实施例中，分段规则是按照2：1：1的比例划分为三个数据段。

步骤106，基于所述分段规则和预设编码表确定每个待处理数据对应的目标数据。

具体的，在上述确定了待处理数据和分段规则后，考虑到待处理数据并不能直接进行存储，还需要基于预设编码表和分段规则确定对应待处理数据的目标数据，因此，可以根据预设编码表和分段规则对待处理数据进行处理，从而确定每个待处理数据对应的目标数据，其中，预设编码表是指是一种代码说明表，用于解释字母、数字和字符代码的含义，预设编码表包括但不限于ASCII编码表、BCD码等，预设编码表还可以是自定义的对照表；目标数据是指参照预设编码表确定的与待处理数据对应的数据。

基于此，根据对应待处理数据的分段规则对预设编码表进行分段处理，确定每个待处理数据对应的预设编码表的编码分段，即，预设编码表中对应每个待处理数据的起始值和终止值，根据每个待处理数据的编码分段对每个待处理数据进行计算，得到每个待处理数据对应的目标数据。

进一步的，在确定待处理数据对应的目标数据时，考虑到每个待处理数据的数据值可能不同，因此在确定每个待处理数据对应的目标数据时，需要基于对应每个待处理数据的数据区间对每个待处理数据分别进行计算，具体实现如下：

基于所述分段规则和所述预设编码表确定每个待处理数据对应的数据区间；根据每个待处理数据对应的数据区间计算每个待处理数据对应的目标数据。

具体的，数据区间是指按照分段规则对预设编码表进行划分，得到的每个数据分段所包含的数据值范围，每个待处理数据对应一个数据区间，且每个数据区间数值范围内所包含的数值个数大于待处理数据对应的数值个数。若待处理数据为23，则数据区间可以为0-24，即，数据区间的终止值减起始值大于等于待处理数据值。

基于此，根据分段规则对预设编码表进行分段处理，将预设编码表划分为多个数据区间，每个数据区间对应一个待处理数据。在对应每个待处理数据的数据区间中对待处理数据进行计算，得到每个待处理数据对应的目标数据。

综上所述，根据对应每个待处理数据的数据区间，分别对每个待处理数据进行计算，实现了以预设编码表中空间占用量较低的数据表示空间占用量较高的待处理数据，从而节省了存储空间，避免了资源浪费。

进一步的，在基于预设编码表确定数据空间时，考虑到不同的预设编码表的数据区间范围也不相同，因此需要确定预设编码表的全局数据区间，再基于分段规则将全局数据区间划分为多个数据区间，具体实现如下：

获取所述预设编码表的全局数据区间；基于所述分段规则将所述全局数据区间划分为多个数据区间，其中，每个待处理数据对应一个数据区间。

具体的，全局数据区间是指预设编码表所表示的数据范围，针对不同类型的预设编码表，其数据范围也不相同，例如ASCII码表的数据范围为0-255，或者自定义预设编码表的数据范围0-100、0-300等。

数据区间是指按照分段规则对预设编码表进行划分，得到的每个数据分段所包含的数据值范围，每个待处理数据对应一个数据区间，且每个数据区间数值范围内所包含的数值个数大于待处理数据对应的数值个数。如待处理数据为23，则数据区间可以为0-24，即，数据区间的终止值减起始值大于等于待处理数据值。

基于此，确定预设编码表，并确定预设编码表的全局数据区间，根据分段规则对预设编码表进行划分，将预设编码表划分为多个数据区间，每个数据区间对应一个待处理数据。在确定每个待处理数据对应的数据区间时，可以根据待处理数据的位置信息确定每个待处理数据对应的数据区间，其中待处理数据的位置信息与数据区间在全局数据区间中的位置信息相匹配。

实际应用中，针对三个待处理数据，需要将预设编码表的全局数据区间划分为三个数据区间，待处理数据与数据区间之间的对应关系可以由待处理数据在待存储数据中的位置信息，以及数据区间在全局数据区间中的位置信息决定。即，第一待处理数据对应第一数据区间(min，x),第二待处理数据对应第二数据区间(y，z),第三待处理数据对应第三数据区间(h，max)，其中，min和x分别为第一数据区间的起始值和终止值，且min<x；y和z分别为第二数据区间的起始值和终止值，且y<z；h和max分别为第三数据区间的起始值和终止值，且h<max。

综上所述，通过将预设编码表的全局数据区间划分为多个数据区间，从而实现一个待处理数据对应一个数据区间，以便于后续根据数据区间对待处理数据进行计算。

进一步的，在确定了每个待处理数据对应的数据区间后，还需要基于数据区间中的起始数据对待处理数据进行计算，得到对应待处理数据的目标数据，具体实现如下：

确定每个待处理数据对应的数据区间的起始数据；根据每个待处理数据对应的起始数据，确定每个待处理数据对应的目标数据。

具体的，起始数据是指预设编码表中对应每个数据区间的区间起始值，在对待处理数据进行计算时，将待处理数据的数值与其对应的数据区间的起始数据对应的数据值相加，得到对应待处理数据对应的目标数据。

基于此，在计算每个待处理数据对应的目标数据时，确定与待处理数据对应的预设编码表中的数据区间。选取数据区间的起始数据，以及待处理数据对应的数值，将起始数据对应的数值与待处理数据对应的数值相加，得到的数值之和即为对应待处理数据的目标数据。

沿用上例，根据分段规则对ASCII码表的数据范围为0-255进行划分，将数据区间0-255按照2:1:1的比例划分为三个子数据区间，第一子数据区间的数据范围为0-127，对应待处理数据“12”；第二子数据区间的数据范围为128-196，对应待处理数据“23”；第三子数据区间的数据范围为197-255，对应待处理数据“1”。针对待处理数据“12”，将第一子数据区间0-127起始值0与待处理数据“12”相加，得到对应待处理数据“12”的目标数据12，以此类推，得到待处理数据“23”对应的目标数据151，以及待处理数据“1”对应的目标数据198。

综上所述，通过基于预设编码表计算待处理数据的目标数据，从而基于目标数据实现对待处理数据的存储，以预设编码表中空间占用量较低的数据表示空间占用量较高的待处理数据，从而节省了存储空间，避免了资源浪费。

步骤108，生成每个目标数据对应的标识码，根据每个目标数据对应的标识码生成并存储所述待存储数据对应的存储标识码。

具体的，在上述确定了对应每个待处理数据的目标数据后，由于目标数据还不能直接进行存储，还需要确定目标数据对应的标识码，其中标识码是指预设编码表中存储的对应目标数据的标识代码，用八位二进制的形式表示；存储标识码是指对应待存储数据的标识代码，由对应每个待处理数据的八位二进制形式的数据组成。

基于此，对目标数据进行转换，生成每个目标数据对应的标识码，由于目标数据是根据待处理数据确定的，对应目标数据的标识码即为对应待处理数据的标识码，根据与目标数据对应的标识码生成待存储数据对应的每个待处理数据的标识码，由每个待存储数据对应的标识码生成对应待存储数据的标识码，并对其进行存储。

进一步的，在确定了每个待处理数据对应的位置信息后，为了在对目标数据对应的标识码进行存储时，能够按照待处理数据在待存储数据中的位置信息进行存储，在确定目标数据时，还需要记录目标数据对应的位置信息，具体实现如下：

根据每个待处理数据对应的位置信息确定每个目标数据对应的位置信息；根据每个目标数据对应的位置信息和每个目标数据对应的标识码，确定所述待存储数据对应的存储标识码。

具体的，目标数据对应的位置信息即为待处理数据对应的位置信息，用于表示根据待处理数据确定的目标数据在待存储数据中的位置，由于目标数据是根据待处理数据，以及与待处理数据对应的存储区间计算得到的，因此待处理数据的位置信息即为与待处理数据对应的目标数据的位置信息。

基于此，确定每个待处理数据在待存储数据中的位置信息，对每个待处理数据进行计算后得到对应每个待处理数据的目标数据，则对应待处理数据的位置信息即为对应目标数据的位置信息。将每个目标数据对应的标识码按照目标数据的位置信息进行排列，得到待存储数据对应的存储标识码。

沿用上例，根据待处理数据“12”、“23”、“1”与待存储数据“@12#23#1”的位置对应关系可以确定与待处理数据对应的目标数据的位置关系，即，第一位目标数据为“12”，第二位目标数据为“151”，第三位目标数据为“198”。根据进制转换规则生成对应目标数据“12”、“151”、“198”的标识码，数字12对应的八位二进制形式表示为00001100，对应的标识码即为“00001100”；数字151对应的八位二进制形式表示为10010111，对应的标识码即为“10010111”；数字198对应的八位二进制形式表示为11000110，对应的标识码即为“11000110”。根据目标数据“12”、“151”、“198”的位置信息可以确定，待存储数据“@12#23#1”对应的存储标识码即为“000011001001011111000110”。若直接对待存储数据“@12#23#1”进行存储，由于每个字符都要占用一个字节，因此存储待存储数据“@12#23#1”需要占用8个字节。若对存储标识码进行存储，每个八位二进制数占1个字节，所以对应待存储数据“@12#23#1”的存储标识码占用3个字节。

此外，待存储数据还可以由字符和字母组成。例如，对于待存储数据“@C#AB#D”，将待存储数据“@C#AB#D”以分隔符为拆分点进行拆分，拆分为“C”、“AB”、“D”这三组待处理数据，以ASCII码表为预设编码表为例，在ASCII码表中分别查找“C”、“AB”、“D”这三组待处理数据对应的二进制表达形式的数据，经过查找ASCII码表可知，待处理数据“C”对应的二进制形式表示为01000011，对应的标识码即为“01000011”，占用1个字节；字母“A”对应的二进制形式表示为01000001，字母“B”对应的二进制形式表示为01000010，因此待处理数据“AB”对应的二进制形式表示为0100000101000010，对应的标识码即为“0100000101000010”，占用2个字节；待处理数据“D”对应的二进制形式表示为01000100，对应的标识码即为“01000100”，占用1个字节。因此，经过计算，待存储数据“@C#AB#D”对应的存储标识码即为“01000011010000010100001001000100”，占用4个字节，而待存储数据“@C#AB#D”占用7个字节。

综上所述，通过确定目标数据的位置信息，使得生成对应每个目标数据的标识码后，能够根据位置信息生成对应待存储数据的存储标识码，进而对存储标识码进行存储，节省了存储空间，提高了存储空间的利用率，避免了直接对待存储数据进行存储造成的存储空间消耗过快、存储空间不足等问题。

进一步的，在完成了对待存储数据的压缩存储后，当存储读取待存储数据的需求的情况下，可以通过获取存储标识码，并对存储标识码进行处理的方式，获得与存储标识码对应的待存储数据，具体实现如下：

接收数据读取指令，其中，所述数据读取指令中携带有存储标识码；基于所述存储标识码确定多个标识码，并确定每个标识码对应的目标数据；根据所述分段规则和所述预设编码表确定每个目标数据对应的待处理数据；基于每个待处理数据确定与所述存储标识码对应的待存储数据。

具体的，数据读取指令是指计算机命令，用于实现数据读取操作。在本实施例中，数据读取指令是指读取待存储数据的指令，当发起数据读取指令时，服务器响应于此数据读取指令确定存储标识码，并根据存储标识码确定待存储数据，完成数据读取。

基于此，接收携带有存储标识码的数据读取指令，根据存储标识码确定组成存储标识码的多个标识码，分别对每个标识码进行转换，得到对应每个标识码的目标数据。根据分段规则和预设编码表计算得到每个目标数据对应的待处理数据，由每个待处理数据组成待存储数据。

综上所述，在进行数据读取时，根据存储标识码以及分段规则和预设编码表即可确定对应存储标识码的待存储数据，从而提高了数据读取的准确性。

进一步的，在确定每个目标数据对应的待处理数据时，考虑到目标数据是根据分段规则和预设编码表计算得到的，因此基于分段规则和预设编码表即可确定目标数据对应的数据区间，进而根据数据区间确定对应目标数据的待处理数据，具体实现如下：

根据所述分段规则和所述预设编码表确定每个目标数据对应的数据区间；根据每个目标数据对应的数据区间计算每个目标数据对应的待处理数据。

基于此，在根据分段规则和预设编码表确定每个目标数据对应的待处理数据的过程中，先根据分段规则和预设编码表确定每个目标数据对应的数据区间，在对目标数据进行计算时，确定对应目标数据的数据区间的起始值，根据目标数据和数据区间的起始值之间的差值确定待处理数据，即目标数据作为被减数，数据区间的起始值作为减数，进行减法运算后得到对应目标数据的待处理数据，采用上述计算方法，计算每个目标数据对应的待处理数据。

沿用上例，接收携带存储标识码“000011001001011111000110”的数据读取指令，读取对应存储标识码的数据。存储标识码由三个八位二进制数组成，因此可以将存储标识码划分为三个标识码，即，“00001100”、“10010111”、“11000110”。将每个标识码转换为十进制数，得到对应标识码“00001100”的目标数据“12”、对应标识码“10010111”的目标数据“151”，对应标识码“11000110”的目标数据“198”。根据分别对应目标数据的数据区间0-127、128-196、197-255计算每个目标数据对应的待处理数据。目标数据“12”对应数据区间0-127，“12”作为被减数，数据区间0-127的起始值0作为减数，做减法运算得到待处理数据12，采用上述方法分别对目标数据“151”和“198”进行计算得到待处理数据“23”和“1”，由待处理数据“12”、“23”、“1”组成了待存储数据，以分隔符对待处理数据“12”、“23”、“1”进行分隔得到待存储数据“@12#23#1”。再根据哈希算法对待存储数据“@12#23#1”进行计算得到与待存储数据“@12#23#1”对应的原始数据“f(x)+2000.10.02.16:40+2kb”。

综上所述，通过对待存储数据进行拆分，依次确定拆分后的待处理数据对应的标识码并进行存储，从而避免了直接对待存储数据进行存储，减少了待存储的数据量，节省了大量的存储空间。在进行数据读取时，可以根据存储标识码、分段规则和预设编码表读取到存储前的待存储数据，从而提高了数据读取的准确性。

下述结合附图2以本申请提供的数据处理方法对字符串数据的应用为例，对所述数据处理方法进行进一步说明。其中，图2示出了本申请一实施例提供的一种应用于字符串数据处理的数据处理方法的处理流程图，具体包括以下步骤：

步骤202，获取待存储数据。

获取需要进行存储到待存储数据“@12#1#2”，其中，待存储数据是通过对原始数据“f(x)+2001.03.12.16:25+1kb”进行哈希计算得到的。

步骤204，对待存储数据进行拆分得到至少一个待处理数据。

由于待存储数据是由符号和数字组成的，以分隔符“@”和“#”分隔三种数据。对待存储数据“@12#1#2”以分隔符为拆分点进行拆分，获取到待存储数据“@12#1#2”中包含的数字形式的待处理数据，即，待处理数据“12”、“1”、“2”。

步骤206，根据待存储数据确定每个待处理数据的位置信息。

根据待处理数据“12”、“1”、“2”在待存储数据“@12#1#2”中的位置关系，分别确定待处理数据“12”、“1”、“2”的位置信息，即待处理数据“12”对应于待存储数据“@12#1#2”的首位，待处理数据“1”对应于待存储数据“@12#1#2”的次位，待处理数据“2”对应于待存储数据“@12#1#2”的末位。

步骤208，根据待处理数据的数量确定分段规则。

由待存储数据“@12#1#2”划分得到“12”、“1”、“2”三个待处理数据，因此确定分段规则是划分为三段，再设定每段的数据范围比例，可以选择2:1:1的比例进行分段。

步骤210，基于分段规则和编码表确定每个待处理数据的数据区间。

确定编码表的数据范围为0-255，根据分段规则对编码表的数据范围进行划分，对应待处理数据“12”的数据范围为0-127，对应待处理数据“1”的数据范围为128-196，对应待处理数据“2”的数据范围为197-255。

步骤212，根据对应每个待处理数据的数据区间起始值，计算对应每个待处理数据的目标数据。

对应待处理数据“12”的数据区间为0-127，在对待处理数据“12”进行计算时，对数据区间的起始值0和待处理数据的数值12进行加法运算，得到对应待处理数据“12”的目标数据12；分别对待处理数据“1”和待处理数据“2”采用上述计算方法进行计算，得到对应待处理数据“1”的目标数据129，对应待处理数据“2”的目标数据199。

步骤214，生成每个目标数据对应的标识码。

分别生成计算得到的目标数据12、129、199的标识码，将目标数据12转换为二进制的表达形式，生成的对应目标数据12的标识码为00001100，对应目标数据1的标识码为10000001，对应目标数据2的标识码为11000111。

步骤216，对每个目标数据对应的标识码按照与其对应的每个待处理数据的位置信息进行排序，获得排序结果。

根据待处理数据的位置信息，对待处理数据对应的标识码00001100、10000001、11000111进行排序，由于待处理数据的位置信息对应的排列顺序为“12”、“1”、“2”，因此标识码的排序结果为00001100、10000001、11000111。

步骤218，根据排序结果确定待存储数据对应的存储标识码。

根据标识码的排序结果00001100、10000001、11000111，确定存储标识码000011001000000111000111。

步骤220，获取携带存储标识码的数据读取指令。

获取存储标识码000011001000000111000111。

步骤222，根据存储标识码确定至少一个标识码。

根据存储标识码000011001000000111000111确定对应的三个标识码00001100、10000001、11000111。

步骤224，根据标识码确定对应标识码的目标数据。

将每个标识码转换为十进制的表达形式，得到标识码00001100对应的目标数据12、标识码10000001对应的目标数据129、标识码11000111对应的目标数据199。

步骤226，基于分段规则和编码表确定目标数据对应的数据区间。

确定目标数据12对应的编码表中的数据区间0-127，目标数据129对应的编码表中的数据区间128-196，目标数据199对应的编码表中的数据区间197-255。

步骤228，根据数据区间计算目标数据对应的待处理数据。

结合目标数据12对应的数据区间0-127，对目标数据12进行计算，将目标数据12作为被减数，数据区间0-127的起始值0作为减数，做减法运算得到对应目标数据12的待存储数据“12”。采用上述计算方法分别得到目标数据129对应的待处理数据“1”，以及目标数据199对应的待处理数据“2”。

步骤230，基于待处理数据确定标识码对应的待存储数据。

由待处理数据“12”、“1”、“2”以及分隔符组成待存储数据“@12#1#2”。再根据哈希算法对待存储数据“@12#1#2”进行计算得到与待存储数据“@12#1#2”对应的原始数据“f(x)+2001.03.12.16:25+1kb”。

与上述方法实施例相对应，本申请还提供了数据处理装置实施例，图3示出了本申请一实施例提供的一种数据处理装置的结构示意图。如图3所示，该装置包括：

获取模块302，被配置为获取待存储数据，并将所述待存储数据拆分为至少一个待处理数据；

确定模块304，被配置为根据待处理数据的数量确定分段规则；

处理模块306，被配置为基于所述分段规则和预设编码表确定每个待处理数据对应的目标数据；

生成模块308，被配置为生成每个目标数据对应的标识码，根据每个目标数据对应的标识码生成并存储所述待存储数据对应的存储标识码。

可选地，所述获取模块302，进一步被配置为：

可选地，所述处理模块306，进一步被配置为：

可选地，所述获取模块302，进一步被配置为：

可选地，所述生成模块308，还被配置为：

可选地，所述生成模块308，进一步被配置为：

上述为本实施例的一种数据处理装置的示意性方案。需要说明的是，该数据处理装置的技术方案与上述的数据处理方法的技术方案属于同一构思，数据处理装置的技术方案未详细描述的细节内容，均可以参见上述数据处理方法的技术方案的描述。此外，装置实施例中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块，各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架，而不应当理解为主要通过硬件方式实现该解决方案的实体装置。

图4示出了根据本申请一实施例提供的另一种数据处理方法的流程图，具体包括以下步骤：

步骤402，接收数据读取指令，其中，所述数据读取指令中携带有存储标识码。

在本实施例中，在对待存储数据进行存储后，可以随时对已存储的数据进行数据读取。接收携带有存储标识码“000011001001011111000110”的数据读取指令，读取对应存储标识码的数据。每个存储标识码对应一个待存储数据。

步骤404，基于所述存储标识码确定多个标识码，并确定每个标识码对应的目标数据。

在本实施例中，确定存储标识码“000011001001011111000110”后，由于存储标识码是由三个确定对应的标识码，八位二进制数组成，因此可以将存储标识码划分为三个标识码，即，“00001100”、“10010111”，“11000110”。将每个标识码转换为十进制数，得到对应标识码“00001100”的目标数据“12”、对应标识码“10010111”的目标数据“151”，对应标识码“11000110”的目标数据“198”。

步骤406，根据分段规则和预设编码表确定每个目标数据对应的待处理数据。

进一步的，根据所述分段规则和所述预设编码表确定每个目标数据对应的数据区间；根据每个目标数据对应的数据区间计算每个目标数据对应的待处理数据。

在本实施例中，确定了对应存储标识码“000011001001011111000110”的目标数据“12”、“151”、“198”后，即可分别对每个目标数据进行计算。根据分别对应目标数据的数据区间0-127、128-196、197-255计算每个目标数据对应的待处理数据。目标数据“12”对应数据区间0-127，目标数据“12”作为被减数，数据区间0-127的起始值0作为减数，做减法运算得到待处理数据12，采用上述方法分别对目标数据“151”和目标数据“198”进行计算得到待处理数据“23”和待处理数据“1”。

步骤408，基于每个待处理数据确定与所述存储标识码对应的待存储数据。

在本实施例中，由待处理数据“12”、“23”、“1”组成了待存储数据，以分隔符对待处理数据“12”、“23”、“1”进行分隔得到待存储数据“@12#23#1”。

需要说明的是，步骤402至步骤408与上述步骤108的方法一致，关于步骤402至步骤408的具体解释，参见前述实施例中的步骤108的详细内容，在此不再赘述。

与上述方法实施例相对应，本申请还提供了数据处理装置实施例，图5示出了本申请一实施例提供的另一种数据处理装置的结构示意图。如图5所示，该装置包括：

接收模块502，被配置为接收数据读取指令，其中，所述数据读取指令中携带有存储标识码；

第一确定模块504，被配置为基于所述存储标识码确定多个标识码，并确定每个标识码对应的目标数据；

第二确定模块506，被配置为根据分段规则和预设编码表确定每个目标数据对应的待处理数据；

第三确定模块508，被配置为基于每个待处理数据确定与所述存储标识码对应的待存储数据。

可选地，所述第二确定模块506，进一步被配置为：

上述为本实施例的另一种数据处理装置的示意性方案。需要说明的是，该数据处理装置的技术方案与上述的数据处理方法的技术方案属于同一构思，数据处理装置的技术方案未详细描述的细节内容，均可以参见上述数据处理方法的技术方案的描述。此外，装置实施例中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块，各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架，而不应当理解为主要通过硬件方式实现该解决方案的实体装置。

图6示出了根据本申请一实施例提供的一种计算设备600的结构框图。该计算设备600的部件包括但不限于存储器610和处理器620。处理器620与存储器610通过总线630相连接，数据库650用于保存数据。

计算设备600还包括接入设备640，接入设备640使得计算设备600能够经由一个或多个网络660通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备640可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本申请的一个实施例中，计算设备600的上述部件以及图6中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图6所示的计算设备结构框图仅仅是出于示例的目的，而不是对本申请范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备600可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备600还可以是移动式或静止式的服务器。

其中，处理器620用于执行所述数据处理方法的计算机可执行指令。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的数据处理方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述数据处理方法的技术方案的描述。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时以用于数据处理方法。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的数据处理方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述数据处理方法的技术方案的描述。

本申请一实施例还提供一种芯片，其存储有计算机程序，该计算机程序被芯片执行时实现所述数据处理方法的步骤。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本申请的内容，可作很多的修改和变化。本申请选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种数据处理方法，其特征在于，包括：

根据待处理数据的数量确定分段规则；

2.根据权利要求1所述的方法，其特征在于，所述获取待存储数据，包括：

获取原始数据字符串；

3.根据权利要求1所述的方法，其特征在于，所述基于所述分段规则和预设编码表确定每个待处理数据对应的目标数据，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述分段规则和所述预设编码表确定每个待处理数据对应的数据区间，包括：

获取所述预设编码表的全局数据区间；

5.根据权利要求3所述的方法，其特征在于，所述根据每个待处理数据对应的数据区间计算每个待处理数据对应的目标数据，包括：

确定每个待处理数据对应的数据区间的起始数据；

6.根据权利要求1所述的方法，其特征在于，所述将所述待存储数据拆分为至少一个待处理数据步骤执行之后，包括：

7.根据权利要求6所述的方法，其特征在于，所述生成每个目标数据对应的标识码，根据每个目标数据对应的标识码生成并存储所述待存储数据对应的存储标识码，包括：

8.一种数据处理方法，其特征在于，包括：

9.根据权利要求8所述的方法，其特征在于，所述根据分段规则和预设编码表确定每个目标数据对应的待处理数据，包括：

10.一种数据处理装置，其特征在于，包括：

确定模块，被配置为根据待处理数据的数量确定分段规则；

11.一种数据处理装置，其特征在于，包括：

12.一种计算设备，其特征在于，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令实现权利要求1-7或8-9任意一项所述数据处理方法的步骤。

13.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-7或8-9任意一项所述数据处理方法的步骤。