CN114764557A

CN114764557A - 一种数据处理方法、装置、电子设备及存储介质

Info

Publication number: CN114764557A
Application number: CN202110059430.0A
Authority: CN
Inventors: 毕杰山; 姜国强; 黄华
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-01-15
Filing date: 2021-01-15
Publication date: 2022-07-19

Abstract

本申请实施例公开了一种数据处理方法、装置、电子设备及存储介质，可应用于数据处理技术领域。其中方法包括：从目标数据中获取待处理分词；依照所述待处理分词的长度从不同类别的编码字典中确定所述待处理分词所属的目标编码字典；根据所述目标编码字典确定所述待处理分词对应的替换编码；在所述目标数据中采用所述替换编码替换所述待处理分词，得到所述目标数据对应的编码数据；对所述编码数据进行压缩处理，得到针对所述目标数据的压缩结果。采用本申请实施例，能够使数据编码更具有针对性，有助于提高数据的压缩率。本申请实施例还可以通过云服务器进行数据计算，得到目标数据的压缩结果。

Description

一种数据处理方法、装置、电子设备及存储介质

技术领域

本申请涉及数据处理技术领域，具体涉及一种日志数据处理领域，尤其涉及一种数据处理方法、装置、电子设备及存储介质。

背景技术

随着科学技术的发展，一些重复度高的目标数据激增，为了减小目标数据对存储空间的占用，数据压缩成为研究热点。以目标数据为日志数据为例，日志数据通常具有巨大的数据量，且数据的重复度高，现有技术中，对日志数据的压缩方法通常为在某个数据块的范围内，以特定大小的窗口来匹配查找重复的数据进行压缩，这种方法只能利用一个块内的重复信息进行压缩，在不同块内的相同数据仍会重复进行压缩，压缩率较低。或者，对数据做一次编码转换，再进行压缩，但这种方法在面临高并发随机读写的大数据日志应用场景时压缩率并不高。由此可见，如何更好地处理目标数据以提高压缩率成为亟待解决的问题。

发明内容

本申请实施例提供了一种数据处理方法、装置、电子设备及介质，能够使数据编码更具有针对性，有助于提高数据的压缩率。

一方面，本申请实施例提供了一种数据处理方法，该方法包括：

从目标数据中获取待处理分词；

依照所述待处理分词的长度从一个以上编码字典中确定所述待处理分词所属的目标编码字典；

根据所述目标编码字典确定所述待处理分词对应的替换编码；

在所述目标数据中采用所述替换编码替换所述待处理分词，得到所述目标数据对应的编码数据；

对所述编码数据进行压缩处理，得到针对所述目标数据的压缩结果。

另一方面，本申请实施例提供了一种数据处理装置，该装置包括：

获取模块，用于从目标数据中获取待处理分词；

处理模块，用于依照所述待处理分词的长度从一个以上编码字典中确定所述待处理分词所属的目标编码字典；

所述处理模块，还用于根据所述目标编码字典确定所述待处理分词对应的替换编码；

所述处理模块，还用于在所述目标数据中采用所述替换编码替换所述待处理分词，得到所述目标数据对应的编码数据；

所述处理模块，还用于对所述编码数据进行压缩处理，得到针对所述目标数据的压缩结果。

再一方面，本申请实施例提供了一种电子设备，其特征在于，所述电子设备包括处理器和存储装置，所述处理器与所述存储装置相互连接，其中，所述存储装置用于存储计算机程序指令，所述处理器被配置用于执行如下步骤：

从目标数据中获取待处理分词；

又一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序指令，所述计算机程序指令被处理器执行时，用于执行如下步骤：

从目标数据中获取待处理分词；

本申请实施例，可以依照所述待处理分词的长度从一个以上编码字典中确定所述待处理分词所属的目标编码字典，根据所述目标编码字典确定所述待处理分词对应的替换编码，以便于对不同字典的数据采用不同的编码方案进行替换；对所述编码数据进行压缩处理，得到针对所述目标数据的压缩结果，能够提高数据的压缩率。由此可见，通过从不同类型的编码字典中确定数据对应的替换编码，能够使数据编码更具有针对性，有助于提高数据的压缩率。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种数据处理系统的结构示意图；

图2是本申请实施例提供的一种字典数据配置项的示意图；

图3是本申请实施例提供的一种数据处理方法的流程示意图；

图4是本申请实施例提供的一种压缩算法原理的流程示意图；

图5是本申请实施例提供的另一种数据处理方法的流程示意图；

图6a是本申请实施例提供的一种目标数据的示意图；

图6b是本申请实施例提供的一种目标数据编码过程的示意图；

图6c是本申请实施例提供的一种编码字典与标记字符对应关系的示意图；

图6d是本申请实施例提供的一种编码数据的示意图；

图7是本申请实施例提供的一种数据处理装置的结构示意图；

图8是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

本申请实施例提出一种数据处理方案，能够从不同类别的编码字典中确定目标数据中各待处理分词的替换编码，为各待处理分词匹配到更为合适的替换编码。进一步地，可以依照各替换编码完成目标数据的编码，得到目标数据对应的编码数据，并基于编码数据进行压缩得到目标数据的压缩结果，由此可以使目标数据的编码更具有针对性，提高对目标数据的压缩率。

本申请的技术方案可运用在电子设备中，该电子设备可以是终端，也可以是服务器，或者也可以是用于进行数据处理的其他设备，本申请不做限定。可选的。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

可选的，在本方案中可以应用于目标数据的存储领域，也可以应用于目标数据的传输领域，此处不做限制。其中，以目标数据为日志数据为例，当本方案应用于日志数据的存储领域时，在得到针对目标数据的压缩结果之后(也即对目标数据压缩完成后)，可以存储该压缩结果，由此减小对存储空间的占用，可选的，可以将压缩结果存储至本地服务器，也可以将压缩结果存储至云端，此处不做限制。当本方案应用于日志数据的传输领域时，在得到针对目标数据的压缩结果之后(也即对目标数据压缩完成后)，可以将该压缩结果进行传输，以减少传输的数据量，提高传输效率，可选的，将压缩结果进行传输可以是通过计算机之间相互传输，也可以是将压缩结果传输至云端，或从云端获取压缩结果。

本方案在针对具有较高重复度的数据进行处理时，相较于现有技术能够明显地提高数据的压缩率。以日志数据为例，日志数据是指计算机操作系统或者一些应用软件在运行过程中产生的各种数据，日志数据相较于普通的文本类数据，日志类数据具有更高的重复度，这种重复，有的是局部范围内的重复，有的则是全局范围的重复。若单纯使用压缩算法对日志数据进行压缩，只能利用一个块内的重复数据进行压缩编码，则压缩率较低。例如，一个64Bytes的UserID，在Block1～Block10内都重复出现了，在每一个Block内部，无论压缩算法如何进行对数据重编码，依然需要一定量的信息来表达这64Bytes的UserID，最悲观的情况下，在整个块内，可能不能找到任何重复的字符串。在Block1～Block10这10个块中，意味着，这个64Bytes的UserID至少存储了10份。由此可见，针对数据重复度高的数据直接使用压缩算法进行压缩不能起到较好的压缩效果，压缩率较低，但本申请提出的数据处理方案通过从不同类别的编码字典中确定替换编码，再对编码数据进行压缩，能够使数据编码具有更好的针对性，提高数据压缩率。

为了辅助用户可以更好地了解本方案的应用，下面以将本申请数据处理方案运用在如图1所示的系统为例，对本发明实施例所提出的数据处理方案进行阐述。参见图1，本申请实施例所提出的数据处理系统可包括：数据处理服务器、多个用户终端。其中，用户终端可以用于定义本方案执行时的参数，数据处理服务器可以用于执行本方案的数据处理操作，数据处理服务器可以与多台用户终端进行连接。此处以通过本实施例提出的系统对日志数据进行处理为例，数据处理服务器可以获取该系统中产生的日志数据，并基于搜索服务(Elasticsearch服务)将原始的日志数据存放到某源文件的Field中，如，文件名为“_source”的Field中，在本方案中可以将源文件的默认的Field类型定义为目标类型，该目标类型可以是json，也可以是Xml等类型，此处不做限制，如果是用户自定义的Field，也可以将其类型定义成目标类型。数据处理服务器在数据刷新成Elasticsearch服务的内置索引引擎(Lucene)的索引文件(Segment)时，会将数据存储至缓存区，并判断每一个Field的类型。如果检测到数据类型为json，则将该json类型的数据作为本方案中的目标数据执行数据处理操作。其中，在数据处服务器执行本方案时的一些参数可以由用户通过用户终端定义，如图2所示，是一种对上述json类型的日志数据进行处理的配置项数据及其对应的用途，显然，如图所示的各配置项中存在的逻辑约束为：高频词的最小长度小于中频词的最小长度小于长词的最小长度，长词最小频值小于中频词最小频值小于高频词最小频值。

可以理解，上述场景仅是作为示例，并不构成对于本申请实施例提供的技术方案的应用场景的限定，本申请的技术方案还可应用于其他场景。例如，本领域普通技术人员可知，随着系统架构的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

基于上述的描述，本申请实施例提出一种数据处理方法。请参见图3，该数据处理方法可以包括步骤301-305：

301、从目标数据中获取待处理分词。

其中，该目标数据可以是一些普通文本数据，也可以是一些系统数据，此处不做限制。例如，该目标数据可以为数据类型为目标类型的日志数据，该目标类型的日志数据可以为json类型的日志数据，也可以为xml类型的日志数据，此处不做限制。

在一种可能的实施方式中，获取目标数据后，遍历目标数据的每一个字符，检测目标数据中的分隔字符，根据位置最相近的两个分隔字符之间的数据得到待处理分词，该分隔字符可以为引号、括号、冒号、逗号、空格等分隔字符，此处不做限制。例如，一段json类型的日志数据为：“address”：“Shenzhen，GuangDong”，则通过遍历这一段json类型的日志数据，检测分隔字符，从而得到待处理分词：“address”“Shenzhen”“GuangDong”。

302、依照所述待处理分词的长度从一个以上编码字典中确定所述待处理分词所属的目标编码字典。

其中，该一个以上编码字典包括以下任一种或者多种：高频词字典、中频词字典和长词字典。该编码字典中包括一个以上字典分词，该编码字典中各字典分词都具有对应的替换编码。

可选的，可以根据实际业务情况决定是否启用编码字典，以及启用哪一种或多种编码字典。例如，在实际业务状况中，日志数据中很少有长词，则可以不启用长词字典，仅开启高频词字典和中频词字典，则依照待处理分词的长度从高频词字典和中频词字典中确定待处理分词所属的目标编码字典。若仅开启一个编码字典，则只需要判断待处理分词是否属于该编码字典，若是，则可以将这一个唯一开启的编码字典直接确定为待处理分词所属的目标编码字典。

在一种可能的实施方式中，假设已开启的编码字典包括高频词字典、中频词字典和长词字典，依照待处理分词的长度从一个以上编码字典中确定待处理分词所属的目标编码字典的具体实施方式可以为：如果待处理分词的长度大于等于长词的最小长度，则该待处理分词所属的目标编码字典为长词字典，该长词的最小长度可以由用户通过用户终端自行定义。如果待处理分词的长度小于长词的最小长度并大于高频词的最小长度，则判断该待处理分词是否存在高频词字典中，该高频词的最小长度可以由用户通过用户终端自行定义，如果存在高频词字典中，则该待处理分词所属的目标编码字典为高频词字典；如果不存在高频词字典中，则判断待处理分词是否存在中频词字典中，若存在中频词字典中，则该待处理分词所属的目标编码字典为长词字典，若不存在中频词字典中，则该待处理分词没有所属的目标编码字典。如果待处理分词的长度小于高频词的最小长度，则待处理分词没有所属的目标编码字典。

303、根据所述目标编码字典确定所述待处理分词对应的替换编码。

其中，一个目标编码字典包括一个以上的字典分词，该替换编码是指在对待处理分词进行编码时，将待处理分词进行替换的编码字典中的字典分词对应的替换编码。

具体的，待处理分词存在所属的目标编码字典时，查询目标编码字典中与待处理分词相同的目标字典分词，并根据该目标字典分词与替换编码的映射关系确定出待处理分词对应的替换编码。例如，目标编码字典为高频词字典，该高频词字典中存在字典分词“userID”，并且该字典分词对应的替换编码为“1”，当从目标数据中获取到待处理分词“userID”时，在高频词字典中查询到待处理分词相同的字典分词，并得到该待处理分词对应的替换编码为“1”。

在一种可能的实施方式中，待处理分词没有所属的目标编码字典时，则待处理分词没有对应的替换编码，即在进行编码转换时，直接输出原本的待处理分词。例如，待处理分词为“AA”，经过302步骤，检测到该待处理分词没有所属的目标编码字典，则在编码转换时直接输出待处理分词“AA”。

304、在所述目标数据中采用所述替换编码替换所述待处理分词，得到所述目标数据对应的编码数据。

在一个实施例中，在采用替换编码替换待处理分词时，可以采用标记字符和替换编码对待处理分词进行替换，该标记字符可以用于在恢复数据时识别目标编码字典，并根据目标编码字典对应的编码位数识别替换编码。对于不存在替换编码的待处理分词以及分隔字符，则可以直接输出原本的字符串。

具体实现中，对任一存在替换编码的待处理分词的替换方式可以为：标记字符+替换编码，也可以为：替换编码+标记字符，还可以为：标记字符+替换编码+标记字符，此处不做限制。在同一业务场景中，针对不同类型的编码字典可以设置不同的标记字符，高频词字典对应高频词标记字符，中频词对应中频词标记字符，长词对应长词标记字符。可选的，标记字符通常采用目标数据中不会使用的不可见字符，如#、&、$等。例如，在一个数据处理场景中，开启了高频词字典及中频词字典，高频词字典对应的高频词标记字符为“&”，中频词字典对应的中频词标记字符为“#”，当获取到一段目标数据，该目标数据为：“address”：“Shenzhen，GuangDong”，可以检测到待处理分词“address”“Shenzhen”“GuangDong”，根据303、304步骤可以确定该目标数据中“address”属于高频词字典，对应的替换编码为“2”，“GuangDong”属于中频词字典，对应的替换编码为“1234”，“Shenzhen”没有所属的目标编码字典，则没有对应的替换编码，最终可以得到对应编码数据为：“&2”：“Shenzhen，#1234”。

305、对所述编码数据进行压缩处理，得到针对所述目标数据的压缩结果。

其中，目标数据的编码数据可以生成数据块，再对数据块采用通用的压缩算法进行压缩。该数据块可以由多条编码数据构成。该通用的压缩算法可以为Deflate、LZ4、ZSTD等压缩算法，此处不做限制。通用的压缩算法通常是针对小块数据进行压缩的，例如，常用的块大小为16KB或者32KB。压缩算法的原理是在这个小块的范围内，以特定大小的窗口来匹配查找重复的数据，然后通过特定形式来表达重复的数据以实现数据的压缩。请参见图4所示，以针对字符串“AABCBBABC”为例的压缩为例，对压缩算法的原理进行阐述，每一次输入一个新的字符时，开始往前查找，如果找到一串匹配的字符串，就以两个数字(Distance，Length)来表达，Distance表示在哪个位置找到了匹配的字符串，Length表示有多少个字符是匹配的。

请参见图5，是本发明实施例提供的另一种数据处理方法的流程示意图，该数据处理方法可包括以下步骤501-506：

501、获取样本数据，并对所述样本数据进行分词处理，得到所述样本数据对应的样本分词。

其中，样本数据可以是从历史数据中获取的样本数据。对样本数据进行分词处理可以在样本数据中的空格、逗号、引号、冒号等分隔字符的位置进行切分。例如，以日志数据为例，获取一段Field类型为json的历史日志数据：“address”：“Shenzhen，GuangDong”，先基于简单的分词算法，将构成json的词信息提取出来，该词信息包括每一个属性关键词(Property Key)，以及属性关键词对应的属性值(Property Value)。如果在属性值中检测到空格或逗号等标点符号，需要进一步切分，上面的json在经过分词以后，得到“address”“Shenzhen”“GuangDong”三个样本分词。

502、根据所述样本分词的长度确定所述样本分词所属的目标候选词列表。

其中，目标候选词列表包括：中频词候选词列表或者长词候选词列表，目标候选词列表包括样本分词及样本分词对应的词频信息。样本分词的长度是指样本分词的字符数量，如，样本分词“address”的长度为6。在本申请实例中，根据中频词候选词列表生成对应的编码字典为高频词字典和中频词字典，根据长词候选词列表生成的对应的编码字典为长词字典。

在一种可能的实施方式中，根据样本分词的长度确定该样本分词所属的目标候选词列表，具体方式为：当样本分词的长度大于高频词的最小长度时，则将该样本分词加入中频词候选词列表，即该样本分词所属的目标候选词列表为中频词候选词列表；当样本分词的长度大于等于高频词的最小长度时，确定该样本分词是否存在长词字典中，如果不存在，则将该样本分词加入长词候选词列表中，即该样本分词所属的目标候选词列表为长词候选词列表，如果存在，则直接忽略该样本分词；当样本分词的长度小于中频词候选词列表的最小长度时，直接忽略该样本分词。

503、在所述目标候选词列表中更新所述样本分词的词频信息，根据所述目标候选词列表生成对应的编码字典。

其中，目标候选词列表对应的编码字典中包括一个以上的字典分词。在目标候选词列表中更新样本分词的词频信息包括：若样本分词为首次出现，则在目标候选词列表中加入该样本分词，并将该样本分词的词频信息记为1；若样本分词已经存在目标候选词列表中，则将该样本分词的词频信息增加1。例如，样本分词“AAA”在第一次进行写入时，将该样本分词加入目标候选词列表中，并将词频信息记为1，当再次写入“AAA”时，检测到该样本分词存在目标候选词列表，将词频信息记为2，以此类推，此处不做赘述。

可选的，根据中频词候选词列表生成的对应的编码字典为高频词字典和中频词字典，该高频词字典包括的一个以上的字典分词为高频词，该中频词字典包括的一个以上的字典分词为中频词；根据长词候选词列表生成的对应的编码字典为长词字典，该长词字典包括的一个以上的字典分词为长词。

在一种可能的实施方式中，当目标候选列词表为中频词候选词列表时，获取样本数据对应的样本序号；若检测到样本序号小于目标阈值，则在目标候选词列表中更新样本分词的词频信息；若检测到样本序号等于目标阈值，则停止更新目标候选词列表中样本分词的词频信息，并依照中频词候选词列表生成高频词字典和中频词字典。其中，样本序号是指样本数据的文档序号，可以先对样本数据的文档进行编号，也可以是在写入样本数据时，对样本数据的文档数量标记序号，此处不做限制。目标阈值是指用户通过用户终端设置的允许对目标候选词列表进行更新的样本序号的最大数值，在等于该目标阈值时，则停止对中频词候选词列表的更新，即使写入样本序号大于目标阈值的样本数据，也不再进行更新。然后获取停止更新的中频词候选词列表中各样本分词的词频信息，将该中频词候选词列表中词频信息满足高频词条件的样本分词确定为高频词，并基于高频词生成高频词字典；将中频词候选词列表中除高频词以外，并且满足中频词条件的样本分词确定为中频词，并基于中频词生成中频词字典。其中，高频词条件可以为词频信息大于高频词最小频值，并且为词频信息最大的目标数量的样本分词，该高频词最小频值、目标数量可以由用户通过用户终端自行定义；中频词条件可以为样本分词的长度大于等于中频词最小长度，并且词频信息大于等于中频词最小频值，该中频词最小长度、中频词最小频值可以由用户通过终端自行定义。

例如，若当前场景设置的样本序号目标阈值为10000，当检测到样本数据的样本序号为10000时，停止对中频词候选词列表中的样本分词及样本分词的词频信息进行更新，将停止更新的中频词候选词列表中的样本分词按照词频信息进行排序，使得频次越高的样本分词排在中频词候选词列表的前面，则在中频词候选词列表中，存在样本分词及对应的频次信息：“AAAAA”-5000、“BBB”-4500、“CCC”-4000、“DD”-3500、“EEEE”-3000、“F”-2500、“MM”-2000，若高频词字典的目标数量为4，高频词最小频值为4500，中频词最小长度为2，中频词最小频值为1500，则可以得到高频词：“AAAAA”“BBB”，中频词：“CCC”“DD”“EEEE”“MM”，进一步，根据高频词及中频词可以得到，高频词字典中存在高频词“AAAAA”“BBB”，中频词字典中存在中频词“CCC”“DD”“EEEE”。

在一种可能的实施方式中，当目标候选列词表为长词候选词列表时，获取目标候选词列表中各样本分词的词频信息；依照词频信息，将目标候选词列表中词频满足长词条件的样本分词确定为长词；依照长词生成长词字典。该长词条件可以是指词频信息大于长词最小词频，该长词最小词频可由用户通过用户终端自行定义。具体的，检测到长词候选词列表中的样本分词的词频信息大于等于最小频值时，将该样本分词确定为长词，纳入长词字典中，并将该样本分词从长词候选词列表中删除。例如，在一个数据处理场景中，长词最小频值为4，当写入样本数据“NNNNNNNNNN”时，检测到当前的长词字典中不存在该样本分词，在长词候选词列表中存在该样本分词，并且，该样本分词的词频信息为3，则将该样本分词的词频信息加1，使得在长词候选词列表中“NNNNNNNNNN”的词频信息为4，由于4大于等于长词最小频值，则“NNNNNNNNNN”为长词，将“NNNNNNNNNN”加入长词字典，得到长词字典中存在长词“NNNNNNNNNN”。

进一步的，由于长词字典的生成不受样本序号的影响，则长词字典始终处于更新状态，如果编码字典始终处于更新状态会影响对于待处理分词的编码时效，所以可以对长词字典进行冻结操作使得长词字典停止更新。具体的，对长词字典进行冻结操作可以通过用户根据实际业务情况发送冻结指令实现，例如，依据业务数据特点，系统运维人员可以判断出长词的出现频率很低，可以主动发送字典冻结操作指令以触发长词字典冻结操作。或者，对长词字典进行冻结操作也可以在生成长词字典时，数据处理服务器根据样本数据的文档数量及新增的长词数量判断是否冻结长词字典。例如，数据处理服务器检测到正常获取样本数据的文档数量为10000时，可以新增100个长词，而当前新增的长词数量只有几个，可以理解为长词词典已经趋于稳定，此时数据处理服务器可以直接冻结长词字典，停止长词字典的更新。

进一步的，如果最近一段时间新写入的目标数据的压缩率有降低，或者在编码转换时，长词转换率降低，可以触发恢复长词字典的操作，则重新更新长词候选词列表的样本分词，根据长词候选词列表生成长词字典。该长词转换率可以根据实际业务中新写入的目标数据的文档数量与进行对长词进行编码转换的次数进行确定。例如，新写入10000个文档数量的目标数据中，正常可以对长词进行20000编码转换，当低于10000次时，可以认为长词字典需要更新，触发长词字典的更新操作。

504、依照字典编码规则在所述对应的编码字典中设置各字典分词对应的替换编码。

该字典编码规则用于指示：为高频词字典中的各高频词设置第一编码位数的替换编码，为中频词字典中的各中频词设置第二编码位数的替换编码，为长词字典中的各长词设置第三编码位数的替换编码。其中，第一编码位数小于第二编码位数，第二编码位数小于第三编码位数。

在一种可能的实施方式中，为高频词字典中的高频词分配一个第一编码位数的替换编码，该替换编码可以是随机生成，也可以是依照词频信息的顺序依次生成对应的替换编码。例如，根据现有的高频词数量可以确定采用的第一编码位数为8位二进制数，即1字节，则对高频词字典中的高频词对应的替换编码可以在0X00～0XFF之间生成。

在一种可能的实施方式中，为中频词字典中的中频词分配一个第二编码位数的替换编码，该替换编码可以是第二编码位数的哈希(Hash)值，也可以是依照词频信息的大小顺序依次生成对应的整型(Int或VInt)值。

在一种可能的实施方式中，为长词字典中的长词分配一个第三编码位数的替换编码，该替换编码可以是第三编码位数的Hash值，也可以是依照词频信息的大小顺序依次生成对应的非Hash值，如长整型(Long或VLong)值等。

进一步的，可以对字典数据进行存储，该字典数据可以包括编码字典及编码字典中各字典分词对应的替换编码。具体的，可以将字典数据存在目标数据的文件中，也可以将字典数据存储在一个单独的Key-Value数据库或其它数据库中，此处不做限制。显然，由于第一编码位数小于第二编码位数，第二编码位数小于第三编码位数，通常情况下高频词字典数据需要的存储空间比中频词字典数据需要的存储空间小，中频词字典数据需要的存储空间比长词字典数据需要存储空间小。

此处以Key-Value数据库为RocksDB为例对各字典数据进行存储，由于高频词字典中的高频词数据受限且可控，只需要将高频词字典数据存储为一个Key-Value即可，如：Key:_HIGH_RREQS_DICTS_，Value:{<高频词1，替换编码1>，<高频词2，替换编码2>，<高频词3，替换编码3>}…}；中频词字典同理，中频词数据也受限且可控，将中频词字典数据存储为一个KeyValue即可，如：Key:_MEDIUM_RREQS_DICTS_，Value:{<中频词1，替换编码4>，<中频词2，替换编码5>，<中频词3，替换编码6>…}；由于一个长词往往存在较多字符，则相较于中高频字典需要更大的存储空间进行存储，则当采用第三编码位数的Hash值生成替换编码时，可以通过长词进行Hash计算后获取到对应的Hash值替换编码，则每一个长词及对应的编码结果存储为一个单独的KeyValue，如：Key:Hash替换编码1；Value:长词1。但在理论上通过该方法存储长词字典数据存在碰撞的概率，考虑到日志数据并非敏感业务数据，这种极低的碰撞概率通常是可容忍的。当采用非Hash值生成替换编码时，由于无法通过长词推导出对应的替换编码，则需要存储长词与替换编码间的双向映射关系，每一个长词及对应的编码结果存储为两个KeyValue，如：KeyValue1用于存储替换编码到长词的映射关系；Key:C_替换编码7；Value:长词2；KeyValue2用于存储长词到编码结果的映射关系；Key:T_长词3；Value:替换编码8。

可选的，高频词字典与中频词字典可以从存储的磁盘中加载到内存中进行存储，以便于更快速地调用编码字典进行编码转换。

505、从目标数据中获取待处理分词，依照所述待处理分词的长度从一个以上编码字典中确定所述待处理分词所属的目标编码字典。

此步骤参照步骤301、302进行，此处不做赘述。

506、根据所述目标编码字典确定所述待处理分词对应的替换编码，在所述目标数据中采用所述替换编码替换所述待处理分词，得到所述目标数据对应的编码数据，对所述编码数据进行压缩处理，得到针对所述目标数据的压缩结果。

此步骤参照步骤303-305进行，此处不做赘述。

在一种可能的实施方式中，可以对目标数据的压缩结果进行还原，得到原始目标数据。将针对目标数据的压缩结果进行解压，得到编码数据；获取编码数据中的标记字符，并获取标记字符后对应编码位数的数据，得到替换编码；根据标记字符确定替换编码所属的目标编码字典；根据替换编码及目标编码字典确定替换编码对应的目标分词；根据目标分词替换编码数据中的标记字符及替换编码，得到原始目标数据。例如，对压缩结果进行解压后，得到一段编码数据：“&2”：“Shenzhen，#1234”，获取该编码数据中的标记字符“&”“#”，可以根据预设的编码字典与标记字符之间的对应关系得出，“&”为高频词标记字符，“#”为中频词标记字符，并且高频词对应的编码位数为1字节，中频词对应的编码位数为4字节，则可以的得到替换编码“2”和“1234”，查询高频词字典及中频词字典，找到对应的字典分词，可以得到替换编码“2”对应的字典分词为“address”，替换编码“1234”对应的字典分词为“GuangDong”，则可以得到原始目标数据为：“address”：“Shenzhen，GuangDong”。其中，上述预设的编码字典与标记字符之间的对应关系可以由用户通过自身的终端预先配置得到，示例性地，假设本申请实施例由图1所示数据处理系统中的数据处理服务器执行，用户可以通过自身的用户终端配置编码字典与标记字符之间的对应关系，并在配置完成后，将编码字典与标记字符之间的对应关系存储至数据处理服务器。

在一种可能的实施方式中，当写入目标数据时，检测到已经开启上述三类编码字典，但没有检测到可用的字典数据，则将目标数据作为样本数据执行501-504步骤，获取到完整的编码字典后再对新写入的目标数据进行编码替换得到编码数据，再对编码数据进行压缩得到针对新写入的目标数据的压缩结果。该完整的编码字典是指样本数据的样本序号达到目标阈值后获取的中频词字典及高频词字典，以及，在长词字典执行冻结操作后的长词字典。

此处以一段json类型的日志数据为例，详细地阐述服务器通过本方案进行数据处理的过程。请参见图6a，数据处理服务器获取一个日志数据的文档，其中存在一段json类型的目标数据如图6a所示，然后获取该目标数据中的待处理分词，根据待处理分词得到每个待处理分词对应的编码字典、替换编码如图6b所示，在该场景中，用户通过用户终端设置高频词对应的第一编码位数为8位(1字节)，中频词对应的第二编码位数为32位(4字节)，长词对应的第三编码位数为8位(64字节)，并且设置不同类型编码字典的标记字符如图6c所示，则根据如图6a、6b的数据对该目标数据进行编码，可以得到编码数据如图6d所示。

本申请实施例，可以对样本数据进行分词处理，得到样本数据对应的样本分词；根据样本分词的长度确定样本分词所属的目标候选词列表；在目标候选词列表中更新样本分词的词频信息；根据目标候选词列表生成对应的编码字典；依照字典编码规则在对应的编码字典中设置各字典分词对应的替换编码，使得对不同长度或词频的数据得到更好地处理。由此可见，通过构建不同类别的编码字典能够使数据编码更具有针对性，有助于提高数据的压缩率。

基于上述数据处理方法实施例的描述，本申请实施例还公开了一种数据处理装置，该装置可以配置于上述的电子设备中，例如装置可以是运行于电子设备中的一个计算机程序(包括程序代码)。该数据处理装置可以执行图3、图5所示的方法。请参见图7，所述数据处理装置可以运行如下模块：

获取模块701，用于从目标数据中获取待处理分词；

处理模块702，用于依照所述待处理分词的长度从一个以上编码字典中确定所述待处理分词所属的目标编码字典；

所述处理模块702，还用于根据所述目标编码字典确定所述待处理分词对应的替换编码；

所述处理模块702，还用于在所述目标数据中采用所述替换编码替换所述待处理分词，得到所述目标数据对应的编码数据；

所述处理模块702，还用于对所述编码数据进行压缩处理，得到针对所述目标数据的压缩结果。

在一种实施方式中，所述依照所述待处理分词的长度从一个以上编码字典中确定所述待处理分词所属的目标编码字典之前，所述获取模块701还用于获取样本数据，并对所述样本数据进行分词处理，得到所述样本数据对应的样本分词；所述处理模块702，还用于根据所述样本分词的长度确定所述样本分词所属的目标候选词列表，所述目标候选词列表包括：中频词候选词列表或者长词候选词列表；在所述目标候选词列表中更新所述样本分词的词频信息；根据所述目标候选词列表生成对应的编码字典，所述对应的编码字典包括一个以上的字典分词；依照字典编码规则在所述对应的编码字典中设置各字典分词对应的替换编码。

在一种实施方式中，所述一个以上编码字典包括以下任一种或者多种：高频词字典、中频词字典和长词字典，若所述目标候选词列表为所述中频词候选词列表，则所述对应的编码字典包括高频词字典和中频词字典，所述高频词字典包括一个以上的高频词，所述中频词字典包括一个以上的中频词；若所述目标候选词列表为所述长词候选词列表，则所述对应的编码字典包括长词字典，所述长词字典包括一个以上的长词。

在一种实施方式中，所述目标候选词列表包括所述中频候选词列表，所述获取模块701还用于获取所述样本数据对应的样本序号；所述处理模块702还用于若检测到所述样本序号小于目标阈值，则在所述目标候选词列表中更新所述样本分词的词频信息；若检测到所述样本序号等于目标阈值，则停止更新所述目标候选词列表中所述样本分词的词频信息，并依照所述目标候选词列表生成高频词字典和中频词字典。

在一种实施方式中，所述获取模块701还用于获取所述目标候选词列表中各样本分词的词频信息；所述处理模块702还用于依照所述词频信息，将所述目标候选词列表中词频满足高频词条件的样本分词确定为高频词，并基于所述高频词生成高频词字典；依照所述词频信息，将所述目标候选词列表中除所述高频词以外，并且满足中频词条件的样本分词确定为中频词，并基于所述中频词生成中频词字典。

在一种实施方式中，所述目标候选词列表包括长词候选词列表，所述获取模块701还用于获取所述目标候选词列表中各样本分词的词频信息；所述处理模块702还用于依照所述词频信息，将所述目标候选词列表中词频满足长词条件的样本分词确定为长词；依照所述长词生成长词字典。

在一种实施方式中，所述字典编码规则用于指示：为高频词字典中的各高频词设置第一编码位数的替换编码，为中频词字典中的各中频词设置第二编码位数的替换编码，为长词字典中的各长词设置第三编码位数的替换编码，其中，所述第一编码位数小于所述第二编码位数，所述第二编码位数小于所述第三编码位数。

在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以是两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现，本申请不做限定。

本申请实施例，可以依照所述待处理分词的长度从一个以上编码字典中确定所述待处理分词所属的目标编码字典，根据所述目标编码字典确定所述待处理分词对应的替换编码，以便于对不同字典的数据采用不同的编码方案进行替换；对所述编码数据进行压缩处理，得到针对所述目标数据的压缩结果，能够提高数据的压缩率。由此可见，通过不同类型的编码字典中确定数据对应的替换编码，能够使数据编码更具有针对性，有助于提高数据的压缩率。

再请参见图8，是本申请实施例的一种电子设备的结构示意图，本申请实施例的所述电子设备包括供电模块等结构，并包括处理器801以及存储装置802。可选的，该电子设备还可包括网络接口803。其中，所述处理器801、存储装置802以及网络接口803之间可以交互数据，网络接口803受所述处理器的控制用于收发信息，存储器802用于存储计算机程序，所述计算机程序包括程序指令，处理器801用于执行存储器802存储的程序指令。其中，处理器801被配置用于调用所述程序指令执行上述方法。

所述存储装置802可以包括易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储装置802也可以包括非易失性存储器(non-volatilememory)，例如快闪存储器(flash memory)，固态硬盘(solid-state drive，SSD)等；所述存储装置802还可以包括上述种类的存储器的组合。

所述处理器801可以是中央处理器801(central processing unit，CPU)。在一个实施例中，所述处理器801还可以是图形处理器801(Graphics Processing Unit，GPU)。所述处理器801也可以是由CPU和GPU的组合。

在一个实施例中，所述存储装置802用于存储程序指令。所述处理器801可以调用所述程序指令，执行以下步骤：

从目标数据中获取待处理分词；

在一种实施方式中，所述依照所述待处理分词的长度从一个以上编码字典中确定所述待处理分词所属的目标编码字典之前，所述处理器801还可用于执行：获取样本数据，并对所述样本数据进行分词处理，得到所述样本数据对应的样本分词；根据所述样本分词的长度确定所述样本分词所属的目标候选词列表，所述目标候选词列表包括：中频词候选词列表或者长词候选词列表；在所述目标候选词列表中更新所述样本分词的词频信息；根据所述目标候选词列表生成对应的编码字典，所述对应的编码字典包括一个以上的字典分词；依照字典编码规则在所述对应的编码字典中设置各字典分词对应的替换编码。

在一种实施方式中，所述目标候选词列表包括所述中频候选词列表，所述处理器801还可用于执行：获取所述样本数据对应的样本序号；若检测到所述样本序号小于目标阈值，则在所述目标候选词列表中更新所述样本分词的词频信息；若检测到所述样本序号等于目标阈值，则停止更新所述目标候选词列表中所述样本分词的词频信息，并依照所述目标候选词列表生成高频词字典和中频词字典。

在一种实施方式中，所述处理器801还可用于执行：获取所述目标候选词列表中各样本分词的词频信息；依照所述词频信息，将所述目标候选词列表中词频满足高频词条件的样本分词确定为高频词，并基于所述高频词生成高频词字典；依照所述词频信息，将所述目标候选词列表中除所述高频词以外，并且满足中频词条件的样本分词确定为中频词，并基于所述中频词生成中频词字典。

在一种实施方式中，所述目标候选词列表包括长词候选词列表，所述处理器801还可用于执行：获取所述目标候选词列表中各样本分词的词频信息；依照所述词频信息，将所述目标候选词列表中词频满足长词条件的样本分词确定为长词；依照所述长词生成长词字典。

在一种实施方式中，所述字典编码规则用于指示为高频词字典中的各高频词设置第一编码位数的替换编码，为中频词字典中的各中频词设置第二编码位数的替换编码，为长词字典中的各长词设置第三编码位数的替换编码，其中，所述第一编码位数小于所述第二编码位数，所述第二编码位数小于所述第三编码位数。

具体实现中，本申请实施例中所描述的装置、处理器801、存储装置802等可执行上述方法实施例所描述的实现方式，也可执行本申请实施例所描述的实现方式，在此不再赘述。

本申请实施例中还提供一种计算机(可读)存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时，可执行上述方法实施例中所执行的部分或全部步骤。可选的，该计算机存储介质可以是易失性的，也可以是非易失性的。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括程序指令，该程序指令可存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该程序指令，处理器执行该程序指令，使得该计算机执行上述数据展示方法中所执行的部分或全部步骤，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机存储介质中，该计算机存储介质可以为计算机可读存储介质，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所揭露的仅为本申请的部分实施例而已，当然不能以此来限定本申请之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本申请权利要求所作的等同变化，仍属于本申请所涵盖的范围。

Claims

1.一种数据处理方法，其特征在于，包括：

从目标数据中获取待处理分词；

2.根据权利要求1所述的方法，其特征在于，所述依照所述待处理分词的长度从一个以上编码字典中确定所述待处理分词所属的目标编码字典之前，所述方法还包括：

获取样本数据，并对所述样本数据进行分词处理，得到所述样本数据对应的样本分词；

根据所述样本分词的长度确定所述样本分词所属的目标候选词列表，所述目标候选词列表包括：中频词候选词列表或者长词候选词列表；

在所述目标候选词列表中更新所述样本分词的词频信息，根据所述目标候选词列表生成对应的编码字典，所述对应的编码字典包括一个以上的字典分词；

依照字典编码规则在所述对应的编码字典中设置各字典分词对应的替换编码。

3.根据权利要求2所述的方法，其特征在于，所述一个以上编码字典包括以下任一种或者多种：高频词字典、中频词字典和长词字典，所述方法还包括：

若所述目标候选词列表为所述中频词候选词列表，则所述对应的编码字典包括高频词字典和中频词字典，所述高频词字典包括一个以上的高频词，所述中频词字典包括一个以上的中频词；

若所述目标候选词列表为所述长词候选词列表，则所述对应的编码字典包括长词字典，所述长词字典包括一个以上的长词。

4.根据权利要求2所述的方法，其特征在于，所述目标候选词列表包括所述中频候选词列表，所述在所述目标候选词列表中更新所述样本分词的词频信息，根据所述目标候选词列表生成对应的编码字典，包括：

获取所述样本数据对应的样本序号；

若检测到所述样本序号小于目标阈值，则在所述目标候选词列表中更新所述样本分词的词频信息；

若检测到所述样本序号等于目标阈值，则停止更新所述目标候选词列表中所述样本分词的词频信息，并依照所述目标候选词列表生成高频词字典和中频词字典。

5.根据权利要求4所述的方法，其特征在于，所述依照所述目标候选词列表生成高频词字典和中频词字典，包括：

获取所述目标候选词列表中各样本分词的词频信息；

依照所述词频信息，将所述目标候选词列表中词频满足高频词条件的样本分词确定为高频词，并基于所述高频词生成高频词字典；

依照所述词频信息，将所述目标候选词列表中除所述高频词以外，并且满足中频词条件的样本分词确定为中频词，并基于所述中频词生成中频词字典。

6.根据权利要求2所述的方法，其特征在于，所述目标候选词列表包括长词候选词列表，所述根据所述目标候选词列表生成对应的编码字典，包括：

获取所述目标候选词列表中各样本分词的词频信息；

依照所述词频信息，将所述目标候选词列表中词频满足长词条件的样本分词确定为长词；

依照所述长词生成长词字典。

7.根据权利要求2所述的方法，其特征在于，所述字典编码规则用于指示：为高频词字典中的各高频词设置第一编码位数的替换编码，为中频词字典中的各中频词设置第二编码位数的替换编码，为长词字典中的各长词设置第三编码位数的替换编码，其中，所述第一编码位数小于所述第二编码位数，所述第二编码位数小于所述第三编码位数。

8.一种数据处理装置，其特征在于，包括：

获取模块，用于从目标数据中获取待处理分词；

9.一种电子设备，其特征在于，包括处理器和存储装置，所述处理器与所述存储装置相互连接，其中，所述存储装置用于存储计算机程序指令，所述处理器被配置用于执行所述程序指令，实现如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序指令，所述计算机程序指令被处理器执行时，用于执行如权利要求1-7任一项所述的方法。