CN117811588A

CN117811588A - 一种基于霍夫曼编码与lz77的日志压缩存取方法、系统、设备及可读存储介质

Info

Publication number: CN117811588A
Application number: CN202410028206.9A
Authority: CN
Inventors: 陈传凯; 王伟斌; 段天毅
Original assignee: Beijing Xinshu Technology Co ltd
Current assignee: Beijing Xinshu Technology Co ltd
Priority date: 2024-01-08
Filing date: 2024-01-08
Publication date: 2024-04-02
Anticipated expiration: 2044-01-08
Also published as: CN117811588B

Abstract

本发明提出一种基于霍夫曼编码与LZ77的日志压缩存取方法、系统、设备及可读存储介质，基于贪心策略的思想提出改进的LZ77压缩算法，不直接计算源数据流的滑动距离，而是增加预处理环节找到最长匹配值，且通过考虑匹配字符后的连续字符序列选择最有可能成为最大匹配的位置，为待编码数据流找到一个更好的匹配位置，提高匹配的准确性。该方法使得变量的分类更为精细，将消息体分为模板变量和普通变量。在模板变量部分，采用霍夫曼编码进行高效压缩，通过构建最优前缀编码树，将重复日志模板以更紧凑的形式表示。为了进一步提升效率，特别针对霍夫曼编码对于大批量数据时效率低下的问题，这一方法采取将一组数据作为整体进行编码的策略。采用本发明后，减少了I/O操作的次数，降低了数据传输的开销，从而有效提高了性能。通过这种解析器树构建方法，不仅提高了日志处理的效率，还通过精细的变量分类和模板定义，为后续的压缩操作提供了更为优化的基础。

Description

一种基于霍夫曼编码与LZ77的日志压缩存取方法、系统、设备及可读存储介质

技术领域

本发明涉及一种基于霍夫曼编码与LZ77的日志压缩存取方法、系统、设备及可读存储介质，属于数据库领域。

背景技术

在信息技术飞速发展的今天，企业面临着大规模日志数据生成和处理的严峻挑战，解决这一问题的焦点在于日志压缩存取技术。通过将日志数据转化为层次结构，这种方法极大地提高了存储效率。当前研究正积极探索解析器树与压缩算法的深度融合，旨在实现对大规模日志数据的高效压缩存储和快速检索，这一深度融合的研究努力为日志管理提供了更为可靠和先进的基础。现有日志压缩技术中，解析器以空格为分割拆分字符串生成解析器树，匹配日志数据并形成模板，这样的方式导致解析器树的高度过高，影响日志数据的压缩质量和效率。另外，使用传统的霍夫曼编码压缩数据时，霍夫曼编码按照单个字符进行构建，难以应对长度较长的日志数据，编码后的比特串过长，难以应用在资源受限的环境下。同时，LZ77压缩算法在处理长序列字符串时效率比较低。

附图说明

图1为解析器树图。

图2为霍夫曼树图。

图3为滑动窗口示意图。

图4为日志消息分析图。

发明内容

为解决以上问题，本发明提出一种基于霍夫曼编码与LZ77的日志压缩存取方法，通过对日志进行分组，计算每组内最大重复日志消息的长度，重新定义日志模板，该方法具体步骤为：

(1)预处理：对日志分组，计算每组内最大重复日志消息的长度，重新定义日志模板，将日志变量划分为模板变量和普通变量。

(2)模板变量压缩：以空格字符为分割将字符串分割为多个单词，并以单词为单位执行霍夫曼编码。

(3)普通变量压缩：使用改进的LZ77算法进行编码压缩。

进一步地，预处理时，解析器使用空格符将日志数据拆分为字符串列表，检索以该模板开头的子节点是否存在，如果相应子节点不存在，解析器重新加入左边的树状字符串中，等待可以匹配到相同起始字符串的子节点后加入右边的解析器树，解析器将创建了一个新模板；如果相应子节点存在，按照对应模板变量加入解析器树。

进一步地，模板变量压缩中，以单词为单位进行霍夫曼编码，按照每个单词出现的频率构建霍夫曼树，出现频率最高的字符，距离树的根节点最近。

进一步地，普通变量压缩中，改进的LZ77压缩算法具体步骤为：从左到右处理待编码数据流P，对于每个位置i，计算以P_i为起点的最长连续字符序列长度match_length[i]；在滑动窗口待编码数据流P内查找搜索区中的最大匹配字符串，P对准匹配位置T_i；若P_k≠T_i，匹配未成功，且T_i不在T中，则右移P直至P_i位于匹配失败位T_i+1，T为文本窗口；若T_i在P中不止出现一处，则若P后面K位和T中有相同文本在T中其他地方出现，将P右移，使用相同的文本对齐，且一致的文本尽量大。

本发明又提出一种基于霍夫曼编码与LZ77的日志压缩存取系统，通过对日志进行分组，计算每组内最大重复日志消息的长度，重新定义日志模板，该系统包括：

(1)预处理模块，该模块对日志分组，计算每组内最大重复日志消息的长度，重新定义日志模板，将日志变量划分为模板变量和普通变量。

(2)模板变量压缩模块，该模块以空格字符为分割将字符串分割为多个单词，并以单词为单位执行霍夫曼编码；

(3)普通变量压缩模块，该模块使用改进的LZ77算法进行编码压缩。

进一步地，预处理模块中，解析器使用空格符将日志数据拆分为字符串列表，检索以该模板开头的子节点是否存在，如果相应子节点不存在，解析器重新加入左边的树状字符串中，等待可以匹配到相同起始字符串的子节点后加入右边的解析器树，解析器将创建了一个新模板；如果相应子节点存在，按照对应模板变量加入解析器树。

进一步地，模板变量压缩模块中，以单词为单位进行霍夫曼编码，按照每个单词出现的频率构建霍夫曼树，出现频率最高的字符，距离树的根节点最近。

进一步地，普通变量压缩模块中，改进的LZ77压缩算法具体步骤为：从左到右处理待编码数据流P，对于每个位置i，计算以P_i为起点的最长连续字符序列长度match_length[i]；在滑动窗口待编码数据流P内查找搜索区中的最大匹配字符串，P对准匹配位置T_i；若P_k≠T_i，匹配未成功，且T_i不在T中，则右移P直至P_i位于匹配失败位T_i+1，T为文本窗口；若T_i在P中不止出现一处，则若P后面K位和T中有相同文本在T中其他地方出现，将P右移，使用相同的文本对齐，且一致的文本尽量大。

本发明又提供了一种设备，所述设备包括：数据采集装置、处理器和存储器；所述数据采集装置用于采集数据；所述存储器用于存储一个或多个程序指令；所述处理器，用于执行一个或多个程序指令，用以执行上述任一项方法。

本发明又提供了一种计算机可读存储介质，所述计算机存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于执行上述任一项方法。

由于普通变量的长度相对更长，提高压缩效率，本发明使用改进的LZ77算法进行编码压缩。预处理阶段，降低解析器树的高度，提高日志压缩效率和质量。模板变量压缩阶段，以单词为单位进行霍夫曼编码，可在大批量数据时提升效率，在存储空间上的开销较低。

本发明基于贪心策略的思想提出改进的LZ77压缩算法，不直接计算源数据流的滑动距离，而是增加预处理环节找到最长匹配值，且通过考虑匹配字符后的连续字符序列选择最有可能成为最大匹配的位置，为待编码数据流找到一个更好的匹配位置，提高匹配的准确性。该方法使得变量的分类更为精细，将消息体分为模板变量和普通变量。在模板变量部分，采用霍夫曼编码进行高效压缩，通过构建最优前缀编码树，将重复日志模板以更紧凑的形式表示。为了进一步提升效率，特别针对霍夫曼编码对于大批量数据时效率低下的问题，这一方法采取将一组数据作为整体进行编码的策略。采用本发明后，减少了I/O操作的次数，降低了数据传输的开销，从而有效提高了性能。通过这种解析器树构建方法，不仅提高了日志处理的效率，还通过精细的变量分类和模板定义，为后续的压缩操作提供了更为优化的基础。

具体实施方式

本发明提出一种新的构建解析器树的方法，通过对日志进行分组，计算每组内最大重复日志消息的长度，重新定义日志模板，该方法使得变量的分类更为精细，将消息体分为模板变量和普通变量。在模板变量部分，采用Huffman Coding(霍夫曼编码)进行高效压缩，通过构建最优前缀编码树，将重复日志模板以更紧凑的形式表示。为了进一步提升效率，特别针对Huffman coding对于大批量数据时效率低下的问题，这一方法采取将一组数据作为整体进行编码的策略。这种方式减少了I/O操作的次数，降低了数据传输的开销，从而有效提高了性能。通过这种解析器树构建方法，不仅提高了日志处理的效率，还通过精细的变量分类和模板定义，为后续的压缩操作提供了更为优化的基础。

具体地，解析器使用空格符将日志数据拆分为字符串列表，检索以该模板开头的子节点是否存在，如果相应子节点不存在，解析器则重新加入左边的树状字符串中，等待可以匹配到相同起始字符串的子节点后加入右边的解析器树，解析器将创建了一个新的模板。

如图1所示，完成解析器的构造后，子节点作为模板变量，叶子节点作为普通变量。对于模板变量使用改进的霍夫曼编码数据压缩算法，通过构建一个最优的前缀编码树对数据进行高效编码。而普通变量将由LZ77算法进行压缩。

具体地，为了提高霍夫曼编码的效率，以空格作为分隔符，以单词为单位进行编码，以waiting for hardware to initialize为例，按照每个单词出现的频率构建霍夫曼树，出现频率最高的字符，距离树的根节点最近。因此，“waiting for hardware toinitialize”的霍夫曼树如图2所示。

根据霍夫曼树的形状得到霍夫曼编码，从根节点开始，左节点标记为0，右节点标记为1，则waiting的编码为100，for的编码为00，hardware的编码为110，to的编码为01，initialize的编码为101；最终整个字符串的编码结果为1000011001101共13bit，相比计算机默认编码格式节省259bit的存储空间。这样的编码优化对于大规模数据存储和传输中，尤其在资源受限的环境下，能够有效降低存储成本。

而普通变量将使用改进的LZ77压缩算法。本发明基于贪心策略的思想提出改进的LZ77压缩算法，该不直接计算源数据流的滑动距离，而是增加预处理环节找到最长匹配值，且通过考虑匹配字符后的连续字符序列来选择最有可能成为最大匹配的位置。假设文本窗口为T，待编码数据流为P，最长可匹配字符串长度为m，滑动窗口的长度为n，如图3所示。

在预处理阶段，对于待编码数据流P，从左到右进行处理，对于每个位置i，计算以P_i为起点的最长连续字符序列长度为match_length[i]。

在匹配阶段，首先在滑动窗口中P区查找搜索区中的最大匹配字符串，P对准匹配位置T_i。之后，如果在P_k≠T_i匹配未成功，并且T_i不在T中，那么右移P直到P_i位于匹配失败位T_i+1，若T_i在P中有不止一处出现，则若P后面K位和T中相同的文本有一些在T中其他地方出现，那么将P右移，使用相同的文本对齐，且一致的文本尽量大。

更具体的一个例子：

本发明基于解析器树将日志消息体分为模板变量与普通变量后再分别进行压缩，以图4所示的日志消息结构为例。

消息头和消息体组成了整体的日志消息，在消息体中的变量又被分为模板变量和普通变量。如图4所示，通过空格符将日志数据拆分为字符串列表，检索以该模板开头的子节点是否存在，如果不存在，则将解析器加入左边的树状字符串中。当找到匹配相同起始字符串的子节点后，解析器将重新加入右边的解析器树，从而创建了一个新的模板。最后消息体被分为模板变量和普通变量两部分。

为提高压缩效果，本发明提出使用两个不同的压缩方法对两种变量进行压缩。模板变量部分使用Huffman Coding的方式进行压缩，传统的Huffman Coding处理压缩效率较低，本发明将一组数据作为整体进行编码，减少I/O操作次数，提高了性能。以waiting forhardware to initialize为例，该字符串的霍夫曼编码结果为1000011001101共13bit，而计算机默认的编码格式一个字符需要占用8bit空间大小，所示字符串共需要272bit的存储空间，现有的霍夫曼编码共需要139bit，本方法与现有两种存储格式相比，分别节省了259bit和126bit的存储空间。

具体的压缩过程，通过解析器提取模板变量和普通变量的方式构建初始的解析器树。在压缩节点，首先提出每条日志的消息头部分，利用解析器将日志条目与模板变量匹配；然后采用霍夫曼编码和改进的LZ77的方式对所有的数据进行打包压缩，实现对日志消息的较高压缩率。

总体而言，本发明在保留日志关键信息的同时，为大规模日志数据的存储和传输提供了高效解决方案。通过结合解析器树、霍夫曼编码和LZ77算法，不仅提高了数据压缩率，而且在处理复杂日志结构时具有显著的实用性，提高了日志数据处理的效率和可定制性。

上述实施例阐明的单元、装置或模块等，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，移动终端，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

以上所述的具体实施例，对本申请的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本申请的具体实施例而已，并不用于限定本申请的保护范围，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于霍夫曼编码与LZ77的日志压缩存取方法，通过对日志进行分组，计算每组内最大重复日志消息的长度，重新定义日志模板，其特征在于：该方法具体步骤为：

(3)普通变量压缩：使用改进的LZ77算法进行编码压缩。

2.如权利要求1所述的一种基于霍夫曼编码与LZ77的日志压缩存取方法，其特征在于：预处理时，解析器使用空格符将日志数据拆分为字符串列表，检索以该模板开头的子节点是否存在，如果相应子节点不存在，解析器重新加入左边的树状字符串中，等待可以匹配到相同起始字符串的子节点后加入右边的解析器树，解析器将创建了一个新模板；如果相应子节点存在，按照对应模板变量加入解析器树。

3.如权利要求1所述的一种基于霍夫曼编码与LZ77的日志压缩存取方法，其特征在于：模板变量压缩中，以单词为单位进行霍夫曼编码，按照每个单词出现的频率构建霍夫曼树，出现频率最高的字符，距离树的根节点最近。

4.如权利要求1所述的一种基于霍夫曼编码与LZ77的日志压缩存取方法，其特征在于：普通变量压缩中，改进的LZ77压缩算法具体步骤为：从左到右处理待编码数据流P，对于每个位置i，计算以P_i为起点的最长连续字符序列长度match_length[i]；在滑动窗口待编码数据流P内查找搜索区中的最大匹配字符串，P对准匹配位置T_i；若P_k≠T_i，匹配未成功，且T_i不在T中，则右移P直至P_i位于匹配失败位T_i+1，T为文本窗口；若T_i在P中不止出现一处，则若P后面K位和T中有相同文本在T中其他地方出现，将P右移，使用相同的文本对齐，且一致的文本尽量大。

5.一种基于霍夫曼编码与LZ77的日志压缩存取系统，通过对日志进行分组，计算每组内最大重复日志消息的长度，重新定义日志模板，其特征在于：该系统包括：

6.如权利要求5所述的一种基于霍夫曼编码与LZ77的日志压缩存取系统，其特征在于：预处理模块中，解析器使用空格符将日志数据拆分为字符串列表，检索以该模板开头的子节点是否存在，如果相应子节点不存在，解析器重新加入左边的树状字符串中，等待可以匹配到相同起始字符串的子节点后加入右边的解析器树，解析器将创建了一个新模板；如果相应子节点存在，按照对应模板变量加入解析器树。

7.如权利要求5所述的一种基于霍夫曼编码与LZ77的日志压缩存取系统，其特征在于：模板变量压缩模块中，以单词为单位进行霍夫曼编码，按照每个单词出现的频率构建霍夫曼树，出现频率最高的字符，距离树的根节点最近。

8.如权利要求5所述的一种基于霍夫曼编码与LZ77的日志压缩存取系统，其特征在于：普通变量压缩模块中，改进的LZ77压缩算法具体步骤为：从左到右处理待编码数据流P，对于每个位置i，计算以P_i为起点的最长连续字符序列长度match_length[i]；在滑动窗口待编码数据流P内查找搜索区中的最大匹配字符串，P对准匹配位置T_i；若P_k≠T_i，匹配未成功，且T_i不在T中，则右移P直至P_i位于匹配失败位T_i+1，T为文本窗口；若T_i在P中不止出现一处，则若P后面K位和T中有相同文本在T中其他地方出现，将P右移，使用相同的文本对齐，且一致的文本尽量大。

9.一种设备，所述设备包括：数据采集装置、处理器和存储器；所述数据采集装置用于采集数据；所述存储器用于存储一个或多个程序指令；所述处理器，用于执行一个或多个程序指令，用以执行上述1-4任一项方法。

10.一种计算机可读存储介质，所述计算机存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于执行上述1-4任一项方法。