CN117811588A - 一种基于霍夫曼编码与lz77的日志压缩存取方法、系统、设备及可读存储介质 - Google Patents

一种基于霍夫曼编码与lz77的日志压缩存取方法、系统、设备及可读存储介质 Download PDF

Info

Publication number
CN117811588A
CN117811588A CN202410028206.9A CN202410028206A CN117811588A CN 117811588 A CN117811588 A CN 117811588A CN 202410028206 A CN202410028206 A CN 202410028206A CN 117811588 A CN117811588 A CN 117811588A
Authority
CN
China
Prior art keywords
log
template
compression
huffman coding
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410028206.9A
Other languages
English (en)
Other versions
CN117811588B (zh
Inventor
陈传凯
王伟斌
段天毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xinshu Technology Co ltd
Original Assignee
Beijing Xinshu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xinshu Technology Co ltd filed Critical Beijing Xinshu Technology Co ltd
Priority to CN202410028206.9A priority Critical patent/CN117811588B/zh
Publication of CN117811588A publication Critical patent/CN117811588A/zh
Application granted granted Critical
Publication of CN117811588B publication Critical patent/CN117811588B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/40Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提出一种基于霍夫曼编码与LZ77的日志压缩存取方法、系统、设备及可读存储介质,基于贪心策略的思想提出改进的LZ77压缩算法,不直接计算源数据流的滑动距离,而是增加预处理环节找到最长匹配值,且通过考虑匹配字符后的连续字符序列选择最有可能成为最大匹配的位置,为待编码数据流找到一个更好的匹配位置,提高匹配的准确性。该方法使得变量的分类更为精细,将消息体分为模板变量和普通变量。在模板变量部分,采用霍夫曼编码进行高效压缩,通过构建最优前缀编码树,将重复日志模板以更紧凑的形式表示。为了进一步提升效率,特别针对霍夫曼编码对于大批量数据时效率低下的问题,这一方法采取将一组数据作为整体进行编码的策略。采用本发明后,减少了I/O操作的次数,降低了数据传输的开销,从而有效提高了性能。通过这种解析器树构建方法,不仅提高了日志处理的效率,还通过精细的变量分类和模板定义,为后续的压缩操作提供了更为优化的基础。

Description

一种基于霍夫曼编码与LZ77的日志压缩存取方法、系统、设备 及可读存储介质
技术领域
本发明涉及一种基于霍夫曼编码与LZ77的日志压缩存取方法、系统、设备及可读存储介质,属于数据库领域。
背景技术
在信息技术飞速发展的今天,企业面临着大规模日志数据生成和处理的严峻挑战,解决这一问题的焦点在于日志压缩存取技术。通过将日志数据转化为层次结构,这种方法极大地提高了存储效率。当前研究正积极探索解析器树与压缩算法的深度融合,旨在实现对大规模日志数据的高效压缩存储和快速检索,这一深度融合的研究努力为日志管理提供了更为可靠和先进的基础。现有日志压缩技术中,解析器以空格为分割拆分字符串生成解析器树,匹配日志数据并形成模板,这样的方式导致解析器树的高度过高,影响日志数据的压缩质量和效率。另外,使用传统的霍夫曼编码压缩数据时,霍夫曼编码按照单个字符进行构建,难以应对长度较长的日志数据,编码后的比特串过长,难以应用在资源受限的环境下。同时,LZ77压缩算法在处理长序列字符串时效率比较低。
附图说明
图1为解析器树图。
图2为霍夫曼树图。
图3为滑动窗口示意图。
图4为日志消息分析图。
发明内容
为解决以上问题,本发明提出一种基于霍夫曼编码与LZ77的日志压缩存取方法,通过对日志进行分组,计算每组内最大重复日志消息的长度,重新定义日志模板,该方法具体步骤为:
(1)预处理:对日志分组,计算每组内最大重复日志消息的长度,重新定义日志模板,将日志变量划分为模板变量和普通变量。
(2)模板变量压缩:以空格字符为分割将字符串分割为多个单词,并以单词为单位执行霍夫曼编码。
(3)普通变量压缩:使用改进的LZ77算法进行编码压缩。
进一步地,预处理时,解析器使用空格符将日志数据拆分为字符串列表,检索以该模板开头的子节点是否存在,如果相应子节点不存在,解析器重新加入左边的树状字符串中,等待可以匹配到相同起始字符串的子节点后加入右边的解析器树,解析器将创建了一个新模板;如果相应子节点存在,按照对应模板变量加入解析器树。
进一步地,模板变量压缩中,以单词为单位进行霍夫曼编码,按照每个单词出现的频率构建霍夫曼树,出现频率最高的字符,距离树的根节点最近。
进一步地,普通变量压缩中,改进的LZ77压缩算法具体步骤为:从左到右处理待编码数据流P,对于每个位置i,计算以Pi为起点的最长连续字符序列长度match_length[i];在滑动窗口待编码数据流P内查找搜索区中的最大匹配字符串,P对准匹配位置Ti;若Pk≠Ti,匹配未成功,且Ti不在T中,则右移P直至Pi位于匹配失败位Ti+1,T为文本窗口;若Ti在P中不止出现一处,则若P后面K位和T中有相同文本在T中其他地方出现,将P右移,使用相同的文本对齐,且一致的文本尽量大。
本发明又提出一种基于霍夫曼编码与LZ77的日志压缩存取系统,通过对日志进行分组,计算每组内最大重复日志消息的长度,重新定义日志模板,该系统包括:
(1)预处理模块,该模块对日志分组,计算每组内最大重复日志消息的长度,重新定义日志模板,将日志变量划分为模板变量和普通变量。
(2)模板变量压缩模块,该模块以空格字符为分割将字符串分割为多个单词,并以单词为单位执行霍夫曼编码;
(3)普通变量压缩模块,该模块使用改进的LZ77算法进行编码压缩。
进一步地,预处理模块中,解析器使用空格符将日志数据拆分为字符串列表,检索以该模板开头的子节点是否存在,如果相应子节点不存在,解析器重新加入左边的树状字符串中,等待可以匹配到相同起始字符串的子节点后加入右边的解析器树,解析器将创建了一个新模板;如果相应子节点存在,按照对应模板变量加入解析器树。
进一步地,模板变量压缩模块中,以单词为单位进行霍夫曼编码,按照每个单词出现的频率构建霍夫曼树,出现频率最高的字符,距离树的根节点最近。
进一步地,普通变量压缩模块中,改进的LZ77压缩算法具体步骤为:从左到右处理待编码数据流P,对于每个位置i,计算以Pi为起点的最长连续字符序列长度match_length[i];在滑动窗口待编码数据流P内查找搜索区中的最大匹配字符串,P对准匹配位置Ti;若Pk≠Ti,匹配未成功,且Ti不在T中,则右移P直至Pi位于匹配失败位Ti+1,T为文本窗口;若Ti在P中不止出现一处,则若P后面K位和T中有相同文本在T中其他地方出现,将P右移,使用相同的文本对齐,且一致的文本尽量大。
本发明又提供了一种设备,所述设备包括:数据采集装置、处理器和存储器;所述数据采集装置用于采集数据;所述存储器用于存储一个或多个程序指令;所述处理器,用于执行一个或多个程序指令,用以执行上述任一项方法。
本发明又提供了一种计算机可读存储介质,所述计算机存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于执行上述任一项方法。
由于普通变量的长度相对更长,提高压缩效率,本发明使用改进的LZ77算法进行编码压缩。预处理阶段,降低解析器树的高度,提高日志压缩效率和质量。模板变量压缩阶段,以单词为单位进行霍夫曼编码,可在大批量数据时提升效率,在存储空间上的开销较低。
本发明基于贪心策略的思想提出改进的LZ77压缩算法,不直接计算源数据流的滑动距离,而是增加预处理环节找到最长匹配值,且通过考虑匹配字符后的连续字符序列选择最有可能成为最大匹配的位置,为待编码数据流找到一个更好的匹配位置,提高匹配的准确性。该方法使得变量的分类更为精细,将消息体分为模板变量和普通变量。在模板变量部分,采用霍夫曼编码进行高效压缩,通过构建最优前缀编码树,将重复日志模板以更紧凑的形式表示。为了进一步提升效率,特别针对霍夫曼编码对于大批量数据时效率低下的问题,这一方法采取将一组数据作为整体进行编码的策略。采用本发明后,减少了I/O操作的次数,降低了数据传输的开销,从而有效提高了性能。通过这种解析器树构建方法,不仅提高了日志处理的效率,还通过精细的变量分类和模板定义,为后续的压缩操作提供了更为优化的基础。
具体实施方式
本发明提出一种新的构建解析器树的方法,通过对日志进行分组,计算每组内最大重复日志消息的长度,重新定义日志模板,该方法使得变量的分类更为精细,将消息体分为模板变量和普通变量。在模板变量部分,采用Huffman Coding(霍夫曼编码)进行高效压缩,通过构建最优前缀编码树,将重复日志模板以更紧凑的形式表示。为了进一步提升效率,特别针对Huffman coding对于大批量数据时效率低下的问题,这一方法采取将一组数据作为整体进行编码的策略。这种方式减少了I/O操作的次数,降低了数据传输的开销,从而有效提高了性能。通过这种解析器树构建方法,不仅提高了日志处理的效率,还通过精细的变量分类和模板定义,为后续的压缩操作提供了更为优化的基础。
具体地,解析器使用空格符将日志数据拆分为字符串列表,检索以该模板开头的子节点是否存在,如果相应子节点不存在,解析器则重新加入左边的树状字符串中,等待可以匹配到相同起始字符串的子节点后加入右边的解析器树,解析器将创建了一个新的模板。
如图1所示,完成解析器的构造后,子节点作为模板变量,叶子节点作为普通变量。对于模板变量使用改进的霍夫曼编码数据压缩算法,通过构建一个最优的前缀编码树对数据进行高效编码。而普通变量将由LZ77算法进行压缩。
具体地,为了提高霍夫曼编码的效率,以空格作为分隔符,以单词为单位进行编码,以waiting for hardware to initialize为例,按照每个单词出现的频率构建霍夫曼树,出现频率最高的字符,距离树的根节点最近。因此,“waiting for hardware toinitialize”的霍夫曼树如图2所示。
根据霍夫曼树的形状得到霍夫曼编码,从根节点开始,左节点标记为0,右节点标记为1,则waiting的编码为100,for的编码为00,hardware的编码为110,to的编码为01,initialize的编码为101;最终整个字符串的编码结果为1000011001101共13bit,相比计算机默认编码格式节省259bit的存储空间。这样的编码优化对于大规模数据存储和传输中,尤其在资源受限的环境下,能够有效降低存储成本。
而普通变量将使用改进的LZ77压缩算法。本发明基于贪心策略的思想提出改进的LZ77压缩算法,该不直接计算源数据流的滑动距离,而是增加预处理环节找到最长匹配值,且通过考虑匹配字符后的连续字符序列来选择最有可能成为最大匹配的位置。假设文本窗口为T,待编码数据流为P,最长可匹配字符串长度为m,滑动窗口的长度为n,如图3所示。
在预处理阶段,对于待编码数据流P,从左到右进行处理,对于每个位置i,计算以Pi为起点的最长连续字符序列长度为match_length[i]。
在匹配阶段,首先在滑动窗口中P区查找搜索区中的最大匹配字符串,P对准匹配位置Ti。之后,如果在Pk≠Ti匹配未成功,并且Ti不在T中,那么右移P直到Pi位于匹配失败位Ti+1,若Ti在P中有不止一处出现,则若P后面K位和T中相同的文本有一些在T中其他地方出现,那么将P右移,使用相同的文本对齐,且一致的文本尽量大。
更具体的一个例子:
本发明基于解析器树将日志消息体分为模板变量与普通变量后再分别进行压缩,以图4所示的日志消息结构为例。
消息头和消息体组成了整体的日志消息,在消息体中的变量又被分为模板变量和普通变量。如图4所示,通过空格符将日志数据拆分为字符串列表,检索以该模板开头的子节点是否存在,如果不存在,则将解析器加入左边的树状字符串中。当找到匹配相同起始字符串的子节点后,解析器将重新加入右边的解析器树,从而创建了一个新的模板。最后消息体被分为模板变量和普通变量两部分。
为提高压缩效果,本发明提出使用两个不同的压缩方法对两种变量进行压缩。模板变量部分使用Huffman Coding的方式进行压缩,传统的Huffman Coding处理压缩效率较低,本发明将一组数据作为整体进行编码,减少I/O操作次数,提高了性能。以waiting forhardware to initialize为例,该字符串的霍夫曼编码结果为1000011001101共13bit,而计算机默认的编码格式一个字符需要占用8bit空间大小,所示字符串共需要272bit的存储空间,现有的霍夫曼编码共需要139bit,本方法与现有两种存储格式相比,分别节省了259bit和126bit的存储空间。
具体的压缩过程,通过解析器提取模板变量和普通变量的方式构建初始的解析器树。在压缩节点,首先提出每条日志的消息头部分,利用解析器将日志条目与模板变量匹配;然后采用霍夫曼编码和改进的LZ77的方式对所有的数据进行打包压缩,实现对日志消息的较高压缩率。
总体而言,本发明在保留日志关键信息的同时,为大规模日志数据的存储和传输提供了高效解决方案。通过结合解析器树、霍夫曼编码和LZ77算法,不仅提高了数据压缩率,而且在处理复杂日志结构时具有显著的实用性,提高了日志数据处理的效率和可定制性。
本发明又提供了一种设备,所述设备包括:数据采集装置、处理器和存储器;所述数据采集装置用于采集数据;所述存储器用于存储一个或多个程序指令;所述处理器,用于执行一个或多个程序指令,用以执行上述任一项方法。
本发明又提供了一种计算机可读存储介质,所述计算机存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于执行上述任一项方法。
上述实施例阐明的单元、装置或模块等,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,移动终端,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
以上所述的具体实施例,对本申请的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本申请的具体实施例而已,并不用于限定本申请的保护范围,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种基于霍夫曼编码与LZ77的日志压缩存取方法,通过对日志进行分组,计算每组内最大重复日志消息的长度,重新定义日志模板,其特征在于:该方法具体步骤为:
(1)预处理:对日志分组,计算每组内最大重复日志消息的长度,重新定义日志模板,将日志变量划分为模板变量和普通变量。
(2)模板变量压缩:以空格字符为分割将字符串分割为多个单词,并以单词为单位执行霍夫曼编码。
(3)普通变量压缩:使用改进的LZ77算法进行编码压缩。
2.如权利要求1所述的一种基于霍夫曼编码与LZ77的日志压缩存取方法,其特征在于:预处理时,解析器使用空格符将日志数据拆分为字符串列表,检索以该模板开头的子节点是否存在,如果相应子节点不存在,解析器重新加入左边的树状字符串中,等待可以匹配到相同起始字符串的子节点后加入右边的解析器树,解析器将创建了一个新模板;如果相应子节点存在,按照对应模板变量加入解析器树。
3.如权利要求1所述的一种基于霍夫曼编码与LZ77的日志压缩存取方法,其特征在于:模板变量压缩中,以单词为单位进行霍夫曼编码,按照每个单词出现的频率构建霍夫曼树,出现频率最高的字符,距离树的根节点最近。
4.如权利要求1所述的一种基于霍夫曼编码与LZ77的日志压缩存取方法,其特征在于:普通变量压缩中,改进的LZ77压缩算法具体步骤为:从左到右处理待编码数据流P,对于每个位置i,计算以Pi为起点的最长连续字符序列长度match_length[i];在滑动窗口待编码数据流P内查找搜索区中的最大匹配字符串,P对准匹配位置Ti;若Pk≠Ti,匹配未成功,且Ti不在T中,则右移P直至Pi位于匹配失败位Ti+1,T为文本窗口;若Ti在P中不止出现一处,则若P后面K位和T中有相同文本在T中其他地方出现,将P右移,使用相同的文本对齐,且一致的文本尽量大。
5.一种基于霍夫曼编码与LZ77的日志压缩存取系统,通过对日志进行分组,计算每组内最大重复日志消息的长度,重新定义日志模板,其特征在于:该系统包括:
(1)预处理模块,该模块对日志分组,计算每组内最大重复日志消息的长度,重新定义日志模板,将日志变量划分为模板变量和普通变量。
(2)模板变量压缩模块,该模块以空格字符为分割将字符串分割为多个单词,并以单词为单位执行霍夫曼编码;
(3)普通变量压缩模块,该模块使用改进的LZ77算法进行编码压缩。
6.如权利要求5所述的一种基于霍夫曼编码与LZ77的日志压缩存取系统,其特征在于:预处理模块中,解析器使用空格符将日志数据拆分为字符串列表,检索以该模板开头的子节点是否存在,如果相应子节点不存在,解析器重新加入左边的树状字符串中,等待可以匹配到相同起始字符串的子节点后加入右边的解析器树,解析器将创建了一个新模板;如果相应子节点存在,按照对应模板变量加入解析器树。
7.如权利要求5所述的一种基于霍夫曼编码与LZ77的日志压缩存取系统,其特征在于:模板变量压缩模块中,以单词为单位进行霍夫曼编码,按照每个单词出现的频率构建霍夫曼树,出现频率最高的字符,距离树的根节点最近。
8.如权利要求5所述的一种基于霍夫曼编码与LZ77的日志压缩存取系统,其特征在于:普通变量压缩模块中,改进的LZ77压缩算法具体步骤为:从左到右处理待编码数据流P,对于每个位置i,计算以Pi为起点的最长连续字符序列长度match_length[i];在滑动窗口待编码数据流P内查找搜索区中的最大匹配字符串,P对准匹配位置Ti;若Pk≠Ti,匹配未成功,且Ti不在T中,则右移P直至Pi位于匹配失败位Ti+1,T为文本窗口;若Ti在P中不止出现一处,则若P后面K位和T中有相同文本在T中其他地方出现,将P右移,使用相同的文本对齐,且一致的文本尽量大。
9.一种设备,所述设备包括:数据采集装置、处理器和存储器;所述数据采集装置用于采集数据;所述存储器用于存储一个或多个程序指令;所述处理器,用于执行一个或多个程序指令,用以执行上述1-4任一项方法。
10.一种计算机可读存储介质,所述计算机存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于执行上述1-4任一项方法。
CN202410028206.9A 2024-01-08 2024-01-08 一种基于霍夫曼编码与lz77的日志压缩存取方法、系统、设备及可读存储介质 Active CN117811588B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410028206.9A CN117811588B (zh) 2024-01-08 2024-01-08 一种基于霍夫曼编码与lz77的日志压缩存取方法、系统、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410028206.9A CN117811588B (zh) 2024-01-08 2024-01-08 一种基于霍夫曼编码与lz77的日志压缩存取方法、系统、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN117811588A true CN117811588A (zh) 2024-04-02
CN117811588B CN117811588B (zh) 2024-08-09

Family

ID=90433167

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410028206.9A Active CN117811588B (zh) 2024-01-08 2024-01-08 一种基于霍夫曼编码与lz77的日志压缩存取方法、系统、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN117811588B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090115646A1 (en) * 2007-11-05 2009-05-07 Roke Manor Research Limted Data processing system and method
CN108768403A (zh) * 2018-05-30 2018-11-06 中国人民解放军战略支援部队信息工程大学 基于lzw的无损数据压缩、解压方法及lzw编码器、解码器
CN108880556A (zh) * 2018-05-30 2018-11-23 中国人民解放军战略支援部队信息工程大学 基于lz77的无损数据压缩方法、误码修复方法及编码器和解码器
CN113824449A (zh) * 2021-09-18 2021-12-21 山东云海国创云计算装备产业创新中心有限公司 一种静态霍夫曼并行编码方法、系统、存储介质及设备
CN115499015A (zh) * 2021-06-17 2022-12-20 北京特纳飞电子技术有限公司 将子文字用于复杂性降低的霍夫曼编码的deflate压缩
CN116723250A (zh) * 2023-07-25 2023-09-08 成都博高信息技术股份有限公司 一种dl/t645帧的压缩方法和数据传输系统
CN117278056A (zh) * 2023-11-22 2023-12-22 湖南立人科技有限公司 一种社保信息处理方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090115646A1 (en) * 2007-11-05 2009-05-07 Roke Manor Research Limted Data processing system and method
CN108768403A (zh) * 2018-05-30 2018-11-06 中国人民解放军战略支援部队信息工程大学 基于lzw的无损数据压缩、解压方法及lzw编码器、解码器
CN108880556A (zh) * 2018-05-30 2018-11-23 中国人民解放军战略支援部队信息工程大学 基于lz77的无损数据压缩方法、误码修复方法及编码器和解码器
CN115499015A (zh) * 2021-06-17 2022-12-20 北京特纳飞电子技术有限公司 将子文字用于复杂性降低的霍夫曼编码的deflate压缩
CN113824449A (zh) * 2021-09-18 2021-12-21 山东云海国创云计算装备产业创新中心有限公司 一种静态霍夫曼并行编码方法、系统、存储介质及设备
CN116723250A (zh) * 2023-07-25 2023-09-08 成都博高信息技术股份有限公司 一种dl/t645帧的压缩方法和数据传输系统
CN117278056A (zh) * 2023-11-22 2023-12-22 湖南立人科技有限公司 一种社保信息处理方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
RIGLER, SUZANNE等: "FPGA-Based lossless data compression using Huffman and LZ77 algorithms", 《2007 CANADIAN CONFERENCE ON ELECTRICAL AND COMPUTER ENGINEERING》, 30 July 2007 (2007-07-30) *
刘吉强等: "基于解析器树的日志压缩优化方法", 《信息网络安全》, 30 April 2022 (2022-04-30) *
陈基漓, 严小卫, 杨祥: "基于单词的Huffman压缩方法", 桂林工学院学报, no. 04, 30 December 2002 (2002-12-30) *

Also Published As

Publication number Publication date
CN117811588B (zh) 2024-08-09

Similar Documents

Publication Publication Date Title
CN105893337B (zh) 用于文本压缩和解压缩的方法和设备
CN107046812B (zh) 一种数据保存方法和装置
US7098815B1 (en) Method and apparatus for efficient compression
CN105868305A (zh) 一种支持模糊匹配的云存储数据去重复方法
US20050192994A1 (en) Data compression method and apparatus
CN104283567A (zh) 一种名称数据的压缩、解压缩方法及设备
EP4350527A1 (en) Data compression method and apparatus, and computing device and storage medium
CN112380196B (zh) 一种用于数据压缩传输的服务器
CN114647764B (zh) 图结构的查询方法、装置及存储介质
CN113612483A (zh) 一种工业实时数据无损编码压缩方法
Li et al. Embedding Compression in Recommender Systems: A Survey
Sirén Compressed Full-Text Indexes for Highly Repetitive Collections.
CN117811588B (zh) 一种基于霍夫曼编码与lz77的日志压缩存取方法、系统、设备及可读存储介质
CN112162973A (zh) 指纹碰撞规避、去重及恢复方法、存储介质和去重系统
CN112398481B (zh) 反馈式匹配预测多级实时压缩系统及方法
CN112886967B (zh) 一种数据压缩编码处理的方法和设备
CN112612987A (zh) 一种页面访问上下游流量的计算方法
Zheng et al. Codis: A new compression scheme for bitmap indexes
CN113726342B (zh) 面向大规模图迭代计算的分段差值压缩与惰性解压方法
Li et al. BAH: A bitmap index compression algorithm for fast data retrieval
CN114095036B (zh) 一种动态哈夫曼编码的码长生成装置
CN112527753B (zh) Dns解析记录无损压缩方法、装置、电子设备及存储介质
CN110609914B (zh) 一种基于快速类别更新的在线哈希学习图像检索方法
Bassiouni et al. Enhancing arithmetic and tree-based coding
CN118381580A (zh) 一种机房运维数据管理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant