CN113961530A - 基于人工智能的日志文件压缩方法、设备和存储介质 - Google Patents

基于人工智能的日志文件压缩方法、设备和存储介质 Download PDF

Info

Publication number
CN113961530A
CN113961530A CN202111275665.XA CN202111275665A CN113961530A CN 113961530 A CN113961530 A CN 113961530A CN 202111275665 A CN202111275665 A CN 202111275665A CN 113961530 A CN113961530 A CN 113961530A
Authority
CN
China
Prior art keywords
log
file
compression
mode
compressed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111275665.XA
Other languages
English (en)
Inventor
顾青成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202111275665.XA priority Critical patent/CN113961530A/zh
Publication of CN113961530A publication Critical patent/CN113961530A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1744Redundancy elimination performed by the file system using compression, e.g. sparse files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于人工智能的日志文件压缩方法、设备和存储介质,包括:获取经过第一压缩方式压缩得到的第一日志压缩文件;采用与第一压缩方式对应的解压缩方式对第一日志压缩文件进行解压缩处理,得到日志文件;采用第二压缩方式对日志文件进行压缩处理,得到并存储第二日志压缩文件;第一压缩方式的压缩比低于第二压缩方式的压缩比,第一压缩方式所占用的IO资源少于第二压缩方式所占用的IO资源。本发明能够针对日志集中存储的写入速度和压缩比,实现了便于实时追加的第一压缩方式以及高压缩比的第二压缩方式的结合,能够降低日志写入、存储对系统的IO资源以及存储空间,在不增加系统复杂度的前提下,实现了日志的高写入速度和高压缩比。

Description

基于人工智能的日志文件压缩方法、设备和存储介质
技术领域
本发明实施例涉及但不限于人工智能技术领域,尤其涉及一种基于人工智能的日志文件压缩方法、日志文件压缩装置、计算机设备和计算机可读存储介质。
背景技术
日志是系统运行很重要的一部分,日志集中存储为日志统一管理、统一分析提供了基础。为支持高写入速度要求、节省存储成本,除针对写入速度要求、重要性、保存时长、查看频次选择合适的存储介质外,日志文件的压缩方式也是至关重要的。
通常日志系统都要保证近实时性则实时追加,常用的压缩方式大概可以分为以下两种类型:第一、实时追加写入使用文本格式,当日志轮转时停止写入的文件用gz、7z、zip等方式压缩,其优点是压缩比高,缺点是实时追加没有压缩的文本占用更多的IO、当前正在写入的文件占用更多的存储;第二、采用snappy等便于快速追加的压缩格式,其优点是日志写入占用IO低、速度快,缺点是压缩比低、格式不通用不便于下载查看。
对于日志集中存储系统,存储的日志来源于很多不同的系统。为便于之后查找到对应系统的日志,通常每个来源的日志会写入不同的文件。通常在以星期、天为单位的时间范围内,单个日志来源一直有日志写入,但在小时、分钟为单位的时间内可能没有日志写入。为支持存储更多来源的日志,避免占用太多的文件句柄,通常在一段时间内没有日志追加需要关闭文件句柄;而在重新写入时,又需要能快速的打开文件句柄进行追加。
因此,要求正在写入的文件是便于随时可以打开追加的,这就排除了直接使用gz、7z、zip等高压缩比但不便于快速重新打开追加数据的方式写入,从而只能用文本格式写入或者便于追加字节的压缩方式;而文本写入占用IO高,并且当前正在写入的文件占用更多的存储,而为支持快速写入这部分存储通常性能好、价格较贵;便于追加字节的压缩方式压缩比不高,并且格式不常用,不便于下载查看日志。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本发明实施例提供了一种基于人工智能的日志文件压缩方法、日志文件压缩装置、计算机设备和计算机可读存储介质,能够实现日志的高写入速度和高压缩比。
第一方面,本发明实施例提供了一种基于人工智能的日志文件压缩方法,包括:
获取经过第一压缩方式压缩得到的第一日志压缩文件;
采用与所述第一压缩方式对应的解压缩方式对所述第一日志压缩文件进行解压缩处理,得到日志文件;
采用第二压缩方式对所述日志文件进行压缩处理,得到第二日志压缩文件,并存储所述第二日志压缩文件;其中,所述第一压缩方式的压缩比低于所述第二压缩方式的压缩比,所述第一压缩方式所占用的IO资源少于所述第二压缩方式所占用的IO资源。
在一些实施例中,所述采用与所述第一压缩方式对应的解压缩方式对所述第一日志压缩文件进行解压缩处理,得到日志文件,包括:
从所述第一日志压缩文件中获取多个目标大小的数据块;
采用与所述第一压缩方式对应的解压缩方式对多个所述数据块进行解压缩处理,得到与每个所述数据块一一对应的日志文件。
在一些实施例中,所述采用第二压缩方式对所述日志文件进行压缩处理,得到第二日志压缩文件,并存储所述第二日志压缩文件,包括:
采用第二压缩方式对多个所述日志文件进行压缩处理,得到与多个所述日志文件一一对应的字节信息;
合并所有所述字节信息,得到第二日志压缩文件,并存储所述第二日志压缩文件。
在一些实施例中,在所述采用第二压缩方式对多个所述日志文件进行压缩处理之前,所述日志文件压缩方法还包括:新建与所述第二压缩方式对应的目标类型文件,并在所述目标类型文件中生成文件条目;
对应地,在所述得到多个与所述日志文件一一对应的字节信息之后,所述日志文件压缩方法还包括:将所述字节信息写入至所述文件条目。
在一些实施例中,在所述存储所述第二日志压缩文件之后,所述日志文件压缩方法还包括:
对所述第一日志压缩文件进行删除。
在一些实施例中,对所述第一日志压缩文件进行解压缩处理的解压缩过程以及对所述日志文件进行压缩处理的压缩过程均在内存中执行。
在一些实施例中,所述第一压缩方式的压缩比低于所述第二压缩方式的压缩比,所述第一压缩方式所占用的IO资源少于所述第二压缩方式所占用的IO资源;其中,经过所述第一压缩方式压缩得到的压缩文件的格式包括snappy格式,经过所述第二压缩方式压缩得到的压缩文件的格式包括zip格式、7z格式或者gz格式。
第二方面,本发明实施例还提供了一种日志文件压缩装置,包括:
获取单元,用于获取经过第一压缩方式压缩得到的第一日志压缩文件;
解压缩单元,用于采用与所述第一压缩方式对应的解压缩方式对所述第一日志压缩文件进行解压缩处理,得到日志文件;
压缩单元,用于采用第二压缩方式对所述日志文件进行压缩处理,得到第二日志压缩文件,并存储所述第二日志压缩文件。
第三方面,本发明实施例还提供了一种计算机设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的日志文件压缩方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行如上述第一方面所述的日志文件压缩方法。
本发明实施例包括:首先,获取经过第一压缩方式压缩得到的第一日志压缩文件;然后,采用与所述第一压缩方式对应的解压缩方式对所述第一日志压缩文件进行解压缩处理,得到日志文件;接着,采用第二压缩方式对所述日志文件进行压缩处理,得到第二日志压缩文件,并存储所述第二日志压缩文件;其中,所述第一压缩方式的压缩比低于所述第二压缩方式的压缩比,所述第一压缩方式所占用的IO资源少于所述第二压缩方式所占用的IO资源。根据本发明实施例的技术方案,本发明实施例选择将第一日志压缩文件进行解压缩,得到文本格式的日志文件,接着再采用第二压缩方式对日志文件进行压缩,因此,本发明实施例能够针对日志集中存储的写入速度和压缩比,实现了便于实时追加的第一压缩方式以及高压缩比的第二压缩方式的结合,能够降低日志写入、存储对系统的关键消耗即IO资源以及存储空间,在不增加系统复杂度的前提下,实现了日志的高写入速度和高压缩比。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1是本发明一个实施例提供的两种压缩途径之间的压缩比的对比示意图;
图2是本发明一个实施例提供的用于执行基于人工智能的日志文件压缩方法的系统架构平台的示意图;
图3是本发明一个实施例提供的基于人工智能的日志文件压缩方法的流程图;
图4是本发明一个实施例提供的基于人工智能的日志文件压缩方法的原理图;
图5是本发明另一个实施例提供的基于人工智能的日志文件压缩方法的流程图;
图6是本发明另一个实施例提供的基于人工智能的日志文件压缩方法的流程图;
图7是本发明另一个实施例提供的基于人工智能的日志文件压缩方法的流程图;
图8是本发明另一个实施例提供的基于人工智能的日志文件压缩方法的流程图;
图9是本发明一个实施例提供的基于人工智能的日志文件压缩方法的压缩过程示意图;
图10是本发明一个实施例提供的日志文件压缩装置的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书、权利要求书或上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
在相关技术中,日志是系统运行很重要的一部分,日志集中存储为日志统一管理、统一分析提供了基础。为支持高写入速度要求、节省存储成本,除针对写入速度要求、重要性、保存时长、查看频次选择合适的存储介质外,日志文件的压缩方式也是至关重要的。
通常日志系统都要保证近实时性则实时追加,常用的压缩方式大概可以分为以下两种类型:第一、实时追加写入使用文本格式,当日志轮转时停止写入的文件用gz、7z、zip等方式压缩,其优点是压缩比高,缺点是实时追加没有压缩的文本占用更多的IO、当前正在写入的文件占用更多的存储;第二、采用snappy等便于快速追加的压缩格式,其优点是日志写入占用IO低、速度快,缺点是压缩比低、格式不通用不便于下载查看。
对于日志集中存储系统,存储的日志来源于很多不同的系统。为便于之后查找到对应系统的日志,通常每个来源的日志会写入不同的文件。通常在以星期、天为单位的时间范围内,单个日志来源一直有日志写入,但在小时、分钟为单位的时间内可能没有日志写入。为支持存储更多来源的日志,避免占用太多的文件句柄,通常在一段时间内没有日志追加需要关闭文件句柄;而在重新写入时,又需要能快速的打开文件句柄进行追加。
因此,要求正在写入的文件是便于随时可以打开追加的,这就排除了直接使用gz、7z、zip等高压缩比但不便于快速重新打开追加数据的方式写入,从而只能用文本格式写入或者便于追加字节的压缩方式;而文本写入占用IO高,并且当前正在写入的文件占用更多的存储,而为支持快速写入这部分存储通常性能好、价格较贵;便于追加字节的压缩方式压缩比不高,并且格式不常用,不便于下载查看日志。
如图1所示,图1是本发明一个实施例提供的两种压缩途径之间的压缩比的对比示意图。
示例性地,本发明实施例选用7z作为不便追加的高压缩比压缩方式,选用snappy作为便于追加的低压缩比压缩方式;为应对写入速度峰值、降低存储,正在写入的日志文件存储在高性能的存储上,并且选择snappy压缩方式写入日志文件;而日志文件轮转后,不再写入的文件使用7z压缩存储到廉价的磁盘或网络存储。假定日志源文件为access.log说明本发明实施例的实现细节,如图1所示,可见日志原文经过snappy压缩后,再次使用7z压缩,两次压缩的整体压缩比大概在16左右;而日志原文直接使用7z直接压缩,则压缩比大概在30左右。
基于上述情况,本发明提供了一种基于人工智能的日志文件压缩方法、日志文件压缩装置、计算机设备和计算机可读存储介质,该日志文件压缩方法包括但不限于如下步骤:首先,获取经过第一压缩方式压缩得到的第一日志压缩文件;然后,采用与第一压缩方式对应的解压缩方式对第一日志压缩文件进行解压缩处理,得到日志文件;接着,采用第二压缩方式对日志文件进行压缩处理,得到第二日志压缩文件,并存储第二日志压缩文件;其中,第一压缩方式的压缩比低于第二压缩方式的压缩比,第一压缩方式所占用的IO资源少于第二压缩方式所占用的IO资源。根据本发明实施例的技术方案,本发明实施例选择将第一日志压缩文件进行解压缩,得到文本格式的日志文件,接着再采用第二压缩方式对日志文件进行压缩,因此,本发明实施例能够针对日志集中存储的写入速度和压缩比,实现了便于实时追加的第一压缩方式以及高压缩比的第二压缩方式的结合,能够降低日志写入、存储对系统的关键消耗即IO资源以及存储空间,在不增加系统复杂度的前提下,实现了日志的高写入速度和高压缩比。
下面结合附图,对本发明实施例作进一步阐述。
如图2所示,图2是本发明一个实施例提供的用于执行基于人工智能的日志文件压缩方法的系统架构平台的示意图。
在图2的示例中,该系统架构平台100包括有处理器110和存储器120,其中,处理器110和存储器120可以通过总线或者其他方式连接,图2中以通过总线连接为例。
存储器120作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器120可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器120可选包括相对于处理器110远程设置的存储器,这些远程存储器可以通过网络连接至该系统架构平台。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本领域技术人员可以理解的是,该系统架构平台可以应用于3G通信网络系统、LTE通信网络系统、5G通信网络系统以及后续演进的移动通信网络系统等,本实施例对此并不作具体限定。
本领域技术人员可以理解的是,图2中示出的系统架构平台并不构成对本发明实施例的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
在图2所示的系统架构平台中,处理器110可以调用储存在存储器120中的日志文件压缩程序,从而执行基于人工智能的日志文件压缩方法。
基于上述系统架构平台,下面提出本发明的基于人工智能的日志文件压缩方法的各个实施例。
如图3所示,图3是本发明一个实施例提供的基于人工智能的日志文件压缩方法的流程图;该方法包括但不限于有步骤S100、步骤S200和步骤S300。
步骤S100、获取经过第一压缩方式压缩得到的第一日志压缩文件;
步骤S200、采用与第一压缩方式对应的解压缩方式对第一日志压缩文件进行解压缩处理,得到日志文件;
步骤S300、采用第二压缩方式对日志文件进行压缩处理,得到第二日志压缩文件,并存储第二日志压缩文件;其中,第一压缩方式的压缩比低于第二压缩方式的压缩比,第一压缩方式所占用的IO资源少于第二压缩方式所占用的IO资源。
具体地,为了便于实时追加,往往会采用便于追加的低压缩比的第一压缩方式对原始日志文件进行压缩,从而会得到经过第一压缩方式压缩得到的第一日志压缩文件,如果后续采用不便追加的高压缩比的第二压缩方式直接对第一日志压缩文件进行进一步压缩,因此可以由图1可知,其最终得到的压缩文件的压缩比会相对较低,从而会占用更多的存储空间。
对此,本发明实施例首先会采用与第一压缩方式对应的解压缩方式对第一日志压缩文件进行解压缩,得到文本格式的日志文件,接着再采用第二压缩方式对日志文件进行压缩,由图1可知,这样所得到的第二日志压缩文件的压缩比会相对较高,从而会节省存储空间;另外,本发明实施例能够针对日志集中存储的写入速度和压缩比,实现了便于实时追加的第一压缩方式以及高压缩比的第二压缩方式的结合,能够降低日志写入、存储对系统的关键消耗即IO资源以及存储空间,在不增加系统复杂度的前提下,实现了日志的高写入速度和高压缩比。
需要说明的是,关于上述的第一压缩方式和第二压缩方式,经过第一压缩方式压缩得到的压缩文件的格式包括snappy格式,经过第二压缩方式压缩得到的压缩文件的格式包括zip格式、7z格式或者gz格式。
可以理解的是,关于上述的压缩处理,压缩是一种通过特定的算法来减小计算机文件大小的机制。这种机制是一种很方便的发明,尤其是对网络用户,因为它可以减小文件的字节总数,使文件能够通过较慢的互联网连接实现更快传输,此外还可以减少文件的磁盘占用空间。
另外,可以理解的是,关于上述的解压缩处理,解压缩是压缩的反过程,是将一个通过软件压缩的文档、文件等各种东西恢复到压缩之前的样子。
值得注意的是,对第一日志压缩文件进行解压缩处理的解压缩过程以及对日志文件进行压缩处理的压缩过程均在内存中执行,从而可以避免生成临时文件,浪费磁盘和IO资源。
本发明实施例可以基于人工智能技术对相关的文件进行解压缩处理、压缩处理和存储处理。其中,人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
基于本发明实施例的技术方案,本发明实施例可以通过人工智能方式对文件进行解压缩处理、压缩处理和存储处理。
结合图3和图4所示,其中,图4是本发明一个实施例提供的基于人工智能的日志文件压缩方法的原理图。
示例性地,本发明实施例选用snappy作为便于追加的低压缩比的第一压缩方式,选用7z作为不便追加的高压缩比的第二压缩方式;如图4可知,本发明实施例会选择将snappy格式还原为文本格式再使用7z压缩,即采用与第一压缩方式对应的解压缩方式对access.log.snappy文件进行解压缩,还原为access.log文件,接着再采用第二压缩方式对access.log文件进行压缩,从而得到access.log.7z文件。
另外,如图5所示,图5是本发明另一个实施例提供的基于人工智能的日志文件压缩方法的流程图;关于上述步骤S200中的采用与第一压缩方式对应的解压缩方式对第一日志压缩文件进行解压缩处理,得到日志文件,包括但不限于有步骤S410和步骤S420。
步骤S410、从第一日志压缩文件中获取多个目标大小的数据块;
步骤S420、采用与第一压缩方式对应的解压缩方式对多个数据块进行解压缩处理,得到与每个数据块一一对应的日志文件。
具体地,本发明实施例可以依次从第一日志压缩文件中获取多个目标大小的数据块,示例性地,每次读取4KB大小的数据块;接着,再采用与第一压缩方式对应的解压缩方式依次对多个数据块进行解压缩处理,即解压缩每次读取出来的4KB大小的数据块,得到多个日志文件,其中,多个日志文件和多个数据块一一对应。
另外,如图6所示,图6是本发明另一个实施例提供的基于人工智能的日志文件压缩方法的流程图;关于上述步骤S300中的采用第二压缩方式对日志文件进行压缩处理,得到第二日志压缩文件,并存储第二日志压缩文件,包括但不限于有步骤S510和步骤S530。
步骤S510、采用第二压缩方式对多个日志文件进行压缩处理,得到与多个日志文件一一对应的字节信息;
步骤S530、合并所有字节信息,得到第二日志压缩文件,并存储第二日志压缩文件。
具体地,当本发明实施例解压缩得到多个日志文件之后,接着本发明实施例会采用第二压缩方式依次对多个日志文件进行压缩处理,从而得到多个字节信息,其中,多个字节信息和多个日志文件一一对应;接着本发明实施例会对所有的多个字节信息进行合并,那么就会得到最终的第二日志压缩文件,并对第二日志压缩文件进行存储。
另外,如图7所示,图7是本发明另一个实施例提供的基于人工智能的日志文件压缩方法的流程图;在上述步骤S510中的采用第二压缩方式对多个日志文件进行压缩处理之前,日志文件压缩方法还包括步骤S500;另外,在上述步骤S510中的在得到多个与日志文件一一对应的字节信息之后,日志文件压缩方法还包括步骤S520,具体如下:
步骤S500、新建与第二压缩方式对应的目标类型文件,并在目标类型文件中生成文件条目;
步骤S510、采用第二压缩方式对多个日志文件进行压缩处理,得到与多个日志文件一一对应的字节信息;
步骤S520、将字节信息写入至文件条目;
步骤S530、合并所有字节信息,得到第二日志压缩文件,并存储第二日志压缩文件。
具体地,本发明实施例会新建与第二压缩方式对应的目标类型文件,示例性地,若第二压缩方式为7z格式压缩方式,那么,对应的目标类型文件的格式就是7z;接着,在目标类型文件中生成文件条目;接着,再将上述压缩得到的字节信息写入至文件条目中;最后,本发明实施例会对所有的多个字节信息进行合并,那么就会得到最终的第二日志压缩文件,并对第二日志压缩文件进行存储。
另外,如图8所示,图8是本发明另一个实施例提供的基于人工智能的日志文件压缩方法的流程图;在上述步骤S300之后,本发明实施例的日志文件压缩方法还包括但不限于有步骤S600。
步骤S600、对第一日志压缩文件进行删除。
具体地,当完成得到最终的第二日志压缩文件之后,本发明实施例还会删除第一日志压缩文件,从而节省存储资源。
基于上述基于人工智能的日志文件压缩方法,下面分别提出本发明的基于人工智能的日志文件压缩方法的整体示意图。
如图9所示,图9是本发明一个实施例提供的基于人工智能的日志文件压缩方法的压缩过程示意图。
具体地,本发明实施例的日志文件压缩方法的压缩过程具体如下:
为避免生成临时文件,浪费磁盘和IO资源,还原过程在内存中进行。具体地,将snappy格式文件转为7z格式文件,通过以下步骤实现:第一、新建access.log.7z文件,生成access.log文件条目;第二、使用snappy解压缩方式读取4kb数据块,读取到文件结尾;第三、解压缩后的字节写入access.log文件条目;第四、关闭access.log.7z文件流;第五、删除access.log.snappy。
根据本发明实施例的技术方案,本发明实施例的技术方案针对日志集中存储的两大关键点即写入速度和压缩比,巧妙的将便于实时追加的压缩方式、高压缩比压缩方式结合。将日志写入、存储对系统的关键消耗即IO、存储都降低了。不增加系统复杂度的前提下,实现了日志高写入速度、高压缩比。
在实现了以上目标的同时,本发明实施例的技术方案还考虑日志的使用,最终日志存储采用常用的压缩方式存储,便于此后用户下载并查看日志。实施的成本可以忽略,但是节省的成本是客观的,另外也使得系统更容易应对海量的日志写入、存储要求。
基于上述基于人工智能的日志文件压缩方法,下面分别提出本发明的日志文件压缩装置、计算机设备和计算机可读存储介质的各个实施例。
如图10所示,图10是本发明一个实施例提供的日志文件压缩装置的示意图。本发明实施例的日志文件压缩装置200包括但不限于获取单元210、解压缩单元220和压缩单元230。
具体地,获取单元210用于获取经过第一压缩方式压缩得到的第一日志压缩文件;解压缩单元220用于采用与第一压缩方式对应的解压缩方式对第一日志压缩文件进行解压缩处理,得到日志文件;压缩单元230用于采用第二压缩方式对日志文件进行压缩处理,得到第二日志压缩文件,并存储第二日志压缩文件。
值得注意的是,本发明实施例的日志文件压缩装置的具体实施方式及对应的技术效果,可对应参照上述基于人工智能的日志文件压缩方法的具体实施方式及对应的技术效果。
另外,本发明的一个实施例还提供了一种计算机设备,该计算机设备包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序。
处理器和存储器可以通过总线或者其他方式连接。
需要说明的是,本实施例中的计算机设备,可以应用于如图2所示实施例中的系统架构平台,本实施例中的计算机设备,能够构成图2所示实施例中的系统架构平台的一部分,两者属于相同的发明构思,因此两者具有相同的实现原理以及有益效果,此处不再详述。
实现上述实施例的基于人工智能的日志文件压缩方法所需的非暂态软件程序以及指令存储在存储器中,当被处理器执行时,执行上述实施例的基于人工智能的日志文件压缩方法,例如,执行以上描述的图3和图5至图8中的方法步骤。
此外,本发明的一个实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,计算机可执行指令用于执行上述的基于人工智能的日志文件压缩方法。例如,被上述日志文件压缩装置的一个处理器执行,可使得上述处理器执行上述实施例中的基于人工智能的日志文件压缩方法,例如,执行以上描述的图3和图5至图8中的方法步骤。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包括计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
以上是对本发明的较佳实施进行了具体说明,但本发明并不局限于上述实施方式,熟悉本领域的技术人员在不违背本发明精神的共享条件下还可作出种种等同的变形或替换,这些等同的变形或替换均包括在本发明权利要求所限定的范围内。

Claims (10)

1.一种基于人工智能的日志文件压缩方法,其特征在于,包括:
获取经过第一压缩方式压缩得到的第一日志压缩文件;
采用与所述第一压缩方式对应的解压缩方式对所述第一日志压缩文件进行解压缩处理,得到日志文件;
采用第二压缩方式对所述日志文件进行压缩处理,得到第二日志压缩文件,并存储所述第二日志压缩文件;其中,所述第一压缩方式的压缩比低于所述第二压缩方式的压缩比,所述第一压缩方式所占用的IO资源少于所述第二压缩方式所占用的IO资源。
2.根据权利要求1所述的日志文件压缩方法,其特征在于,所述采用与所述第一压缩方式对应的解压缩方式对所述第一日志压缩文件进行解压缩处理,得到日志文件,包括:
从所述第一日志压缩文件中获取多个目标大小的数据块;
采用与所述第一压缩方式对应的解压缩方式对多个所述数据块进行解压缩处理,得到与每个所述数据块一一对应的日志文件。
3.根据权利要求2所述的日志文件压缩方法,其特征在于,所述采用第二压缩方式对所述日志文件进行压缩处理,得到第二日志压缩文件,并存储所述第二日志压缩文件,包括:
采用第二压缩方式对多个所述日志文件进行压缩处理,得到与多个所述日志文件一一对应的字节信息;
合并所有所述字节信息,得到第二日志压缩文件,并存储所述第二日志压缩文件。
4.根据权利要求3所述的日志文件压缩方法,其特征在于,在所述采用第二压缩方式对多个所述日志文件进行压缩处理之前,所述日志文件压缩方法还包括:新建与所述第二压缩方式对应的目标类型文件,并在所述目标类型文件中生成文件条目;
对应地,在所述得到多个与所述日志文件一一对应的字节信息之后,所述日志文件压缩方法还包括:将所述字节信息写入至所述文件条目。
5.根据权利要求1所述的日志文件压缩方法,其特征在于,在所述存储所述第二日志压缩文件之后,所述日志文件压缩方法还包括:
对所述第一日志压缩文件进行删除。
6.根据权利要求1至5中任意一项所述的日志文件压缩方法,其特征在于,对所述第一日志压缩文件进行解压缩处理的解压缩过程以及对所述日志文件进行压缩处理的压缩过程均在内存中执行。
7.根据权利要求1至5中任意一项所述的日志文件压缩方法,其特征在于,经过所述第一压缩方式压缩得到的压缩文件的格式包括snappy格式,经过所述第二压缩方式压缩得到的压缩文件的格式包括zip格式、7z格式或者gz格式。
8.一种日志文件压缩装置,其特征在于,包括:
获取单元,用于获取经过第一压缩方式压缩得到的第一日志压缩文件;
解压缩单元,用于采用与所述第一压缩方式对应的解压缩方式对所述第一日志压缩文件进行解压缩处理,得到日志文件;
压缩单元,用于采用第二压缩方式对所述日志文件进行压缩处理,得到第二日志压缩文件,并存储所述第二日志压缩文件。
9.一种计算机设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的日志文件压缩方法。
10.一种计算机可读存储介质,其特征在于,存储有计算机可执行指令,所述计算机可执行指令用于执行如权利要求1至7中任意一项所述的日志文件压缩方法。
CN202111275665.XA 2021-10-29 2021-10-29 基于人工智能的日志文件压缩方法、设备和存储介质 Pending CN113961530A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111275665.XA CN113961530A (zh) 2021-10-29 2021-10-29 基于人工智能的日志文件压缩方法、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111275665.XA CN113961530A (zh) 2021-10-29 2021-10-29 基于人工智能的日志文件压缩方法、设备和存储介质

Publications (1)

Publication Number Publication Date
CN113961530A true CN113961530A (zh) 2022-01-21

Family

ID=79468588

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111275665.XA Pending CN113961530A (zh) 2021-10-29 2021-10-29 基于人工智能的日志文件压缩方法、设备和存储介质

Country Status (1)

Country Link
CN (1) CN113961530A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115174368A (zh) * 2022-06-30 2022-10-11 南斗六星系统集成有限公司 一种车联网终端设备日志生成、获取方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115174368A (zh) * 2022-06-30 2022-10-11 南斗六星系统集成有限公司 一种车联网终端设备日志生成、获取方法及系统
CN115174368B (zh) * 2022-06-30 2024-04-02 南斗六星系统集成有限公司 一种车联网终端设备日志生成、获取方法及系统

Similar Documents

Publication Publication Date Title
US9477682B1 (en) Parallel compression of data chunks of a shared data object using a log-structured file system
KR102596644B1 (ko) 메모리 대역폭 활용을 감소시키기 위해 활성화 데이터의 압축 및 압축 해제를 사용하는 신경망 프로세서
US7937371B2 (en) Ordering compression and deduplication of data
CN106570018B (zh) 序列化与反序列化的方法、装置、系统以及电子设备
US20110167173A1 (en) Optimal Compression Process Selection Methods
US10972569B2 (en) Apparatus, method, and computer program product for heterogenous compression of data streams
CN108615074B (zh) 基于压缩感知的神经网络处理系统及方法
CN104753540A (zh) 数据压缩方法、数据解压方法和装置
US20180041224A1 (en) Data value suffix bit level compression
CN113961530A (zh) 基于人工智能的日志文件压缩方法、设备和存储介质
CN110310361B (zh) 建筑模型实时传输方法、存储介质、设备及系统
CN104572964A (zh) 一种压缩文件的解压方法和装置
JP2010061518A (ja) データ保存装置及びデータ保存方法並びにプログラム
US8686881B1 (en) Efficient estimation of data compression ratios
CN105704215B (zh) 文件共享系统及相应的文件发送方法及装置
CN112491421A (zh) 日志文件压缩包的解析方法、装置、设备及介质
CN111767417A (zh) 应用图片的管理方法、装置、设备及存储介质
CN115407936A (zh) 一种数据集处理方法、系统、终端及计算机可读存储介质
CN116418348A (zh) 一种数据压缩方法、装置、设备及存储介质
CN116561202A (zh) 一种对象序列化处理的方法和装置
US9160820B2 (en) Large volume data transfer
CN112286974A (zh) Apk压缩存储、还原和检索方法及相关设备
CN112181221A (zh) 图像处理方法及装置、计算机可读介质及电子设备
US10168909B1 (en) Compression hardware acceleration
CN112988530B (zh) 一种用户数据处理方法、装置、存储介质及用户终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination