CN111444155B - 日志文本的处理方法、装置、电子设备及计算机存储介质 - Google Patents

日志文本的处理方法、装置、电子设备及计算机存储介质 Download PDF

Info

Publication number
CN111444155B
CN111444155B CN202010292943.1A CN202010292943A CN111444155B CN 111444155 B CN111444155 B CN 111444155B CN 202010292943 A CN202010292943 A CN 202010292943A CN 111444155 B CN111444155 B CN 111444155B
Authority
CN
China
Prior art keywords
log text
text
original
compressed
index structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010292943.1A
Other languages
English (en)
Other versions
CN111444155A (zh
Inventor
文梦蝶
刘敏
杜冰玉
杜昕
段星辰
李荣荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN202010292943.1A priority Critical patent/CN111444155B/zh
Publication of CN111444155A publication Critical patent/CN111444155A/zh
Application granted granted Critical
Publication of CN111444155B publication Critical patent/CN111444155B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提供了一种日志文本的处理方法、装置、电子设备及计算机存储介质,该方法包括:监听系统是否生成原始日志文本;若监听到所述系统生成原始日志文本,则获取所述原始日志文本,并按照预设的压缩算法将所述原始日志文本转换为压缩日志文本;其中,所述压缩日志文本包括多个字符串;构造所述压缩日志文本的索引结构,得到具有索引结构的目标日志文本;对所述目标日志文本进行归档处理。

Description

日志文本的处理方法、装置、电子设备及计算机存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及到一种日志文本的处理方法、装置、电子设备及计算机存储介质。
背景技术
随着互联网科技的高速发展,互联网成了当下热门领域。当企业或用户频繁使用互联网技术时,大量的日志数据也随着产生;面对海量的日志数据,兼顾高效的搜索和归档的处理日志能力显得尤为重要。
然现阶段,市面上存在的日志处理系统处理能力单一,或仅支持索引功能,或仅支持对日志数据进行压缩归档,无法做到二者兼顾。
发明内容
有鉴于此,本申请提供了一种日志文本的处理方法、装置、电子设备及计算机存储介质,以向用户提供一种兼顾日志文本压缩归档及快速索引的服务。
为实现上述目的,本申请提供如下技术方案:
本申请第一方面提供了一种日志文本的处理方法,包括:
监听系统是否生成原始日志文本;
若监听到所述系统生成原始日志文本,则获取所述原始日志文本,并按照预设的压缩算法将所述原始日志文本转换为压缩日志文本;其中,所述压缩日志文本包括多个字符串;
构造所述压缩日志文本的索引结构,得到具有索引结构的目标日志文本;
对所述目标日志文本进行归档处理。
可选的,所述监听系统是否生成原始日志文本,包括:
按照预设的时间间隔监听所述系统是否产生原始日志文本。
可选的,所述按照预设的压缩算法将所述原始日志文本转换为压缩日志文本,包括:
利用块压缩算法BWT获取所述原始日志文本的转换模式;其中,所述转换模式包括重复模式;
根据所述转换模式将所述原始日志文本转换为所述压缩日志文本。
可选的,所述构造所述压缩日志文本的索引结构,得到具有索引结构的目标日志文本,包括:
对所述压缩日志文本的多个字符串分别设置对应的编码,得到每一个所述字符串和对应的编码的对应关系;
按照所述编码的顺序对所述多个字符串进行排序,得到具有索引结构的目标日志文本。
可选的,所述对目标日志文本进行归档处理之后,还包括:
当接收到对日志文本的索引指令时,确定所述索引指令携带的编码信息;
依据所述编码信息查询得到所述编码信息对应的字符串;
按照预设的逆映射方法,将所述字符串逆映射为所述原始日志文本中与所述字符串对应的子文本。
本申请第二方面提供了一种日志文本的处理装置,包括:
监听单元,用于监听系统是否生成原始日志文本;
转换单元,用于若监听到所述系统生成原始日志文本,则获取所述原始日志文本,并按照预设的压缩算法将所述原始日志文本转换为压缩日志文本;其中,所述压缩日志文本包括多个字符串;
构造单元,用于构造所述压缩日志文本的索引结构,得到具有索引结构的目标日志文本;
归档单元,用于对所述目标日志文本进行归档处理。
可选的,所述监听单元,包括:
监听子单元,用于按照预设的时间间隔监听所述系统是否产生原始日志文本。
可选的,所述转换单元,包括:
获取子单元,用于利用块压缩算法BWT获取所述原始日志文本的转换模式;其中,所述转换模式包括重复模式;
转换子单元,用于根据所述转换模式将所述原始日志文本转换为所述压缩日志文本。
可选的,所述构造单元,包括:
设置子单元,用于对所述压缩日志文本的多个字符串分别设置对应的编码,得到每一个所述字符串和对应的编码的对应关系;
排序子单元,用于按照所述编码的顺序对所述多个字符串进行排序,得到具有索引结构的目标日志文本。
可选的,还包括:
确定单元,用于当接收到对日志文本的索引指令时,确定所述索引指令携带的编码信息;
查询单元,用于依据所述编码信息查询得到所述编码信息对应的字符串;
逆映射单元,用于按照预设的逆映射方法,将所述字符串逆映射为所述原始日志文本中与所述字符串对应的子文本。
本申请第三方面提供了一种电子设备,包括处理器和存储器;其中:
所述存储器用于存储计算机指令;
所述处理器用于执行所述存储器存储的计算机指令,具体执行如上述任意一项提供日志文本的处理方法。
本申请第四方面提供了一种计算机存储介质,用于存储程序,所述程序被执行时,用于实现如上述的任意一项提供的日志文本的处理方法。
与现有技术相比,本申请具有以下优点:
本申请实施例提供的一种日志文本的处理方法中,监听系统是否生成原始日志文本;若监听到所述系统生成原始日志文本,则获取所述原始日志文本,并按照预设的压缩算法将所述原始日志文本转换为压缩日志文本;其中,所述压缩日志文本包括多个字符串;进而构造所述压缩日志文本的索引结构,得到具有索引结构的目标日志文本;最终,对所述目标日志文本进行归档处理。由此可见,应用本申请实施例提供的处理方法,能够基于原始日志文本构造出具备索引功能的压缩日志文本并进行归档,在归档之后,亦能根据构造的索引结构向用户提供对日志文本的索引功能,兼顾了对日志文本的高效的搜索和归档的能力,提升了业务效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种日志文本的处理方法的方法流程图;
图2为本发明另一实施例提供的一种步骤S102的实现方法的方法流程图;
图3为本发明另一实施例提供一种步骤S103的实现方法的方法流程图;
图4为本发明另一实施例提供的一种索引方法的方法流程图;
图5为本发明实施例提供的一种日志文本的处理装置的结构示意图;
图6为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
需要说明的是,发明人在对现有技术的研究中发现,随着互联网应用的普及,用户在网络上所花费的时间越来越长,浏览新闻资讯,刷微博,写博客亦或进行商品交易,都使得系统每时每刻产生大量GB级甚至更庞大的行为日志数据。面对海量的日志数据,需要一种良好的处理方式,以兼顾对日志文本的高效搜索和归档能力。
有鉴于此,本申请实施例提供了一种日志文本的处理方法,请参照图1所示,包括:
S101、监听系统是否生成原始日志文本。
本申请实施例中,原始日志文本是记录系统操作事件的记录文件或文件集合,可以涵盖事件日志和消息日志。顾名思义,系统生成的原始日志文本就是将系统内部的信息、警告、错误、调试等信息记录在服务器上的系统文本文件上的一种归档日志。任意一个系统在正常工况下,对相关任务的运行都自动保存有相应的原始日志文本。
例如:某系统在服务器上记录的,有关用户对APP的操作指令或操作信息亦是一种原始日志文本。
可选的,利用监听器监按照预设的时间间隔监听系统是否生成原始日志文本。例如:按照预设的每10分钟监听一次系统的时间间隔,以得到每10分钟区间内系统在服务器上记录的原始日志文本。需要提及的是,采用预设的时间间隔进行监听,有利于将系统生成的大量GB级甚至TB级的原始日志文本,归档为多个时间区间内的原始日志文本,以降低单次任务的数据量,降低业务的操作难度。
还需要说明的是,用于监听系统是否生成原始日志文本的预设的时间间隔,可根据系统对原始日志文本信息的过往记录或企业产品的特性,自行制定自适应、可伸缩的分时策略。
承接上文,若监听到系统生成原始日志文本,则执行步骤S102、获取原始日志文本,并按照预设的压缩算法将原始日志文本转换为压缩日志文本;其中,所述压缩日志文本包括多个字符串。其中,压缩日志文本包括多个字符串。
本申请实施例中,获取原始日志文本的方式,可通过实时读取系统在服务器的特定存储区域记录的日志数据得到。在接收到原始日志文本后,可以对原始日志文本进行预处理,去除一些长时间的空白反馈,以更好的采取预设的压缩算法将原始日志文本转换为压缩日志文本。
可选的,块压缩算法(Burrows-Wheeler Transform,BWT)能够很好的运用在数据压缩中,在本申请实施例中,采用BWT变换将原始日志文本转换为压缩日志文本的方式可参照图2所示,包括:
S201、利用块压缩算法BWT获取原始日志文本的转换模式。
其中,所述转换模式包括重复模式。
还需要说明的是,压缩技术主要的工作方式就是找到重复的模式,以便于在后续中进行紧密的编码压缩。在一个字符串采用BWT转换时,BWT变换只改变这个字符串中的字符的顺序,而并不改变其字符。如果原字符串有几个出现多次的子串,那么转换过的字符串上就会有一些连续重复的字符,即本步骤中所提及的重复模式。重复模式对压缩的作用是显而易见的,其能使得基于处理字符串中连续重复字符的技术的编码方式,更容易被压缩。换言之,重复模式可以看做是因为将原始字符变换为一些连续重复的字符,更多的重复字符使得原始日志文本更容易被压缩。
S202、根据转换模式将原始日志文本转换为压缩日志文本。
本申请实施例中,根据原始日志文本中的字符串,可以把第一个字符串移到末尾,形成新的字符串,重复至全部排一遍。然后按首字母进行排序;字符串的末尾字母组成新的字符串,即压缩得到的字符串;这些压缩得到的字符串的多个集合即为本申请实施例中的压缩日志文本。
还需要说明的是,压缩日志文本相较于原始日志文本的数据量大小只有40%左右,与原始日志文本相比,压缩日志文本占用的存储空间上较小,方便归档存储。并且,由于采用BWT变换得到的压缩日志文本具有逆映射的特点,在后续中还可以根据逆映射手段将压缩日志文本恢复成原始日志文本,因此,压缩日志文本还可以实现抛弃原文的高效索引查询。
S103、构造压缩日志文本的索引结构,得到具有索引结构的目标日志文本。
需要说明的是,由于在采用BWT变换时,会让文本出现连续的重复的字符,因此经过BWT变换之后的文本具有更好的可压缩性和编码性。在此基础上,本申请实施例可以采取如FM-Index或Lempel-Ziv等压缩索引,完成压缩日志文本的索引结构的构造,以得到具有索引结构的目标日志文本。
可选的,在本申请另一实施例中,构造压缩日志文本的索引结构的方式,可参照图3所示,包括:
S301、对压缩日志文本的多个字符串分别设置对应的编码,得到每一个所述字符串和对应的编码的对应关系。
在本申请实施例中,原始日志文本经BWT变换后得到了若干个具有“重复模式”特征的字符串,通过对每一个字符串,采用特定的构造编码进行编码的设置,以得到每个字符串与编码对应关系。并且在设置成功后,通过查询编码的方式能够定位到字符串的所在的存储位置。
例如:原始日志文本中有一个字符串“banana”,经BWT变换后得到新的字符串为“aaannb”,在构造编码与字符串的对应关系、设置字符串与编码的对应关系式,或可以得到“01aaannb”或“01aaa”的如此一般的新的具备编码索引功能的字符串。以此类推,对多个字符串分别设置每个字符串对应的编码信息,诸如01、02、03……等编码。当然,本申请实施例中,并不对编码的形式作出限定,任何一种编码的方式,都属于本申请的保护范围之中。
S302、按照编码的顺序对多个字符串进行排序,得到具有索引结构的目标日志文本。
需要明确的是,目标日志文本为最终需要归档处理的日志文本,有鉴于现有的方案中或仅仅压缩归档而无法索引,或直接原文归档不进行压缩(数据量过大),因此本申请中构造了一种具备索引功能的压缩日志文本,即上述中的目标日志文本。
在将所有的字符串均赋予编码后,根据编码顺序对字符串进行排序,便得到了具有索引结构的目标日志文本。
S104、对目标日志文本进行归档处理。
本申请实施例中,最终将具有索引结构的目标日志文本进行归档处理。然而还需要明确的是,本申请着重笔墨将原始日志文本变换成具有索引结构的目标日志文本进行归档的原因,并不是仅仅为了减小数据量的大小,更重要的是为了能够在归档后,能够提供一种对日志文本的高效的索引功能,以兼顾高效的搜索和归档的处理日志能力。
本申请实施例提供的一种日志文本的处理方法中,监听系统是否生成原始日志文本;若监听到所述系统生成原始日志文本,则获取所述原始日志文本,并按照预设的压缩算法将所述原始日志文本转换为压缩日志文本;其中,所述压缩日志文本包括多个字符串;进而构造所述压缩日志文本的索引结构,得到具有索引结构的目标日志文本;最终,对所述目标日志文本进行归档处理。由此可见,应用本申请实施例提供的处理方法,能够基于原始日志文本构造出具备索引功能的压缩日志文本并进行归档,在归档之后,亦能根据构造的索引结构向用户提供对日志文本的索引功能,兼顾了对日志文本的高效的搜索和归档的能力,提升了业务效率。
可选的,在本申请另一实施例中,在目标日志文本归档之后,还提供了一种快速索引的方式,请参照图4所示,包括:
S401、当接收到对日志文本的索引指令时,确定所述索引指令携带的编码信息。
本申请实施例中,编码信息建立在构造索引结构的目标日志文本的基础上。当接收到用户对日志文本的索引指令,该指令可能是全文检索,也可能是部分内容检索,通过确定所有指令中携带的编码信息来确定用户需要索引的内容涵盖面。例如:当系统的某个数据报错时,用户需要索引得到该数据相应的日志文本,以作比对分析。此时,根据预先建立好的具备索引结构的目标日志文本,用户通过索引该数据对应的编码,辅于时间区间上定位,便能从庞大的日志文本中索引得到用户想要的文本数据。
S402、依据编码信息查询得到编码信息对应的字符串。
字符串与编码间自有预先设置的对应关系,此处不再赘述。
S403、按照预设的逆映射方法,将字符串逆映射为原始日志文本中与所述字符串对应的子文本。
本申请实施例中,基于BWT变换的可逆性的优点,在需要反馈原始文本日志时,通过预设的逆映射方法进行逆变换。可选的,采用LF-映射对字符串进行逆映射,从而实现将压缩的字符串恢复为原来的文本格式,即上述原始日志文本中与所述字符串对应的子文本。
在得到子文本后,向用户反馈该子文本,以完成索引的基本流程。由此可见,基于预先设置的字符串与编码的对应关系,采用LF-映射做字符串到原始文本格式的转换,本申请能够高效而准确的向用户提供一种对日志文本的索引功能,解决了现有技术中二者不可兼顾的痛点,提升了业务效率。
本申请另一实施例还提供了一种日志文本的处理装置,请参照图5所示,包括:
监听单元501,用于监听系统是否生成原始日志文本。
转换单元502,用于若监听到系统生成原始日志文本,则获取原始日志文本,并按照预设的压缩算法将原始日志文本转换为压缩日志文本;其中,压缩日志文本包括多个字符串。
构造单元503,用于构造压缩日志文本的索引结构,得到具有索引结构的目标日志文本。
归档单元504,用于对目标日志文本进行归档处理。
本申请实施例提供的日志文本的处理装置中,监听单元501监听系统是否生成原始日志文本,转换单元502在监听单元501监听到系统生成原始日志文本是,获取原始日志文本,并按照预设的压缩算法将原始日志文本转换为压缩日志文本;其中,压缩日志文本包括多个字符串。构造单元503构造压缩日志文本的索引结构,得到具有索引结构的目标日志文本,归档单元504最终对目标日志文本进行归档处理。基于此,本申请不仅能构造出具备索引功能的压缩日志文本并进行归档,还能基于索引功能向用户提供对日志文本的索引功能,兼顾了对日志文本的高效的搜索和归档的能力,解决了现有技术痛点,并提升了业务效率。
本实施例中,监听单元501、转换单元502、构造单元503及归档单元504的具体执行过程,可参见对应图1的方法实施例内容,此处不再赘述。
可选的,本申请的另一实施例中,监听单元501,包括:
监听子单元,用于按照预设的时间间隔监听系统是否产生原始日志文本。
可选的,本申请的另一实施例中,转换单元502,包括:
获取子单元,用于利用块压缩算法BWT获取原始日志文本的转换模式;其中,转换模式包括重复模式。
转换子单元,用于根据转换模式将原始日志文本转换为压缩日志文本。
本实施例中,获取子单元及转换子单元的具体执行过程,可参见对应图2的方法实施例内容,此处不再赘述。
可选的,本申请另一实施例中,构造单元503,包括:
设置子单元,用于对压缩日志文本的多个字符串分别设置对应的编码,得到每一个字符串和对应的编码的对应关系。
排序子单元,用于按照编码的顺序对多个字符串进行排序,得到具有索引结构的目标日志文本。
本实施例中,设置子单元及排序子单元的具体执行过程,可参见对应图3的方法实施例内容,此处不再赘述。
可选的,本申请另一实施例中,还包括:
确定单元,用于当接收到对日志文本的索引指令时,确定索引指令携带的编码信息。
查询单元,用于依据编码信息查询得到编码信息对应的字符串。
逆映射单元,用于按照预设的逆映射方法,将字符串逆映射为原始日志文本中与字符串对应的子文本。
本实施例中,确定单元、查询单元及逆映射单元的具体执行过程,可参见对应图4的方法实施例内容,此处不再赘述。
本申请另一实施例还提供了一种电子设备,如图6所示,包括处理器601和存储器602;其中:
存储器602用于存储计算机指令。
处理器601用于执行存储器存储的计算机指令,具体执行如上述任意一个实施例提供的日志文本的处理方法。
本申请另一实施例还提供了一种计算机存储介质,用于存储程序,程序被执行时,用于实现如上述的任意一个实施例提供的日志文本的处理方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
需要注意的是,本说明书中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (4)

1.一种日志文本的处理方法,其特征在于,包括:
监听系统是否生成原始日志文本;
若监听到所述系统生成原始日志文本,则获取所述原始日志文本,去除所述原始日志文本中长时间的空白反馈,并按照预设的压缩算法将去除空白反馈的所述原始日志文本转换为压缩日志文本;其中,所述压缩日志文本包括多个字符串;
构造所述压缩日志文本的索引结构,得到具有索引结构的目标日志文本;其中,采用压缩索引构造所述压缩日志文本的索引结构;
对所述目标日志文本进行归档处理,以在归档后能够实现对日志文本的索引;
其中,所述按照预设的压缩算法将所述原始日志文本转换为压缩日志文本,包括:
利用块压缩算法BWT获取所述原始日志文本的转换模式;其中,所述转换模式包括重复模式;
根据所述转换模式将所述原始日志文本转换为所述压缩日志文本;
其中,所述监听系统是否生成原始日志文本,包括:
按照预设的时间间隔监听所述系统是否产生原始日志文本;其中,根据原始日志文本的历史记录或企业产品的特性,设置所述时间间隔;
其中,所述构造所述压缩日志文本的索引结构,得到具有索引结构的目标日志文本,包括:
对所述压缩日志文本的多个字符串分别设置对应的编码,得到每一个所述字符串和对应的编码的对应关系;
按照所述编码的顺序对所述多个字符串进行排序,得到具有索引结构的目标日志文本;
其中,所述对所述目标日志文本进行归档处理之后,还包括:
当接收到对日志文本的索引指令时,确定所述索引指令携带的编码信息;
依据所述编码信息查询得到所述编码信息对应的字符串;其中,根据预先建立的具备索引结构的目标日志文本,通过索引所述编码信息,结合时间区间上定位,得到所述编码信息对应的字符串;
按照预设的逆映射方法,将所述字符串逆映射为所述原始日志文本中与所述字符串对应的子文本。
2.一种日志文本的处理装置,其特征在于,包括:
监听单元,用于监听系统是否生成原始日志文本;
转换单元,用于若监听到所述系统生成原始日志文本,则获取所述原始日志文本,去除所述原始日志文本中长时间的空白反馈,并按照预设的压缩算法将去除空白反馈的所述原始日志文本转换为压缩日志文本;其中,所述压缩日志文本包括多个字符串;
构造单元,用于构造所述压缩日志文本的索引结构,得到具有索引结构的目标日志文本;其中,采用压缩索引构造所述压缩日志文本的索引结构;
归档单元,用于对所述目标日志文本进行归档处理,以在归档后能够实现对日志文本的索引;
其中,所述转换单元,包括:
获取子单元,用于利用块压缩算法BWT获取所述原始日志文本的转换模式;其中,所述转换模式包括重复模式;
转换子单元,用于根据所述转换模式将所述原始日志文本转换为所述压缩日志文本;
其中,所述监听单元,包括:
监听子单元,用于按照预设的时间间隔监听所述系统是否产生原始日志文本;其中,根据原始日志文本的历史记录或企业产品的特性,设置所述时间间隔;
其中,所述构造所述压缩日志文本的索引结构,得到具有索引结构的目标日志文本,包括:
对所述压缩日志文本的多个字符串分别设置对应的编码,得到每一个所述字符串和对应的编码的对应关系;
按照所述编码的顺序对所述多个字符串进行排序,得到具有索引结构的目标日志文本;
其中,所述对所述目标日志文本进行归档处理之后,还包括:
当接收到对日志文本的索引指令时,确定所述索引指令携带的编码信息;
依据所述编码信息查询得到所述编码信息对应的字符串;其中,根据预先建立的具备索引结构的目标日志文本,通过索引所述编码信息,结合时间区间上定位,得到所述编码信息对应的字符串;
按照预设的逆映射方法,将所述字符串逆映射为所述原始日志文本中与所述字符串对应的子文本。
3.一种电子设备,其特征在于,包括处理器和存储器;其中:
所述存储器用于存储计算机指令;
所述处理器用于执行所述存储器存储的计算机指令,具体执行如权利要求1所述的日志文本的处理方法。
4.一种计算机存储介质,其特征在于,用于存储程序,所述程序被执行时,用于实现如权利要求1所述的日志文本的处理方法。
CN202010292943.1A 2020-04-15 2020-04-15 日志文本的处理方法、装置、电子设备及计算机存储介质 Active CN111444155B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010292943.1A CN111444155B (zh) 2020-04-15 2020-04-15 日志文本的处理方法、装置、电子设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010292943.1A CN111444155B (zh) 2020-04-15 2020-04-15 日志文本的处理方法、装置、电子设备及计算机存储介质

Publications (2)

Publication Number Publication Date
CN111444155A CN111444155A (zh) 2020-07-24
CN111444155B true CN111444155B (zh) 2024-02-02

Family

ID=71651853

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010292943.1A Active CN111444155B (zh) 2020-04-15 2020-04-15 日志文本的处理方法、装置、电子设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN111444155B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051222A (zh) * 2020-12-30 2021-06-29 北京明朝万达科技股份有限公司 日志存储方法、装置、计算机可读存储介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101937448A (zh) * 2009-06-28 2011-01-05 Sap股份公司 用于主存储器列存储装置的基于字典的保持顺序的串压缩
CN107870842A (zh) * 2016-09-28 2018-04-03 平安科技(深圳)有限公司 一种日志管理方法及系统
CN109101504A (zh) * 2017-06-20 2018-12-28 恒为科技(上海)股份有限公司 一种高效的日志压缩和索引方法
CN110442844A (zh) * 2019-07-03 2019-11-12 北京达佳互联信息技术有限公司 数据处理方法、装置、电子设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001357048A (ja) * 2000-06-13 2001-12-26 Hitachi Ltd ブロックソート圧縮データの検索方法、および検索に適したブロックソート圧縮法の符号化方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101937448A (zh) * 2009-06-28 2011-01-05 Sap股份公司 用于主存储器列存储装置的基于字典的保持顺序的串压缩
CN107870842A (zh) * 2016-09-28 2018-04-03 平安科技(深圳)有限公司 一种日志管理方法及系统
CN109101504A (zh) * 2017-06-20 2018-12-28 恒为科技(上海)股份有限公司 一种高效的日志压缩和索引方法
CN110442844A (zh) * 2019-07-03 2019-11-12 北京达佳互联信息技术有限公司 数据处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111444155A (zh) 2020-07-24

Similar Documents

Publication Publication Date Title
EP2732377B1 (en) Optimizing data processing using dynamic schemas
US8516112B2 (en) Performance monitoring of a computer resource
US9798732B2 (en) Semantic associations in data
JP5525410B2 (ja) 操作ログ格納システム、装置、およびプログラム
Augeri et al. An analysis of XML compression efficiency
CN110058969B (zh) 一种数据恢复方法及装置
CN103608783A (zh) 用于备份应用的存储体系结构
CN109344193B (zh) 一种将结构化数据转化为非结构化数据的方法及系统
CN111563053B (zh) 处理Bitmap数据的方法以及装置
CN102682017B (zh) 一种信息检索方法和系统
WO2021068891A1 (en) Method, system, electronic device, and storage medium for storing and collecting temperature data
CN111444155B (zh) 日志文本的处理方法、装置、电子设备及计算机存储介质
CN110851409A (zh) 一种日志压缩、解压缩方法、设备及存储介质
CN115203159A (zh) 一种数据存储方法、装置、计算机设备和存储介质
CN113805777A (zh) 业务系统最优操作路径生成方法及系统
US11210183B2 (en) Memory health tracking for differentiated data recovery configurations
US9633035B2 (en) Storage system and methods for time continuum data retrieval
CN112131214A (zh) 数据写入、数据查询的方法、系统、设备和存储介质
CN110555021B (zh) 数据存储方法、查询方法及相关装置
CN116049153B (zh) 数据库的数据处理方法、装置、电子设备及存储介质
JP2016024486A (ja) データ活用システム及びその制御方法
WO2013048829A1 (en) Pluggable domain-specific typing systems and methods of use
CN112929237B (zh) 网站细分流量的分析方法、系统、设备和介质
CN115098029A (zh) 数据处理方法及装置
CN111078753B (zh) 基于HBase数据库的时序数据的存储方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Wen Mengdie

Inventor after: Liu Min

Inventor after: Du Bingyu

Inventor after: Du Xin

Inventor after: Duan Xingchen

Inventor after: Li Rongrong

Inventor before: Wen Mengdie

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant