CN115525617A - 用于日志模板的提取方法及装置、服务器、存储介质 - Google Patents
用于日志模板的提取方法及装置、服务器、存储介质 Download PDFInfo
- Publication number
- CN115525617A CN115525617A CN202211020144.4A CN202211020144A CN115525617A CN 115525617 A CN115525617 A CN 115525617A CN 202211020144 A CN202211020144 A CN 202211020144A CN 115525617 A CN115525617 A CN 115525617A
- Authority
- CN
- China
- Prior art keywords
- log
- log data
- target
- template
- length information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/1734—Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/1805—Append-only file systems, e.g. using logs or journals to store data
- G06F16/1815—Journaling file systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请涉及信息处理技术领域,公开一种用于日志模板的提取方法,包括:应用于服务器,所述方法包括:读取日志文件存储的多行日志数据;确定所述多行日志数据的长度信息;根据所述多行日志数据的长度信息,选取与所述长度信息对应的目标日志数据;分配所述目标日志数据至对应的目标分布式处理器,以使所述目标分布式处理器根据接收的所述目标日志数据进行日志模板的构建。该方法能够提升Drain算法在日志模板提取时的执行效率。本申请还公开一种用于日志模板的提取装置及服务器、存储介质。
Description
技术领域
本申请涉及信息处理技术领域,例如涉及一种用于日志模板的提取方法及装置、服务器、存储介质。
背景技术
目前,随着人工智能技术在各行各业发展,人工智能在日志分析领域越来越普及,日志分析好坏在于日志特征提取的质量,目前提取日志特征常用方式为提取日志模板。当前市场上常用的日志提取模板方式为Drain算法。Drain算法是一种基于固定深度树的在线日志解析方法。当新的原始日志消息到达时,Drain算法将通过简单的正则表达式对其进行预处理。然后,Drain算法按照树内部节点中编码的特殊设计规则搜索日志组。如果找到合适的日志组,则日志消息将与存储在该日志组中的日志事件相匹配。否则,将根据日志信息创建新的日志组。
在实现本公开实施例的过程中,发现相关技术中至少存在如下问题:
在待提取的日志文件存储的日志数据量很大的情况下,由于Drain算法通过单机实现日志模板的提取,处理日志模板的服务器的数据处理量巨大,影响服务器的数据处理效率。因此,Drain算法存在执行效率低的缺陷。
发明内容
为了对披露的实施例的一些方面有基本的理解,下面给出了简单的概括。所述概括不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围,而是作为后面的详细说明的序言。
本公开实施例提供了一种用于日志模板的提取方法、装置、服务器和存储介质,以提升Drain算法在日志模板提取时的执行效率。
在一些实施例中,所述方法应用于服务器,该方法包括:读取日志文件存储的多行日志数据;确定所述多行日志数据的长度信息;根据所述多行日志数据的长度信息,确定与长度信息对应的目标日志数据;分配所述目标日志数据至对应的目标分布式处理器,以使所述目标分布式处理器根据接收的所述目标日志数据进行日志模板的构建。
在一些实施例中,所述方法应用于目标分布式处理器,该方法包括:接收服务器发送的目标日志数据;根据所述目标日志数据的长度信息以及属性信息,进行相似度识别;根据识别结果构建所述目标日志数据对应的日志模板。
在一些实施例中,所述装置包括:处理器和存储有程序指令的存储器,其特征在于,所述处理器被配置为在运行所述程序指令时,执行如前述的用于日志模板的提取方法。
在一些实施例中,所述服务器,包括如前述的用于日志模板的提取装置。
在一些实施例中,所述存储介质,存储有程序指令,所述程序指令在运行时,执行如前述的用于日志模板的提取方法。
本公开实施例提供的用于日志模板的提取方法、装置、服务器和存储介质,可以实现以下技术效果:
服务器确定日志文件存储的多行日志数据各自的长度信息后,根据各自的长度信息选取与长度信息对应的目标日志数据后将其分配至对应的目标分布式处理器,以使多行日志数据被分配至不同的目标分布式处理器中。目标分布式处理器再对接收的日志数据进行相似度识别,最终实现日志模板的构建操作。以此,本公开实施例实现了日志数据的分布式模板提取,提升Drain算法在日志模板提取时的执行效率。
以上的总体描述和下文中的描述仅是示例性和解释性的,不用于限制本申请。
附图说明
一个或多个实施例通过与之对应的附图进行示例性说明,这些示例性说明和附图并不构成对实施例的限定,附图中具有相同参考数字标号的元件示为类似的元件,附图不构成比例限制,并且其中:
图1是本公开实施例提供的一个用于日志模板的提取方法的示意图;
图2是本公开实施例提供的另一个用于日志模板的提取方法的示意图;
图3是本公开实施例提供的另一个用于日志模板的提取方法的示意图;
图4是本公开实施例提供的另一个用于日志模板的提取方法的示意图;
图5是本公开实施例提供的另一个用于日志模板的提取方法的示意图;
图6是本公开实施例提供的另一个用于日志模板的提取方法的示意图;
图7是本公开实施例提供的另一个用于日志模板的提取方法的示意图;
图8是本公开实施例提供的一个用于日志模板的提取装置的示意图。
具体实施方式
为了能够更加详尽地了解本公开实施例的特点与技术内容,下面结合附图对本公开实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本公开实施例。在以下的技术描述中,为方便解释起见,通过多个细节以提供对所披露实施例的充分理解。然而,在没有这些细节的情况下,一个或多个实施例仍然可以实施。在其它情况下,为简化附图,熟知的结构和装置可以简化展示。
本公开实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开实施例的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。
除非另有说明,术语“多个”表示两个或两个以上。
本公开实施例中,字符“/”表示前后对象是一种“或”的关系。例如,A/B表示:A或B。
术语“和/或”是一种描述对象的关联关系,表示可以存在三种关系。例如,A和/或B,表示:A或B,或,A和B这三种关系。
术语“对应”可以指的是一种关联关系或绑定关系,A与B相对应指的是A与B之间是一种关联关系或绑定关系。
随着人工智能技术在各行各业发展,人工智能在日志分析领域越来越普及,日志分析好坏在于日志特征提取的质量,目前提取日志特征常用方式为提取日志模板。当前市场上常用的日志提取模板方式为Drain算法。
然而,在待提取的日志文件存储的日志数据量很大的情况下,由于Drain算法通过单机实现日志模板的提取,处理日志模板的服务器的数据处理量巨大,影响服务器的数据处理效率。因此,Drain算法存在执行效率低的缺陷。
结合图1所示,本公开实施例提供一种用于日志模板的提取方法,应用于服务器,该方法包括:
S01,服务器读取日志文件存储的多行日志数据。
该步骤中,日志文件可以为本地文件,也可以为网络文件。服务器读取日志文件存储的多行日志数据,包括:下载日志文件至本地临时目录中,从临时目录中读取日志文件。
S02,服务器确定多行日志数据的长度信息。
S03,服务器根据多行日志数据的长度信息,选取与长度信息对应的目标日志数据。
S04,服务器分配目标日志数据至对应的目标分布式处理器,以使目标分布式处理器根据接收的目标日志数据进行日志模板的构建。
采用本公开实施例提供的用于日志模板的提取方法,服务器确定日志文件存储的多行日志数据各自的长度信息后,根据各自的长度信息选取与长度信息对应的目标日志数据后将其分配至对应的目标分布式处理器,以使多行日志数据被分配至不同的目标分布式处理器中。目标分布式处理器再对接收的日志数据进行相似度识别,最终实现日志模板的构建操作。以此,本公开实施例实现了日志数据的分布式模板提取,提升Drain算法在日志模板提取时的执行效率。
可选地,结合图2所示,服务器分配目标日志数据至对应的目标分布式处理器,包括:
S11,服务器将各行日志数据的长度信息与分布式处理器的数量信息进行取模处理,获得目标序号。
该步骤中,取模处理,表示选取长度信息与数量信息的余数。例如,长度信息为10,数量信息为4,则取模处理表示10%4=2。分布式处理器的序号列表可以被存储于配置文件中,也可以被存储至配置中心处理器。作为一种示例,服务器通过读取配置文件获得分布式处理器的序号列表。作为另一种示例,服务器向配置中心服务器发送读取请求,配置中心服务器接收到读取请求后,向服务器发送序号列表。本公开实施例对获取分布式处理器的序号列表的方式可不做具体限定。
S12,服务器分配目标日志数据至目标序号对应的目标分布式处理器,以供目标分布式处理器进行相似度识别。
这样,在将各行日志数据的长度信息与分布式处理器的数量信息进行取模处理的过程中,必然存在部分日志数据的长度信息相等的情况。由于后续相似度识别阶段,筛选相同长度信息且相同键值的日志数据并进行相似度识别,所以,采用上述取模处理的方式,能够使长度相同的日志数据尽可能地被分配至同一分布式处理器,方便后续的相似度识别,从而进一步提升Drain算法在日志模板提取时的执行效率。
作为一种示例,某行日志数据的长度信息为11,分布式处理器的数量信息为10。分布式处理器的序号依次为0、1、2、3、4、5、6、7、8、9。则将该长度信息与分布式处理器的数量信息取模后获得目标序号为1。服务器则将该行日志数据分配至目标序号为1的目标分布式处理器进行后续的相似度识别处理。
经试验统计,通过采用取模处理分配分布式处理器的方式,能够使各分布式处理器接收到的目标日志数据的条数大致相同。以此,在实现日志提取的分布式处理的同时,使不同的分布式处理器在进行相似度识别时保持基本一致的处理时效。
可选地,结合图3所示,服务器确定多行日志数据的长度信息:
S21,服务器对各行日志数据进行正则替换,获取各行日志数据对应的第一日志数据。
该步骤中,正则替换表示将查找数据中的字符或字符串,并将字符或者字符串替换为可变参数。作为一种示例,某行日志数据包含有MAC地址(Media Access ControlAddress,媒体存取控制位地址)以及ID(Identity document,身份标识号),经正则替换后,前述MAC地址被替换为可变参数“^MAC^”,前述ID被替换为可变参数“^ID^”。其中,“^”表示空格。
S22,服务器通过中文分词工具对第一日志数据进行分词处理,获得各行日志数据对应的第二日志数据。
该步骤中,中文分词表示将一个汉字序列切分成多个单独的词。本公开实施例通过中文分词工具对第一日志数据进行分词处理,以将第一日志数据中的不同的词语通过空格切分。作为一种示例,中文词工具包括jieba分词工具、SnowNLP分词工具、THULAC分词工具或NLPIR分词工具。
S23,服务器将各行第一日志数据的长度信息作为对应的日志数据的长度信息。
这样,由于确定第一日志数据的长度信息是根据该数据中的空格的数量确定,因此,通过中文分词工具对第一日志数据进行分词处理,有利于提升日志数据的长度信息的精确度。
结合图4所示,本公开实施例还提供一种用于日志模板的提取方法,包括:
S31,服务器读取日志文件存储的多行日志数据。
S32,服务器确定多行日志数据的长度信息。
S33,服务器根据多行日志数据的长度信息,选取与长度信息对应的目标日志数据。
S34,服务器分配目标日志数据至对应的目标分布式处理器,以使目标分布式处理器根据接收的目标日志数据进行日志模板的构建。
S35,服务器接收待查询日志数据。
S36,服务器提取待查询日志数据的当前长度信息以及当前键值信息。
S37,服务器在当前键值信息非空的情况下,获取待查询日志数据与日志模板库中的具有当前长度信息的预设日志模板的相似度。其中,当前键值信息为非空,表示日志模板库存在与待查询日志数据的键值信息相同且与待查询日志数据的当前长度信息相等的日志模板。
S38,服务器根据相似度,输出待查询日志数据的查询结果。
采用本公开实施例提供的用于日志模板的提取方法,在日志模板库中快速查询待查询日志数据是否存在,提升日志数据的查询效率。
可选地,服务器根据相似度,输出当前日志数据的查询结果,包括:
在第二相似度大于或者等于预设相似度的情况下,服务器输出第一查询信息。
在第二相似度小于预设相似度的情况下,服务器输出第二查询信息。
其中,第一查询信息携带有“已存在模板”的文字信息或者音频信息。第二查询信息携带有“不存在该模板”的文字信息或者音频信息。
结合图5所示,本公开实施例还提供一种用于日志模板的提取方法,应用于分布式处理器,该方法包括:
S41,分布式处理器接收服务器发送的目标日志数据。
S42,分布式处理器根据目标日志数据的长度信息以及属性信息,进行相似度识别。
S43,分布式处理器根据识别结果构建目标日志数据对应的日志模板。
采用本公开实施例提供的用于日志模板的提取方法,分布式处理器根据目标日志数据的长度信息以及属性信息进行相似度识别,使相同长度信息和相同属性信息的目标日志数据被集中执行相似度识别,从而提升分布式处理器日志模板的提取效率。
可选地,属性信息包括键值。键值可以为日志数据的首单词。
需要说明的是,服务器执行前述的用于日志模板的提取方法的过程中,根据各自的长度信息选取与长度信息对应的目标日志数据后将其分配至对应的目标分布式处理器。目标分布式处理器的数量具有多个。上述的用于日志模板的提取方法的执行主体为目标分布式处理器中的部分或者全部。
可选地,结合图6所示,分布式处理器根据目标日志数据的长度信息以及属性信息,进行相似度识别,包括:
S51,分布式处理器提取目标日志数据的目标长度信息以及目标键值信息。
S52,分布式处理器选取目标长度信息相等且目标键值信息相同的目标日志数据,并构建日志列表。
S53,分布式处理器对日志列表存储的日志数据进行相似度识别。
这样,在不同的目标日志数据的目标长度信息以及目标键值信息均相同的情况下,不同的目标日志数据的相似度也极高。故,本公开实施例选取目标长度信息相等且目标键值信息相同的目标日志数据并构建成日志列表,以使具有相等目标长度信息和相同键值信息的日志数据通过构成日志列表的方式,被集中执行后续的相似度识别。从而在进行相似度识别前,通过长度信息与键值信息对日志数据进行有效地分类,进而进一步提升Drain算法在日志模板提取时的执行效率。
在实际应用中,分布式处理器通过C++标准库中的map类构建日志列表。
具体地,分布式处理器通过map<d,首单词table>选取目标长度信息相同且目标键值信息相同的目标日志数据,并构建日志列表。
其中,首单词table=map<首单词,list<日志>>。d表示日志数据的长度信息,首单词表示一行日志数据的首单词。list<日志>表示日志数据的值。
map<d,首单词table>表示键值信息均为长度信息d且值为首单词table的日志列表。首单词table包括有目标键值信息均为首单词,且值分别为list<日志>的目标日志数据。
可选地,结合图7所示,分布式处理器对日志列表存储的日志数据进行相似度识别,包括:
S61,分布式处理器提取日志列表的各行日志数据的键值信息。
S62,分布式处理器判断键值信息是否为空,若非空,则执行S63,若为空,则执行S64。其中,键值信息为空,表示日志模板库不存在具有该键值信息的日志模板。键值信息为非空,表示日志模板库存在具有该键值信息的日志模板。
S63,分布式处理器获取各行日志数据与日志模板库存储的预设日志模板的相似度,并根据相似度,构建各行日志数据对应的日志模板。
S64,分布式处理器新建与各行日志数据对应的日志模板并存储至日志模板库。
这样,分布式处理器在提取日志列表的各行日志数据的键值信息后判断键值信息是否为空。若为非空,则获取各行日志数据与日志模板库存储的预设日志模板的相似度,并根据相似度进行日志模板的构建。若空,则表明不存在具有该键值信息的日志模板,并新建各行日志数据对应的日志模板并存储至日志模板库。由此,本公开实施例可根据日志模板库是否存在相应的键值判断是否需要构建日志模板,有效地提升Drain算法在日志模板提取时的执行效率。
可选地,分布式处理器获取各行日志数据与日志模板库存储的预设日志模板的相似度,可以为将日志数据的每个单词与日志模板存储的预设日志模板的每个单词逐个比较,统计日志数据的单词的总数以及相等的单词的数量,最后,将相等的单词的数量与单词的总数作比值,并将比值作为日志数据与日志模板库存储的预设日志模板的相似度。
可选地,分布式处理器根据相似度,构建目标日志数据对应的日志模板,包括:
在相似度小于预设相似度的情况下,新建与各行日志数据对应的日志模板并存储至日志模板库。其中,预设相似度大于或者等于60%且小于或者等于1。优选的,预设相似度可以为60%、80%。
这样,在相似度小于预设相似度时,表明日志模板中不存在该日志数据。此时,新建与各行日志数据对应的日志模板并存储。有利于日志模板的快速更新,提升日志模板库的更新效率。
结合图8所示,本公开实施例提供一种用于日志模板的提取装置,包括处理器(processor)100和存储器(memory)101。可选地,该装置还可以包括通信接口(Communication Interface)102和总线103。其中,处理器100、通信接口102、存储器101可以通过总线103完成相互间的通信。通信接口102可以用于信息传输。处理器100可以调用存储器101中的逻辑指令,以执行上述实施例的用于日志模板的提取方法。
此外,上述的存储器101中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
存储器101作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令/模块。处理器100通过运行存储在存储器101中的程序指令/模块,从而执行功能应用以及数据处理,即实现上述实施例中用于日志模板的提取方法。
存储器101可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器101可以包括高速随机存取存储器,还可以包括非易失性存储器。
本公开实施例提供了一种服务器,包含上述的用于日志模板的提取装置。
本公开实施例提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为执行上述用于日志模板的提取方法。
本公开实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述用于日志模板的提取方法。
上述的计算机可读存储介质可以是暂态计算机可读存储介质,也可以是非暂态计算机可读存储介质。
本公开实施例的技术方案可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括一个或多个指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开实施例所述方法的全部或部分步骤。而前述的存储介质可以是非暂态存储介质,包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
以上描述和附图充分地示出了本公开的实施例,以使本领域的技术人员能够实践它们。其他实施例可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求,否则单独的部件和功能是可选的,并且操作的顺序可以变化。一些实施例的部分和特征可以被包括在或替换其他实施例的部分和特征。而且,本申请中使用的用词仅用于描述实施例并且不用于限制权利要求。如在实施例以及权利要求的描述中使用的,除非上下文清楚地表明,否则单数形式的“一个”(a)、“一个”(an)和“所述”(the)旨在同样包括复数形式。类似地,如在本申请中所使用的术语“和/或”是指包含一个或一个以上相关联的列出的任何以及所有可能的组合。另外,当用于本申请中时,术语“包括”(comprise)及其变型“包括”(comprises)和/或包括(comprising)等指陈述的特征、整体、步骤、操作、元素,和/或组件的存在,但不排除一个或一个以上其它特征、整体、步骤、操作、元素、组件和/或这些的分组的存在或添加。在没有更多限制的情况下,由语句“包括一个…”限定的要素,并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。本文中,每个实施例重点说明的可以是与其他实施例的不同之处,各个实施例之间相同相似部分可以互相参见。对于实施例公开的方法、产品等而言,如果其与实施例公开的方法部分相对应,那么相关之处可以参见方法部分的描述。
本领域技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,可以取决于技术方案的特定应用和设计约束条件。所述技术人员可以对每个特定的应用来使用不同方法以实现所描述的功能,但是这种实现不应认为超出本公开实施例的范围。所述技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本文所披露的实施例中,所揭露的方法、产品(包括但不限于装置、设备等),可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,可以仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例。另外,在本公开实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
附图中的流程图和框图显示了根据本公开实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这可以依所涉及的功能而定。在附图中的流程图和框图所对应的描述中,不同的方框所对应的操作或步骤也可以以不同于描述中所披露的顺序发生,有时不同的操作或步骤之间不存在特定的顺序。例如,两个连续的操作或步骤实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这可以依所涉及的功能而定。框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
Claims (10)
1.一种用于日志模板的提取方法,其特征在于,应用于服务器,所述方法包括:
读取日志文件存储的多行日志数据;
确定所述多行日志数据的长度信息;
根据所述多行日志数据的长度信息,选取与所述长度信息对应的目标日志数据;
分配所述目标日志数据至对应的目标分布式处理器,以使所述目标分布式处理器根据接收的所述目标日志数据进行日志模板的构建。
2.根据权利要求1所述的方法,其特征在于,所述分配所述目标日志数据至对应的目标分布式处理器,包括:
将各行日志数据的长度信息与处理器的数量信息进行取模处理,获得目标序号;
分配所述目标日志数据至所述目标序号对应的目标分布式处理器,以供所述目标分布式处理器进行相似度识别。
3.根据权利要求1所述的方法,其特征在于,所述确定所述多行日志数据的长度信息:
对各行日志数据进行正则替换,获取各行日志数据对应的第一日志数据;
通过中文分词工具对所述第一日志数据进行分词处理,获得所述各行日志数据对应的第二日志数据;
将各行第二日志数据的长度信息作为对应的日志数据的长度信息。
4.根据权利要求1所述的方法,其特征在于,所述分配所述目标日志数据至对应的目标分布式处理器后,还包括:
接收待查询日志数据;
提取所述待查询日志数据的当前长度信息以及当前键值信息;
在所述当前键值信息非空的情况下,获取所述待查询日志数据与所述日志模板库中的具有所述当前长度信息的预设日志模板的相似度;
根据所述相似度,输出所述待查询日志数据的查询结果。
5.一种用于日志模板的提取方法,其特征在于,应用于分布式处理器,所述方法包括:
接收服务器发送的目标日志数据;
根据所述目标日志数据的长度信息以及属性信息,进行相似度识别;
根据识别结果构建所述目标日志数据对应的日志模板。
6.根据权利要求5所述的方法,其特征在于,所述根据所述目标日志数据的长度信息以及属性信息,进行相似度识别,包括:
提取所述目标日志数据的目标长度信息以及目标键值信息;
选取目标长度信息相等且目标键值信息相同的目标日志数据,并构建日志列表;
对所述日志列表存储的日志数据进行相似度识别。
7.根据权利要求6所述的方法,其特征在于,所述对所述日志列表存储的日志数据进行相似度识别,包括:
提取所述日志列表的各行日志数据的键值信息;
在所述键值信息非空的情况下,获取所述各行日志数据与日志模板库存储的预设日志模板的相似度,并根据所述相似度,构建所述各行日志数据对应的日志模板;
在所述目标键值信息为空的情况下,新建与所述各行日志数据对应的日志模板并存储至日志模板库。
8.一种用于日志模板的提取装置,包括处理器和存储有程序指令的存储器,其特征在于,所述处理器被配置为在运行所述程序指令时,执行如权利要求1至4任一项所述的用于日志模板的提取方法。
9.一种服务器,其特征在于,包括如权利要求8所述的用于日志模板的提取装置。
10.一种存储介质,存储有程序指令,其特征在于,所述程序指令在运行时,执行如权利要求1至7任一项所述的用于日志模板的提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211020144.4A CN115525617A (zh) | 2022-08-24 | 2022-08-24 | 用于日志模板的提取方法及装置、服务器、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211020144.4A CN115525617A (zh) | 2022-08-24 | 2022-08-24 | 用于日志模板的提取方法及装置、服务器、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115525617A true CN115525617A (zh) | 2022-12-27 |
Family
ID=84698277
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211020144.4A Pending CN115525617A (zh) | 2022-08-24 | 2022-08-24 | 用于日志模板的提取方法及装置、服务器、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115525617A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115757049A (zh) * | 2023-01-09 | 2023-03-07 | 深圳市蓝凌软件股份有限公司 | 多业务模块日志记录方法、系统、电子设备及存储介质 |
-
2022
- 2022-08-24 CN CN202211020144.4A patent/CN115525617A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115757049A (zh) * | 2023-01-09 | 2023-03-07 | 深圳市蓝凌软件股份有限公司 | 多业务模块日志记录方法、系统、电子设备及存储介质 |
CN115757049B (zh) * | 2023-01-09 | 2023-05-05 | 深圳市蓝凌软件股份有限公司 | 多业务模块日志记录方法、系统、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107911249B (zh) | 一种网络设备的命令行发送方法、装置和设备 | |
CN111325245B (zh) | 重复图像识别方法、装置、电子设备及计算机可读存储介质 | |
CN106713504B (zh) | 任务处理方法和系统 | |
CN107748739B (zh) | 一种短信文本模版的提取方法及相关装置 | |
EP2804115A1 (en) | Index scanning apparatus and index scanning method | |
CN115525617A (zh) | 用于日志模板的提取方法及装置、服务器、存储介质 | |
CN105574156A (zh) | 文本聚类方法、装置及计算设备 | |
CN112364014A (zh) | 数据查询方法、装置、服务器及存储介质 | |
CN110929173A (zh) | 同人识别方法、装置、设备及介质 | |
CN107547378B (zh) | 一种vpn路由学习方法和装置 | |
CN112766390A (zh) | 用于确定训练样本的方法、装置及设备 | |
CN117453784A (zh) | 配置文件转换方法、装置、设备及存储介质 | |
CN112861005A (zh) | 用于信息推送的方法及装置、设备 | |
CN110399360A (zh) | 字典表的设置方法及装置、存储介质、电子装置 | |
US20220171815A1 (en) | System and method for generating filters for k-mismatch search | |
CN114970464A (zh) | 用于标识生成的方法、装置、终端设备及存储介质 | |
CN105553483B (zh) | 一种产生lz77的方法及装置 | |
CN115345131A (zh) | 用于构建层级关系树的方法及装置、电子设备 | |
CN104951550B (zh) | 数据存储方法及装置 | |
CN113448980A (zh) | 用于生成sql语句的方法及装置、电子设备 | |
CN116069802A (zh) | 用于访问数据库的方法、装置、电子设备及存储介质 | |
CN112016466A (zh) | 人脸识别方法、系统、电子设备和计算机存储介质 | |
CN113971422A (zh) | 样本数据标注系统、方法以及相关设备 | |
CN111966486A (zh) | 一种获取数据的方法、fpga系统以及可读存储介质 | |
CN112988457A (zh) | 一种数据备份方法、装置、系统及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |