CN116974877B

CN116974877B - 一种跨语言场景下的日志收集方法

Info

Publication number: CN116974877B
Application number: CN202311238695.2A
Authority: CN
Inventors: 杨良; 邓日晓; 王武杰; 阳城; 聂璇; 杨志
Original assignee: Hunan Sanxiang Bank Co Ltd
Current assignee: Hunan Sanxiang Bank Co Ltd
Priority date: 2023-09-25
Filing date: 2023-09-25
Publication date: 2024-01-30
Anticipated expiration: 2043-09-25
Also published as: CN116974877A

Abstract

本发明涉计算机技术领域，尤其涉及一种跨语言场景下的日志收集方法，包括，步骤S1，记录各应用服务器产生的日志代码；步骤S2，根据语言标准库中的语言种类数量确定针对该特征字符的标准等级，并根据各标准等级的特征字符的占比确定针对单段日志代码匹配语言种类并使用该种类语言将日志代码转化成日志文本；步骤S3，矫验并判定是否切换对应种类的语言进行重新转化；步骤S4，分类日志文本输送至对应的日志收集模块，步骤S5，完成日志文本的收集，解决了没有对系统产生的日志代码进行匹配语言种类的判定和修正，导致针对跨语言场景下的日志转化的正确率不足的问题。

Description

一种跨语言场景下的日志收集方法

技术领域

本发明涉计算机技术领域，尤其涉及一种跨语言场景下的日志收集方法。

背景技术

日志是指系统所指定对象的某些操作和其操作结果按时间有序的集合。每个日志文件由日志记录组成，每条日志记录描述了一次单独的系统事件。通常情况下，系统日志是用户可以直接阅读的文本文件，日志文件中的记录可提供以下用途：监控系统资源；审计用户行为；对可疑行为进行告警；确定入侵行为的范围；为恢复系统提供帮助；生成调查报告；为打击计算机犯罪提供证据来源。

由于网络中不同的操作系统、应用软件、网络设备和服务产生不同语言的日志文件，即使相同的服务如IIS也可采用不同格式的日志文件记录日志信息。国际上还没有形成标准的日志格式，各系统开发商和网络设备生产商往往根据各自的需要制定自己的日志格式，使得计算机系统针对跨语言形成的日志的格式和存储方式千差万别，因此，针对跨语言场景下的日志的处理技术的开发尤为迫切。

公开号为CN103714179A的中国专利申请，一种系统日志的多语言支持方法和系统从接收的系统日志中提取日志格式以及日志格式参数；根据当前系统的语言环境，在存储的日志格式在每种语言环境下的格式化字符串中找到与接收日志格式对应的格式化字符串；将与接收日志格式对应的格式化字符串与所述日志格式参数进行组合，得到当前系统语言环境支持的系统日志，可见，所述存在问题如下：没有对系统产生的日志代码进行匹配语言种类的判定和修正，导致针对跨语言场景下的日志转化的正确率不足。

发明内容

有鉴于此，本发明提供一种跨语言场景下的日志收集方法，用以克服现有技术中没有对系统产生的日志代码进行匹配语言种类的判定和修正，导致针对跨语言场景下的日志转化的正确率不足的问题。

为实现上述目的，本发明提供一种跨语言场景下的日志收集方法，包括：

步骤S1，用户的操作行为触发中控模块中设置的日志点后，开始记录各应用服务器产生的日志代码；

步骤S2，对于所述中控模块记录的单段所述日志代码，提取该段日志代码中的特征字符，中控模块根据与单个特征字符匹配的语言标准库中的语言种类数量确定针对该特征字符的标准等级，并根据各标准等级的特征字符的占比确定针对单段日志代码匹配语言种类并使用匹配的语言种类将所述日志代码转化成日志文本；

步骤S3，所述中控模块验证所述日志文本并根据验证结果判定是否切换对应种类的语言以针对与该日志文本对应的日志代码进行重新转化；

步骤S4，所述中控模块在所述日志文本验证成功后根据日志文本的内容对其进行分类并将分类后的日志文本输送至对应的日志收集模块；

步骤S5，所述日志收集模块根据预设采集频率收集所述分类后的日志文本。

进一步地，在所述步骤S2中，所述中控模块将单段所述日志代码中提取的各特征字符依次与所述语言标准库中的第i类语言的标准字符进行比对，设定i=1...n，n为语言标准库中语言种类的总数，对于单个特征字符，中控模块根据该特征字符匹配语言标准库中语言种类数量确定针对该特征字符标准等级的判定方式，其中，

第一特征字符判定方式为所述中控模块判定所述特征字符为针对第i类语言的一级特征字符；所述第一特征字符判定方式满足所述特征字符仅与所述第i类语言匹配；

第二特征字符判定方式为所述中控模块判定所述特征字符为针对第i类语言的二级特征字符；所述第二特征字符判定方式满足所述特征字符与包括所述第i类语言的多个种类语言匹配；

第三特征字符判定方式为所述中控模块判定所述特征字符为三级特征字符；所述第三特征字符判定方式满足所述特征字符与所述语言标准库中的全部种类语言匹配。

进一步地，所述中控模块在第一预设条件下根据各特征字符占比确定与单段所述日志代码匹配的语言种类的判定方式，其中：

第一判定方式为所述中控模块判定单段所述日志代码无匹配语言，并根据第一预设一级特征字符占比与一级特征字符占比的差值将该段日志代码分割成字符串的长度降低至对应值；所述第一判定方式满足单段所述日志代码中属于所述语言标准库中各类语言的所述一级特征字符占比均小于第一预设一级特征字符占比，且该段日志代码中的三级特征字符占比大于等于预设三级特征字符占比；

第二判定方式为所述中控模块判定单段所述日志代码匹配多种语言，中控模块统计该段日志代码中属于对应种类语言的二级特征字符数量，并根据各二级特征字符的占比确定针对该段日志代码匹配的语言种类的判定方式；所述第二判定方式满足所述语言标准库中存在多个种类语言，单段所述日志代码中属于上述各类语言的所述一级特征字符占比均大于等于所述第一预设一级特征字符占比并均小于第二预设一级特征字符占比，且该段日志代码中的三级特征字符占比小于预设三级特征字符占比；

第三判定方式为所述中控模块判定单段所述日志代码匹配单种语言，中控模块分别统计该段日志代码的语言中能够应用于对应种类语言的一级特征字符的数量并将数量最多的一级特征字符所属种类的语言作为用于该段日志代码的语言；所述第三判定方式满足所述语言标准库中存在若干种类语言，单段所述日志代码中属于上述语言的所述一级特征字符占比均大于等于所述第二预设一级特征字符占比，且该段日志代码中的三级特征字符占比小于预设三级特征字符占比；

所述第一预设条件满足所述中控模块完成对单段所述日志代码中全部特征字符标准等级的判定。

进一步地，在所述步骤S2中，所述中控模块将所述单段日志代码分割成多个具有预设长度的字符串，分别解析分割后的字符串，并滤除解析后的符号以及信号码元以完成该段日志代码中特征字符的提取，中控模块根据提取的特征字符生成针对该段日志代码的日志文本。

进一步地，所述中控模块在所述第二判定方式下根据所述第i类语言的二级特征字符与总特征字符的占比确定针对该段日志代码匹配语言的种类的判定方式，其中，

第一语言判定方式为所述中控模块判定选取对应的一级特征字符数量最高的语言将该单段日志代码转化成第一日志文本；所述第一语言判定方式满足单段所述日志代码中属于所述第i类语言的所述二级特征字符的占比小于预设二级特征字符占比；

第二语言判定方式为所述中控模块判定使用第i类语言将单段日志字符转化成第二日志文本；所述第二语言判定方式满足单段所述日志代码中属于所述第i类语言的所述二级特征字符的占比大于等于预设二级特征字符占比。

进一步地，所述中控模块设置有在第一判定方式下缩短所述单段日志代码分割的字符串的长度的若干长度的调节方式，其中，每种调节方式对缩短字符串的长度的调节大小不同。

进一步地，所述中控模块在所述第三判定方式下根据转化后的所述日志文本的准确率判定选用的语言种类与所述单段日志代码的匹配是否符合预设标准并在判定该类语言与该段日志代码的匹配不符合预设标准时重新统计该段日志代码中的二级特征字符并使用包含对应二级特征字符数量最多的语言将该段日志字符转化成第三日志文本，或，重新选取对应的一级特征字符数量次高的语言将该段日志字符转化成第四日志文本。

进一步地，所述中控模块在第一准确率比对条件下重新统计该段日志代码中的二级特征字符并使用包含对应二级特征字符数量最多的语言将该段日志字符转化成第三日志文本，以及在第二准确率比对条件下重新选取对应的一级特征字符数量次高的语言将该段日志字符转化成第四日志文本。

进一步地，所述第一准确率比对条件满足所述转化后的日志文本的准确率小于第一预设准确率，以及第二准确率比对条件满足所述转化后的日志文本的准确率大于所述第一预设准确率且小于第二预设准确率。

进一步地，所述日志文本的分类包括：应用程序、安全、升级、系统、转发事件、应用程序以及服务日志。

与现有技术相比，本发明的有益效果在于，本发明通过中控模块记录的单段所述日志代码，提取该段日志代码中的特征字符，中控模块根据与单个特征字符匹配的语言标准库中的语言种类数量确定针对该特征字符的标准等级，并根据各标准等级的特征字符的占比确定针对所述单段日志代码匹配语言种类并使用该种类语言将所述日志代码转化成日志文本，从而解决了针对跨语言场景下的日志转化的正确率不足的问题，保证了日志的顺利收集和后处理。

进一步地，本发明的中控模块将单段所述日志代码中提取的各特征字符依次与所述语言标准库中的第i类语言的标准字符进行比对确定了针对单段日志代码中单个字符等级的判定方式，本发明将日志代码的每个特征字符进行划分，将每个字符对应不同的语言的种类数，从而为选取正确的识别语言提供了可行性基础。

进一步地，本发明的中控模块在完成特征字符标准等级划分后，根据各特征字符占比确定与单段所述日志代码匹配的语言种类的判定方式，从而精准的确定了日志代码匹配的语言种类。

进一步地，中控模块将所述单段日志代码分割成多个具有预设长度的字符串，分别解析分割后的字符串，并滤除解析后的符号以及信号码元以完成该段日志代码中特征字符的提取，保证了提取的有效性。

进一步地，本发明的中控模块根据第i类语言的二级特征字符与总特征字符的占比确定了选取对应的一级特征字符数量最高的语言将该单段日志代码转化成第一日志文本或使用第i类语言将该单段日志字符转化成第二日志文本，从而准确的将日志代码转化成相应的可读的日志文本。

进一步地，当中控模块判定单段所述日志代码无匹配语言时，中控模块通过不通的调节方式将字符串的长度对应的缩短，从而重新调整字符串的分割长度，以解决单段所述日志代码无匹配语言的问题。

进一步地，中控模块根据转化后的日志文本的准确率判定选用的语言种类与所述单段日志代码的匹配是否符合预设标准并在判定该类语言与该段日志代码的匹配不符合预设标准时重新选取语言。

进一步地，中控模块确定了重新统计该段日志代码中的二级特征字符并使用包含对应二级特征字符数量最多的语言将该段日志字符转化成第三日志文本和重新选取对应的一级特征字符数量次高的语言将该段日志字符转化成第四日志文本，从而提高了转化的日志文本的正确率。

进一步地，本发明对第一准确率比对条件和第二准确率比对条件划定了取值范围，从而保证了语言选择的准确性，进而解决针对跨语言场景下的日志转化的正确率不足的问题，保证了日志的顺利收集和后处理。

附图说明

图1为本发明实施例所述跨语言场景下的日志收集方法的流程图；

图2为本发明实施例所述特征字符标准等级的判定方式的流程图；

图3为本发明实施例所述单段所述日志代码匹配的语言种类的判定方式的流程图；

图4为本发明实施例所述选用的语言种类与所述单段日志代码的匹配是否符合预设标准的流程图。

具体实施方式

为了使本发明的目的和优点更加清楚明白，下面结合实施例对本发明作进一步描述；应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非在限制本发明的保护范围。

本发明所述中控模块在本次检测前根据前三个月中本系统中控模块累计进行的85524次控制单段日志代码分割的字符串的长度、各特征字符的占比情况、转化后的日志文本的准确率的识别、综合确定针对本次系统判定的各项预设参数标准的数值。本领域的技术人员可以理解的是，本发明所述系统针对单项上述参数的确定方式可以为根据数据分布选取占比最高的数值作为预设标准参数、使用加权求和以将求得的数值作为预设标准参数、将各历史数据代入至特定公式并将利用该公式求得的数值作为预设标准参数或其他选取方式，只要满足本发明所述系统能够通过获取的数值明确界定单项判定过程中的不同特定情况即可。

请参阅图1、图2、图3以及图4所示，其分别为本发明实施例所述跨语言场景下的日志收集方法的流程图；本发明实施例所述特征字符标准等级的判定方式的流程图；本发明实施例所述单段所述日志代码匹配的语言种类的判定方式的流程图；本发明实施例所述选用的语言种类与所述单段日志代码的匹配是否符合预设标准的流程图。

本发明实施例的系统，包括：

具体而言，在所述步骤S2中，所述中控模块将单段所述日志代码中提取的各特征字符依次与所述语言标准库中的第i类语言的标准字符进行比对，设定i=1...n，n为语言标准库中语言种类的总数，对于单种语言，例如：c，c++，java，python，PHP，c#，Ruby，go，kotlin，swift，对于单个特征字符，中控模块根据该特征字符匹配语言标准库中语言种类数量确定针对该特征字符标准等级的判定方式，其中，

具体而言，所述中控模块在第一预设条件下根据各特征字符占比确定与单段所述日志代码匹配的语言种类的判定方式，其中：

第一判定方式为所述中控模块判定单段所述日志代码无匹配语言，并根据第一预设一级特征字符占比与一级特征字符占比的差值将该段日志代码分割成字符串的长度降低至对应值；所述第一判定方式满足单段所述日志代码中属于所述语言标准库中各类语言的所述一级特征字符占比均小于第一预设一级特征字符占比40%，且该段日志代码中的三级特征字符占比大于等于预设三级特征字符占比20%；

第二判定方式为所述中控模块判定单段所述日志代码匹配多种语言，中控模块统计该段日志代码中属于对应种类语言的二级特征字符数量，并根据各二级特征字符的占比确定针对该段日志代码匹配的语言种类的判定方式；所述第二判定方式满足所述语言标准库中存在多个种类语言，单段所述日志代码中属于上述各类语言的所述一级特征字符占比均大于等于所述第一预设一级特征字符占比40%并均小于第二预设一级特征字符占比70%，且该段日志代码中的三级特征字符占比小于预设三级特征字符占比20%；

第三判定方式为所述中控模块判定单段所述日志代码匹配单种语言，中控模块分别统计该段日志代码的语言中能够应用于对应种类语言的一级特征字符的数量并将数量最多的一级特征字符所属种类的语言作为用于该段日志代码的语言；所述第三判定方式满足所述语言标准库中存在若干种类语言，单段所述日志代码中属于上述语言的所述一级特征字符占比均大于等于所述第二预设一级特征字符占比70%，且该段日志代码中的三级特征字符占比小于预设三级特征字符占比20%；

具体而言，在所述步骤S2中，所述中控模块将所述单段日志代码分割成多个具有预设长度为10的字符串，分别解析分割后的字符串，并滤除解析后的符号以及信号码元以完成该段日志代码中特征字符的提取，中控模块根据提取的特征字符生成针对该段日志代码的日志文本。

具体而言，所述中控模块在所述第二判定方式下根据所述第i类语言的二级特征字符与总特征字符的占比确定针对该段日志代码匹配语言的种类的判定方式，其中，

第一语言判定方式为所述中控模块判定选取对应的一级特征字符数量最高的语言将该单段日志代码转化成第一日志文本；所述第一语言判定方式满足单段所述日志代码中属于所述第i类语言的所述二级特征字符的占比小于预设二级特征字符占比10%；

具体而言，所述中控模块设置有在第一判定方式下缩短所述单段日志代码分割的字符串的长度的若干长度的调节方式，其中，每种调节方式对缩短字符串的长度的调节大小不同。

具体而言，所述中控模块在所述第三判定方式下根据转化后的所述日志文本的准确率判定选用的语言种类与所述单段日志代码的匹配是否符合预设标准并在判定该类语言与该段日志代码的匹配不符合预设标准时重新统计该段日志代码中的二级特征字符并使用包含对应二级特征字符数量最多的语言将该段日志字符转化成第三日志文本，或，重新选取对应的一级特征字符数量次高的语言将该段日志字符转化成第四日志文本。

具体而言，所述中控模块在第一准确率比对条件下重新统计该段日志代码中的二级特征字符并使用包含对应二级特征字符数量最多的语言将该段日志字符转化成第三日志文本，以及在第二准确率比对条件下重新选取对应的一级特征字符数量次高的语言将该段日志字符转化成第四日志文本。

具体而言，所述第一准确率比对条件满足所述转化后的日志文本的准确率小于第一预设准确率85%，以及第二准确率比对条件满足所述转化后的日志文本的准确率大于所述第一预设准确率且小于第二预设准确率90%。

具体而言，所述日志文本的分类包括：应用程序、安全、升级、系统、转发事件、应用程序以及服务日志。

实施例1

本实施例假设收集到的单段所述日志代码为“JKLMOPQ#@#\RSTUV#@#\WXYZ”提取该段日志代码中的特征字符后得到“J K L M O P Q R S T U V W X Y Z”，将得到的每个特征字符与语言标准库中第i类语言的标准字符进行比对，设定i=1...n，n为语言标准库中语言种类的总数，经过比对后完成特征字符标准等级判定如表1所示，

统计后，一级特征字符占比62.5%,二级特征字符占比25%，三级特征12.5%，

满足第二判定方式，即单段所述日志代码中属于上述各类语言的所述一级特征字符占比均大于等于所述第一预设一级特征字符占比40%并均小于第二预设一级特征字符占比70%，且该段日志代码中的三级特征字符占比小于预设三级特征字符占比20%，则中控模块统计该段日志代码中属于对应种类语言的二级特征字符数量，经过进一步统计：第1类语言的二级特征字符为1个，第2类语言的二级特征字符为2个，第3类语言的二级特征字符为1个，占比分别为6.25%，12.5%和6.25%，则满足单段所述日志代码中属于所述第2类语言的所述二级特征字符的占比大于等于预设二级特征字符占比10%的第二语言判定方式的条件，则使用第2类语言将该单段日志字符转化成第二日志文本。

实施例2

本实施例假设收集到的单段所述日志代码为“abdefg#@#\hjklm#@#\opqrs”提取该段日志代码中的特征字符后得到“a b d e f g h j k l m o p q r s”，将得到的每个特征字符与语言标准库中第i类语言的标准字符进行比对，设定i=1...n，n为语言标准库中语言种类的总数，经过比对后完成特征字符标准等级判定如表2所示，

统计后，13一级特征字符占比81.25%,2二级特征字符占比12.5%，1三级特征6.25%，

满足第三判定方式，即单段所述日志代码中属于上述语言的所述一级特征字符占比均大于等于所述第二预设一级特征字符占比70%，且该段日志代码中的三级特征字符占比小于预设三级特征字符占比20%；则中控模块分别统计该段日志代码的语言中能够应用于对应种类语言的一级特征字符的数量为：第1类语言的一级特征字符为7个，第2类语言的一级特征字符为3个，第3类语言的一级特征字符为2个，第4类语言的一级特征字符为1个，则将第1类语言作为用于该段日志代码的语言，转化后的所述日志文本的准确率为93%，则将第1类语言作为用于该段日志代码的语言满足要求，并相应的转化成对应的日志文本。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

以上所述仅为本发明的优选实施例，并不用于限制本发明；对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种跨语言场景下的日志收集方法,其特征在于，包括：

步骤S5，所述日志收集模块根据预设采集频率收集所述分类后的日志文本；

在所述步骤S2中，所述中控模块将单段所述日志代码中提取的各特征字符依次与所述语言标准库中的第i类语言的标准字符进行比对，设定i=1...n，n为语言标准库中语言种类的总数，对于单个特征字符，中控模块根据该特征字符匹配语言标准库中语言种类数量确定针对该特征字符标准等级的判定方式，其中，

第三特征字符判定方式为所述中控模块判定所述特征字符为三级特征字符；所述第三特征字符判定方式满足所述特征字符与所述语言标准库中的全部种类语言匹配；

所述中控模块在第一预设条件下根据各特征字符占比确定与单段所述日志代码匹配的语言种类的判定方式，其中：

2.根据权利要求1所述的跨语言场景下的日志收集方法，其特征在于，在所述步骤S2中，所述中控模块将所述单段日志代码分割成多个具有预设长度的字符串，分别解析分割后的字符串，并滤除解析后的符号以及信号码元以完成该段日志代码中特征字符的提取，中控模块根据提取的特征字符生成针对该段日志代码的日志文本。

3.根据权利要求1所述的跨语言场景下的日志收集方法，其特征在于，所述中控模块在所述第二判定方式下根据所述第i类语言的二级特征字符与总特征字符的占比确定针对该段日志代码匹配语言的种类的判定方式，其中，

第二语言判定方式为所述中控模块判定使用第i类语言将单段日志代码转化成第二日志文本；所述第二语言判定方式满足单段所述日志代码中属于所述第i类语言的所述二级特征字符的占比大于等于预设二级特征字符占比。

4.根据权利要求3所述的跨语言场景下的日志收集方法，其特征在于，所述中控模块设置有在所述第一判定方式下缩短所述单段日志代码分割的字符串的长度的若干长度的调节方式，其中，每种调节方式对缩短字符串的长度的调节大小不同。

5.根据权利要求1所述的跨语言场景下的日志收集方法，其特征在于，所述中控模块在所述第三判定方式下根据转化后的所述日志文本的准确率判定选用的语言种类与所述单段日志代码的匹配是否符合预设标准并在判定该类语言与该段日志代码的匹配不符合预设标准时重新统计该段日志代码中的二级特征字符并使用包含对应二级特征字符数量最多的语言将该段日志代码转化成第三日志文本，或，重新选取对应的一级特征字符数量次高的语言将该段日志代码转化成第四日志文本。

6.根据权利要求5所述的跨语言场景下的日志收集方法，其特征在于，所述中控模块在第一准确率比对条件下重新统计该段日志代码中的二级特征字符并使用包含对应二级特征字符数量最多的语言将该段日志代码转化成第三日志文本，以及在第二准确率比对条件下重新选取对应的一级特征字符数量次高的语言将该段日志代码转化成第四日志文本。

7.根据权利要求6所述的跨语言场景下的日志收集方法，其特征在于，所述第一准确率比对条件满足所述转化后的日志文本的准确率小于第一预设准确率，以及第二准确率比对条件满足所述转化后的日志文本的准确率大于所述第一预设准确率且小于第二预设准确率。

8.根据权利要求1所述的跨语言场景下的日志收集方法，其特征在于，所述日志文本的分类包括：应用程序、安全、升级、系统、转发事件、应用程序以及服务日志。