CN116974877B - 一种跨语言场景下的日志收集方法 - Google Patents

一种跨语言场景下的日志收集方法 Download PDF

Info

Publication number
CN116974877B
CN116974877B CN202311238695.2A CN202311238695A CN116974877B CN 116974877 B CN116974877 B CN 116974877B CN 202311238695 A CN202311238695 A CN 202311238695A CN 116974877 B CN116974877 B CN 116974877B
Authority
CN
China
Prior art keywords
log
language
character
control module
central control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311238695.2A
Other languages
English (en)
Other versions
CN116974877A (zh
Inventor
杨良
邓日晓
王武杰
阳城
聂璇
杨志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Sanxiang Bank Co Ltd
Original Assignee
Hunan Sanxiang Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Sanxiang Bank Co Ltd filed Critical Hunan Sanxiang Bank Co Ltd
Priority to CN202311238695.2A priority Critical patent/CN116974877B/zh
Publication of CN116974877A publication Critical patent/CN116974877A/zh
Application granted granted Critical
Publication of CN116974877B publication Critical patent/CN116974877B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3495Performance evaluation by tracing or monitoring for systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computer Hardware Design (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉计算机技术领域,尤其涉及一种跨语言场景下的日志收集方法,包括,步骤S1,记录各应用服务器产生的日志代码;步骤S2,根据语言标准库中的语言种类数量确定针对该特征字符的标准等级,并根据各标准等级的特征字符的占比确定针对单段日志代码匹配语言种类并使用该种类语言将日志代码转化成日志文本;步骤S3,矫验并判定是否切换对应种类的语言进行重新转化;步骤S4,分类日志文本输送至对应的日志收集模块,步骤S5,完成日志文本的收集,解决了没有对系统产生的日志代码进行匹配语言种类的判定和修正,导致针对跨语言场景下的日志转化的正确率不足的问题。

Description

一种跨语言场景下的日志收集方法
技术领域
本发明涉计算机技术领域,尤其涉及一种跨语言场景下的日志收集方法。
背景技术
日志是指系统所指定对象的某些操作和其操作结果按时间有序的集合。每个日志文件由日志记录组成,每条日志记录描述了一次单独的系统事件。通常情况下,系统日志是用户可以直接阅读的文本文件,日志文件中的记录可提供以下用途:监控系统资源;审计用户行为;对可疑行为进行告警;确定入侵行为的范围;为恢复系统提供帮助;生成调查报告;为打击计算机犯罪提供证据来源。
由于网络中不同的操作系统、应用软件、网络设备和服务产生不同语言的日志文件,即使相同的服务如IIS也可采用不同格式的日志文件记录日志信息。国际上还没有形成标准的日志格式,各系统开发商和网络设备生产商往往根据各自的需要制定自己的日志格式,使得计算机系统针对跨语言形成的日志的格式和存储方式千差万别,因此,针对跨语言场景下的日志的处理技术的开发尤为迫切。
公开号为CN103714179A的中国专利申请,一种系统日志的多语言支持方法和系统从接收的系统日志中提取日志格式以及日志格式参数;根据当前系统的语言环境,在存储的日志格式在每种语言环境下的格式化字符串中找到与接收日志格式对应的格式化字符串;将与接收日志格式对应的格式化字符串与所述日志格式参数进行组合,得到当前系统语言环境支持的系统日志,可见,所述存在问题如下:没有对系统产生的日志代码进行匹配语言种类的判定和修正,导致针对跨语言场景下的日志转化的正确率不足。
发明内容
有鉴于此,本发明提供一种跨语言场景下的日志收集方法,用以克服现有技术中没有对系统产生的日志代码进行匹配语言种类的判定和修正,导致针对跨语言场景下的日志转化的正确率不足的问题。
为实现上述目的,本发明提供一种跨语言场景下的日志收集方法,包括:
步骤S1,用户的操作行为触发中控模块中设置的日志点后,开始记录各应用服务器产生的日志代码;
步骤S2,对于所述中控模块记录的单段所述日志代码,提取该段日志代码中的特征字符,中控模块根据与单个特征字符匹配的语言标准库中的语言种类数量确定针对该特征字符的标准等级,并根据各标准等级的特征字符的占比确定针对单段日志代码匹配语言种类并使用匹配的语言种类将所述日志代码转化成日志文本;
步骤S3,所述中控模块验证所述日志文本并根据验证结果判定是否切换对应种类的语言以针对与该日志文本对应的日志代码进行重新转化;
步骤S4,所述中控模块在所述日志文本验证成功后根据日志文本的内容对其进行分类并将分类后的日志文本输送至对应的日志收集模块;
步骤S5,所述日志收集模块根据预设采集频率收集所述分类后的日志文本。
进一步地,在所述步骤S2中,所述中控模块将单段所述日志代码中提取的各特征字符依次与所述语言标准库中的第i类语言的标准字符进行比对,设定i=1...n,n为语言标准库中语言种类的总数,对于单个特征字符,中控模块根据该特征字符匹配语言标准库中语言种类数量确定针对该特征字符标准等级的判定方式,其中,
第一特征字符判定方式为所述中控模块判定所述特征字符为针对第i类语言的一级特征字符;所述第一特征字符判定方式满足所述特征字符仅与所述第i类语言匹配;
第二特征字符判定方式为所述中控模块判定所述特征字符为针对第i类语言的二级特征字符;所述第二特征字符判定方式满足所述特征字符与包括所述第i类语言的多个种类语言匹配;
第三特征字符判定方式为所述中控模块判定所述特征字符为三级特征字符;所述第三特征字符判定方式满足所述特征字符与所述语言标准库中的全部种类语言匹配。
进一步地,所述中控模块在第一预设条件下根据各特征字符占比确定与单段所述日志代码匹配的语言种类的判定方式,其中:
第一判定方式为所述中控模块判定单段所述日志代码无匹配语言,并根据第一预设一级特征字符占比与一级特征字符占比的差值将该段日志代码分割成字符串的长度降低至对应值;所述第一判定方式满足单段所述日志代码中属于所述语言标准库中各类语言的所述一级特征字符占比均小于第一预设一级特征字符占比,且该段日志代码中的三级特征字符占比大于等于预设三级特征字符占比;
第二判定方式为所述中控模块判定单段所述日志代码匹配多种语言,中控模块统计该段日志代码中属于对应种类语言的二级特征字符数量,并根据各二级特征字符的占比确定针对该段日志代码匹配的语言种类的判定方式;所述第二判定方式满足所述语言标准库中存在多个种类语言,单段所述日志代码中属于上述各类语言的所述一级特征字符占比均大于等于所述第一预设一级特征字符占比并均小于第二预设一级特征字符占比,且该段日志代码中的三级特征字符占比小于预设三级特征字符占比;
第三判定方式为所述中控模块判定单段所述日志代码匹配单种语言,中控模块分别统计该段日志代码的语言中能够应用于对应种类语言的一级特征字符的数量并将数量最多的一级特征字符所属种类的语言作为用于该段日志代码的语言;所述第三判定方式满足所述语言标准库中存在若干种类语言,单段所述日志代码中属于上述语言的所述一级特征字符占比均大于等于所述第二预设一级特征字符占比,且该段日志代码中的三级特征字符占比小于预设三级特征字符占比;
所述第一预设条件满足所述中控模块完成对单段所述日志代码中全部特征字符标准等级的判定。
进一步地,在所述步骤S2中,所述中控模块将所述单段日志代码分割成多个具有预设长度的字符串,分别解析分割后的字符串,并滤除解析后的符号以及信号码元以完成该段日志代码中特征字符的提取,中控模块根据提取的特征字符生成针对该段日志代码的日志文本。
进一步地,所述中控模块在所述第二判定方式下根据所述第i类语言的二级特征字符与总特征字符的占比确定针对该段日志代码匹配语言的种类的判定方式,其中,
第一语言判定方式为所述中控模块判定选取对应的一级特征字符数量最高的语言将该单段日志代码转化成第一日志文本;所述第一语言判定方式满足单段所述日志代码中属于所述第i类语言的所述二级特征字符的占比小于预设二级特征字符占比;
第二语言判定方式为所述中控模块判定使用第i类语言将单段日志字符转化成第二日志文本;所述第二语言判定方式满足单段所述日志代码中属于所述第i类语言的所述二级特征字符的占比大于等于预设二级特征字符占比。
进一步地,所述中控模块设置有在第一判定方式下缩短所述单段日志代码分割的字符串的长度的若干长度的调节方式,其中,每种调节方式对缩短字符串的长度的调节大小不同。
进一步地,所述中控模块在所述第三判定方式下根据转化后的所述日志文本的准确率判定选用的语言种类与所述单段日志代码的匹配是否符合预设标准并在判定该类语言与该段日志代码的匹配不符合预设标准时重新统计该段日志代码中的二级特征字符并使用包含对应二级特征字符数量最多的语言将该段日志字符转化成第三日志文本,或,重新选取对应的一级特征字符数量次高的语言将该段日志字符转化成第四日志文本。
进一步地,所述中控模块在第一准确率比对条件下重新统计该段日志代码中的二级特征字符并使用包含对应二级特征字符数量最多的语言将该段日志字符转化成第三日志文本,以及在第二准确率比对条件下重新选取对应的一级特征字符数量次高的语言将该段日志字符转化成第四日志文本。
进一步地,所述第一准确率比对条件满足所述转化后的日志文本的准确率小于第一预设准确率,以及第二准确率比对条件满足所述转化后的日志文本的准确率大于所述第一预设准确率且小于第二预设准确率。
进一步地,所述日志文本的分类包括:应用程序、安全、升级、系统、转发事件、应用程序以及服务日志。
与现有技术相比,本发明的有益效果在于,本发明通过中控模块记录的单段所述日志代码,提取该段日志代码中的特征字符,中控模块根据与单个特征字符匹配的语言标准库中的语言种类数量确定针对该特征字符的标准等级,并根据各标准等级的特征字符的占比确定针对所述单段日志代码匹配语言种类并使用该种类语言将所述日志代码转化成日志文本,从而解决了针对跨语言场景下的日志转化的正确率不足的问题,保证了日志的顺利收集和后处理。
进一步地,本发明的中控模块将单段所述日志代码中提取的各特征字符依次与所述语言标准库中的第i类语言的标准字符进行比对确定了针对单段日志代码中单个字符等级的判定方式,本发明将日志代码的每个特征字符进行划分,将每个字符对应不同的语言的种类数,从而为选取正确的识别语言提供了可行性基础。
进一步地,本发明的中控模块在完成特征字符标准等级划分后,根据各特征字符占比确定与单段所述日志代码匹配的语言种类的判定方式,从而精准的确定了日志代码匹配的语言种类。
进一步地,中控模块将所述单段日志代码分割成多个具有预设长度的字符串,分别解析分割后的字符串,并滤除解析后的符号以及信号码元以完成该段日志代码中特征字符的提取,保证了提取的有效性。
进一步地,本发明的中控模块根据第i类语言的二级特征字符与总特征字符的占比确定了选取对应的一级特征字符数量最高的语言将该单段日志代码转化成第一日志文本或使用第i类语言将该单段日志字符转化成第二日志文本,从而准确的将日志代码转化成相应的可读的日志文本。
进一步地,当中控模块判定单段所述日志代码无匹配语言时,中控模块通过不通的调节方式将字符串的长度对应的缩短,从而重新调整字符串的分割长度,以解决单段所述日志代码无匹配语言的问题。
进一步地,中控模块根据转化后的日志文本的准确率判定选用的语言种类与所述单段日志代码的匹配是否符合预设标准并在判定该类语言与该段日志代码的匹配不符合预设标准时重新选取语言。
进一步地,中控模块确定了重新统计该段日志代码中的二级特征字符并使用包含对应二级特征字符数量最多的语言将该段日志字符转化成第三日志文本和重新选取对应的一级特征字符数量次高的语言将该段日志字符转化成第四日志文本,从而提高了转化的日志文本的正确率。
进一步地,本发明对第一准确率比对条件和第二准确率比对条件划定了取值范围,从而保证了语言选择的准确性,进而解决针对跨语言场景下的日志转化的正确率不足的问题,保证了日志的顺利收集和后处理。
附图说明
图1为本发明实施例所述跨语言场景下的日志收集方法的流程图;
图2为本发明实施例所述特征字符标准等级的判定方式的流程图;
图3为本发明实施例所述单段所述日志代码匹配的语言种类的判定方式的流程图;
图4为本发明实施例所述选用的语言种类与所述单段日志代码的匹配是否符合预设标准的流程图。
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
本发明所述中控模块在本次检测前根据前三个月中本系统中控模块累计进行的85524次控制单段日志代码分割的字符串的长度、各特征字符的占比情况、转化后的日志文本的准确率的识别、综合确定针对本次系统判定的各项预设参数标准的数值。本领域的技术人员可以理解的是,本发明所述系统针对单项上述参数的确定方式可以为根据数据分布选取占比最高的数值作为预设标准参数、使用加权求和以将求得的数值作为预设标准参数、将各历史数据代入至特定公式并将利用该公式求得的数值作为预设标准参数或其他选取方式,只要满足本发明所述系统能够通过获取的数值明确界定单项判定过程中的不同特定情况即可。
请参阅图1、图2、图3以及图4所示,其分别为本发明实施例所述跨语言场景下的日志收集方法的流程图;本发明实施例所述特征字符标准等级的判定方式的流程图;本发明实施例所述单段所述日志代码匹配的语言种类的判定方式的流程图;本发明实施例所述选用的语言种类与所述单段日志代码的匹配是否符合预设标准的流程图。
本发明实施例的系统,包括:
步骤S1,用户的操作行为触发中控模块中设置的日志点后,开始记录各应用服务器产生的日志代码;
步骤S2,对于所述中控模块记录的单段所述日志代码,提取该段日志代码中的特征字符,中控模块根据与单个特征字符匹配的语言标准库中的语言种类数量确定针对该特征字符的标准等级,并根据各标准等级的特征字符的占比确定针对单段日志代码匹配语言种类并使用匹配的语言种类将所述日志代码转化成日志文本;
步骤S3,所述中控模块验证所述日志文本并根据验证结果判定是否切换对应种类的语言以针对与该日志文本对应的日志代码进行重新转化;
步骤S4,所述中控模块在所述日志文本验证成功后根据日志文本的内容对其进行分类并将分类后的日志文本输送至对应的日志收集模块;
步骤S5,所述日志收集模块根据预设采集频率收集所述分类后的日志文本。
具体而言,在所述步骤S2中,所述中控模块将单段所述日志代码中提取的各特征字符依次与所述语言标准库中的第i类语言的标准字符进行比对,设定i=1...n,n为语言标准库中语言种类的总数,对于单种语言,例如:c,c++,java,python,PHP,c#,Ruby,go,kotlin,swift,对于单个特征字符,中控模块根据该特征字符匹配语言标准库中语言种类数量确定针对该特征字符标准等级的判定方式,其中,
第一特征字符判定方式为所述中控模块判定所述特征字符为针对第i类语言的一级特征字符;所述第一特征字符判定方式满足所述特征字符仅与所述第i类语言匹配;
第二特征字符判定方式为所述中控模块判定所述特征字符为针对第i类语言的二级特征字符;所述第二特征字符判定方式满足所述特征字符与包括所述第i类语言的多个种类语言匹配;
第三特征字符判定方式为所述中控模块判定所述特征字符为三级特征字符;所述第三特征字符判定方式满足所述特征字符与所述语言标准库中的全部种类语言匹配。
具体而言,所述中控模块在第一预设条件下根据各特征字符占比确定与单段所述日志代码匹配的语言种类的判定方式,其中:
第一判定方式为所述中控模块判定单段所述日志代码无匹配语言,并根据第一预设一级特征字符占比与一级特征字符占比的差值将该段日志代码分割成字符串的长度降低至对应值;所述第一判定方式满足单段所述日志代码中属于所述语言标准库中各类语言的所述一级特征字符占比均小于第一预设一级特征字符占比40%,且该段日志代码中的三级特征字符占比大于等于预设三级特征字符占比20%;
第二判定方式为所述中控模块判定单段所述日志代码匹配多种语言,中控模块统计该段日志代码中属于对应种类语言的二级特征字符数量,并根据各二级特征字符的占比确定针对该段日志代码匹配的语言种类的判定方式;所述第二判定方式满足所述语言标准库中存在多个种类语言,单段所述日志代码中属于上述各类语言的所述一级特征字符占比均大于等于所述第一预设一级特征字符占比40%并均小于第二预设一级特征字符占比70%,且该段日志代码中的三级特征字符占比小于预设三级特征字符占比20%;
第三判定方式为所述中控模块判定单段所述日志代码匹配单种语言,中控模块分别统计该段日志代码的语言中能够应用于对应种类语言的一级特征字符的数量并将数量最多的一级特征字符所属种类的语言作为用于该段日志代码的语言;所述第三判定方式满足所述语言标准库中存在若干种类语言,单段所述日志代码中属于上述语言的所述一级特征字符占比均大于等于所述第二预设一级特征字符占比70%,且该段日志代码中的三级特征字符占比小于预设三级特征字符占比20%;
所述第一预设条件满足所述中控模块完成对单段所述日志代码中全部特征字符标准等级的判定。
具体而言,在所述步骤S2中,所述中控模块将所述单段日志代码分割成多个具有预设长度为10的字符串,分别解析分割后的字符串,并滤除解析后的符号以及信号码元以完成该段日志代码中特征字符的提取,中控模块根据提取的特征字符生成针对该段日志代码的日志文本。
具体而言,所述中控模块在所述第二判定方式下根据所述第i类语言的二级特征字符与总特征字符的占比确定针对该段日志代码匹配语言的种类的判定方式,其中,
第一语言判定方式为所述中控模块判定选取对应的一级特征字符数量最高的语言将该单段日志代码转化成第一日志文本;所述第一语言判定方式满足单段所述日志代码中属于所述第i类语言的所述二级特征字符的占比小于预设二级特征字符占比10%;
第二语言判定方式为所述中控模块判定使用第i类语言将单段日志字符转化成第二日志文本;所述第二语言判定方式满足单段所述日志代码中属于所述第i类语言的所述二级特征字符的占比大于等于预设二级特征字符占比。
具体而言,所述中控模块设置有在第一判定方式下缩短所述单段日志代码分割的字符串的长度的若干长度的调节方式,其中,每种调节方式对缩短字符串的长度的调节大小不同。
具体而言,所述中控模块在所述第三判定方式下根据转化后的所述日志文本的准确率判定选用的语言种类与所述单段日志代码的匹配是否符合预设标准并在判定该类语言与该段日志代码的匹配不符合预设标准时重新统计该段日志代码中的二级特征字符并使用包含对应二级特征字符数量最多的语言将该段日志字符转化成第三日志文本,或,重新选取对应的一级特征字符数量次高的语言将该段日志字符转化成第四日志文本。
具体而言,所述中控模块在第一准确率比对条件下重新统计该段日志代码中的二级特征字符并使用包含对应二级特征字符数量最多的语言将该段日志字符转化成第三日志文本,以及在第二准确率比对条件下重新选取对应的一级特征字符数量次高的语言将该段日志字符转化成第四日志文本。
具体而言,所述第一准确率比对条件满足所述转化后的日志文本的准确率小于第一预设准确率85%,以及第二准确率比对条件满足所述转化后的日志文本的准确率大于所述第一预设准确率且小于第二预设准确率90%。
具体而言,所述日志文本的分类包括:应用程序、安全、升级、系统、转发事件、应用程序以及服务日志。
实施例1
本实施例假设收集到的单段所述日志代码为“JKLMOPQ#@#\RSTUV#@#\WXYZ”提取该段日志代码中的特征字符后得到“J K L M O P Q R S T U V W X Y Z”,将得到的每个特征字符与语言标准库中第i类语言的标准字符进行比对,设定i=1...n,n为语言标准库中语言种类的总数,经过比对后完成特征字符标准等级判定如表1所示,
统计后,一级特征字符占比62.5%,二级特征字符占比25%,三级特征12.5%,
满足第二判定方式,即单段所述日志代码中属于上述各类语言的所述一级特征字符占比均大于等于所述第一预设一级特征字符占比40%并均小于第二预设一级特征字符占比70%,且该段日志代码中的三级特征字符占比小于预设三级特征字符占比20%,则中控模块统计该段日志代码中属于对应种类语言的二级特征字符数量,经过进一步统计:第1类语言的二级特征字符为1个,第2类语言的二级特征字符为2个,第3类语言的二级特征字符为1个,占比分别为6.25%,12.5%和6.25%,则满足单段所述日志代码中属于所述第2类语言的所述二级特征字符的占比大于等于预设二级特征字符占比10%的第二语言判定方式的条件,则使用第2类语言将该单段日志字符转化成第二日志文本。
实施例2
本实施例假设收集到的单段所述日志代码为“abdefg#@#\hjklm#@#\opqrs”提取该段日志代码中的特征字符后得到“a b d e f g h j k l m o p q r s”,将得到的每个特征字符与语言标准库中第i类语言的标准字符进行比对,设定i=1...n,n为语言标准库中语言种类的总数,经过比对后完成特征字符标准等级判定如表2所示,
统计后,13一级特征字符占比81.25%,2二级特征字符占比12.5%,1三级特征6.25%,
满足第三判定方式,即单段所述日志代码中属于上述语言的所述一级特征字符占比均大于等于所述第二预设一级特征字符占比70%,且该段日志代码中的三级特征字符占比小于预设三级特征字符占比20%;则中控模块分别统计该段日志代码的语言中能够应用于对应种类语言的一级特征字符的数量为:第1类语言的一级特征字符为7个,第2类语言的一级特征字符为3个,第3类语言的一级特征字符为2个,第4类语言的一级特征字符为1个,则将第1类语言作为用于该段日志代码的语言,转化后的所述日志文本的准确率为93%,则将第1类语言作为用于该段日志代码的语言满足要求,并相应的转化成对应的日志文本。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种跨语言场景下的日志收集方法,其特征在于,包括:
步骤S1,用户的操作行为触发中控模块中设置的日志点后,开始记录各应用服务器产生的日志代码;
步骤S2,对于所述中控模块记录的单段所述日志代码,提取该段日志代码中的特征字符,中控模块根据与单个特征字符匹配的语言标准库中的语言种类数量确定针对该特征字符的标准等级,并根据各标准等级的特征字符的占比确定针对单段日志代码匹配语言种类并使用匹配的语言种类将所述日志代码转化成日志文本;
步骤S3,所述中控模块验证所述日志文本并根据验证结果判定是否切换对应种类的语言以针对与该日志文本对应的日志代码进行重新转化;
步骤S4,所述中控模块在所述日志文本验证成功后根据日志文本的内容对其进行分类并将分类后的日志文本输送至对应的日志收集模块;
步骤S5,所述日志收集模块根据预设采集频率收集所述分类后的日志文本;
在所述步骤S2中,所述中控模块将单段所述日志代码中提取的各特征字符依次与所述语言标准库中的第i类语言的标准字符进行比对,设定i=1...n,n为语言标准库中语言种类的总数,对于单个特征字符,中控模块根据该特征字符匹配语言标准库中语言种类数量确定针对该特征字符标准等级的判定方式,其中,
第一特征字符判定方式为所述中控模块判定所述特征字符为针对第i类语言的一级特征字符;所述第一特征字符判定方式满足所述特征字符仅与所述第i类语言匹配;
第二特征字符判定方式为所述中控模块判定所述特征字符为针对第i类语言的二级特征字符;所述第二特征字符判定方式满足所述特征字符与包括所述第i类语言的多个种类语言匹配;
第三特征字符判定方式为所述中控模块判定所述特征字符为三级特征字符;所述第三特征字符判定方式满足所述特征字符与所述语言标准库中的全部种类语言匹配;
所述中控模块在第一预设条件下根据各特征字符占比确定与单段所述日志代码匹配的语言种类的判定方式,其中:
第一判定方式为所述中控模块判定单段所述日志代码无匹配语言,并根据第一预设一级特征字符占比与一级特征字符占比的差值将该段日志代码分割成字符串的长度降低至对应值;所述第一判定方式满足单段所述日志代码中属于所述语言标准库中各类语言的所述一级特征字符占比均小于第一预设一级特征字符占比,且该段日志代码中的三级特征字符占比大于等于预设三级特征字符占比;
第二判定方式为所述中控模块判定单段所述日志代码匹配多种语言,中控模块统计该段日志代码中属于对应种类语言的二级特征字符数量,并根据各二级特征字符的占比确定针对该段日志代码匹配的语言种类的判定方式;所述第二判定方式满足所述语言标准库中存在多个种类语言,单段所述日志代码中属于上述各类语言的所述一级特征字符占比均大于等于所述第一预设一级特征字符占比并均小于第二预设一级特征字符占比,且该段日志代码中的三级特征字符占比小于预设三级特征字符占比;
第三判定方式为所述中控模块判定单段所述日志代码匹配单种语言,中控模块分别统计该段日志代码的语言中能够应用于对应种类语言的一级特征字符的数量并将数量最多的一级特征字符所属种类的语言作为用于该段日志代码的语言;所述第三判定方式满足所述语言标准库中存在若干种类语言,单段所述日志代码中属于上述语言的所述一级特征字符占比均大于等于所述第二预设一级特征字符占比,且该段日志代码中的三级特征字符占比小于预设三级特征字符占比;
所述第一预设条件满足所述中控模块完成对单段所述日志代码中全部特征字符标准等级的判定。
2.根据权利要求1所述的跨语言场景下的日志收集方法,其特征在于,在所述步骤S2中,所述中控模块将所述单段日志代码分割成多个具有预设长度的字符串,分别解析分割后的字符串,并滤除解析后的符号以及信号码元以完成该段日志代码中特征字符的提取,中控模块根据提取的特征字符生成针对该段日志代码的日志文本。
3.根据权利要求1所述的跨语言场景下的日志收集方法,其特征在于,所述中控模块在所述第二判定方式下根据所述第i类语言的二级特征字符与总特征字符的占比确定针对该段日志代码匹配语言的种类的判定方式,其中,
第一语言判定方式为所述中控模块判定选取对应的一级特征字符数量最高的语言将该单段日志代码转化成第一日志文本;所述第一语言判定方式满足单段所述日志代码中属于所述第i类语言的所述二级特征字符的占比小于预设二级特征字符占比;
第二语言判定方式为所述中控模块判定使用第i类语言将单段日志代码转化成第二日志文本;所述第二语言判定方式满足单段所述日志代码中属于所述第i类语言的所述二级特征字符的占比大于等于预设二级特征字符占比。
4.根据权利要求3所述的跨语言场景下的日志收集方法,其特征在于,所述中控模块设置有在所述第一判定方式下缩短所述单段日志代码分割的字符串的长度的若干长度的调节方式,其中,每种调节方式对缩短字符串的长度的调节大小不同。
5.根据权利要求1所述的跨语言场景下的日志收集方法,其特征在于,所述中控模块在所述第三判定方式下根据转化后的所述日志文本的准确率判定选用的语言种类与所述单段日志代码的匹配是否符合预设标准并在判定该类语言与该段日志代码的匹配不符合预设标准时重新统计该段日志代码中的二级特征字符并使用包含对应二级特征字符数量最多的语言将该段日志代码转化成第三日志文本,或,重新选取对应的一级特征字符数量次高的语言将该段日志代码转化成第四日志文本。
6.根据权利要求5所述的跨语言场景下的日志收集方法,其特征在于,所述中控模块在第一准确率比对条件下重新统计该段日志代码中的二级特征字符并使用包含对应二级特征字符数量最多的语言将该段日志代码转化成第三日志文本,以及在第二准确率比对条件下重新选取对应的一级特征字符数量次高的语言将该段日志代码转化成第四日志文本。
7.根据权利要求6所述的跨语言场景下的日志收集方法,其特征在于,所述第一准确率比对条件满足所述转化后的日志文本的准确率小于第一预设准确率,以及第二准确率比对条件满足所述转化后的日志文本的准确率大于所述第一预设准确率且小于第二预设准确率。
8.根据权利要求1所述的跨语言场景下的日志收集方法,其特征在于,所述日志文本的分类包括:应用程序、安全、升级、系统、转发事件、应用程序以及服务日志。
CN202311238695.2A 2023-09-25 2023-09-25 一种跨语言场景下的日志收集方法 Active CN116974877B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311238695.2A CN116974877B (zh) 2023-09-25 2023-09-25 一种跨语言场景下的日志收集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311238695.2A CN116974877B (zh) 2023-09-25 2023-09-25 一种跨语言场景下的日志收集方法

Publications (2)

Publication Number Publication Date
CN116974877A CN116974877A (zh) 2023-10-31
CN116974877B true CN116974877B (zh) 2024-01-30

Family

ID=88477111

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311238695.2A Active CN116974877B (zh) 2023-09-25 2023-09-25 一种跨语言场景下的日志收集方法

Country Status (1)

Country Link
CN (1) CN116974877B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103714179A (zh) * 2014-01-08 2014-04-09 浪潮(北京)电子信息产业有限公司 一种系统日志的多语言支持方法和系统
CN107229566A (zh) * 2017-06-07 2017-10-03 携程旅游网络技术(上海)有限公司 用于soa服务转换语言保持功能一致性的方法及系统
CN108108356A (zh) * 2016-11-24 2018-06-01 北京搜狗科技发展有限公司 一种文字翻译方法、装置及设备
CN108897742A (zh) * 2018-06-29 2018-11-27 郑州云海信息技术有限公司 一种日志国际化方法、系统、设备及计算机可读存储介质
CN114580383A (zh) * 2022-03-03 2022-06-03 中国工商银行股份有限公司 日志分析模型训练方法、装置、电子设备以及存储介质
CN116049114A (zh) * 2022-12-07 2023-05-02 中科云谷科技有限公司 用于国际化日志的处理方法、处理器及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9910850B2 (en) * 2007-10-25 2018-03-06 Disney Enterprises, Inc. System and method of localizing assets using text substitutions
US8874426B2 (en) * 2009-06-30 2014-10-28 International Business Machines Corporation Method for translating computer generated log files

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103714179A (zh) * 2014-01-08 2014-04-09 浪潮(北京)电子信息产业有限公司 一种系统日志的多语言支持方法和系统
CN108108356A (zh) * 2016-11-24 2018-06-01 北京搜狗科技发展有限公司 一种文字翻译方法、装置及设备
CN107229566A (zh) * 2017-06-07 2017-10-03 携程旅游网络技术(上海)有限公司 用于soa服务转换语言保持功能一致性的方法及系统
CN108897742A (zh) * 2018-06-29 2018-11-27 郑州云海信息技术有限公司 一种日志国际化方法、系统、设备及计算机可读存储介质
CN114580383A (zh) * 2022-03-03 2022-06-03 中国工商银行股份有限公司 日志分析模型训练方法、装置、电子设备以及存储介质
CN116049114A (zh) * 2022-12-07 2023-05-02 中科云谷科技有限公司 用于国际化日志的处理方法、处理器及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Design of integration framework for multi-language applications on logging platform in Java;XIA shouji.et.al;《ACTA PETROLEI SINICA》;第31卷(第5期);810-814 *
Language-agnostic representation learning for product search on e-commerce platforms;Ahuja, Aman, et al;《Proceedings of the 13th International Conference on Web Search and Data Mining.》;全文 *

Also Published As

Publication number Publication date
CN116974877A (zh) 2023-10-31

Similar Documents

Publication Publication Date Title
CN112163008B (zh) 基于大数据分析的用户行为数据处理方法及云计算平台
US11153144B2 (en) System and method of automated fault correction in a network environment
CN112306982B (zh) 异常用户检测方法、装置、计算设备及存储介质
CN112445912B (zh) 一种故障日志分类方法、系统、设备以及介质
CN113298638B (zh) 根因定位方法、电子设备及存储介质
CN111078513A (zh) 日志处理方法、装置、设备、存储介质及日志告警系统
CN109450869B (zh) 一种基于用户反馈的业务安全防护方法
CN114154995B (zh) 一种应用于大数据风控的异常支付数据分析方法及系统
CN110716857B (zh) 测试用例管理方法、装置、计算机设备和存储介质
CN116974877B (zh) 一种跨语言场景下的日志收集方法
CN114398315A (zh) 一种数据存储方法、系统、存储介质及电子设备
CN111966339B (zh) 埋点参数的录入方法、装置、计算机设备和存储介质
KR20210011822A (ko) 인공 지능 기반 비정상 로그를 탐지하는 방법 및 이를 구현하는 시스템
KR20210108340A (ko) 언어학적 분석 기법을 이용한 it 인프라 장애 학습 및 분석 시스템
CN109918638B (zh) 一种网络数据监测方法
CN113378156B (zh) 一种基于api的恶意文件检测方法和系统
CN115062144A (zh) 一种基于知识库和集成学习的日志异常检测方法与系统
CN114154020A (zh) 基于动态标签映射的大容量数据处理方法及装置
CN113986863A (zh) 一种云平台错误日志分类的方法、装置、设备及可读介质
CN111901310A (zh) 一种网站安全测试方法、装置、电子设备及存储介质
CN116260640B (zh) 基于人工智能进行大数据分析的信息拦截控制方法及系统
JP7103392B2 (ja) 異常検出方法、システムおよびプログラム
CN117290851B (zh) 基于漏洞识别的阅读安全增强方法及系统
KR102617320B1 (ko) 인공지능을 이용한 창작물 등급 분류 장치 및 방법
CN116610642B (zh) 一种多类型设备日志审计方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant