CN117093556A - 日志分类方法、装置、计算机设备及计算机可读存储介质 - Google Patents

日志分类方法、装置、计算机设备及计算机可读存储介质 Download PDF

Info

Publication number
CN117093556A
CN117093556A CN202311057904.3A CN202311057904A CN117093556A CN 117093556 A CN117093556 A CN 117093556A CN 202311057904 A CN202311057904 A CN 202311057904A CN 117093556 A CN117093556 A CN 117093556A
Authority
CN
China
Prior art keywords
log
classified
message
target
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311057904.3A
Other languages
English (en)
Inventor
池爽爽
田林波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kangjian Information Technology Shenzhen Co Ltd
Original Assignee
Kangjian Information Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kangjian Information Technology Shenzhen Co Ltd filed Critical Kangjian Information Technology Shenzhen Co Ltd
Priority to CN202311057904.3A priority Critical patent/CN117093556A/zh
Publication of CN117093556A publication Critical patent/CN117093556A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/144Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/162Delete operations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Library & Information Science (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种日志分类方法、装置、计算机设备及计算机可读存储介质,涉及互联网技术及数字医疗领域,可以提供一个清晰的日志组织结构,使相关人员很快理解日志数据的分类依据,进而提高对特定类型的日志进行操作和维护的效率。所述方法包括:获取待分类日志消息,待分类日志消息来源于至少一个业务系统的业务日志;根据待分类日志消息的关键字,在日志分类树的多个关键字节点中确定待分类日志消息对应的目标关键字节点,将每个目标关键字节点对应的多个日志组作为待分类日志消息对应的多个候选日志组;分别计算每个候选日志组与待分类日志消息之间的相似值,以及根据相似值,确定待分类日志消息对应的目标日志组。

Description

日志分类方法、装置、计算机设备及计算机可读存储介质
技术领域
本申请涉及互联网技术及数字医疗领域,特别是涉及一种日志分类方法、装置、计算机设备及计算机可读存储介质。
背景技术
随着互联网技术的不断发展,数字医疗领域的不断进步,越来越多地医疗互联网公司将医疗业务数据和业务流程数字化。在数字化过程中,日志数据的分类和流程挖掘显得格外的重要。
相关技术中,通常会按照功能将日志数据分为医疗系统日志,医疗应用程序日志,安全日志,网络日志,医疗数据库日志等。也可以使用机器学习算法来识别医疗日志数据中的关键词或文本特征,按照内容将医疗日志数据分为不同的类别。
在实现本申请的过程中,申请人发现相关技术至少存在以下问题:
机器学习算法存在分类解释性不足的问题,使得相关人员难以理解分类模型对医疗日志数据进行分类的依据,进而给后续医疗日志分析过程带来困难。与此同时,分类模型还需要不断被更新以应对新的医疗日志样式和特点。
发明内容
依据本申请第一方面,提供了一种日志分类方法,该方法包括:
获取待分类日志消息,所述待分类日志消息来源于至少一个业务系统的业务日志;
根据所述待分类日志消息的关键字,在日志分类树的多个关键字节点中确定所述待分类日志消息对应的目标关键字节点,将每个所述目标关键字节点对应的多个日志组作为所述待分类日志消息对应的多个候选日志组;
分别计算每个所述候选日志组与所述待分类日志消息之间的相似值,以及根据所述相似值,确定所述待分类日志消息对应的目标日志组。
可选地,所述根据所述待分类日志消息的关键字,在日志分类树的多个关键字节点中确定所述待分类日志消息对应的目标关键字节点,将每个所述目标关键字节点对应的多个日志组作为所述待分类日志消息对应的多个候选日志组,包括:
识别所述待分类日志消息的关键字,确定关键字数量和关键字中排位第一的指定关键字;
按照所述关键字数量,在所述日志分类树的全部长度节点中搜索目标长度节点,其中,所述目标长度节点包括所述多个关键字节点;
在所述多个关键字节点中确定节点标识与所述指定关键字一致的目标关键字节点,以及确定所述目标关键字节点对应的叶节点,将所述叶节点中存储的多个日志组作为所述待分类日志消息对应的多个候选日志组。
可选地,所述确定所述目标关键字节点对应的叶节点,将所述叶节点中存储的多个日志组作为所述待分类日志消息对应的多个候选日志组之后,所述方法还包括:
若所述多个关键字节点中不存在与所述指定关键字一致的目标关键字节点,则将所述指定关键字的关键字内容更新为指定标识符;
在所述多个关键字节点中确定节点标识与所述指定标识符一致的目标关键字节点,以及确定所述目标关键字节点对应的叶节点,将所述叶节点中存储的多个日志组作为所述待分类日志消息对应的多个候选日志组。
可选地,所述计算每个所述候选日志组与所述待分类日志消息之间的相似值,包括:
查询每个所述候选日志组中存储的日志事件,所述日志事件的关键字包括常量关键字和变量关键字,所述常量关键字是所述候选日志组中全部日志消息的恒定部分,所述变量关键字为指定标识符;
逐一将每个所述日志事件中的关键字与所述待分类日志消息中的关键字进行比对,以及依据比对结果,计算每个所述日志事件与所述待分类日志消息之间的相似值,得到多个相似值;
根据所述多个相似值,确定所述待分类日志消息对应的目标日志组。
可选地,所述根据所述多个相似值,确定所述待分类日志消息对应的目标日志组,包括:
在所述多个相似值中提取相似值大于其他相似值的指定相似值;
将所述指定相似值与预设相似值进行比对;
若比对结果指示所述指定相似值大于等于所述预设相似值,则确定所述指定相似值对应的候选日志组为所述目标日志组;
若比对结果指示所述指定相似值小于所述预设相似值,则根据所述待分类日志消息和所述待分类日志消息的消息标识,创建新的日志组,将所述新的日志组作为所述目标日志组。
可选地,所述获取待分类日志消息之前,所述方法还包括:
根据所述日志分类树的结构,定义日志信息网格的行和列;
所述确定所述待分类日志消息对应的目标日志组之后,所述方法还包括:
将所述待分类日志消息添加至所述日志信息网格的单元格中,得到待展示网格,将所述待展示网格发送至展示终端进行展示;
将所述待分类日志消息的消息标识添加至所述目标日志组对应的目标消息标识组中,以及根据所述待分类日志消息的关键字更新所述目标日志组的日志事件的关键字。
可选地,所述获取待分类日志消息,包括:
在日志库中提取业务日志;
在所述业务日志中提取待处理日志消息,以及采用预设正则表达式,删除所述待处理日志消息中的指定标识,得到所述待分类日志消息。
依据本申请第二方面,提供了一种日志分类装置,该装置包括:
获取模块,用于获取待分类日志消息,所述待分类日志消息来源于至少一个业务系统的业务日志;
确定模块,用于根据所述待分类日志消息的关键字,在日志分类树的多个关键字节点中确定所述待分类日志消息对应的目标关键字节点,将每个所述目标关键字节点对应的多个日志组作为所述待分类日志消息对应的多个候选日志组;
计算模块,用于分别计算每个所述候选日志组与所述待分类日志消息之间的相似值,以及根据所述相似值,确定所述待分类日志消息对应的目标日志组。
可选地,所述确定模块,用于识别所述待分类日志消息的关键字,确定关键字数量和关键字中排位第一的指定关键字;按照所述关键字数量,在所述日志分类树的全部长度节点中搜索目标长度节点,其中,所述目标长度节点包括所述多个关键字节点;在所述多个关键字节点中确定节点标识与所述指定关键字一致的目标关键字节点,以及确定所述目标关键字节点对应的叶节点,将所述叶节点中存储的多个日志组作为所述待分类日志消息对应的多个候选日志组。
可选地,所述确定模块,还用于若所述多个关键字节点中不存在与所述指定关键字一致的目标关键字节点,则将所述指定关键字的关键字内容更新为指定标识符;在所述多个关键字节点中确定节点标识与所述指定标识符一致的目标关键字节点,以及确定所述目标关键字节点对应的叶节点,将所述叶节点中存储的多个日志组作为所述待分类日志消息对应的多个候选日志组。
可选地,所述计算模块,用于查询每个所述候选日志组中存储的日志事件,所述日志事件的关键字包括常量关键字和变量关键字,所述常量关键字是所述候选日志组中全部日志消息的恒定部分,所述变量关键字为指定标识符;逐一将每个所述日志事件中的关键字与所述待分类日志消息中的关键字进行比对,以及依据比对结果,计算每个所述日志事件与所述待分类日志消息之间的相似值,得到多个相似值;根据所述多个相似值,确定所述待分类日志消息对应的目标日志组。
可选地,所述计算模块,用于在所述多个相似值中提取相似值大于其他相似值的指定相似值;将所述指定相似值与预设相似值进行比对;若比对结果指示所述指定相似值大于等于所述预设相似值,则确定所述指定相似值对应的候选日志组为所述目标日志组;若比对结果指示所述指定相似值小于所述预设相似值,则根据所述待分类日志消息和所述待分类日志消息的消息标识,创建新的日志组,将所述新的日志组作为所述目标日志组。
可选地,所述装置还包括,
第一设置模块,用于根据所述日志分类树的结构,定义日志信息网格的行和列。
可选地,所述装置还包括:
展示模块,用于将所述待分类日志消息添加至所述日志信息网格的单元格中,得到待展示网格,将所述待展示网格发送至展示终端进行展示;
第二设置模块,用于将所述待分类日志消息的消息标识添加至所述目标日志组对应的目标消息标识组中,以及根据所述待分类日志消息的关键字更新所述目标日志组的日志事件的关键字。
可选地,所述获取模块,用于在日志库中提取业务日志;在所述业务日志中提取待处理日志消息,以及采用预设正则表达式,删除所述待处理日志消息中的指定标识,得到所述待分类日志消息。
依据本申请第三方面,提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面中任一项所述方法的步骤。
依据本申请第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一项所述的方法的步骤。
借由上述技术方案,本申请提供的一种日志分类方法、装置、计算机设备及计算机可读存储介质,本申请首先获取来源于至少一个业务系统的业务日志的待分类日志消息,进而根据待分类日志消息的关键字,在日志分类树的多个关键字节点中确定待分类日志消息对应的目标关键字节点。接下来,将每个目标关键字节点对应的多个日志组作为待分类日志消息对应的多个候选日志组。进一步地,分别计算每个候选日志组与待分类日志消息之间的相似值。最终,以及根据相似值,确定待分类日志消息对应的目标日志组。日志分类树可以提供一个清晰的日志组织结构,使相关人员很快理解日志数据的分类依据,进而提高对特定类型的日志进行操作和维护的效率。与此同时,将相关日志消息归类到一起,可以更容易地进行搜索、过滤和分析,从而提高系统维护的效率。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本申请实施例提供的一种日志分类方法流程示意图;
图2A示出了本申请实施例提供的一种日志分类方法流程示意图;
图2B示出了本申请实施例提供的一种日志分类树结构示意图;
图3A示出了本申请实施例提供的一种日志分类装置的结构示意图;
图3B示出了本申请实施例提供的一种日志分类装置的结构示意图;
图4示出了本申请实施例提供的一种计算机设备的装置结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
本申请实施例提供了一种日志分类方法,如图1所示,该方法包括:
101、获取待分类日志消息,待分类日志消息来源于至少一个业务系统的业务日志。
随着互联网技术的不断发展,数字医疗领域的不断进步,越来越多地医疗互联网公司将医疗业务数据和业务流程数字化。在数字化过程中,日志数据的分类和流程挖掘显得格外的重要。目前,通常会按照功能将日志数据分为系统日志,应用程序日志,安全日志,网络日志,数据库日志等。也可以使用机器学习算法来识别日志数据中的关键词或文本特征,按照内容将日志数据分为不同的类别。但是申请人认识到,机器学习算法存在分类解释性不足的问题,使得相关人员难以理解分类模型对日志数据进行分类的依据,进而给后续日志分析过程带来困难。与此同时,分类模型还需要不断被更新以应对新的日志样式和特点。因此,本申请提供了一种日志分类方法,首先获取来源于至少一个业务系统的业务日志的待分类日志消息,进而根据待分类日志消息的关键字,在日志分类树的多个关键字节点中确定待分类日志消息对应的目标关键字节点。接下来,将每个目标关键字节点对应的多个日志组作为待分类日志消息对应的多个候选日志组。进一步地,分别计算每个候选日志组与待分类日志消息之间的相似值。最终,以及根据相似值,确定待分类日志消息对应的目标日志组。日志分类树可以提供一个清晰的日志组织结构,使相关人员很快理解日志数据的分类依据,进而提高对特定类型的日志进行操作和维护的效率。与此同时,将相关日志消息归类到一起,可以更容易地进行搜索、过滤和分析,从而提高系统维护的效率。
在医疗领域中,日志分类是指将医疗系统中生成的日志消息按照一定的规则和标准进行分类和整理的过程。这有助于对医疗系统运行情况进行监控、故障排查和性能优化。在实际运行时,响应日志分类指令,日志分类系统可以从至少一个业务系统的业务日志中获取至少一个待分类日志消息。业务系统可以是医院信息管理系统(HIMS)、电子病历系统(EMR)、医疗设备监控系统等。这些系统会记录各种操作、事件和异常情况的日志消息。
待分类日志消息来源于待分类的业务日志,业务日志可以包括操作日志,即记录用户在系统中的操作,如登录、查看患者信息、开具医嘱等信息的日志、错误日志,即记录系统运行过程中出现的错误、异常和故障信息的日志、安全日志,即记录系统的安全事件和访问控制信息的日志。这些业务日志可以通过日志管理工具或系统自带的日志功能收集到日志分类系统关联的日志库中。
102、根据待分类日志消息的关键字,在日志分类树的多个关键字节点中确定待分类日志消息对应的目标关键字节点,将每个目标关键字节点对应的多个日志组作为待分类日志消息对应的多个候选日志组。
其中,消息关键字可以用于标识和识别医疗系统中的各种消息,例如,消息A为“患者A依据诊方下单买药”,那么消息关键字可以是执行主体属性“患者A”、事件属性“依据诊方下单”、资源属性“药”。
多个日志组是存储在日志分类树中的,日志分类树的根节点位于日志分类树的顶层,日志分类树的底层包含叶节点。日志分类树中还包括长度节点和关键字节点,长度节点和关键字节点为日志分类树的内部节点,用于指导搜索过程,并不包含任何日志组。日志分类系统根据每个待分类日志消息的消息关键字,在日志分类树中确定每个待分类日志消息对应的多个日志组。
103、分别计算每个候选日志组与待分类日志消息之间的相似值,以及根据相似值,确定待分类日志消息对应的目标日志组。
在本申请实施例中,对于每个待分类日志消息,日志分类系统需要将待分类日志消息的关键字与每个日志组的日志事件的关键字进行比对,进而根据比对结果计算待分类日志消息与每个日志组之间的相似值,进而选取相似值符合预设条件的日志组作为目标日志组。通过将待分类日志消息的关键字与日志组的日志事件的关键字进行比对,并计算相似值,可以帮助日志分类系统更准确地将待分类日志消息分配到合适的日志组中。这样可以提高日志分类的准确性和效率,使得日志管理更加方便和可靠。
本申请实施例提供的方法,首先获取来源于至少一个业务系统的业务日志的待分类日志消息,进而根据待分类日志消息的关键字,在日志分类树的多个关键字节点中确定待分类日志消息对应的目标关键字节点。接下来,将每个目标关键字节点对应的多个日志组作为待分类日志消息对应的多个候选日志组。进一步地,分别计算每个候选日志组与待分类日志消息之间的相似值。最终,以及根据相似值,确定待分类日志消息对应的目标日志组。日志分类树可以提供一个清晰的日志组织结构,使相关人员很快理解日志数据的分类依据,进而提高对特定类型的日志进行操作和维护的效率。与此同时,将相关日志消息归类到一起,可以更容易地进行搜索、过滤和分析,从而提高系统维护的效率。
本申请实施例提供了一种日志分类方法,如图2A所示,该方法包括:
201、在业务日志中提取待处理日志消息,以及采用预设正则表达式,删除待处理日志消息中的指定标识,得到待分类日志消息。
在实际运行过程中,一个数字医疗服务应用或数字医疗服务系统可以关联多个业务系统,在医疗领域中,业务系统可以是医院信息管理系统(HIMS)、电子病历系统(EMR)、医疗设备监控系统等。这些业务系统在运行过程中会产生业务日志,包括操作日志、错误日志、安全日志等。这些业务日志可以通过日志管理工具或系统自带的日志功能收集到日志分类系统关联的日志库中。日志分类系统可以在日志库中提取全部待处理日志,从全部待处理日志中提取出待分类日志消息。
具体地,相关技术人员可以通过系统后台手动发起日志分类指令,也可以在系统后台预设时间间隔,如10天、15天、30天等,以使系统周期性提取日志库中存储的业务日志。进一步地,日志分类系统在业务日志中提取待处理日志消息,得到待处理日志消息。最终,查询相关技术人员预设的正则表达式,采用预设正则表达式对待处理日志消息进行预处理,即删除待处理日志消息中的指定标识,如IP地址和患者标识等,得到待分类日志消息,本申请对指定标识的内容不进行具体限定。
通过预设正则表达式,系统可以对待处理日志消息进行预处理,删除敏感信息或无用信息,从而净化待处理日志消息,提高后续分类和分析的准确性和效果。
202、根据待分类日志消息的关键字,在日志分类树的多个关键字节点中确定待分类日志消息对应的目标关键字节点,将每个目标关键字节点对应的多个日志组作为待分类日志消息对应的多个候选日志组。
在本申请实施例中,日志分类系统识别待分类日志消息的关键字,确定关键字数量和指定关键字。根据待分类日志消息的关键字数量和指定关键字,日志分类系统搜索日志分类树,找出待分类日志消息对应的目标叶节点。进而根据目标叶节点存储的多个日志组,确定每个待分类日志消息对应的多个候选日志组。
其中,多个日志组是存储在日志分类树中的,如图2B所示,日志分类树的根节点位于日志分类树的顶层,日志分类树的底层包含叶节点。日志分类树中还包括长度节点和关键字节点,长度节点和关键字节点是日志分类树的内部节点,用于指导搜索过程,并不包含任何日志组。日志分类系统根据每个待分类日志消息的消息关键字,在日志分类树中确定每个待分类日志消息对应的多个日志组。在本申请实施例中,日志分类树的一种特殊设计是所有叶节点的深度相同,并由预定义的参数深度固定,此参数限制了搜索过程中访问的节点数,从而提高了搜索效率。
具体地,识别待分类日志消息的关键字数量,其中,关键字可以是消息中的单词、短语或其他基本单位。接下来,从待分类日志消息中获取指定关键字,需要说明的是,在实际运行时指定关键字可以是排位第一的关键字,也可以根据特定规则或约定进行选择。进一步地,按照关键字数量,在日志分类树中搜索目标长度节点,其中,目标长度节点包括关键字节点,目标长度节点的节点标识与关键字数量一致。随后,日志分类系统识别待分类日志消息的指定关键字,当识别到指定关键字为常量时,需要在关键字节点中找到与指定关键字一致的目标关键字节点,并确定该目标关键字节点对应的叶节点,将叶节点存储的多个日志组作为待分类日志消息对应的多个候选日志组。比如"医生A对患者B问诊结束"这条日志消息的关键字为“医生A、患者B、问诊、结束”,关键字数量是4,可以进入"Length:4"目标长度节点。然后根据日志的第一个关键字"医生A"进入节点表示为"医生A"的关键字节点。当指定关键字为变量,如数字时,目标长度节点下的多个关键字节点中不存在与指定关键字一致的目标关键字节点,此时将指定关键字的关键字内容更新为指定标识符,如“*”,在关键字节点中确定节点标识与指定标识符“*”一致的目标关键字节点,以及确定目标关键字节点对应的叶节点,将叶节点存储的多个日志组作为待分类日志消息对应的多个日志组。
通过识别待分类日志消息的关键字数量和获取排位第一的指定关键字,能够实现对待分类日志消息的精准分类。这有助于更准确地将日志消息分配到正确的类别或组群中,提高分类的准确性。与此同时,按照关键字数量在日志分类树中搜索目标长度节点,可以提高待分类日志消息的检索效率。通过关联目标长度节点,可以更快地定位与待分类日志消息相关的分类信息,加快检索速度。
203、分别计算每个所述候选日志组与所述待分类日志消息之间的相似值,得到多个相似值。
在本申请实施例中,通过计算相似值,可以更准确地将待分类日志消息分配到正确的日志组中。相似值可以作为分类的依据,越高的相似值表示待分类的日志消息与目标日志组的匹配度越高。
具体地,确定待分类日志消息对应的多个日志组。随后,查询每个日志组对应的日志事件,其中,日志事件是根据日志组中存储的全部日志消息的恒定部分生成的,具体可以保留日志消息中的恒定部分,将存在变化的关键字用指定标识符代替,如“*”、“#”。进一步地,逐一将待分类日志消息中的关键字与每个日志事件中的关键字进行比对,以及依据比对结果,计算待分类日志消息与每个日志事件之间的相似值,得到多个相似值,具体可以基于下述公式1和公式2实现。
公式1:
公式2:
其中,和分别表示待分类日志消息中第i个关键字和日志事件中第i个关键字;n为待分类日志消息或日志时间的关键字数;t1和t2为两个关键字。需要说明的是,如果日志事件的关键字中存在指定标识符,如“*”,则认为“*”与对应关键字一致。
204、根据多个相似值,确定待分类日志消息对应的目标日志组。
在本申请实施例中,通过相似度计算方法计算出待分类日志消息与每个日志组的相似值后,需要从多个相似值中找出符合预设条件的目标相似值,将目标相似值对应的日志组作为目标日志组。
具体地,在多个相似值中提取相似值大于其他相似值的指定相似值,将指定相似值与预设条件中的预设相似度阈值进行比对。若比对结果指示指定相似值大于等于预设相似度阈值,则确定指定相似值对应的日志组为目标日志组。若比对结果指示指定相似值小于预设相似度阈值,则根据待分类日志消息和待分类日志消息的消息标识,创建新的日志组,将新的日志组作为目标日志组。例如,计算出待分类日志消息A与日志组1之间的相似值为0.2,与日志组2之间的相似值为0.5,与日志组3之间的相似值为0.9,首先确定大于其他相似值的指定相似值为与日志组3之间的相似值0.9。查询预设相似度阈值为0.8,相似值0.9大于预设相似度阈值0.8,因此可以将相似值0.9对应的日志组3作为目标日志组。
通过最大相似值和预设相似度阈值,对待分类日志消息进行分类和匹配。如果最大相似值高于阈值,则将待分类日志消息分配到最大相似值对应的日志组中,如果最大相似值低于阈值,则创建新的日志组来存储待分类日志消息。这样可以根据相似度进行动态的日志组管理,提高分类准确性。
205、将待分类日志消息的消息标识添加至目标日志组对应的目标消息标识组中,以及根据待分类日志消息的关键字更新目标日志组的日志事件的关键字。
在本申请实施例中,日志分类树将将每个待分类日志消息的日志标识加入对应的目标日志组,进一步地,更新目标日志组的目标日志事件,将目标日志事件与待分类日志消息逐关键字比对,将比对结果指示不一致的日志事件的关键字更新为预设符号。按照上述步骤逐一更新每个待分类日志对应的日志组的日志事件,得到新的日志分类树。通过待分类日志消息与目标日志组之间的关键字比对结果,更新日志事件,并得到新的日志分类树。这个日志分类树可以用于进一步的日志分类和管理,以提高日志处理的准确性和效率。
另外,日志分类系统可以根据日志分类树的结构,定义日志信息网格的行和列,具体地,使用表格或矩阵的形式来表示日志信息网格,日志信息网格的行和列分别代表日志分类树的关键字节点和日志组。进一步地,使用日志消息的属性或其他相关数据来获取关联信息,根据关联信息,将待分类的日志消息添加到对应的单元格中。在将所有待分类日志消息添加到日志信息网格后,得到待展示网格。最终,将待展示网格发送给展示终端,如显示器或其他输出设备进行展示。
本申请实施例提供的方法,首先获取来源于至少一个业务系统的业务日志的待分类日志消息,进而根据待分类日志消息的关键字,在日志分类树的多个关键字节点中确定待分类日志消息对应的目标关键字节点。接下来,将每个目标关键字节点对应的多个日志组作为待分类日志消息对应的多个候选日志组。进一步地,分别计算每个候选日志组与待分类日志消息之间的相似值。最终,以及根据相似值,确定待分类日志消息对应的目标日志组。日志分类树可以提供一个清晰的日志组织结构,使相关人员很快理解日志数据的分类依据,进而提高对特定类型的日志进行操作和维护的效率。与此同时,将相关日志消息归类到一起,可以更容易地进行搜索、过滤和分析,从而提高系统维护的效率。
进一步地,作为图1所述方法的具体实现,本申请实施例提供了一种日志分类装置,如图3A所示,所述装置包括:获取模块301、确定模块302、计算模块303。
该获取模块301,用于获取待分类日志消息,所述待分类日志消息来源于至少一个业务系统的业务日志;
该确定模块302,用于根据所述待分类日志消息的关键字,在日志分类树的多个关键字节点中确定所述待分类日志消息对应的目标关键字节点,将每个所述目标关键字节点对应的多个日志组作为所述待分类日志消息对应的多个候选日志组;
该计算模块303,用于分别计算每个所述候选日志组与所述待分类日志消息之间的相似值,以及根据所述相似值,确定所述待分类日志消息对应的目标日志组。
在具体的应用场景中,该确定模块302,用于识别所述待分类日志消息的关键字,确定关键字数量和关键字中排位第一的指定关键字;按照所述关键字数量,在所述日志分类树的全部长度节点中搜索目标长度节点,其中,所述目标长度节点包括所述多个关键字节点;在所述多个关键字节点中确定节点标识与所述指定关键字一致的目标关键字节点,以及确定所述目标关键字节点对应的叶节点,将所述叶节点中存储的多个日志组作为所述待分类日志消息对应的多个候选日志组。
在具体的应用场景中,该确定模块302,用于若所述多个关键字节点中不存在与所述指定关键字一致的目标关键字节点,则将所述指定关键字的关键字内容更新为指定标识符;在所述多个关键字节点中确定节点标识与所述指定标识符一致的目标关键字节点,以及确定所述目标关键字节点对应的叶节点,将所述叶节点中存储的多个日志组作为所述待分类日志消息对应的多个候选日志组。
在具体的应用场景中,该计算模块303,用于查询每个所述候选日志组中存储的日志事件,所述日志事件的关键字包括常量关键字和变量关键字,所述常量关键字是所述候选日志组中全部日志消息的恒定部分,所述变量关键字为指定标识符;逐一将每个所述日志事件中的关键字与所述待分类日志消息中的关键字进行比对,以及依据比对结果,计算每个所述日志事件与所述待分类日志消息之间的相似值,得到多个相似值;根据所述多个相似值,确定所述待分类日志消息对应的目标日志组。
在具体的应用场景中,该计算模块303,用于在所述多个相似值中提取相似值大于其他相似值的指定相似值;将所述指定相似值与预设相似值进行比对;若比对结果指示所述指定相似值大于等于所述预设相似值,则确定所述指定相似值对应的候选日志组为所述目标日志组;若比对结果指示所述指定相似值小于所述预设相似值,则根据所述待分类日志消息和所述待分类日志消息的消息标识,创建新的日志组,将所述新的日志组作为所述目标日志组。
在具体的应用场景中,如图3B所示,该装置还包括:第一设置模块304、展示模块305、第二设置模块306。
该第一设置模块304,用于根据所述日志分类树的结构,定义日志信息网格的行和列;
该展示模块305,用于将所述待分类日志消息添加至所述日志信息网格的单元格中,得到待展示网格,将所述待展示网格发送至展示终端进行展示;
该第二设置模块306,用于将所述待分类日志消息的消息标识添加至所述目标日志组对应的目标消息标识组中,以及根据所述待分类日志消息的关键字更新所述目标日志组的日志事件的关键字。
在具体的应用场景中,该获取模块301,用于在日志库中提取业务日志;在所述业务日志中提取待处理日志消息,以及采用预设正则表达式,删除所述待处理日志消息中的指定标识,得到所述待分类日志消息。
本申请实施例提供的装置,首先获取来源于至少一个业务系统的业务日志的待分类日志消息,进而根据待分类日志消息的关键字,在日志分类树的多个关键字节点中确定待分类日志消息对应的目标关键字节点。接下来,将每个目标关键字节点对应的多个日志组作为待分类日志消息对应的多个候选日志组。进一步地,分别计算每个候选日志组与待分类日志消息之间的相似值。最终,以及根据相似值,确定待分类日志消息对应的目标日志组。日志分类树可以提供一个清晰的日志组织结构,使相关人员很快理解日志数据的分类依据,进而提高对特定类型的日志进行操作和维护的效率。与此同时,将相关日志消息归类到一起,可以更容易地进行搜索、过滤和分析,从而提高系统维护的效率。
需要说明的是,本申请实施例提供的一种日志分类装置所涉及各功能单元的其他相应描述,可以参考图1和图2A至图2B中的对应描述,在此不再赘述。
基于上述如图1、图2A至图2B所示方法,相应的,本实施例还提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的日志分类方法的步骤。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该待识别软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
基于上述如图1、图2A至图2B所示的方法,以及图3所示的日志分类装置实施例,为了实现上述目的,在示例性实施例中,参见图4,还提供了一种设备,该设备包括通信总线、处理器、存储器和通信接口,还可以包括输入输出接口和显示设备,其中,各个功能单元之间可以通过总线完成相互间的通信。该存储器存储有计算机程序,处理器,用于执行存储器上所存放的程序,执行上述实施例中的日志分类方法。
可选的,该实体设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)等。
存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述实体设备硬件和待识别软件资源的程序,支持信息处理程序以及其它待识别软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与信息处理实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。通过应用本申请的技术方案,首先获取来源于至少一个业务系统的业务日志的待分类日志消息,进而根据待分类日志消息的关键字,在日志分类树的多个关键字节点中确定待分类日志消息对应的目标关键字节点。接下来,将每个目标关键字节点对应的多个日志组作为待分类日志消息对应的多个候选日志组。进一步地,分别计算每个候选日志组与待分类日志消息之间的相似值。最终,以及根据相似值,确定待分类日志消息对应的目标日志组。与现有技术相比,日志分类树可以提供一个清晰的日志组织结构,使相关人员很快理解日志数据的分类依据,进而提高对特定类型的日志进行操作和维护的效率。与此同时,将相关日志消息归类到一起,可以更容易地进行搜索、过滤和分析,从而提高系统维护的效率。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。
本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。

Claims (10)

1.一种日志分类方法,其特征在于,包括:
获取待分类日志消息,所述待分类日志消息来源于至少一个业务系统的业务日志;
根据所述待分类日志消息的关键字,在日志分类树的多个关键字节点中确定所述待分类日志消息对应的目标关键字节点,将每个所述目标关键字节点对应的多个日志组作为所述待分类日志消息对应的多个候选日志组;
分别计算每个所述候选日志组与所述待分类日志消息之间的相似值,以及根据所述相似值,确定所述待分类日志消息对应的目标日志组。
2.根据权利要求1所述的方法,其特征在于,所述根据所述待分类日志消息的关键字,在日志分类树的多个关键字节点中确定所述待分类日志消息对应的目标关键字节点,将每个所述目标关键字节点对应的多个日志组作为所述待分类日志消息对应的多个候选日志组,包括:
识别所述待分类日志消息的关键字,确定关键字数量和关键字中排位第一的指定关键字;
按照所述关键字数量,在所述日志分类树的全部长度节点中搜索目标长度节点,其中,所述目标长度节点包括所述多个关键字节点;
在所述多个关键字节点中确定节点标识与所述指定关键字一致的目标关键字节点,以及确定所述目标关键字节点对应的叶节点,将所述叶节点中存储的多个日志组作为所述待分类日志消息对应的多个候选日志组。
3.根据权利要求2所述的方法,其特征在于,所述确定所述目标关键字节点对应的叶节点,将所述叶节点中存储的多个日志组作为所述待分类日志消息对应的多个候选日志组之后,所述方法还包括:
若所述多个关键字节点中不存在与所述指定关键字一致的目标关键字节点,则将所述指定关键字的关键字内容更新为指定标识符;
在所述多个关键字节点中确定节点标识与所述指定标识符一致的目标关键字节点,以及确定所述目标关键字节点对应的叶节点,将所述叶节点中存储的多个日志组作为所述待分类日志消息对应的多个候选日志组。
4.根据权利要求1所述的方法,其特征在于,所述计算每个所述候选日志组与所述待分类日志消息之间的相似值,包括:
查询每个所述候选日志组中存储的日志事件,所述日志事件的关键字包括常量关键字和变量关键字,所述常量关键字是所述候选日志组中全部日志消息的恒定部分,所述变量关键字为指定标识符;
逐一将每个所述日志事件中的关键字与所述待分类日志消息中的关键字进行比对,以及依据比对结果,计算每个所述日志事件与所述待分类日志消息之间的相似值,得到多个相似值;
根据所述多个相似值,确定所述待分类日志消息对应的目标日志组。
5.根据权利要求4所述的方法,其特征在于,所述根据所述多个相似值,确定所述待分类日志消息对应的目标日志组,包括:
在所述多个相似值中提取相似值大于其他相似值的指定相似值;
将所述指定相似值与预设相似值进行比对;
若比对结果指示所述指定相似值大于等于所述预设相似值,则确定所述指定相似值对应的候选日志组为所述目标日志组;
若比对结果指示所述指定相似值小于所述预设相似值,则根据所述待分类日志消息和所述待分类日志消息的消息标识,创建新的日志组,将所述新的日志组作为所述目标日志组。
6.根据权利要求1所述的方法,其特征在于,所述获取待分类日志消息之前,所述方法还包括:
根据所述日志分类树的结构,定义日志信息网格的行和列;
所述确定所述待分类日志消息对应的目标日志组之后,所述方法还包括:
将所述待分类日志消息添加至所述日志信息网格的单元格中,得到待展示网格,将所述待展示网格发送至展示终端进行展示;
将所述待分类日志消息的消息标识添加至所述目标日志组对应的目标消息标识组中,以及根据所述待分类日志消息的关键字更新所述目标日志组的日志事件的关键字。
7.根据权利要求1所述的方法,其特征在于,所述获取待分类日志消息,包括:
在日志库中提取业务日志;
在所述业务日志中提取待处理日志消息,以及采用预设正则表达式,删除所述待处理日志消息中的指定标识,得到所述待分类日志消息。
8.一种日志分类装置,其特征在于,包括:
获取模块,用于获取待分类日志消息,所述待分类日志消息来源于至少一个业务系统的业务日志;
确定模块,用于根据所述待分类日志消息的关键字,在日志分类树的多个关键字节点中确定所述待分类日志消息对应的目标关键字节点,将每个所述目标关键字节点对应的多个日志组作为所述待分类日志消息对应的多个候选日志组;
计算模块,用于分别计算每个所述候选日志组与所述待分类日志消息之间的相似值,以及根据所述相似值,确定所述待分类日志消息对应的目标日志组。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202311057904.3A 2023-08-21 2023-08-21 日志分类方法、装置、计算机设备及计算机可读存储介质 Pending CN117093556A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311057904.3A CN117093556A (zh) 2023-08-21 2023-08-21 日志分类方法、装置、计算机设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311057904.3A CN117093556A (zh) 2023-08-21 2023-08-21 日志分类方法、装置、计算机设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN117093556A true CN117093556A (zh) 2023-11-21

Family

ID=88774718

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311057904.3A Pending CN117093556A (zh) 2023-08-21 2023-08-21 日志分类方法、装置、计算机设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN117093556A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117591673A (zh) * 2024-01-17 2024-02-23 腾讯科技(深圳)有限公司 日志分组方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117591673A (zh) * 2024-01-17 2024-02-23 腾讯科技(深圳)有限公司 日志分组方法、装置、设备及存储介质
CN117591673B (zh) * 2024-01-17 2024-05-03 腾讯科技(深圳)有限公司 日志分组方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
WO2021068547A1 (zh) 日志模板提取方法及装置
CN109408821B (zh) 一种语料生成方法、装置、计算设备及存储介质
CN110336838B (zh) 账号异常检测方法、装置、终端及存储介质
CN111563103B (zh) 一种用于数据血缘检测方法和系统
CN111078512B (zh) 告警记录生成方法、装置、告警设备及存储介质
CN110674360B (zh) 一种用于数据的溯源方法和系统
Huang et al. Paddy: An event log parsing approach using dynamic dictionary
CN114238573B (zh) 基于文本对抗样例的信息推送方法及装置
CN111090807A (zh) 一种基于知识图谱的用户识别方法及装置
CN112925757A (zh) 一种追踪智能设备操作日志的方法、设备、存储介质
CN112364014B (zh) 数据查询方法、装置、服务器及存储介质
CN117093556A (zh) 日志分类方法、装置、计算机设备及计算机可读存储介质
CN115658080A (zh) 一种软件开源代码成分的识别方法及系统
CN112328631A (zh) 一种生产故障分析方法、装置、电子设备及存储介质
CN115203435A (zh) 基于知识图谱的实体关系生成方法及数据查询方法
CN113760891A (zh) 一种数据表的生成方法、装置、设备和存储介质
CN116881430A (zh) 一种产业链识别方法、装置、电子设备及可读存储介质
CN116910650A (zh) 数据识别方法、装置、存储介质及计算机设备
CN113128213A (zh) 日志模板提取方法及装置
CN107908724B (zh) 一种数据模型匹配方法、装置、设备及存储介质
CN112685389B (zh) 数据管理方法、数据管理装置、电子设备及存储介质
CN114968725A (zh) 任务依赖关系校正方法、装置、计算机设备及存储介质
CN114862140A (zh) 基于行为分析的潜力评估方法、装置、设备及存储介质
CN113781068A (zh) 线上问题解决方法、装置、电子设备和存储介质
CN111597235A (zh) 数据处理方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination