CN115061874A - 日志信息验证方法、装置、设备及介质 - Google Patents

日志信息验证方法、装置、设备及介质 Download PDF

Info

Publication number
CN115061874A
CN115061874A CN202210672999.9A CN202210672999A CN115061874A CN 115061874 A CN115061874 A CN 115061874A CN 202210672999 A CN202210672999 A CN 202210672999A CN 115061874 A CN115061874 A CN 115061874A
Authority
CN
China
Prior art keywords
log information
information
target
log
assertion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210672999.9A
Other languages
English (en)
Inventor
张闽珺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202210672999.9A priority Critical patent/CN115061874A/zh
Publication of CN115061874A publication Critical patent/CN115061874A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本公开提供了一种日志信息验证方法,可以应用于云计算和计算机领域。该日志信息验证方法包括:采集来自服务端的初始日志信息,得到日志信息集合,其中,初始日志信息包括由至少一个日志键值对构成的结构化日志信息;利用预设相似度算法处理初始日志信息与目标断言信息,得到目标相似度信息,其中,目标断言信息包括至少一个断言键值对;根据目标相似度信息,从日志信息集合的初始日志信息中确定候选日志信息;以及根据候选日志信息与目标断言信息的目标匹配结果,将候选日志信息验证为目标日志信息,其中,目标日志信息表征服务端中与目标日志信息对应的目标程序正常运行。本公开还提供了一种日志信息验证装置、设备、存储介质和程序产品。

Description

日志信息验证方法、装置、设备及介质
技术领域
本公开涉及云计算技术领域和计算机技术领域,具体地涉及一种日志信息验证方法、装置、设备、介质和程序产品。
背景技术
日志信息可以是记录程序在运行过程中产生信息,例如报警信息、执行错误信息等等。可以通过日志采集端采集一个或多个服务器在运行过程中产生的日志信息,并通过分析日志信息的来确定日志信息中是否存在问题,并通过验证日志的正确性来确定程序是否可以顺利执行。
在实现本公开的发明构思过程中,发明人发现针对日志信息进行验证的准确率较低,且需要耗费大量时间,验证时效性相对较差。
发明内容
鉴于上述问题,本公开提供了日志信息验证方法、装置、设备、介质和程序产品。
根据本公开的第一个方面,提供了一种日志信息验证方法,包括:
采集来自服务端的初始日志信息,得到日志信息集合,其中,上述初始日志信息包括由至少一个日志键值对构成的结构化日志信息,上述日志键值对包括表征日志属性信息的日志信息键,以及与上述日志信息键对应的日志信息值;
利用预设相似度算法处理上述初始日志信息与目标断言信息,得到目标相似度信息,其中,上述目标断言信息包括至少一个断言键值对;
根据上述目标相似度信息,从上述日志信息集合的初始日志信息中确定候选日志信息;以及
根据上述候选日志信息与上述目标断言信息的目标匹配结果,将上述候选日志信息验证为目标日志信息,其中,上述目标日志信息表征上述服务端中与上述目标日志信息对应的目标程序正常运行。
根据本公开的实施例,利用预设相似度算法处理上述初始日志信息与目标断言信息,得到目标相似度信息包括:
根据上述日志信息集合中的初始日志信息和上述目标断言信息,构建目标词袋模型对应的目标词典;
利用上述目标词典分别对上述初始日志信息和上述目标断言信息进行比对处理,得到初始日志向量和目标断言向量;
利用上述预设相似度算法处理上述初始日志向量和上述目标断言向量,得到上述目标相似度信息。
根据本公开的实施例,上述预设相似度算法包括以下至少一项:
皮尔逊算法、斯皮尔曼算法、肯德尔算法、余弦相似度算法、欧氏距离算法。
根据本公开的实施例,根据上述候选日志信息与上述目标断言信息的目标匹配结果,将上述候选日志信息验证为目标日志信息包括:
利用预设匹配算法处理上述候选日志信息与上述目标断言信息,得到上述目标匹配结果;
在上述目标匹配结果表征上述候选日志信息与上述目标断言信息相匹配的情况下,将上述候选日志验证为上述目标日志;
其中,上述预设匹配算法包括以下至少一项:朴素算法、KMP算法、Rabin-Karp算法。
根据本公开的实施例,采集来自服务端的初始日志信息,得到日志信息集合之前,上述日志信息验证方法还包括:
向上述服务端发送字节码信息,其中,上述字节码信息嵌入上述服务端中的程序,上述字节码信息适用于记录上述程序运行时产生的初始日志信息。
根据本公开的实施例,上述日志属性信息包括以下至少一项:
上述服务端中程序的程序标识、上述服务端中程序的调用时长、上述服务端中程序的报警信息、上述服务端程序调用的类信息。
本公开的第二方面提供了一种日志信息验证装置,包括:
采集模块,用于采集来自服务端的初始日志信息,得到日志信息集合,其中,上述初始日志信息包括由至少一个日志键值对构成的结构化日志信息,上述日志键值对包括表征日志属性信息的日志信息键,以及与上述日志信息键对应的日志信息值;
相似度处理模块,用于利用预设相似度算法处理上述初始日志信息与目标断言信息,得到目标相似度信息,其中,上述目标断言信息包括至少一个断言键值对;
确定模块,用于根据上述目标相似度信息,从上述日志信息集合的初始日志信息中确定候选日志信息;以及
匹配模块,用于根据上述候选日志信息与上述目标断言信息的目标匹配结果,将上述候选日志信息验证为目标日志信息,其中,上述目标日志信息表征上述服务端中与上述目标日志信息对应的目标程序正常运行。
本公开的第三方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得一个或多个处理器执行上述日志信息验证方法。
本公开的第四方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述日志信息验证方法。
本公开的第五方面还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述日志信息验证方法。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述内容以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的日志信息验证方法、装置的应用场景图;
图2示意性示出了根据本公开实施例的日志信息验证方法的流程图;
图3A示意性示出了根据本公开实施例的利用预设相似度算法处理初始日志信息与目标断言信息,得到目标相似度信息的流程图;
图3B示意性示出了根据本公开实施例的日志信息验证方法的应用场景图;
图4示意性示出了根据本公开实施例的日志信息验证方法的流程图;
图5示意性示出了根据本公开实施例的日志信息验证装置的结构框图;以及
图6示意性示出了根据本公开实施例的适于实现日志信息验证方法的电子设备的方框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
本公开的实施例提供了一种日志信息验证方法,包括:
采集来自服务端的初始日志信息,得到日志信息集合,其中,初始日志信息包括由至少一个日志键值对构成的结构化日志信息,日志键值对包括表征日志属性信息的日志信息键,以及与日志信息键对应的日志信息值;利用预设相似度算法处理初始日志信息与目标断言信息,得到目标相似度信息,其中,目标断言信息包括至少一个断言键值对;根据目标相似度信息,从日志信息集合的初始日志信息中确定候选日志信息;以及根据候选日志信息与目标断言信息的目标匹配结果,将候选日志信息验证为目标日志信息,其中,目标日志信息表征服务端中与目标日志信息对应的目标程序正常运行。
根据本公开的实施例,由于日志信息集合中的初始日志信息包括由日志信息键和日志信息值构成的日志键值对,且目标断言信息包括与日志键值对具有相同格式的断言键值对,可以根据利用预设相似度算法处理初始日志信息与目标断言信息,根据得到的目标相似度信息,从日志信息集合的初始日志信息中确定候选日志信息,从而实现对日志信息集合中的初始日志信息进行模糊筛选,根据模糊筛选结果滤除日志信息集合中候选日志信息之外的其他初始日志信息,进而以减少候选日志信息与目标断言信息进行匹配的计算开销。根据候选日志信息与目标断言信息的目标匹配结果,将候选日志信息验证为目标日志信息,即利用目标断言信息可以验证程序运行正常的技术特性,并根据该技术特征筛选出表征目标程序正常运行的目标日志信息,进而帮助相关人员快速验证日志信息的正确性,提升验证准确性的同时减少计算开销,提升工作实效性。
在本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
在本公开的技术方案中,在获取或采集用户个人信息之前,均获取了用户的授权或同意。
图1示意性示出了根据本公开实施例的日志信息验证方法、装置的应用场景图。
如图1所示,根据该实施例的应用场景100可以包括终端设备101、102、103、网络104、服务器105和服务端106。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
服务端106可以是运行有程序的一个或多个服务器,服务器105可以通过网络104从服务端106采集初始日志信息。
需要说明的是,本公开实施例所提供的日志信息验证方法一般可以由服务器105执行。相应地,本公开实施例所提供的日志信息验证装置一般可以设置于服务器105中。本公开实施例所提供的日志信息验证方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的日志信息验证装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络、服务器和服务端的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
以下将基于图1描述的场景,通过图2~图4对公开实施例的日志信息验证方法进行详细描述。
图2示意性示出了根据本公开实施例的日志信息验证方法的流程图。
如图2所示,该实施例的日志信息验证方法可以包括操作S210~操作S240。
在操作S210,采集来自服务端的初始日志信息,得到日志信息集合,其中,初始日志信息包括由至少一个日志键值对构成的结构化日志信息,日志键值对包括表征日志属性信息的日志信息键,以及与日志信息键对应的日志信息值。
根据本公开的实施例,服务端可以是能够运行相关程序的服务器或服务器集群,程序在运行过程中将产生记录程序运行情况的日志信息。该日志信息中可以包括日志属性信息以及与日志属性信息对应的日志信息值。初始日志消息可以是将日志属性信息和日志信息值分别作为日志信息键和日志信息值进行存储的结构化日志信息,初始日志信息例如可以表示为(key1,valuel),key1可以表示执行时长,value1可以表示300s。
在本公开的一个实施例中,初始日志信息可以是具有JSON格式的结构化信息。
应该理解的是,服务端的数量可以是一个或多个,每个服务端运行的程序数量也可以是一个或多个,日志信息键可以表征程序的名称,程序运行的参数名称等,同一个日志键值对可以是一个日志信息键对应一个日志信息值,还可以是多个日志信息键与同一个日志信息值相对应。本公开的实施例对日志键值对中日志信息键与日志信息值的具体对应格式不做限定。
在操作S220,利用预设相似度算法处理初始日志信息与目标断言信息,得到目标相似度信息,其中,目标断言信息包括至少一个断言键值对。
根据本公开的实施例,目标断言信息可以包括根据断言信息中用于判定程序执行正常的断言属性信息,以及与断言属性信息对应的断言信息值构成的断言键值对。该些断言信息可以根据相关程序测试案例中,用于测试程序运行情况的断言信息。
需要说明的是,断言信息例如可以是存储于测试案例断言数据库中,可以根据需求,制定相应的配置信息,并针对断言数据库中的断言信息执行该配置信息,从而可以得到目标断言信息。或者还可以基于其他相关技术获取得到目标断言信息,本公开的实施例对目标断言信息的具体获取方式不做限定。
在操作S230,根据目标相似度信息,从日志信息集合的初始日志信息中确定候选日志信息。
根据本公开的实施例,预设相似度算法可以包括相关技术中用于确定相关性或相似性的任意算法,例如余弦相似度算法、皮尔逊算法等,本公开的实施例对预设相似度算法的具体算法类型不做限定。
根据本公开的实施例,目标相似度信息可以是预设相似度算法的计算结果,在目标相似度信息表征初始日志信息与目标断言信息具有相似性或相关性的情况下,可以将该初始日志信息确定为候选日志信息,实现从日志信息集合中筛除与目标日志信息相关性较低或相似性较低的初始日志信息,为后续候选日志信息和目标断言信息的精确匹配节省部分算力开销。
在操作S240,根据候选日志信息与目标断言信息的目标匹配结果,将候选日志信息验证为目标日志信息,其中,目标日志信息表征服务端中与目标日志信息对应的目标程序正常运行。
根据本公开的实施例,可以根据相关匹配算法对候选日志信息与目标断言信息进行匹配,例如可以根据全匹配算法等,得到目标匹配结果,并通过精确的目标匹配结果来验证目标日志信息的正确性,即在目标匹配结果表征目标日志信息为与目标断言信息相匹配的情况下,可以确定该目标日志信息记录有对应的目标程序可以正常运行,从而提升了验证日志信息的准确性。
根据本公开的实施例,由于日志信息集合中的初始日志信息包括由日志信息键和日志信息值构成的日志键值对,且目标断言信息包括与日志键值对具有相同格式的断言键值对,可以根据利用预设相似度算法处理初始日志信息与目标断言信息,根据得到的目标相似度信息,从日志信息集合的初始日志信息中确定候选日志信息,从而实现对日志信息集合中的初始日志信息进行模糊筛选,根据模糊筛选结果滤除日志信息集合中候选日志信息之外的其他初始日志信息,进而以减少候选日志信息与目标断言信息进行匹配的计算开销。根据候选日志信息与目标断言信息的目标匹配结果,将候选日志信息验证为目标日志信息,即利用目标断言信息可以验证程序运行正常的技术特性,并根据该技术特征筛选出表征目标程序正常运行的目标日志信息,进而帮助相关人员快速验证日志信息的正确性,提升验证准确性的同时减少计算开销,提升工作实效性。
根据本公开的实施例,日志属性信息可以包括以下至少一项:
服务端中程序的程序标识、服务端中程序的调用时长、服务端中程序的报警信息、服务端程序调用的类信息。
根据本公开的实施例,服务端程序调用的类信息可以包括用于表征程序的层级类别、执行类别等类别信息。
根据本公开的实施例,服务端中程序的报警信息可以包括多种报警类型,例如WARNING、INFO等。
需要说明的是,日志属性信息可以包括用于记录程序运行情况的任意信息,本领域技术人员可以根据实际需求进行选择。
根据本公开的实施例,在操作S210,采集来自服务端的初始日志信息,得到日志信息集合之前,该日志信息验证方法还可以包括如下操作。
向服务端发送字节码信息,其中,字节码信息嵌入服务端中的程序,字节码信息适用于记录程序运行时产生的初始日志信息。
根据本公开的实施例,字节码信息可以包括基于字节码增强技术生成的,用于监控程序运行过程的伪代码。字节码信息可以通过挂载在服务端的虚拟服务器实现对程序的代码嵌入,结合沙箱(sandbox)虚拟机实现日志信息拦截,从而在不侵入程序代码的情况下实现采集程序的日志信息,并生成结构化的初始日志信息,使初始日志信息可以兼容多种日志框架。
在本公开的一个实施例中,从一个或多个服务端采集的初始日志信息可以传输到卡夫卡消息队列中,通过将卡夫卡消息队采集初始日志信息,获取程序调用情况,采集到的初始日志信息可以存储至非关系型数据库。
根据本公开的实施例,由于不同的服务端或不同的应用程序的日志框架可以是不同的,例如可以包括Log4j,Logback,SLF4J等,因此基于不同的日志框架生成的日志信息可以具有不同格式,这就导致服务端直接生成的日志信息并没有统一的格式规范,可读性、可用性和规范性较差,导致针对日志信息的分析效率低。同时,不同的程序之间会出现相互调用,可能会导致日志信息中信息打印缺失,会对排查问题造成极大困扰,降低查找日志问题的时效性,无法准确、及时地验证日志正确性。而根据字节码增强技术生成的字节码信息在不侵入程序代码的情况下,能够实现将不同格式的日志信息转换为统一格式的初始日志信息,且避免了关键信息丢失,为后续与目标断言信息精准匹配奠定基础。
图3A示意性示出了根据本公开实施例的利用预设相似度算法处理初始日志信息与目标断言信息,得到目标相似度信息的流程图。
如图3A所示,操作S220,利用预设相似度算法处理初始日志信息与目标断言信息,得到目标相似度信息可以包括操作S310~操作S330。
在操作S310,根据日志信息集合中的初始日志信息和目标断言信息,构建目标词袋模型对应的目标词典。
根据本公开的实施例,可以将初始日志信息和目标断言信息中,每个键值对作为一个目标词,并根据该些目标词构建目标词袋模型对应的目标词典,目标词典存储有初始日志信息和目标断言信息构成的目标词。
在操作S320,利用目标词典分别对初始日志信息和目标断言信息进行比对处理,得到初始日志向量和目标断言向量。
在操作S330,利用预设相似度算法处理初始日志向量和目标断言向量,得到目标相似度信息。
根据本公开的实施例,可以将初始日志信息和目标断言信息中,每个键值对作为一个目标词,并根据该些目标词构建目标词袋模型对应的目标词典(即词袋),目标词典存储有初始日志信息和目标断言信息构成的目标词。
根据本公开的实施例,利用目标词典中的目标词,可以比对每个初始日志信息对应的目标词,在该初始日志信息具有目标词典中的目标词的情况下,可以生成向量元素1,相应地,在初始日志信息不包含目标词典中的目标词的情况下,可以生成向量元素0,从而可以将结构化的初始日志信息转换为序列化的初始日志向量。根据相同或相似的方法,还可以将目标断言信息转换为目标断言向量。
根据本公开的实施例,利用预设相似度算法处理初始日志向量和目标断言向量,即通过相似性算法或相关性算法,计算两个向量的相似度,得到目标相似度信息,根据目标相似度信息衡量初始日志信息和目标断言信息的相似度,实现初始日志信息和目标断言信息的模糊匹配。由于词袋模型不考虑词序性,且可以生成便于利用相似度算法计算的向量信息,从而可以简化计算流程,提升日志验证的时效性。
图3B示意性示出了根据本公开实施例的日志信息验证方法的应用场景图。
如图3B所示,初始日志目标词集合310可以表示为:
{A123.B123,A124.B0,A234.B234,A345.B345,A456.B0};
初始日志目标词集合310中可以包含有每个初始日志信息的日志键值对,其中,“A123.B123”可以表示初始日志信息的日志键值对,“A123”表示日志信息键,“B123”表示与该日志信息键对应的日志信息值。相应地,可以将日志键值对“A1.B1”作为初始日志信息的一个目标词。
目标断言目标词集合320可以表示为:
{A123.B123,A124.B124,A234.B234};
目标断言目标词集合320中可以包含有每个目标断言信息的断言键值对,其中,“A6.B6”可以表示目标断言信息的断言键值对,“A6”表示断言信息键,“B6”表示与该断言信息键对应的断言信息值。相应地,可以将断言键值对“A6.B6”作为目标断言信息的一个目标词。
根据初始日志目标词集合310和目标断言目标词集合320可以构建词袋模型对应的目标词典330。目标词典330可以按照预设顺序存储初始日志信息的目标词和目标断言信息对应的目标词。
利用目标词典330对初始日志信息341{A123.B123,A234.B234,A456.B0}进行比对处理,可以得到初始日志向量342{1,0,1,0,1,1,0,0}。
需要说明的是,为了进一步简化计算流程,目标词典330中忽略了重复的目标词,本领域技术人员可以根据实际需求,构建具有重复的目标词的目标词典,并相应地生成初始日志向量和目标断言向量。
应该理解的是,采用相同或相似的方法,还可以利用目标词典分330对目标断言信息进行比对处理,可以得到目标断言向量。
根据本公开的实施例,预设相似度算法可以包括以下至少一项:
皮尔逊算法、斯皮尔曼算法、肯德尔算法、余弦相似度算法、欧氏距离算法。
根据本公开的实施例,在预设相似度算法为皮尔逊算法的情况下,可以利用皮尔逊算法初始日志向量和目标断言向量,得到的目标相似度信息可以是皮尔逊相关系数,通过皮尔逊相关系数来反映初始日志信息和目标断言信息的相似程度。
目标相似度信息的计算过程可以通过公式(1)来表示。
Figure BDA0003693360130000121
公式(1)中,X表示初始日志向量,Y表示目标断言向量,ρx,Y表示目标相似度信息。
应该理解的是,可以通过设定预设相似度阈值,在目标相似度信息大于或等于该预设相似度阈值的情况下,可以确定该初始日志信息与目标断言信息相似程度较高,从而可以将该初始日志信息确定为候选日志信息。
需要说明的是,本公开实施例提供的日志信息验证方法还可以基于其他预设相似度算法,例如斯皮尔曼算法、肯德尔算法、余弦相似度算法、欧氏距离算法得到目标相似度信息,在此不再一一列举实施例。
图4示意性示出了根据本公开实施例的日志信息验证方法的流程图。
如图4所示,操作S240,根据候选日志信息与目标断言信息的目标匹配结果,将候选日志信息验证为目标日志信息可以包括操作S410~操作S420。
在操作S410,利用预设匹配算法处理候选日志信息与目标断言信息,得到目标匹配结果;
在操作S420,在目标匹配结果表征候选日志信息与目标断言信息相匹配的情况下,将候选日志验证为目标日志;其中,预设匹配算法包括以下至少一项:朴素算法、KMP算法、Rabin-Karp算法。
根据本公开的实施例,预设匹配算法可以包括相关技术中的字符串模式匹配算法,利用预设匹配算法将候选日志信息与目标日志信息按照字符串进行匹配,得到目标匹配结果不仅可以反映字符相匹配,还可以反映字符之间的顺序匹配,因此得到的目标匹配结果准确率较高。
根据本公开的实施例,在预设匹配算法为朴素算法的情况下,可以设定候选日志信息为子字符串P,设定目标断言信息为主字符串T,从主字符串T的第一个字符开始分别与子字符串P从开头进行比较,当发现不匹配时,主字符串T回到这一轮开始的下一个字符,子字符串P从头开始比较。直到子字符串P所有的字符都匹配,返回所在主字符串T中的下标。
利用朴素算法处理候选日志信息与目标断言信息,得到目标匹配结果的时间复杂度可以表示为o(m*n),其中m表示子字符串P的长度,n表示主字符串T的长度。
根据本公开的实施例,在预设匹配算法为KMP算法的情况下,同样可以设定候选日志信息为子字符串P,设定目标断言信息为主字符串T,具体处理过程如下述内容所示。
步骤(1),设定初始值j=-1,代表子字符串P当前匹配到的最后位.
步骤(2),用i遍历主字符串T,其中,i<n,n表示主字符串T的长度,对每一个i执行步骤(3)和步骤(4),判断T[i]和P[j+1]是否匹配成功;
步骤(3),令j=next[j](next[j]表示子字符串P最长相等的前后缀中前缀的最后一位),直到j回退为初始值-1,或者T[i]==P[j+1]成立;
步骤(4),若T[i]==P[j+1]成立,则执行j++。当j达到m-1位置(m表示子字符串P的长度),表明子字符串P与主字符串T匹配成功,子字符串P是主字符串T的子串。
根据本公开的实施例,在预设匹配算法为KMP算法的情况下,得到目标匹配结果的时间复杂度可以是o(m+n),从而相较于朴素算法作为预设匹配算法,可以进一步降低时间复杂度,提升匹配效率。
基于上述日志信息验证方法,本公开还提供了一种日志信息验证装置。以下将结合图5对该装置进行详细描述。
图5示意性示出了根据本公开实施例的日志信息验证装置的结构框图。
如图5所示,该实施例的日志信息验证装置500包括采集模块510、相似度处理模块520、确定模块530和匹配模块540。
采集模块510用于采集来自服务端的初始日志信息,得到日志信息集合,其中,初始日志信息包括由至少一个日志键值对构成的结构化日志信息,日志键值对包括表征日志属性信息的日志信息键,以及与日志信息键对应的日志信息值。
相似度处理模块520用于利用预设相似度算法处理初始日志信息与目标断言信息,得到目标相似度信息,其中,目标断言信息包括至少一个断言键值对。
确定模块530用于根据目标相似度信息,从日志信息集合的初始日志信息中确定候选日志信息。
匹配模块540用于根据候选日志信息与目标断言信息的目标匹配结果,将候选日志信息验证为目标日志信息,其中,目标日志信息表征服务端中与目标日志信息对应的目标程序正常运行。
根据本公开的实施例,相似度处理模块可以包括:构建单元、比对单元和处理单元。
构建单元用于根据日志信息集合中的初始日志信息和目标断言信息,构建目标词袋模型对应的目标词典。
比对单元用于利用目标词典分别对初始日志信息和目标断言信息进行比对处理,得到初始日志向量和目标断言向量。
处理单元用于利用预设相似度算法处理初始日志向量和目标断言向量,得到目标相似度信息。
根据本公开的实施例,预设相似度算法包括以下至少一项:
皮尔逊算法、斯皮尔曼算法、肯德尔算法、余弦相似度算法、欧氏距离算法。
根据本公开的实施例,匹配模块可以包括:匹配单元和验证单元。
匹配单元用于利用预设匹配算法处理候选日志信息与目标断言信息,得到目标匹配结果;
验证单元用于在目标匹配结果表征候选日志信息与目标断言信息相匹配的情况下,将候选日志验证为目标日志;
其中,预设匹配算法包括以下至少一项:朴素算法、KMP算法、Rabin-Karp算法。
根据本公开的实施例,日志信息验证装置还可以包括发送模块。
发送模块用于向服务端发送字节码信息,其中,字节码信息嵌入服务端中的程序,字节码信息适用于记录程序运行时产生的初始日志信息。
根据本公开的实施例,日志属性信息可以包括以下至少一项:服务端中程序的程序标识、服务端中程序的调用时长、服务端中程序的报警信息、服务端程序所属的类信息。
根据本公开的实施例,采集模块510、相似度处理模块520、确定模块530和匹配模块540中的任意多个模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,采集模块510、相似度处理模块520、确定模块530和匹配模块540中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,采集模块510、相似度处理模块520、确定模块530和匹配模块540中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图6示意性示出了根据本公开实施例的适于实现日志信息验证方法的电子设备的方框图。
如图6所示,根据本公开实施例的电子设备600包括处理器601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。处理器601例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC))等等。处理器601还可以包括用于缓存用途的板载存储器。处理器601可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 603中,存储有电子设备600操作所需的各种程序和数据。处理器601、ROM602以及RAM 603通过总线604彼此相连。处理器601通过执行ROM 602和/或RAM 603中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 602和RAM 603以外的一个或多个存储器中。处理器601也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,电子设备600还可以包括输入/输出(I/O)接口605,输入/输出(I/O)接口605也连接至总线604。电子设备600还可以包括连接至I/O接口605的以下部件中的一项或多项:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 602和/或RAM 603和/或ROM 602和RAM 603以外的一个或多个存储器。
本公开的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时,该程序代码用于使计算机系统实现本公开实施例所提供的方法。
在该计算机程序被处理器601执行时执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例,上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分609被下载和安装,和/或从可拆卸介质611被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被处理器601执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
根据本公开的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java,C++,python,“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

Claims (10)

1.一种日志信息验证方法,包括:
采集来自服务端的初始日志信息,得到日志信息集合,其中,所述初始日志信息包括由至少一个日志键值对构成的结构化日志信息,所述日志键值对包括表征日志属性信息的日志信息键,以及与所述日志信息键对应的日志信息值;
利用预设相似度算法处理所述初始日志信息与目标断言信息,得到目标相似度信息,其中,所述目标断言信息包括至少一个断言键值对;
根据所述目标相似度信息,从所述日志信息集合的初始日志信息中确定候选日志信息;以及
根据所述候选日志信息与所述目标断言信息的目标匹配结果,将所述候选日志信息验证为目标日志信息,其中,所述目标日志信息表征所述服务端中与所述目标日志信息对应的目标程序正常运行。
2.根据权利要求1所述的日志信息验证方法,其中,利用预设相似度算法处理所述初始日志信息与目标断言信息,得到目标相似度信息包括:
根据所述日志信息集合中的初始日志信息和所述目标断言信息,构建目标词袋模型对应的目标词典;
利用所述目标词典分别对所述初始日志信息和所述目标断言信息进行比对处理,得到初始日志向量和目标断言向量;
利用所述预设相似度算法处理所述初始日志向量和所述目标断言向量,得到所述目标相似度信息。
3.根据权利要求1或2所述的日志信息验证方法,其中,所述预设相似度算法包括以下至少一项:
皮尔逊算法、斯皮尔曼算法、肯德尔算法、余弦相似度算法、欧氏距离算法。
4.根据权利要求1所述的日志信息验证方法,其中,根据所述候选日志信息与所述目标断言信息的目标匹配结果,将所述候选日志信息验证为目标日志信息包括:
利用预设匹配算法处理所述候选日志信息与所述目标断言信息,得到所述目标匹配结果;
在所述目标匹配结果表征所述候选日志信息与所述目标断言信息相匹配的情况下,将所述候选日志验证为所述目标日志;
其中,所述预设匹配算法包括以下至少一项:朴素算法、KMP算法、Rabin-Karp算法。
5.根据权利要求1所述的日志信息验证方法,其中,采集来自服务端的初始日志信息,得到日志信息集合之前,所述日志信息验证方法还包括:
向所述服务端发送字节码信息,其中,所述字节码信息嵌入所述服务端中的程序,所述字节码信息适用于记录所述程序运行时产生的初始日志信息。
6.根据权利要求1所述的日志信息验证方法,其中,所述日志属性信息包括以下至少一项:
所述服务端中程序的程序标识、所述服务端中程序的调用时长、所述服务端中程序的报警信息、所述服务端程序调用的类信息。
7.一种日志信息验证装置,包括:
采集模块,用于采集来自服务端的初始日志信息,得到日志信息集合,其中,所述初始日志信息包括由至少一个日志键值对构成的结构化日志信息,所述日志键值对包括表征日志属性信息的日志信息键,以及与所述日志信息键对应的日志信息值;
相似度处理模块,用于利用预设相似度算法处理所述初始日志信息与目标断言信息,得到目标相似度信息,其中,所述目标断言信息包括至少一个断言键值对;
确定模块,用于根据所述目标相似度信息,从所述日志信息集合的初始日志信息中确定候选日志信息;以及
匹配模块,用于根据所述候选日志信息与所述目标断言信息的目标匹配结果,将所述候选日志信息验证为目标日志信息,其中,所述目标日志信息表征所述服务端中与所述目标日志信息对应的目标程序正常运行。
8.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行根据权利要求1~6中任一项所述的方法。
9.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据权利要求1~6中任一项所述的方法。
10.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现根据权利要求1~6中任一项所述的方法。
CN202210672999.9A 2022-06-14 2022-06-14 日志信息验证方法、装置、设备及介质 Pending CN115061874A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210672999.9A CN115061874A (zh) 2022-06-14 2022-06-14 日志信息验证方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210672999.9A CN115061874A (zh) 2022-06-14 2022-06-14 日志信息验证方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN115061874A true CN115061874A (zh) 2022-09-16

Family

ID=83201074

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210672999.9A Pending CN115061874A (zh) 2022-06-14 2022-06-14 日志信息验证方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN115061874A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115757302A (zh) * 2022-10-28 2023-03-07 支付宝(杭州)信息技术有限公司 一种数据分析的方法、装置、设备及存储介质
CN116738252A (zh) * 2023-07-12 2023-09-12 上海中汇亿达金融信息技术有限公司 基于模糊匹配的配置加载方法、装置及应用
CN117240700A (zh) * 2023-11-10 2023-12-15 浙江九州未来信息科技有限公司 一种基于贝叶斯分类器的网络故障诊断方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115757302A (zh) * 2022-10-28 2023-03-07 支付宝(杭州)信息技术有限公司 一种数据分析的方法、装置、设备及存储介质
CN116738252A (zh) * 2023-07-12 2023-09-12 上海中汇亿达金融信息技术有限公司 基于模糊匹配的配置加载方法、装置及应用
CN116738252B (zh) * 2023-07-12 2024-01-05 上海中汇亿达金融信息技术有限公司 基于模糊匹配的配置加载方法、装置及应用
CN117240700A (zh) * 2023-11-10 2023-12-15 浙江九州未来信息科技有限公司 一种基于贝叶斯分类器的网络故障诊断方法及装置
CN117240700B (zh) * 2023-11-10 2024-02-06 浙江九州未来信息科技有限公司 一种基于贝叶斯分类器的网络故障诊断方法及装置

Similar Documents

Publication Publication Date Title
CN115061874A (zh) 日志信息验证方法、装置、设备及介质
CN113535773B (zh) 数据库优化方法、数据库优化装置、电子设备和存储介质
CN115913710A (zh) 异常检测方法、装置、设备及存储介质
CN113535577A (zh) 基于知识图谱的应用测试方法、装置、电子设备和介质
US11605012B2 (en) Framework for processing machine learning model metrics
CN108768742B (zh) 网络构建方法及装置、电子设备、存储介质
CN115292187A (zh) 无编码的页面自动测试方法、装置、电子设备和介质
CN113869904B (zh) 可疑数据识别方法、装置、电子设备、介质和计算机程序
CN115827122A (zh) 操作引导方法、装置、电子设备及存储介质
CN114218283A (zh) 异常检测方法、装置、设备、介质
CN114301713A (zh) 风险访问检测模型的训练方法、风险访问检测方法及装置
CN111651753A (zh) 用户行为分析系统及方法
CN116401319B (zh) 数据同步方法及装置、电子设备和计算机可读存储介质
CN116880899B (zh) 任务信息关联方法、装置、电子设备和计算机可读介质
CN112214387B (zh) 基于知识图谱的用户操作行为预测方法及装置
US20230132670A1 (en) Metrics-based on-demand anomaly detection
CN114693421A (zh) 风险评估方法、装置、电子设备和介质
CN114706856A (zh) 故障处理方法及装置、电子设备和计算机可读存储介质
CN114218254A (zh) 报表生成方法、装置、设备及存储介质
CN115622866A (zh) 故障处理方法、装置、设备及存储介质
CN115033416A (zh) 确定异常信息的方法、装置、电子设备及存储介质
CN116010955A (zh) 应用于应用软件的检测方法、装置、设备及存储介质
CN116541840A (zh) 恶意软件同源分析方法、装置、设备和介质
CN116680184A (zh) 代码扫描方法、装置、电子设备和介质
CN114676020A (zh) 缓存系统的性能监控方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination