CN116089289A - 一种基于多源异构数据的系统检测方法及装置 - Google Patents

一种基于多源异构数据的系统检测方法及装置 Download PDF

Info

Publication number
CN116089289A
CN116089289A CN202310071916.5A CN202310071916A CN116089289A CN 116089289 A CN116089289 A CN 116089289A CN 202310071916 A CN202310071916 A CN 202310071916A CN 116089289 A CN116089289 A CN 116089289A
Authority
CN
China
Prior art keywords
log
data
representation
index
heterogeneous
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310071916.5A
Other languages
English (en)
Inventor
郝志广
张纬亮
党咏欣
曲欣
郭建章
张宇峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Digital Intelligence Technology Co Ltd
Original Assignee
China Telecom Digital Intelligence Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Digital Intelligence Technology Co Ltd filed Critical China Telecom Digital Intelligence Technology Co Ltd
Priority to CN202310071916.5A priority Critical patent/CN116089289A/zh
Publication of CN116089289A publication Critical patent/CN116089289A/zh
Priority to PCT/CN2023/123196 priority patent/WO2024148880A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3688Test management for test execution, e.g. scheduling of test suites
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Biophysics (AREA)
  • Computer Hardware Design (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及计算机技术领域,具体涉及一种基于多源异构数据的系统检测方法及装置,通过获取日志文本数据,解析提取日志事件,将日志事件转换为数值向量并进行对数向量表示;获取指标时序数据,以分层的方式对段级模式的指标进行建模,抽取出的所述指标嵌入到D维特征表示;基于异构表示融合将对数向量表示以及D维特征表示输入到融合模块中进行异构数据融合;通过全连接层和Softmax层函数进行计算推理预测结果。本发明通过从异构数据中捕获有意义的特征来进行异常检测,不仅利用了日志数据的语义信息和指标数据的时间依赖,还通过注意力融合机制学习跨模态表征,来缩小差距,以提供更加合理的检测判断。

Description

一种基于多源异构数据的系统检测方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于多源异构数据的系统检测方法及装置。
背景技术
近年来,软件系统的规模和复杂性都在急剧增长,随之而来的是系统异常出现频率的上升。在实际的场景中,服务供应商会应用自动化异常检测来保证软件系统的可靠性。软件系统异常检测的基础数据来自对各项功能的监视数据,如业务指标、日志、警报和跟踪,其中指标是度量系统状态的实值时间序列,如响应时间、线程数量等,日志是用于记录系统的运行时状态的文本消息。
现有的自动化异常检测,只依赖于单一的指标数据或者日志数据,精确度不足,会产生很多错误预测。特别是,在大规模的分布式系统中,只依赖单一数据源的异常检测精确度更加糟糕,所以通过多个监视数据源的组合能更充分地利用运行时的信息来分析系统状态。
发明内容
有鉴于此,本发明旨在提供了一种基于多源异构数据的系统检测方法及装置,通过分层体系结构捕获模态内依赖,并通过模态注意融合机制生成日志和指标数据的全局表示,以实现更加精确的异常判断。
为实现上述目的,本发明提供了如下的技术方案:
第一方面,在本发明提供了一种基于多源异构数据的系统检测方法,包括以下步骤:
获取日志文本数据,解析所述日志文本数据提取日志事件,将所述日志事件转换为数值向量并进行对数向量表示;
获取指标时序数据,以分层的方式对段级模式的指标进行建模,抽取出的所述指标嵌入到D维特征表示;
基于异构表示融合将所述日志文本数据的对数向量表示以及所述指标时序数据的D维特征表示输入到融合模块中进行异构数据融合;
通过全连接层和Softmax层函数进行计算推理预测结果,得到系统异常检测的结果。
作为本发明的进一步方案,获取日志文本数据以及指标时序数据之前,基于历史提取模式,从当前异构监测数据获取日志文本数据以及指标时序数据,从当前异构监测数据中捕获特征进行异常检测。
作为本发明的进一步方案,解析所述日志文本数据提取日志事件,包括:
将日志文本数据中非结构化的日志消息转换为结构化的日志事件;
利用Drain解析器来提取日志事件,根据日志时间戳进行排序,得到按时间顺序排列的日志事件;
将日志事件转换为具有词法和语义信息的数值向量,利用FastText捕捉日志词汇的内在语义关系;
将得到的日志上下文语义进行建模和生成日志表示形式,进行对数向量表示。
作为本发明的进一步方案,经过训练的FastText用于将每个标记映射到一个E维向量中,将对数事件x转换为标记嵌入列表
Figure BDA0004073653920000021
其中,w为事件的标记数;
FastText还用于对所有元素取平均,得到一个嵌入向量
Figure BDA0004073653920000022
将对数序列x1:L用句子嵌入表示
Figure BDA0004073653920000023
作为本发明的进一步方案,基于FastText获得的嵌入向量作为序列编码器的输入,序列编码器的输入由两个Transformer编码器层组成,通过一个全连接层将输出映射到一个D维特征空间,得到一个块的对数表示
Figure BDA0004073653920000024
作为本发明的进一步方案,获取指标时序数据,以分层的方式对段级模式的指标进行建模,包括一个方面内编码和一个方面间编码;
所述方面内编码包括:将指标按照相应方面分解为Y组,将相同方面的指标作为一个MTS输入到一个由多层因果卷积网络组成的方面内编码器中,经过填充和切割,方面内编码器输出Y的特征向量hm,对特征进行最大池化,叠加输出,形成潜在的特征向量
Figure BDA0004073653920000031
所述方面间编码包括:将方向内编码器输出的Hm作为一个MTS输入到方向间编码器中,块内的指标Xm被嵌入到D维表示中
Figure BDA0004073653920000032
作为本发明的进一步方案,基于异构表示融合将所述日志文本数据的对数向量表示以及所述指标时序数据的D维特征表示输入到融合模块中进行异构数据融合,包括:
将日志文本数据和指标时序数据均嵌入到D维特征空间中,并输入到融合模块中;
第一个注意力层Attn-α采用日志表示Rl作为Query,指标表示Rm作为Key和Value,以匹配指标变化的日志事件;
第二个注意层Attn-β,Rm为Query,Rl为Key和Value,以找到与日志内容一致的指标差异;
将来自Attn-α和Attn-β的输出连接到D维空间中,每个数据块构成一个全局表示
Figure BDA0004073653920000033
交叉注意力机制通过直接连接Query和Value来显式保留有意义的内部连接,进行异构数据融合。
作为本发明的进一步方案,通过全连接层和Softmax层函数进行计算推理预测结果,包括:将进程内块的表示Rg提供给全连接层和softmax层,计算推理预测结果,公式如下:
Figure BDA0004073653920000034
其中,输出
Figure BDA0004073653920000035
表示状态正常或异常,U和V为学习的权重矩阵,b和c是偏差项,σ是激活函数。
第二方面,在本发明提供的一个方案中,提供了一种基于多源异构数据的系统检测装置,所述基于多源异构数据的系统检测装置用于执行上述基于多源异构数据的系统检测方法;该系统包括:
数据获取模块,用于基于历史提取模式,从当前异构监测数据获取日志文本数据以及指标时序数据;
日志数据建模模块,用于采用FastText算法和Transformer编码器来建模日志的词法语义和顺序依赖关系,将日志文本数据嵌入到D维特征空间中;
指标数据建模模块,用于使用分层编码器来学习基于因果卷积网络的表示,以分层的方式对段级模式的指标进行建模,抽取出的所述指标嵌入到D维特征表示;
异构表示融合模块,用于基于异构表示融合将所述日志文本数据的对数向量表示以及所述指标时序数据的D维特征表示输入到融合模块中进行异构数据融合;
推理预测模块,用于通过全连接层和Softmax层函数进行计算推理预测结果,得到系统异常检测的结果。
作为本发明的进一步方案,所述日志数据建模模块还包括对数向量表示模块,所述对数向量表示模块用于解析获取的日志文本数据提取日志事件,将所述日志事件转换为数值向量并进行对数向量表示。
第三方面,在本发明提供的又一个方案中,提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器加载并执行所述计算机程序时实现基于多源异构数据的系统检测方法的步骤。
第四方面,在本发明提供的再一个方案中,提供了一种存储介质,存储有计算机程序,所述计算机程序被处理器加载并执行时实现所述基于多源异构数据的系统检测方法的步骤。
本发明提供的技术方案,具有如下有益效果:
本发明提供的基于多源异构数据的系统检测方法及装置,利用层次结构来融合日志语义和指标模式来学习系统状态的全局表示,利用跨模式注意机制捕捉多模式数据的不同特征和有意义的交互,从而实现准确的系统异常检测,本发明通过从异构数据中捕获有意义的特征来进行异常检测,不仅利用了日志数据的语义信息和指标数据的时间依赖,还通过注意力融合机制学习跨模态表征,来缩小差距,以提供更加合理的检测判断。
本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例。在附图中:
图1为本发明一个实施例的一种基于多源异构数据的系统检测方法的流程图。
图2为本发明一个实施例的一种基于多源异构数据的系统检测方法中ADASIS高精地图系统的结构框图。
图3为本发明一个实施例的一种基于多源异构数据的系统检测方法中对高精地图重构软件测试的流程图。
图4为本发明一个实施例的一种基于多源异构数据的系统检测方法中计算机设备的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本发明示例性实施例中的附图,对本发明示例性实施例中的技术方案进行清楚、完整地描述,显然,所描述的示例性实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
由于现有的自动化异常检测,只依赖于单一的指标数据或者日志数据,精确度不足,会产生很多错误预测。特别是,在大规模的分布式系统中,只依赖单一数据源的异常检测精确度更加糟糕,所以通过多个监视数据源的组合能更充分地利用运行时的信息来分析系统状态。
本发明提供的基于多源异构数据的系统检测方法及装置,基于多源数据的区分表示实现软件系统异常检测,通过分层体系结构捕获模态内依赖,并通过模态注意融合机制生成日志和指标数据的全局表示,以实现更加精确的异常判断。
具体地,下面结合附图,对本申请实施例作进一步阐述。
参见图1所示,本发明的一个实施例提供一种基于多源异构数据的系统检测方法,包括以下步骤:
步骤S10、获取日志文本数据,解析所述日志文本数据提取日志事件,将所述日志事件转换为数值向量并进行对数向量表示;
步骤S20、获取指标时序数据,以分层的方式对段级模式的指标进行建模,抽取出的所述指标嵌入到D维特征表示;
步骤S30、基于异构表示融合将所述日志文本数据的对数向量表示以及所述指标时序数据的D维特征表示输入到融合模块中进行异构数据融合;
步骤S40、通过全连接层和Softmax层函数进行计算推理预测结果,得到系统异常检测的结果。
本发明的基于多源异构数据的系统检测方法,通过学习基于日志和指标的异构系统状态数据的进行判别表示,使用分层架构捕获模态内的依赖关系,再通过模态注意融合生成最具区分性信息的表示。具体而言,对于日志数据,网络采用FastText算法和Transformer编码器来建模日志的词法语义和顺序依赖关系。对于指标数据,网络使用分层编码器来学习基于因果卷积网络的表示,以抽象出方面内的时间依赖、交叉关系和方面间的相关性。针对这上两步中得到的向量表示,网络中设计了一种模态注意机制,以学习全局表征,保留有意义的模态内和模态间的信息。最后,通过全连接和Softmax函数得到系统异常检测的结果。
在本实施例中,获取日志文本数据以及指标时序数据之前,基于历史提取模式,从当前异构监测数据获取日志文本数据以及指标时序数据,从当前异构监测数据中捕获特征进行异常检测,参见图1和图2所示,本发明实施例的基于多源异构数据的系统检测方法的整体流程包括以下步骤:
(1)对于获取的日志文本数据,依次有三个步骤,旨在从词汇和语义两个方面学习日志信息表示,并将每个原始日志序列映射到低维表示。
首先是日志解析,因为原始的日志消息可能包含阻碍后续分析的变量,所以需要将非结构化的日志消息转换为结构化的日志事件。此处利用Drain解析器来提取日志事件,然后根据日志时间戳进行排序,得到按时间顺序排列的日志事件。
然后进行日志向量化,将日志事件转换为具有词法和语义信息的数值向量,利用FastText捕捉日志词汇的内在语义关系,将得到的日志上下文语义进行建模和生成日志表示形式,进行对数向量表示。在本实施例中,经过训练,FastText将每个标记映射到一个E维向量中,将对数事件x转换为标记嵌入列表
Figure BDA0004073653920000071
Figure BDA0004073653920000072
其中,w是事件的标记数。然后对所有元素取平均,得到一个嵌入
Figure BDA0004073653920000073
从而对数序列x1:L可以用句子嵌入表示
Figure BDA0004073653920000074
Figure BDA0004073653920000075
最后进行对数向量表示,将上一步中得到的日志上下文语义进行建模和生成日志表示形式,上一步中获得的嵌入向量作为序列编码器的输入。在本实施例中吗,基于FastText获得的嵌入向量作为序列编码器的输入,序列编码器的输入由两个Transformer编码器层组成,用来捕获跨事件的上下文依赖关系。然后,通过一个全连接层将输出映射到一个D维特征空间,得到一个块的对数表示
Figure BDA0004073653920000081
如果序列过长,会将其划分为固定大小的子序列,若过短,则用零填充。
(2)对于获取指标时序数据,以分层的方式对段级模式的指标进行建模,处理步骤包括一个方面内编码和一个方面间编码。
方面内编码步骤中,由于描绘系统相同方面的指标模式具有某些相似之处应视为多变量时间序列MTS一起进行分析,描述不同方面的指标模式可能不同应被输入到单独的模型中进行处理,即建模同一方面的指标标准,同时分别建模不同方面的指标标准。此处,模型采用一维因果卷积,通过并行化、轻量化和准确性来解决传统卷积网络中的信息泄露和无法进行顺序依赖建模的问题。
所以,方面内编码包括:将指标按照相应方面分解为Y组,将相同方面的指标作为一个MTS输入到一个由多层因果卷积网络组成的方面内编码器中,经过填充和切割,方面内编码器输出Y的特征向量hm,对特征进行最大池化,叠加输出,形成潜在的特征向量
Figure BDA0004073653920000082
方面间编码步骤中,当异常发生时,不同方面的指标仍然表现出一些方面间的相关性,所以这个模块利用因果卷积来学习方面间的特性。通过捕获多级信息来建模复杂的模式。所以,方面间编码包括:将方向内编码器输出的Hm作为一个MTS输入到方向间编码器中,对方面间的相关性进行建模,块内的指标Xm被嵌入到D维表示中
Figure BDA0004073653920000083
(3)为了弥补日志表示和指标表示之间的时间和语义的差别,本实施例还具有一个具有交叉注意机制的融合步骤,以减轻单源数据信息缺乏或过度敏感的问题,即异构表示融合。
在(1)和(2)的两个步骤中,日志和指标数据都嵌入到D维特征空间中,这些表征都会被输入到融合模块中。在本实施例中,基于异构表示融合将所述日志文本数据的对数向量表示以及所述指标时序数据的D维特征表示输入到融合模块中进行异构数据融合,包括:
将日志文本数据和指标时序数据均嵌入到D维特征空间中,并输入到融合模块中;
第一个注意力层Attn-α采用日志表示Rl作为Query,指标表示Rm作为Key和Value,以匹配指标变化的日志事件;
第二个注意层Attn-β,Rm为Query,Rl为Key和Value,以找到与日志内容一致的指标差异,公式如下:
Fuse(Q,K,V)=tanh([softmax(QWsKT)V;Q]Wa)
其中,Wa和Ws是可学习的参数;
将来自Attn-α和Attn-β的输出连接到D维空间中,每个数据块构成一个全局表示
Figure BDA0004073653920000091
定义如下:
Rg=[Fuse(Rl,Rm,Rm);Fuse(Rm,Rl,Rl)]
交叉注意力机制通过直接连接Query和Value来显式保留有意义的内部连接,进行异构数据融合。
在本实施例中,这种交叉注意力机制通过直接连接Query和Value来显式保留有意义的内部连接,让全局表示不仅保留了共享信息和跨模态交互,而且因为日志和指标间的互补关系保留了模态内依赖性和推断特征。
(4)最后,通过全连接层和Softmax层函数进行计算推理预测结果,包括:将进程内块的表示Rg提供给全连接层和softmax层,计算推理预测结果,公式如下:
Figure BDA0004073653920000092
其中,输出
Figure BDA0004073653920000093
表示状态正常或异常,U和V为学习的权重矩阵,b和c是偏差项,σ是激活函数。
本发明提供的基于多源异构数据的系统检测方法,利用层次结构来融合日志语义和指标模式来学习系统状态的全局表示,利用跨模式注意机制捕捉多模式数据的不同特征和有意义的交互,从而实现准确的系统异常检测,本发明通过从异构数据中捕获有意义的特征来进行异常检测,不仅利用了日志数据的语义信息和指标数据的时间依赖,还通过注意力融合机制学习跨模态表征,来缩小差距,以提供更加合理的检测判断。
参见图3所示,本发明的一个实施例提供一种基于多源异构数据的系统检测装置,所述基于多源异构数据的系统检测装置用于执行上述基于多源异构数据的系统检测方法;该系统包括:
数据获取模块100,用于基于历史提取模式,从当前异构监测数据获取日志文本数据以及指标时序数据。其中,获取日志文本数据以及指标时序数据之前,基于历史提取模式,从当前异构监测数据获取日志文本数据以及指标时序数据,从当前异构监测数据中捕获特征进行异常检测。
日志数据建模模块200,用于采用FastText算法和Transformer编码器来建模日志的词法语义和顺序依赖关系,将日志文本数据嵌入到D维特征空间中。
在一些实施例中,所述日志数据建模模块200还包括对数向量表示模块201,所述对数向量表示模块用于解析获取的日志文本数据提取日志事件,将所述日志事件转换为数值向量并进行对数向量表示。
在利用日志数据建模模块200解析所述日志文本数据提取日志事件时,工作过程为:将日志文本数据中非结构化的日志消息转换为结构化的日志事件;利用Drain解析器来提取日志事件,根据日志时间戳进行排序,得到按时间顺序排列的日志事件;将日志事件转换为具有词法和语义信息的数值向量,利用FastText捕捉日志词汇的内在语义关系;将得到的日志上下文语义进行建模和生成日志表示形式,进行对数向量表示。
指标数据建模模块300,用于使用分层编码器来学习基于因果卷积网络的表示,以分层的方式对段级模式的指标进行建模,抽取出的所述指标嵌入到D维特征表示。
异构表示融合模块400,用于基于异构表示融合将所述日志文本数据的对数向量表示以及所述指标时序数据的D维特征表示输入到融合模块中进行异构数据融合。在本实施例中,基于异构表示融合将所述日志文本数据的对数向量表示以及所述指标时序数据的D维特征表示输入到融合模块中进行异构数据融合,工作过程为:将日志文本数据和指标时序数据均嵌入到D维特征空间中,并输入到融合模块中;第一个注意力层Attn-α采用日志表示Rl作为Query,指标表示Rm作为Key和Value,以匹配指标变化的日志事件;第二个注意层Attn-β,Rm为Query,Rl为Key和Value,以找到与日志内容一致的指标差异;将来自Attn-α和Attn-β的输出连接到D维空间中,每个数据块构成一个全局表示
Figure BDA0004073653920000111
交叉注意力机制通过直接连接Query和Value来显式保留有意义的内部连接,进行异构数据融合。
推理预测模块500,用于通过全连接层和Softmax层函数进行计算推理预测结果,得到系统异常检测的结果。在本实施例中,通过全连接层和Softmax层函数进行计算推理预测结果,包括:将进程内块的表示Rg提供给全连接层和softmax层,计算推理预测结果,公式如下:
Figure BDA0004073653920000112
其中,输出
Figure BDA0004073653920000113
表示状态正常或异常,U和V为学习的权重矩阵,b和c是偏差项,σ是激活函数。
应该理解的是,上述虽然是按照某一顺序描述的,但是这些步骤并不是必然按照上述顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,本实施例的一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,参见图4所示,在本发明的实施例中还提供了一种计算机设备1000,包括至少一个处理器1002,以及与所述至少一个处理器1002通信连接的存储器1001,所述存储器1001存储有可被所述至少一个处理器1002执行的指令,所述指令被所述至少一个处理器1002执行,以使所述至少一个处理器1002执行所述的基于多源异构数据的系统检测方法,该处理器1002执行指令时实现上述各方法实施例中的步骤:
获取日志文本数据,解析所述日志文本数据提取日志事件,将所述日志事件转换为数值向量并进行对数向量表示;
获取指标时序数据,以分层的方式对段级模式的指标进行建模,抽取出的所述指标嵌入到D维特征表示;
基于异构表示融合将所述日志文本数据的对数向量表示以及所述指标时序数据的D维特征表示输入到融合模块中进行异构数据融合;
通过全连接层和Softmax层函数进行计算推理预测结果,得到系统异常检测的结果。
在本发明的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例中基于多源异构数据的系统检测方法,该基于多源异构数据的系统检测方法包括:
获取日志文本数据,解析所述日志文本数据提取日志事件,将所述日志事件转换为数值向量并进行对数向量表示;
获取指标时序数据,以分层的方式对段级模式的指标进行建模,抽取出的所述指标嵌入到D维特征表示;
基于异构表示融合将所述日志文本数据的对数向量表示以及所述指标时序数据的D维特征表示输入到融合模块中进行异构数据融合;
通过全连接层和Softmax层函数进行计算推理预测结果,得到系统异常检测的结果。
在本发明的示例性实施例中,描述了根据本发明的实施例的用于实现上述方法的程序产品,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。
综上所述,本发明提供的基于多源异构数据的系统检测方法及装置,利用层次结构来融合日志语义和指标模式来学习系统状态的全局表示,利用跨模式注意机制捕捉多模式数据的不同特征和有意义的交互,从而实现准确的系统异常检测,本发明通过从异构数据中捕获有意义的特征来进行异常检测,不仅利用了日志数据的语义信息和指标数据的时间依赖,还通过注意力融合机制学习跨模态表征,来缩小差距,以提供更加合理的检测判断。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于多源异构数据的系统检测方法,其特征在于,包括以下步骤:
获取日志文本数据,解析所述日志文本数据提取日志事件,将所述日志事件转换为数值向量并进行对数向量表示;
获取指标时序数据,以分层的方式对段级模式的指标进行建模,抽取出的所述指标嵌入到D维特征表示;
基于异构表示融合将所述日志文本数据的对数向量表示以及所述指标时序数据的D维特征表示输入到融合模块中进行异构数据融合;
通过全连接层和Softmax层函数进行计算推理预测结果,得到系统异常检测的结果。
2.如权利要求1所述的基于多源异构数据的系统检测方法,其特征在于,获取日志文本数据以及指标时序数据之前,基于历史提取模式,从当前异构监测数据获取日志文本数据以及指标时序数据,从当前异构监测数据中捕获特征进行异常检测。
3.如权利要求2所述的基于多源异构数据的系统检测方法,其特征在于,解析所述日志文本数据提取日志事件,包括:
将日志文本数据中非结构化的日志消息转换为结构化的日志事件;
利用Drain解析器来提取日志事件,根据日志时间戳进行排序,得到按时间顺序排列的日志事件;
将日志事件转换为具有词法和语义信息的数值向量,利用FastText捕捉日志词汇的内在语义关系;
将得到的日志上下文语义进行建模和生成日志表示形式,进行对数向量表示。
4.如权利要求3所述的基于多源异构数据的系统检测方法,其特征在于,经过训练的FastText用于将每个标记映射到一个E维向量中,将对数事件x转换为标记嵌入列表
Figure FDA0004073653900000011
其中,w为事件的标记数;
FastText还用于对所有元素取平均,得到一个嵌入向量
Figure FDA0004073653900000021
将对数序列x1:L用句子嵌入表示
Figure FDA0004073653900000022
5.如权利要求4所述的基于多源异构数据的系统检测方法,其特征在于,基于FastText获得的嵌入向量作为序列编码器的输入,序列编码器的输入由两个Transformer编码器层组成,通过一个全连接层将输出映射到一个D维特征空间,得到一个块的对数表示
Figure FDA0004073653900000023
6.如权利要求5所述的基于多源异构数据的系统检测方法,其特征在于,获取指标时序数据,以分层的方式对段级模式的指标进行建模,包括一个方面内编码和一个方面间编码;
所述方面内编码包括:将指标按照相应方面分解为Y组,将相同方面的指标作为一个MTS输入到一个由多层因果卷积网络组成的方面内编码器中,经过填充和切割,方面内编码器输出Y的特征向量hm,对特征进行最大池化,叠加输出,形成潜在的特征向量
Figure FDA0004073653900000024
所述方面间编码包括:将方向内编码器输出的Hm作为一个MTS输入到方向间编码器中,块内的指标Xm被嵌入到D维表示中
Figure FDA0004073653900000025
7.如权利要求6所述的基于多源异构数据的系统检测方法,其特征在于,基于异构表示融合将所述日志文本数据的对数向量表示以及所述指标时序数据的D维特征表示输入到融合模块中进行异构数据融合,包括:
将日志文本数据和指标时序数据均嵌入到D维特征空间中,并输入到融合模块中;
第一个注意力层Attn-α采用日志表示Rl作为Query,指标表示Rm作为Key和Value,以匹配指标变化的日志事件;
第二个注意层Attn-β,Rm为Query,Rl为Key和Value,以找到与日志内容一致的指标差异;
将来自Attn-α和Attn-β的输出连接到D维空间中,每个数据块构成一个全局表示
Figure FDA0004073653900000026
交叉注意力机制通过直接连接Query和Value来显式保留有意义的内部连接,进行异构数据融合。
8.如权利要求7所述的基于多源异构数据的系统检测方法,其特征在于,通过全连接层和Softmax层函数进行计算推理预测结果,包括:将进程内块的表示Rg提供给全连接层和softmax层,计算推理预测结果,公式如下:
Figure FDA0004073653900000031
其中,输出
Figure FDA0004073653900000032
表示状态正常或异常,U和V为学习的权重矩阵,b和c是偏差项,σ是激活函数。
9.一种基于多源异构数据的系统检测装置,其特征在于,所述基于多源异构数据的系统检测装置用于执行权利要求1-8中任意一项所述基于多源异构数据的系统检测方法;该系统包括:
数据获取模块,用于基于历史提取模式,从当前异构监测数据获取日志文本数据以及指标时序数据;
日志数据建模模块,用于采用FastText算法和Transformer编码器来建模日志的词法语义和顺序依赖关系,将日志文本数据嵌入到D维特征空间中;
指标数据建模模块,用于使用分层编码器来学习基于因果卷积网络的表示,以分层的方式对段级模式的指标进行建模,抽取出的所述指标嵌入到D维特征表示;
异构表示融合模块,用于基于异构表示融合将所述日志文本数据的对数向量表示以及所述指标时序数据的D维特征表示输入到融合模块中进行异构数据融合;
推理预测模块,用于通过全连接层和Softmax层函数进行计算推理预测结果,得到系统异常检测的结果。
10.如权利要求9所述的基于多源异构数据的系统检测装置,其特征在于,所述日志数据建模模块还包括对数向量表示模块,所述对数向量表示模块用于解析获取的日志文本数据提取日志事件,将所述日志事件转换为数值向量并进行对数向量表示。
CN202310071916.5A 2023-01-13 2023-01-13 一种基于多源异构数据的系统检测方法及装置 Pending CN116089289A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202310071916.5A CN116089289A (zh) 2023-01-13 2023-01-13 一种基于多源异构数据的系统检测方法及装置
PCT/CN2023/123196 WO2024148880A1 (zh) 2023-01-13 2023-10-07 一种基于多源异构数据的系统检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310071916.5A CN116089289A (zh) 2023-01-13 2023-01-13 一种基于多源异构数据的系统检测方法及装置

Publications (1)

Publication Number Publication Date
CN116089289A true CN116089289A (zh) 2023-05-09

Family

ID=86202194

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310071916.5A Pending CN116089289A (zh) 2023-01-13 2023-01-13 一种基于多源异构数据的系统检测方法及装置

Country Status (2)

Country Link
CN (1) CN116089289A (zh)
WO (1) WO2024148880A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024148880A1 (zh) * 2023-01-13 2024-07-18 中电信数智科技有限公司 一种基于多源异构数据的系统检测方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10679135B2 (en) * 2015-11-09 2020-06-09 Nec Corporation Periodicity analysis on heterogeneous logs
US10706229B2 (en) * 2017-09-28 2020-07-07 Nec Corporation Content aware heterogeneous log pattern comparative analysis engine
CN113807447B (zh) * 2021-09-23 2024-07-26 兰州理工大学 一种基于fc-sae的多源异构数据融合方法
CN115408494A (zh) * 2022-07-25 2022-11-29 中国科学院深圳先进技术研究院 一种融合多头注意力对齐的文本匹配方法
CN116089289A (zh) * 2023-01-13 2023-05-09 中电信数智科技有限公司 一种基于多源异构数据的系统检测方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024148880A1 (zh) * 2023-01-13 2024-07-18 中电信数智科技有限公司 一种基于多源异构数据的系统检测方法及装置

Also Published As

Publication number Publication date
WO2024148880A1 (zh) 2024-07-18

Similar Documents

Publication Publication Date Title
CN102339252B (zh) 基于xml中间模型以及缺陷模式匹配的静态检测系统
CN116627708B (zh) 存储故障分析系统及其方法
US10810508B1 (en) Methods and apparatus for classifying and discovering historical and future operational states based on Boolean and numerical sensor data
CN114580263A (zh) 基于知识图谱的信息系统故障预测方法及相关设备
CN116719520B (zh) 代码生成方法及装置
CN107103363A (zh) 一种基于lda的软件故障专家系统的构建方法
WO2024148880A1 (zh) 一种基于多源异构数据的系统检测方法及装置
CN116821646A (zh) 数据处理链构建方法、数据缩减方法、装置、设备及介质
CN115456107A (zh) 一种时间序列异常检测系统及方法
CN114969334B (zh) 异常日志检测方法、装置、电子设备及可读存储介质
CN116561748A (zh) 一种组件子序列相关性感知的日志异常检测装置
CN116257663A (zh) 面向无人地面车辆的异常检测与关联分析方法及相关设备
CN115357470A (zh) 信息生成方法、装置、电子设备和计算机可读介质
CN117648093A (zh) 基于大模型和自定制需求模板的rpa流程自动化生成方法
CN116861269A (zh) 工程领域的多源异构数据融合及分析方法
Nevendra et al. A survey of software defect prediction based on deep learning
CN117235745A (zh) 基于深度学习工控漏洞挖掘方法、系统、设备和存储介质
Dutta et al. Big data architecture for environmental analytics
CN117251581A (zh) 一种基于文本分析的设备故障信息诊断方法
CN117034099A (zh) 一种系统日志异常检测方法
US8010477B2 (en) Integrated problem solving system
CN117150439B (zh) 基于多源异构数据融合的汽车制造参数检测方法及系统
CN117290856B (zh) 基于软件自动化测试技术的智能测试管理系统
CN118395572B (zh) 一种生产桥梁缆索结构寿命分析评估方法及装置
CN116361816B (zh) 一种智能合约漏洞检测方法、系统、存储介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination