CN116881087A - 数据库运维智能平台 - Google Patents

数据库运维智能平台 Download PDF

Info

Publication number
CN116881087A
CN116881087A CN202311142012.3A CN202311142012A CN116881087A CN 116881087 A CN116881087 A CN 116881087A CN 202311142012 A CN202311142012 A CN 202311142012A CN 116881087 A CN116881087 A CN 116881087A
Authority
CN
China
Prior art keywords
matrix
feature
noise reduction
index data
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311142012.3A
Other languages
English (en)
Other versions
CN116881087B (zh
Inventor
张璇
关涛
唐圣潘
张达刚
王凯
何旭
李东娇
阳贤会
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henghui Xinda Technology Co ltd
Original Assignee
Henghui Xinda Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henghui Xinda Technology Co ltd filed Critical Henghui Xinda Technology Co ltd
Priority to CN202311142012.3A priority Critical patent/CN116881087B/zh
Publication of CN116881087A publication Critical patent/CN116881087A/zh
Application granted granted Critical
Publication of CN116881087B publication Critical patent/CN116881087B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2131Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on a transform domain processing, e.g. wavelet transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2133Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on naturality criteria, e.g. with non-negative factorisation or negative correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • Complex Calculations (AREA)

Abstract

本发明属于数据库技术领域,具体涉及数据库运维智能平台。所述平台包括:数据库运行指标数据监测部分和数据库故障监测部分;所述数据库运行指标数据监测部分,配置用于获取数据库在多个不同时刻下运行时的多组性能指标数据,并对每组性能指标数据进行数据降噪处理,得到降噪性能指标数据;所述数据库故障监测部分,配置用于将每一组降噪性能指标数据分别映射到不同的特征空间,进行特征提取,得到每个特征矩阵的特征,对于特征矩阵的特征,将特征代码与预设的特征代码库进行比对,以判定数据库出现故障的类型。本发明不仅提高了数据库运维效率,还显著降低了潜在的风险,为数据库管理带来了显著的效益和价值。

Description

数据库运维智能平台
技术领域
本发明属于数据库技术领域,具体涉及数据库运维智能平台。
背景技术
在当今信息技术迅速发展的背景下,数据库作为数据存储与管理的核心组件,对于企业的正常运营和决策分析起着至关重要的作用。随着数据量的不断增加以及数据库的复杂性日益提高,数据库的运维和管理也变得愈发复杂和困难。因此,研发出一种高效的数据库运维智能平台成为了迫切的需求。
在现有技术中,数据库运维的过程通常需要大量的人力和时间投入。传统的数据库监测方法依赖于人工收集性能指标数据,然后通过手动分析和判断来检测数据库的运行状态和故障情况。虽然已有一些自动化监测工具和系统,但由于数据库的复杂性和多变性,这些方法在实际应用中往往无法完全满足高效、准确的运维需求。此外,传统的数据库监测方法往往无法及时发现潜在的问题,导致数据库故障的延误和损失。
此外,尽管在数据库监测领域已经存在一些机器学习和数据挖掘技术的应用,但现有技术往往无法充分利用大量的性能指标数据,无法从复杂的数据中准确地识别异常情况。而且,一些现有技术在特征工程和模型构建方面面临一定的困难,需要耗费大量的人力和时间。因此,如何将机器学习技术与数据库运维相结合,实现智能化的监测与故障检测成为了一个重要的课题。
此外,现有技术在异常检测领域仍然存在一些挑战。例如,传统的基于统计方法的异常检测技术对于复杂和非线性的数据分布表现不佳,而一些基于规则的方法又很难应对多变和复杂的故障模式。因此,需要一种创新的方法来有效地处理数据库性能指标数据,识别出潜在的异常情况,并为数据库管理员提供准确的故障诊断和预测。
发明内容
本发明的主要目的在于提供数据库运维智能平台,不仅提高了数据库运维效率,还显著降低了潜在的风险,为数据库管理带来了显著的效益和价值。
为解决上述技术问题,本发明提供数据库运维智能平台,包括:
数据库运维智能平台,所述平台包括:数据库运行指标数据监测部分和数据库故障监测部分;所述数据库运行指标数据监测部分,配置用于获取数据库在多个不同时刻下运行时的多组性能指标数据,每个时刻下的性能指标数据为同一组,并对每组性能指标数据进行数据降噪处理,得到降噪性能指标数据;所述数据库故障监测部分,配置用于将每一组降噪性能指标数据分别映射到不同的特征空间,并得到每一组每组降噪性能指标数据在特征空间下的特征矩阵,每个特征矩阵中具备相同的样本和特征数,并对每个特征矩阵进行矩阵降维后,进行特征提取,得到每个特征矩阵的特征,对于特征矩阵的特征,判断其是否出现异常,若没有出现异常,则判定数据库未出现异常,若出现异常,则计算出现异常的特征的特征值,将特征值按照设定的拼接规则拼接成一个特征代码,将特征代码与预设的特征代码库进行比对,以判定数据库出现故障的类型。
进一步的,所述数据库运行指标数据监测部分获取的每组性能指标数据至少包括:响应时间,吞吐量,CPU利用率、内存利用率、锁等待时间、缓存命中率、连接数、日志写入速率、死锁数量和网络延迟。
进一步的,所述对每组性能指标数据进行数据降噪处理,得到降噪性能指标数据的方法包括:将每组性能指标数据视为一个数据集合,将每组性能指标数据视为一个数据集合,将数据集合表示为一个高维度的矩阵,其中/>是每组性能指标数据中的性能指标数据的数量,/>是每个性能指标数据的维度;使用变分自编码器的编码器将矩阵/>映射为一个潜在变量/>,潜在变量/>由其自身的均值向量/>和方差向量/>来描述,其中:/>;其中,/>是从标准正态分布/>中采样得到的噪声向量,表示逐元素乘法;将潜在变量/>输入使用变分自编码器的编码器,解码器将潜在变量映射回原始数据空间,生成降噪后的矩阵/>
进一步的,所述变分自编码器的降噪损失函数使用如下公式进行表示:
;其中,/>是矩阵/>中的元素,/>是生成的降噪后的矩阵/>中的元素;/>降噪损失函数值;降噪损失函数的目标是最小化降噪损失函数值/>,通过随机梯度下降法来更新编码器和解码器的参数。
进一步的,所述数据库故障监测部分,包括:特征空间映射单元,配置用于将每一组降噪性能指标数据分别映射到不同的特征空间,并得到每一组每组降噪性能指标数据在特征空间下的特征矩阵,每个特征矩阵中具备相同的样本和特征数;降维和特征提取单元,配置用于针对每个特征矩阵,使用非负矩阵分解法将特征矩阵分解为两个非负矩阵,构建拉普拉斯映射矩阵,并构建基于非负矩阵分解的拉普拉斯映射损失函数,重复执行设定次数的下述步骤:通过优化拉普拉斯映射损失函数,更新两个非负矩阵以最小化损失,完成对特征矩阵的矩阵降维和特征提取,将最终的两个非负矩阵作为每个特征矩阵的特征;异常检测单元,配置用于对于特征矩阵的特征,对于特征矩阵的特征,判断其是否出现异常,若没有出现异常,则判定数据库未出现异常,若出现异常,则计算出现异常的特征的特征值,将这些特征值按照设定的拼接规则拼接成一个特征代码,将特征代码与预设的特征代码库进行比对,以判定数据库出现故障的类型。
进一步的,所述特征空间映射单元,将每一组降噪性能指标数据分别映射到不同的特征空间,并得到每一组每组降噪性能指标数据在特征空间下的特征矩阵,每个特征矩阵中具备相同的样本和特征数的方法包括:经过降噪的处理,将每一组降噪性能指标数据转换为降噪后的矩阵,针对每个降噪后的矩阵/>,计算每一行的元素的核函数值;设降噪后的矩阵/>为/>行乘以/>列的矩阵;所述核函数使用如下公式进行表示
其中,为核函数值,/>为下标,用以表示矩阵中行的序号,当/>时,/>表示矩阵的第一行的元素的核函数的值;/>降噪后的矩阵/>中处于同一行的元素的元素值;/>为核函数宽度,为设定值;
就计算出的核函数的值组成一个核矩阵,对核矩阵/>进行特征值分解,得到核矩阵的特征值和核矩阵的特征向量;择前3个最大的特征值对应的特征向量作为特征空间的基,将降噪后的矩阵/>投影到特征空间中;并在特征空间中再次对降噪后的矩阵进行特征值分解,得到降噪后的矩阵/>特征向量和特征值/>,将特征向量作为特征矩阵/>
进一步的,所述拉普拉斯映射矩阵使用如下公式进行表示:
其中,是度矩阵,为特征矩阵的的转置,/>是邻接矩阵是特征矩阵的逆矩阵;为拉普拉斯映射矩阵。
进一步的,所述基于非负矩阵分解的拉普拉斯映射损失函数使用如下公式进行表示:
其中,为拉普拉斯映射损失函数值,/>和/>均为使用非负矩阵分解法将特征矩阵分解得到的两个非负矩阵,/>是对特征矩阵进行矩阵降维的特征数。
进一步的,所述对于特征矩阵的特征,判断其是否出现异常,若没有出现异常的方法包括:计算两个非负矩阵和/>的相似度向量,若相似度向量的模超过设定的阈值,则判断出现异常,否则,判断未出现异常。
进一步的,所述将特征值按照设定的拼接规则拼接成一个特征代码的拼接规则包括:将特征值按照从大到小排列,然后按照从大到小或从小到大的顺序,将特征值进行收尾相连,组成特征代码。
本发明的数据库运维智能平台,具有以下有益效果:首先,本发明的数据库运维智能平台实现了全面的性能指标数据监测。在传统数据库运维中,手动收集和分析性能指标数据是一项繁琐的任务,容易出现数据不准确、监测不及时等问题。而本发明通过配置数据库运行指标数据监测部分,能够在多个不同时刻下自动获取多组性能指标数据,如响应时间、吞吐量、CPU利用率等。这大大提高了数据收集的效率,确保了数据库运行状态的全面监测。其次,本发明引入了变分自编码器(VAE)用于数据降噪处理。传统的性能指标数据常受到噪声和异常值的影响,降低了数据的准确性和可信度。然而,通过在数据库运行指标数据监测部分进行数据降噪处理,本发明能够有效去除噪声,提高数据的质量。变分自编码器不仅可以将数据映射到潜在空间中,还能够保留数据的关键特征,从而为后续的异常检测提供更可靠的基础。此外,本发明采用拉普拉斯映射损失函数和非负矩阵分解等算法,实现了数据的降维和特征提取。这一步骤有助于将高维度的性能指标数据转换为更低维度的潜在空间,保留了数据的主要信息,同时去除了冗余和无关信息。通过精确的降维和特征提取,数据库管理员能够更好地理解数据,更快地检测和诊断问题,从而提高了数据库的运维效率。更重要的是,本发明在异常检测方面展现出了明显的优势。通过将降维后的性能指标数据映射到特征空间,利用拉普拉斯映射损失函数和非负矩阵分解的方法,本发明能够更准确地判断数据库是否出现异常。这使得故障情况能够被及早检测和预测,从而减少了潜在的系统宕机和数据丢失风险,保障了数据库的稳定性和可用性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的数据库运维智能平台的系统结构示意图。
具体实施方式
下面结合附图及本发明的实施例对本发明的方法作进一步详细的说明。
参考图1,数据库运维智能平台,所述平台包括:数据库运行指标数据监测部分和数据库故障监测部分;所述数据库运行指标数据监测部分,配置用于获取数据库在多个不同时刻下运行时的多组性能指标数据,每个时刻下的性能指标数据为同一组,并对每组性能指标数据进行数据降噪处理,得到降噪性能指标数据;在这部分中,平台配置用于获取数据库在不同时刻下运行时的多组性能指标数据。性能指标数据包括诸如数据库的响应时间、吞吐量、连接数等信息。每个时刻下的性能指标数据被组织成一组,然后对每组性能指标数据进行数据降噪处理,以去除由于噪声、抖动等因素引起的不稳定性。这样,得到了降噪后的性能指标数据,这些数据更有助于准确地分析数据库的运行状态。
所述数据库故障监测部分,配置用于将每一组降噪性能指标数据分别映射到不同的特征空间,并得到每一组每组降噪性能指标数据在特征空间下的特征矩阵,每个特征矩阵中具备相同的样本和特征数,并对每个特征矩阵进行矩阵降维后,进行特征提取,得到每个特征矩阵的特征,对于特征矩阵的特征,判断其是否出现异常,若没有出现异常,则判定数据库未出现异常,若出现异常,则计算出现异常的特征的特征值,将特征值按照设定的拼接规则拼接成一个特征代码,将特征代码与预设的特征代码库进行比对,以判定数据库出现故障的类型。在这一部分中,每一组降噪性能指标数据被映射到不同的特征空间。这种映射通过一些数学变换来实现,例如主成分分析(PCA)等。这个过程的目标是将原始性能指标数据转换成一组更具代表性的特征,以便后续的异常检测和故障判定。每一组降噪性能指标数据在特征空间下形成一个特征矩阵,每个特征矩阵中的行对应样本,列对应特征。接下来,对每个特征矩阵进行降维操作,这有助于减少数据维度并保留主要信息,然后进行特征提取,得到每个特征矩阵的关键特征。这些关键特征反映了数据库的运行状态和性能特点。对于这些特征,平台进行异常检测。如果特征矩阵中的某些特征值偏离了预期范围,那么意味着数据库出现了异常情况。如果没有发现异常,那么可以认为数据库正常运行;但如果异常被检测出来,平台会计算出现异常的特征的特征值,然后将这些特征值按照设定的拼接规则组合成一个特征代码。
所述数据库运行指标数据监测部分获取的每组性能指标数据至少包括:响应时间,吞吐量,CPU利用率、内存利用率、锁等待时间、缓存命中率、连接数、日志写入速率、死锁数量和网络延迟。
具体的,响应时间:响应时间是指从用户提交请求到数据库完成响应所经过的时间。较低的响应时间通常表示数据库系统能够迅速地响应用户请求,提供更好的用户体验。
吞吐量:吞吐量是指单位时间内数据库处理的请求数量。高吞吐量表示数据库能够同时处理多个请求,提高系统的工作效率。
CPU利用率:CPU利用率衡量了CPU资源的使用情况。高CPU利用率表示数据库正在进行复杂的计算任务或处理大量请求,但过高的利用率导致性能下降。
内存利用率:内存利用率指的是数据库系统当前使用的内存量与总可用内存之间的比率。高内存利用率表明数据库正在缓存大量数据,但也要注意防止过度使用内存导致系统不稳定。
锁等待时间:锁等待时间表示在数据库操作中,等待锁释放的时间。锁等待时间较长导致事务阻塞,影响数据库的并发性能。
缓存命中率:缓存命中率是指从缓存中读取数据的次数与从磁盘读取数据的总次数之间的比率。高缓存命中率表示数据库能够有效地使用缓存,减少对磁盘的访问,提高性能。
连接数:连接数表示同时与数据库建立的连接数量。高连接数会占用系统资源,影响性能,因此需要适当管理连接。
日志写入速率:日志写入速率指的是数据库事务日志写入的速度。日志记录对于故障恢复和数据一致性非常重要,监测写入速率有助于评估数据库的稳定性。
死锁数量:死锁是指两个或多个事务相互等待对方释放资源的情况,从而导致操作无法继续进行。监测死锁数量可以帮助及时解决并发冲突问题。
网络延迟:网络延迟衡量了数据在网络上传输所需的时间。高网络延迟导致数据传输变慢,影响系统的实时性和响应性。这些性能指标数据的监测对于数据库的健康和性能管理至关重要。通过收集、分析和比较这些指标,运维人员可以更好地了解数据库的运行状态,及时发现潜在的问题,并采取相应的措施来维护和优化数据库系统。
所述对每组性能指标数据进行数据降噪处理,得到降噪性能指标数据的方法包括:将每组性能指标数据视为一个数据集合,将数据集合表示为一个高维度的矩阵,其中/>是每组性能指标数据中的性能指标数据的数量,/>是每个性能指标数据的维度;使用变分自编码器的编码器将矩阵/>映射为一个潜在变量/>,潜在变量/>由其自身的均值向量/>和方差向量/>来描述,其中:/>;其中,/>是从标准正态分布/>中采样得到的噪声向量,/>表示逐元素乘法;将潜在变量/>输入使用变分自编码器的编码器,解码器将潜在变量/>映射回原始数据空间,生成降噪后的矩阵
具体的,自编码器是一种神经网络结构,它试图学习数据的紧凑表示,同时保留重要的特征。在这种情况下,VAE即变分自编码器,扩展了自编码器的概念,引入了潜在变量和概率性。VAE的编码器将输入数据(性能指标数据)映射到一个潜在空间中的潜在变量。而解码器将潜在变量映射回数据空间,生成降噪后的数据。在VAE中,潜在变量不仅仅是编码的结果,还被看作是从潜在空间中采样得到的。这个采样过程是通过一个随机向量(在这里是)加入到潜在变量的均值和方差中来实现的。这个过程增加了模型的灵活性,使得模型能够生成多样的数据。在VAE中,解码器的任务不仅是重构输入数据,还包括生成新的数据样本。通过在潜在空间中采样,解码器能够生成在数据分布中有意义的数据。当应用于降噪处理时,解码器的生成能力使其能够将噪声数据映射回原始数据分布,从而还原出潜在的真实信号。VAE的学习过程涉及到最大化数据的似然概率,即通过调整模型参数来使得解码器能够生成能够拟合原始数据分布的数据。此外,也要最小化潜在变量的分布与标准正态分布之间的差异,以确保潜在空间的连续性和规范性。这两个目标被结合成一个损失函数,通过反向传播算法来优化模型参数。
编码器的任务是将输入矩阵映射到潜在变量/>的均值向量/>和方差向量/>。这个过程有点类似于压缩数据,将高维度的性能指标数据压缩到一个潜在空间中。这里,和/>是通过神经网络计算得到的。
解码器则相反,它接收潜在变量,通过一个神经网络来映射回原始数据空间。这个过程可以看作是对潜在变量的解压缩,将其转化为降噪后的性能指标数据。公式描述了如何从均值和方差生成潜在变量,并通过加入噪声向量/>来增加模型的多样性。
潜在变量代表着数据的潜在表示,但它不是直接给定的。为了在训练和生成过程中获得多样性的表示,从标准正态分布/>中采样噪声向量/>。通过加入噪声,可以在潜在空间中进行采样,从而生成不同的数据样本。解码器将潜在变量/>转换回原始数据空间,生成降噪后的矩阵/>。解码器的任务是通过逆映射恢复出降噪后的性能指标数据,以便能够更准确地表示原始数据中的信息。
所述变分自编码器的降噪损失函数使用如下公式进行表示:
;其中,/>是矩阵/>中的元素,/>是生成的降噪后的矩阵/>中的元素;/>降噪损失函数值;降噪损失函数的目标是最小化降噪损失函数值/>,通过随机梯度下降法来更新编码器和解码器的参数。
具体的,降噪损失函数的目标是在编码和解码的过程中,通过最小化原始数据矩阵中每个元素与解码器生成的降噪后矩阵/>中相应元素之间的差异,来实现对数据的降噪处理。通过随机梯度下降法,这个损失函数可以指导编码器和解码器的参数更新,使其能够更好地恢复出原始数据中的真实信号,并去除噪声的影响。这样,VAE能够在训练过程中逐渐学习出有效的降噪策略。
降噪损失函数是通过对原始数据矩阵 />和生成的降噪后数据矩阵中的每个元素之间的差异进行求和来计算的。对每个元素,计算其差的平方,并将所有元素的差异求和,然后再除以元素的总数量/>。这个求和过程反映了解码器生成数据与原始数据之间的整体差异。
所述数据库故障监测部分,包括:特征空间映射单元,配置用于将每一组降噪性能指标数据分别映射到不同的特征空间,并得到每一组每组降噪性能指标数据在特征空间下的特征矩阵,每个特征矩阵中具备相同的样本和特征数;降维和特征提取单元,配置用于针对每个特征矩阵,使用非负矩阵分解法将特征矩阵分解为两个非负矩阵,构建拉普拉斯映射矩阵,并构建基于非负矩阵分解的拉普拉斯映射损失函数,重复执行设定次数的下述步骤:通过优化拉普拉斯映射损失函数,更新两个非负矩阵以最小化损失,完成对特征矩阵的矩阵降维和特征提取,将最终的两个非负矩阵作为每个特征矩阵的特征;异常检测单元,配置用于对于特征矩阵的特征,对于特征矩阵的特征,判断其是否出现异常,若没有出现异常,则判定数据库未出现异常,若出现异常,则计算出现异常的特征的特征值,将这些特征值按照设定的拼接规则拼接成一个特征代码,将特征代码与预设的特征代码库进行比对,以判定数据库出现故障的类型。
具体的,特征空间映射单元:这个部分的主要任务是将每组降噪性能指标数据映射到不同的特征空间,并创建每组数据在特征空间中的特征矩阵。通过将数据映射到不同的特征空间,可以突显出性能指标之间的关系和特征。这些特征矩阵在后续的分析中将用于异常检测。
降维和特征提取单元:针对每个特征矩阵,使用非负矩阵分解(Non-NegativeMatrixFactorization,NMF)方法将特征矩阵分解为两个非负矩阵。这个步骤能够将原始的高维特征表示降维,并提取出更具代表性的特征。在这个过程中,还构建了拉普拉斯映射矩阵,该矩阵能够捕捉数据之间的相似性。通过优化基于非负矩阵分解的拉普拉斯映射损失函数,重复迭代更新非负矩阵,以实现对特征矩阵的降维和特征提取。
异常检测单元:在特征提取后,对于每个特征矩阵的特征,这个部分的任务是判断其是否出现异常。异常检测可以通过与已知的正常情况相比较,检测出不符合正常模式的数据。如果特征矩阵的特征没有异常,那么可以判定数据库未出现异常。如果存在异常,需要计算异常特征的特征值,并根据设定的规则将这些特征值拼接成一个特征代码。接着,将生成的特征代码与预先设定的特征代码库进行比对,以判定数据库出现的故障类型。
所述特征空间映射单元,将每一组降噪性能指标数据分别映射到不同的特征空间,并得到每一组每组降噪性能指标数据在特征空间下的特征矩阵,每个特征矩阵中具备相同的样本和特征数的方法包括:经过降噪的处理,将每一组降噪性能指标数据转换为降噪后的矩阵,针对每个降噪后的矩阵/>,计算每一行的元素的核函数值;设降噪后的矩阵/>为/>行乘以/>列的矩阵;所述核函数使用如下公式进行表示
其中,为核函数值,/>为下标,用以表示矩阵中行的序号,当/>时,/>表示矩阵的第一行的元素的核函数的值;/>降噪后的矩阵/>中处于同一行的元素的元素值;/>为核函数宽度,为设定值;
就计算出的核函数的值组成一个核矩阵,对核矩阵/>进行特征值分解,得到核矩阵的特征值和核矩阵的特征向量;择前3个最大的特征值对应的特征向量作为特征空间的基,将降噪后的矩阵/>投影到特征空间中;并在特征空间中再次对降噪后的矩阵进行特征值分解,得到降噪后的矩阵/>特征向量和特征值/>,将特征向量作为特征矩阵/>
具体的,核函数是一种用于度量数据相似性的方法。在这里,计算降噪后的矩阵中每一行元素的核函数值。核函数的计算基于数据的特征(在这里是性能指标数据),通过衡量它们之间的相似性来获得核函数值。公式中的/>表示降噪后矩阵中同一行的元素值,/>是核函数的宽度。计算出核函数值后,将这些值组合成一个核矩阵/>。接下来,通过特征值分解,可以获得核矩阵的特征值和对应的特征向量。这个过程可以帮助找到数据在这个新的特征空间中的主要特征方向,也就是最能够表征数据关系的方向。在特征值分解后,选择前几个最大的特征值对应的特征向量作为特征空间的基。这些特征向量代表了数据在新的特征空间中的主要变化方向。将降噪后的矩阵/>投影到特征空间的基上,从而在特征空间中获得每组数据的特征矩阵。这个投影过程将每组数据映射到一个新的坐标系中,其中坐标轴是由特征空间的基所定义的。
综合起来,特征空间映射单元的原理是通过核函数计算、特征值分解和投影,将降噪后的性能指标数据转换到一个新的特征空间中。在这个特征空间中,数据的表示更为精炼,能够更好地捕捉不同性能指标之间的关系和特征。这有助于提取更有效的特征,为后续的异常检测提供更有用的信息。
特征空间映射单元通过核函数和特征值分解等技术,将原始的性能指标数据转换为一个更有意义的特征空间。在这个新的特征空间中,数据的表示更加精炼,能够突显不同性能指标之间的关系和特征。这有助于提取出数据中的关键特征,从而更好地描述数据的本质。在特征空间中,数据的维度会比原始数据空间低。通过降低数据的维度,可以减少数据的复杂性,使得数据更易于分析和理解。这有助于减少后续处理中的计算负担,并且可以更有效地捕捉数据中的模式和异常。特征空间映射单元在特征空间中生成的特征矩阵能够突显数据之间的相似性和差异性。这使得在特征空间中的数据更容易进行比较和分析。通过比较特征矩阵,可以更容易地识别出数据中的模式、趋势以及异常情况。生成的特征矩阵在突显数据的关键特征和模式的同时,也更容易检测出异常。因为在特征空间中,异常数据在特征矩阵中呈现出独特的分布。这为后续的异常检测提供了更有价值的信息,使得异常和故障可以更准确地被识别出来。
所述拉普拉斯映射矩阵使用如下公式进行表示:
其中,是度矩阵,为特征矩阵的的转置,/>是邻接矩阵是特征矩阵的逆矩阵;为拉普拉斯映射矩阵。
具体的,度矩阵是一个对角矩阵,其对角线上的元素表示每个数据点(或特征)与其他数据点之间的连接数量。在特征矩阵的上下文中,/>是特征矩阵的转置,表示每个特征在数据中的重要性。对角线上的元素通常是特征在数据中的总和,反映了每个特征在整体数据中的贡献。
邻接矩阵是用来表示数据点之间的关系的矩阵。在特征空间中,邻接矩阵描述了数据点之间的相似性或连接强度。在这里,/>是特征矩阵的逆矩阵,表示特征之间的联系程度。邻接矩阵的构建方式通常基于数据点之间的相似性度量,比如欧氏距离或核函数。
拉普拉斯映射矩阵用于捕捉数据之间的关系,特别是数据的相似性和连接情况。在这个公式中,/>表示拉普拉斯映射矩阵,它是通过从度矩阵/>中减去邻接矩阵/>得到的。这个操作可以看作是在特征空间中,度矩阵所反映的数据的整体特征被与邻接矩阵所反映的特征之间的联系相抵消,从而得到了数据之间的差异和相似性的度量。
所述基于非负矩阵分解的拉普拉斯映射损失函数使用如下公式进行表示:
其中,为拉普拉斯映射损失函数值,/>和/>均为使用非负矩阵分解法将特征矩阵分解得到的两个非负矩阵,/>是对特征矩阵进行矩阵降维的特征数。
具体的,表示在特征空间中对原始降噪后的特征矩阵/>进行非负矩阵分解(NMF)。NMF 的目标是将原始的高维特征矩阵/>分解为两个非负矩阵和/>的乘积,其中/>是特征矩阵,/>是降维后的低维表示矩阵。这一部分表示数据重构误差,即降维后再重构回原始数据时的误差。
引入了拉普拉斯映射的相似性约束。/>是拉普拉斯映射矩阵,通过特征空间的邻接关系构建,如前所述。/>是低维表示矩阵,其表示数据在特征空间的映射。这部分的目标是通过最小化低维表示矩阵/>与拉普拉斯映射矩阵/>之间的 Frobenius 范数,来强调数据在特征空间中的相似性。
表示对特征矩阵进行降维的特征数,也就是降维后的低维空间维度。通过选择适当的/>,可以保留数据中最重要的信息,同时减少数据的维度。
基于非负矩阵分解的拉普拉斯映射损失函数的目标是通过降维和特征提取,将降噪后的特征矩阵分解为两个非负矩阵/>和/>,同时在特征空间中保持数据的相似性。这个损失函数综合了数据的重构误差和数据在特征空间中的相似性约束,从而在降维和特征提取过程中更好地保留了数据的结构和关系。
所述对于特征矩阵的特征,判断其是否出现异常,若没有出现异常的方法包括:计算两个非负矩阵和/>的相似度向量,若相似度向量的模超过设定的阈值,则判断出现异常,否则,判断未出现异常。
具体的,对于特征矩阵中的每一行,我们可以将它看作特征空间中的一个点或向量。与此同时,矩阵/>中的对应列也代表了数据在特征空间中的投影,可以视为另一个向量。通过计算这两个向量之间的相似度,可以得到一个相似度值,用来衡量数据在特征空间中的差异程度。通过计算两个向量的相似度,可以获得一个相似度值。而相似度向量的模表示了向量的长度或大小。如果两个向量之间的相似度较低,那么它们的模较小;如果它们之间的相似度较高,那么它们的模较大。在这里,我们使用相似度向量的模来作为判断异常的依据。为了判断是否出现异常,我们设定一个阈值,该阈值可以根据具体应用场景和需求来确定。阈值的设定影响着判断异常的严格程度。如果模超过设定的阈值,意味着特征在特征空间中与其他数据点之间的相似度较低,可能表明该特征存在异常或者不符合正常模式。最终的判断依据是,如果相似度向量的模超过了预设的阈值,那么可以判断该特征出现了异常。反之,如果模未超过阈值,可以判断该特征未出现异常。
这个方法基于低维表示矩阵中特征之间的相似度来判断是否出现异常。如果特征之间的相似度较低,可能表明某些特征在特征空间中的分布不同寻常,可能是异常情况。通过设定阈值,可以控制异常检测的敏感度,根据具体需求进行调整。
所述将特征值按照设定的拼接规则拼接成一个特征代码的拼接规则包括:将特征值按照从大到小排列,然后按照从大到小或从小到大的顺序,将特征值进行收尾相连,组成特征代码。
具体的,通过这个方法,每个特征都会生成一个特征代码,用于表示其在异常检测中的特征情况。特征代码的生成方式取决于特征值的排序和拼接规则,这有助于将异常特征描述成一个易于理解和比较的形式。在后续的比对过程中,可以使用特征代码来判断数据库是否出现故障类型。这种方法提供了一种直观的方式来标识和描述异常情况,有助于快速识别问题和采取相应的措施。特征代码库是在数据库运维智能平台中用于比对和识别异常情况的集合。它包含了预先定义的特征代码,每个特征代码都与特定的异常情况或故障类型相关联。在异常检测的过程中,生成的特征代码会与特征代码库中的代码进行比对,从而确定数据库是否出现了特定的异常情况。特征代码库的作用类似于数据库异常的分类和标识系统。通过将已知的异常情况和对应的特征代码存储在库中,系统可以快速识别和报告不同类型的异常情况,从而帮助数据库管理员或运维人员更好地理解问题并采取相应的措施。特征代码库的构建和维护需要专业知识和实际经验。不同的异常类型可能需要不同的特征代码,而这些代码通常是基于先前的案例、模型、规则等得出的。通过不断积累和更新,特征代码库可以逐渐丰富,使系统能够识别更多不同类型的异常情况。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些具体实施方式仅是举例说明,本领域的技术人员在不脱离本发明的原理和实质的情况下,可以对上述方法和系统的细节进行各种省略、替换和改变。例如,合并上述方法步骤,从而按照实质相同的方法执行实质相同的功能以实现实质相同的结果则属于本发明的范围。因此,本发明的范围仅由所附权利要求书限定。

Claims (10)

1.数据库运维智能平台,其特征在于,所述平台包括:数据库运行指标数据监测部分和数据库故障监测部分;所述数据库运行指标数据监测部分,配置用于获取数据库在多个不同时刻下运行时的多组性能指标数据,每个时刻下的性能指标数据为同一组,并对每组性能指标数据进行数据降噪处理,得到降噪性能指标数据;所述数据库故障监测部分,配置用于将每一组降噪性能指标数据分别映射到不同的特征空间,并得到每一组每组降噪性能指标数据在特征空间下的特征矩阵,每个特征矩阵中具备相同的样本和特征数,并对每个特征矩阵进行矩阵降维后,进行特征提取,得到每个特征矩阵的特征,对于特征矩阵的特征,判断其是否出现异常,若没有出现异常,则判定数据库未出现异常,若出现异常,则计算出现异常的特征的特征值,将特征值按照设定的拼接规则拼接成一个特征代码,将特征代码与预设的特征代码库进行比对,以判定数据库出现故障的类型。
2.如权利要求1所述的数据库运维智能平台,其特征在于,所述数据库运行指标数据监测部分获取的每组性能指标数据至少包括:响应时间,吞吐量,CPU利用率、内存利用率、锁等待时间、缓存命中率、连接数、日志写入速率、死锁数量和网络延迟。
3.如权利要求2所述的数据库运维智能平台,其特征在于,所述对每组性能指标数据进行数据降噪处理,得到降噪性能指标数据的方法包括:将每组性能指标数据视为一个数据集合,将数据集合表示为一个高维度的矩阵 ,其中/>是每组性能指标数据中的性能指标数据的数量,/>是每个性能指标数据的维度;使用变分自编码器的编码器将矩阵/>映射为一个潜在变量/>,潜在变量/>由其自身的均值向量/>和方差向量/>来描述,其中:/>;其中,/>是从标准正态分布/>中采样得到的噪声向量,表示逐元素乘法;将潜在变量/>输入使用变分自编码器的编码器,解码器将潜在变量映射回原始数据空间,生成降噪后的矩阵/>
4.如权利要求3所述的数据库运维智能平台,其特征在于,所述变分自编码器的降噪损失函数使用如下公式进行表示:
;其中,/>是矩阵/>中的元素,/>是生成的降噪后的矩阵/>中的元素;/>降噪损失函数值;降噪损失函数的目标是最小化降噪损失函数值/>,通过随机梯度下降法来更新编码器和解码器的参数。
5.如权利要求4所述的数据库运维智能平台,其特征在于,所述数据库故障监测部分,包括:特征空间映射单元,配置用于将每一组降噪性能指标数据分别映射到不同的特征空间,并得到每一组每组降噪性能指标数据在特征空间下的特征矩阵,每个特征矩阵中具备相同的样本和特征数;降维和特征提取单元,配置用于针对每个特征矩阵,使用非负矩阵分解法将特征矩阵分解为两个非负矩阵,构建拉普拉斯映射矩阵,并构建基于非负矩阵分解的拉普拉斯映射损失函数,重复执行设定次数的下述步骤:通过优化拉普拉斯映射损失函数,更新两个非负矩阵以最小化损失,完成对特征矩阵的矩阵降维和特征提取,将最终的两个非负矩阵作为每个特征矩阵的特征;异常检测单元,配置用于对于特征矩阵的特征,对于特征矩阵的特征,判断其是否出现异常,若没有出现异常,则判定数据库未出现异常,若出现异常,则计算出现异常的特征的特征值,将这些特征值按照设定的拼接规则拼接成一个特征代码,将特征代码与预设的特征代码库进行比对,以判定数据库出现故障的类型。
6.如权利要求5所述的数据库运维智能平台,其特征在于,所述特征空间映射单元,将每一组降噪性能指标数据分别映射到不同的特征空间,并得到每一组每组降噪性能指标数据在特征空间下的特征矩阵,每个特征矩阵中具备相同的样本和特征数的方法包括:经过降噪的处理,将每一组降噪性能指标数据转换为降噪后的矩阵,针对每个降噪后的矩阵/>,计算每一行的元素的核函数值;设降噪后的矩阵/>为/>行乘以/>列的矩阵;所述核函数使用如下公式进行表示
其中,为核函数值,/>为下标,用以表示矩阵中行的序号,当/>时,/>表示矩阵的第一行的元素的核函数的值;/>降噪后的矩阵/>中处于同一行的元素的元素值;/>为核函数宽度,为设定值;
就计算出的核函数的值组成一个核矩阵,对核矩阵/>进行特征值分解,得到核矩阵的特征值和核矩阵的特征向量;择前3个最大的特征值对应的特征向量作为特征空间的基,将降噪后的矩阵/>投影到特征空间中;并在特征空间中再次对降噪后的矩阵进行特征值分解,得到降噪后的矩阵/>特征向量和特征值/>,将特征向量作为特征矩阵/>
7.如权利要求6所述的数据库运维智能平台,其特征在于,所述拉普拉斯映射矩阵使用如下公式进行表示:
其中,是度矩阵,为特征矩阵的的转置,/>是邻接矩阵是特征矩阵的逆矩阵;/>为拉普拉斯映射矩阵。
8.如权利要求6所述的数据库运维智能平台,其特征在于,所述基于非负矩阵分解的拉普拉斯映射损失函数使用如下公式进行表示:
其中,为拉普拉斯映射损失函数值,/>和/>均为使用非负矩阵分解法将特征矩阵分解得到的两个非负矩阵,/>是对特征矩阵进行矩阵降维的特征数。
9.如权利要求6所述的数据库运维智能平台,其特征在于,所述对于特征矩阵的特征,判断其是否出现异常,若没有出现异常的方法包括:计算两个非负矩阵和/>的相似度向量,若相似度向量的模超过设定的阈值,则判断出现异常,否则,判断未出现异常。
10.如权利要求6所述的数据库运维智能平台,其特征在于,所述将特征值按照设定的拼接规则拼接成一个特征代码的拼接规则包括:将特征值按照从大到小排列,然后按照从大到小或从小到大的顺序,将特征值进行收尾相连,组成特征代码。
CN202311142012.3A 2023-09-06 2023-09-06 数据库运维智能平台 Active CN116881087B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311142012.3A CN116881087B (zh) 2023-09-06 2023-09-06 数据库运维智能平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311142012.3A CN116881087B (zh) 2023-09-06 2023-09-06 数据库运维智能平台

Publications (2)

Publication Number Publication Date
CN116881087A true CN116881087A (zh) 2023-10-13
CN116881087B CN116881087B (zh) 2023-12-12

Family

ID=88260857

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311142012.3A Active CN116881087B (zh) 2023-09-06 2023-09-06 数据库运维智能平台

Country Status (1)

Country Link
CN (1) CN116881087B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101799368A (zh) * 2010-01-27 2010-08-11 北京信息科技大学 一种机电设备非线性故障预测方法
CN114386311A (zh) * 2021-12-07 2022-04-22 国网物资有限公司 基于关键性能指标的运维异常数据增强的方法和设备
WO2023071217A1 (zh) * 2021-10-27 2023-05-04 中国华能集团清洁能源技术研究院有限公司 基于深度迁移学习的多工况流程工业故障检测诊断方法
CN116127188A (zh) * 2022-12-28 2023-05-16 中国电信股份有限公司 目标反馈值确定方法、装置、电子设备及存储介质
CN116307787A (zh) * 2022-09-08 2023-06-23 国电南瑞南京控制系统有限公司 一种基于指纹的服务器运维故障识别方法、定位方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101799368A (zh) * 2010-01-27 2010-08-11 北京信息科技大学 一种机电设备非线性故障预测方法
WO2023071217A1 (zh) * 2021-10-27 2023-05-04 中国华能集团清洁能源技术研究院有限公司 基于深度迁移学习的多工况流程工业故障检测诊断方法
CN114386311A (zh) * 2021-12-07 2022-04-22 国网物资有限公司 基于关键性能指标的运维异常数据增强的方法和设备
CN116307787A (zh) * 2022-09-08 2023-06-23 国电南瑞南京控制系统有限公司 一种基于指纹的服务器运维故障识别方法、定位方法
CN116127188A (zh) * 2022-12-28 2023-05-16 中国电信股份有限公司 目标反馈值确定方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN116881087B (zh) 2023-12-12

Similar Documents

Publication Publication Date Title
WO2022160902A1 (zh) 面向云环境下大规模多元时间序列数据异常检测方法
CN108427720B (zh) 系统日志分类方法
US9542255B2 (en) Troubleshooting based on log similarity
CN114297936A (zh) 一种数据异常检测方法及装置
US20080010330A1 (en) Method and system for detecting difference between plural observed results
CN111612041A (zh) 异常用户识别方法及装置、存储介质、电子设备
US11550686B2 (en) Adaptable online breakpoint detection over I/O trace time series via deep neural network autoencoders re-parameterization
CN116679890B (zh) 存储设备安全管理系统及其方法
CN115185736B (zh) 基于图卷积神经网络的微服务调用链异常检测方法及装置
Deng et al. LSTMED: An uneven dynamic process monitoring method based on LSTM and Autoencoder neural network
WO2022001125A1 (zh) 一种存储系统的存储故障预测方法、系统及装置
CN115758173B (zh) 基于并联图注意力网络的云平台系统异常检测方法及装置
CN114968727B (zh) 基于人工智能运维的数据库贯穿基础设施的故障定位方法
CN114741369A (zh) 一种基于自注意力机制的图网络的系统日志检测方法
CN117056166A (zh) 数据异常检测方法、装置、存储介质及电子设备
CN115344414A (zh) 基于LSTM-Transformer的日志异常检测方法及系统
CN117076171A (zh) 一种面向多元时序数据的异常检测及定位方法及装置
CN116881087B (zh) 数据库运维智能平台
CN115034278A (zh) 性能指标异常检测方法、装置、电子设备和存储介质
CN116910573A (zh) 异常诊断模型的训练方法及装置、电子设备和存储介质
CN113518983A (zh) 用于处理大宽数据的过程控制工具
Zhu et al. A Performance Fault Diagnosis Method for SaaS Software Based on GBDT Algorithm.
CN113821401A (zh) 基于wt-ga-gru模型的云服务器故障诊断方法
CN112860652A (zh) 作业状态预测方法、装置和电子设备
CN117725543B (zh) 一种多元时间序列异常预测方法、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant