CN116431369A - 一种基于动态场景的数据库运维异常检测方法 - Google Patents

一种基于动态场景的数据库运维异常检测方法 Download PDF

Info

Publication number
CN116431369A
CN116431369A CN202211403059.6A CN202211403059A CN116431369A CN 116431369 A CN116431369 A CN 116431369A CN 202211403059 A CN202211403059 A CN 202211403059A CN 116431369 A CN116431369 A CN 116431369A
Authority
CN
China
Prior art keywords
periodicity
index
period
data
time sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211403059.6A
Other languages
English (en)
Inventor
王翔宇
刘宁
杨小华
王伟斌
李超德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xinshu Technology Co ltd
Original Assignee
Beijing Xinshu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xinshu Technology Co ltd filed Critical Beijing Xinshu Technology Co ltd
Priority to CN202211403059.6A priority Critical patent/CN116431369A/zh
Publication of CN116431369A publication Critical patent/CN116431369A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0718Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in an object-oriented system

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提出一种基于动态场景的数据库运维异常检测方法,该方法包括以下步骤:1.周期检测;2.周期场景划分;3.异常检测。采用该方法后,能够自动分辨时序数据的周期性,并据此判断指标的异常情况,有助于提升运维工作的自动化水平。

Description

一种基于动态场景的数据库运维异常检测方法
技术领域
本发明属于数据库运维异常检测领域,具体地涉及一种基于动态场景的数据库运维异常检测方法。
背景技术
Internet技术的快速发展和广泛应用,促使各行业的数据量呈现指数级的增长趋势。在金融、电信等领域中,不但数据量大,而且重要性非常高。所幸的是,与Internet数据不同,金融、电信等领域的数据多呈结构化分布,这一点为选择数据库作为存储载体提供了条件。所以,时至今日,数据库仍在这些领域中发挥举足轻重的作用。
正因为如此,数据库的健康状态直接关乎数据的安全,其重要性不言而喻。因此,需要实时监控数据库的各项性能指标,并能够在数据库状态出现异常时能够及时发出告警。传统的运维方式完全依赖于人工,但是当前的数据规模影响下,人工方式已越来越难以满足运维的要求。这其中重要的一点是实时性,运维人员难以提供7×24小时的服务,此外,当有异常发生时,运维人员也难以及时发现。
因此,目前的运维工作越来越依赖于信息系统,即开发出满足运维要求的信息系统,不断地监测受控数据库的健康指标,便于运维人员查看。不过,这仅仅是自动化运维系统的第一步。
每种数据库存在很多的性能指标,每种指标采集以后均可得到一列时序数据。对于普通的性能指标而言,变化趋势通常较为平稳,一旦这些指标值有突然的升降变化,可能就代表数据库发生了一些异常;但是也有一部分性能指标,在不同的时间段里,取值可能处在不同的取值范围内。对这类指标而言,一旦这些指标值有突然的升降变化,并不能立刻就确定是出现了异常,因为还有可能是从一个时间段过渡到另一个时间段的正常变化,这就为异常检测带来了挑战。
每个指标采集过来的原始时间序列数据,可能存在一些周期性规律,如数据库连接数,在白天工作时段里,因为使用人数较多,连接数就较多;在晚上非工作时段里,使用人数较少,相应地,连接数也较少;因此,连接数就呈现出一定的规律性变化。
如果能够自动且精准地识别出每个指标中存在的周期,那么就能采取相应的措施更准确高效地对这些指标进行异常检测,及时发现偏离周期性的异常点。由傅里叶变换可知,任何时序信号都可以看作是由一个或多个具有适当频率、振幅和相位的正弦波叠加。因此,通过傅里叶变换将时域信号变换为相应的频域信号,就可以得到信号在各频率上的幅度。
附图说明
图1为某数据库一段时间内数据库连接数时间序列数据。
图2为图1中数据经过傅里叶变换后得到的幅度谱。
图3为图1中数据库连接数数据曲线拟合并求取一阶导数后得到的曲线。
发明内容
为解决现有技术中存在的上述问题,本发明提出一种基于动态场景的数据库运维异常检测方法,该方法包括以下步骤:
1.周期检测
假设数据库连接数指标的时序监控数据为x1,x2,…,xn,其中,n表示指标个数,xi表示某一次采集到的数据库连接数指标,i为自然数,且1≤i≤n;设置该指标每天采集m次,m<n;上述时序监控数据经傅里叶变换得到一条连续曲线,此时,计算波峰数目k,
1)若k<3,根据第1个波峰所在的频率计算周期τ;
2)若k≥3,记k个波峰对应的幅度值分别为r1,r2,…,rk,通过3-Sigma算法计算r1,r2,…,rk中是否存在异常值,若存在异常值,则表明存在周期性,且根据第1个波峰所在频率计算周期τ;若不存在异常值,说明不存在明显的周期性。
2.周期场景划分
如果时序数据存在周期性,根据时序数据的原始分布进行拟合,并对拟合后的表达式计算一阶导数,画出一阶导数曲线。曲线两个相邻波峰之间的对应时段表示一个完整的数据周期;在两个相邻波峰之间,从一个波峰到下一个波谷之间,或从一个波谷到下一个波峰之间对应的时段,表示了不同的应用场景。
3.异常检测
若最终判断结果是不存在周期性,说明该指标平稳;如果指标中出现异常值,采用3-Sigma算法进行判断异常即可。
采用该方法后,能够自动分辨时序数据的周期性,并据此判断指标的异常情况,有助于提升运维工作的自动化水平。
具体实施方式
本发明提出一种基于动态场景的数据库运维异常检测方法,主要步骤包括:
1.周期检测
假设数据库连接数指标的时序监控数据为x1,x2,…,xn,其中,n表示指标个数,xi表示某一次采集到的数据库连接数指标,i为自然数,且1≤i≤n。假设该指标每天采集m次,为保证计算的准确率,通常应满足m<n,建议7m<n,即在满足效率要求的前提下,用于分析的指标数据采集的时长应大于1周,容易形成对数据规律的准确描述。
上述时序监控数据经傅里叶变换得到的幅度谱是一条连续的曲线,此时,计算波峰的数目k:
1)若k<3,直接根据第1个波峰所在的频率计算周期τ;
2)若k≥3,记k个波峰对应的幅度值分别为r1,r2,…,rk,通过3-Sigma算法计算r1,r2,…,rk中是否存在异常值,若存在异常值,则表明存在周期性,且根据第1个波峰所在的频率计算周期τ;若不存在异常值,则说明不存在明显的周期性。
如某数据库一段时间内数据库连接数分别为:495,500,505,509,478,10,10,9,10,10,499,503,505,506,510,12,10,9,10,11,500,501,497,495,480,18,12,10,10,13,每天对该指标采样10次。这一列时间序列数据如图1所示。
经过傅里叶变换后,可得到幅度谱,如图2所示。从图2可知,波峰数目k=2,直接根据第1个波峰所在的频率计算周期,计算数据的频率值为1,对应的周期为1天。
2.周期场景划分
如果时序数据存在周期性,则根据时序数据的原始分布进行拟合,并对拟合后的表达式计算一阶导数,画出一阶导数曲线。曲线两个相邻波峰之间的对应的时段表示一个完整的数据周期;在两个相邻的波峰之间,从一个波峰到下一个波谷之间,或者从一个波谷到下一个波峰之间对应的时段,表示了不同的应用场景。
图1所示的数据库连接数数据,曲线拟合并求取一阶导数后,得到如图3所示的曲线图。图3中,存在两个波峰,那么两个波峰之间对应的时间段,即从第1.0天到2.0天表示一个完整的数据周期,且周期的长度与步骤1中计算的长度一致。当数据分布较为复杂时,需要利用步骤1中计算的周期长度筛选出两个准确的波峰。另外,两个波峰之间,在1.5天处存在一个波谷,说明从第1.0天到第1.5天表示一种场景,记为场景1;从第1.5天到第2.0天表示另一种场景,记为场景2。从图1所示的原始数据不难看出,从第1.0天到第1.5天,数据库连接数较高,说明场景1对应了白天工作时间段内用户较多的场景;从第1.5天到第2.0天,数据库连接数较低,说明场景2对应了晚上非工作时间段内用户较少的场景。场景1的数据,相对于场景2而言,初判均为异常数据,但考虑到不同的场景时,明显又是正常的数据;反之亦然。可见,在异常检测过程中划分不同的场景是十分必要的。
3.异常检测
若最终判断结果是不存在周期性,说明该指标值通常是比较平稳的。如果该指标中有异常值出现,直接使用3-Sigma算法进行判断异常。
若最终判断结果存在周期性,则说明该指标值随着时间推移会重复出现。此时,根据步骤1计算周期,并根据步骤2划分不同的场景。根据不同的场景,并结合当前的时间,可以判断当前的新数据是否在正常的范围内。

Claims (1)

1.一种基于动态场景的数据库运维异常检测方法,其特征在于,该方法包括以下步骤:
(1)周期检测
假设数据库连接数指标的时序监控数据为x1,x2,…,xn,其中,n表示指标个数,xi表示某一次采集到的数据库连接数指标,i为自然数,且1≤i≤n;设置该指标每天采集m次,m<n;上述时序监控数据经傅里叶变换得到一条连续曲线,此时,计算波峰数目k,
1)若k<3,根据第1个波峰所在的频率计算周期τ;
2)若k≥3,记k个波峰对应的幅度值分别为r1,r2,…,rk,通过3-Sigma算法计算r1,r2,…,rk中是否存在异常值,若存在异常值,则表明存在周期性,且根据第1个波峰所在频率计算周期τ;若不存在异常值,说明不存在明显的周期性。
(2)周期场景划分
如果时序数据存在周期性,根据时序数据的原始分布进行拟合,并对拟合后的表达式计算一阶导数,画出一阶导数曲线。曲线两个相邻波峰之间的对应时段表示一个完整的数据周期;在两个相邻波峰之间,从一个波峰到下一个波谷之间,或从一个波谷到下一个波峰之间对应的时段,表示了不同的应用场景。
(3)异常检测
若最终判断结果是不存在周期性,说明该指标平稳;如果指标中出现异常值,采用3-Sigma算法进行判断异常即可。
CN202211403059.6A 2022-11-09 2022-11-09 一种基于动态场景的数据库运维异常检测方法 Pending CN116431369A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211403059.6A CN116431369A (zh) 2022-11-09 2022-11-09 一种基于动态场景的数据库运维异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211403059.6A CN116431369A (zh) 2022-11-09 2022-11-09 一种基于动态场景的数据库运维异常检测方法

Publications (1)

Publication Number Publication Date
CN116431369A true CN116431369A (zh) 2023-07-14

Family

ID=87084276

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211403059.6A Pending CN116431369A (zh) 2022-11-09 2022-11-09 一种基于动态场景的数据库运维异常检测方法

Country Status (1)

Country Link
CN (1) CN116431369A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109697207A (zh) * 2018-12-25 2019-04-30 苏州思必驰信息科技有限公司 时序数据的异常监控方法及系统
CN110750429A (zh) * 2019-09-06 2020-02-04 平安科技(深圳)有限公司 运维管理系统的异常检测方法、装置、设备及存储介质
CN111459778A (zh) * 2020-03-12 2020-07-28 平安科技(深圳)有限公司 运维系统异常指标检测模型优化方法、装置及存储介质
IT201900002319A1 (it) * 2019-02-18 2020-08-18 Inxpect S P A Sistema di rilevamento di oggetti in un ambiente
CN111768287A (zh) * 2020-05-22 2020-10-13 支付宝(杭州)信息技术有限公司 周期识别方法、装置、服务器及可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109697207A (zh) * 2018-12-25 2019-04-30 苏州思必驰信息科技有限公司 时序数据的异常监控方法及系统
IT201900002319A1 (it) * 2019-02-18 2020-08-18 Inxpect S P A Sistema di rilevamento di oggetti in un ambiente
CN110750429A (zh) * 2019-09-06 2020-02-04 平安科技(深圳)有限公司 运维管理系统的异常检测方法、装置、设备及存储介质
CN111459778A (zh) * 2020-03-12 2020-07-28 平安科技(深圳)有限公司 运维系统异常指标检测模型优化方法、装置及存储介质
CN111768287A (zh) * 2020-05-22 2020-10-13 支付宝(杭州)信息技术有限公司 周期识别方法、装置、服务器及可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈立忠;: "基于机器学习的智能化自动化运维", 中国新通信, vol. 22, no. 14, 20 July 2020 (2020-07-20), pages 44 - 46 *

Similar Documents

Publication Publication Date Title
CN115034483A (zh) 一种水轮发电机组运行故障监测方法及系统
CN109655692B (zh) 一种基于录波文件的暂态同源数据比对方法
CN115514619B (zh) 告警收敛方法及系统
CN115081883A (zh) 一种适用于配电网的运行风险评估方法及系统
Koltsidopoulos Papatzimos et al. Offshore wind turbine fault alarm prediction
CN111881594B (zh) 一种核动力设备的非平稳信号状态监测方法及系统
CN115858303B (zh) 一种基于Zabbix的服务器性能监控方法及系统
CN114254818A (zh) 一种基于风险评估模型的低压配电网连锁故障预警方法
CN112417627A (zh) 一种基于四维指标体系配电网运行可靠性分析方法
CN109615160A (zh) Cvt电压异常数据分析方法
CN115441456A (zh) 一种电网调度支持系统故障诊断方法及装置
CN109635430B (zh) 电网输电线路暂态信号监测方法和系统
CN117370818B (zh) 基于人工智能的供排水管网智能诊断方法及智慧环保系统
CN111176226A (zh) 一种基于运行工况的设备特征参数报警阈值自动分析方法
CN116431369A (zh) 一种基于动态场景的数据库运维异常检测方法
CN108108665A (zh) 一种基于多变量的燃气调压器安全预警方法
CN112345972A (zh) 基于停电事件的配电网线变关系异常诊断方法、装置及系统
CN116914917A (zh) 一种基于大数据的配电柜运行状态监测管理系统
CN106650154B (zh) 一种基于热力性能指标的核电常规岛设备可靠性监测方法
CN101923605A (zh) 铁路防灾风预警方法
CN117648588B (zh) 基于相关性网络图聚类分析的气象雷达参数异常识别方法
CN113608958B (zh) 基于时间序列混沌特性的电力设备在线监测错误数据诊断方法
CN117458722B (zh) 基于电力能源管理系统的数据监控方法及系统
CN117560300B (zh) 一种智能物联网流量预测与优化系统
CN117851956B (zh) 基于数据分析的机电设备故障诊断方法、系统及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination