CN116701652A - 一种基于机器学习的数据库智能运维系统及方法 - Google Patents

一种基于机器学习的数据库智能运维系统及方法 Download PDF

Info

Publication number
CN116701652A
CN116701652A CN202310695458.2A CN202310695458A CN116701652A CN 116701652 A CN116701652 A CN 116701652A CN 202310695458 A CN202310695458 A CN 202310695458A CN 116701652 A CN116701652 A CN 116701652A
Authority
CN
China
Prior art keywords
machine learning
module
data
maintenance
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310695458.2A
Other languages
English (en)
Inventor
张晖
赵衎衎
冷友方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yunxi Technology Co ltd
Original Assignee
Shanghai Yunxi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yunxi Technology Co ltd filed Critical Shanghai Yunxi Technology Co ltd
Priority to CN202310695458.2A priority Critical patent/CN116701652A/zh
Publication of CN116701652A publication Critical patent/CN116701652A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明公开一种基于机器学习的数据库智能运维系统及方法,涉及数据库运维技术领域,包括1)模型训练阶段:对数据库历史行为数据进行收集和解析,对解析数据进行特征编码和特征选择,被选中的特征数据随机划分为两部分,分别进行机器学习模型的训练和验证;2)故障预测及修复阶段:基于历史运维记录构建运维知识图谱,获取数据库实时行为数据,依次进行解析、特征编码、特征选择,并输入验证合格的机器学习模型进行故障预测,基于预测结果在运维知识图谱中查找对应的故障修复策略和运维工程师,并推送给对应的运维工程师,运维工程师基于收到的故障修复策略进行故障修复。本发明可以有效提升故障修复效率,保证数据库系统的稳定运行。

Description

一种基于机器学习的数据库智能运维系统及方法
技术领域
本发明涉及数据库运维技术领域,具体的说是一种基于机器学习的数据库智能运维系统及方法。
背景技术
工业实时数据库通常保存有海量数据并面向上层查询进行毫秒级响应,任何微小的故障引发的服务中断或者性能下降都会给用户带来巨大的损失。国际数据公司IDC的评估报告表明,一小时的服务宕机平均会造成约10万美元的损失。因此,工业实时数据库系统需要保障7×24小时无间断服务,并且满足高可用性和高可靠性等需求。
然而由于工业数据库系统规模庞大,其组成及运行逻辑复杂,导致系统故障发生几率大增,且故障发生后难以发现、分析、定位、调试和诊断。总体来看,分布式系统故障有以下五个特点:
第一,系统故障种类繁多。从系统组成角度看,系统组件及组件之间的交互均有可能出现故障。从系统运行逻辑角度看,系统和用户请求路径上的任何一个节点均有可能出现故障。与此同时,大量并发请求又会引起更多故障的发生。
第二,由于隐私保护和系统环境配置通常难以获取等因素,调试过程运维工程师无法获得用户的输入和输出文件,从而使基于错误重现和调试的故障诊断难以实施。
第三,系统本身的监控能力有限,难以收集全方位、细粒度的系统运行数据以辅助故障诊断。
第四,由于系统本身容错机制的存在,系统故障表现并不直观。软件系统容错机制的目标是尽可能减少局部故障带来的影响,对系统屏蔽故障的发生。而恰恰是因为这类容错机制的存在,当系统发生故障时,其反应并不敏感,为系统管理人员进行故障排查增加了困难。
第五,系统组件繁多,规模庞大,每个开发或运维工程师仅负责其中部分组件的研发和维护,对于跨组件或不熟悉的组件故障,他们无法在短时间内排查定位,给出故障原因。
由于上述故障特点,传统集成系统下通过错误重现和运维工程师经验诊断故障的方法已无法有效应用于分布式系统中。如何提升故障诊断效率,快速发现系统故障,定位故障根因成为工业实时数据库系统运维迫切需要解决的问题,也是保障系统高可用性和可靠性的关键。
随着机器学习和人工智能技术的不断发展,智能运维的概念于2016年被Gartner首次提出,其基本思想是通过机器学习和深度学习等算法分析来自于多种运维工具和设备的大规模数据,自动发现并实时响应系统出现的问题,进而提升信息技术运维能力和自动化程度。
发明内容
本发明针对目前技术发展的需求和不足之处,为准确预测定位分布式工业数据库故障,提升故障诊断修复效率,提供一种基于机器学习的数据库智能运维系统及方法。
首先,本发明的一种基于机器学习的数据库智能运维系统,解决上述技术问题采用的技术方案如下:
一种基于机器学习的数据库智能运维系统,系统包括模型训练阶段和故障预测及修复阶段,这两个阶段涉及数据收集模块、数据解析模块、数据编码模块、特征选择模块、数据划分模块、训练模块、验证模块、判定处理模块、机器学习模型、图谱构建模块、监控采集模块、查找推送模块,其中:
在模型训练阶段,数据收集模块收集数据库的历史运行日志和相关状态监控指标,数据解析模块对收集数据进行解析,数据编码模块对解析数据进行特征编码,特征选择模块对编码数据进行噪音和冗余特征的去除,数据划分模块将特征选择模块的输出数据随机划分为两部分,训练模块使用一部分数据训练机器学习模型,验证模块使用另一部分数据验证机器学习模型的预测结果,判定处理模块判定机器学习模型的预测结果是否达到预测阈值,若是,则直接输出机器学习模型,若否,则返回训练模块,继续训练机器学习模型;
在故障预测及修复阶段,图谱构建模块利用被监控数据库运维手册和历史运维记录构建运维知识图谱,监控采集模块对被监控数据库集群各节点上的各个组件进行全面监控,同时对数据库的实时运行日志和相关状态监控指标进行采集,数据解析模块对采集数据进行解析,数据编码模块对解析数据进行特征编码,特征选择模块对编码数据进行噪音和冗余特征的去除,并输出至训练合格的机器学习模型,查找推送模块基于机器学习模型的预测结果在运维知识图谱查找对应的故障修复策略和运维工程师,并自动推送给对应的运维工程师,运维工程师基于收到的故障修复策略进行故障修复。
可选的,所涉及数据解析模块利用日志解析算法对日志进行解析,将非结构化文本解析为日志模板和变量参数,变量参数包括:时间戳、日志类型、警告/错误级别、组件名称、事件内容、事件参数;
日志解析算法采用正则表达式、静态分析技术或自主学习方法。
可选的,所涉及数据编码模块采用特征处理方法对解析数据进行特征编码,特征处理方法采用基于固定时间窗口/滑动时间窗口的求最大值、求最小值、求均值、求方差、求中位值或word Embedding技术;
特征选择模块利用特征选择算法对编码数据进行噪音和冗余特征的去除,特征选择算法采用Filter方法、Wrapper方法或Embedded方法。
可选的,所涉及数据划分模块将特征选择模块的输出数据按照7:3的比例随机划分为训练集和验证集;
模型训练模块将训练集的数据分别输入有监督、无监督和半监督的机器学习算法,训练得到不同的机器学习模型;
模型验证模块将验证集的数据输入不同的机器学习模型,得到不同的预测结果;
判定处理模块输出预测结果达到预测阈值的所有机器学习模型,放弃预测结果未达到预测阈值的机器学习模型,在判定处理单元输出机器学习模型数量为0时,返回训练模块,继续进行机器学习模型的训练。
可选的,所涉及数据库智能运维系统还包括故障反馈模块和运维转单模块;
机器学习模型的预测结果会发送至故障反馈模块,故障反馈模块按照预先设定的优先级对预测结果进行排序,并根据排序结果顺序推送至对应的运维工程师,
运维工程师完成故障修复后,通过故障反馈模块删除对应预测结果,
运维工程师无法修改故障时,通过故障反馈模块触发运维转单事件,运维转单模块根据查找推送模块的查找结果重新选择运维工程师进行对应的故障修复策略的推送。
其次,本发明的一种基于机器学习的数据库智能运维方法,解决上述技术问题采用的技术方案如下:
一种基于机器学习的数据库智能运维方法,包括模型训练阶段和故障预测及修复阶段;
在模型训练阶段,首先收集并解析数据库的历史运行日志和相关状态监控指标,随后对解析数据进行特征编码和特征选择,并随机划分为两部分,最后使用一部分数据训练机器学习模型,使用另一部分数据验证机器学习模型的预测结果,并判定预测结果是否达到预测阈值,若是,则直接输出机器学习模型,若否,则返回训练模块,继续训练机器学习模型;
在故障预测及修复阶段,首先利用被监控数据库运维手册和历史运维记录构建运维知识图谱,随后对被监控数据库集群各节点上的各个组件进行全面监控,同时对数据库的实时运行日志和相关状态监控指标进行采集及解析,再后对解析数据进行特征编码和特征选择,并输出至训练合格的机器学习模型,最后基于机器学习模型的预测结果在运维知识图谱查找对应的故障修复策略和运维工程师,并自动推送给对应的运维工程师,运维工程师基于收到的故障修复策略进行故障修复。
可选的,利用日志解析算法对日志进行解析,将非结构化文本解析为日志模板和变量参数,变量参数包括:时间戳、日志类型、警告/错误级别、组件名称、事件内容、事件参数;
日志解析算法采用正则表达式、静态分析技术或自主学习方法。
可选的,采用特征处理方法对解析数据进行特征编码,特征处理方法采用基于固定时间窗口/滑动时间窗口的求最大值、求最小值、求均值、求方差、求中位值或wordEmbedding技术;
利用特征选择算法对编码数据进行噪音和冗余特征的去除,特征选择算法采用Filter方法、Wrapper方法或Embedded方法。
可选的,对解析数据进行特征编码和特征选择后,按照7:3的比例随机划分为训练集和验证集;
将训练集的数据分别输入有监督、无监督和半监督的机器学习算法,训练得到不同的机器学习模型;
将验证集的数据输入不同的机器学习模型,得到不同的预测结果;
输出预测结果达到预测阈值的所有机器学习模型,放弃预测结果未达到预测阈值的机器学习模型,在预测结果达到预测阈值的机器学习模型数量为0时,继续进行机器学习模型的训练。
本发明的一种基于机器学习的数据库智能运维系统及方法,与现有技术相比具有的有益效果是:
(1)本发明以数据库的历史运行日志和相关状态监控指标作为数据源,训练机器学习模型,训练合格的机器学习模型可以根据数据库的实时运行日志和实时状态监控指标进行故障预测,并基于预测结果向运维工程师推荐对应的故障修复策略,以方便运维工程师基于故障修复策略快速修复故障,最终实现数据库的故障预测及修复;
(2)本发明可以有效提升故障修复效率,保证数据库系统的稳定运行。
附图说明
附图1是本发明实施例一的模块连接图;
附图2是本发明实施例二的实现流程图。
具体实施方式
为使本发明的技术方案、解决的技术问题和技术效果更加清楚明白,以下结合具体实施例,对本发明的技术方案进行清楚、完整的描述。
实施例一:
结合附图1,本实施例提出一种基于机器学习的数据库智能运维系统,系统包括模型训练阶段和故障预测及修复阶段,这两个阶段涉及数据收集模块、数据解析模块、数据编码模块、特征选择模块、数据划分模块、训练模块、验证模块、判定处理模块、机器学习模型、图谱构建模块、监控采集模块、查找推送模块,其中:
在模型训练阶段,数据收集模块收集数据库的历史运行日志和相关状态监控指标,数据解析模块对收集数据进行解析,数据编码模块对解析数据进行特征编码,特征选择模块对编码数据进行噪音和冗余特征的去除,数据划分模块将特征选择模块的输出数据随机划分为两部分,训练模块使用一部分数据训练机器学习模型,验证模块使用另一部分数据验证机器学习模型的预测结果,判定处理模块判定机器学习模型的预测结果是否达到预测阈值,若是,则直接输出机器学习模型,若否,则返回训练模块,继续训练机器学习模型;
在故障预测及修复阶段,图谱构建模块利用被监控数据库运维手册和历史运维记录构建运维知识图谱,监控采集模块对被监控数据库集群各节点上的各个组件进行全面监控,同时对数据库的实时运行日志和相关状态监控指标进行采集,数据解析模块对采集数据进行解析,数据编码模块对解析数据进行特征编码,特征选择模块对编码数据进行噪音和冗余特征的去除,并输出至训练合格的机器学习模型,查找推送模块基于机器学习模型的预测结果在运维知识图谱查找对应的故障修复策略和运维工程师,并自动推送给对应的运维工程师,运维工程师基于收到的故障修复策略进行故障修复。
需要补充的是,在模型训练阶段,数据收集模块收集数据库的历史运行日志和相关状态监控指标后,可以通过流处理平台将收集数据全部传输至数据解析模块,数据解析模块解析数据后存储到数据行为数据仓库,数据编码模块从数据行为数据仓库获取数据进行编码。
本实施例中,数据解析模块利用日志解析算法对日志进行解析,将非结构化文本解析为日志模板和变量参数,变量参数包括:时间戳、日志类型、警告/错误级别、组件名称、事件内容、事件参数。日志解析算法采用正则表达式、静态分析技术或自主学习方法。
本实施例中,解析结果包含组件配置数据、空间数据、告警数据。数据编码模块采用特征处理方法对解析数据分别进行特征编码,得到组件配置特征、空间特征、告警特征。特征处理方法采用基于固定时间窗口/滑动时间窗口的求最大值、求最小值、求均值、求方差、求中位值或word Embedding技术。特征选择模块利用特征选择算法对编码数据进行噪音和冗余特征的去除,特征选择算法采用Filter方法、Wrapper方法或Embedded方法。
本实施例中,数据划分模块将特征选择模块的输出数据按照7:3的比例随机划分为训练集和验证集;
模型训练模块将训练集的数据分别输入有监督、无监督和半监督的机器学习算法,训练得到不同的机器学习模型;
模型验证模块将验证集的数据输入不同的机器学习模型,得到不同的预测结果;
判定处理模块输出预测结果达到预测阈值的所有机器学习模型,放弃预测结果未达到预测阈值的机器学习模型,在判定处理单元输出机器学习模型数量为0时,返回训练模块,继续进行机器学习模型的训练。
在本实施例的基础上,数据库智能运维系统还包括故障反馈模块和运维转单模块。机器学习模型的预测结果会发送至故障反馈模块,故障反馈模块按照预先设定的优先级对预测结果进行排序,并根据排序结果顺序推送至对应的运维工程师,运维工程师完成故障修复后,通过故障反馈模块删除对应预测结果,或者,运维工程师多次尝试后仍无法修改故障时,通过故障反馈模块触发运维转单事件,运维转单模块根据查找推送模块的查找结果重新选择运维工程师进行对应的故障修复策略的推送,这一过程中,运维转单模块还会将前述故障修复记录和转单记录作为新数据传送至图谱构建模块,进行运维知识图谱额更新。
实施例二:
结合附图2,本实施例提出一种基于机器学习的数据库智能运维方法,包括模型训练阶段和故障预测及修复阶段;
在模型训练阶段,首先收集并解析数据库的历史运行日志和相关状态监控指标,随后对解析数据进行特征编码和特征选择,并随机划分为两部分,最后使用一部分数据训练机器学习模型,使用另一部分数据验证机器学习模型的预测结果,并判定预测结果是否达到预测阈值,若是,则直接输出机器学习模型,若否,则返回训练模块,继续训练机器学习模型;
在故障预测及修复阶段,首先利用被监控数据库运维手册和历史运维记录构建运维知识图谱,随后对被监控数据库集群各节点上的各个组件进行全面监控,同时对数据库的实时运行日志和相关状态监控指标进行采集及解析,再后对解析数据进行特征编码和特征选择,并输出至训练合格的机器学习模型,最后基于机器学习模型的预测结果在运维知识图谱查找对应的故障修复策略和运维工程师,并自动推送给对应的运维工程师,运维工程师基于收到的故障修复策略进行故障修复。
本实施例中,利用日志解析算法对日志进行解析,将非结构化文本解析为日志模板和变量参数,变量参数包括:时间戳、日志类型、警告/错误级别、组件名称、事件内容、事件参数。日志解析算法采用正则表达式、静态分析技术或自主学习方法。
本实施例中,解析结果包含组件配置数据、空间数据、告警数据。采用特征处理方法对解析数据进行特征编码,得到组件配置特征、空间特征、告警特征。特征处理方法采用基于固定时间窗口/滑动时间窗口的求最大值、求最小值、求均值、求方差、求中位值或wordEmbedding技术。利用特征选择算法对编码数据进行噪音和冗余特征的去除,特征选择算法采用Filter方法、Wrapper方法或Embedded方法。
本实施例中,解析数据进行特征编码和特征选择后,按照7:3的比例随机划分为训练集和验证集。将训练集的数据分别输入有监督、无监督和半监督的机器学习算法,训练得到不同的机器学习模型。将验证集的数据输入不同的机器学习模型,得到不同的预测结果,输出预测结果达到预测阈值的所有机器学习模型,放弃预测结果未达到预测阈值的机器学习模型,在预测结果达到预测阈值的机器学习模型数量为0时,继续进行机器学习模型的训练。
综上可知,采用本发明的一种基于机器学习的数据库智能运维系统及方法,以数据库的历史运行日志和相关状态监控指标作为数据源,训练机器学习模型,训练合格的机器学习模型可以根据数据库的实时运行日志和实时状态监控指标进行故障预测,并基于预测结果向运维工程师推荐对应的故障修复策略,以方便运维工程师基于故障修复策略快速修复故障,最终实现数据库的故障预测及修复。
以上应用具体个例对本发明的原理及实施方式进行了详细阐述,这些实施例只是用于帮助理解本发明的核心技术内容。基于本发明的上述具体实施例,本技术领域的技术人员在不脱离本发明原理的前提下,对本发明所作出的任何改进和修饰,皆应落入本发明的专利保护范围。

Claims (9)

1.一种基于机器学习的数据库智能运维系统,其特征在于,所述系统包括模型训练阶段和故障预测及修复阶段,这两个阶段涉及数据收集模块、数据解析模块、数据编码模块、特征选择模块、数据划分模块、训练模块、验证模块、判定处理模块、机器学习模型、图谱构建模块、监控采集模块、查找推送模块,其中:
在模型训练阶段,数据收集模块收集数据库的历史运行日志和相关状态监控指标,数据解析模块对收集数据进行解析,数据编码模块对解析数据进行特征编码,特征选择模块对编码数据进行噪音和冗余特征的去除,数据划分模块将特征选择模块的输出数据随机划分为两部分,训练模块使用一部分数据训练机器学习模型,验证模块使用另一部分数据验证机器学习模型的预测结果,判定处理模块判定机器学习模型的预测结果是否达到预测阈值,若是,则直接输出机器学习模型,若否,则返回训练模块,继续训练机器学习模型;
在故障预测及修复阶段,图谱构建模块利用被监控数据库运维手册和历史运维记录构建运维知识图谱,监控采集模块对被监控数据库集群各节点上的各个组件进行全面监控,同时对数据库的实时运行日志和相关状态监控指标进行采集,数据解析模块对采集数据进行解析,数据编码模块对解析数据进行特征编码,特征选择模块对编码数据进行噪音和冗余特征的去除,并输出至训练合格的机器学习模型,查找推送模块基于机器学习模型的预测结果在运维知识图谱查找对应的故障修复策略和运维工程师,并自动推送给对应的运维工程师,运维工程师基于收到的故障修复策略进行故障修复。
2.根据权利要求1所述的一种基于机器学习的数据库智能运维系统,其特征在于,所述数据解析模块利用日志解析算法对日志进行解析,将非结构化文本解析为日志模板和变量参数,所述变量参数包括:时间戳、日志类型、警告/错误级别、组件名称、事件内容、事件参数;
所述日志解析算法采用正则表达式、静态分析技术或自主学习方法。
3.根据权利要求1所述的一种基于机器学习的数据库智能运维系统,其特征在于,所述数据编码模块采用特征处理方法对解析数据进行特征编码,所述特征处理方法采用基于固定时间窗口/滑动时间窗口的求最大值、求最小值、求均值、求方差、求中位值或wordEmbedding技术;
所述特征选择模块利用特征选择算法对编码数据进行噪音和冗余特征的去除,所述特征选择算法采用Filter方法、Wrapper方法或Embedded方法。
4.根据权利要求1所述的一种基于机器学习的数据库智能运维系统,其特征在于,所述数据划分模块将特征选择模块的输出数据按照7:3的比例随机划分为训练集和验证集;
所述模型训练模块将训练集的数据分别输入有监督、无监督和半监督的机器学习算法,训练得到不同的机器学习模型;
所述模型验证模块将验证集的数据输入不同的机器学习模型,得到不同的预测结果;
所述判定处理模块输出预测结果达到预测阈值的所有机器学习模型,放弃预测结果未达到预测阈值的机器学习模型,在所述判定处理单元输出机器学习模型数量为0时,返回训练模块,继续进行机器学习模型的训练。
5.根据权利要求1所述的一种基于机器学习的数据库智能运维系统,其特征在于,所述系统还包括故障反馈模块和运维转单模块;
所述机器学习模型的预测结果会发送至故障反馈模块,故障反馈模块按照预先设定的优先级对预测结果进行排序,并根据排序结果顺序推送至对应的运维工程师,
运维工程师完成故障修复后,通过故障反馈模块删除对应预测结果,
运维工程师无法修改故障时,通过故障反馈模块触发运维转单事件,运维转单模块根据查找推送模块的查找结果重新选择运维工程师进行对应的故障修复策略的推送。
6.一种基于机器学习的数据库智能运维方法,其特征在于,包括模型训练阶段和故障预测及修复阶段;
在模型训练阶段,首先收集并解析数据库的历史运行日志和相关状态监控指标,随后对解析数据进行特征编码和特征选择,并随机划分为两部分,最后使用一部分数据训练机器学习模型,使用另一部分数据验证机器学习模型的预测结果,并判定预测结果是否达到预测阈值,若是,则直接输出机器学习模型,若否,则返回训练模块,继续训练机器学习模型;
在故障预测及修复阶段,首先利用被监控数据库运维手册和历史运维记录构建运维知识图谱,随后对被监控数据库集群各节点上的各个组件进行全面监控,同时对数据库的实时运行日志和相关状态监控指标进行采集及解析,再后对解析数据进行特征编码和特征选择,并输出至训练合格的机器学习模型,最后基于机器学习模型的预测结果在运维知识图谱查找对应的故障修复策略和运维工程师,并自动推送给对应的运维工程师,运维工程师基于收到的故障修复策略进行故障修复。
7.根据权利要求6所述的一种基于机器学习的数据库智能运维方法,其特征在于,利用日志解析算法对日志进行解析,将非结构化文本解析为日志模板和变量参数,所述变量参数包括:时间戳、日志类型、警告/错误级别、组件名称、事件内容、事件参数;
所述日志解析算法采用正则表达式、静态分析技术或自主学习方法。
8.根据权利要求6所述的一种基于机器学习的数据库智能运维方法,其特征在于,采用特征处理方法对解析数据进行特征编码,所述特征处理方法采用基于固定时间窗口/滑动时间窗口的求最大值、求最小值、求均值、求方差、求中位值或word Embedding技术;
利用特征选择算法对编码数据进行噪音和冗余特征的去除,所述特征选择算法采用Filter方法、Wrapper方法或Embedded方法。
9.根据权利要求6所述的一种基于机器学习的数据库智能运维方法,其特征在于,对解析数据进行特征编码和特征选择后,按照7:3的比例随机划分为训练集和验证集;
将训练集的数据分别输入有监督、无监督和半监督的机器学习算法,训练得到不同的机器学习模型;
将验证集的数据输入不同的机器学习模型,得到不同的预测结果;
输出预测结果达到预测阈值的所有机器学习模型,放弃预测结果未达到预测阈值的机器学习模型,在预测结果达到预测阈值的机器学习模型数量为0时,继续进行机器学习模型的训练。
CN202310695458.2A 2023-06-13 2023-06-13 一种基于机器学习的数据库智能运维系统及方法 Pending CN116701652A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310695458.2A CN116701652A (zh) 2023-06-13 2023-06-13 一种基于机器学习的数据库智能运维系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310695458.2A CN116701652A (zh) 2023-06-13 2023-06-13 一种基于机器学习的数据库智能运维系统及方法

Publications (1)

Publication Number Publication Date
CN116701652A true CN116701652A (zh) 2023-09-05

Family

ID=87844682

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310695458.2A Pending CN116701652A (zh) 2023-06-13 2023-06-13 一种基于机器学习的数据库智能运维系统及方法

Country Status (1)

Country Link
CN (1) CN116701652A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009643A (zh) * 2017-12-15 2018-05-08 清华大学 一种机器学习算法自动选择方法和系统
CN109800127A (zh) * 2019-01-03 2019-05-24 众安信息技术服务有限公司 一种基于机器学习的系统故障诊断智能化运维方法及系统
WO2019233047A1 (zh) * 2018-06-07 2019-12-12 国电南瑞科技股份有限公司 基于电网调度的运维方法
CN111783867A (zh) * 2020-06-28 2020-10-16 京东数字科技控股有限公司 机器学习算法选择方法及装置
CN112783865A (zh) * 2021-01-29 2021-05-11 杭州优云软件有限公司 一种半监督人机结合的运维故障库生成方法及系统
CN113064999A (zh) * 2021-03-19 2021-07-02 南方电网调峰调频发电有限公司信息通信分公司 基于it设备运维的知识图谱构建算法、系统、设备及介质
CN115879664A (zh) * 2022-12-02 2023-03-31 中船重工信息科技有限公司 一种基于工业互联网的智能运维系统及方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009643A (zh) * 2017-12-15 2018-05-08 清华大学 一种机器学习算法自动选择方法和系统
WO2019233047A1 (zh) * 2018-06-07 2019-12-12 国电南瑞科技股份有限公司 基于电网调度的运维方法
CN109800127A (zh) * 2019-01-03 2019-05-24 众安信息技术服务有限公司 一种基于机器学习的系统故障诊断智能化运维方法及系统
CN111783867A (zh) * 2020-06-28 2020-10-16 京东数字科技控股有限公司 机器学习算法选择方法及装置
CN112783865A (zh) * 2021-01-29 2021-05-11 杭州优云软件有限公司 一种半监督人机结合的运维故障库生成方法及系统
CN113064999A (zh) * 2021-03-19 2021-07-02 南方电网调峰调频发电有限公司信息通信分公司 基于it设备运维的知识图谱构建算法、系统、设备及介质
CN115879664A (zh) * 2022-12-02 2023-03-31 中船重工信息科技有限公司 一种基于工业互联网的智能运维系统及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
徐代刚等: "面向视频云微服务系统的智能运维技术", 中兴通讯技术, no. 1, pages 3 - 3 *
郭云峰等: "基于大数据网格的电信IT系统智能运维体系", 电信科学, no. 06 *
陈俊;: "基于大数据机器学习技术的IT运营分析系统建设", 计算机时代, no. 03 *

Similar Documents

Publication Publication Date Title
CN111209131B (zh) 一种基于机器学习确定异构系统的故障的方法和系统
US9652318B2 (en) System and method for automatically managing fault events of data center
Xu et al. Online system problem detection by mining patterns of console logs
CN106209405B (zh) 故障诊断方法及装置
CN110958136A (zh) 一种基于深度学习的日志分析预警方法
CN111027615B (zh) 基于机器学习的中间件故障预警方法和系统
US20200272923A1 (en) Identifying locations and causes of network faults
CN111108481B (zh) 故障分析方法及相关设备
CN114312913B (zh) 轨道交通车载设备故障传播监测方法及系统
Chen et al. Graph-based incident aggregation for large-scale online service systems
CN113064873A (zh) 一种高召回率的日志异常检测方法
CN112949874A (zh) 一种配电终端缺陷特征自诊断方法及系统
CN116755992A (zh) 一种基于OpenStack云计算的日志分析方法及系统
Makanju et al. Investigating event log analysis with minimum apriori information
CN111581056A (zh) 基于人工智能的软件工程数据库维护与预警系统
CN115114064A (zh) 一种微服务故障分析方法、系统、设备及存储介质
CN113765698B (zh) 一种面向工业互联网的网络故障定位和根因检测方法及系统
CN114168375A (zh) 一种数据库系统异常快速定位与消除的方法
CN110399278B (zh) 基于数据中心异常监控的告警融合系统及方法
CN117312611A (zh) 一种电力故障快速定位及诊断方法及相关装置
US10860400B2 (en) Intelligent monitoring and diagnostics for application support
CN116701652A (zh) 一种基于机器学习的数据库智能运维系统及方法
Sheluhin et al. Monitoring anomalous states of computer systems by intellectual analysis of data of system journals
CN114629776B (zh) 基于图模型的故障分析方法及装置
Adamova et al. Machine Learning in Action: An Analysis of its Application for Fault Detection in Wireless Sensor Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination