CN115048361A - 一种基于大数据的数据库运维风险预警系统及方法 - Google Patents

一种基于大数据的数据库运维风险预警系统及方法 Download PDF

Info

Publication number
CN115048361A
CN115048361A CN202210966030.2A CN202210966030A CN115048361A CN 115048361 A CN115048361 A CN 115048361A CN 202210966030 A CN202210966030 A CN 202210966030A CN 115048361 A CN115048361 A CN 115048361A
Authority
CN
China
Prior art keywords
maintenance
diagnosis
data
database
early warning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210966030.2A
Other languages
English (en)
Other versions
CN115048361B (zh
Inventor
强润皓
孙鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Cornerstone Data Technology Co ltd
Original Assignee
Nanjing Cornerstone Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Cornerstone Data Technology Co ltd filed Critical Nanjing Cornerstone Data Technology Co ltd
Priority to CN202210966030.2A priority Critical patent/CN115048361B/zh
Publication of CN115048361A publication Critical patent/CN115048361A/zh
Application granted granted Critical
Publication of CN115048361B publication Critical patent/CN115048361B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于大数据的数据库运维风险预警系统及方法,属于数据库运维风险预警技术领域。本系统包括数据库运维模块、诊断分析模块、指标评价模块、风险预警模块;所述数据库运维模块的输出端与所述诊断分析模块的输入端相连接;所述诊断分析模块的输出端与所述指标评价模块的输入端相连接;所述指标评价模块的输出端与所述风险预警模块的输入端相连接。本发明能够在数据库运维过程中,根据运维对象的数据存储,自动化选取诊断类别,并且能够根据不同的评价指标进行精度确认,生成一定的风险预警内容,提高运维人员效率,提升自动化运维效果。

Description

一种基于大数据的数据库运维风险预警系统及方法
技术领域
本发明涉及数据库运维风险预警技术领域,具体为一种基于大数据的数据库运维风险预警系统及方法。
背景技术
数据库运维负责数据存储方案设计、数据库表设计、索引设计和SQL优化,对数据库进行变更、监控、备份、高可用设计等工作。其可以掌握所负责服务的数据库的容量上限,清楚地了解当前瓶颈点,当服务还未到达容量上限时,及时进行优化、分拆或者扩容;制定数据备份与灾备策略,定期完成数据恢复性测试,保证数据备份的可用性和完整性;完善数据库存活和性能监控,及时了解数据库运行状态及故障。数据库安全建设数据库账号体系,严格控制账号权限与开放范围,降低误操作和数据泄露的风险;加强离线备份数据的管理,降低数据泄露的风险;对数据库单点风险和故障设计相应的切换方案,降低故障对数据库服务的影响;不断对数据库整体性能进行优化,包括新存储方案引进、硬件优化、文件系统优化、数据库优化、SQL优化等,在保障成本不增加或者少量增加的情况下,数据库可以支撑更多的业务请求;设计开发数据库自动化运维系统,包括数据库部署、自动扩容、分库分表、权限管理、备份恢复、SQL审核和上线、故障切换等功能。但是在目前的技术手段中,对于数据库的运维尚缺乏自动化的分析处理,缺乏诊断类别方向的分析与判断。
发明内容
本发明的目的在于提供一种基于大数据的数据库运维风险预警系统及方法,以解决上述背景技术中提出的问题。
为了解决上述技术问题,本发明提供如下技术方案:
一种基于大数据的数据库运维风险预警方法,该方法包括以下步骤:
S1、获取数据库运维数据:
S2、构建无人化诊断分析模型,利用无人化诊断分析模型确定用于分析所述数据库运维数据的至少两个诊断类别;
S3、采用所述至少两个诊断类别分别对数据库运维数据进行诊断,得到至少两个诊断结果,根据所述诊断结果,采用与所述诊断结果对应的诊断类别的评价策略,生成至少两个诊断类别的评价指标值;
S4、选取最高的评价指标值对应的诊断结果作为最终数据库运维结果,输出最终数据库运维结果对应的数据库问题部位,形成风险预警传输至数据库运维人员端口。
根据上述技术方案,所述诊断类别包括:筛选诊断、评估诊断、运维诊断、指标诊断;
所述筛选诊断通过系统首页筛选功能,根据组织架构、系统、IP地址、对象名、对象类型以及关注列表直接进行筛选;
筛选诊断一般适用于出现问题较为常见或频繁的运维对象,将这一类运维对象设置专门的页面和选择,例如可以查找CPU、内存、IO等操作系统资源存在问题的运维对象;也可以发现表空间、归档空间不足的运维对象;还可以发现活跃会话数过多,锁较多的数据库对象;比如要查找内存使用率比较高的运维对象,可以直接点击“内存使用率”快筛开关;
所述评估诊断用于根据显示的运维对象的健康分以及根据健康分展示的雷达图对运维对象实现评估诊断;
所述健康分包括最新得分、最高分、最低分、平均分;
所述雷达图是各子项健康分得出分数的展现;所述各子项包括数据库IO、数据库并发执行、数据库总体状况、数据库命中率、数据库负载、数据库RAC以及操作系统;
评估诊断适用于在系统的数据库内对当前运维对象的内部数据缺乏,对于运维对象的内部原理不清楚,利用健康分作为分析故障的起点,其中健康分通过系统输入相关子项,一键打分生成,运维人员可以通过雷达图查看存在问题的维度;
所述运维诊断用于根据运维经验数据,判断当前系统的主要问题因素和概率,并进行下钻分析;
运维诊断适用于在系统的数据库内对当前运维对象的内部数据较多,根据运维经验,判断系统存在的隐患,并以此为基础开展诊断工作,数据以维度粒度逐层细化分析;
所述指标诊断用于根据系统在某个时间段的某个指标出现了异常情况,诊断分析异常情况是否会导致严重后果以及指标异常的原因。
指标诊断用于在系统的数据库内对当前运维对象的内部数据丰富的前提下,发现任一个指标出现异常情况,利用工具进行诊断分析;
工具1:通过指标查找专家推荐的诊断路径。当某个指标出现异常的时候,查找可以用于分析该异常的专家推荐工具。例如Log file Sync指标异常,专家推荐的可用于诊断这个问题的工具如下:数据库物理写IO性能分析、REDO NOWAIT分析、显示在线重做日志文件信息、Oracle数据库RedoLog检查、显示数据库每天产生的归档日志大小等;
工具2:通过智能知识图谱自动推荐工具,与专家推荐的工具不同的是,该工具推荐依赖于知识图谱,通过知识关联性推理来推荐工具,推荐的工具的数量和范围更广。
工具3:指标关联性分析工具,指标关联性分析可以帮助我们发现与当前指标异常存在关联性的指标。其发现方法是通过相似性算法,可以找到相关的指标,并根据知识图谱推理可能的原因。
工具4:不同因为对象间同指标相似度分析。该工具用于查找其他和此运维对象具有类似问题的运维对象。比如如果多个数据库使用同一台存储,如果都存在类似的IO性能问题,则可能是存储出现了问题。如果多个运维对象运行于同一台物理机,当物理机的某个资源出现瓶颈的时候,则多个运维对象的同一指标可能会出现类似的问题。
综合来讲,四种诊断类别主要与系统的数据库内对当前运维对象的内部数据的容量为主要决定因素,例如数据较为缺乏则通常使用筛选诊断、评估诊断等。
根据上述技术方案,所述构建无人化诊断分析模型包括:
获取历史情况下数据库运维人员的运维数据,作为无人化诊断分析模型的基础数据集;
获取在不同的运维对象的内部数据存储下的运维人员的运维行为信息,并将运维行为信息进行组合编码,记为[I1、I2、I3、……、In],每一编码对应一组运维行为信息,其中I1、I2、I3、……、In记为编码中的元素,分别代表运维对象的内部数据存储的一种;
所述不同的运维对象的内部数据存储指的是系统中关于当前运维对象的运维数据存储量;
例如当前运维对象的日志、告警记录、维护记录、用户信息、会话以及脚本等等;
随机初始化一个种群,设置任一个诊断类别,记为
Figure 833297DEST_PATH_IMAGE001
;所述种群中至少包含
Figure 409772DEST_PATH_IMAGE002
组以
Figure 70561DEST_PATH_IMAGE001
进行数据库运维的运维行为信息,设置迭代次数
Figure 150512DEST_PATH_IMAGE003
根据编码中元素I1、I2、I3、……、In及元素I1、I2、I3、……、In的组合分别计算运维对象的内部数据存储对运维人员的运维行为的影响度:
Figure 769712DEST_PATH_IMAGE004
其中,
Figure 567904DEST_PATH_IMAGE005
代表任一组运维人员的运维行为i的标签值;
Figure 829121DEST_PATH_IMAGE006
代表客户个体i编码中所有元素的组合方式的集合;x代表运维行为i编码中所有元素的组合方式中的任一种;
Figure 763579DEST_PATH_IMAGE007
代表存在组合方式为x且运维行为的诊断类别为
Figure 553681DEST_PATH_IMAGE001
的个体数量;y代表运维行为编码中所有元素的组合方式中的任一种;
Figure 370327DEST_PATH_IMAGE008
代表存在组合方式为x的运维行为个体总量;
利用随机竞争选择的方式,即每次随机选择两个运维行为,标签值高的留下,不断循环,直至选择的个体数量达到预设值;
删除出现最低的运维对象的内部数据存储的数据类型,并挖掘剩余内部数据存储的子元素形成新的编码[I11、I12、I21、……、Ik1],所述元素与子元素之间存在包含关系,并设置迭代次数G=G+1,重复进行标签值的计算;
设置迭代阈值,在迭代次数达到阈值时,停止迭代,获取当前的所有内部数据存储的子元素,记为集合,将其作为诊断类别
Figure 904076DEST_PATH_IMAGE001
的影响集合;
构建无人化诊断分析模型:
Figure 958620DEST_PATH_IMAGE009
其中,
Figure 388464DEST_PATH_IMAGE010
代表无人化诊断分析模型输出的使用诊断类别
Figure 161248DEST_PATH_IMAGE001
的预测概率;
Figure 233109DEST_PATH_IMAGE011
Figure 142160DEST_PATH_IMAGE012
Figure 279923DEST_PATH_IMAGE013
Figure 274424DEST_PATH_IMAGE014
分别代表回归系数;
Figure 149976DEST_PATH_IMAGE015
Figure 179112DEST_PATH_IMAGE016
Figure 216338DEST_PATH_IMAGE017
分别代表子元素中的任一种;
Figure 963714DEST_PATH_IMAGE018
代表误差项;
对每一种诊断类别求取预测概率,并进行从大到小的排序;
根据系统预设,选取至少两个诊断类别,并采用所述至少两个诊断类别分别对数据库运维数据进行诊断,得到至少两个诊断结果。
根据上述技术方案,所述风险预警包括:
构建诊断类别的评价策略:
获取历史数据下任一诊断类别
Figure 377378DEST_PATH_IMAGE001
的诊断结果正确率集合;
利用对历史数据移动平均的方式生成诊断类别
Figure 261020DEST_PATH_IMAGE001
的评价策略,生成诊断类别
Figure 469148DEST_PATH_IMAGE001
的预测诊断结果正确率,作为评价指标值:
Figure 438241DEST_PATH_IMAGE019
其中,
Figure 655596DEST_PATH_IMAGE020
代表第s+1次下诊断类别
Figure 190482DEST_PATH_IMAGE001
的评价指标值;
Figure 100002_DEST_PATH_IMAGE021
为预测截距;
Figure 569511DEST_PATH_IMAGE022
为预测斜率;
Figure 25900DEST_PATH_IMAGE023
为新增趋势预测期数;s为历史数据下取的诊断类别
Figure 781366DEST_PATH_IMAGE001
的诊断结果数据组数总量;
Figure 639601DEST_PATH_IMAGE024
Figure 455110DEST_PATH_IMAGE025
其中,
Figure 133216DEST_PATH_IMAGE026
代表u组数据下的一次移动平均值;
Figure 100002_DEST_PATH_IMAGE027
代表u组数据下的二次移动平均值;u代表参与移动的数据组数;
获取至少两个诊断类别的评价指标值;
选取最高的评价指标值对应的诊断结果作为最终数据库运维结果,输出最终数据库运维结果对应的数据库问题部位,形成风险预警传输至数据库运维人员端口。
一种基于大数据的数据库运维风险预警系统,该系统包括数据库运维模块、诊断分析模块、指标评价模块、风险预警模块;所述数据库运维模块用于获取在数据库运维中,运维数据中台提供的高质量的指标数据;所述诊断分析模块用于构建诊断类别,生成无人化诊断分析模型,用于确定当前运维对象的至少两个诊断类别;所述指标评价模块用于根据所述至少两个诊断类别分别对数据库运维数据进行诊断,得到至少两个诊断结果,根据所述诊断结果,采用与所述诊断结果对应的诊断类别的评价策略,生成至少两个诊断类别的评价指标值;所述风险预警模块用于选取最高的评价指标值对应的诊断结果作为最终数据库运维结果,输出最终数据库运维结果对应的数据库问题部位,形成风险预警传输至数据库运维人员端口;
所述数据库运维模块的输出端与所述诊断分析模块的输入端相连接;所述诊断分析模块的输出端与所述指标评价模块的输入端相连接;所述指标评价模块的输出端与所述风险预警模块的输入端相连接。
根据上述技术方案,所述数据库运维模块包括运维数据中台、数据采集单元;
所述运维数据中台用于存储数据库运维数据;所述数据采集单元用于获取数据库运维中,运维数据中台提供的高质量的指标数据;
所述运维数据中台中包括WebServer、Fstask、Collector、Monitor、Logana;所述WebServer用于提供B/S的前端应用;所述Fstask用于调度系统的周期性任务;所述Collector负责从运维对象中采集数据,并把采集数据进行存储;所述Monitor从存储中获取当前批次的采集数据以及最近的数据,进行计算和分析;所述Logana负责对采集回来的日志信息进行深度分析,形成分析结论。
根据上述技术方案,所述诊断分析模块包括诊断类别单元、模型分析单元;
所述诊断类别单元用于构建数据库运维的诊断类别;所述模型分析单元用于生成无人化诊断分析模型,用于确定当前运维对象的至少两个诊断类别;
所述诊断类别包括:筛选诊断、评估诊断、运维诊断、指标诊断;
所述筛选诊断通过系统首页筛选功能,根据组织架构、系统、IP地址、对象名、对象类型以及关注列表直接进行筛选;
所述评估诊断用于根据显示的运维对象的健康分以及根据健康分展示的雷达图对运维对象实现评估诊断;
所述健康分包括最新得分、最高分、最低分、平均分;
所述雷达图是各子项健康分得出分数的展现;所述各子项包括数据库IO、数据库并发执行、数据库总体状况、数据库命中率、数据库负载、数据库RAC以及操作系统;
所述运维诊断用于根据运维经验数据,判断当前系统的主要问题因素和概率,并进行下钻分析;
所述指标诊断用于根据系统在某个时间段的某个指标出现了异常情况,诊断分析异常情况是否会导致严重后果以及指标异常的原因。
根据上述技术方案,所述指标评价模块包括诊断结果单元、评价策略单元;
所述诊断结果单元用于根据所述至少两个诊断类别分别对数据库运维数据进行诊断,得到至少两个诊断结果;所述评价策略单元用于根据所述诊断结果,采用与所述诊断结果对应的诊断类别的评价策略,生成至少两个诊断类别的评价指标值。
根据上述技术方案,所述风险预警模块包括选择单元、风险预警单元;
所述选择单元用于选取最高的评价指标值对应的诊断结果作为最终数据库运维结果,输出最终数据库运维结果对应的数据库问题部位,形成风险预警;所述风险预警单元用于将风险预警传输至数据库运维人员端口,并以红色感叹号形式进行标注。
与现有技术相比,本发明所达到的有益效果是:本发明利用数据库运维模块获取在数据库运维中,运维数据中台提供的高质量的指标数据;利用诊断分析模块构建诊断类别,生成无人化诊断分析模型,用于确定当前运维对象的至少两个诊断类别;利用指标评价模块根据所述至少两个诊断类别分别对数据库运维数据进行诊断,得到至少两个诊断结果,根据所述诊断结果,采用与所述诊断结果对应的诊断类别的评价策略,生成至少两个诊断类别的评价指标值;利用风险预警模块用于选取最高的评价指标值对应的诊断结果作为最终数据库运维结果,输出最终数据库运维结果对应的数据库问题部位,形成风险预警传输至数据库运维人员端口;本发明能够在数据库运维过程中,根据运维对象的数据存储,自动化选取诊断类别,并且能够根据不同的评价指标进行精度确认,生成一定的风险预警内容,提高运维人员效率,提升自动化运维效果。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是一种基于大数据的数据库运维风险预警系统及方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,在本实施例一中:
构建如下的诊断类别:筛选诊断、评估诊断、运维诊断、指标诊断;
所述筛选诊断通过系统首页筛选功能,根据组织架构、系统、IP地址、对象名、对象类型以及关注列表直接进行筛选;
所述评估诊断用于根据显示的运维对象的健康分以及根据健康分展示的雷达图对运维对象实现评估诊断;
所述健康分包括最新得分、最高分、最低分、平均分;
所述雷达图是各子项健康分得出分数的展现;所述各子项包括数据库IO、数据库并发执行、数据库总体状况、数据库命中率、数据库负载、数据库RAC以及操作系统;
所述运维诊断用于根据运维经验数据,判断当前系统的主要问题因素和概率,并进行下钻分析;
所述指标诊断用于根据系统在某个时间段的某个指标出现了异常情况,诊断分析异常情况是否会导致严重后果以及指标异常的原因。
获取历史情况下数据库运维人员的运维数据,作为无人化诊断分析模型的基础数据集;
获取在不同的运维对象的内部数据存储下的运维人员的运维行为信息,并将运维行为信息进行组合编码,记为[I1、I2、I3、……、In],每一编码对应一组运维行为信息,其中I1、I2、I3、……、In记为编码中的元素,分别代表运维对象的内部数据存储的一种;
所述不同的运维对象的内部数据存储指的是系统中关于当前运维对象的运维数据存储量;
随机初始化一个种群,设置任一个诊断类别,记为
Figure 223532DEST_PATH_IMAGE001
;所述种群中至少包含
Figure 733011DEST_PATH_IMAGE002
组以
Figure 719421DEST_PATH_IMAGE001
进行数据库运维的运维行为信息,设置迭代次数
Figure 150403DEST_PATH_IMAGE003
根据编码中元素I1、I2、I3、……、In及元素I1、I2、I3、……、In的组合分别计算运维对象的内部数据存储对运维人员的运维行为的影响度:
Figure 247672DEST_PATH_IMAGE004
其中,
Figure 814919DEST_PATH_IMAGE005
代表任一组运维人员的运维行为i的标签值;
Figure 972231DEST_PATH_IMAGE006
代表客户个体i编码中所有元素的组合方式的集合;x代表运维行为i编码中所有元素的组合方式中的任一种;
Figure 624929DEST_PATH_IMAGE007
代表存在组合方式为x且运维行为的诊断类别为
Figure 525889DEST_PATH_IMAGE001
的个体数量;y代表运维行为编码中所有元素的组合方式中的任一种;
Figure 213222DEST_PATH_IMAGE008
代表存在组合方式为x的运维行为个体总量;
利用随机竞争选择的方式,即每次随机选择两个运维行为,标签值高的留下,不断循环,直至选择的个体数量达到预设值;
删除出现最低的运维对象的内部数据存储的数据类型,并挖掘剩余内部数据存储的子元素形成新的编码[I11、I12、I21、……、Ik1],所述元素与子元素之间存在包含关系,并设置迭代次数G=G+1,重复进行标签值的计算;
在上述方案中,因为对于运维对象的了解直接决定了如何进行无人化运维以及如何提高运维效率和精确度,例如初始元素为日志、告警记录、维护记录、用户信息、会话以及脚本;那么根据当前的数据内容基本无法对数据库实现运维,因此会不断进行迭代,例如日志的子元素为xx时间下xx程序的日志;会话的子元素为活跃会话数的数量等;所谓元素与子元素就是在数据库运维对象的内容下不断挖掘,系统对运维对象的理解越深度,其作出的诊断类别越精准。
设置迭代阈值,在迭代次数达到阈值时,停止迭代,获取当前的所有内部数据存储的子元素,记为集合,将其作为诊断类别
Figure 541436DEST_PATH_IMAGE001
的影响集合;
构建无人化诊断分析模型:
Figure 675571DEST_PATH_IMAGE028
其中,
Figure 114642DEST_PATH_IMAGE010
代表无人化诊断分析模型输出的使用诊断类别
Figure 656482DEST_PATH_IMAGE001
的预测概率;
Figure 155596DEST_PATH_IMAGE011
Figure 782887DEST_PATH_IMAGE012
Figure 25649DEST_PATH_IMAGE013
Figure 421996DEST_PATH_IMAGE014
分别代表回归系数;
Figure 92011DEST_PATH_IMAGE015
Figure 941019DEST_PATH_IMAGE016
Figure 987472DEST_PATH_IMAGE017
分别代表子元素中的任一种;
Figure 300642DEST_PATH_IMAGE018
代表误差项;
对每一种诊断类别求取预测概率,并进行从大到小的排序;
根据系统预设,选取至少两个诊断类别,并采用所述至少两个诊断类别分别对数据库运维数据进行诊断,得到至少两个诊断结果。
所述风险预警包括:
构建诊断类别的评价策略:
获取历史数据下任一诊断类别
Figure 141559DEST_PATH_IMAGE001
的诊断结果正确率集合;
利用对历史数据移动平均的方式生成诊断类别
Figure 477862DEST_PATH_IMAGE001
的评价策略,生成诊断类别
Figure 796848DEST_PATH_IMAGE001
的预测诊断结果正确率,作为评价指标值:
Figure DEST_PATH_IMAGE029
其中,
Figure 698945DEST_PATH_IMAGE020
代表第s+1次下诊断类别
Figure 507501DEST_PATH_IMAGE001
的评价指标值;
Figure 596680DEST_PATH_IMAGE021
为预测截距;
Figure 719357DEST_PATH_IMAGE022
为预测斜率;
Figure 210381DEST_PATH_IMAGE023
为新增趋势预测期数;s为历史数据下取的诊断类别
Figure 393100DEST_PATH_IMAGE001
的诊断结果数据组数总量;
Figure 438417DEST_PATH_IMAGE030
Figure 364784DEST_PATH_IMAGE025
其中,
Figure 710315DEST_PATH_IMAGE026
代表u组数据下的一次移动平均值;
Figure 63936DEST_PATH_IMAGE027
代表u组数据下的二次移动平均值;u代表参与移动的数据组数;
获取至少两个诊断类别的评价指标值;
选取最高的评价指标值对应的诊断结果作为最终数据库运维结果,输出最终数据库运维结果对应的数据库问题部位,形成风险预警传输至数据库运维人员端口。
在本实施例二中,提供一种基于大数据的数据库运维风险预警系统,该系统包括数据库运维模块、诊断分析模块、指标评价模块、风险预警模块;所述数据库运维模块用于获取在数据库运维中,运维数据中台提供的高质量的指标数据;所述诊断分析模块用于构建诊断类别,生成无人化诊断分析模型,用于确定当前运维对象的至少两个诊断类别;所述指标评价模块用于根据所述至少两个诊断类别分别对数据库运维数据进行诊断,得到至少两个诊断结果,根据所述诊断结果,采用与所述诊断结果对应的诊断类别的评价策略,生成至少两个诊断类别的评价指标值;所述风险预警模块用于选取最高的评价指标值对应的诊断结果作为最终数据库运维结果,输出最终数据库运维结果对应的数据库问题部位,形成风险预警传输至数据库运维人员端口;
所述数据库运维模块的输出端与所述诊断分析模块的输入端相连接;所述诊断分析模块的输出端与所述指标评价模块的输入端相连接;所述指标评价模块的输出端与所述风险预警模块的输入端相连接。
所述数据库运维模块包括运维数据中台、数据采集单元;
所述运维数据中台用于存储数据库运维数据;所述数据采集单元用于获取数据库运维中,运维数据中台提供的高质量的指标数据;
所述运维数据中台中包括WebServer、Fstask、Collector、Monitor、Logana;所述WebServer用于提供B/S的前端应用;所述Fstask用于调度系统的周期性任务;所述Collector负责从运维对象中采集数据,并把采集数据进行存储;所述Monitor从存储中获取当前批次的采集数据以及最近的数据,进行计算和分析;所述Logana负责对采集回来的日志信息进行深度分析,形成分析结论。
所述诊断分析模块包括诊断类别单元、模型分析单元;
所述诊断类别单元用于构建数据库运维的诊断类别;所述模型分析单元用于生成无人化诊断分析模型,用于确定当前运维对象的至少两个诊断类别;
所述诊断类别包括:筛选诊断、评估诊断、运维诊断、指标诊断;
所述筛选诊断通过系统首页筛选功能,根据组织架构、系统、IP地址、对象名、对象类型以及关注列表直接进行筛选;
所述评估诊断用于根据显示的运维对象的健康分以及根据健康分展示的雷达图对运维对象实现评估诊断;
所述健康分包括最新得分、最高分、最低分、平均分;
所述雷达图是各子项健康分得出分数的展现;所述各子项包括数据库IO、数据库并发执行、数据库总体状况、数据库命中率、数据库负载、数据库RAC以及操作系统;
所述运维诊断用于根据运维经验数据,判断当前系统的主要问题因素和概率,并进行下钻分析;
所述指标诊断用于根据系统在某个时间段的某个指标出现了异常情况,诊断分析异常情况是否会导致严重后果以及指标异常的原因。
所述指标评价模块包括诊断结果单元、评价策略单元;
所述诊断结果单元用于根据所述至少两个诊断类别分别对数据库运维数据进行诊断,得到至少两个诊断结果;所述评价策略单元用于根据所述诊断结果,采用与所述诊断结果对应的诊断类别的评价策略,生成至少两个诊断类别的评价指标值。
所述风险预警模块包括选择单元、风险预警单元;
所述选择单元用于选取最高的评价指标值对应的诊断结果作为最终数据库运维结果,输出最终数据库运维结果对应的数据库问题部位,形成风险预警;所述风险预警单元用于将风险预警传输至数据库运维人员端口,并以红色感叹号形式进行标注。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于大数据的数据库运维风险预警方法,其特征在于:该方法包括以下步骤:
S1、获取数据库运维数据:
S2、构建无人化诊断分析模型,利用无人化诊断分析模型确定用于分析所述数据库运维数据的至少两个诊断类别;
S3、采用所述至少两个诊断类别分别对数据库运维数据进行诊断,得到至少两个诊断结果,根据所述诊断结果,采用与所述诊断结果对应的诊断类别的评价策略,生成至少两个诊断类别的评价指标值;
S4、选取最高的评价指标值对应的诊断结果作为最终数据库运维结果,输出最终数据库运维结果对应的数据库问题部位,形成风险预警传输至数据库运维人员端口。
2.根据权利要求1所述的一种基于大数据的数据库运维风险预警方法,其特征在于:所述诊断类别包括:筛选诊断、评估诊断、运维诊断、指标诊断;
所述筛选诊断通过系统首页筛选功能,根据组织架构、系统、IP地址、对象名、对象类型以及关注列表直接进行筛选;
所述评估诊断用于根据显示的运维对象的健康分以及根据健康分展示的雷达图对运维对象实现评估诊断;
所述健康分包括最新得分、最高分、最低分、平均分;
所述雷达图是各子项健康分得出分数的展现;所述各子项包括数据库IO、数据库并发执行、数据库总体状况、数据库命中率、数据库负载、数据库RAC以及操作系统;
所述运维诊断用于根据运维经验数据,判断当前系统的主要问题因素和概率,并进行下钻分析;
所述指标诊断用于根据系统在某个时间段的某个指标出现了异常情况,诊断分析异常情况是否会导致严重后果以及指标异常的原因。
3.根据权利要求2所述的一种基于大数据的数据库运维风险预警方法,其特征在于:所述构建无人化诊断分析模型包括:
获取历史情况下数据库运维人员的运维数据,作为无人化诊断分析模型的基础数据集;
获取在不同的运维对象的内部数据存储下的运维人员的运维行为信息,并将运维行为信息进行组合编码,记为[I1、I2、I3、……、In],每一编码对应一组运维行为信息,其中I1、I2、I3、……、In记为编码中的元素,分别代表运维对象的内部数据存储的一种;
所述不同的运维对象的内部数据存储指的是系统中关于当前运维对象的运维数据存储量;
随机初始化一个种群,设置任一个诊断类别,记为
Figure 780097DEST_PATH_IMAGE001
;所述种群中至少包含
Figure 510155DEST_PATH_IMAGE002
组以
Figure 506930DEST_PATH_IMAGE001
进行数据库运维的运维行为信息,设置迭代次数
Figure 31452DEST_PATH_IMAGE003
根据编码中元素I1、I2、I3、……、In及元素I1、I2、I3、……、In的组合分别计算运维对象的内部数据存储对运维人员的运维行为的影响度:
Figure 322800DEST_PATH_IMAGE004
其中,
Figure 590970DEST_PATH_IMAGE005
代表任一组运维人员的运维行为i的标签值;
Figure 645513DEST_PATH_IMAGE006
代表客户个体i编码中所有元素的组合方式的集合;x代表运维行为i编码中所有元素的组合方式中的任一种;
Figure 340937DEST_PATH_IMAGE007
代表存在组合方式为x且运维行为的诊断类别为
Figure 113721DEST_PATH_IMAGE001
的个体数量;y代表运维行为编码中所有元素的组合方式中的任一种;
Figure 982320DEST_PATH_IMAGE008
代表存在组合方式为x的运维行为个体总量;
利用随机竞争选择的方式,即每次随机选择两个运维行为,标签值高的留下,不断循环,直至选择的个体数量达到预设值;
删除出现最低的运维对象的内部数据存储的数据类型,并挖掘剩余内部数据存储的子元素形成新的编码[I11、I12、I21、……、Ik1],所述元素与子元素之间存在包含关系,并设置迭代次数G=G+1,重复进行标签值的计算;
设置迭代阈值,在迭代次数达到阈值时,停止迭代,获取当前的所有内部数据存储的子元素,记为集合,将其作为诊断类别
Figure 891370DEST_PATH_IMAGE001
的影响集合;
构建无人化诊断分析模型:
Figure 23274DEST_PATH_IMAGE009
其中,
Figure 752196DEST_PATH_IMAGE010
代表无人化诊断分析模型输出的使用诊断类别
Figure 627748DEST_PATH_IMAGE001
的预测概率;
Figure 391304DEST_PATH_IMAGE011
Figure 694110DEST_PATH_IMAGE012
Figure 972644DEST_PATH_IMAGE013
Figure 386308DEST_PATH_IMAGE014
分别代表回归系数;
Figure 269951DEST_PATH_IMAGE015
Figure 478078DEST_PATH_IMAGE016
Figure 447171DEST_PATH_IMAGE017
分别代表子元素中的任一种;
Figure 461263DEST_PATH_IMAGE018
代表误差项;
对每一种诊断类别求取预测概率,并进行从大到小的排序;
根据系统预设,选取至少两个诊断类别,并采用所述至少两个诊断类别分别对数据库运维数据进行诊断,得到至少两个诊断结果。
4.根据权利要求3所述的一种基于大数据的数据库运维风险预警方法,其特征在于:所述风险预警包括:
构建诊断类别的评价策略:
获取历史数据下任一诊断类别
Figure 199412DEST_PATH_IMAGE001
的诊断结果正确率集合;
利用对历史数据移动平均的方式生成诊断类别
Figure 844020DEST_PATH_IMAGE001
的评价策略,生成诊断类别
Figure 300409DEST_PATH_IMAGE001
的预测诊断结果正确率,作为评价指标值:
Figure 790297DEST_PATH_IMAGE019
其中,
Figure 648531DEST_PATH_IMAGE020
代表第s+1次下诊断类别
Figure 198461DEST_PATH_IMAGE001
的评价指标值;
Figure DEST_PATH_IMAGE021
为预测截距;
Figure 470043DEST_PATH_IMAGE022
为预测斜率;
Figure 29200DEST_PATH_IMAGE023
为新增趋势预测期数;s为历史数据下取的诊断类别
Figure 741941DEST_PATH_IMAGE001
的诊断结果数据组数总量;
Figure 745930DEST_PATH_IMAGE024
Figure 645752DEST_PATH_IMAGE025
其中,
Figure 743021DEST_PATH_IMAGE026
代表u组数据下的一次移动平均值;
Figure DEST_PATH_IMAGE027
代表u组数据下的二次移动平均值;u代表参与移动的数据组数;
获取至少两个诊断类别的评价指标值;
选取最高的评价指标值对应的诊断结果作为最终数据库运维结果,输出最终数据库运维结果对应的数据库问题部位,形成风险预警传输至数据库运维人员端口。
5.一种基于大数据的数据库运维风险预警系统,其特征在于:该系统包括数据库运维模块、诊断分析模块、指标评价模块、风险预警模块;所述数据库运维模块用于获取在数据库运维中,运维数据中台提供的高质量的指标数据;所述诊断分析模块用于构建诊断类别,生成无人化诊断分析模型,用于确定当前运维对象的至少两个诊断类别;所述指标评价模块用于根据所述至少两个诊断类别分别对数据库运维数据进行诊断,得到至少两个诊断结果,根据所述诊断结果,采用与所述诊断结果对应的诊断类别的评价策略,生成至少两个诊断类别的评价指标值;所述风险预警模块用于选取最高的评价指标值对应的诊断结果作为最终数据库运维结果,输出最终数据库运维结果对应的数据库问题部位,形成风险预警传输至数据库运维人员端口;
所述数据库运维模块的输出端与所述诊断分析模块的输入端相连接;所述诊断分析模块的输出端与所述指标评价模块的输入端相连接;所述指标评价模块的输出端与所述风险预警模块的输入端相连接。
6.根据权利要求5所述的一种基于大数据的数据库运维风险预警系统,其特征在于:所述数据库运维模块包括运维数据中台、数据采集单元;
所述运维数据中台用于存储数据库运维数据;所述数据采集单元用于获取数据库运维中,运维数据中台提供的高质量的指标数据;
所述运维数据中台中包括WebServer、Fstask、Collector、Monitor、Logana;所述WebServer用于提供B/S的前端应用;所述Fstask用于调度系统的周期性任务;所述Collector负责从运维对象中采集数据,并把采集数据进行存储;所述Monitor从存储中获取当前批次的采集数据以及最近的数据,进行计算和分析;所述Logana负责对采集回来的日志信息进行深度分析,形成分析结论。
7.根据权利要求5所述的一种基于大数据的数据库运维风险预警系统,其特征在于:所述诊断分析模块包括诊断类别单元、模型分析单元;
所述诊断类别单元用于构建数据库运维的诊断类别;所述模型分析单元用于生成无人化诊断分析模型,用于确定当前运维对象的至少两个诊断类别;
所述诊断类别包括:筛选诊断、评估诊断、运维诊断、指标诊断;
所述筛选诊断通过系统首页筛选功能,根据组织架构、系统、IP地址、对象名、对象类型以及关注列表直接进行筛选;
所述评估诊断用于根据显示的运维对象的健康分以及根据健康分展示的雷达图对运维对象实现评估诊断;
所述健康分包括最新得分、最高分、最低分、平均分;
所述雷达图是各子项健康分得出分数的展现;所述各子项包括数据库IO、数据库并发执行、数据库总体状况、数据库命中率、数据库负载、数据库RAC以及操作系统;
所述运维诊断用于根据运维经验数据,判断当前系统的主要问题因素和概率,并进行下钻分析;
所述指标诊断用于根据系统在某个时间段的某个指标出现了异常情况,诊断分析异常情况是否会导致严重后果以及指标异常的原因。
8.根据权利要求7所述的一种基于大数据的数据库运维风险预警系统,其特征在于:所述指标评价模块包括诊断结果单元、评价策略单元;
所述诊断结果单元用于根据所述至少两个诊断类别分别对数据库运维数据进行诊断,得到至少两个诊断结果;所述评价策略单元用于根据所述诊断结果,采用与所述诊断结果对应的诊断类别的评价策略,生成至少两个诊断类别的评价指标值。
9.根据权利要求5所述的一种基于大数据的数据库运维风险预警系统,其特征在于:所述风险预警模块包括选择单元、风险预警单元;
所述选择单元用于选取最高的评价指标值对应的诊断结果作为最终数据库运维结果,输出最终数据库运维结果对应的数据库问题部位,形成风险预警;所述风险预警单元用于将风险预警传输至数据库运维人员端口,并以红色感叹号形式进行标注。
CN202210966030.2A 2022-08-12 2022-08-12 一种基于大数据的数据库运维风险预警系统及方法 Active CN115048361B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210966030.2A CN115048361B (zh) 2022-08-12 2022-08-12 一种基于大数据的数据库运维风险预警系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210966030.2A CN115048361B (zh) 2022-08-12 2022-08-12 一种基于大数据的数据库运维风险预警系统及方法

Publications (2)

Publication Number Publication Date
CN115048361A true CN115048361A (zh) 2022-09-13
CN115048361B CN115048361B (zh) 2022-10-25

Family

ID=83167828

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210966030.2A Active CN115048361B (zh) 2022-08-12 2022-08-12 一种基于大数据的数据库运维风险预警系统及方法

Country Status (1)

Country Link
CN (1) CN115048361B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115544541A (zh) * 2022-09-28 2022-12-30 深圳市海葵信息技术有限公司 目标对象行为数据的处理方法、设备及存储介质
CN115831318A (zh) * 2022-11-07 2023-03-21 山东卓业医疗科技有限公司 一种基于互联网的医用核素粒子溯源监管系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019233047A1 (zh) * 2018-06-07 2019-12-12 国电南瑞科技股份有限公司 基于电网调度的运维方法
CN112117756A (zh) * 2019-06-20 2020-12-22 中国电力科学研究院有限公司 一种调度控制系统一体化运维方法和系统
CN114237965A (zh) * 2021-12-24 2022-03-25 中国建设银行股份有限公司 数据库故障分析方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019233047A1 (zh) * 2018-06-07 2019-12-12 国电南瑞科技股份有限公司 基于电网调度的运维方法
CN112117756A (zh) * 2019-06-20 2020-12-22 中国电力科学研究院有限公司 一种调度控制系统一体化运维方法和系统
CN114237965A (zh) * 2021-12-24 2022-03-25 中国建设银行股份有限公司 数据库故障分析方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115544541A (zh) * 2022-09-28 2022-12-30 深圳市海葵信息技术有限公司 目标对象行为数据的处理方法、设备及存储介质
CN115544541B (zh) * 2022-09-28 2023-08-15 深圳市海葵信息技术有限公司 目标对象行为数据的处理方法、设备及存储介质
CN115831318A (zh) * 2022-11-07 2023-03-21 山东卓业医疗科技有限公司 一种基于互联网的医用核素粒子溯源监管系统及方法
CN115831318B (zh) * 2022-11-07 2024-02-23 山东卓业医疗科技有限公司 一种基于互联网的医用核素粒子溯源监管系统及方法

Also Published As

Publication number Publication date
CN115048361B (zh) 2022-10-25

Similar Documents

Publication Publication Date Title
CN115048361B (zh) 一种基于大数据的数据库运维风险预警系统及方法
CN110008288B (zh) 用于网络故障分析的知识图谱库的构建方法及其应用
CN111027615B (zh) 基于机器学习的中间件故障预警方法和系统
CN111553590A (zh) 一种雷达嵌入式健康管理系统
US6625589B1 (en) Method for adaptive threshold computation for time and frequency based anomalous feature identification in fault log data
CN111259947A (zh) 一种基于多模态学习的电力系统故障预警方法和系统
WO2021143268A1 (zh) 基于模糊推理理论的电力信息系统健康评估方法及系统
CN106095639A (zh) 一种集群亚健康预警方法及系统
CN111614491A (zh) 一种面向电力监控系统安全态势评估指标选取方法及系统
Tang et al. Recommending resolutions for problems identified by monitoring
CN111160329A (zh) 一种根因分析的方法及装置
Lai et al. Accelerated multiple alarm flood sequence alignment for abnormality pattern mining
CN114266289A (zh) 一种复杂装备健康状态评估方法
CN117331794A (zh) 基于大数据的应用软件监控分析系统及方法
CN115688016A (zh) 一种用于大型数据库智能运维的一体化方法
CN116061690A (zh) 一种电动汽车充电过程中的安全预警方法及装置
CN117763015A (zh) 一种结构化时序数据管理的方法及装置
Burns et al. Social amplification of risk: An empirical study
Theron The use of data mining for predicting injuries in professional football players
CN116149895A (zh) 大数据集群性能预测方法、装置和计算机设备
Li et al. Ranking software engineering measures related to reliability using expert opinion
CN113726564B (zh) 服务器节点重要度分析方法
CN112380224B (zh) 一种面向海量异构多维数据采集的质量大数据系统
CN106487592A (zh) 一种基于数据立方体的分布式系统故障诊断方法
CN109558258B (zh) 一种分布式系统根源故障定位的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A database operation and maintenance risk warning system and method based on big data

Effective date of registration: 20231215

Granted publication date: 20221025

Pledgee: Bank of Nanjing Co.,Ltd. Nanjing Chengnan sub branch

Pledgor: Nanjing cornerstone Data Technology Co.,Ltd.

Registration number: Y2023980071513