CN116127149A - 图数据库集群健康度的量化方法和系统 - Google Patents

图数据库集群健康度的量化方法和系统 Download PDF

Info

Publication number
CN116127149A
CN116127149A CN202310398093.7A CN202310398093A CN116127149A CN 116127149 A CN116127149 A CN 116127149A CN 202310398093 A CN202310398093 A CN 202310398093A CN 116127149 A CN116127149 A CN 116127149A
Authority
CN
China
Prior art keywords
index
node
detected
graph database
database cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310398093.7A
Other languages
English (en)
Other versions
CN116127149B (zh
Inventor
苗壮
杨柳雪
叶小萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yueshu Technology Co ltd
Original Assignee
Hangzhou Yueshu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yueshu Technology Co ltd filed Critical Hangzhou Yueshu Technology Co ltd
Priority to CN202310398093.7A priority Critical patent/CN116127149B/zh
Publication of CN116127149A publication Critical patent/CN116127149A/zh
Application granted granted Critical
Publication of CN116127149B publication Critical patent/CN116127149B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本申请涉及一种图数据库集群健康度的量化方法和系统,该方法包括根据预设检测时间,定时向图数据库集群进行数据采集,获取待检测数据指标,将所述待检测数据指标进行预处理,得到预处理后的待检测数据指标,对所述预处理后的待检测数据指标进行评估,得到所述图数据库集群的评估结果。通过本申请,解决了图数据库集群健康评估效率低及评估成本高的问题,实现了图数据库集群健康度评估效率快,减少图数据库集群运维成本、降低企业因数据库故障引发的业务损失风险。

Description

图数据库集群健康度的量化方法和系统
技术领域
本申请涉及数据库技术领域,特别是涉及图数据库集群健康度的量化方法和系统。
背景技术
目前,随着计算机技术的发展和越来越广泛的应用,对图数据库集群的使用场景日益丰富,高性能可靠的分布式图数据库集群需求越来越旺盛。然而,高性能图数据库集群作为一个整体系统,其架构大多数是由多个服务器组建成集群使用,由于其需要提供强大的计算能力,服务器数量多,整体的故障率也会上升,对图数据库集群的整体集群健康状态评估,往往还需要专业的运维和技术人员对繁杂的各类机器和服务指标进行人为分析,阻碍了运维自动化,一体化的趋势,提高了图数据库的使用成本。
目前针对相关技术中,图数据库集群健康度评估效率低及评估成本高的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了图数据库集群健康度的量化方法和系统,以至少解决相关技术中图数据库集群健康度评估效率低及评估成本高的问题。
第一方面,本申请实施例提供了一种图数据库集群健康度的量化方法,所述方法包括:
根据预设检测时间,定时向图数据库集群进行数据采集,获取待检测数据指标;
将所述待检测数据指标进行预处理,得到预处理后的待检测数据指标;
对所述预处理后的待检测数据指标进行评估,得到所述图数据库集群的评估结果。
在其中一些实施例中,对所述预处理后的待检测数据指标进行评估,得到所述图数据库集群评估结果包括:
对所述预处理后的待检测数据指标中的计算节点指标进行计算,得到所述图数据库集群的计算节点指标分数;
对所述预处理后的待检测数据指标中的存储节点指标进行计算,得到所述图数据库集群的存储节点指标分数;
对所述预处理后的待检测数据指标中的稳定性指标进行计算,得到所述图数据库集群的稳定性指标分数;
对所述预处理后的待检测数据指标中的性能指标进行计算,得到所述图数据库集群的性能指标分数;
将所述计算节点指标分数、所述存储节点指标分数、所述稳定性指标分数和所述性能指标分数进行加权计算,得到所述图数据库集群的评估结果。
在其中一些实施例中,对所述预处理后的待检测数据指标中的计算节点指标进行计算,得到所述图数据库集群的计算节点指标分数包括:
基于权重函数对所述计算节点指标进行权重计算,得到所述权重计算后的计算节点指标;
将预设值与所述权重计算后的计算节点指标进行减法运算,得到第一减法运算结果,将所述第一减法运算结果与计算节点服务在线率相乘,得到所述计算节点指标分数。
在其中一些实施例中,对所述预处理后的待检测数据指标中的存储节点指标进行计算,得到所述图数据库集群的存储节点指标分数包括:
基于权重函数,对所述存储节点指标进行权重计算,得到所述权重计算后的存储节点指标;
将预设值与所述权重计算后的存储节点指标进行减法运算,得到第二减法运算结果,将所述第二减法运算结果与存储节点服务在线率和元数据服务在线率的积相乘,得到所述存储节点指标分数。
在其中一些实施例中,对所述预处理后的待检测数据指标中的稳定性指标进行计算,得到所述图数据库集群的稳定性指标分数包括:
基于权重函数,对所述稳定性指标进行权重计算,得到所述权重计算后的稳定性指标;
将预设值与所述权重计算后的稳定性指标进行减法运算,得到第三减法运算结果,将所述第三减法运算结果与最小服务在线率相乘,得到所述稳定性指标分数。
在其中一些实施例中,对所述预处理后的待检测数据指标中的性能指标进行计算,得到所述图数据库集群的性能指标分数包括:
基于权重函数,对所述性能指标进行权重计算,得到所述权重计算后的性能指标,
将预设值与所述权重计算后的性能指标进行减法运算,得到第四减法运算结果,将所述第四减法运算结果与最小服务在线率相乘,得到所述性能指标分数。
在其中一些实施例中,所述权重函数公式为:weight(conditionValue ,weightValue) = (maxConditionValue - conditionValue) / maxValue * weightValue;
其中,conditionValue表示为条件值,weightValue表示权重值,maxConditionValue表示最大条件值, maxValue表示最大值;
在其中一些实施例中,将所述待检测数据指标进行预处理包括:
分别获取计算节点服务、元数据服务和存储节点服务的进程运行状态;
根据所述计算节点服务的进程运行状态,计算得到计算节点服务在线率;
根据所述元数据服务的进程运行状态,计算得到元数据服务在线率;
根据所述存储节点服务的进程运行状态,计算得到存储节点服务在线率;
根据所述计算节点服务的进程运行状态、所述元数据服务的进程运行状态和所述存储节点服务的进程运行状态,计算得到最终服务在线率。
在其中一些实施例中,将所述待检测数据指标进行预处理还包括:
将所述计算节点指标进行预处理,得到计算节点CPU平均利用率中的最大值、计算节点内存平均使用率中的最大值、计算节点触发内存预警水位次数、计算节点持续天数、计算节点查询失败率和计算节点rpc消息调用错误比例;
将所述存储节点指标进行预处理,得到存储节点硬盘平均利用率中的最大值、存储节点添加或删除操作报错量的总和值和存储节点rpc消息失败错误比例;
将所述稳定性指标进行预处理,得到最小服务在线率、会话失败次数、会话过期次数和未解决告警;
将所述性能指标进行预处理,得到添加点的时延、添加边的时延、邻居属性时延和75%分位的查询耗时值。
第二方面,本申请实施例提供了一种图数据库集群健康度的量化系统,所述系统包括:获取待检测数据指标模块、预处理模块和评估模块;
所述获取待检测数据指标模块,用于根据预设检测时间,定时向图数据库集群进行数据采集,获取待检测数据指标;
所述预处理模块,用于将所述待检测数据指标进行预处理,得到预处理后的待检测数据指标;
所述评估模块,用于对所述预处理后的待检测数据指标进行评估,得到所述图数据库集群的评估结果。
相比于相关技术,本申请实施例提供的一种图数据库集群健康度的量化方法,通过根据预设检测时间,定时向图数据库集群进行数据采集,获取待检测数据指标,将待检测数据指标进行预处理,得到预处理后的待检测数据指标,对预处理后的待检测数据指标进行评估,得到图数据库集群的评估结果,解决了图数据库集群健康评估效率低及评估成本高的问题,实现了图数据库集群健康度评估效率快,减少图数据库集群运维成本、降低企业因数据库故障引发的业务损失风险,能够直接对任一时段进行健康程度的打分,直观的反应该时段的集群健康状态。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的图数据库集群健康度的量化方法的步骤流程图;
图2是根据本申请实施例的计算、存储、稳定性和性能的指标分数示意图;
图3是根据本申请实施例的整体流程图;
图4是根据本申请实施例的图数据库集群健康度的量化系统的结构框图;
图5是根据本申请实施例的电子设备的内部结构示意图。
附图标识:41、获取待检测数据指标模块;42、预处理模块;43、评估模块。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
实施例1
本申请实施例提供了一种图数据库集群健康度的量化方法,图1是根据本申请实施例的图数据库集群健康度的量化方法的步骤流程图,如图1所示,该方法包括以下步骤:
步骤S102,根据预设检测时间,定时向图数据库集群进行数据采集,获取待检测数据指标;
步骤S104,将待检测数据指标进行预处理,得到预处理后的待检测数据指标;
步骤S106,对预处理后的待检测数据指标进行评估,得到图数据库集群的评估结果。
通过本申请实施例中的步骤S102至步骤S106,解决了图数据库集群健康评估效率低及评估成本高的问题,实现了图数据库集群健康度评估效率快,减少图数据库集群运维成本、降低企业因数据库故障引发的业务损失风险,能够直接对任一时段进行健康程度的打分,直观的反应该时段的集群健康状态。
在其中一些实施例中,步骤S102,根据预设检测时间,定时向图数据库集群进行数据采集,获取待检测数据指标包括:
具体地,本申请实施例中分布式图数据库以 NebulaGraph (分布式图数据库)为例,通过配置prometheus(开源的系统监控报警框架)对运行的NebulaGraph 的所有瞬时指标每5秒进行一次采集,Prometheus将所有采集到的样本数据以时间序列(time-series)的方式保存在时序数据库中。当需要对图数据库集群健康度进行评估时,根据预设检测时间,在时序数据库中采集预设检测时间的数据,获取到待检测数据指标。通过配置prometheus对运行的NebulaGraph 的所有瞬时指标每5秒进行一次采集,并保存于时序数据库中,使得待检测数据可以选择任一时段进行检测,便于图数据库集群健康度的评估。
在其中一些实施例中,步骤S104,将待检测数据指标进行预处理,包括:
步骤一,分别获取计算节点服务、元数据服务和存储节点服务的进程运行状态。
步骤二,根据计算节点服务的进程运行状态,计算得到计算节点服务在线率;根据元数据服务的进程运行状态,计算得到元数据服务在线率;根据存储节点服务的进程运行状态,计算得到存储节点服务在线率。
步骤三,根据计算节点服务的进程运行状态、元数据服务的进程运行状态和存储节点服务的进程运行状态,计算得到最终服务在线率。
具体地,上述步骤一,根据待检测数据指标,通过prometheus获取到计算节点服务、元数据服务和存储节点服务的用户所选计算时段的进程运行状态。
通过公式:计算节点服务中的进程运行状态数量/ 计算节点部署数量,获取计算节点服务中的进程运行状态比例。
通过公式:元数据服务中的进程运行状态数量/ 元数据服务部署数量,获取元数据服务中的进程运行状态比例。
通过公式:存储节点服务中的进程运行状态数量/ 元数据服务部署数量,获取存储节点服务中的进程运行状态比例。
上述步骤二,通过公式:1-计算节点服务中的进程运行状态数量/ 计算节点部署数量,获取计算节点服务在线率。
通过公式:1-元数据服务中的进程运行状态数量/ 元数据服务部署数量,获取元数据服务在线率。
通过公式:1-存储节点服务中的进程运行状态数量/ 存储节点服务部署数量,获取存储节点服务在线率。
上述步骤三,通过伪代码公式获取最终服务在线率,其中,伪代码公式为onlineRatio:avgby(time)(3==(maxby(node)(graph_status,1)+maxby(node)(meta_status,1)+minby(node)(stroage_status,1))?1:0)。
式中,分别获取所有计算节点服务在某个时间点是否有任意服务存活,即计算节点服务中的进程运行状态是否有任意存活,元数据服务是否有任意服务存活,存储节点服务是否全部服务存活,再对上述同时满足上述三个服务的时间点赋值为1,不满足的则为0,最后在时间维度上对所有时间点积分,求出总和后除以时间点的个数,得到最终服务在线率。由于存储节点服务具有多数据分片特性,因此针对此特点,若任意存储节点服务下线,则判定服务不可用。
步骤四,将计算节点指标进行预处理,得到计算节点CPU平均利用率中的最大值、计算节点内存平均使用率中的最大值、计算节点触发内存预警水位次数、计算节点持续天数、计算节点查询失败率和计算节点rpc消息调用错误比例;
具体为:基于计算节点指标中的CPU利用率和内存利用率,获取计算节点CPU平均利用率中的最大值和计算节点内存平均使用率中的最大值,计算计算节点指标中当前时段触发内存水位的次数,得到计算节点触发内存预警水位次数,获取用户所选时段计算节点持续天数,获取到计算节点持续天数,将计算节点指标中查询失败的次数和查询失败的总数相除,得到计算节点查询失败率,计算计算节点指标中发送调用请求至元数据服务和存储服务时出错的次数之和占发送调用请求总数的占比,得到计算节点rpc消息调用错误比例。
步骤五,将存储节点指标进行预处理,得到存储节点硬盘平均利用率中的最大值、存储节点添加或删除操作报错量的总和值和存储节点rpc消息失败错误比例;
具体为:计算存储节点指标中的平均硬盘利用率,得到存储节点硬盘平均利用率中的最大值,统计存储节点指标中添加节点、删除节点和添加边、删除边的报错数量总和,得到存储节点添加或删除操作报错量的总和值,计算存储节点指标中发送rpc请求的错误量次数之和占发送rpc请求总数的占比,得到存储节点rpc消息失败错误比例。
步骤六,将稳定性指标进行预处理,得到最小服务在线率、会话失败次数、会话过期次数和未解决告警;
具体为:基于计算节点服务运行状态比例、元数据服务运行状态比例和存储节点服务运行状态比例,获取服务最大下线比例,通过1- 服务最大下线比例,获取最小服务在线率,统计计算节点指标中的会话失败次数和会话过期次数,得到会话失败次数和会话过期次数,基于告警规则,获取到时段产生的未解决告警。
步骤七,将性能指标进行预处理,得到添加点的时延、添加边的时延、邻居属性时延和75%分位的查询耗时值。
具体为:计算存储节点指标中添加节点和添加边的时延,得到添加节点的时延和添加边的时延,查询存储服务中邻居节点属性延时,得到邻居属性时延,查询存储服务中查询节点属性时延,得到节点属性时延,获取计算节点指标中75%分位的查询耗时值。
在其中一些实施例中,步骤S106,对预处理后的待检测数据指标进行评估,得到图数据库集群的评估结果包括:
步骤A1,对预处理后的待检测数据指标中的计算节点指标进行计算,得到图数据库集群的计算节点指标分数;
步骤A2,对预处理后的待检测数据指标中的存储节点指标进行计算,得到图数据库集群的存储节点指标分数;
步骤A3,对预处理后的待检测数据指标中的稳定性指标进行计算,得到图数据库集群的稳定性指标分数;
步骤A4,对预处理后的待检测数据指标中的性能指标进行计算,得到图数据库集群的性能指标分数;
步骤A5,将计算节点指标分数、存储节点指标分数、稳定性指标分数和性能指标分数进行加权计算,得到图数据库集群的评估结果。
上述步骤A1包括:基于权重函数对计算节点指标进行权重计算,得到权重计算后的计算节点指标;
将预设值与权重计算后的计算节点指标进行减法运算,得到第一减法运算结果,将第一减法运算结果与计算节点服务在线率相乘,得到计算节点指标分数。具体地,用公式表达为:
computeScore=(1-graphDownRatio)*(100-(weight(max_avg_cpu_usage>60%,30)+weight(max_avg_memory_usage>70%,30)+weight(hit_memory_times>10*days,10)+weight(query_error_ratio>1%,20)+weight(graph_rpc_errors_ratio>1%,10)));
其中,computeScore表示计算节点分数,graphDownRatio表示计算节点中的进程运行状态比例,1-graphDownRatio表示计算节点服务在线率, weight表示权重函数, max_avg_cpu_usage表示各计算节点CPU平均利用率中的最大值,max_avg_memory_usage表示各个计算节点内存平均使用率中的最大值,hit_memory_times表示出发内存预警水位次数,days表示用户所选时段计算节点持续的天数,query_error_ratio表示计算节点查询失败率,graph_rpc_errors_ratio表示计算节点rpc消息调用错误比例。
上述步骤A2包括:基于权重函数,对存储节点指标进行权重计算,得到权重计算后的存储节点指标;
将预设值与权重计算后的存储节点指标进行减法运算,得到第二减法运算结果,将第二减法运算结果与存储节点服务在线率和元数据服务在线率的积相乘,得到存储节点指标分数。具体地,用公式表达为:
storageScore=(1-storageDownRatio)*(1-metaDownRatio)*(100-(max(weight(max_avg_disk_usage>70%,50)+weight(add_or_delete_errors<(days*100),30)+weight(storage_rpc_error_ratio>1%,20)))
其中,storageScore表示存储节点分数, storageDownRatio表示存储节点中的进程运行状态比例,metaDownRatio表示元数据管理节点中的进程运行状态比例,1-storageDownRatio 表示存储节点服务在线率,1-metaDownRatio 表示元数据服务在线率,weight表示权重函数,max_avg_disk_usage表示各个存储节点硬盘平均利用率中的最大值,add_or_delete_errors表示存储节点添加或删除操作报错量的总和值,storage_rpc_error_ratio表示存储节点rpc消息失败错误比例。
上述步骤A3包括:基于权重函数,对稳定性指标进行权重计算,得到权重计算后的稳定性指标;
将预设值与权重计算后的稳定性指标进行减法运算,得到第三减法运算结果,将第三减法运算结果与最小服务在线率相乘,得到稳定性指标分数。具体地,用公式表达为:
stabilityScore=(1-maxDownRatio)*(1-weight(onlineRatio>50%,1))*(100-(weight(weight(unsolved_alerts[high],10)+weight(unsolved_alerts[medium],5)+weight(unsolved_alerts[low],1)),30)+weight(weight(unsolved_alerts[high],5)+weight(unsolved_alerts[medium],2),20))+weight(session_failed_num>10*perDay,10)+weight(session_expired_num>10*perDay,10)))
其中,stabilityScore表示稳定性指标分数,weight表示权重函数,maxDownRatio表示服务最大下线比例,1-maxDownRatio 表示最小服务在线率,onlineRatio表示服务可用在线率,unsolved_alerts表示未解决告警,session_failed_num表示会话失败次数,perDay表示每天,session_expired_num表示会话过期次数,high,medium和low表示告警的三个段位,分别为高中低。
上述步骤A4包括:基于权重函数,对性能指标进行权重计算,得到权重计算后的性能指标,
将预设值与权重计算后的性能指标进行减法运算,得到第四减法运算结果,将第四减法运算结果与最小服务在线率相乘,得到性能指标分数。具体地,用公式表达为:
performanceScore=(1-maxDownRatio)*(100-(weight(fetch_prop_latency.>100ms,10)+weight(query_latency_p75.>1000ms,50)+weight(get_neighbors_latency.>1000ms,20)+weight((add_vetex_latency+add_edge_latency)>100ms,20)))
其中,performanceScore表示性能指标分数,weight表示权重函数,maxDownRatio表示服务最大下线比例,1-maxDownRatio 表示最小服务在线率,fetch_prop_latency表示节点属性时延,query_latency_p75表示75%分位的查询耗时值,get_neighbors_latency表示获取邻居属性时延,add_vetex_latency表示添加点的时延,add_edge_latency表示添加边的时延。
上述步骤A5用公式表示为:
clusterScore=computeScore*0.25+storageScore*0.25+stabilityScore*0.3+performanceScore*0.2
其中,clusterScore表示图数据库集群健康分数,computeScore表示计算节点分数,storageScore表示存储节点分数,stabilityScore表示稳定性指标分数,performanceScore表示性能指标分数,0.25、0.25、0.3和0.2表示权重系数,分别对应各个指标。图2是根据本申请实施例的计算、存储、稳定性和性能的指标分数示意图,如图2所示,在图数据库集群健康度状态中,计算指标分数为100分,存储分数为75分,稳定性指标分数为75分至100分区间,具体为80分,性能指标分数为100分。图数据库集群健康分数为 0-100的一个两位小数,根据上述步骤A5的公式,图数据库集群健康分数=100*0.25+75*0.25+80*0.3+100*0.2=87.75。其中按严重程度可分三个阶段, 80-100 分为健康,60 - 80 为一般,0 - 60 分为告警,根据图数据库集群健康分数,可知目前图数据库集群为健康状态,线性的给到用户一个总分数用户通过上述的分数直观的判断出当前集群的状态,无需对各项指标进行人工分析。
在其中一些实施例中,权重函数公式为:
weight(conditionValue,weightValue)=(maxConditionValue-conditionValue)/maxValue*weightValue;
其中,conditionValue表示为条件值,weightValue表示权重值,maxConditionValue表示最大条件值,maxValue表示最大值。
具体地,在符合条件值的情况下,根据权重值和最大值,线性地得到该属性的最终的权重值。根据权重函数结果与预设的权重项大小关系,生成告警信息,其中生成告警信息包括,当权重函数结果大于30时,会生成一条紧急告警,和对应问题信息,当权重函数结果小于30,大于10时,会生成重要告警,10分以下 会生成普通提示,例如weight(max_avg_disk_usage>70%,50),该权重函数结果为20,则权重函数结果小于30,大于10,生成重要告警和对应问题信息,对应的问题信息为存储节点硬盘平均利用率中的最大值大于70%。
需要说明的是,图3是根据本申请实施例的整体流程图,如图3所示,通过配置prometheus对运行的图数据库的所有瞬时指标每5秒进行一次采集,Prometheus将所有采集到的样本数据以时间序列的方式保存在时序数据库中。当需要对图数据库集群健康度进行评估时,根据预设检测时间,在时序数据库中采集预设检测时间的数据,获取到待检测数据指标,将待检测数据指标进行预处理,得到预处理后的待检测数据指标,预处理后的待检测数据指标进行评估,得到图数据库集群的评估结果,根据评估结果,得到图数据库集群的总分数以及各项指标建议列表,比如xxx机器硬盘占用超过70%,建议尽快扩容。通过本申请,解决了图数据库集群健康评估效率低及评估成本高的问题,实现了图数据库集群健康度评估效率快,减少图数据库集群运维成本、降低企业因数据库故障引发的业务损失风险,能够直接对任一时段进行健康程度的打分,直观的反应该时段的集群健康状态。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
实施例2
本实施例还提供了一种图数据库集群健康度的量化系统,图4是根据本申请实施例的图数据库集群健康度的量化系统的结构框图;如图4所示,系统包括:获取待检测数据指标模块41、预处理模块42和评估模块43;
获取待检测数据指标模块41,用于根据预设检测时间,定时向图数据库集群进行数据采集,获取待检测数据指标;
预处理模块42,用于将待检测数据指标进行预处理,得到预处理后的待检测数据指标;
评估模块43,用于对预处理后的待检测数据指标进行评估,得到图数据库集群的评估结果。
通过本申请实施例中的待检测数据指标模块41、预处理模块42和评估模块43,解决了图数据库集群健康评估效率低及评估成本高的问题,实现了图数据库集群健康度评估效率快,减少图数据库集群运维成本、降低企业因数据库故障引发的业务损失风险,能够直接对任一时段进行健康程度的打分,直观的反应该时段的集群健康状态。
实施例3
本实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
步骤S102,根据预设检测时间,定时向图数据库集群进行数据采集,获取待检测数据指标;
步骤S104,将待检测数据指标进行预处理,得到预处理后的待检测数据指标;
步骤S106,对预处理后的待检测数据指标进行评估,得到图数据库集群的评估结果。
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
另外,结合上述实施例中的图数据库集群健康度的量化的方法,本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种图数据库集群健康度的量化的方法。
实施例4
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图数据库集群健康度的量化的方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
在一个实施例中,图5是根据本申请实施例的电子设备的内部结构示意图,如图5所示,提供了一种电子设备,该电子设备可以是服务器,其内部结构图可以如图5所示。该电子设备包括通过内部总线连接的处理器、网络接口、内存储器和非易失性存储器,其中,该非易失性存储器存储有操作系统、计算机程序和数据库。处理器用于提供计算和控制能力,网络接口用于与外部的终端通过网络连接通信,内存储器用于为操作系统和计算机程序的运行提供环境,计算机程序被处理器执行时以实现一种图数据库集群健康度的量化的方法,数据库用于存储数据。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域的技术人员应该明白,以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种图数据库集群健康度的量化方法,其特征在于,所述方法包括:
根据预设检测时间,定时向图数据库集群进行数据采集,获取待检测数据指标;
将所述待检测数据指标进行预处理,得到预处理后的待检测数据指标;
对所述预处理后的待检测数据指标进行评估,得到所述图数据库集群的评估结果。
2.根据权利要求1所述的方法,其特征在于,对所述预处理后的待检测数据指标进行评估,得到所述图数据库集群评估结果包括:
对所述预处理后的待检测数据指标中的计算节点指标进行计算,得到所述图数据库集群的计算节点指标分数;
对所述预处理后的待检测数据指标中的存储节点指标进行计算,得到所述图数据库集群的存储节点指标分数;
对所述预处理后的待检测数据指标中的稳定性指标进行计算,得到所述图数据库集群的稳定性指标分数;
对所述预处理后的待检测数据指标中的性能指标进行计算,得到所述图数据库集群的性能指标分数;
将所述计算节点指标分数、所述存储节点指标分数、所述稳定性指标分数和所述性能指标分数进行加权计算,得到所述图数据库集群的评估结果。
3.根据权利要求2所述的方法,其特征在于,对所述预处理后的待检测数据指标中的计算节点指标进行计算,得到所述图数据库集群的计算节点指标分数包括:
基于权重函数对所述计算节点指标进行权重计算,得到所述权重计算后的计算节点指标;
将预设值与所述权重计算后的计算节点指标进行减法运算,得到第一减法运算结果,将所述第一减法运算结果与计算节点服务在线率相乘,得到所述计算节点指标分数。
4.根据权利要求2所述的方法,其特征在于,对所述预处理后的待检测数据指标中的存储节点指标进行计算,得到所述图数据库集群的存储节点指标分数包括:
基于权重函数,对所述存储节点指标进行权重计算,得到所述权重计算后的存储节点指标;
将预设值与所述权重计算后的存储节点指标进行减法运算,得到第二减法运算结果,将所述第二减法运算结果与存储节点服务在线率和元数据服务在线率的积相乘,得到所述存储节点指标分数。
5.根据权利要求2所述的方法,其特征在于,对所述预处理后的待检测数据指标中的稳定性指标进行计算,得到所述图数据库集群的稳定性指标分数包括:
基于权重函数,对所述稳定性指标进行权重计算,得到所述权重计算后的稳定性指标;
将预设值与所述权重计算后的稳定性指标进行减法运算,得到第三减法运算结果,将所述第三减法运算结果与最小服务在线率相乘,得到所述稳定性指标分数。
6.根据权利要求2所述的方法,其特征在于,对所述预处理后的待检测数据指标中的性能指标进行计算,得到所述图数据库集群的性能指标分数包括:
基于权重函数,对所述性能指标进行权重计算,得到所述权重计算后的性能指标,
将预设值与所述权重计算后的性能指标进行减法运算,得到第四减法运算结果,将所述第四减法运算结果与最小服务在线率相乘,得到所述性能指标分数。
7.根据权利要求3~6任意一项的所述方法,其特征在于,所述权重函数公式为:weight(conditionValue , weightValue) = (maxConditionValue - conditionValue) /maxValue * weightValue;
其中,conditionValue表示为条件值,weightValue表示权重值,maxConditionValue表示最大条件值, maxValue表示最大值。
8.根据权利要求1所述的方法,其特征在于,将所述待检测数据指标进行预处理包括:
分别获取计算节点服务、元数据服务和存储节点服务的进程运行状态;
根据所述计算节点服务的进程运行状态,计算得到计算节点服务在线率;
根据所述元数据服务的进程运行状态,计算得到元数据服务在线率;
根据所述存储节点服务的进程运行状态,计算得到存储节点服务在线率;
根据所述计算节点服务的进程运行状态、所述元数据服务的进程运行状态和所述存储节点服务的进程运行状态,计算得到最终服务在线率。
9.根据权利要求 1所述的方法,其特征在于,将所述待检测数据指标进行预处理还包括:
将计算节点指标进行预处理,得到计算节点CPU平均利用率中的最大值、计算节点内存平均使用率中的最大值、计算节点触发内存预警水位次数、计算节点持续天数、计算节点查询失败率和计算节点rpc消息调用错误比例;
将存储节点指标进行预处理,得到存储节点硬盘平均利用率中的最大值、存储节点添加或删除操作报错量的总和值和存储节点rpc消息失败错误比例;
将稳定性指标进行预处理,得到最小服务在线率、会话失败次数、会话过期次数和未解决告警;
将性能指标进行预处理,得到添加点的时延、添加边的时延、邻居属性时延和75%分位的查询耗时值。
10.一种图数据库集群健康度的量化系统,其特征在于,所述系统包括:获取待检测数据指标模块、预处理模块和评估模块;
所述获取待检测数据指标模块,用于根据预设检测时间,定时向图数据库集群进行数据采集,获取待检测数据指标;
所述预处理模块,用于将所述待检测数据指标进行预处理,得到预处理后的待检测数据指标;
所述评估模块,用于对所述预处理后的待检测数据指标进行评估,得到所述图数据库集群的评估结果。
CN202310398093.7A 2023-04-14 2023-04-14 图数据库集群健康度的量化方法和系统 Active CN116127149B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310398093.7A CN116127149B (zh) 2023-04-14 2023-04-14 图数据库集群健康度的量化方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310398093.7A CN116127149B (zh) 2023-04-14 2023-04-14 图数据库集群健康度的量化方法和系统

Publications (2)

Publication Number Publication Date
CN116127149A true CN116127149A (zh) 2023-05-16
CN116127149B CN116127149B (zh) 2023-07-04

Family

ID=86297743

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310398093.7A Active CN116127149B (zh) 2023-04-14 2023-04-14 图数据库集群健康度的量化方法和系统

Country Status (1)

Country Link
CN (1) CN116127149B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120254669A1 (en) * 2011-04-04 2012-10-04 Microsoft Corporation Proactive failure handling in database services
CN108874640A (zh) * 2018-05-07 2018-11-23 北京京东尚科信息技术有限公司 一种集群性能的评估方法和装置
CN108932559A (zh) * 2018-05-31 2018-12-04 上海埃威航空电子有限公司 航空系统地面监管集群综合性能评价方法和系统
WO2019178714A1 (zh) * 2018-03-19 2019-09-26 华为技术有限公司 一种故障检测的方法、装置及系统
CN111274087A (zh) * 2020-01-15 2020-06-12 国网湖南省电力有限公司 一种it集中监控的业务系统的健康度评估方法
CN112162907A (zh) * 2020-09-30 2021-01-01 上海新炬网络信息技术股份有限公司 基于监控指标数据的健康度评估方法
CN113051147A (zh) * 2021-04-25 2021-06-29 中国建设银行股份有限公司 一种数据库集群的监控方法、装置、系统、以及设备
CN113094245A (zh) * 2021-03-26 2021-07-09 四川新网银行股份有限公司 一种数据库集群健康性度量的方法
CN114924952A (zh) * 2022-04-28 2022-08-19 杭州悦数科技有限公司 分布式图数据库黑盒健康情况的诊断方法、系统和介质
CN115248826A (zh) * 2022-09-21 2022-10-28 杭州悦数科技有限公司 一种大规模分布式图数据库集群运维管理的方法和系统
CN115392747A (zh) * 2022-08-31 2022-11-25 国电南瑞科技股份有限公司 一种电网调控系统健康度评价方法、装置、系统及存储介质
CN115438244A (zh) * 2022-08-12 2022-12-06 中国银联股份有限公司 一种数据库健康度评估方法及装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120254669A1 (en) * 2011-04-04 2012-10-04 Microsoft Corporation Proactive failure handling in database services
WO2019178714A1 (zh) * 2018-03-19 2019-09-26 华为技术有限公司 一种故障检测的方法、装置及系统
CN108874640A (zh) * 2018-05-07 2018-11-23 北京京东尚科信息技术有限公司 一种集群性能的评估方法和装置
CN108932559A (zh) * 2018-05-31 2018-12-04 上海埃威航空电子有限公司 航空系统地面监管集群综合性能评价方法和系统
CN111274087A (zh) * 2020-01-15 2020-06-12 国网湖南省电力有限公司 一种it集中监控的业务系统的健康度评估方法
CN112162907A (zh) * 2020-09-30 2021-01-01 上海新炬网络信息技术股份有限公司 基于监控指标数据的健康度评估方法
CN113094245A (zh) * 2021-03-26 2021-07-09 四川新网银行股份有限公司 一种数据库集群健康性度量的方法
CN113051147A (zh) * 2021-04-25 2021-06-29 中国建设银行股份有限公司 一种数据库集群的监控方法、装置、系统、以及设备
CN114924952A (zh) * 2022-04-28 2022-08-19 杭州悦数科技有限公司 分布式图数据库黑盒健康情况的诊断方法、系统和介质
CN115438244A (zh) * 2022-08-12 2022-12-06 中国银联股份有限公司 一种数据库健康度评估方法及装置
CN115392747A (zh) * 2022-08-31 2022-11-25 国电南瑞科技股份有限公司 一种电网调控系统健康度评价方法、装置、系统及存储介质
CN115248826A (zh) * 2022-09-21 2022-10-28 杭州悦数科技有限公司 一种大规模分布式图数据库集群运维管理的方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
RUI HAN; WENHAO WANG; PENG JIANG; FEIRAN LI; SHUANG LIU; LI LIU: "Research on transformer health condition evaluation method based on clustering analysis and dynamic feature extraction", IEEE, pages 1 - 4 *
王海峰;陈庆奎;: "多指标自趋优的GPU集群能耗控制模型", 计算机研究与发展, no. 01, pages 105 - 115 *
程永新;: "分布式系统健康度实时自动化评价方法", 移动通信, no. 08, pages 91 - 96 *

Also Published As

Publication number Publication date
CN116127149B (zh) 2023-07-04

Similar Documents

Publication Publication Date Title
CN113176978B (zh) 基于日志文件的监控方法、系统、设备及可读存储介质
CN108683530B (zh) 多维度数据的数据分析方法、装置及存储介质
US10031829B2 (en) Method and system for it resources performance analysis
CN112054915B (zh) 客户端异常预警的处理方法、装置、系统及计算设备
CN110674014A (zh) 一种确定异常查询请求的方法及装置
KR20090122103A (ko) 데이터 스트림 처리 시스템에서 출처 데이터를 유지 및 처리하는 방법 및 장치
CN108390793A (zh) 一种分析系统稳定性的方法及装置
CN114490078A (zh) 一种微服务的动态缩扩容方法、装置及设备
CN117170894A (zh) 基于实时计算的事件中心管理方法和装置
CN110543462A (zh) 微服务可靠性预测方法、预测装置、电子设备及存储介质
CN115470079A (zh) 一种系统故障预警方法、装置及服务器
CN113835918A (zh) 一种服务器故障分析方法及装置
CN117151726A (zh) 故障的修复方法、修复装置、电子设备以及存储介质
CN113220551A (zh) 指标趋势预测及预警方法、装置、电子设备及存储介质
CN116127149B (zh) 图数据库集群健康度的量化方法和系统
CN112054913B (zh) 一种数据监控系统及方法
CN110011845B (zh) 日志采集方法及系统
CN111783883A (zh) 一种异常数据的检测方法及装置
CN110932935A (zh) 资源控制方法、装置、设备及计算机存储介质
CN111427878B (zh) 数据监控告警方法、装置、服务器和存储介质
CN114818907A (zh) 输电线路的状态监测方法、装置、设备及存储介质
CN113946493A (zh) 一种监控阈值确定及监控报警方法、装置、设备和介质
CN115729907A (zh) 为数据库实例的监控指标分类的方法和装置、为数据库实例分类的方法和装置
CN111338900A (zh) 监控软件系统的运行状态的方法及装置
CN112699101B (zh) 基于存储与处理的服务器系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant