CN112860525A - 分布式系统中的节点故障预测方法及装置 - Google Patents

分布式系统中的节点故障预测方法及装置 Download PDF

Info

Publication number
CN112860525A
CN112860525A CN202110350510.1A CN202110350510A CN112860525A CN 112860525 A CN112860525 A CN 112860525A CN 202110350510 A CN202110350510 A CN 202110350510A CN 112860525 A CN112860525 A CN 112860525A
Authority
CN
China
Prior art keywords
node
distributed system
fault
parameters
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110350510.1A
Other languages
English (en)
Inventor
阮文浩
刘圣杰
郭润文
毛淑平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202110350510.1A priority Critical patent/CN112860525A/zh
Publication of CN112860525A publication Critical patent/CN112860525A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3024Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3037Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a memory, e.g. virtual memory, cache
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Quality & Reliability (AREA)
  • Medical Informatics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种分布式系统中的节点故障预测方法及装置,本发明涉及人工智能领域,其中,方法包括:获取分布式系统中的节点的运行参数;根据所述的运行参数利用预先训练的机器学习分类模型对节点进行分类;根据分类结果生成节点故障预测结果。基于人工智能中的机器学习,通过节点的运行参数对节点故障进行预测,使分布式系统达到节点自隔离自恢复的功能。从而能及时在众多的分布式节点中发现故障的节点,反馈到监控系统,并将该故障点进行隔离,故障节点的及时隔离能极大地减少故障对相应业务及客户的影响。

Description

分布式系统中的节点故障预测方法及装置
技术领域
本发明涉及数据处理技术,具体的讲是一种分布式系统中的节点故障预测方法及装置。
背景技术
银行系统逐步从集中式模式向分布式模式方向发展。以往集中式系统,节点过于单一,数据存放在集中数据库中。集中式系统优点是节点少,部署与架构相对简单,运维成本与复杂度低。缺点也十分明显,当节点出现故障时,由于节点单一,容易造成大规模的系统瘫痪,导致系统内的交易无法进行。目前银行大部分是分布式系统节点进行部署,数据通过分布式技术冗余存放在多个地方。优点是当单一节点出现故障时,只影响部分在故障节点的业务交易,如分布式分成10个节点部署,相对于以往集中式系统业务风险减少90%。缺点是分布式系统节点较多,部署与架构相对复杂,节点层次较多且会出现网状调用关系,其中一个节点出现故障后,不易发现及恢复。有时会出现异常节点长期处于异常状态,只有交易经过该节点出现交易失败或多次失败才能发现。
分布式技术是业界的趋势,通过横向扩展可以大大增加系统的吞吐量,单一节点故障时能大大减少对客户的业务影响。为解决分布式技术带来的问题,必须提高相应的分布式运维的能力。
发明内容
为克服现有技术中分布式系统中存在的至少一问题,本发明提供了一种分布式系统中的节点故障预测方法,包括:
获取分布式系统中的节点的运行参数;
根据所述的运行参数利用预先训练的机器学习分类模型对节点进行分类;
根据分类结果生成节点故障预测结果。
本发明实施例中,所述的运行参数包括:节点运行时的系统参数和节点运行时的交易参数;其中,
所述的节点运行时的系统参数包括:节点容器的CPU、节点容器的内存、节点容器磁盘容量各时间段的增加值、节点容器数据源链接池使用率、线程池、节点虚拟机的CPU、节点虚拟机的内存、节点虚拟机的堆大小、节点虚拟机的垃圾回收数量、节点虚拟机的垃圾回收时间及节点虚拟机的运行时间;
所述的节点运行时的交易参数包括:交易量、交易响应时间、交易成功率。
本发明实施例中,所述的方法还包括:预先训练机器学习分类模型;其包括:
获取分布式系统中的节点的历史运行参数;
对所述的历史运行参数进行特征提取构建模型训练集及测试集;
利用所述的模型训练集及测试集对建立初始的机器分类模型进行训练确定机器学习分类模型。
本发明实施例中,所述的历史运行参数包括:正常运行参数和根据故障发生时间对所述的历史运行参数进行分类标记的故障历史运行参数。
本发明实施例中,所述的方法还包括:
根据分类结果确定节点为故障节点或正常节点;
对确定为故障节点的节点进行隔离。
本发明实施例中,所述的机器学习分类模型包括:k-means算法分类器。
同时,本发明还提供一种分布式系统中的节点故障预测装置,包括:
参数获取模块,用于获取分布式系统中的节点的运行参数;
分类模块,用于根据所述的运行参数利用预先训练的机器学习分类模型对节点进行分类;
故障预测模块,用于根据分类结果生成节点故障预测结果。
本发明实施例中,所述的装置还包括:训练模块,用于预先训练机器学习分类模型;其包括:
历史数据获取单元,用于获取分布式系统中的节点的历史运行参数;
数据处理单元,用于对所述的历史运行参数进行特征提取构建模型训练集及测试集;
训练单元,用于利用所述的模型训练集及测试集对建立初始的机器分类模型进行训练确定机器学习分类模型。
同时,本发明还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述方法。
同时,本发明还提供一种计算机可读存储介质,计算机可读存储介质存储有执行上述方法的计算机程序。
本发明提供了一种分布式系统中的节点故障预测方法,获取分布式系统中的节点的运行参数,根据运行参数利用预先训练的机器学习分类模型对节点进行分类,根据分类结果生成节点故障预测结果,基于人工智能中的机器学习,通过系统中的交易信息、系统技术参数的统计与处理,对节点故障进行预测,确定故障节点,使分布式系统达到节点自隔离自恢复的功能。从而能及时在众多的分布式节点中发现故障的节点,反馈到监控系统,并将该故障点进行隔离,故障节点的及时隔离能极大地减少故障对相应业务及客户的影响。
为让本发明的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的分布式系统中的节点故障预测方法的流程图;
图2为本发明实施例中的系统框图;
图3为本发明实施例的流程图;
图4为本发明提供的分布式系统中的节点故障预测装置的框图;
图5为本发明实施例中的框图;
图6为本发明实施例中的框图;
图7为本发明实施例中提供的电子设备示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
分布式系统节点较多,部署与架构相对复杂,节点层次较多且会出现网状调用关系,其中一个节点出现故障后,不易发现及恢复。有时会出现异常节点长期处于异常状态,只有交易经过该节点出现交易失败或多次失败才能发现。因此需要该方法及时反馈到应用的监控系统,尽早确定故障节点并进行隔离并在故障消失后进行恢复。
如图1所示,为本发明提供的分布式系统中的节点故障预测方法,其包括:
步骤S101,获取分布式系统中的节点的运行参数;
步骤S102,根据所述的运行参数利用预先训练的机器学习分类模型对节点进行分类;
步骤S103,根据分类结果生成节点故障预测结果。
本发明提供的分布式系统中的节点故障预测方法,根据运行参数利用预先训练的机器学习分类模型对节点进行分类,根据分类结果生成节点故障预测结果。即本发明提供的分布式系统的节点故障预测方法,对节点的运行参数进行特征提取,将提取后的运行参数结果放到预先训练的机器分类模型中进行计算,本发明实施例中分类模型的计算后得到的两个值之一:0,代表容器节点正常;1,代表容器节点故障。
本发明基于人工智能中的机器学习,通过系统中的交易信息、系统技术参数的统计与处理,使分布式系统达到节点自隔离自恢复的功能。从而能及时在众多的分布式节点中发现故障的节点,反馈到监控系统,并将该故障点进行隔离,故障节点的及时隔离能极大地减少故障对相应业务及客户的影响。
具体的,本发明一实施例中,所述的运行参数包括:节点运行时的系统参数和节点运行时的交易参数;其中,
所述的节点运行时的系统参数包括:节点容器的CPU、节点容器的内存、节点容器磁盘容量各时间段的增加值、节点容器数据源链接池使用率、线程池、节点虚拟机的CPU、节点虚拟机的内存、节点虚拟机的堆大小、节点虚拟机的垃圾回收数量、节点虚拟机的垃圾回收时间及节点虚拟机的运行时间;
所述的节点运行时的交易参数包括:交易量、交易响应时间、交易成功率。
本发明实施例中,节点容器包括:docker容器,节点虚拟机包括:JVM虚拟机。
进一步,本发明一实施例中,各节点通过消息队列推送节点预测所需的运行参数。
本发明实施例中,所述的方法还包括:预先训练机器学习分类模型;其包括:
获取分布式系统中的节点的历史运行参数;
对所述的历史运行参数进行特征提取构建模型训练集及测试集;
利用所述的模型训练集及测试集对建立初始的机器分类模型进行训练确定机器学习分类模型。
对节点各时段参数(包含正常与故障)进行数据转换处理提取特征值,根据转换后特征值、目标值生成数据集,再分隔为训练集、测试集。将生成的训练集和测试机传入生成的初始的k-means算法分类器,启动k-means算法的训练,训练后的模型用于后续的预测。本实施例中,随机取数组中80%的记录作为训练集,20%的记录作为测试集。
本发明实施例中,所述的历史运行参数包括:正常运行参数和根据故障发生时间对所述的历史运行参数进行分类标记的故障历史运行参数。
本发明实施例中,所述的方法还包括:
根据分类结果确定节点为故障节点或正常节点;
对确定为故障节点的节点进行隔离。
本发明提供的分布式系统的节点故障预测方法,对节点的运行参数进行特征提取,将提取后的运行参数结果放到预先训练的机器分类模型中进行计算,本发明实施例中分类模型的计算后得到的两个值之一:0,代表容器节点正常;1,代表容器节点故障,对分类模型计算后得到的值为1的节点进行隔离。
分布式系统节点较多,部署与架构相对复杂,节点层次较多且会出现网状调用关系,其中一个节点出现故障后,不易发现及恢复。有时会出现异常节点长期处于异常状态,只有交易经过该节点出现交易失败或多次失败才能发现。本发明提供的故障节点预测方法能将故障节点及时反馈到应用的监控系统,尽早把故障节点进行隔离并在故障消失后进行恢复。
本发明实施例提供一种基于人工智能中的机器学习的后端监控节点的方法,通过系统中的交易信息、系统技术参数的统计与处理,使银行的分布式系统达到节点自隔离自恢复的功能。
本发明实施例提供一种基于机器学习的后端监控节点自隔离自恢复的系统及方法,是分布式运维的一种技术及方法。
分布式系统节点较多,部署与架构相对复杂,节点层次较多且会出现网状调用关系,其中一个节点出现故障后,不易发现及恢复。有时会出现异常节点长期处于异常状态,只有交易经过该节点出现交易失败或多次失败才能发现。因此需要该方法及时反馈到应用的监控系统,尽早把故障节点进行隔离并在故障消失后进行恢复。
本发明实施例提供一种基于人工智能中的机器学习的后端监控节点的方法,通过系统中的交易信息、系统技术参数的统计与处理,使银行的分布式系统达到节点自隔离自恢复的功能。
本发明涉及机器学习领域,特别涉及一种基于机器学习的后端监控节点自隔离自恢复的系统及方法。本实施例利用人工智能的机器学习,使用算法来解析数据,从中学习,然后对故障节点进行决策和预测。
下面结合附图对本发明技术方案进行详细说明。
图2是本发明实施例中涉及的银行分布式系统的结构图,如图2如示,本实施例中的分布式系统包括:
PAAS容器管理平台1、PAAS容器健康检查系统2、应用后端系统3、AMC应用监控平台4、机器学习平台5、大数据平台6。
其中,PAAS容器管理平台1与PAAS容器健康检查系统2相连接,PAAS容器管理平台1与应用后端系统3相连接,PAAS容器健康检查系统2与应用后端系统3相连接,应用后端系统3与AMC应用监控平台4、机器学习平台5、大数据平台6相连接,机器学习平台5与大数据平台6相连接,AMC应用监控平台4与大数据平台6相连接。
本实施例中,PAAS容器管理平台1,负责管理分布式系统中的各个节点,包括前端PAAS容器节点、后端PAAS容器节点、数据库PAAS容器节点。
PAAS容器健康检查系统2,负责检查各PAAS节点是否正常运行,本实施例中通过请求健康检查页面或运行简单容器脚本等方式来判断容器是否正常。
应用后端系统3,负责提供应用的后端服务,每笔交易完成后会通知AMC应用监控平台4。现有技术中,后端系统服务节点较多,出现故障时,不易及时发现。
AMC应用监控平台4,负责接收应用后端系统3发送的交易记录信息,统计各时段的交易量与交易响应时间。
机器学习平台5,负责分析系统中的交易信息、系统技术参数等,通过分析结果判断后端节点是否异常,若出现异常,及时通知应用后端系统3,通过应用后端系统3反馈给PAAS容器健康检查系统2,把故障节点进行隔离。
大数据平台6,负责从PAAS容器管理平台1和AMC应用监控平台4获取交易信息、系统技术参数的存储功能。
图3是本发明实施例中基于机器学习的后端监控节点自隔离自恢复的总体流程图,如图3所示,其包括:
步骤101:生产数据人工标记:
大数据平台6,通过PAAS容器管理平台1获取生产中的各节点运行时的系统参数,如DOCKER容器的CPU、DOCKER容器的内存、容器磁盘容量各时间段的增加值、容器数据源链接池使用率(%)、线程池、JVMCPU、JVM内存、JVM堆大小、JVM GcCount、JVM GcTime、JVMUpTime等系统参数,通过AMC应用监控平台4获取生产中的各节点运行时的交易参数,如交易量、交易响应时间、交易成功率等参数。把这些参数都存储在本地的大数据平台6。
通过历史生产的故障时间点对现有收集的参数进行标记,即故障发生时,各类参数的值是多少。标记时,还可以对故障进行分类标记,如数据库连接池耗尽导致交易失败、报文收报队列满了导致报文丢弃交易失败等。
标记用于系统的自学习,需要一定的积累作为学习样本。因此在系统启用之初,第一轮学习完成之前,有一定的标注工作量。
本实施例中,把标注出来的异常数据集分为训练集和测试集。系统进行训练集学习后,系统即具备智能判断能力。此时系统可通过测试集智能判断为故障。且随着系统的智能学习和不断完善,修正故障判断的算法。
步骤102:数据推送:
大数据平台6定期收集PAAS容器管理平台1中各节点运行时的系统参数和AMC应用监控平台4中各节点运行时的交易参数,通过消息队列推送至机器学习平台5,推送完毕后,将对应的记录置为“已推送”状态。
步骤103:数据转换及k-means模型生成:
机器学习平台5,对接收到的节点各时段参数(包含正常与故障)进行数据转换处理。
1、提取特征值,包括:
(1)DOCKER容器的CPU;
(2)DOCKER容器的内存;
(3)容器磁盘容量各时间段的增加值;
(4)容器数据源链接池使用率(%);
(5)线程池;
(6)JVMCPU;
(7)JVM内存;
(8)JVM堆大小;
(9)JVM GcCount(垃圾回收数量);
(10)JVM GcTime(垃圾回收时间);
(11)JVM UpTime(运行时间);
(12)交易量;
(13)交易响应时间;
(14)交易成功率;
(15)其他特征值。
2、根据以上转换后特征值、目标值生成数据集:
数据的集合生成:将转换后的特征值、目标值映射到数组中,在内存中创建一个二维数组,如下表1所示:
表1
Figure BDA0003001991300000081
将以上数组分隔为特征数组features、目标数组labels。
将以上两个数组再分隔为训练集、测试集。
随机取数组中80%的记录作为训练集,20%的记录作为测试集。分隔之后,分别存到四个数组中:
Train_features:用来训练的特征集;
Train_labels:用来训练的目标集;
Test_features:用来验证的特征集;
Test_labels:用来验证的目标集。
3、确定参数生成k-means模型:
生成初始的k-means算法分类器,本实施例中使用scikit-learn来方便地创建一个k-means算法分类器模型。
Scikit-learn是针对Python编程语言的免费软件机器学习库,它具有各种分类,回归和聚类算法,包括支持向量机,随机森林,梯度提升,k均值。
步骤104:启动k-means算法的训练:
机器学习平台5传入之前构造完毕的训练集,启动k-means算法的训练;
训练完毕后,模型将会生成,用于后续的预测。
步骤105:训练成功率验证:
机器学习平台5,传入验证的特征集进行验证:
在此过程中,上一步生成的模型,将会把数据代入算法模型中逐一进行结果预测,并使用预测结果作为最终结果。以上算法已经封装好,只需要简单调用即可。
得到了验证数据集的预测结果,存放在本地中。
接下来进行预测结果的准确率验证(用之前的用来验证的目标集,与预测的结果进行比对,计算准确率)。
得到的准确率是一个百分比,如80%、95%等等。
对于金融机构来说,可以设定一个准确率的目标值。如90%。则,如果训练出来的模型,准确率未达到90%,则认为不够准确,不采用其训练结果。
本实施例中,如果预测模型的准确率达到90%,则用该训练后的模型进行预测。
如果训练准确率达标,则机器学习平台5将模型进行更新(替代旧模型),并投入预测使用。
步骤106:发起预测请求:
大数据平台接收到新数据之后,通过消息队列向机器学习平台5发送预测请求。
步骤107:后端系统代入模型预测:
机器学习平台5接收到预测请求之后,对其进行特征提取(转换方法与步骤103一致):
特征提取后的数据结果放到scikit-learn中的训练过的k-means算法分类器进行计算。
此处,得到的将会是两个值之一:0--代表容器节点正常;1--代表容器节点故障。
机器学习平台5将结果通过消息队列,反传给大数据平台6及PAAS容器健康检查系统2。
步骤108:故障节点自动隔离:
PAAS容器健康检查系统2,根据机器学习平台5智能预测结果,对于预测为故障节点的容器及时进行自动隔离,无需人工介入。
在分布式系统的运维中,本发明实施例能及时在众多的分布式节点中发现故障的节点,反馈到监控系统,并将该故障点进行隔离。故障节点的及时隔离能极大地减少故障对相应业务及客户的影响。
同时,如图4所示,本发明还提供一种分布式系统中的节点故障预测装置,包括:
参数获取模块401,用于获取分布式系统中的节点的运行参数;
分类模块402,用于根据所述的运行参数利用预先训练的机器学习分类模型对节点进行分类;
故障预测模块403,用于根据分类结果生成节点故障预测结果。
如图5所示,本发明实施例中,分布式系统中的节点故障预测装置还包括:训练模块404,用于预先训练机器学习分类模型;
如图6所示,训练模块404包括:
历史数据获取单元4041,用于获取分布式系统中的节点的历史运行参数;
数据处理单元4042,用于对所述的历史运行参数进行特征提取构建模型训练集及测试集;
训练单元4043,用于利用所述的模型训练集及测试集对建立初始的机器分类模型进行训练确定机器学习分类模型。
对本领域技术人员而言,通过前述实施例的描述可清楚获知本发明提供的分布式系统中的节点故障预测装置的实现方式,在此不再赘述。
需要说明的是,本公开分布式系统中的节点故障预测装置方法和装置可用于金融领域在分布式系统中故障节点的预测或识别,也可用于除金融领域之外的任意领域发分布式系统中故障节点的预测或识别,本公开分布式系统中的节点故障预测方法和装置的应用领域不做限定。
本实施例还提供一种电子设备,该电子设备可以是台式计算机、平板电脑及移动终端等,本实施例不限于此。在本实施例中,该电子设备可以参照前述方法及装置的实施例,其内容被合并于此,重复之处不再赘述。
图7为本发明实施例的电子设备600的系统构成的示意框图。如图7所示,该电子设备600可以包括中央处理器100和存储器140;存储器140耦合到中央处理器100。值得注意的是,该图是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
一实施例中,分布式系统中的节点故障预测功能可以被集成到中央处理器100中。其中,中央处理器100可以被配置为进行如下控制:
获取分布式系统中的节点的运行参数;
根据所述的运行参数利用预先训练的机器学习分类模型对节点进行分类;
根据分类结果生成节点故障预测结果。
本发明实施例中,所述的运行参数包括:节点运行时的系统参数和节点运行时的交易参数;其中,
所述的节点运行时的系统参数包括:节点容器的CPU、节点容器的内存、节点容器磁盘容量各时间段的增加值、节点容器数据源链接池使用率、线程池、节点虚拟机的CPU、节点虚拟机的内存、节点虚拟机的堆大小、节点虚拟机的垃圾回收数量、节点虚拟机的垃圾回收时间及节点虚拟机的运行时间;
所述的节点运行时的交易参数包括:交易量、交易响应时间、交易成功率。
本发明实施例中,所述的方法还包括:预先训练机器学习分类模型;其包括:
获取分布式系统中的节点的历史运行参数;
对所述的历史运行参数进行特征提取构建模型训练集及测试集;
利用所述的模型训练集及测试集对建立初始的机器分类模型进行训练确定机器学习分类模型。
在另一个实施方式中,分布式系统中的节点故障预测装置可以与中央处理器100分开配置,例如可以将分布式系统中的节点故障预测装置配置为与中央处理器100连接的芯片,通过中央处理器的控制来实现分布式系统中的节点故障预测功能。
如图7所示,该电子设备600还可以包括:通信模块110、输入单元120、音频处理单元130、显示器160、电源170。值得注意的是,电子设备600也并不是必须要包括图7中所示的所有部件;此外,电子设备600还可以包括图7中没有示出的部件,可以参考现有技术。
如图7所示,中央处理器100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器100接收输入并控制电子设备600的各个部件的操作。
其中,存储器140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器100可执行该存储器140存储的该程序,以实现信息存储或处理等。
输入单元120向中央处理器100提供输入。该输入单元120例如为按键或触摸输入装置。电源170用于向电子设备600提供电力。显示器160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器140还可以是某种其它类型的装置。存储器140包括缓冲存储器141(有时被称为缓冲器)。存储器140可以包括应用/功能存储部142,该应用/功能存储部142用于存储应用程序和功能程序或用于通过中央处理器100执行电子设备600的操作的流程。
存储器140还可以包括数据存储部143,该数据存储部143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器140的驱动程序存储部144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块110即为经由天线111发送和接收信号的发送机/接收机110。通信模块(发送机/接收机)110耦合到中央处理器100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)110还经由音频处理器130耦合到扬声器131和麦克风132,以经由扬声器131提供音频输出,并接收来自麦克风132的音频输入,从而实现通常的电信功能。音频处理器130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器130还耦合到中央处理器100,从而使得可以通过麦克风132能够在本机上录音,且使得可以通过扬声器131来播放本机上存储的声音。
本发明实施例还提供一种计算机可读程序,其中当在电子设备中执行所述程序时,所述程序使得计算机在所述电子设备中执行如上面实施例所述的分布式系统中的节点故障预测方法。
本发明实施例还提供一种存储有计算机可读程序的存储介质,其中所述计算机可读程序使得计算机在电子设备中执行上面实施例所述的分布式系统中的节点故障预测。
以上参照附图描述了本发明的优选实施方式。这些实施方式的许多特征和优点根据该详细的说明书是清楚的,因此所附权利要求旨在覆盖这些实施方式的落入其真实精神和范围内的所有这些特征和优点。此外,由于本领域的技术人员容易想到很多修改和改变,因此不是要将本发明的实施方式限于所例示和描述的精确结构和操作,而是可以涵盖落入其范围内的所有合适修改和等同物。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种分布式系统中的节点故障预测方法,其特征在于,所述的方法包括:
获取分布式系统中的节点的运行参数;
根据所述的运行参数利用预先训练的机器学习分类模型对节点进行分类;
根据分类结果生成节点故障预测结果。
2.如权利要求1所述的分布式系统中的节点故障预测方法,其特征在于,所述的运行参数包括:节点运行时的系统参数和节点运行时的交易参数;其中,
所述的节点运行时的系统参数包括:节点容器的CPU、节点容器的内存、节点容器磁盘容量各时间段的增加值、节点容器数据源链接池使用率、线程池、节点虚拟机的CPU、节点虚拟机的内存、节点虚拟机的堆大小、节点虚拟机的垃圾回收数量、节点虚拟机的垃圾回收时间及节点虚拟机的运行时间;
所述的节点运行时的交易参数包括:交易量、交易响应时间、交易成功率。
3.如权利要求1所述的分布式系统中的节点故障预测方法,其特征在于,所述的方法还包括:预先训练机器学习分类模型;其包括:
获取分布式系统中的节点的历史运行参数;
对所述的历史运行参数进行特征提取构建模型训练集及测试集;
利用所述的模型训练集及测试集对建立初始的机器分类模型进行训练确定机器学习分类模型。
4.如权利要求3所述的分布式系统中的节点故障预测方法,其特征在于,所述的历史运行参数包括:正常运行参数和根据故障发生时间对所述的历史运行参数进行分类标记的故障历史运行参数。
5.如权利要求1所述的分布式系统中的节点故障预测方法,其特征在于,所述的方法还包括:
根据分类结果确定节点为故障节点或正常节点;
对确定为故障节点的节点进行隔离。
6.如权利要求1所述的分布式系统中的节点故障预测方法,其特征在于,所述的机器学习分类模型包括:k-means算法分类器。
7.一种分布式系统中的节点故障预测装置,其特征在于,所述的装置包括:
参数获取模块,用于获取分布式系统中的节点的运行参数;
分类模块,用于根据所述的运行参数利用预先训练的机器学习分类模型对节点进行分类;
故障预测模块,用于根据分类结果生成节点故障预测结果。
8.如权利要求7所述的分布式系统中的节点故障预测装置,其特征在于,所述的装置还包括:训练模块,用于预先训练机器学习分类模型;其包括:
历史数据获取单元,用于获取分布式系统中的节点的历史运行参数;
数据处理单元,用于对所述的历史运行参数进行特征提取构建模型训练集及测试集;
训练单元,用于利用所述的模型训练集及测试集对建立初始的机器分类模型进行训练确定机器学习分类模型。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6任一项所述方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至6任一项所述方法的计算机程序。
CN202110350510.1A 2021-03-31 2021-03-31 分布式系统中的节点故障预测方法及装置 Pending CN112860525A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110350510.1A CN112860525A (zh) 2021-03-31 2021-03-31 分布式系统中的节点故障预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110350510.1A CN112860525A (zh) 2021-03-31 2021-03-31 分布式系统中的节点故障预测方法及装置

Publications (1)

Publication Number Publication Date
CN112860525A true CN112860525A (zh) 2021-05-28

Family

ID=75991897

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110350510.1A Pending CN112860525A (zh) 2021-03-31 2021-03-31 分布式系统中的节点故障预测方法及装置

Country Status (1)

Country Link
CN (1) CN112860525A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114257496A (zh) * 2021-12-21 2022-03-29 中国工商银行股份有限公司 服务节点自隔离方法及系统
CN114692674A (zh) * 2022-02-21 2022-07-01 武汉船用电力推进装置研究所(中国船舶重工集团公司第七一二研究所) 一种船舶推进系统故障判断方法及系统
CN114780442A (zh) * 2022-06-22 2022-07-22 杭州悦数科技有限公司 分布式系统的测试方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111105063A (zh) * 2018-10-26 2020-05-05 北京国双科技有限公司 故障预测、模型构建方法、装置、处理器及可读存储介质
CN111314110A (zh) * 2020-01-17 2020-06-19 南京大学 一种用于分布式系统的故障预警方法
CN111860667A (zh) * 2020-07-27 2020-10-30 海尔优家智能科技(北京)有限公司 设备故障的确定方法及装置、存储介质、电子装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111105063A (zh) * 2018-10-26 2020-05-05 北京国双科技有限公司 故障预测、模型构建方法、装置、处理器及可读存储介质
CN111314110A (zh) * 2020-01-17 2020-06-19 南京大学 一种用于分布式系统的故障预警方法
CN111860667A (zh) * 2020-07-27 2020-10-30 海尔优家智能科技(北京)有限公司 设备故障的确定方法及装置、存储介质、电子装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114257496A (zh) * 2021-12-21 2022-03-29 中国工商银行股份有限公司 服务节点自隔离方法及系统
CN114257496B (zh) * 2021-12-21 2023-11-07 中国工商银行股份有限公司 服务节点自隔离方法及系统
CN114692674A (zh) * 2022-02-21 2022-07-01 武汉船用电力推进装置研究所(中国船舶重工集团公司第七一二研究所) 一种船舶推进系统故障判断方法及系统
CN114780442A (zh) * 2022-06-22 2022-07-22 杭州悦数科技有限公司 分布式系统的测试方法和装置

Similar Documents

Publication Publication Date Title
CN112860525A (zh) 分布式系统中的节点故障预测方法及装置
CN111352971A (zh) 银行系统监控数据异常检测方法及系统
US20230289828A1 (en) Data processing method, computer device, and readable storage medium
CN106610854A (zh) 一种模型更新方法及装置
CN111783873A (zh) 基于增量朴素贝叶斯模型的用户画像方法及装置
CN109324956B (zh) 系统测试方法、设备及计算机可读存储介质
CN112132776A (zh) 基于联邦学习的视觉检测方法及系统、存储介质、设备
WO2023011470A1 (zh) 一种机器学习系统及模型训练方法
CN110275820B (zh) 页面兼容性测试方法、系统及设备
CN112910708B (zh) 分布式服务调用方法及装置
CN110716778B (zh) 应用兼容性测试方法、装置及系统
CN113128986A (zh) 长链路交易的报错处理方法及装置
CN113704389A (zh) 一种数据评估方法、装置、计算机设备及存储介质
CN108596068B (zh) 一种动作识别的方法和装置
CN115984853A (zh) 文字识别方法及装置
CN112116460B (zh) 基于区块链的专利质押业务处理方法、系统及存储介质
CN115526859A (zh) 生产缺陷识别的方法、分布式处理平台、设备及存储介质
CN112631850A (zh) 故障场景的模拟方法及装置
CN115062111A (zh) 故障复盘报告生成方法、装置及电子设备
CN112860527A (zh) 应用服务器的故障监测方法及装置
US11844134B1 (en) Cell site repair part prediction machine learning system
CN111382874B (zh) 实现线上机器学习模型的更新迭代的方法和装置
CN113345174A (zh) 一种柜员现金循环机与终端平台的交互模拟方法及装置
CN109087300B (zh) Led芯片支架故障自动检测方法和装置
CN113052266A (zh) 交易模式类型识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination