CN111985651A - 业务系统运维方法和装置 - Google Patents

业务系统运维方法和装置 Download PDF

Info

Publication number
CN111985651A
CN111985651A CN201910429130.XA CN201910429130A CN111985651A CN 111985651 A CN111985651 A CN 111985651A CN 201910429130 A CN201910429130 A CN 201910429130A CN 111985651 A CN111985651 A CN 111985651A
Authority
CN
China
Prior art keywords
maintenance
sample
subset
target
service system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910429130.XA
Other languages
English (en)
Inventor
黄启雄
王攀
林晓群
林玉广
牛允诺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Fujian Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Fujian Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Fujian Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201910429130.XA priority Critical patent/CN111985651A/zh
Publication of CN111985651A publication Critical patent/CN111985651A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种业务系统运维方法和装置,方法包括:获取目标业务系统的运维样本集,所述运维样本集中的运维样本基于所述目标业务系统的运行数据生成;基于预设机器学习算法,从所述运维样本集中筛选出运维样本子集,所述运维样本子集中的运维样本对运维所述目标业务系统的贡献度满足第一预设条件;基于所述运维样本子集中的运维样本,进行机器学习训练,得到系统运维模型,以供运维所述目标业务系统。由此可见,本发明通过根据运维样本对运维目标业务系统的贡献度从运维样本集中筛选出运维样本子集,并基于所述运维样本子集中的运维样本进行机器学习训练,来得到系统运维模型,以供运维目标业务系统,能够更加可靠地进行业务系统运维。

Description

业务系统运维方法和装置
技术领域
本发明涉及终端领域,尤其涉及一种业务系统运维方法和装置。
背景技术
业务系统运维旨在实现资源的合理配置和确保业务系统的安全可靠运行。
目前的业务系统运维方案,通过运维人员人工进行业务系统的故障预测、故障定位、故障检测与分析,以及故障处理等运维工作,然而由于经验水平和工作时间等的限制,运维人员可能不能及时预测业务系统的故障,进而降低了业务系统运维的可靠性。
因此,亟需一种更可靠的业务系统运维方法。
发明内容
本发明实施例提供一种业务系统运维方法,以解决业务系统运维可靠性低的问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,提供了一种业务系统运维方法,该方法包括:
获取目标业务系统的运维样本集,所述运维样本集中的运维样本基于所述目标业务系统的运行数据生成;
基于预设机器学习算法,从所述运维样本集中筛选出运维样本子集,所述运维样本子集中的运维样本对运维所述目标业务系统的贡献度满足第一预设条件;
基于所述运维样本子集中的运维样本,进行机器学习训练,得到系统运维模型,以供运维所述目标业务系统。
第二方面,提供了一种业务系统运维装置,该装置包括:
获取模块,用于获取目标业务系统的运维样本集,所述运维样本集中的运维样本基于所述目标业务系统的运行数据生成;
样本筛选模块,用于基于预设机器学习算法,从所述运维样本集中筛选出运维样本子集,所述运维样本子集中的运维样本对运维所述目标业务系统的贡献度满足第一预设条件;
训练模块,用于基于所述运维样本子集中的运维样本,进行机器学习训练,得到系统运维模型,以供运维所述目标业务系统。
第三方面,提供了一种终端设备,所述终端设备包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如第一方面所述的方法的步骤。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的方法的步骤。
在本发明实施例中,通过根据运维样本对运维目标业务系统的贡献度从运维样本集中筛选出运维样本子集,并基于所述运维样本子集中的运维样本进行机器学习训练,来得到系统运维模型,以供运维目标业务系统,能够更加可靠地进行业务系统运维。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明的一个实施例提供的一种业务系统运维方法的流程示意图;
图2是本发明的一个实施例提供的一种运维样本筛选、运行指标处理和运行指标筛除的示意图;
图3是本发明的一个实施例提供的一种系统运维模型训练的示意图;
图4是本发明的一个实施例提供的一种业务系统运维装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明的一个实施例提供的一种业务系统运维方法的流程示意图,参见图1,该方法具体可以包括如下步骤:
步骤102:获取目标业务系统的运维样本集,所述运维样本集中的运维样本基于所述目标业务系统的运行数据生成。
其中,所述运维样本包括:运行指标集和故障标注信息,所述故障标注信息用于描述所述运维样本对应的故障信息。
其中,业务系统可以是一个企业把自己的产品推向市场并取得最大化收益的一个企业分系统,业务系统可以包括操作系统、应用程序和所请求的业务;运行数据可以是业务系统运行时的相关数据;运行指标集中可以包括多个运行指标,不同运维样本的运行指标集中的运行指标的类型和数量相同,运行指标基于运行数据生成,运行指标可以包括应用监控指标、业务监控指标和系统监控指标等,其中,应用监控指标可以用来反映业务系统的应用程序的资源使用情况,可以包括应用程序的可用性、异常、吞吐量、响应时间、队列深度等,业务监控指标可以用来反映业务系统的业务请求和响应情况,可以包括业务的日志明细、请求笔数和响应笔数等,系统监控指标可以用来反映业务系统的操作系统的资源使用情况,可以包括:CPU(Central Processing Unit,中央处理器)负载、内存负载、磁盘负载和进程数等;故障标注信息可以是业务系统运行过程中出现故障时,运维人员所标注的故障的类型和引起故障的原因等,例如可以是CPU负载过高导致宕机、请求笔数过多造成数据不准确或丢失等。
基于此,不仅可以获取到运维样本的运行指标集,还可以获取到运维样本的故障标注信息,使得获取到的运维样本包含的内容更加丰富和全面。
步骤104:基于预设机器学习算法,从所述运维样本集中筛选出运维样本子集,所述运维样本子集中的运维样本对运维所述目标业务系统的贡献度满足第一预设条件。
其中,预设机器学习算法可以是聚类检测算法和异常点检测算法中的至少一种;聚类检测算法包括K均值聚类(KMeans)算法、多阶段聚类(CHAMELEON)算法和基于密度的噪声应用空间聚类(DBSCAN,Density-Based Spatial Clustering of Applications withNoise)算法等;异常点检测算法包括孤立森林(iForest,Isolation Forest)算法和OneClass SVM算法等。
参见图2,以KMeans算法为例,步骤104具体可以示例为:
首先从N个运维样本组成的运维样本集(第一运维样本X1=【第一运行指标集(x11,x12,x13,x14,...x1M),第一故障标注信息】,第二运维样本X2=【第二运行指标集(x21,x22,x23,x24,...x2M),第二故障标注信息】,第三运维样本X3=【第三运行指标集(x31,x32,x33,x34,...x3M),第三故障标注信息】,第四运维样本X4=【第四运行指标集(x41,x42,x43,x44,...x4M),第四故障标注信息】,……,第N运维样本XN=【第N运行指标集(xN1,xN2,xN3,xN4,...xNM),第N故障标注信息】)中随机选取K个运维样本作为K个簇的K个初始聚类中心,其次基于每个运维样本的运行指标集中的运行指标,计算每个运维样本与每个初始聚类中心的距离,并把运维样本分配给最近的初始聚类中心(即最近的簇),每分配一个运维样本,要重新计算该运维样本所属簇的聚类中心,最后将不满足第一预设条件的运维样本(即运维样本数少于预设样本数阈值,并且聚类中心与其他簇的聚类中心的距离大于预设距离阈值的簇中的所有运维样本)从运维样本集中过滤掉(此簇中的所有运维样本有很大概率是异常运维样本),将满足第一预设条件的第一运维样本X1=【第一运行指标集(x11,x12,x13,x14,...x1M),第一故障标注信息】、第三运维样本X3、第四运维样本X4和第N运维样本XN(即运维样本数不少于预设样本数阈值,或者聚类中心与其他簇的聚类中心的距离不大于预设距离阈值的簇中的所有运维样本)作为运维样本子集中的运维样本。
需要说明的是,在步骤104之后,方法还包括:运行指标处理步骤,该步骤的一种实现方式可以为:
步骤S1:对所述运维样本子集中的运维样本的运行指标集中的运行指标进行无量纲化处理和缺失值处理,所述无量纲化处理包括归一化处理、标准化处理和正则化处理中的至少一种。
其中,无量纲化处理和缺失值处理的方法可以直接从机器学习库scikit-learn中调用,缺失值是指某个或某些运维样本中的运行指标的值是不完全的,缺失值处理方法可以是人工填写法、均值替换法、个案剔除法和回归替换法等;标准化处理、归一化处理和正则化处理均是对运行指标集中的每种运行指标分别进行的处理,标准化处理可以是将运维样本子集中的运维样本的某种运行指标的值按比例缩放至一个小的区间内;归一化处理可以是将运维样本子集中的运维样本的某种运行指标的值均映射到0~1之间;正则化处理可以是使运维样本子集中的运维样本的某种运行指标的值的均值为0、方差为1。
基于此,通过对运维样本子集中的运维样本的运行指标集中的运行指标进行无量纲化处理和缺失值计算,能够使得运行指标集中的运行指标更加完备和标准化。
需要说明的是,在步骤104之后,方法还包括:运行指标筛除步骤,该步骤的一种实现方式可以为:
步骤S1:确定所述运维样本子集中的每个运维样本对应的运行指标集;
步骤S2:对所述运维样本对应的运行指标集中的运行指标进行筛除处理,得到所述运维样本对应的运行指标子集;
其中,所述运行指标子集中的运行指标与所述运维样本对应的故障信息的相关性满足第二预设条件;第二预设条件可以是运维样本子集中的运维样本中的每种运行指标的方差大于预设方差阈值,预设方差阈值可以是0、0.3和0.5等。
步骤S2具体可以示例为:
分别计算运维样本子集中的运维样本中的每种运行指标的方差,若某种运行指标的方差小于或等于0.5,则不同运维样本在该运行指标上没有差异(即不同运维样本对应的故障信息与该运行指标的相关性较低),则可从运行指标集中筛除该运行指标,得到所述运维样本对应的运行指标子集。
需要说明的是,步骤S2具体还可以示例为:
记录6点~13点这个时间段中某一运行指标的值,基于时间序列的异常检测方法中的环比法(即同一时间段中的相邻时间点进行比较的方法),分别将6点和7点、7点和8点、……、12点和13点的该运行指标的值进行比较,若比较的结果不遵循预设变化趋势(即该运行指标在该时间段内的变化情况与预设变化趋势不相同或者相似),则可从运行指标集中筛除该运行指标;同理可依次记录6点~13点这个时间段中运行指标集中的其他运行指标的值,并根据环比法确定是否从运行指标集中筛除该运行指标,从而得到所述运维样本对应的运行指标子集。
另外,还可以基于时间序列的异常检测方法中的同比法(即相邻时间段中的某一相同时间点进行比较的方法),从运行指标集中筛除运行指标;例如记录6点~9点和10点~13点这两个相邻时间段中某一运行指标的值,分别将6点和10点、7点和11点、8点和12点以及9点和13点的该运行指标的值进行比较,并根据比较结果与预设变化趋势是否相同或相似来确定是否从运行指标集中筛除运行指标。
进一步地,参见图2,xT1~xTM(T在1至N之间)代表同一运维样本的不同类型的运行指标的值,x1S~xNS(S在1至M之间)代表不同运维样本的同一类型的运行指标的值,步骤S1和步骤S2具体可以示例为:
确定第一运维样本对应的运行指标集为(x11',x12',x13',x14',...x1M'),确定第三运维样本对应的运行指标集为(x31',x32',x33',x34',...x3M'),确定第四运维样本对应的运行指标集为(x41',x42',x43',x44',...x4M'),确定第N运维样本对应的运行指标集为(xN1',xN2',xN3',xN4',...xNM')。
对运维样本对应的运行指标集中的运行指标进行筛除处理,得到第一运维样本对应的运行指标子集为(x11',x12',x14',X1M'),得到第三运维样本对应的运行指标子集为(x31',x32',x34',x3M'),得到第四运维样本对应的运行指标子集为(x41',x42',x44',x4M'),得到第N运维样本对应的运行指标子集(xN1',xN2',xN4',xNM')。
基于此,通过对运行指标集中的运行指标进行筛除处理,筛除掉异常运行指标和与运维样本对应的故障信息的相关性较低的运行指标,能够使得运维样本的运行指标集中的运行指标更加正常,并且与运维样本对应的故障信息的相关性更高。
步骤106:基于所述运维样本子集中的运维样本,进行机器学习训练,得到系统运维模型,以供运维所述目标业务系统。
其中,机器学习训练的方法可以是随机森林算法、逻辑回归算法和K近邻算法等。
需要说明的是,以随机森林算法为例,步骤106的一种实现方式可以为:
步骤S1:从所述运维样本子集中随机选取出目标运维样本子集,所述目标运维样本子集至少包括第一目标运维样本和第二目标运维样本;
步骤S2:从所述第一目标运维样本对应的运行指标子集中随机选取第一目标运行指标子集,并基于所述第一目标运行指标子集和所述第一目标运维样本对应的故障标注信息,进行第一机器学习训练,得到第一机器学习训练结果;
步骤S3:从所述第二目标运维样本对应的运行指标子集中随机选取第二目标运行指标子集,并基于所述第二目标运行指标子集和所述第二目标运维样本对应的故障标注信息,进行第二机器学习训练,得到第二机器学习训练结果;
步骤S4:基于所述第一机器学习训练结果和所述第二机器学习训练结果,得到系统运维模型。
参见图3,步骤S1至步骤S3具体可以示例为:
从第一运维样本、第三运维样本、第四运维样本和第N运维样本中随机选取出第三运维样本和第四运维样本分别作为第一目标运维样本和第二目标运维样本;
从第三运维样本对应的运行指标子集(x31',x32',x34',x3M')中随机选取出第一目标运行指标子集(x31',x32'),并基于第一目标运行指标子集和第一目标运维样本对应的故障标注信息(CPU负载过高导致宕机),进行第一机器学习训练,得到第一机器学习训练结果;
从第四运维样本对应的运行指标子集(x41',x42',x44',x4M')中随机选取出第二目标运行指标子集(x42',x44'),并基于第二目标运行指标子集和第二目标运维样本对应的故障标注信息(请求笔数过多造成数据丢失),进行第二机器学习训练,得到第二机器学习训练结果。
基于此,通过随机森林算法,随机选取运维样本和运行指标,并分别基于不同目标运维样本的目标运行指标子集和对应的故障标注信息,进行机器学习算法,得到用于业务系统运维的系统运维模型,能够使得业务系统的运维更加可靠、准确和便捷。
需要说明的是,在步骤106之后,方法还包括:运维步骤,该步骤的一种实现方式可以为:
步骤S1:获取所述目标业务系统的最新运行指标集;
步骤S2:向所述系统运维模型输入所述最新运行指标集,得到所述系统运维模型输出的最新运行故障预警信息,以供基于所述最新运行故障预警信息,运维所述业务系统。
其中,新运行故障预警信息可以是“CPU负载过高可能导致宕机”、“请求笔数过多,数据可能丢失”等。
基于此,通过向系统运维模型输入最新运行指标集,得到系统运维模型输出的最新运行故障预警信息,能够使得运维人员根据运行故障预警信息及时进行处理,以免业务系统发生故障。
需要说明的是,在步骤106之后,方法还包括:模型优化步骤,该步骤的一种实现方式可以为:
步骤S1:确定与所述最新运行指标集相关联的最新故障标注信息;
步骤S2:基于所述最新运行指标集和所述最新故障标注信息,优化所述系统运维模型。
基于此,通过不断使用最新运行指标集和最新故障标注信息,对系统运维模型进行迭代优化,能够使得系统运维模型输出的运行故障预警信息更加全面和准确。
本实施例中,通过根据运维样本对运维目标业务系统的贡献度从运维样本集中筛选出运维样本子集,并基于所述运维样本子集中的运维样本进行机器学习训练,来得到系统运维模型,以供运维目标业务系统,能够更加可靠地进行业务系统运维。
另外,对于上述方法实施方式,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施方式并不受所描述的动作顺序的限制,因为依据本发明实施方式,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施方式均属于优选实施方式,所涉及的动作并不一定是本发明实施方式所必须的。
图4是本发明的一个实施例提供的一种业务系统运维装置的结构示意图,参见图4,该装置具体可以包括:获取模块402、样本筛选模块404和训练模块406,其中:
获取模块402,用于获取目标业务系统的运维样本集,所述运维样本集中的运维样本基于所述目标业务系统的运行数据生成;
样本筛选模块404,用于基于预设机器学习算法,从所述运维样本集中筛选出运维样本子集,所述运维样本子集中的运维样本对运维所述目标业务系统的贡献度满足第一预设条件;
训练模块406,用于基于所述运维样本子集中的运维样本,进行机器学习训练,得到系统运维模型,以供运维所述目标业务系统。
可选的,所述运维样本包括:运行指标集和故障标注信息,所述故障标注信息用于描述所述运维样本对应的故障信息。
可选的,装置还包括:
指标处理模块,用于对所述运维样本子集中的运维样本的运行指标集中的运行指标进行无量纲化处理和缺失值处理,所述无量纲化处理包括归一化处理、标准化处理和正则化处理中的至少一种。
可选的,装置还包括:
指标筛除模块,用于确定所述运维样本子集中的每个运维样本对应的运行指标集;
对所述运维样本对应的运行指标集中的运行指标进行筛除处理,得到所述运维样本对应的运行指标子集;
其中,所述运行指标子集中的运行指标与所述运维样本对应的故障信息的相关性满足第二预设条件。
可选的,训练模块406,包括:
训练单元,用于从所述运维样本子集中随机选取出目标运维样本子集,所述目标运维样本子集至少包括第一目标运维样本和第二目标运维样本;
从所述第一目标运维样本对应的运行指标子集中随机选取第一目标运行指标子集,并基于所述第一目标运行指标子集和所述第一目标运维样本对应的故障标注信息,进行第一机器学习训练,得到第一机器学习训练结果;
从所述第二目标运维样本对应的运行指标子集中随机选取第二目标运行指标子集,并基于所述第二目标运行指标子集和所述第二目标运维样本对应的故障标注信息,进行第二机器学习训练,得到第二机器学习训练结果;
基于所述第一机器学习训练结果和所述第二机器学习训练结果,得到系统运维模型。
可选的,装置还包括:
运维模块,用于获取所述目标业务系统的最新运行指标集;
向所述系统运维模型输入所述最新运行指标集,得到所述系统运维模型输出的最新运行故障预警信息,以供基于所述最新运行故障预警信息,运维所述业务系统。
可选的,装置还包括:
优化模块,用于确定与所述最新运行指标集相关联的最新故障标注信息;
基于所述最新运行指标集和所述最新故障标注信息,优化所述系统运维模型。
本实施例中,通过根据运维样本对运维目标业务系统的贡献度从运维样本集中筛选出运维样本子集,并基于所述运维样本子集中的运维样本进行机器学习训练,来得到系统运维模型,以供运维目标业务系统,能够更加可靠地进行业务系统运维。
本发明实施例提供的装置能够实现图1至图3的方法实施例中装置实现的各个过程,为避免重复,这里不再赘述。而且,应当注意的是,在本发明的装置的各个部件中,根据其要实现的功能而对其中的部件进行了逻辑划分,但是,本发明不受限于此,可以根据需要对各个部件进行重新划分或者组合。
优选的,本发明实施例还提供一种终端设备,包括处理器,存储器,存储在存储器上并可在所述处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述业务系统运维方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述业务系统运维方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。

Claims (10)

1.一种业务系统运维方法,其特征在于,包括:
获取目标业务系统的运维样本集,所述运维样本集中的运维样本基于所述目标业务系统的运行数据生成;
基于预设机器学习算法,从所述运维样本集中筛选出运维样本子集,所述运维样本子集中的运维样本对运维所述目标业务系统的贡献度满足第一预设条件;
基于所述运维样本子集中的运维样本,进行机器学习训练,得到系统运维模型,以供运维所述目标业务系统。
2.根据权利要求1所述的方法,其特征在于,所述运维样本包括:运行指标集和故障标注信息,所述故障标注信息用于描述所述运维样本对应的故障信息。
3.根据权利要求2所述的方法,其特征在于,还包括:
对所述运维样本子集中的运维样本的运行指标集中的运行指标进行无量纲化处理和缺失值处理,所述无量纲化处理包括归一化处理、标准化处理和正则化处理中的至少一种。
4.根据权利要求3所述的方法,其特征在于,还包括:
确定所述运维样本子集中的每个运维样本对应的运行指标集;
对所述运维样本对应的运行指标集中的运行指标进行筛除处理,得到所述运维样本对应的运行指标子集;
其中,所述运行指标子集中的运行指标与所述运维样本对应的故障信息的相关性满足第二预设条件。
5.根据权利要求2所述的方法,其特征在于,基于所述运维样本子集中的运维样本,进行机器学习训练,得到系统运维模型,包括:
从所述运维样本子集中随机选取出目标运维样本子集,所述目标运维样本子集至少包括第一目标运维样本和第二目标运维样本;
从所述第一目标运维样本对应的运行指标子集中随机选取第一目标运行指标子集,并基于所述第一目标运行指标子集和所述第一目标运维样本对应的故障标注信息,进行第一机器学习训练,得到第一机器学习训练结果;
从所述第二目标运维样本对应的运行指标子集中随机选取第二目标运行指标子集,并基于所述第二目标运行指标子集和所述第二目标运维样本对应的故障标注信息,进行第二机器学习训练,得到第二机器学习训练结果;
基于所述第一机器学习训练结果和所述第二机器学习训练结果,得到系统运维模型。
6.根据权利要求5所述的方法,其特征在于,还包括:
获取所述目标业务系统的最新运行指标集;
向所述系统运维模型输入所述最新运行指标集,得到所述系统运维模型输出的最新运行故障预警信息,以供基于所述最新运行故障预警信息,运维所述业务系统。
7.根据权利6所述的方法,其特征在于,还包括:
确定与所述最新运行指标集相关联的最新故障标注信息;
基于所述最新运行指标集和所述最新故障标注信息,优化所述系统运维模型。
8.一种业务系统运维装置,其特征在于,包括:
获取模块,用于获取目标业务系统的运维样本集,所述运维样本集中的运维样本基于所述目标业务系统的运行数据生成;
样本筛选模块,用于基于预设机器学习算法,从所述运维样本集中筛选出运维样本子集,所述运维样本子集中的运维样本对运维所述目标业务系统的贡献度满足第一预设条件;
训练模块,用于基于所述运维样本子集中的运维样本,进行机器学习训练,得到系统运维模型,以供运维所述目标业务系统。
9.一种终端设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法的步骤。
CN201910429130.XA 2019-05-22 2019-05-22 业务系统运维方法和装置 Pending CN111985651A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910429130.XA CN111985651A (zh) 2019-05-22 2019-05-22 业务系统运维方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910429130.XA CN111985651A (zh) 2019-05-22 2019-05-22 业务系统运维方法和装置

Publications (1)

Publication Number Publication Date
CN111985651A true CN111985651A (zh) 2020-11-24

Family

ID=73435945

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910429130.XA Pending CN111985651A (zh) 2019-05-22 2019-05-22 业务系统运维方法和装置

Country Status (1)

Country Link
CN (1) CN111985651A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103024762A (zh) * 2012-12-26 2013-04-03 北京邮电大学 基于业务特征的通信业务预测方法
CN104125584A (zh) * 2013-04-27 2014-10-29 中国移动通信集团福建有限公司 一种针对网络业务的业务指标实现预测的方法及装置
CN107579771A (zh) * 2017-09-26 2018-01-12 中国人民解放军国防信息学院 一种基于单条告警向前回溯的光纤传送网智能告警方法
WO2018077285A1 (zh) * 2016-10-31 2018-05-03 腾讯科技(深圳)有限公司 机器学习模型训练方法、装置、服务器及存储介质
CN108304941A (zh) * 2017-12-18 2018-07-20 中国软件与技术服务股份有限公司 一种基于机器学习的故障预测方法
JP2019512126A (ja) * 2016-02-29 2019-05-09 アリババ グループ ホウルディング リミテッド 機械学習システムをトレーニングする方法及びシステム
CN109754110A (zh) * 2017-11-03 2019-05-14 株洲中车时代电气股份有限公司 一种牵引变流器故障的预警方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103024762A (zh) * 2012-12-26 2013-04-03 北京邮电大学 基于业务特征的通信业务预测方法
CN104125584A (zh) * 2013-04-27 2014-10-29 中国移动通信集团福建有限公司 一种针对网络业务的业务指标实现预测的方法及装置
JP2019512126A (ja) * 2016-02-29 2019-05-09 アリババ グループ ホウルディング リミテッド 機械学習システムをトレーニングする方法及びシステム
WO2018077285A1 (zh) * 2016-10-31 2018-05-03 腾讯科技(深圳)有限公司 机器学习模型训练方法、装置、服务器及存储介质
CN107579771A (zh) * 2017-09-26 2018-01-12 中国人民解放军国防信息学院 一种基于单条告警向前回溯的光纤传送网智能告警方法
CN109754110A (zh) * 2017-11-03 2019-05-14 株洲中车时代电气股份有限公司 一种牵引变流器故障的预警方法及系统
CN108304941A (zh) * 2017-12-18 2018-07-20 中国软件与技术服务股份有限公司 一种基于机器学习的故障预测方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
JINLONG_XU: ""机器学习 特征工程之特征选择"" *
LXY_ALEX: ""特征工程: 特征, 特征提取和特征选择"" *
VCHAO: ""特征抽取、特征选择、特征工程"" *
深度机器学习: ""特征工程的主要内容(特征构建、特征抽取和特征选择)"" *
美美韩: ""[机器学习] 特征选择简明指南"" *
许国根 等: "《模式识别与智能计算的MATLAB实现》", 31 July 2012, 北京航天航空大学出版社 *

Similar Documents

Publication Publication Date Title
WO2020259421A1 (zh) 一种业务系统的监控方法及装置
CN108683530B (zh) 多维度数据的数据分析方法、装置及存储介质
CN111464583B (zh) 计算资源分配方法、装置、服务器及存储介质
CN110428127B (zh) 自动化分析方法、用户设备、存储介质及装置
CN109543891B (zh) 容量预测模型的建立方法、设备及计算机可读存储介质
EP4020315A1 (en) Method, apparatus and system for determining label
US11042525B2 (en) Extracting and labeling custom information from log messages
CN110471945B (zh) 活跃数据的处理方法、系统、计算机设备和存储介质
Bogojeska et al. Classifying server behavior and predicting impact of modernization actions
CN113626241B (zh) 应用程序的异常处理方法、装置、设备及存储介质
US11416321B2 (en) Component failure prediction
CN112700131B (zh) 基于人工智能的ab测试方法、装置、计算机设备及介质
US10372572B1 (en) Prediction model testing framework
CN111984442A (zh) 计算机集群系统的异常检测方法及装置、存储介质
CN112769605A (zh) 一种异构多云的运维管理方法及混合云平台
CN114202256B (zh) 架构升级预警方法、装置、智能终端及可读存储介质
CN114650167B (zh) 一种异常检测方法、装置、设备及计算机可读存储介质
CN113254250B (zh) 数据库服务器异常成因检测方法、装置、设备和存储介质
CN111950623B (zh) 数据稳定性监控方法、装置、计算机设备及介质
CN110795308A (zh) 一种服务器检验方法、装置、设备及存储介质
CN111985651A (zh) 业务系统运维方法和装置
CN113254672B (zh) 异常账号的识别方法、系统、设备及可读存储介质
CN111400122A (zh) 一种硬盘健康度评估方法及装置
US20220376989A1 (en) Management of predictive models of a communication network
CN111211938B (zh) 生物信息软件监控系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201124