CN111290922B - 服务运行健康度监测方法及装置 - Google Patents

服务运行健康度监测方法及装置 Download PDF

Info

Publication number
CN111290922B
CN111290922B CN202010138237.1A CN202010138237A CN111290922B CN 111290922 B CN111290922 B CN 111290922B CN 202010138237 A CN202010138237 A CN 202010138237A CN 111290922 B CN111290922 B CN 111290922B
Authority
CN
China
Prior art keywords
service
health
neural network
service operation
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010138237.1A
Other languages
English (en)
Other versions
CN111290922A (zh
Inventor
吴冕冠
周文泽
陆新龙
王磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202010138237.1A priority Critical patent/CN111290922B/zh
Publication of CN111290922A publication Critical patent/CN111290922A/zh
Application granted granted Critical
Publication of CN111290922B publication Critical patent/CN111290922B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明提供了一种服务运行健康度监测方法及装置,服务运行健康度监测方法包括:获取生产环境下的所述服务运行的当前交易日志;提取所述当前交易日志的健康度特征;根据预生成的全连接神经网络模型、所述健康度特征以及对应的标签数据监测所述服务运行的健康度。本发明提供的服务运行健康度监测方法及装置,可使得服务健康度评测实时性高,且生产环境完全自动化,无需人工干预;服务健康度模型训练、更新、上线、管理效率高,易于维护。

Description

服务运行健康度监测方法及装置
技术领域
本发明涉及信息技术领域,特别是涉及一种服务运行健康度监测方法及装置。
背景技术
现有技术中,判断一个服务运行是否健康一般是通过人工查看该服务当前的交易成功率,交易耗时等指标是否符合历史均值进行判断。不同类型服务的交易成功率、交易耗时等指标的值不尽相同,且人工确认的方式效率不高,无法快速的判断出某个服务的健康水平,因此给健康度的度量带来了很大的困难。另外,现有技术中,一般是只针对某一个服务进行特定模型训练,得到的模型只能用以检测该服务的健康度,无法适配其他类型的服务,通用性较差。具体地,当服务类型较多时,无法做到实时对各服务进行健康度评测。或者采用对多个服务分别训练多个模型进行实时评测,但一个大型系统往往有几万个服务,每个服务使用特定的训练模型效率十分低下,这种方式不但非常耗费资源,当系统进行版本迭代时,可能涉及到较多服务的指标特性的变化,每个模型对应一类服务的模型再训练,再发布工作量十分的巨大。不适合在大型系统进行推广和实践。
发明内容
针对现有技术中的问题,本发明提供一种服务运行健康度监测方法及装置,可使得服务健康度评测实时性高,且生产环境完全自动化,无需人工干预;服务健康度模型训练、更新、上线、管理效率高,非常易于维护,且通过本发明所提供的单一模型可以适配多种类型的服务,通用性较好;可根据预定义流程对服务进行限流、降级、熔断等操作,能大大降低人工服务处理的风险。
为解决上述技术问题,本发明提供以下技术方案:
第一方面,本发明提供一种服务运行健康度监测方法,包括:
获取生产环境下的所述服务运行的当前交易日志;
提取所述当前交易日志的健康度特征,
根据预生成的全连接神经网络模型、所述健康度特征以及对应的标签数据监测所述服务运行的健康度。
一实施例中,所述健康度特征包括:时间、服务ID、TPS、慢交易数、成功率以及交易平均耗时。
一实施例中,生成所述全连接神经网络模型的步骤包括:
生成第一多层全连接神经网络初始模型;
初始化各网络层之间的权值;
生成所述全连接神经网络初始模型神经网络模型的loss函数;
利用梯度下降法优化所述loss函数;以生成第二多层全连接神经网络初始模型;
训练所述第二多层全连接神经网络初始模型,以生成全连接神经网络模型。
一实施例中,所述训练所述第二多层全连接神经网络初始模型,以生成全连接神经网络模型,包括:
获取生产环境下的所述服务运行的历史交易日志;
提取所述历史交易日志的健康度特征,
根据所述服务ID对所述服务运行进行分类;
利用三西格玛法计算每类服务运行的健康度,以生成样本数据集以及对应的标签数据;
利用所述样本数据集以及对应的标签数据训练所述第二多层全连接神经网络初始模型,以生成全连接神经网络模型。
一实施例中,服务运行健康度监测方法还包括:
对所述当前交易日志以及所述历史交易日志进行在线数据清洗。
一实施例中,所述根据预生成的全连接神经网络模型、所述健康度特征以及对应的标签数据监测所述服务运行的健康度,包括:
生成所述服务运行的健康度分值;
当所述健康度分值超出预设的阈值时,启动所述服务运行对应的服务处理流程。
第二方面,本发明提供一种服务运行健康度监测装置,该装置包括:
当前交易日志获取单元,用于获取生产环境下的所述服务运行的当前交易日志;
健康度特征提取单元,用于提取所述当前交易日志的健康度特征,
健康度监测单元,用于根据预生成的全连接神经网络模型、所述健康度特征以及对应的标签数据监测所述服务运行的健康度。
一实施例中,所述健康度特征包括:时间、服务ID、TPS、慢交易数、成功率以及交易平均耗时。
一实施例中,服务运行健康度监测装置还包括:
网络模型生成单元,用于生成所述全连接神经网络模型,所述网络模型生成单元包括:
第一初始模型生成模块,用于生成第一多层全连接神经网络初始模型;
权值初始化模块,用于初始化各网络层之间的权值;
loss函数生成模块,用于生成所述全连接神经网络初始模型神经网络模型的loss函数;
loss函数优化模块,用于利用梯度下降法优化所述loss函数;以生成第二多层全连接神经网络初始模型;
网络模型生成模块,用于训练所述第二多层全连接神经网络初始模型,以生成全连接神经网络模型。
一实施例中,所述网络模型生成模块包括:
历史交易日志获取模块,用于获取生产环境下的所述服务运行的历史交易日志;
健康度特征提取模块,用于提取所述历史交易日志的健康度特征,
服务运行分类模块,用于根据所述服务ID对所述服务运行进行分类;
样本数据生成模块,用于利用三西格玛法计算每类服务运行的健康度,以生成样本数据集以及对应的标签数据;
初始模型训练模块,用于利用所述样本数据集以及对应的标签数据训练所述第二多层全连接神经网络初始模型,以生成全连接神经网络模型。
一实施例中,服务运行健康度监测装置还包括:
数据清洗单元,用于对所述当前交易日志以及所述历史交易日志进行在线数据清洗。
一实施例中,所述健康度监测单元包括:
健康度分值生成模块,用于生成所述服务运行的健康度分值;
流程启动模块,用于当所述健康度分值超出预设的阈值时,启动所述服务运行对应的服务处理流程。
第三方面,本发明提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现服务运行健康度监测方法的步骤。
第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现服务运行健康度监测方法的步骤。
从上述描述可知,本发明实施例提供的服务运行健康度监测方法及装置,通过对各种类型服务的历史交易日志进行训练,得到一个通用的健康度评测模型。后续只需向该模型输入服务标识以及当前该服务的交易日志,便可以得到一个健康度分值用以表征该服务目前的健康状态。具体地,通过在生产环境收集各服务的历史交易日志作为样本数据,进行初始的模型训练。在对服务交易日志进行指标特征提取时,应提取时间、服务ID、TPS、慢交易数、成功率、交易平均耗时这些维度的特征作为模型训练的样本数据。并采用了多层全连接神经网络进行深度学习模型训练,得到一个通用的模型作为后续服务健康度预测。在实时计算出各服务的健康度之后,当健康度低于对该服务预设的阈值时,则进行服务处理流程。
综上,本申请具有以下有益效果:
1.服务健康度评测实时性高,且生产环境完全自动化,无需人工干预。
2.服务健康度模型训练、更新、上线、管理效率高,非常易于维护,且一个模型可以适配多种类型的服务,通用性较好。
3.传统的方式在发现一个服务健康度低,或出现故障之后,需要人工对相关服务进行修复。人工处理必然存在一定的风险,且效率较低。本专利提供了一种基于预定义流程的自动化服务处理装置,该装置可以根据预定义流程对服务进行限流、降级、熔断等操作,能大大降低人工服务处理的风险。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的实施例中服务运行健康度监测方法流程示意图一;
图2为本发明的实施例中服务运行健康度监测方法流程示意图二;
图3为本发明的实施例中服务运行健康度监测方法步骤400的流程示意图;
图4为本发明的实施例中服务运行健康度监测方法步骤405的流程示意图;
图5为本发明的实施例中服务运行健康度监测方法流程示意图三;
图6为本发明的实施例中服务运行健康度监测方法步骤300的流程示意图;
图7为本发明的具体应用实例中服务运行健康度监测方法的流程示意图;
图8为本发明的具体应用实例中步骤S2的流程示意图;
图9为本发明的具体应用实例中3西格玛方法计算结果流程示意图;
图10为本发明的具体应用实例中服务运行健康度监测装置的结构示意图一;
图11为本发明的具体应用实例中服务运行健康度监测装置的结构示意图二;
图12为本发明的具体应用实例中网络模型生成单元的结构示意图;
图13为本发明的具体应用实例中网络模型生成模块的结构示意图;
图14为本发明的具体应用实例中服务运行健康度监测装置的结构示意图三;
图15为本发明的具体应用实例中健康度监测单元的结构示意图;
图16为本发明的实施例中的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的实施例提供一种服务运行健康度监测方法的具体实施方式,参见图1,该方法具体包括如下内容:
步骤100:获取生产环境下的所述服务运行的当前交易日志。
步骤200:提取所述当前交易日志的健康度特征。
步骤200中的健康度特征包括:时间、服务ID、TPS、慢交易数、成功率以及交易平均耗时。
步骤300:根据预生成的全连接神经网络模型、所述健康度特征以及对应的标签数据监测所述服务运行的健康度。
步骤300在具体实施时,实时获取生产环境各服务的交易日志,并对交易日志进行在线数据清洗和特征提取,得到待预测数据(健康度特征以及对应的标签数据)。将待预测数据输入到已经训练好的全连接神经网络模型中,模型输出对应的健康度分值。
另外,步骤300中的全连接神经网络的原理是指在生物神经网络中,每个神经元与其他神经元相连,当其兴奋时,就会向相连的神经元发送化学物质,从而改变这些神经元内的电位。如果某神经元的电位超过了一个阈值,那么它就会被激活,从而兴奋起来,继续向其他神经元发送化学物质,从而将信号逐层传递下去。具体地,神经元接收到来自其他神经元传递过来的输入信号,并且每个输入信号带有一定的权重,神经元接收到的总输入值将与神经元的阈值比较,然后通过激活函数处理以产生神经元的输出(决定是否被激活)。
从上述描述可知,本发明实施例提供的服务运行健康度监测方法,通过对各种类型服务的历史交易日志进行训练,得到一个通用的健康度评测模型。后续只需向该模型输入服务标识以及当前该服务的交易日志,便可以得到一个健康度分值用以表征该服务目前的健康状态。具体地,通过在生产环境收集各服务的历史交易日志作为样本数据,进行初始的模型训练。在对服务交易日志进行指标特征提取时,应提取时间、服务ID、TPS、慢交易数、成功率、交易平均耗时这些维度的特征作为模型训练的样本数据。并采用了多层全连接神经网络进行深度学习模型训练,得到一个通用的模型作为后续服务健康度预测。在实时计算出各服务的健康度,健康度低于对该服务预设的阈值时,则进行服务处理流程。
一实施例中,所述健康度特征包括:时间、服务ID、TPS、慢交易数、成功率以及交易平均耗时。
可以理解的是,本实施例中的TPS(Transactions Per Second,即每秒传输的事物处理个数)是指服务器每秒处理的事务数。TPS包括一条消息入和一条消息出,加上一次用户数据库访问.TPS是软件测试结果的测量单位。一个事务是指一个客户机向服务器发送请求然后服务器做出反应的过程。客户机在发送请求时开始计时,收到服务器响应后结束计时,以此来计算使用的时间和完成的事务个数。一般的,评价系统性能均以每秒钟完成的技术交易的数量来衡量。系统整体处理能力取决于处理能力最低模块的TPS值。另外,服务ID是指服务唯一标识。
一实施例中,参见图2,服务运行健康度监测方法还包括:
步骤400:生成全连接神经网络模型。
可以理解的是,以全连接神经网络来排查某个服务健康度,可以避免通过人工排查确认某个服务健康度,因不同类型的服务指标特性不同,无法快速的判断出某个服务的健康水平,且该人工确认的方式效率十分低下的缺点。
进一步地,参见图3,步骤400包括:
步骤401:生成第一多层全连接神经网络初始模型。
步骤402:初始化各网络层之间的权值。
步骤403:生成所述全连接神经网络初始模型神经网络模型的loss函数。
步骤404:利用梯度下降法优化所述loss函数;以生成第二多层全连接神经网络初始模型。
步骤405:训练所述第二多层全连接神经网络初始模型,以生成全连接神经网络模型。
具体地,在步骤401至步骤405中,首先定义一个多层全连接神经网络,并初始化各网络层之间的权值;定义神经网络模型loss函数,采用梯度下降法作为优化loss函数的策略,以不断更新各网络层之间的权值。接着,将样本数据集以及与其对应的lebal输入到步骤404定义好的神经网络中,进行神经网络模型训练。通过反复(重复迭代)的训练调优,以使全连接神经网络模型的损失函数(loss函数)越来越小,最终得到用于评测服务健康度的通用模型。
一实施例中,参见图4,步骤405包括:
步骤4051:获取生产环境下的所述服务运行的历史交易日志。
基于历史交易日志所构建的全连接神经网络模型可以精准的预测当前的服务运行的健康度。
步骤4052:提取所述历史交易日志的健康度特征。
步骤4053:根据所述服务ID对所述服务运行进行分类。
步骤4054:利用三西格玛法计算每类服务运行的健康度,以生成样本数据集以及对应的标签数据。
在步骤4053以及步骤4054中,根据服务ID对每类服务进行分类,然后对每条样本数据进行健康分值计算,计算方法采用三西格玛法,得到可以直接用于模型训练的样本数据集和对应的lebal。
另外,步骤4054中的三西格玛法则首先假设一组检测数据只含有随机误差,对其进行计算处理得到标准偏差,按一定概率确定一个区间,不同的区间对应的不同的健康分值。
步骤4055:利用所述样本数据集以及对应的标签数据训练所述第二多层全连接神经网络初始模型,以生成全连接神经网络模型。
需要指出的是,步骤4055中对第二多层全连接神经网络初始模型的训练并不是一次完成的,需要反复的训练调优。
一实施例中,参见图5,服务运行健康度监测方法还包括:
步骤500:对所述当前交易日志以及所述历史交易日志进行在线数据清洗。
数据清洗是指发现并纠正数据文件中可识别的错误的程序,包括检查数据一致性,处理无效值和缺失值等。
一实施例中,参见图6,步骤300进一步包括:
步骤301:生成所述服务运行的健康度分值。
步骤302:当所述健康度分值超出预设的阈值时,启动所述服务运行对应的服务处理流程。
在步骤301以及步骤302中,具体地,得到健康度分值之后,判断该分值是否符合该服务的预设的阈值,如果低于预设的分值则启动对应的服务处理流程。
从上述描述可知,本发明实施例提供的服务运行健康度监测方法,通过对各种类型服务的历史交易日志进行训练,得到一个通用的健康度评测模型。后续只需向该模型输入服务标识以及当前该服务的交易日志,便可以得到一个健康度分值用以表征该服务目前的健康状态。具体地,通过在生产环境收集各服务的历史交易日志作为样本数据,进行初始的模型训练。在对服务交易日志进行指标特征提取时,应提取时间、服务ID、TPS、慢交易数、成功率、交易平均耗时这些维度的特征作为模型训练的样本数据。并采用了多层全连接神经网络进行深度学习模型训练,得到一个通用的模型作为后续服务健康度预测。在实时计算出各服务的健康度,健康度低于对该服务预设的阈值时,则进行服务处理流程。
综上,本申请实施例所提供的服务运行健康度监测方法具有以下有益效果:
1.服务健康度评测实时性高,且生产环境完全自动化,无需人工干预。
2.服务健康度模型训练、更新、上线、管理效率高,非常易于维护,且一个模型可以适配多种类型的服务,通用性较好。
3.传统的方式在发现一个服务健康度低,或出现故障之后,需要人工对相关服务进行修复。人工处理必然存在一定的风险,且效率较低。本专利提供了一种基于预定义流程的自动化服务处理装置,该装置可以根据预定义流程对服务进行限流、降级、熔断等操作,能大大降低人工服务处理的风险。
为进一步地说明本方案,本发明以6层全连接神经网络为例,提供服务运行健康度监测方法的具体应用实例,该具体应用实例具体包括如下内容,参见图7。
S0:实时抽取服务运行日志。
可以理解的是,步骤S0中的运行日志指交易日志。
S1:数据处理。
对交易日志数据进行数据清洗,特征选取等预处理操作,得到可以表征该服务健康度的特征数据
S2:建立6层全连接神经网络模型。
进一步的,参见图8,步骤S2还包括:
S21:样本收集。
获取近半年生产环境各服务的交易日志。
S22:数据处理。
对交易日志数据进行数据清洗,特征选取等预处理操作,得到可以表征该服务健康度的特征数据作为服务健康度模型训练的样本数据集。
S23:训练初始模型。
根据服务ID对每类服务进行分类,然后对每条样本数据进行健康分值计算,计算方法采用三西格玛法,得到可以直接用于模型训练的样本数据集和对应的lebal。具体计算方法包括:根据各个指标的3西格玛法则进行汇总,通过计算各个API服务的每分钟调用量、交易平均耗时、交易成功率、慢交易数这四个特征平均数和标准差(西格玛值),然后对各个特征进行如下方式打分(参见图9):
距离该特征平均值1西格玛以内的认为是正常的(大致占比为68%);距离该特征平均值1西格玛至2西格玛范围内为轻微异常,评分为-2分(大致占比为27%);距离该特征平均值2西格玛至3西格玛范围内为异常,评分为-7分(大致占比为4%);距离该特征平均值3西格玛以外为严重异常,评分为-15分(大致占比为1%);总分为100分,通过总分加上各个维度的分支得出最终的分数。
接着,定义一个6层全连接神经网络,并初始化各网络层之间的权值;定义神经网络模型loss函数,采用梯度下降法作为优化loss函数的策略。将样本数据集和lebal输入到定义好的神经网络之中,进行神经网络模型训练。通过反复的训练调优,得到用于评测服务健康度的通用模型。
S3:检测服务运行健康度。
具体地,实时获取生产环境各服务的交易日志,并对交易日志进行在线数据清洗和特征提取,得到待预测数据。将待预测数据输入到之前已经训练好的模型中,模型输出对应的健康度分值。
S4:服务处理。
可以理解的是,得到健康度分值之后,判断该分值是否符合该服务的预设的阈值,如果低于预设的分值则启动对应的服务处理流程。
从上述描述可知,本发明具体应用实例所提供的服务运行健康度监测方法,通过对各种类型服务的历史交易日志进行训练,得到一个通用的健康度评测模型。后续只需向该模型输入服务标识以及当前该服务的交易日志,便可以得到一个健康度分值用以表征该服务目前的健康状态。具体地,通过在生产环境收集各服务的历史交易日志作为样本数据,进行初始的模型训练。在对服务交易日志进行指标特征提取时,应提取时间、服务ID、TPS、慢交易数、成功率、交易平均耗时这些维度的特征作为模型训练的样本数据。并采用了多层全连接神经网络进行深度学习模型训练,得到一个通用的模型作为后续服务健康度预测。在实时计算出各服务的健康度,健康度低于对该服务预设的阈值时,则进行服务处理流程。
综上,本申请具体应用实例所提供的服务运行健康度监测方法具有以下有益效果:
1.服务健康度评测实时性高,且生产环境完全自动化,无需人工干预。
2.服务健康度模型训练、更新、上线、管理效率高,非常易于维护,且一个模型可以适配多种类型的服务,通用性较好。
3.传统的方式在发现一个服务健康度低,或出现故障之后,需要人工对相关服务进行修复。人工处理必然存在一定的风险,且效率较低。本专利提供了一种基于预定义流程的自动化服务处理装置,该装置可以根据预定义流程对服务进行限流、降级、熔断等操作,能大大降低人工服务处理的风险。
基于同一发明构思,本申请实施例还提供了服务运行健康度监测装置,可以用于实现上述实施例所描述的方法,如下面的实施例。由于服务运行健康度监测装置解决问题的原理与服务运行健康度监测方法相似,因此服务运行健康度监测装置的实施可以参见服务运行健康度监测方法实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本发明的实施例提供一种能够实现服务运行健康度监测方法的服务运行健康度监测装置的具体实施方式,参见图10,服务运行健康度监测装置具体包括如下内容:
当前交易日志获取单元10,用于获取生产环境下的所述服务运行的当前交易日志;
健康度特征提取单元20,用于提取所述当前交易日志的健康度特征,
健康度监测单元30,用于根据预生成的全连接神经网络模型、所述健康度特征以及对应的标签数据监测所述服务运行的健康度。
一实施例中,所述健康度特征包括:时间、服务ID、TPS、慢交易数、成功率以及交易平均耗时。
一实施例中,参见图11,服务运行健康度监测装置还包括:
网络模型生成单元40,用于生成所述全连接神经网络模型,参见图12,所述网络模型生成单元40包括:
第一初始模型生成模块401,用于生成第一多层全连接神经网络初始模型;
权值初始化模块402,用于初始化各网络层之间的权值;
loss函数生成模块403,用于生成所述全连接神经网络初始模型神经网络模型的loss函数;
loss函数优化模块404,用于利用梯度下降法优化所述loss函数;以生成第二多层全连接神经网络初始模型;
网络模型生成模块405,用于训练所述第二多层全连接神经网络初始模型,以生成全连接神经网络模型。
一实施例中,参见图13,所述网络模型生成模块405包括:
历史交易日志获取模块4051,用于获取生产环境下的所述服务运行的历史交易日志;
健康度特征提取模块4052,用于提取所述历史交易日志的健康度特征,
服务运行分类模块4053,用于根据所述服务ID对所述服务运行进行分类;
样本数据生成模块4054,用于利用三西格玛法计算每类服务运行的健康度,以生成样本数据集以及对应的标签数据;
初始模型训练模块4055,用于利用所述样本数据集以及对应的标签数据训练所述第二多层全连接神经网络初始模型,以生成全连接神经网络模型。
一实施例中,参见图14,服务运行健康度监测装置还包括:
数据清洗单元50,用于对所述当前交易日志以及所述历史交易日志进行在线数据清洗。
一实施例中,参见图15,所述健康度监测单元30包括:
健康度分值生成模块301,用于生成所述服务运行的健康度分值;
流程启动模块302,用于当所述健康度分值超出预设的阈值时,启动所述服务运行对应的服务处理流程。
从上述描述可知,本发明实施例提供的服务运行健康度监测装置,通过对各种类型服务的历史交易日志进行训练,得到一个通用的健康度评测模型。后续只需向该模型输入服务标识以及当前该服务的交易日志,便可以得到一个健康度分值用以表征该服务目前的健康状态。具体地,通过在生产环境收集各服务的历史交易日志作为样本数据,进行初始的模型训练。在对服务交易日志进行指标特征提取时,应提取时间、服务ID、TPS、慢交易数、成功率、交易平均耗时这些维度的特征作为模型训练的样本数据。并采用了多层全连接神经网络进行深度学习模型训练,得到一个通用的模型作为后续服务健康度预测。在实时计算出各服务的健康度,健康度低于对该服务预设的阈值时,则进行服务处理流程。
综上,本申请具有以下有益效果:
1.服务健康度评测实时性高,且生产环境完全自动化,无需人工干预。
2.服务健康度模型训练、更新、上线、管理效率高,非常易于维护,且一个模型可以适配多种类型的服务,通用性较好。
3.传统的方式在发现一个服务健康度低,或出现故障之后,需要人工对相关服务进行修复。人工处理必然存在一定的风险,且效率较低。本专利提供了一种基于预定义流程的自动化服务处理装置,该装置可以根据预定义流程对服务进行限流、降级、熔断等操作,能大大降低人工服务处理的风险。
本申请的实施例还提供能够实现上述实施例中的服务运行健康度监测方法中全部步骤的一种电子设备的具体实施方式,参见图16,电子设备具体包括如下内容:
处理器(processor)1201、存储器(memory)1202、通信接口(CommunicationsInterface)1203和总线1204;
其中,处理器1201、存储器1202、通信接口1203通过总线1204完成相互间的通信;通信接口1203用于实现服务器端设备、接口设备以及用户端设备等相关设备之间的信息传输。
处理器1201用于调用存储器1202中的计算机程序,处理器执行计算机程序时实现上述实施例中的服务运行健康度监测方法中的全部步骤,例如,处理器执行计算机程序时实现下述步骤:
步骤100:获取生产环境下的所述服务运行的当前交易日志。
步骤200:提取所述当前交易日志的健康度特征。
步骤300:根据预生成的全连接神经网络模型、所述健康度特征以及对应的标签数据监测所述服务运行的健康度。
从上述描述可知,本申请实施例中的电子设备,通过对各种类型服务的历史交易日志进行训练,得到一个通用的健康度评测模型。后续只需向该模型输入服务标识以及当前该服务的交易日志,便可以得到一个健康度分值用以表征该服务目前的健康状态。具体地,通过在生产环境收集各服务的历史交易日志作为样本数据,进行初始的模型训练。在对服务交易日志进行指标特征提取时,应提取时间、服务ID、TPS、慢交易数、成功率、交易平均耗时这些维度的特征作为模型训练的样本数据。并采用了多层全连接神经网络进行深度学习模型训练,得到一个通用的模型作为后续服务健康度预测。在实时计算出各服务的健康度,健康度低于对该服务预设的阈值时,则进行服务处理流程。
综上,本申请实施例中的电子设备,具有以下有益效果:
1.服务健康度评测实时性高,且生产环境完全自动化,无需人工干预。
2.服务健康度模型训练、更新、上线、管理效率高,非常易于维护,且一个模型可以适配多种类型的服务,通用性较好。
3.传统的方式在发现一个服务健康度低,或出现故障之后,需要人工对相关服务进行修复。人工处理必然存在一定的风险,且效率较低。本专利提供了一种基于预定义流程的自动化服务处理装置,该装置可以根据预定义流程对服务进行限流、降级、熔断等操作,能大大降低人工服务处理的风险。
本申请的实施例还提供能够实现上述实施例中的服务运行健康度监测方法中全部步骤的一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的服务运行健康度监测方法的全部步骤,例如,处理器执行计算机程序时实现下述步骤:
步骤100:获取生产环境下的所述服务运行的当前交易日志。
步骤200:提取所述当前交易日志的健康度特征。
步骤300:根据预生成的全连接神经网络模型、所述健康度特征以及对应的标签数据监测所述服务运行的健康度。
从上述描述可知,本申请实施例中的计算机可读存储介质,通过对各种类型服务的历史交易日志进行训练,得到一个通用的健康度评测模型。后续只需向该模型输入服务标识以及当前该服务的交易日志,便可以得到一个健康度分值用以表征该服务目前的健康状态。具体地,通过在生产环境收集各服务的历史交易日志作为样本数据,进行初始的模型训练。在对服务交易日志进行指标特征提取时,应提取时间、服务ID、TPS、慢交易数、成功率、交易平均耗时这些维度的特征作为模型训练的样本数据。并采用了多层全连接神经网络进行深度学习模型训练,得到一个通用的模型作为后续服务健康度预测。在实时计算出各服务的健康度,健康度低于对该服务预设的阈值时,则进行服务处理流程。
综上,本申请实施例中的计算机可读存储介质,具有以下有益效果:
1.服务健康度评测实时性高,且生产环境完全自动化,无需人工干预。
2.服务健康度模型训练、更新、上线、管理效率高,非常易于维护,且一个模型可以适配多种类型的服务,通用性较好。
3.传统的方式在发现一个服务健康度低,或出现故障之后,需要人工对相关服务进行修复。人工处理必然存在一定的风险,且效率较低。本专利提供了一种基于预定义流程的自动化服务处理装置,该装置可以根据预定义流程对服务进行限流、降级、熔断等操作,能大大降低人工服务处理的风险。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于硬件+程序类实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
虽然本申请提供了如实施例或流程图的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种服务运行健康度监测方法,其特征在于,包括:
获取生产环境下的所述服务运行的当前交易日志;
提取所述当前交易日志的健康度特征;
根据预生成的全连接神经网络模型、所述健康度特征以及对应的标签数据监测所述服务运行的健康度;
生成所述全连接神经网络模型的步骤包括:
生成第一多层全连接神经网络初始模型;
初始化各网络层之间的权值;
生成所述全连接神经网络初始模型的loss函数;
利用梯度下降法优化所述loss函数;以生成第二多层全连接神经网络初始模型;
训练所述第二多层全连接神经网络初始模型,以生成全连接神经网络模型;
所述训练所述第二多层全连接神经网络初始模型,以生成全连接神经网络模型,包括:
获取生产环境下的所述服务运行的历史交易日志;
提取所述历史交易日志的健康度特征,
根据服务ID对所述服务运行进行分类;
利用三西格玛法计算每类服务运行的健康度,以生成样本数据集以及对应的标签数据;
利用所述样本数据集以及对应的标签数据训练所述第二多层全连接神经网络初始模型,以生成全连接神经网络模型。
2.根据权利要求1所述的服务运行健康度监测方法,其特征在于,所述健康度特征包括:时间、服务ID、TPS、慢交易数、成功率以及交易平均耗时。
3.根据权利要求1所述的服务运行健康度监测方法,其特征在于,还包括:
对所述当前交易日志以及所述历史交易日志进行在线数据清洗。
4.根据权利要求1所述的服务运行健康度监测方法,其特征在于,所述根据预生成的全连接神经网络模型、所述健康度特征以及对应的标签数据监测所述服务运行的健康度,包括:
生成所述服务运行的健康度分值;
当所述健康度分值超出预设的阈值时,启动所述服务运行对应的服务处理流程。
5.一种服务运行健康度监测装置,其特征在于,包括:
当前交易日志获取单元,用于获取生产环境下的所述服务运行的当前交易日志;
健康度特征提取单元,用于提取所述当前交易日志的健康度特征;
健康度监测单元,用于根据预生成的全连接神经网络模型、所述健康度特征以及对应的标签数据监测所述服务运行的健康度;
网络模型生成单元,用于生成所述全连接神经网络模型,所述网络模型生成单元包括:
第一初始模型生成模块,用于生成第一多层全连接神经网络初始模型;
权值初始化模块,用于初始化各网络层之间的权值;
loss函数生成模块,用于生成所述全连接神经网络初始模型的loss函数;
loss函数优化模块,用于利用梯度下降法优化所述loss函数;以生成第二多层全连接神经网络初始模型;
网络模型生成模块,用于训练所述第二多层全连接神经网络初始模型,以生成全连接神经网络模型;
所述网络模型生成模块包括:
历史交易日志获取模块,用于获取生产环境下的所述服务运行的历史交易日志;
健康度特征提取模块,用于提取所述历史交易日志的健康度特征,
服务运行分类模块,用于根据服务ID对所述服务运行进行分类;
样本数据生成模块,用于利用三西格玛法计算每类服务运行的健康度,以生成样本数据集以及对应的标签数据;
初始模型训练模块,用于利用所述样本数据集以及对应的标签数据训练所述第二多层全连接神经网络初始模型,以生成全连接神经网络模型。
6.根据权利要求5所述的服务运行健康度监测装置,其特征在于,所述健康度特征包括:时间、服务ID、TPS、慢交易数、成功率以及交易平均耗时。
7.根据权利要求5所述的服务运行健康度监测装置,其特征在于,还包括:
数据清洗单元,用于对所述当前交易日志以及所述历史交易日志进行在线数据清洗。
8.根据权利要求5所述的服务运行健康度监测装置,其特征在于,所述健康度监测单元包括:
健康度分值生成模块,用于生成所述服务运行的健康度分值;
流程启动模块,用于当所述健康度分值超出预设的阈值时,启动所述服务运行对应的服务处理流程。
9.一种电子设备,包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至4任一项所述服务运行健康度监测方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至4任一项所述服务运行健康度监测方法的步骤。
CN202010138237.1A 2020-03-03 2020-03-03 服务运行健康度监测方法及装置 Active CN111290922B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010138237.1A CN111290922B (zh) 2020-03-03 2020-03-03 服务运行健康度监测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010138237.1A CN111290922B (zh) 2020-03-03 2020-03-03 服务运行健康度监测方法及装置

Publications (2)

Publication Number Publication Date
CN111290922A CN111290922A (zh) 2020-06-16
CN111290922B true CN111290922B (zh) 2023-08-22

Family

ID=71029384

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010138237.1A Active CN111290922B (zh) 2020-03-03 2020-03-03 服务运行健康度监测方法及装置

Country Status (1)

Country Link
CN (1) CN111290922B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113849362A (zh) * 2020-06-28 2021-12-28 腾讯科技(深圳)有限公司 一种业务服务平台管理方法、装置和计算机可读存储介质
CN111930604B (zh) * 2020-08-14 2023-11-10 中国工商银行股份有限公司 联机交易性能分析方法及装置、电子设备和可读存储介质
CN112541981B (zh) * 2020-11-03 2022-07-22 山东中创软件商用中间件股份有限公司 一种etc门架系统预警方法、装置、设备及介质
CN112380091A (zh) * 2020-11-13 2021-02-19 中国人寿保险股份有限公司 一种服务运行情况监控方法、装置和相关设备
CN112925668B (zh) * 2021-02-25 2024-04-05 北京百度网讯科技有限公司 服务器健康评价方法、装置、设备以及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106940678A (zh) * 2017-02-28 2017-07-11 深圳市华傲数据技术有限公司 一种系统实时健康度评估分析方法及装置
CN106951984A (zh) * 2017-02-28 2017-07-14 深圳市华傲数据技术有限公司 一种系统健康度动态分析预测方法及装置
CN108537544A (zh) * 2018-04-04 2018-09-14 中南大学 一种交易系统实时监控方法及其监控系统
WO2018166457A1 (zh) * 2017-03-15 2018-09-20 阿里巴巴集团控股有限公司 神经网络模型训练、交易行为风险识别方法及装置
CN109063903A (zh) * 2018-07-19 2018-12-21 山东建筑大学 一种基于深度强化学习的建筑能耗预测方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11030070B2 (en) * 2018-06-06 2021-06-08 Vmware, Inc. Application health monitoring based on historical application health data and application logs

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106940678A (zh) * 2017-02-28 2017-07-11 深圳市华傲数据技术有限公司 一种系统实时健康度评估分析方法及装置
CN106951984A (zh) * 2017-02-28 2017-07-14 深圳市华傲数据技术有限公司 一种系统健康度动态分析预测方法及装置
WO2018166457A1 (zh) * 2017-03-15 2018-09-20 阿里巴巴集团控股有限公司 神经网络模型训练、交易行为风险识别方法及装置
CN108537544A (zh) * 2018-04-04 2018-09-14 中南大学 一种交易系统实时监控方法及其监控系统
CN109063903A (zh) * 2018-07-19 2018-12-21 山东建筑大学 一种基于深度强化学习的建筑能耗预测方法及系统

Also Published As

Publication number Publication date
CN111290922A (zh) 2020-06-16

Similar Documents

Publication Publication Date Title
CN111290922B (zh) 服务运行健康度监测方法及装置
CN111091278B (zh) 机械设备异常检测的边缘检测模型构建方法及装置
CN109978079A (zh) 一种改进的堆栈降噪自编码器的数据清洗方法
CN110119787B (zh) 一种旋转型机械设备工况检测方法及设备
Zhang et al. A novel data-driven method based on sample reliability assessment and improved CNN for machinery fault diagnosis with non-ideal data
CN113031983A (zh) 一种基于深度强化学习的软件智能升级方法及装置
CN115454706A (zh) 一种系统异常确定方法、装置、电子设备及存储介质
CN115185804A (zh) 服务器性能预测方法、系统、终端及存储介质
CN114662386A (zh) 一种轴承故障诊断方法及系统
CN113313304A (zh) 一种基于大数据决策树的电网事故异常分析方法及系统
CN111062827B (zh) 一种基于人工智能模式的工程监理方法
CN112783508A (zh) 文件的编译方法、装置、设备以及存储介质
CN116225752A (zh) 基于故障模式库的微服务系统故障根因分析方法及系统
CN113238908B (zh) 一种服务器性能测试数据分析方法及相关装置
CN114742122A (zh) 设备故障诊断方法、装置、电子设备以及存储介质
CN115392715A (zh) 一种用电数据风险评估方法、装置、设备及存储介质
CN115879783A (zh) 关键绩效指标异常检测方法和装置、电子设备及存储介质
CN109978038B (zh) 一种集群异常判定方法及装置
CN115952009B (zh) 基于算网融合特征的数据中心推荐方法及装置
CN111221704A (zh) 一种确定办公管理应用系统运行状态的方法及系统
US20230419104A1 (en) High dimensional dense tensor representation for log data
CN116527411B (zh) 数据安全智能防护模型构建方法、装置及协作平台
CN112087482B (zh) 利用云端系统对多台设备进行管理的方法
CN117705178A (zh) 风电螺栓信息检测方法、装置、电子设备和存储介质
CN113609022A (zh) 软件产品错误推测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant