CN112148561A - 业务系统的运行状态预测方法、装置及服务器 - Google Patents

业务系统的运行状态预测方法、装置及服务器 Download PDF

Info

Publication number
CN112148561A
CN112148561A CN202011043245.4A CN202011043245A CN112148561A CN 112148561 A CN112148561 A CN 112148561A CN 202011043245 A CN202011043245 A CN 202011043245A CN 112148561 A CN112148561 A CN 112148561A
Authority
CN
China
Prior art keywords
alarm
prediction
monitoring
transaction
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011043245.4A
Other languages
English (en)
Other versions
CN112148561B (zh
Inventor
陈琰
陈鑫聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CCB Finetech Co Ltd
Original Assignee
CCB Finetech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CCB Finetech Co Ltd filed Critical CCB Finetech Co Ltd
Priority to CN202011043245.4A priority Critical patent/CN112148561B/zh
Publication of CN112148561A publication Critical patent/CN112148561A/zh
Application granted granted Critical
Publication of CN112148561B publication Critical patent/CN112148561B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Hardware Design (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本说明书实施例公开了一种业务系统的运行状态预测方法、装置及服务器,所述方法包括获取业务系统的各监控指标的告警信息集;其中,所述告警信息集包括相应监控指标在指定时间窗口下的告警数量随时间的分布数据;利用时序算法分别对所述各监控指标的告警信息集进行处理,得到各监控指标所对应的告警数量预测模型;基于所述告警数量预测模型对相应的监控指标在当前监测时间之后的告警数量进行预测,得到相应监控指标在指定时间窗口下的告警预测数量,以利用所述告警预测数量确定所述业务系统的运行状态。从而可以尽早、最快的发现系统隐患问题,防患于未然,保证系统的有效稳定运行。

Description

业务系统的运行状态预测方法、装置及服务器
技术领域
本说明书涉及计算机数据处理技术领域,特别地,涉及一种业务系统的运行状态预测方法、装置及服务器。
背景技术
随着银行业务系统的运行复杂度提高,对系统运行监控和系统健康状态的及时检测和分析提出了更高的要求。尽早、最快发现系统隐患问题,能够防患于未然,对系统运行稳定起到至关重要的作用。
目前多通过分析业务系统的各项监控指标的来预测业务系统是否可能出现故障。但业务系统的运行复杂度较高,各节点通常相互影响,导致很难对业务系统的运行状态进行准确预测。例如,系统CPU利用率夜间告警,磁盘读写IO增加,可能是硬盘故障系统性能下降导致的,也可能是应用系统夜间批处理量突然增加,高并发导致的系统资源紧张。因此,如何进行业务系统的运行状态准确预测成为亟待解决的技术问题。
发明内容
本说明书实施例的目的在于提供一种业务系统的运行状态预测方法、装置及服务器,可以提高业务系统的运行状态预测的准确性。
本说明书提供一种业务系统的运行状态预测方法、装置及服务器是包括如下方式实现的:
一种业务系统的运行状态预测方法,应用于服务器,所述方法包括:获取业务系统的各监控指标的告警信息集;其中,所述告警信息集包括相应监控指标在指定时间窗口下的告警数量随时间的分布数据;利用时序算法分别对所述各监控指标的告警信息集进行处理,得到各监控指标所对应的告警数量预测模型;基于所述告警数量预测模型对相应的监控指标在当前监测时间之后的告警数量进行预测,得到相应监控指标在指定时间窗口下的告警预测数量,以利用所述告警预测数量确定所述业务系统的运行状态。
本说明书提供的所述方法的另一些实施例中,所述利用时序算法对所述各监控指标的告警信息集进行处理之前,还包括:对监控指标在指定时间窗口下的告警数量随时间的分布数据的分布平稳性进行分析;在确定分布平稳性不符合预设稳定条件的情况下,利用差分自回归移动平均模型对不符合预设稳定条件的监控指标在指定时间窗口下的告警数量随时间的分布数据进行差分处理,得到符合预设稳定条件的告警数量随时间的分布数据。
本说明书提供的所述方法的另一些实施例中,所述利用时序算法对所述各监控指标的告警信息集进行处理,包括:利用时序算法对符合预设稳定条件的监控指标在指定时间窗口下的告警数量随时间的分布数据进行处理。
本说明书提供的所述方法的另一些实施例中,所述利用所述告警预测数量确定所述业务系统的运行状态,包括:
对交易监控所对应的各监控指标在指定时间窗口下的告警预测数量、数据库监控所对应的各监控指标在指定时间窗口下的告警预测数量以及消息中间件监控所对应的各监控指标的单日告警预测数量进行特征提取,分别得到交易告警预测值、数据库告警预测值以及中间件告警预测值;将交易告警预测值与数据库告警预测值的比值的异常程度、交易告警预测值与中间件告警预测值的比值的异常程度以及交易告警预测值作为预测指标;利用所述预测指标对业务系统进行运行状态预测,得到业务系统的运行状态预测结果。
本说明书提供的所述方法的另一些实施例中,所述利用所述预测指标对业务系统进行运行状态预测,包括:将所述预测指标输入预先构建的故障预测模型中,得到故障预测结果;其中,所述故障预测模型根据已发生的业务系统运行故障与该业务系统运行故障所对应的交易告警值与数据库告警值的比值的异常程度、交易告警值与中间件告警值的比值的异常程度以及交易告警值确定。
本说明书提供的所述方法的另一些实施例中,所述故障预测模型利用CART决策树模型构建。
本说明书提供的所述方法的另一些实施例中,分别将交易监控所对应的各监控指标的告警预测数量的均值、数据库监控所对应的各监控指标的告警预测数量的均值以及消息中间件监控所对应的各监控指标的告警预测数量的均值,作为交易告警预测值、数据库告警预测值以及中间件告警预测值。
另一方面,本说明书实施例还提供一种业务系统的运行状态预测装置,应用于服务器,所述装置包括:数据获取模块,用于获取业务系统的各监控指标的告警信息集;其中,所述告警信息集包括相应监控指标在指定时间窗口下的告警数量随时间的分布数据;模型构建模块,用于利用时序算法分别对所述各监控指标的告警信息集进行处理,得到各监控指标所对应的告警数量预测模型;告警数量预测模块,用于基于所述告警数量预测模型对相应的监控指标在当前监测时间之后的告警数量进行预测,得到相应监控指标在指定时间窗口下的告警预测数量,以利用所述告警预测数量确定所述业务系统的运行状态。
本说明书提供的所述装置的另一些实施例中,所述装置还包括:特征提取模块,用于对交易监控所对应的各监控指标在指定时间窗口下的告警预测数量、数据库监控所对应的各监控指标在指定时间窗口下的告警预测数量以及消息中间件监控所对应的各监控指标的单日告警预测数量进行特征提取,分别得到交易告警预测值、数据库告警预测值以及中间件告警预测值;预测指标提取模块,用于将交易告警预测值与数据库告警预测值的比值的异常程度、交易告警预测值与中间件告警预测值的比值的异常程度以及交易告警预测值作为预测指标;运行状态预测模块,用于利用所述预测指标对业务系统进行运行状态预测,得到业务系统的运行状态预测结果。
另一方面,本说明书实施例还提供一种服务器,所述服务器包括至少一个处理器及用于存储处理器可执行指令的存储器,所述指令被所述处理器执行时实现上述任意一个或者多个实施例所述方法的步骤。
本说明书一个或多个实施例提供的业务系统的运行状态预测方法、装置及服务器,以业务系统的各监控指标在指定时间窗口下的告警数量作为分析基础指标,先利用时序算法对告警数量随时间的时序分布特征进行分析,构建告警数量预测模型。然后,再利用告警数量预测模型对所述各监控指标的告警数量进行预测,得到各监控指标的告警预测数量。然后,可以利用该告警预测数量对所述业务系统的运行状态进行实时预测。并在告警数量存在较大波动时,可以进一步利用故障预测模型,对业务系统可能出现的运行故障进行预测,从而可以尽早、最快的发现系统隐患问题,防患于未然,保证系统的有效稳定运行。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本说明书提供的一种业务系统的运行状态预测方法实施例的流程示意图;
图2为本说明书提供的一种业务系统的运行状态预测方法实施例的流程示意图;
图3为本说明书提供的一种业务系统的运行状态预测装置的模块结构示意图;
图4为本说明书提供的一种业务系统的运行状态预测装置的模块结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是说明书一部分实施例,而不是全部的实施例。基于说明书一个或多个实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书实施例方案保护的范围。
本说明书的一个应用场景示例中提供一种业务系统的运行状态预测方法,所述方法可以应用于服务器。所述服务器可以用于执行告警信息提取、告警数量预测模型及故障预测模型构建、以及告警数量预测、故障预测等。所述服务器可以为一个服务器,也可以为多个服务器组成的服务器集群。基于上述场景示例,本说明书实施例提供一种业务系统的运行状态预测方法。具体的一个实施例如图1所示,所述方法可以应用于服务器。相应的,所述方法可以包括如下步骤:
S10:获取业务系统的各监控指标的告警信息集;其中,所述告警信息集包括相应监控指标在指定时间窗口下的告警数量随时间的分布数据。
服务器可以获取业务系统的各监控指标的告警信息集。其中,所述告警信息集可以包括相应监控指标在指定时间窗口下的告警数量随时间的分布数据。
一些实施方式中,可以根据业务系统的基本架构以及主要交易、批处理运行的特性,提取相应的监控指标。如可以先基于业务系统的架构以及主要交易、批处理运行的特性将监控指标的提取分为交易类、批处理类、系统资源类、数据库类等几大类。然后,可以再分别对各大类下的基础运行状态进一步分析,划分更细的子类别,如健康检查、交易监控、作业监控、日志文件、数据库、网络、文件系统、中间件、操作系统等。然后,再分别从各子类别中提取具体的监控指标。例如,交易监控的监控指标主要可以包括交易量、并发数、响应时间等告警信息。批处理监控的监控指标主要可以包括:作业执行吞吐率、作业执行时长、作业执行效率等告警信息。
当然,上述分类仅为优选举例说明,具体实施时也可以采用其他的方式进行分类。或者,也可以采用其他的方式进行监控指标的提取。通过上述基于系统架构以及交易、批处理运行的特性进行逐级分类的方式提取监控指标,可以使得提取的监控指标类型更加全面,同时,还可以使得各监控指标与具体的运行节点相对应,以便于更准确高效的进行业务系统各节点的运行状态的准确分析。
在提取监控指标后,可以提取各监控指标在指定时间窗口下的告警数量。所述指定时间窗口如可以为一天、一周等。可以根据需要设定。如设定为一天,则可以提取各监控指标的单日告警数量。
如可以预先对业务系统的运行状况进行分析,确定告警数量统计的时间窗口,然后,基于收集时间窗口进行告警信息的收集,得到相应时间窗口下的告警数量。或者,还可以对收集的告警信息进行预处理,以更加准确的提取各监控指标的告警数量随时间的分布特征,提高预测结果的准确性。
例如,目前业务系统主要以管理类系统为主(运行时间主要在工作日),通过分析交易量和批处理时间窗口,交易特征基本上以周为周期呈现循环稳定状态,批处理时间窗口多集中在夜间或非交易高峰期间。由于系统交易和批处理作业较多,无法逐一进行分析,可以通过采样的方式对典型交易、典型批处理窗口进行分析预测。而系统周末业务量较少,可以对周末数据进行过滤。相应的,批处理时间窗口可以选择夜间时间窗口。对于交易时间窗口,由于夜间批处理和交易均存在,分析相对复杂,可以提取早上9:00到下午17:00期间作为交易窗口。对于短期内的密集告警信息,可以去重。如在几分钟或者半小时内出现多次告警信息,则可以作为一次告警,以避免一个故障的短期多次提醒对数据分析的影响。
可以将上述批处理时间窗口以及交易时间窗口作为指定时间窗口,将该窗口下收集的告警数量作为相应监控指标在指定时间窗口下的告警数量,即获得单日告警数量。当然,也可以选择周(七天)作为指定时间窗口,相应的,可以将上述批处理时间窗口以及交易时间窗口作为子窗口,将一个周内每天在上述批处理时间窗口以及交易时间窗口下收集的告警数量的加和作为相应监控指标在指定时间窗口下的告警数量,即单周告警数量。对于上述交易类型,还可以去除周末的告警信息,统计周一至周五的告警数量作为交易类监控指标的单周告警数量。
当然,上述统计方式仅为优选举例说明,具体实施时可以根据实际应用场景设定告警数量采集方式。可以通过上述方式收集当前监控时间之前一年内或者两年内的告警数量数据,得到相应监控指标在指定时间窗口下的告警数量随时间的分布数据,作为相应监控指标的告警信息集。
S12:利用时序算法分别对所述各监控指标的告警信息集进行处理,得到各监控指标所对应的告警数量预测模型。
可以利用时序算法对所述各监控指标在指定时间窗口下的告警数量随时间的分布数据进行处理。时序算法可以为针对连续值进行预测的算法。具体的算法形式可以根据需要自行配置,这里不做限定。利用时序算法仅根据用于创建预测模型的原始数据集就可以预测未来的数据变化趋势。同时,预测时还可以向模型添加新数据,随后新数据会自动纳入趋势分析范围内。
在利用时序算法构建预测模型之前,还可以对收集的告警数量进行预处理,提高数据预测的准确性。一些实施例中,可以基于时序图方法对各监控指标在指定时间窗口下的告警数量随时间的分布数据进行分析,以确定各监控指标在指定时间窗口下的告警数量随时间的分布数据是否符合预设稳定条件。在确定监控指标在指定时间窗口下的告警数量随时间的分布数据不符合预设稳定条件的情况下,可以利用差分自回归移动平均模型对不符合预设稳定条件的监控指标在指定时间窗口下的告警数量随时间的分布数据进行差分处理。相应的,可以利用时序算法对符合预设稳定条件的监控指标在指定时间窗口下的告警数量随时间的分布数据进行处理。
可以先分析各监控指标的告警数量分布是否具有平稳性。如可以根据时序图方法,分析单日告警数量是否平稳。所述时序图是指告警数量随时间的分布的图示化形式。可以通过单位根检验(ADF)方法检验分布是否稳定。可以预先设定稳定条件,判断数据分布是否满足预设稳定条件。预设稳定条件可以根据检验方法对应设定,这里不做限定。当然,实际操作中也可以采用其他的稳定性检验方法。
若稳定性满足预设稳定条件,则可以将相应监控指标的告警数量随时间的分布数据作为后续预测的输入数据。若不满足预设稳定条件,则可以利用差分运算使其归于平稳。一些实施例中,可以采用ARIMA(p,d,q)差分自回归移动平均模型,将非平稳时间序列转化为平稳时间序列。其中,AR是自回归,p为自回归项;MA为移动平均,q为移动平均项目,d为时间序列成为平稳时所做的差分次数。可以利用ARIMA(0,1,1)对告警数量时间序列进行差分处理,并分析差分处理后的平稳性。如果不够平稳,则可以继续调整各参数的值,直至差分处理的数据分布满足预设稳定条件。
然后,还可以对平稳序列进行白噪声(无序序列)进行检验,检验通过后,可以作为预测模型的输入数据。然后,可以利用时序算法,对符合预设稳定条件的监控指标的告警数量随时间的分布数据进行处理,构建告警数量预测模型。
然后,可以分析比对构建的模型的预测结果和实际告警数量的误差值,如果在误差允许范围内,可以将预测模型投入使用。否则,可以调整模型算法以及模型参数等,以使得预测结果在误差范围之内。所述误差允许范围如可以为平均绝对误差为1.2、均方根误差为1.3等。
S14:基于所述告警数量预测模型对相应的监控指标在当前监测时间之后的告警数量进行预测,得到相应监控指标在指定时间窗口下的告警预测数量,以利用所述告警预测数量确定所述业务系统的运行状态。
然后,服务器可以基于构建的告警数量预测模型对所述各监控指标在当前监测时间之后的告警数量进行预测,得到各监控指标在未来一段时间内在指定时间窗口下的告警预测数量。
然后,可以利用各监控指标在未来一段时间内的告警预测数量对业务系统的运行状态进行分析。如可以分析各监控指标在未来一段时间内的单日告警预测数量的分布趋势,如果某一个或者多个监控指标的单日告警预测数量出现明显的波动,可以提取出现明显波动的监控指标,对业务系统的相应运行状态进行预测,如是否可能出现故障,可能在哪个节点出现故障等。业务人员可以基于该预测结果对业务系统的相应节点进行检查或者调整,以尽早、最快发现系统可能出现的隐患问题,防患于未然,保证系统运行的稳定性。
通常业务系统不会存在较大的变更,相应的,监控指标的类型以及告警数量分布在未出现故障的情况下,也通常是趋于稳定的,因此,基于上述构建的预测模型可以简单高效的实现业务系统的运行状态预测。若存在业务系统的大幅调整时,则可以收集监控指标以及监控指标的告警数量分布数据,调整预测模型,以符合调整后的业务系统的预测。
另一些实施方式中,服务器还可以基于各监控指标的告警预测数量预测业务系统可能出现的故障。目前业务系统运行复杂度较高,所对应的监控指标复杂繁多,使得告警信息量较大、内容繁杂。例如,硬盘故障系统性能下降,会出现交易成功率告警、交易响应时间告警、系统CPU利用率高等,虽是硬盘故障IO读写较高引起的,但其他监控指标也会出现告警情况,导致业务系统很难确定故障来源。或者,系统CPU利用率夜间告警,磁盘读写IO增加,也并不一定是磁盘故障,也可能是应用系统夜间批处理量较大,高并发导致的系统资源紧张。诸如以上场景,在单一维度下,可能容易产生系统故障的错误判断,或者多指标告警产生“狼来了”效应,无法满足准确告警和提前告警需求。
一些实施方式中,可以通过分析业务系统不同节点的实际处理场景,将上下游关联系统节点之间的监控指标进行关联分析,以进行运行状态预测指标的提取。然后,可以基于提取的预测指标进行业务系统的运行状态分析,得到业务系统的运行状态预测结果。
如图2所示,一些实施例中,服务器可以采用下述方式进行预测指标的提取,以对业务系统的运行状态进行预测:
S20:对交易监控所对应的各监控指标在指定时间窗口下的告警预测数量、数据库监控所对应的各监控指标在指定时间窗口下的告警预测数量以及消息中间件监控所对应的各监控指标的单日告警预测数量进行特征提取,分别得到交易告警预测值、数据库告警预测值以及中间件告警预测值。
S22:将交易告警预测值与数据库告警预测值的比值的异常程度、交易告警预测值与中间件告警预测值的比值的异常程度以及交易告警预测值作为预测指标。
S24:利用所述预测指标对业务系统进行运行状态预测,得到业务系统的运行状态预测结果。
通过上述方式,先对业务系统在不同运行周期的告警信息进行分析,来预测未来业务系统的告警信息分布,然后,在以预测的告警信息分布为基础,对业务系统上下游关联节点之间的告警信息分布进行关联分析,提取交易告警预测值与数据库告警预测值的比值的异常程度、交易告警预测值与中间件告警预测值的比值的异常程度以及交易告警预测值作为预测指标。之后,基于提取的预测指标进行业务系统的运行状态预测,可以实现从纵向(时间)和横向(节点间)两个方向综合对业务系统的运行状态进行预测,大幅提高运行状态预测的准确性。从而及时对业务系统运行情况进行预警,以便于尽早分析、干预、处置故障隐患,保证业务系统运行的稳定性。
一些实施方式中,可以分别将交易监控所对应的各监控指标的告警预测数量的均值、数据库监控所对应的各监控指标的告警预测数量的均值以及消息中间件监控所对应的各监控指标的告警预测数量的均值,作为交易告警预测值、数据库告警预测值以及中间件告警预测值。例如,所述指定时间窗口为一天,则可以统计交易类监控所对应的各监控指标在某预测日期的单日告警预测数量,然后,可以计算各监控指标的单日告警预测数量的均值,将均值作为交易类监控在该预测日期的交易告警预测值,以对该预测日期的业务系统运行状态进行预测。对于数据库类监控以及消息中间件类监控可以采用同样的方式进行特征提取。
当然,实际应用场景中,也可以采用其他的特征提取方式,如可以计算交易类监控所对应的各监控指标的单日告警预测数量的加和,作为相应预测日期的交易告警预测值。对于数据库类监控以及消息中间件类监控可以采用同样的方式进行特征提取。
然后,可以利用交易告警预测值与数据库告警预测值的比值的异常程度、交易告警预测值与中间件告警预测值的比值的异常程度以及交易告警预测值对业务系统进行运行状态预测,得到业务系统的运行状态预测结果。所述异常程度如可以通过标准差或者方差来标准。如可以计算各比值相对于相应的比值样本数据的标准差或者方差,作为相应的异常程度。
通过上述方式,可以将交易告警与数据库告警之间的告警信息分布进行关联、以及将交易告警与中间件告警之间的告警信息分布进行关联,从而将上下游节点之间的告警信息进行关联,提高运行状态预测的准确性。同时,业务系统的运行状态通常受交易的情况影响较大。如交易量突然增加,可能导致数据库或者中间件告警,但并非是数据库或中间件自身出现故障。因此,可以以交易类监控的各监控指标的预测值单独作为一个预测指标,以便于排除因交易量自身波动,所带来的告警信息的波动,进一步保证业务系统预测的准确性。
一些实施方式中,还可以基于不同的监控场景,增加相应的监控指标的告警预测数量作为预测指标。例如,针对消息中间件监控,则可以进一步增加与消息中间件相关的监控指标的告警预测数量作为预测指标。或者,另一些实施方式中,还可以将业务系统的各监控指标的告警预测数量也作为预测指标,然后,基于不同的监控场景,分别对不同的监控指标配置不同的权重系数,然后,基于配置完权重的各预测指标进行业务系统在相应场景下的运行状态预测。通过在横向关联分析的同时,进一步考虑各实际的监测场景进行运行状态预测,可以进一步提高预测的准确性。
另一些实施例中,还可以预先构建故障预测模型。所述故障预测模块可以根据已发生的业务系统运行故障与该业务系统运行故障对应的交易告警值与数据库告警值的比值的异常程度、交易告警值与中间件告警值的比值的异常程度以及交易告警值确定。可以将上述预测指标输入预先构建的故障预测模型中,得到业务系统的运行状态预测结果。
针对已发生的业务系统运行故障,可以提取其所对应的各监控指标在指定时间窗口下的实际告警数量。然后,可以对交易监控所对应的各监控指标在指定时间窗口下的实际告警数量、数据库监控所对应的各监控指标在指定时间窗口下的实际告警数量以及消息中间件监控所对应的各监控指标的实际告警数量进行特征提取,分别得到交易告警值、数据库告警值以及中间件告警值。然后,可以将交易告警值与数据库告警值的比值的异常程度、交易告警值与中间件告警值的比值的异常程度以及交易告警值作为样本数据。
通过上述方式可以提取各已发生的业务系统运行故障所对应的样本数据。然后,将样本数据与已发生的业务系统运行故障进行关联,利用预设模型构建算法进行预测模型的构建。所述预设模型构建算法如可以为CART决策树模型。当然,也可以采用其他的分类算法。
当然,还可以将业务系统的各监控指标的告警预测数量也作为样本数据,然后,基于不同的故障场景,分别对不同的样本配置不同的权重系数。将配置完权重的样本数据与相应已发生的业务系统运行故障进行关联,利用预设模型构建算法进行预测模型的构建。
然后,可以利用预先构建的故障预测模型进行业务系统运行状态的预测。可以利用如混淆矩阵对模型预测结果进行可视化分析。判断分析结果的准确性。如满足预设准确率阈值,则可以投入使用,否则,可以对模型参数或者权重系数等进行调整。所述准确率阈值如可以为70%、90%等。也可以根据实际应用场景进行调整。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。具体的可以参照前述相关处理相关实施例的描述,在此不做一一赘述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书一个或多个实施例提供的分布式系统的测试方法,以业务系统的各监控指标在指定时间窗口下的告警数量作为分析基础指标,先利用时序算法对告警数量随时间的时序分布特征进行分析,构建告警数量预测模型。然后,再利用告警数量预测模型对所述各监控指标的告警数量进行预测,得到各监控指标的告警预测数量。然后,可以利用该告警预测数量对所述业务系统的运行状态进行实时预测。并在告警数量存在较大波动时,可以进一步利用故障预测模型,对业务系统可能出现的运行故障进行预测,从而可以尽早、最快的发现系统隐患问题,防患于未然,保证系统的有效稳定运行。
基于上述所述的业务系统的运行状态预测方法,本说明书一个或多个实施例还提供一种业务系统的运行状态预测装置。图3表示说明书提供的一种业务系统的运行状态预测装置实施例的模块结构示意图,应用于服务器,如图3所示,所述装置可以包括:
数据获取模块30,可以用于获取业务系统的各监控指标的告警信息集;其中,所述告警信息集包括相应监控指标在指定时间窗口下的告警数量随时间的分布数据。
模型构建模块32,可以用于利用时序算法分别对所述各监控指标的告警信息集进行处理,得到各监控指标所对应的告警数量预测模型。
告警数量预测模块34,可以用于基于所述告警数量预测模型对相应的监控指标在当前监测时间之后的告警数量进行预测,得到相应监控指标在指定时间窗口下的告警预测数量,以利用所述告警预测数量确定所述业务系统的运行状态。
图4表示说明书提供的另一种业务系统的运行状态预测装置实施例的模块结构示意图,应用于服务器。如图4所示,另一些实施例中,所述装置还可以包括:
特征提取模块40,可以用于对交易监控所对应的各监控指标在指定时间窗口下的告警预测数量、数据库监控所对应的各监控指标在指定时间窗口下的告警预测数量以及消息中间件监控所对应的各监控指标的单日告警预测数量进行特征提取,分别得到交易告警预测值、数据库告警预测值以及中间件告警预测值;
预测指标提取模块42,可以用于将交易告警预测值与数据库告警预测值的比值的异常程度、交易告警预测值与中间件告警预测值的比值的异常程度以及交易告警预测值作为预测指标;
运行状态预测模块44,可以用于利用所述预测指标对业务系统进行运行状态预测,得到业务系统的运行状态预测结果。
需要说明的,上述所述的装置根据方法实施例的描述还可以包括其他的实施方式。具体的实现方式可以参照相关方法实施例的描述,在此不作一一赘述。
本说明书提供的上述实施例所述的方法或装置可以通过计算机程序实现业务逻辑并记录在存储介质上,所述的存储介质可以计算机读取并执行,实现本说明书实施例所描述方案的效果。因此,本说明书还提供一种服务器,所述服务器可以包括处理器及存储处理器可执行指令的存储器,所述指令被所述处理器执行时实现包括上述任意一个实施例所述方法的步骤。
需要说明的,上述所述的服务器根据方法实施例的描述还可以包括其他的实施方式。具体的实现方式可以参照相关方法实施例的描述,在此不作一一赘述。
本说明书实施例并不局限于必须是符合标准数据模型/模板或本说明书实施例所描述的情况。某些行业标准或者使用自定义方式或实施例描述的实施基础上略加修改后的实施方案也可以实现上述实施例相同、等同或相近、或变形后可预料的实施效果。应用这些修改或变形后的数据获取、存储、判断、处理方式等获取的实施例,仍然可以属于本说明书的可选实施方案范围之内。
所述存储介质可以包括用于存储信息的物理装置,通常是将信息数字化后再以利用电、磁或者光学等方式的媒体加以存储。所述存储介质有可以包括:利用电能方式存储信息的装置如,各式存储器,如RAM、ROM等;利用磁能方式存储信息的装置如,硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘;利用光学方式存储信息的装置如,CD或DVD。当然,还有其他方式的可读存储介质,例如量子存储器、石墨烯存储器等等。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述并不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

Claims (10)

1.一种业务系统的运行状态预测方法,其特征在于,应用于服务器,所述方法包括:
获取业务系统的各监控指标的告警信息集;其中,所述告警信息集包括相应监控指标在指定时间窗口下的告警数量随时间的分布数据;
利用时序算法分别对所述各监控指标的告警信息集进行处理,得到各监控指标所对应的告警数量预测模型;
基于所述告警数量预测模型对相应的监控指标在当前监测时间之后的告警数量进行预测,得到相应监控指标在指定时间窗口下的告警预测数量,以利用所述告警预测数量确定所述业务系统的运行状态。
2.根据权利要求1所述的方法,其特征在于,所述利用时序算法对所述各监控指标的告警信息集进行处理之前,还包括:
对监控指标在指定时间窗口下的告警数量随时间的分布数据的分布平稳性进行分析;
在确定分布平稳性不符合预设稳定条件的情况下,利用差分自回归移动平均模型对不符合预设稳定条件的监控指标在指定时间窗口下的告警数量随时间的分布数据进行差分处理,得到符合预设稳定条件的告警数量随时间的分布数据。
3.根据权利要求2所述的方法,其特征在于,所述利用时序算法对所述各监控指标的告警信息集进行处理,包括:
利用时序算法对符合预设稳定条件的监控指标在指定时间窗口下的告警数量随时间的分布数据进行处理。
4.根据权利要求1所述的方法,其特征在于,所述利用所述告警预测数量确定所述业务系统的运行状态,包括:
对交易监控所对应的各监控指标在指定时间窗口下的告警预测数量、数据库监控所对应的各监控指标在指定时间窗口下的告警预测数量以及消息中间件监控所对应的各监控指标的单日告警预测数量进行特征提取,分别得到交易告警预测值、数据库告警预测值以及中间件告警预测值;
将交易告警预测值与数据库告警预测值的比值的异常程度、交易告警预测值与中间件告警预测值的比值的异常程度以及交易告警预测值作为预测指标;
利用所述预测指标对业务系统进行运行状态预测,得到业务系统的运行状态预测结果。
5.根据权利要求4所述的方法,其特征在于,所述利用所述预测指标对业务系统进行运行状态预测,包括:
将所述预测指标输入预先构建的故障预测模型中,得到故障预测结果;其中,所述故障预测模型根据已发生的业务系统运行故障与该业务系统运行故障所对应的交易告警值与数据库告警值的比值的异常程度、交易告警值与中间件告警值的比值的异常程度以及交易告警值确定。
6.根据权利要求5所述的方法,其特征在于,所述故障预测模型利用CART决策树模型构建。
7.根据权利要求4所述的方法,其特征在于,分别将交易监控所对应的各监控指标的告警预测数量的均值、数据库监控所对应的各监控指标的告警预测数量的均值以及消息中间件监控所对应的各监控指标的告警预测数量的均值,作为交易告警预测值、数据库告警预测值以及中间件告警预测值。
8.一种业务系统的运行状态预测装置,其特征在于,应用于服务器,所述装置包括:
数据获取模块,用于获取业务系统的各监控指标的告警信息集;其中,所述告警信息集包括相应监控指标在指定时间窗口下的告警数量随时间的分布数据;
模型构建模块,用于利用时序算法分别对所述各监控指标的告警信息集进行处理,得到各监控指标所对应的告警数量预测模型;
告警数量预测模块,用于基于所述告警数量预测模型对相应的监控指标在当前监测时间之后的告警数量进行预测,得到相应监控指标在指定时间窗口下的告警预测数量,以利用所述告警预测数量确定所述业务系统的运行状态。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
特征提取模块,用于对交易监控所对应的各监控指标在指定时间窗口下的告警预测数量、数据库监控所对应的各监控指标在指定时间窗口下的告警预测数量以及消息中间件监控所对应的各监控指标的单日告警预测数量进行特征提取,分别得到交易告警预测值、数据库告警预测值以及中间件告警预测值;
预测指标提取模块,用于将交易告警预测值与数据库告警预测值的比值的异常程度、交易告警预测值与中间件告警预测值的比值的异常程度以及交易告警预测值作为预测指标;
运行状态预测模块,用于利用所述预测指标对业务系统进行运行状态预测,得到业务系统的运行状态预测结果。
10.一种服务器,其特征在于,所述服务器包括至少一个处理器及用于存储处理器可执行指令的存储器,所述指令被所述处理器执行时实现权利要求1-7任一项所述方法的步骤。
CN202011043245.4A 2020-09-28 2020-09-28 业务系统的运行状态预测方法、装置及服务器 Active CN112148561B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011043245.4A CN112148561B (zh) 2020-09-28 2020-09-28 业务系统的运行状态预测方法、装置及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011043245.4A CN112148561B (zh) 2020-09-28 2020-09-28 业务系统的运行状态预测方法、装置及服务器

Publications (2)

Publication Number Publication Date
CN112148561A true CN112148561A (zh) 2020-12-29
CN112148561B CN112148561B (zh) 2022-12-09

Family

ID=73895124

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011043245.4A Active CN112148561B (zh) 2020-09-28 2020-09-28 业务系统的运行状态预测方法、装置及服务器

Country Status (1)

Country Link
CN (1) CN112148561B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113626285A (zh) * 2021-07-30 2021-11-09 平安普惠企业管理有限公司 基于模型的作业监控方法、装置、计算机设备和存储介质
CN113762630A (zh) * 2021-09-10 2021-12-07 中国建设银行股份有限公司 时间窗口的选择方法及装置、存储介质及电子设备
CN116401138A (zh) * 2023-06-08 2023-07-07 建信金融科技有限责任公司 操作系统的运行状态检测方法、装置、电子设备和介质
CN116401127A (zh) * 2023-06-02 2023-07-07 梅州客商银行股份有限公司 信息系统健康状态的监测方法、装置和电子设备
CN117033117A (zh) * 2023-07-05 2023-11-10 广州市玄武无线科技股份有限公司 一种实时业务监控管理方法、系统、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103685014A (zh) * 2013-11-29 2014-03-26 武汉日电光通信工业有限公司 利用时间序列预测模型增强路由计算可靠性的系统及方法
CN110912737A (zh) * 2019-11-14 2020-03-24 国网浙江省电力有限公司信息通信分公司 一种基于混合模型的动态感知性能预告警方法
CN111124840A (zh) * 2019-12-02 2020-05-08 北京天元创新科技有限公司 业务运维中告警的预测方法、装置与电子设备
CN111210029A (zh) * 2019-12-26 2020-05-29 中国建设银行股份有限公司 辅助分析业务的装置、方法及相关设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103685014A (zh) * 2013-11-29 2014-03-26 武汉日电光通信工业有限公司 利用时间序列预测模型增强路由计算可靠性的系统及方法
CN110912737A (zh) * 2019-11-14 2020-03-24 国网浙江省电力有限公司信息通信分公司 一种基于混合模型的动态感知性能预告警方法
CN111124840A (zh) * 2019-12-02 2020-05-08 北京天元创新科技有限公司 业务运维中告警的预测方法、装置与电子设备
CN111210029A (zh) * 2019-12-26 2020-05-29 中国建设银行股份有限公司 辅助分析业务的装置、方法及相关设备

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113626285A (zh) * 2021-07-30 2021-11-09 平安普惠企业管理有限公司 基于模型的作业监控方法、装置、计算机设备和存储介质
CN113762630A (zh) * 2021-09-10 2021-12-07 中国建设银行股份有限公司 时间窗口的选择方法及装置、存储介质及电子设备
CN116401127A (zh) * 2023-06-02 2023-07-07 梅州客商银行股份有限公司 信息系统健康状态的监测方法、装置和电子设备
CN116401127B (zh) * 2023-06-02 2023-10-31 梅州客商银行股份有限公司 信息系统健康状态的监测方法、装置和电子设备
CN116401138A (zh) * 2023-06-08 2023-07-07 建信金融科技有限责任公司 操作系统的运行状态检测方法、装置、电子设备和介质
CN116401138B (zh) * 2023-06-08 2023-09-15 建信金融科技有限责任公司 操作系统的运行状态检测方法、装置、电子设备和介质
CN117033117A (zh) * 2023-07-05 2023-11-10 广州市玄武无线科技股份有限公司 一种实时业务监控管理方法、系统、电子设备及存储介质

Also Published As

Publication number Publication date
CN112148561B (zh) 2022-12-09

Similar Documents

Publication Publication Date Title
CN112148561B (zh) 业务系统的运行状态预测方法、装置及服务器
CN110865929B (zh) 异常检测预警方法及系统
KR101984730B1 (ko) 서버 장애 자동 예측 시스템 및 자동 예측 방법
CN106951984B (zh) 一种系统健康度动态分析预测方法及装置
Manco et al. Fault detection and explanation through big data analysis on sensor streams
US11403164B2 (en) Method and device for determining a performance indicator value for predicting anomalies in a computing infrastructure from values of performance indicators
US20110078106A1 (en) Method and system for it resources performance analysis
CN111045894B (zh) 数据库异常检测方法、装置、计算机设备和存储介质
EP3871120B1 (en) Apparatus and method for detecting an anomaly among successive events and computer program product therefor
CN104731664A (zh) 用于故障处理的方法和装置
US20210026725A1 (en) Method and device for determining an estimated time before a technical incident in a computing infrastructure from values of performance indicators
CN107943649A (zh) 一种分布式集群性能监控系统及方法
CN115514619B (zh) 告警收敛方法及系统
CN113297046A (zh) 一种内存故障的预警方法及装置
CN116149926A (zh) 业务指标的异常监测方法、装置、设备及存储介质
CN115543671A (zh) 数据分析方法、装置、设备、存储介质及程序产品
CN108039971A (zh) 一种告警方法及装置
CN118152124A (zh) 一种基于云计算的数据处理方法及系统
CN112733897B (zh) 确定多维样本数据的异常原因的方法和设备
CN115169650B (zh) 一种大数据分析的装备健康预测方法
CN112819182B (zh) 一种钞盒状态预测模型的训练方法、装置及设备
CN113807716A (zh) 一种基于人工智能的网络运维自动化方法
CN111724048A (zh) 基于特征工程对成品库调度系统性能数据的特征抽取方法
US11989083B2 (en) Method and device for determining at least one machine involved in an anomaly detected in a complex computing infrastructure
CN116149971B (zh) 设备故障预测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant