CN109062769A - It系统性能风险趋势预测的方法、装置和设备 - Google Patents

It系统性能风险趋势预测的方法、装置和设备 Download PDF

Info

Publication number
CN109062769A
CN109062769A CN201810959633.3A CN201810959633A CN109062769A CN 109062769 A CN109062769 A CN 109062769A CN 201810959633 A CN201810959633 A CN 201810959633A CN 109062769 A CN109062769 A CN 109062769A
Authority
CN
China
Prior art keywords
class index
service response
service
data processing
prediction model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810959633.3A
Other languages
English (en)
Other versions
CN109062769B (zh
Inventor
汪勇
刘树权
蒋钊林
邓俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Star Network Technology Co Ltd Ye Hui Jie
Original Assignee
Nanjing Star Network Technology Co Ltd Ye Hui Jie
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Star Network Technology Co Ltd Ye Hui Jie filed Critical Nanjing Star Network Technology Co Ltd Ye Hui Jie
Priority to CN201810959633.3A priority Critical patent/CN109062769B/zh
Publication of CN109062769A publication Critical patent/CN109062769A/zh
Application granted granted Critical
Publication of CN109062769B publication Critical patent/CN109062769B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3495Performance evaluation by tracing or monitoring for systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种IT系统性能风险趋势预测的方法、装置和设备,该方法首先获取待预测的IT系统的当前的业务工单流量、数据处理流量、系统开机时长和服务调用累计量;将当前的业务工单流量和数据处理流量输入至预先建立的第一回归预测模型,得到IT系统未来设定时间段内的业务工单流量和数据处理流量的预测结果;将上述预测结果,以及当前的系统开机时长和服务调用累计量输入至预先建立的第二回归预测模型,输出未来设定时间段内的服务响应类指标的预测结果;最后将服务响应类指标的预测结果,作为IT系统性能风险的趋势预测结果。本发明可以有效地对IT系统性能的风险趋势进行预测,提高了IT系统运行的可靠性。

Description

IT系统性能风险趋势预测的方法、装置和设备
技术领域
本发明涉及IT系统性能风险预测技术领域,尤其是涉及一种IT系统性能风险趋势预测的方法、装置和设备。
背景技术
电讯运营商或者类似的大型企业,其业务活动和生产运营严重依赖前后端IT系统;对于电讯运营商这类IT系统而言,如果有工具或者系统能提前准确判断或者有效地预测某个IT系统在未来的业务高峰期将会出现响应故障,这对IT运维部门和运维人员将有极大的帮助。
类似电讯运营商这类大型复杂IT系统,具有典型的长业务流程体系,即横向涉及多个系统之间的服务接口交互,纵向一般都涉及应用系统、中间件系统、主机系统三层分系统,以及它们之间,内部之间相互的接口调用和服务响应;如此庞大复杂的体系中,如何判断某个应用系统,或者中间件系统,或者主机系统存在故障、性能风险是非常困难。传统上基本上都是靠人工经验估计,或者基于某些常规指标分析。一直以来,行业内缺乏有效解决方案,一是可以有效地量化评估IT系统的健康度,二是能够预测IT系统的故障风险的发生,即预测未来何时、何点将会发生故障,导致IT系统缺乏可靠性。
发明内容
有鉴于此,本发明的目的在于提供了一种IT系统性能风险趋势预测的方法、装置和设备,以对IT系统性能的风险趋势进行预测,提高IT系统运行的可靠性。
第一方面,本发明实施例提供了一种IT系统性能风险趋势预测的方法,包括:获取待预测的IT系统的当前的业务工单流量、数据处理流量、系统开机时长和服务调用累计量;将当前的业务工单流量和数据处理流量输入至预先建立的第一回归预测模型,得到IT系统未来设定时间段内的业务工单流量和数据处理流量的预测结果;确定IT系统的待预测业务量对应的服务响应类指标的种类;服务响应类指标包括系统服务响应平均时长、系统服务响应成功频次和系统服务响应失败频次中的多种;将未来设定时间段内的业务工单流量和数据处理流量,以及当前的系统开机时长和服务调用累计量输入至预先建立的第二回归预测模型,输出未来设定时间段内的服务响应类指标的预测结果;其中,第一回归预测模型和第二回归预测模型通过机器学习的方式训练得到;将服务响应类指标的预测结果,作为IT系统性能风险的趋势预测结果。
进一步,上述第一回归预测模型通过下述方式获得:获取历史时间轴上的业务工单流量和数据处理流量;搭建回归预测模型的模型结构;通过历史时间轴上的业务工单流量和数据处理流量,对模型结构进行机器学习训练,得到第一回归预测模型。
进一步,上述方法还包括:获取待预测的IT系统的服务响应类指标,将服务响应类指标保存到第一数据库中。
进一步,获取待预测的IT系统的服务响应类指标,将服务响应类指标保存到第一数据库中的步骤,包括:在Java环境下,通过部署Pinpoint Agent捕获服务响应类指标,将服务响应类指标发送到服务端Pinpiont collector;通过Pinpiont collector收集服务响应类指标,将服务响应类指标转发到Kafka消息队列;通过Spark节点对Kafka消息队列的服务响应类指标进行统计分析;将统计分析后的服务响应类指标存入第一数据库中。
进一步,通过Pinpiont collector收集服务响应类指标的步骤之后,上述方法还包括:将服务响应类指标分别存储到第二数据库和第三数据库。
进一步,上述第二回归预测模型通过下述方式获得:获取第一回归预测模型得到的业务工单流量和数据处理流量的预测结果,和历史时间轴上的系统开机时长和服务调用累计量;搭建回归预测模型的模型结构;通过第一回归预测模型得到的业务工单流量和数据处理流量的预测结果、历史时间轴上的系统开机时长和服务调用累计量、第一数据库中存储的服务响应类指标,对模型结构进行机器学习训练,得到第二回归预测模型。
第二方面,本发明实施例还提供一种IT系统性能风险趋势预测的装置,上述装置包括:数据获取模块,用于获取待预测的IT系统的当前的业务工单流量、数据处理流量、系统开机时长和服务调用累计量;第一预测模块,用于将当前的业务工单流量和数据处理流量输入至预先建立的第一回归预测模型,得到IT系统未来设定时间段内的业务工单流量和数据处理流量的预测结果;业务种类模块,用于确定IT系统的待预测业务量对应的服务响应类指标的种类;服务响应类指标包括系统服务响应平均时长、系统服务响应成功频次和系统服务响应失败频次中的多种;第二预测模块,用于将未来设定时间段内的业务工单流量和数据处理流量,以及当前的系统开机时长和服务调用累计量输入至预先建立的第二回归预测模型,输出未来设定时间段内的服务响应类指标的预测结果;其中,第一回归预测模型和第二回归预测模型通过机器学习的方式训练得到;风险趋势预测模块,用于将服务响应类指标的预测结果,作为IT系统性能风险的趋势预测结果。
进一步,上述第一回归预测模型通过下述方式获得:获取历史时间轴上的业务工单流量和数据处理流量;搭建回归预测模型的模型结构;通过历史时间轴上的业务工单流量和数据处理流量,对模型结构进行机器学习训练,得到第一回归预测模型。
进一步,上述业务种类模块,还用于获取待预测的IT系统的服务响应类指标,将服务响应类指标保存到第一数据库中。
进一步,上述第二回归预测模型通过下述方式获得:获取第一回归预测模型得到的业务工单流量和数据处理流量的预测结果,和历史时间轴上的系统开机时长和服务调用累计量;搭建回归预测模型的模型结构;通过第一回归预测模型得到的业务工单流量和数据处理流量的预测结果、历史时间轴上的系统开机时长和服务调用累计量、第一数据库中存储的服务响应类指标,对模型结构进行机器学习训练,得到第二回归预测模型。
第三方面,本发明实施例还提供一种IT系统性能风险趋势预测的设备,上述设备包括存储器和处理器;存储器用于存储支持处理器执行第一方面的方法的程序,处理器被配置为用于执行存储器中存储的程序。
本发明实施例带来了以下有益效果:
本发明提供了一种IT系统性能风险趋势预测的方法、装置和设备,该方法首先获取待预测的IT系统的当前的业务工单流量、数据处理流量、系统开机时长和服务调用累计量;然后将当前的业务工单流量和数据处理流量输入至预先建立的第一回归预测模型,得到IT系统未来设定时间段内的业务工单流量和数据处理流量的预测结果;再将未来设定时间段内的业务工单流量和数据处理流量,以及当前的系统开机时长和服务调用累计量输入至预先建立的第二回归预测模型,输出未来设定时间段内的服务响应类指标的预测结果;最后将服务响应类指标的预测结果,作为IT系统性能风险的趋势预测结果。本发明可以有效地对IT系统性能的风险趋势进行预测,提高了IT系统运行的可靠性。
本发明的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本发明的上述技术即可得知。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施方式,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种IT系统性能风险趋势预测的方法的流程图;
图2为本发明实施例提供的一种IT系统性能风险趋势预测的方法的构建第一回归预测模型的流程图;
图3为本发明实施例提供的一种IT系统性能风险趋势预测的方法中构建第一、第二回归预测模型的过程图;
图4为本发明实施例提供的一种IT系统性能风险趋势预测的方法的构建第二回归预测模型的流程图;
图5为本发明实施例提供的一种IT系统性能风险趋势预测的方法中获取服务响应类指标的流程图;
图6为本发明实施例提供的服务响应类指标获取的方法的结构示意图;
图7为本发明实施例提供的另一种IT系统性能风险趋势预测的方法的示意图;
图8为本发明实施例提供的一种IT系统性能风险趋势预测的装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有技术基本上都是靠人工经验估计,或者基于某些常规指标分析来IT(Information Technology,信息科技)系统性能的风险趋势,基于此,本发明实施例提供的一种IT系统性能风险趋势预测的方法、装置和设备,该技术可以应用于电讯运营商或者其他类似的大型企业的IT系统性能的风险趋势预测的场景中。
参见图1所示的一种IT系统性能风险趋势预测的方法,该方法的具体步骤,包括:
步骤S102,获取待预测的IT系统的当前的业务工单流量、数据处理流量、系统开机时长和服务调用累计量;
IT系统的业务工单流量、数据处理流量、系统开机时长和服务调用累计量简称为特征项,是引起系统服务响应变化的关键因素,同时系统服务响应可以预测IT系统性能风险的趋势。
步骤S104,将当前的业务工单流量和数据处理流量输入至预先建立的第一回归预测模型,得到IT系统未来设定时间段内的业务工单流量和数据处理流量的预测结果;
对获取到的业务工单流量和数据处理流量进行机器学习,来构建第一回归预测模型,而且可以预测未来设定时间段内的业务工单流量和数据处理流量。
步骤S106,确定IT系统的待预测业务量对应的服务响应类指标的种类;该服务响应类指标包括系统服务响应平均时长、系统服务响应成功频次和系统服务响应失败频次中的多种;
IT系统性能风险可以根据服务响应类指标来判断,其中,服务响应类指标主要有三种:系统服务响应平均时长(Average time length of system service response,ATLSR)、系统服务响应成功频次(The successful frequency of system serviceresponse,SFSR)、系统服务响应失败频次(Failure frequency of system serviceresponse,FFSR)。
在判定IT系统性能风险趋势前,需要确定待预测业务量对应的数据服务响应类指标的种类,以便后续的数据处理。
步骤S108,将上述未来设定时间段内的业务工单流量和数据处理流量,以及当前的系统开机时长和服务调用累计量输入至预先建立的第二回归预测模型,输出未来设定时间段内的服务响应类指标的预测结果;其中,第一回归预测模型和第二回归预测模型通过机器学习的方式训练得到;
对第一回归预测模型预测得到的获取到的业务工单流量和数据处理流量、以及系统开始时长和服务调用累计量进行机器学习,来构建第二回归预测模型,最后可以预测未来设定时间段内的服务响应类指标。
步骤S110,将服务响应类指标的预测结果,作为IT系统性能风险的趋势预测结果。
经过第二回归预测模型后预测的服务响应类指标的结果,可以预测IT系统性能风险的趋势,而且可以根据用户的不同需求,预测不同种类的服务响应类指标。
本实施例提供了一种IT系统性能风险趋势预测的方法,该方法首先获取待预测的IT系统的当前的业务工单流量、数据处理流量、系统开机时长和服务调用累计量;将当前的业务工单流量和数据处理流量输入至预先建立的第一回归预测模型,得到IT系统未来设定时间段内的业务工单流量和数据处理流量的预测结果;将未来设定时间段内的业务工单流量和数据处理流量,以及当前的系统开机时长和服务调用累计量输入至预先建立的第二回归预测模型,输出未来设定时间段内的服务响应类指标的预测结果;最后将服务响应类指标的预测结果,作为IT系统性能风险的趋势预测结果。该方法可以有效地对IT系统性能的风险趋势进行预测,提高了IT系统运行的可靠性。
参见图2所示的一种IT系统性能风险趋势预测的方法的构建第一回归预测模型的流程图,该第一回归预测模型通过下述方式获得:
步骤S202,获取历史时间轴上的业务工单流量和数据处理流量;
上述业务工单流量,针对OLTP(On-Line Transaction Processing,联机事务处理过程)在线事务类应用系统,通常可以细分为业务类型类业务工单流量或者区域要素类业务工单流量等;其中,OLTP也称为面向交易的处理过程,其基本特征是前台接收的用户数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果,是对用户操作快速响应的方式之一。
上述数据处理流量通常是针对OLAP(Online Analytical Processing,联机分析处理)数据分析类应用系统的;其中,OLAP是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。
步骤S204,搭建回归预测模型的模型结构;
搭建回归预测的模型结构后,输入不同的数据或者不同的学习算法,通常会得到不同的回归预测模型。
步骤S206,通过历史时间轴上的业务工单流量和数据处理流量,对模型结构进行机器学习训练,得到第一回归预测模型。
将以前的业务工单流量和数据处理的数据输入到搭建的回归预测模型的模型结构中,并对该数据进行机器学习,从而得到第一回归预测模型,同时,也可以通过该预测模型,得到未来时间轴上(相当于上述未来设定时间段内)的业务工单流量和数据处理流量。
上述业务工单流量和上述数据处理流量通常为系统处理量,也可以称为建立预测模型的关键特征项;构建流量预测模型(相当于上述第一回归预测模型)的过程,也可以称为1级样本学习的过程,其过程分为两个时期,一个是学习时期(相当于学习期间),另一个为预测时期(相当于预测期间)如图3的左侧部分所示。
参见图4所示的一种IT系统性能风险趋势预测的方法的构建第二回归预测模型的流程图;该第二回归预测模型通过下述方式获得:
步骤S402,获取第一回归预测模型得到的业务工单流量和数据处理流量的预测结果,和历史时间轴上的系统开机时长和服务调用累计量;
上述系统开机时长和服务调用累计量通常为模型建立的辅助特征项;同时需要获取辅助特征项的数据和第一回归预测模型预测的未来时间段内的业务工单流量和数据处理流量,以完成模型的构建。
步骤S404,搭建回归预测模型的模型结构;
步骤S406,通过第一回归预测模型得到的业务工单流量和数据处理流量的预测结果、历史时间轴上的系统开机时长和服务调用累计量、第一数据库中存储的服务响应类指标,对模型结构进行机器学习训练,得到第二回归预测模型。
上述第一数据库中存储的服务响应类指标,通常是通过调用链捕获、计算得到的系统服务关键响应指标(相当于上述服务响应类指标)。
构建IT系统服务响应预测模型(相当于上述第二回归预测模型)的过程,也可以称为2级样本学习的过程,如图3的右侧部分所示;其中预测期间将第一回归预测模型得到的业务工单流量和数据处理流量的预测结果输入到第二回归预测模型,同时也将辅助特征项作为输入,进行多元特征项合并与标准化处理,来预测系统服务关键响应指标。
该实施例具体说明了第一回归预测模型和第二回归预测模型的构建过程,该过程中有明确的量化目标,同时该方法可以有效地排除干扰因素,更为精准地预测量化目标;而且该模型可以对未来系统的性能响应进行预测,进而可以通过扩容或者针对性改造,将系统性能风险、故障缺陷提前化解掉,提高了系统管理的便捷性。
参见图5所示的一种IT系统性能风险趋势预测的方法中获取服务响应类指标的流程图;在第二回归预测模型的建立中,需要获取待预测的IT系统的服务响应类指标,将该服务响应类指标保存到第一数据库中,具体步骤如下:
步骤S502,在Java环境下,通过部署Pinpoint Agent捕获服务响应类指标,将服务响应类指标发送到服务端Pinpiont collector;
在业务应用系统的Java环境下,例如Tomcat,JVM(Java Virtual Machine,Java虚拟机)等环境,部署Pinpoint Agent,Pinpoint Agent负责捕获业务系统的服务调用事件(相当于上述服务响应类指标),并将捕获的数据发送到服务端Pinpoint collector。
上述Pinpoint Agent和Pinpoint collector的程序可根据用户的需求进行自定义扩展。
步骤S504,通过Pinpiont collector收集服务响应类指标,将服务响应类指标转发到Kafka消息队列;
调用链服务端部署Pinpoint collector,Pinpoint collector用于收集原始调动链日志数据(其中包括服务响应类指标),并将该数据转发给Kafka消息队列,留到后续处理。
上述Kafka,是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写;Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。
上述Pinpiont collector收集服务响应类指标后,将服务响应类指标分别存储到第二数据库和第三数据库。
上述第二数据库为Hbase(Hadoop Database)数据库,通常是一个分布式的、面向列的开源数据库;Hbase通常为一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。
上述第三数据库为Redis数据库,Redis是一个高性能的key-value数据库,Redis可以周期性的把更新的数据写入磁盘或者把修改操作写入追加的记录文件,并且在此基础上实现了主从同步。
步骤S506,通过Spark节点对Kafka消息队列的服务响应类指标进行统计分析;
上述Spark,通常为专为大规模数据处理而设计的快速通用的计算引擎。Spark具有以下特点:Spark应用开发者可以专注于应用所要做的计算本身;Spark支持交互式计算和复杂算法;Spark是一个通用引擎,可以用Spark来完成各种各样的运算,包括文本处理、机器学习等。
步骤S508,将统计分析后的服务响应类指标存入第一数据库中。
上述第一数据库通常为ES(Elastic Search,检索分析引擎)数据库,它提供了一个分布式多用户能力的全文搜索引擎;通常情况下,ES默认是先把索引存放到内存中,当内存已满时再持久化地存储到本地硬盘,如图6所示为服务响应类指标获取的方法的结构示意图。
对于服务响应类指标,传统方式要采集提取,一般采取埋点(通常为源代码内部设计与业务逻辑实现无关的日志记录或者消息投送模式)方式解决;这种方式具有侵入性,实施成本很高,系统稳定性也很容易受到破坏;本实施例通过Pinpoint调用链技术,采用非侵入式方式,无需对监控系统进行源码改造,即可实现ATLSR、SFSR或者FFSR指标的自动计算。
参见图7所示的另一种IT系统性能风险趋势预测的方法的示意图;该方法首先确定业务量Y对应的服务响应类指标,即ATLSR、SFSR或者FFSR;其中特征项X为引起IT系统服务响应类指标变化的关键因素,该特征项X可以为系统处理量(包括业务工单流量、数据处理流量等)、服务调用累计量、系统开机时长等,其中,系统处理量为关键特征项,作为预测模型的输入特征项,不能直接采集获取。
根据图3的预测模型建立过程,通过机器学习样本来建立预测回归模型(相当于上述第二回归预测模型),然后输入与特征项X类似的实际业务场景或者可能的特征值,通过预测模型来预测出与某一时间节点对应的业务量变化趋势。
对于电讯运营商这类IT系统的发展,其业务活动有明显的时效和高低峰差异;传统的IT测试方法并不能很好地模拟真实情况,所以通常在配置上采取冗余手段,希望多余的IT资源可以应对未知的业务高峰。但是由于缺失有效量化手段,冗余多少IT资源合适始终是困扰系统管理员的问题。采用本实施例方案,可以有明确的量化目标并能对未来系统的性能响应进行预测;企业IT运维部门根据该方法可以实现企业IT资源云化池的高效配置。
对应于上述方法实施例,参见图8所示的一种IT系统性能风险趋势预测的装置的结构示意图,该装置包括:
数据获取模块80,用于获取待预测的IT系统的当前的业务工单流量、数据处理流量、系统开机时长和服务调用累计量;
第一预测模块81,用于将当前的业务工单流量和数据处理流量输入至预先建立的第一回归预测模型,得到IT系统未来设定时间段内的业务工单流量和数据处理流量的预测结果;
业务种类模块82,用于确定IT系统的待预测业务量对应的服务响应类指标的种类;服务响应类指标包括系统服务响应平均时长、系统服务响应成功频次和系统服务响应失败频次中的多种;
第二预测模块83,用于将未来设定时间段内的业务工单流量和数据处理流量,以及当前的系统开机时长和服务调用累计量输入至预先建立的第二回归预测模型,输出未来设定时间段内的服务响应类指标的预测结果;其中,第一回归预测模型和第二回归预测模型通过机器学习的方式训练得到;
风险趋势预测模块84,用于将服务响应类指标的预测结果,作为IT系统性能风险的趋势预测结果。
进一步地,上述第一回归预测模型通过下述方式获得:获取历史时间轴上的业务工单流量和数据处理流量;搭建回归预测模型的模型结构;通过历史时间轴上的业务工单流量和数据处理流量,对模型结构进行机器学习训练,得到第一回归预测模型。
进一步地,上述业务种类模块82,还用于获取待预测的IT系统的服务响应类指标,将服务响应类指标保存到第一数据库中。
进一步地,上述第二回归预测模型通过下述方式获得:获取第一回归预测模型得到的业务工单流量和数据处理流量的预测结果,和历史时间轴上的系统开机时长和服务调用累计量;搭建回归预测模型的模型结构;通过第一回归预测模型得到的业务工单流量和数据处理流量的预测结果、历史时间轴上的系统开机时长和服务调用累计量、第一数据库中存储的服务响应类指标,对模型结构进行机器学习训练,得到第二回归预测模型。
本发明实施例提供的一种IT系统性能风险趋势预测的装置,与上述实施例提供的一种IT系统性能风险趋势预测的方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
本实施例还提供了一种与上述方法实施例相对应的一种IT系统性能风险趋势预测的设备,该设备包括存储器和处理器;存储器用于存储支持处理器执行IT系统性能风险趋势预测的方法的程序,处理器被配置为用于执行存储器中存储的程序。
对严重依赖IT系统运营的企业而言,最可怕的就是业务高峰期间IT系统出现故障。根据本发明实施例所提供的IT系统性能风险趋势预测的方法、装置和设备,针对未来特点时段(如节假日,活动日)对IT系统进行性能响应状况进行预测,从而找到整个IT系统支撑体系的瓶颈和风险点,通过扩容或者针对性改造,将系统性能风险、故障缺陷提前化解掉。
本发明实施例所提供的IT系统性能风险趋势预测的方法、装置和设备的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和/或装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种IT系统性能风险趋势预测的方法,其特征在于,所述方法包括:
获取待预测的IT系统的当前的业务工单流量、数据处理流量、系统开机时长和服务调用累计量;
将当前的业务工单流量和数据处理流量输入至预先建立的第一回归预测模型,得到所述IT系统未来设定时间段内的业务工单流量和数据处理流量的预测结果;
确定所述IT系统的待预测业务量对应的服务响应类指标的种类;所述服务响应类指标包括系统服务响应平均时长、系统服务响应成功频次和系统服务响应失败频次中的多种;
将所述未来设定时间段内的业务工单流量和数据处理流量,以及当前的系统开机时长和服务调用累计量输入至预先建立的第二回归预测模型,输出未来设定时间段内的服务响应类指标的预测结果;其中,所述第一回归预测模型和所述第二回归预测模型通过机器学习的方式训练得到;
将所述服务响应类指标的预测结果,作为所述IT系统性能风险的趋势预测结果。
2.根据权利要求1所述的方法,其特征在于,所述第一回归预测模型通过下述方式获得:
获取历史时间轴上的所述业务工单流量和所述数据处理流量;
搭建回归预测模型的模型结构;
通过所述历史时间轴上的所述业务工单流量和所述数据处理流量,对所述模型结构进行机器学习训练,得到第一回归预测模型。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取待预测的IT系统的服务响应类指标,将所述服务响应类指标保存到第一数据库中。
4.根据权利要求3所述的方法,其特征在于,获取待预测的IT系统的服务响应类指标,将所述服务响应类指标保存到第一数据库中的步骤,包括:
在Java环境下,通过部署Pinpoint Agent捕获所述服务响应类指标,将所述服务响应类指标发送到服务端Pinpiont collector;
通过所述Pinpiont collector收集所述服务响应类指标,将所述服务响应类指标转发到Kafka消息队列;
通过Spark节点对所述Kafka消息队列的所述服务响应类指标进行统计分析;
将统计分析后的所述服务响应类指标存入第一数据库中。
5.根据权利要求4所述的方法,其特征在于,通过所述Pinpiont collector收集所述服务响应类指标的步骤之后,所述方法还包括:将所述服务响应类指标分别存储到第二数据库和第三数据库。
6.根据权利要求1所述的方法,其特征在于,所述第二回归预测模型通过下述方式获得:
获取所述第一回归预测模型得到的所述业务工单流量和所述数据处理流量的预测结果,和历史时间轴上的所述系统开机时长和所述服务调用累计量;
搭建回归预测模型的模型结构;
通过所述第一回归预测模型得到的所述业务工单流量和所述数据处理流量的预测结果、所述历史时间轴上的系统开机时长和服务调用累计量、所述第一数据库中存储的服务响应类指标,对所述模型结构进行机器学习训练,得到第二回归预测模型。
7.一种IT系统性能风险趋势预测的装置,其特征在于,所述装置包括:
数据获取模块,用于获取待预测的IT系统的当前的业务工单流量、数据处理流量、系统开机时长和服务调用累计量;
第一预测模块,用于将当前的业务工单流量和数据处理流量输入至预先建立的第一回归预测模型,得到所述IT系统未来设定时间段内的业务工单流量和数据处理流量的预测结果;
业务种类模块,用于确定所述IT系统的待预测业务量对应的服务响应类指标的种类;所述服务响应类指标包括系统服务响应平均时长、系统服务响应成功频次和系统服务响应失败频次中的多种;
第二预测模块,用于将所述未来设定时间段内的业务工单流量和数据处理流量,以及当前的系统开机时长和服务调用累计量输入至预先建立的第二回归预测模型,输出未来设定时间段内的服务响应类指标的预测结果;其中,所述第一回归预测模型和所述第二回归预测模型通过机器学习的方式训练得到;
风险趋势预测模块,用于将所述服务响应类指标的预测结果,作为所述IT系统性能风险的趋势预测结果。
8.根据权利要求7所述的装置,其特征在于,所述第一回归预测模型,通过下述方式获得:
获取历史时间轴上的所述业务工单流量和所述数据处理流量;
搭建回归预测模型的模型结构;
通过所述历史时间轴上的所述业务工单流量和所述数据处理流量,对所述模型结构进行机器学习训练,得到第一回归预测模型。
9.根据权利要求7所述的装置,其特征在于,所述业务种类模块,还用于获取待预测的IT系统的服务响应类指标,将所述服务响应类指标保存到第一数据库中。
10.一种IT系统性能风险趋势预测的设备,其特征在于,所述设备包括存储器和处理器;所述存储器用于存储支持处理器执行权利要求1至6任一项所述方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
CN201810959633.3A 2018-08-21 2018-08-21 It系统性能风险趋势预测的方法、装置和设备 Active CN109062769B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810959633.3A CN109062769B (zh) 2018-08-21 2018-08-21 It系统性能风险趋势预测的方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810959633.3A CN109062769B (zh) 2018-08-21 2018-08-21 It系统性能风险趋势预测的方法、装置和设备

Publications (2)

Publication Number Publication Date
CN109062769A true CN109062769A (zh) 2018-12-21
CN109062769B CN109062769B (zh) 2021-09-24

Family

ID=64687766

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810959633.3A Active CN109062769B (zh) 2018-08-21 2018-08-21 It系统性能风险趋势预测的方法、装置和设备

Country Status (1)

Country Link
CN (1) CN109062769B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110109955A (zh) * 2019-03-15 2019-08-09 平安科技(深圳)有限公司 数据调用量统计方法、系统、计算机装置及可读存储介质
CN110990138A (zh) * 2019-12-04 2020-04-10 北京三快在线科技有限公司 资源调度方法、装置、服务器及存储介质
CN111475393A (zh) * 2020-04-08 2020-07-31 拉扎斯网络科技(上海)有限公司 服务性能预测方法、装置、电子设备及可读存储介质
CN111625436A (zh) * 2020-05-26 2020-09-04 泰康保险集团股份有限公司 保险业务容量的管理方法、装置、电子设备及存储介质
CN112818699A (zh) * 2021-03-03 2021-05-18 深圳前海微众银行股份有限公司 风险分析方法、装置、设备及计算机可读存储介质

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130071033A1 (en) * 2011-09-21 2013-03-21 Tandent Vision Science, Inc. Classifier for use in generating a diffuse image
US20130080340A1 (en) * 2011-09-23 2013-03-28 Elif Onmus-Baykal Indexing and adjusting for property condition in an automated valuation model
CN103544243A (zh) * 2011-05-04 2014-01-29 成都勤智数码科技股份有限公司 It运维指标的相关性关联方法
US20150268131A1 (en) * 2013-09-05 2015-09-24 Snecma Method and a device for normalizing values of operating parameters of an aeroengine
CN105095230A (zh) * 2014-04-29 2015-11-25 国际商业机器公司 确定目标数据分析应用的性能预测模型的方法及装置
CN105446988A (zh) * 2014-06-30 2016-03-30 华为技术有限公司 预测类别的方法和装置
CN105719076A (zh) * 2016-01-19 2016-06-29 国网山东省电力公司青岛供电公司 一种大数据工单处理方法及装置
CN106250306A (zh) * 2016-08-18 2016-12-21 电子科技大学 一种适用于企业级运维自动化平台的性能预测方法
CN106779230A (zh) * 2016-12-27 2017-05-31 北京三快在线科技有限公司 订单量预估方法及装置、电子设备
CN106886485A (zh) * 2017-02-28 2017-06-23 深圳市华傲数据技术有限公司 系统容量分析预测方法及装置
CN106934514A (zh) * 2015-12-31 2017-07-07 华为技术有限公司 一种回归模型的生成方法以及装置
CN106951867A (zh) * 2017-03-22 2017-07-14 成都擎天树科技有限公司 基于卷积神经网络的人脸识别方法、装置、系统及设备
CN106951984A (zh) * 2017-02-28 2017-07-14 深圳市华傲数据技术有限公司 一种系统健康度动态分析预测方法及装置
CN107169463A (zh) * 2017-05-22 2017-09-15 腾讯科技(深圳)有限公司 人脸检测方法、装置、计算机设备及存储介质
CN107292528A (zh) * 2017-06-30 2017-10-24 阿里巴巴集团控股有限公司 车险风险预测方法、装置及服务器

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544243A (zh) * 2011-05-04 2014-01-29 成都勤智数码科技股份有限公司 It运维指标的相关性关联方法
WO2013043680A1 (en) * 2011-09-21 2013-03-28 Tandent Vision Science, Inc. A classifier for use in generating a diffuse image
US20130071033A1 (en) * 2011-09-21 2013-03-21 Tandent Vision Science, Inc. Classifier for use in generating a diffuse image
US20130080340A1 (en) * 2011-09-23 2013-03-28 Elif Onmus-Baykal Indexing and adjusting for property condition in an automated valuation model
US20150268131A1 (en) * 2013-09-05 2015-09-24 Snecma Method and a device for normalizing values of operating parameters of an aeroengine
CN105095230A (zh) * 2014-04-29 2015-11-25 国际商业机器公司 确定目标数据分析应用的性能预测模型的方法及装置
CN105446988A (zh) * 2014-06-30 2016-03-30 华为技术有限公司 预测类别的方法和装置
CN106934514A (zh) * 2015-12-31 2017-07-07 华为技术有限公司 一种回归模型的生成方法以及装置
CN105719076A (zh) * 2016-01-19 2016-06-29 国网山东省电力公司青岛供电公司 一种大数据工单处理方法及装置
CN106250306A (zh) * 2016-08-18 2016-12-21 电子科技大学 一种适用于企业级运维自动化平台的性能预测方法
CN106779230A (zh) * 2016-12-27 2017-05-31 北京三快在线科技有限公司 订单量预估方法及装置、电子设备
CN106886485A (zh) * 2017-02-28 2017-06-23 深圳市华傲数据技术有限公司 系统容量分析预测方法及装置
CN106951984A (zh) * 2017-02-28 2017-07-14 深圳市华傲数据技术有限公司 一种系统健康度动态分析预测方法及装置
CN106951867A (zh) * 2017-03-22 2017-07-14 成都擎天树科技有限公司 基于卷积神经网络的人脸识别方法、装置、系统及设备
CN107169463A (zh) * 2017-05-22 2017-09-15 腾讯科技(深圳)有限公司 人脸检测方法、装置、计算机设备及存储介质
CN107292528A (zh) * 2017-06-30 2017-10-24 阿里巴巴集团控股有限公司 车险风险预测方法、装置及服务器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邵俊: "基于逐步回归预测模型的话务管理系统设计", 《中国优秀硕士》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110109955A (zh) * 2019-03-15 2019-08-09 平安科技(深圳)有限公司 数据调用量统计方法、系统、计算机装置及可读存储介质
CN110990138A (zh) * 2019-12-04 2020-04-10 北京三快在线科技有限公司 资源调度方法、装置、服务器及存储介质
CN111475393A (zh) * 2020-04-08 2020-07-31 拉扎斯网络科技(上海)有限公司 服务性能预测方法、装置、电子设备及可读存储介质
CN111625436A (zh) * 2020-05-26 2020-09-04 泰康保险集团股份有限公司 保险业务容量的管理方法、装置、电子设备及存储介质
CN112818699A (zh) * 2021-03-03 2021-05-18 深圳前海微众银行股份有限公司 风险分析方法、装置、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN109062769B (zh) 2021-09-24

Similar Documents

Publication Publication Date Title
CN109062769A (zh) It系统性能风险趋势预测的方法、装置和设备
CN106020715B (zh) 存储池容量管理
Yang et al. A time efficient approach for detecting errors in big sensor data on cloud
CN103761309B (zh) 一种运营数据处理方法及系统
CN103403699B (zh) 估算流数据库应用中的负荷削减数据的系统和方法
CN110502509B (zh) 一种基于Hadoop与Spark框架的交通大数据清洗方法及相关装置
CN106992994A (zh) 一种云服务的自动化监控方法和系统
Xhafa et al. Processing and analytics of big data streams with yahoo! s4
CN107229708A (zh) 一种个性化出行服务大数据应用系统及方法
CN109074377A (zh) 用于实时处理数据流的受管理功能执行
US20200293920A1 (en) Rapid predictive analysis of very large data sets using the distributed computational graph using configurable arrangement of processing components
CN106815125A (zh) 一种日志审计方法及平台
CN106803799B (zh) 一种性能测试方法和装置
CN109242553A (zh) 一种用户行为数据推荐方法、服务器及计算机可读介质
US11593735B2 (en) Automated and efficient personal transportation vehicle sharing
CN108809701A (zh) 一种数据中心智慧数据平台及其实现方法
CN110428231A (zh) 行政信息推荐方法、装置、设备及可读存储介质
Vu et al. Distributed adaptive model rules for mining big data streams
CN111753034A (zh) 一种一站式地理大数据平台
CN109634820A (zh) 一种云端移动端协同的故障预警方法、相关设备及系统
CN103995828B (zh) 一种云存储日志数据分析方法
CN115225536A (zh) 一种基于无监督学习的虚拟机异常检测方法及系统
CN109977125A (zh) 一种基于网络安全的大数据安全分析平台系统
Jin et al. Specifying and detecting spatio-temporal events in the internet of things
Qi et al. A cloud-based triage log analysis and recovery framework

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant