CN111930603A - 服务器性能检测方法、装置、系统及介质 - Google Patents
服务器性能检测方法、装置、系统及介质 Download PDFInfo
- Publication number
- CN111930603A CN111930603A CN202010816475.3A CN202010816475A CN111930603A CN 111930603 A CN111930603 A CN 111930603A CN 202010816475 A CN202010816475 A CN 202010816475A CN 111930603 A CN111930603 A CN 111930603A
- Authority
- CN
- China
- Prior art keywords
- real
- server
- data
- time
- performance data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 104
- 238000000034 method Methods 0.000 claims abstract description 47
- 238000012549 training Methods 0.000 claims abstract description 34
- 238000013499 data model Methods 0.000 claims abstract description 9
- 230000002159 abnormal effect Effects 0.000 claims description 30
- 230000015654 memory Effects 0.000 claims description 15
- 102000005717 Myeloma Proteins Human genes 0.000 claims description 12
- 108010045503 Myeloma Proteins Proteins 0.000 claims description 12
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000005856 abnormality Effects 0.000 description 21
- 238000012545 processing Methods 0.000 description 16
- 238000004590 computer program Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000013500 data storage Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000012423 maintenance Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000007637 random forest analysis Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004806 packaging method and process Methods 0.000 description 2
- 239000000758 substrate Substances 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3447—Performance evaluation by modeling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Abstract
本公开提供了一种服务器性能检测方法、装置、系统、及介质,涉及信息安全和人工智能技术领域。所述方法包括获取服务器的实时业务负载数据以及对应的实时性能数据;将所述实时业务负载数据输入到异常检测模型,所述异常检测模型为基于所述服务器在运行正常的情况下的业务负载数据以及对应的性能数据训练得到的数据模型;获取所述异常检测模型基于所述实时业务负载数据而输出的实时预测性能数据;以及基于所述实时性能数据与所述实时预测性能数据的对比,确定所述服务器的运行状态。
Description
技术领域
本公开涉及信息安全以及人工智能技术领域,更具体地,涉及一种服务器性能检测方法、装置、系统及介质。
背景技术
服务器在运行过程中,会因为CPU、磁盘等硬件故障导致服务能力下降,也会由于上面运行的程序问题、资源分配不合理等原因影响其可用性。当服务器发生异常时,会导致其上面承载的业务受到影响,从而降低服务水平。现有技术中进行服务器异常检测的方案主要包括三大类:第一类主要是针对定期采集到的服务器性能指标设置安全阈值,通过超过阈值即报警的方式,实现服务器的异常检测。第二类是基于时序模型的异常检测方法;服务器在稳定运行时,其产生的性能数据具备一定的规律性,基于此前提可将性能数据作为时序数据去处理,通过时序预测模型建模发现性能数据自身的周期性、趋势性等规律特点,通过训练好的时序模型产生性能数据的动态阈值,在不同时点设置不同的动态阈值,实现更为准确的异常检测。第三类是基于机器学习模型的异常检测方法;将服务器产生的历史性能数据的异常点进行标记,通过有监督学习,采用机器学习建模的方式建立二分类模型,模型根据当前性能数据判断服务器是否异常。
在实现本公开构思的过程中,发明人发现现有技术中至少存在如下问题:第一类方案针对繁多的性能指标,手工设置阈值,既不准确又耗费人力;第二类方案中的时序模型要求数据具备一定的规律性,在遇到一些特殊场景,如各类促销双十一、双十二、六一八等系统负载明显增加的情况下,则无法正确判断异常;第三类方案通过有监督的机器学习模型判断异常时,因系统异常发生的时间节点的负样本远少于系统正常的正样本,存在严重的正负样本偏差问题,会导致过拟合而无法发现异常的问题。
发明内容
有鉴于此,本公开实施例提供了一种能够更为准确地检测出异常的服务器性能检测方法、装置、系统及介质。
本公开实施例的一个方面,提供了一种服务器性能检测方法。所述方法包括:获取服务器的实时业务负载数据以及对应的实时性能数据;将所述实时业务负载数据输入到异常检测模型,所述异常检测模型为基于所述服务器在运行正常的情况下的业务负载数据以及对应的性能数据训练得到的数据模型;获取所述异常检测模型基于所述实时业务负载数据而输出的实时预测性能数据;以及基于所述实时性能数据与所述实时预测性能数据的对比,确定所述服务器的运行状态。
根据本公开的实施例,所述方法还包括训练所述异常检测模型。具体包括:获取所述服务器在运行正常的情况下的N个历史业务负载数据,以及与N个所述历史业务负载数据一一对应的N个历史性能数据,其中,N为大于等于1的整数;以及以N个所述历史业务负载数据作为所述异常检测模型的输入,以N个所述历史性能数据作为所述异常检测模型的输出标准,训练所述异常检测模型。
根据本公开的实施例会,所述基于所述实时性能数据与所述实时预测性能数据的对比,确定所述服务器的运行状态包括,在所述实时性能数据与所述实时预测性能数据的偏差超出预设阈值范围时,确定所述服务器性能异常。
根据本公开的实施例,所述基于所述实时性能数据与所述实时预测性能数据的对比,确定所述服务器的运行状态还包括,在确定所述服务器性能异常时,根据所述偏差确定所述服务器性能的异常程度。
根据本公开的实施例,所述方法还包括在确定所述服务器异常时,向用户发送所述服务器性能异常的信息。
根据本公开的实施例,所述实时性能数据包括与所述服务器中运行的M个组件一一对应的M个组件实时性能数据;其中,M为大于等于1的整数;以及所述实时预测性能数据包括与M个所述组件一一对应的M个组件实时预测性能数据。
根据本公开的实施例,所述基于所述实时性能数据与所述实时预测性能数据的对比,确定所述服务器的运行状态包括:基于与同一个所述组件对应的所述组件实时性能数据和所述组件实时预测性能数据的对比,确定所述组件的运行状态;以及在M个所述组件中任意至少一个组件运行异常时,确定所述服务器运行异常。
本公开实施例的另一方面,提供了一种服务器性能检测装置。所述装置包括数据获取模块、模型输入模块、预测数据获取模块、以及确定模块。所述数据获取模块用于获取服务器的实时业务负载数据以及对应的实时性能数据;模型输入模块用于将所述实时业务负载数据输入到异常检测模型,所述异常检测模型为基于所述服务器在运行正常的情况下的业务负载数据以及对应的性能数据训练得到的数据模型。预测数据获取模块用于获取所述异常检测模型基于所述实时业务负载数据而输出的实时预测性能数据。确定模块用于基于所述实时性能数据与所述实时预测性能数据的对比,确定所述服务器的运行状态。
根据本公开的实施例,所述装置还包括训练模块。所述训练模块用于训练所述异常检测模型。具体地,所述数据获取模块还用于获取所述服务器在运行正常的情况下的N个历史业务负载数据,以及与N个所述历史业务负载数据一一对应的N个历史性能数据,其中,N为大于等于1的整数。所述训练模块用于以N个所述历史业务负载数据作为所述异常检测模型的输入,以N个所述历史性能数据作为所述异常检测模型的输出标准,训练所述异常检测模型。
根据本公开的实施例,所述装置还包括通知模块。所述通知模块用于在确定所述服务器异常时向用户发送所述服务器性能异常的信息。
本公开实施例的另一方面,提供了一种服务器性能检测系统。所述系统包括一个或多个存储器、以及一个或多个处理器。所述存储器上存储有计算机可执行指令。所述处理器执行所述指令,以实现如上所述的方法。
本公开实施例的另一方面提供了一种计算机可读存储介质,存储有计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
本公开实施例的另一方面提供了一种计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
上述一个或多个实施例具有如下优点或益效果:可以至少部分地避免现有技术中在进行服务器性能检测时时序模型覆盖面不全、或者二分类机器学习模型准确度低的问题,并可以通过实时抓取的实时性能数据、与预测出的服务器正常表现时的实时预测性能数据的比较,确定出服务器运行是否异常,判断结果更为准确,且时效性高。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的服务器性能检测方法和装置的应用场景;
图2示意性示出了根据本公开实施例的服务器性能检测方法的流程图;
图3示意性示出了根据本公开实施例的服务器性能检测方法的构思示意;
图4示意性示出了根据本公开另一实施例的服务器性能检测方法的流程图;
图5示意性示出了根据本公开实施例的服务器性能检测方法中训练异常检测模型的方法流程;
图6示意性示出了根据本公开实施例的服务器性能检测装置的框图;
图7示意性示出了根据本公开另一实施例的服务器性能检测装置的工作流程示意;以及
图8示意性示出了根据本公开实施例的适于实现服务器性能检测的计算机系统的方框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
本公开的实施例提供了一种服务器性能检测方法、装置、系统、及介质。所述方法包括获取服务器的实时业务负载数据以及对应的实时性能数据;将所述实时业务负载数据输入到异常检测模型,所述异常检测模型为基于所述服务器在运行正常的情况下的业务负载数据以及对应的性能数据训练得到的数据模型;获取所述异常检测模型基于所述实时业务负载数据而输出的实时预测性能数据;以及基于所述实时性能数据与所述实时预测性能数据的对比,确定所述服务器的运行状态。
本公开的实施例基于服务器的资源消耗主要取决于业务负载这个事实,在训练异常检测模型时将获取到服务器运行正常时的业务负载数据作为该异常检测模型的输入变量,将获取到服务器运行正常时的服务器性能指标作为该异常检测模型的输出变量,对该异常检测模型进行机器学习建模。其中,作为输入变量和输出变量的数据为服务器运行正常时的历史运行数据(例如可以从采集到的服务器的历史运行数据中剔除服务器运行异常时的数据),可以使得该异常检测模型学习到服务器正常运行情况下业务负载和系统性能数据的表现关系。
在对服务器进行性能检测时,以实时业务负载作为该异常检测模型的输入,并以该异常检测模型输出的性能数据(即,实时预测性能数据)作为服务器表现的“正常值”,以此衡量在该实时业务负载下服务器的正常表现。然后将实际采集到的服务器的实时性能数据和“正常值”数据去比较,超出一定程度时则确定服务器运行异常。以此方式,可以更为动态的、更加准确有效的判断服务器的运行状态。
与现有技术相比,本公开实施例可以规避正负样本偏差带来建模问题,可覆盖的场景更加全面。可以对实时抓取的数据进行实时判断,时效性非常高。对于提升服务器异常发现水平和维护质量有较高提升,可移植性强,可以广泛用于承担业务负载的各类服务器、容器等。
图1示意性示出了根据本公开实施例的服务器性能检测方法和装置的应用场景100。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
如图1所示,根据该实施例的应用场景100以金融业务场景为例,包括终端设备101、POS机102、ATM机103,网络104和服务器105。网络104为用以在终端设备101、POS机102、ATM机103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。终端设备101上可以安装有各种客户端应用,例如手机银行应用、网上银行应用、购物类应用、或者第三方支付应用等。
用户可以通过在终端设备101、POS机102、ATM机103上的操作,与服务器105进行交互。
服务器105例如可以是银行使用的大型主机系统等,可以对来自终端设备101、POS机102、ATM机103的访问数据进行响应。例如,对自终端设备101、POS机102、ATM机103的交易请求进行处理。
需要说明的是,本公开实施例所提供的服务器性能检测方法一般可以由服务器105执行。相应地,本公开实施例所提供的服务器性能检测装置一般可以设置于服务器105中。本公开实施例所提供的服务器性能检测方法也可以由不同于服务器105且能够与服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的服务器性能检测装置也可以设置于不同于服务器105且能够与服务器105通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
需要说明的是,本公开实施例的服务器性能检测方法和装置可用于金融领域,也可用于除金融领域之外的任意领域,对此本公开不予限定。
图2示意性示出了根据本公开实施例的服务器性能检测方法的流程图。图3示意性示出了根据本公开实施例的服务器性能检测方法的构思示意。
结合图2和图3所示,根据本公开的实施例该服务器性能检测方法可以包括操作S210~操作S240。
在操作S210,获取服务器105的实时业务负载数据31以及对应的实时性能数据32。
在操作S220,将所述实时业务负载数据31输入到异常检测模型301。所述异常检测模型301为基于所述服务器105在运行正常的情况下的业务负载数据以及对应的性能数据训练得到的数据模型。
以应用场景100为例,服务器105的业务负载数据例如可以是各个渠道的交易率。例如可以是,终端设备101上的手机银行和/或网上银行、POS机102、和ATM机103各自每秒中发起的交易请求数量。
服务器105的性能数据可以包括但不限于CPU使用率、内存使用率、或I/O吞吐率等。
其中,实时业务负载数据31以及对应的实时性能数据32为在检测服务器105性能时实时获取到的服务器105的业务负载数据和性能数据。
在操作S230,获取所述异常检测模块301基于所述实时业务负载数据31而输出的实时预测性能数据33。
在操作S240,基于所述实时性能数据32与所述实时预测性能数据33的对比,确定所述服务器105的运行状态。
在一个实施例中,服务器105的性能数据可以包括服务器105上运行的与业务相关的M个组件各自的性能数据,例如,如表1所示。
表1
组件 | CPU使用率 | 内存使用率 | … |
操作系统 | … | … | … |
数据库 | … | … | … |
中间件 | … | … | … |
… | … | … | … |
如表1所示,服务器105上运行的M个组件例如可以包括操作系统、数据库服务、中间件等,可以通过M个组件各自的性能数据的集合作为服务器105的性能数据。
相应的,根据本公开的一个实施例,所述实时性能数据32包括与所述服务器中运行的M个组件一一对应的M个组件实时性能数据;其中,M为大于等于1的整数。类似的,所述实时预测性能数据33包括与M个所述组件一一对应的M个组件实时预测性能数据。
进而,在操作S240中可以基于与同一个所述组件对应的所述组件实时性能数据和所述组件实时预测性能数据的对比,确定所述组件的运行状态,以及在M个所述组件中任意至少一个组件运行异常时,确定所述服务器105运行异常。以此方式,可以从更细的粒度上确定出服务器105的运行状态,而且当服务器105异常时还可以快速定位出异常所发生的具体组件,帮助快速定位问题。
图4示意性示出了根据本公开另一实施例的服务器性能检测方法的流程图。
如图4所示,根据本公开实施例该服务器性能检测方法可以包括操作S410、操作S210~操作S230、操作S241~操作S242、以及操作S450。
首先在操作S410,训练所述异常检测模型301。具体训练可以参考下文图5的示意。
然后执行操作S210~操作S230。其中,在操作S210,获取服务器105的实时业务负载数据31以及对应的实时性能数据32。在操作S220,将所述实时业务负载数据31输入到异常检测模型301。所述异常检测模型301为基于所述服务器105在运行正常的情况下的业务负载数据以及对应的性能数据训练得到的数据模型。在操作S230,获取所述异常检测模,301基于所述实时业务负载数据31而输出的实时预测性能数据33。操作S210~操作S230与前述描述一致,此处不再赘述。
接着在操作S241,在所述实时性能数据32与所述实时预测性能数据33的偏差超出预设阈值范围(例如,10%)时,确定所述服务器105性能异常。
进一步地,还可以在操作S242,在确定所述服务器性能异常时,根据所述偏差确定所述服务器105性能的异常程度。
根据本公开的实施例,当服务器105的性能数据包括服务器105上运行的与业务相关的M个组件各自的性能数据时,针对不同的组件的正常运行水平可以设置不同的上下浮动阈值范围。从而使得对服务器性能的判断粒度更细、更具有动态性、且更为灵活准确。
更进一步地,还可以在操作S450,在确定所述服务器105异常时向用户发送所述服务器105性能异常的信息。该异常的信息可以包括服务器105运行状态,异常的程度、异常的具体组件等信息,可以帮助运维人员快速定位出异常,并提高维护效率。
图5示意性示出了根据本公开实施例的服务器性能检测方法中操作S410中训练异常检测模型的方法流程。
如图5所示,根据本公开的实施例操作S410可以包括操作S501和操作S502。
在操作S501,获取所述服务器105在运行正常的情况下的N个历史业务负载数据,以及与N个所述历史业务负载数据一一对应的N个历史性能数据,其中,N为大于等于1的整数。
在操作S502,以N个所述历史业务负载数据作为所述异常检测模型301的输入,以N个所述历史性能数据作为所述异常检测模型301的输出标准,训练所述异常检测模型301。
在一个实施例中,可以将采集到N个历史业务负载数据和N个历史性能数据进行处理得到如表2所示的训练数据。
表2
表2中一行是一个记录(例如一分钟一个记录),按照时序排列。其中,表2的训练数据中可以是从对服务器105的历史记录中剔除掉没有记录到信息的空数据行、以及服务器105运行为异常时的数据。其中,历史业务负载数据可以包括来自各个渠道的交易率,历史性能指标可以包括服务器105中各个组件的性能指标
在利用表2中的数据训练异常检测模型的实质是,训练各个渠道的历史交易率与服务器105的各个组件的性能指标之间的拟合关系。在一个实施可以利用随机森林回归模型构建该异常检测模型。在训练过程中,不断调整随机森林回归模型的参数,使得随机森林回归模型的输出不断逼近服务器105的各个组件的性能指标。
图6示意性示出了根据本公开实施例的服务器性能检测装置600的框图。
如图6所示,根据本公开的实施例,该服务器性能检测装置600可以包括数据获取模块610、模型输入模块620、预测数据获取模块630、以及确定模块640。根据本公开的另一些实施例,该装置600还可以进一步包括训练模块650和/或通知模块660。该装置600可以用于实现参考图2~图5所描述的方法。
所述数据获取模块610用于获取服务器105的实时业务负载数据31以及对应的实时性能数据32。
模型输入模块620用于将所述实时业务负载数据31输入到异常检测模型301,所述异常检测模型301为基于所述服务器105在运行正常的情况下的业务负载数据以及对应的性能数据训练得到的数据模型。
预测数据获取模块630用于获取所述异常检测模型301基于所述实时业务负载数据31而输出的实时预测性能数据。
确定模块640用于基于所述实时性能数据32与所述实时预测性能数据的对比,确定所述服务器105的运行状态。
所述训练模块650用于训练所述异常检测模型301。具体地,所述数据获取模块610还用于获取所述服务器105在运行正常的情况下的N个历史业务负载数据,以及与N个所述历史业务负载数据一一对应的N个历史性能数据,其中,N为大于等于1的整数。所述训练模块650具体用于以N个所述历史业务负载数据作为所述异常检测模型301的输入,以N个所述历史性能数据作为所述异常检测模型301的输出标准,训练所述异常检测模型301。
所述通知模块660用于在确定所述服务器105异常时向用户发送所述服务器105性能异常的信息。
图7示意性示出了根据本公开另一实施例的服务器性能检测装置700的工作流程示意。
如图7所示,该装置700可以包括数据采集模块710、数据存储模块720、数据加工模块730、模型训练模块740、异常检测模块750、以及用户通知模块760。该装置700可以通过对服务器105运行的历史数据进行处理,以训练异常检测模型301。同时该装置700还可以对服务器105运行的实时数据进行处理,根据本公开实施例的方法判断服务器105的运行状态。
数据采集模块710:负责采集服务器的业务负载数据和性能数据。服务器的性能数据包含不限于CPU、内存各类性能数据。
数据存储模块720:主要负责将采集到的业务负载和性能数据存储到时序数据库。
数据加工模块730:负责对采集的数据进行清洗、特征提取。具体地,数据加工模块730的数据加工可以包括离线加工和实时加工两部分。离线加工主要针对历史的业务负载数据和性能数据进行清洗(去除空值、去除被标记为系统异常的值),进行特征提取,构建异常检测模型301所需要的宽表结构(例如,表2),并存储到文件中,为建模所用。实时加工主要针对将实时获取的业务负载数据,将其加工成异常检测模型301输入所需的格式,用于计算性能指标正常值(即,实时预测性能数据)。
模型训练模块740:主要功能为将加工完成的历史数据,放到模型训练环境中,构建随机森林回归模型。通过模型的构建和调优,生成最终使用的异常检测模型301,部署至生成环境。
异常检测模块750:负责对实时产生的业务负载数据和性能数据通过异常检测进行检测。其中,将业务负载数据加工后送至异常检测模型301中,并将异常检测模型301生成的服务器105性能“正常数据”和实时抓取的性能数据作对比,判断服务器105当前是否异常及异常程度。
用户通知模块760:负责将异常检测模块发现的异常,通过报警、短信等各种方式推送给维护人员,以便维护人员快速响应处理。
根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
例如,数据获取模块610、模型输入模块620、预测数据获取模块630、确定模块640、训练模块650、通知模块660、数据采集模块710、数据存储模块720、数据加工模块730、模型训练模块740、异常检测模块750、用户通知模块760中的任意多个可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,数据获取模块610、模型输入模块620、预测数据获取模块630、确定模块640、训练模块650、通知模块660、数据采集模块710、数据存储模块720、数据加工模块730、模型训练模块740、异常检测模块750、用户通知模块760中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,数据获取模块610、模型输入模块620、预测数据获取模块630、确定模块640、训练模块650、通知模块660、数据采集模块710、数据存储模块720、数据加工模块730、模型训练模块740、异常检测模块750、用户通知模块760中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图8示意性示出了根据本公开实施例的适于实现服务器性能检测的计算机系统800的方框图。图8示出的计算机系统800仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图8所示,根据本公开实施例的计算机系统800包括处理器801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。处理器801例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器801还可以包括用于缓存用途的板载存储器。处理器801可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 803中,存储有计算机系统800操作所需的各种程序和数据。处理器801、ROM802以及RAM 803通过总线804彼此相连。处理器801通过执行ROM 802和/或RAM 803中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 802和RAM 803以外的一个或多个存储器中。处理器801也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,计算机系统800还可以包括输入/输出(I/O)接口805,输入/输出(I/O)接口805也连接至总线804。计算机系统800还可以包括连接至I/O接口805的以下部件中的一项或多项:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
根据本公开的实施例,根据本公开实施例的方法流程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被处理器801执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 802和/或RAM 803和/或ROM802和RAM 803以外的一个或多个存储器。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。
Claims (10)
1.一种服务器性能检测方法,包括
获取服务器的实时业务负载数据以及对应的实时性能数据;
将所述实时业务负载数据输入到异常检测模型,所述异常检测模型为基于所述服务器在运行正常的情况下的业务负载数据以及对应的性能数据训练得到的数据模型;
获取所述异常检测模型基于所述实时业务负载数据而输出的实时预测性能数据;以及
基于所述实时性能数据与所述实时预测性能数据的对比,确定所述服务器的运行状态。
2.根据权利要求1所述的方法,其中,所述方法还包括训练所述异常检测模型,包括:
获取所述服务器在运行正常的情况下的N个历史业务负载数据,以及与N个所述历史业务负载数据一一对应的N个历史性能数据,其中,N为大于等于1的整数;以及
以N个所述历史业务负载数据作为所述异常检测模型的输入,以N个所述历史性能数据作为所述异常检测模型的输出标准,训练所述异常检测模型。
3.根据权利要求1所述的方法,其中,所述基于所述实时性能数据与所述实时预测性能数据的对比,确定所述服务器的运行状态包括:
在所述实时性能数据与所述实时预测性能数据的偏差超出预设阈值范围时,确定所述服务器性能异常。
4.根据权利要求3所述的方法,其中,所述基于所述实时性能数据与所述实时预测性能数据的对比,确定所述服务器的运行状态还包括:
在确定所述服务器性能异常时,根据所述偏差确定所述服务器性能的异常程度。
5.根据权利要求3所述的方法,其中,所述方法还包括:
在确定所述服务器异常时向用户发送所述服务器性能异常的信息。
6.根据权利要求1~5任意一项所述的方法,其中,
所述实时性能数据包括与所述服务器中运行的M个组件一一对应的M个组件实时性能数据;其中,M为大于等于1的整数;以及
所述实时预测性能数据包括与M个所述组件一一对应的M个组件实时预测性能数据。
7.根据权利要求6所述的方法,其中,所述基于所述实时性能数据与所述实时预测性能数据的对比,确定所述服务器的运行状态,包括:
基于与同一个所述组件对应的所述组件实时性能数据和所述组件实时预测性能数据的对比,确定所述组件的运行状态;以及
在M个所述组件中任意至少一个组件运行异常时,确定所述服务器运行异常。
8.一种服务器性能检测装置,包括
数据获取模块,用于获取服务器的实时业务负载数据以及对应的实时性能数据;
模型输入模块,用于将所述实时业务负载数据输入到异常检测模型,所述异常检测模型为基于所述服务器在运行正常的情况下的业务负载数据以及对应的性能数据训练得到的数据模型;
预测数据获取模块,用于获取所述异常检测模型基于所述实时业务负载数据而输出的实时预测性能数据;以及
确定模块,用于基于所述实时性能数据与所述实时预测性能数据的对比,确定所述服务器的运行状态。
9.一种服务器性能检测系统,包括:
一个或多个存储器,其上存储有计算机可执行指令;
一个或多个处理器,所述处理器执行所述指令,以实现根据权利要求1~7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据权利要求1~7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010816475.3A CN111930603A (zh) | 2020-08-14 | 2020-08-14 | 服务器性能检测方法、装置、系统及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010816475.3A CN111930603A (zh) | 2020-08-14 | 2020-08-14 | 服务器性能检测方法、装置、系统及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111930603A true CN111930603A (zh) | 2020-11-13 |
Family
ID=73310850
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010816475.3A Pending CN111930603A (zh) | 2020-08-14 | 2020-08-14 | 服务器性能检测方法、装置、系统及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111930603A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113411233A (zh) * | 2021-06-17 | 2021-09-17 | 建信金融科技有限责任公司 | 中央处理器cpu利用率的监测方法及装置 |
CN114354233A (zh) * | 2021-12-31 | 2022-04-15 | 北京百度网讯科技有限公司 | 异常确定方法及装置、设备、介质和产品 |
CN114928555A (zh) * | 2022-05-12 | 2022-08-19 | 浙江上创智能科技有限公司 | 一种综采工作面的显示方法、装置及介质 |
CN117827524A (zh) * | 2024-03-06 | 2024-04-05 | 建信金融科技有限责任公司 | 系统运维方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110413482A (zh) * | 2019-07-29 | 2019-11-05 | 中国工商银行股份有限公司 | 检测方法和装置 |
US20190377652A1 (en) * | 2018-06-06 | 2019-12-12 | Vmware, Inc. | Application health monitoring based on historical application health data and application logs |
CN110955899A (zh) * | 2019-12-13 | 2020-04-03 | 中国工商银行股份有限公司 | 安全测试方法、装置、测试设备以及介质 |
-
2020
- 2020-08-14 CN CN202010816475.3A patent/CN111930603A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190377652A1 (en) * | 2018-06-06 | 2019-12-12 | Vmware, Inc. | Application health monitoring based on historical application health data and application logs |
CN110413482A (zh) * | 2019-07-29 | 2019-11-05 | 中国工商银行股份有限公司 | 检测方法和装置 |
CN110955899A (zh) * | 2019-12-13 | 2020-04-03 | 中国工商银行股份有限公司 | 安全测试方法、装置、测试设备以及介质 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113411233A (zh) * | 2021-06-17 | 2021-09-17 | 建信金融科技有限责任公司 | 中央处理器cpu利用率的监测方法及装置 |
CN113411233B (zh) * | 2021-06-17 | 2022-12-23 | 中国建设银行股份有限公司 | 中央处理器cpu利用率的监测方法及装置 |
CN114354233A (zh) * | 2021-12-31 | 2022-04-15 | 北京百度网讯科技有限公司 | 异常确定方法及装置、设备、介质和产品 |
CN114928555A (zh) * | 2022-05-12 | 2022-08-19 | 浙江上创智能科技有限公司 | 一种综采工作面的显示方法、装置及介质 |
CN114928555B (zh) * | 2022-05-12 | 2024-03-26 | 浙江上创智能科技有限公司 | 一种综采工作面的显示方法、装置及介质 |
CN117827524A (zh) * | 2024-03-06 | 2024-04-05 | 建信金融科技有限责任公司 | 系统运维方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111930603A (zh) | 服务器性能检测方法、装置、系统及介质 | |
WO2020259421A1 (zh) | 一种业务系统的监控方法及装置 | |
CN110362612B (zh) | 由电子设备执行的异常数据检测方法、装置和电子设备 | |
US9389946B2 (en) | Operation management apparatus, operation management method, and program | |
US10755196B2 (en) | Determining retraining of predictive models | |
US20180006900A1 (en) | Predictive anomaly detection in communication systems | |
KR102472081B1 (ko) | 공정 모니터링 시스템 및 방법 | |
CN115174353B (zh) | 故障根因确定方法、装置、设备及介质 | |
CN114356734A (zh) | 服务异常检测方法和装置、设备、存储介质 | |
CN113537337A (zh) | 训练方法、异常检测方法、装置、设备和存储介质 | |
CN115237804A (zh) | 性能瓶颈的评估方法、装置、电子设备、介质和程序产品 | |
CN111666171A (zh) | 故障识别方法及装置、电子设备和可读存储介质 | |
CN110413482B (zh) | 检测方法和装置 | |
CN116739605A (zh) | 交易数据检测方法、装置、设备及存储介质 | |
CN115150289B (zh) | 基于复合监控的异常处理方法及系统 | |
CN116304910A (zh) | 运维数据的异常检测方法、装置、设备及存储介质 | |
CN115293735A (zh) | 一种无人工厂工业互联网平台监测管理方法及系统 | |
JP2022037107A (ja) | 障害分析装置、障害分析方法および障害分析プログラム | |
CN113986671A (zh) | 运维数据异常检测方法、装置、设备及介质 | |
CN113656452A (zh) | 调用链指标异常的检测方法、装置、电子设备及存储介质 | |
CN111651753A (zh) | 用户行为分析系统及方法 | |
CN113052509A (zh) | 模型评估方法、模型评估装置、电子设备和存储介质 | |
CN117172721B (zh) | 用于融资业务的数据流转监管预警方法及系统 | |
CN113269431B (zh) | 库存风险预测方法、设备、介质及计算机程序产品 | |
CN111882063B (zh) | 适应低预算的数据标注请求方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210121 Address after: 100140, 55, Fuxing Avenue, Xicheng District, Beijing Applicant after: INDUSTRIAL AND COMMERCIAL BANK OF CHINA Applicant after: ICBC Technology Co.,Ltd. Address before: 071700 unit 111, 1st floor, building C, enterprise office area, xiong'an Civic Service Center, Rongcheng County, xiong'an District, China (Hebei) pilot Free Trade Zone, Hebei Province Applicant before: ICBC Technology Co.,Ltd. |