CN107943579A

CN107943579A - 资源瓶颈预测方法、设备、系统及可读存储介质

Info

Publication number: CN107943579A
Application number: CN201711094195.0A
Authority: CN
Inventors: 李冕正; 曾纪策; 朱红燕; 莫林林
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2017-11-08
Filing date: 2017-11-08
Publication date: 2018-04-20
Anticipated expiration: 2037-11-08
Also published as: CN107943579B

Abstract

本发明公开了一种资源瓶颈预测方法，应用于分布式业务系统，包括以下步骤：通过机器学习方式，建立单个主机的消息量与资源使用之间的数学模型；基于消息总线的消息调用关系，生成各服务场景所对应业务的调用树；基于所述数学模型与所述调用树，对所述业务进行资源瓶颈预测。本发明还提供一种资源瓶颈预测设备、分布式业务系统及计算机可读存储介质。本发明实现了对资源使用的量化，并建立了业务与资源的关联关系，进而能够基于业务维度对资源瓶颈进行科学化地预测。

Description

资源瓶颈预测方法、设备、系统及可读存储介质

技术领域

本发明涉及机器资源预测技术领域，尤其涉及一种资源瓶颈预测方法、设备、分布式业务系统及计算机可读存储介质。

背景技术

为提升机器资源的利用效率，现有业务系统大都采用混布的分布式部署架构，在这样的模式下资源被充分利用，同时也能大大降低系统维护成本。

为最大程度地利用机器资源，在现有的分布式业务系统中常常出现多个服务同时部署在同一个机器上的情况，而这些服务之间的资源抢占是一个比较难以预估问题。现有方式只能根据测试环境的运行，大概估计生产可能出现的情况。但是由于测试环境与生产环境各方面都存在很大的差异，模拟完全吻合的情况时间成本太高，因此，由于资源抢占而导致的资源瓶颈问题，已大大影响到了业务系统的正常运行。

发明内容

本发明的主要目的在于提供一种资源瓶颈预测方法、设备、分布式业务系统及计算机可读存储介质，旨在解决现有技术中由于资源抢占而导致的资源瓶颈问题无法科学预测，进而不能得到解决而影响业务系统正常运行的技术问题。

为实现上述目的，本发明提供一种资源瓶颈预测方法，应用于分布式业务系统，所述资源瓶颈预测方法包括以下步骤：

通过机器学习方式，建立单个主机的消息量与资源使用之间的数学模型；

基于消息总线的消息调用关系，生成各服务场景所对应业务的调用树；

基于所述数学模型与所述调用树，对所述业务进行资源瓶颈预测。

可选地，所述通过机器学习方式，建立单个主机的消息量与资源使用之间的数学模型包括：

以一个主机为一个训练模型、以该主机上每个服务的每种调用方式的数据使用量作为该训练模型的输入量、以该主机的资源使用的量化数据为该训练模型的输出量、采用机器学习算法对所述输入量与所述输出量的取值样本进行训练，得到单个主机对应的消息量与资源使用的数学模型。

可选地，所述训练模型如下所示：

其中，n为自然数、表示该主机具有n种服务，i为自然数、表示第i种服务，x_i表示第i种服务下的每种调用方式的数据使用量，f_i(x_i)表示第i种服务所在场景下的消息量与资源使用的函数关系，b表示主机自身运行n种服务所需使用的常驻资源量，F(x)表示n种服务各自所在场景下的消息量与资源使用的函数关系。

可选地，所述基于消息总线的消息调用关系，生成各服务场景所对应业务的调用树包括：

基于消息总线的消息调用关系，确定各消息量各自对应的服务场景以及各服务场景对应服务之间的线上调用关系；

基于各服务场景对应服务之间的线上调用关系，拼凑生成各服务场景所对应的同一业务的调用树，其中，所述调用树包括多个节点且每一节点对应一种服务场景。

可选地，所述基于所述数学模型与所述调用树，对所述业务进行资源瓶颈预测包括：

以所述业务的实际业务量作为消息量，计算所述调用树中每一个节点上的每一台主机所平摊的消息量；

将每一台主机所平摊的消息量分别代入各自主机对应的数学模型中进行计算，得到所述调用树中每一个节点上的每一台主机所平摊的资源使用量；

基于所述调用树中每一个节点上的每一台主机所平摊的资源使用量，对所述业务进行资源瓶颈预测。

可选地，所述基于所述调用树中每一个节点上的每一台主机所平摊的资源使用量，对所述业务进行资源瓶颈预测包括：

基于所述调用树中每一个节点上的每一台主机所平摊的资源使用量，判断所述调用树中是否存在资源使用量超过合理范围的节点；

若存在，则预警所述业务中所述资源使用量超过合理范围的节点对应的服务场景存在资源瓶颈。

可选地，在单个主机中，使用的资源至少包括：CPU、内存、IO、硬盘。

进一步地，为实现上述目的，本发明还提供一种资源瓶颈预测设备，所述资源瓶颈预测设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的资源瓶颈预测程序，所述资源瓶颈预测程序被所述处理器执行时实现如上述任一项所述的资源瓶颈预测方法的步骤。

进一步地，为实现上述目的，本发明还提供一种分布式业务系统，所述分布式业务系统包括多台采用分布式部署架构的主机，以及还包括如上所述的资源瓶颈预测设备。

进一步地，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有资源瓶颈预测程序，所述资源瓶颈预测程序被所述处理器执行时实现如上述任一项所述的资源瓶颈预测方法的步骤。

本发明中，通过分析消息总线的数据，将消息对应的场景跟主机进行关联，通过机器学习的方式寻找消息量与资源使用的关联关系。同时，将消息拼凑成调用树，建立调用树与业务的对应关系，由此来找出业务与资源使用的关联关系。当这个关系被量化了之后，即可基于业务角度，对每个业务下的各个服务场景经过的所有节点进行资源瓶颈的预测，通过对资源使用的量化处理，从而建立了更加清晰、直接的业务与资源的关联关系，提升了资源瓶颈预测的准确性与科学性。

附图说明

图1为本发明实施例方案涉及的设备硬件运行环境的结构示意图；

图2为本发明分布式业务系统一实施例的功能模块示意图；

图3为本发明资源瓶颈预测方法一实施例的流程示意图；

图4为本发明资源瓶颈预测方法一实施例中调用树的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的设备硬件运行环境的结构示意图。

本发明实施例资源瓶颈预测设备可以是PC机、服务器，也可以是平板电脑、便携计算机等具有显示功能的设备。

如图1所示，该资源瓶颈预测设备可以包括：处理器1001，例如CPU，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。

本领域技术人员可以理解，图1中示出的资源瓶颈预测设备的硬件结构并不构成对资源瓶颈预测设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及计算机程序，比如资源瓶颈预测程序等。其中，操作系统是管理和控制资源瓶颈预测设备与软件资源的程序，支持网络通信模块、用户接口模块、资源瓶颈预测程序以及其他程序或软件的运行；网络通信模块用于管理和控制网络接口1002；用户接口模块用于管理和控制用户接口1003。

在图1所示的资源瓶颈预测设备硬件结构中，网络接口1004主要用于连接系统后台，与系统后台进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；资源瓶颈预测设备通过处理器1001调用存储器1005中存储的资源瓶颈预测程序，以执行以下操作：

进一步地，所述资源瓶颈预测设备通过处理器1001调用存储器1005中存储的资源瓶颈预测程序，以执行以下操作：

参照图2，图2为本发明分布式业务系统一实施例的功能模块示意图。

本实施例中，分布式业务系统包括：多台采用分布式部署架构的主机10、资源瓶颈预测设备20(以下简称预测设备20)。

本实施例对于主机10与预测设备20之间的连接方式不限，具体根据实际需要进行设置。

本实施例中，采用分布式部署架构的主机10在执行服务过程中，存在资源抢占的问题，进而可能导致出现资源瓶颈而致使业务系统运行受到影响。因此，通过预测设备20能够科学准确地预测可能发生资源瓶颈的主机10，以供运维人员参考并解决，避免了人为主观预测的不可靠性以及过高的时间成本问题。

基于上述资源瓶颈预测设备的硬件结构，提出本发明资源瓶颈预测方法的各个实施例。

参照图3，图3为本发明资源瓶颈预测方法一实施例的流程示意图。

本实施例应用于存在资源瓶颈问题的分布式业务系统，所述资源瓶颈预测方法包括以下步骤：

步骤S10，通过机器学习方式，建立单个主机的消息量与资源使用之间的数学模型；

本实施例中，若要实现对资源瓶颈的预测，则必然需要实现对资源使用的科学量化。而对于资源使用的量化大体上可考虑以下两种方式：

方式一，在主机运行过程中，直接测算其资源的使用情况，进而得到资源使用的量化数据；

方式二、通过某一关联数据，间接实现对主机运行过程中的资源使用的量化。

显然，对于一个庞大的业务系统来说，方式一的量化方式并不可取，那么，对于方式二来说，具体该选用何种关联数据来量化资源使用。本实例中，考虑到资源瓶颈的预测具体应用于业务中，而对于业务来说，业务的实现体现在服务的调度上，而服务的调度在数据上具体是通过消息总线来实现的。

因此，本实施例具体是通过分析消息总线的数据，进而将消息对应的服务场景跟主机进行关联，通过机器学习的方式寻找消息量与资源消耗的关联关系。

本实施例中，预测设备20在进行资源瓶颈预测之前，需要预先通过机器学习方式，建立分布式系统中，每一个单个主机的消息量与资源使用之间的数学模型。

步骤S20，基于消息总线的消息调用关系，生成各服务场景所对应业务的调用树；

本发明的目的是以从一个业务的维度来寻找资源瓶颈，因此，为实现该目的，本实施例还需进一步建立业务与资源使用之间的关联关系。

考虑到业务是通过服务的调度来实现的，而服务的调度在数据上又具体是通过消息总线来实现的，因此，可通过消息拼凑成调用树，从而建立调用树与业务的对应关系，由此来找出业务与资源使用之间的关联关系。

例如，图4所示的调用树，假设该调用树对应业务A，而该业务A存在六个服务场景，分别是服务场景1、2、3、4、5、6，每一个服务场景对应一个调用树节点。比如服务场景1通过调用某服务而形成服务场景2，服务场景2调用某服务而形成服务场景4。

因此，预测设备20基于上述消息调用关系，即可拼凑生成各服务场景所对应业务的调用树。

可选的，预测设备20基于消息总线的消息调用关系，确定各消息量各自对应的服务场景以及各服务场景对应服务之间的线上调用关系；然后再基于各服务场景对应服务之间的线上调用关系，拼凑生成各服务场景所对应的同一业务的调用树，其中，调用树包括多个节点且每一节点对应一种服务场景。

步骤S30，基于所述数学模型与所述调用树，对所述业务进行资源瓶颈预测。

本实施例中，通过数学模型，建立了消息量与资源使用的关联关系，而通过调用树，建立了业务与资源使用的关联关系。当资源使用被量化并与业务进行关联之后，即可实现对资源瓶颈的预测。

本实施例对于在业务中进行资源瓶颈预设的方式不限，具体根据实际需要进行设置。比如将已知的业务量作为调用树中某一节点上主机的数学模型的输入量，即可得出该节点的主机对于该业务量所承担的资源量，从而可判断是否存在资源瓶颈问题。

本实施例中，通过分析消息总线的数据，将消息对应的场景跟主机进行关联，通过机器学习的方式寻找消息量与资源使用的关联关系。同时，将消息拼凑成调用树，建立调用树与业务的对应关系，由此来找出业务与资源使用的关联关系。当这个关系被量化了之后，即可基于业务角度，对每个业务下的各个服务场景经过的所有节点进行资源瓶颈的预测，通过对资源使用的量化处理，从而建立了更加清晰、直接的业务与资源的关联关系，提升了资源瓶颈预测的准确性与科学性。

可选的，在本发明资源瓶颈预测方法一实施例中，预测设备20具体以一个主机为一个训练模型、以该主机上每个服务的每种调用方式的数据使用量作为该训练模型的输入量、以该主机的资源使用的量化数据为该训练模型的输出量、采用机器学习算法对所述输入量与所述输出量的取值样本进行训练，得到单个主机对应的消息量与资源使用的数学模型。

可选的，所述训练模型如下所示：

通常，在分布式部署架构中，在一个主机上，可能部署了多个子系统(包含有应用程序)，而每个子系统又都存在多种不同的服务场景。而在每台主机上，应用程序使用的资源一般存在三种情形：

(1)本主机上的子系统所提供的服务被调用；(2)本主机上的子系统主动调用其他子系统的服务；(3)应用程序自身运行需要耗费的常驻资源。

一般而言，第三种情形是比较固定的，而第一、二种情形是随着业务量的大小而波动的，并最终都会以消息的形式使用。

因此，本实施例中，将每一台主机单独作为一个训练模型，而该主机的每个服务的每种调用方式的使用量作为使用资源的输入，而使用的资源则是输出，采用机器学习算法对所述输入量与所述输出量的取值样本进行训练，进而得到单个主机对应的消息量与资源使用的数学模型。

例如，可采用神经网络算法进行训练，比如神经网络算法中采用的激活函数为线性函数，则对应的训练模型的数学表达式可表示为：

W₁*x₁+W₂*x₂+W₃*x₃+…W_n*x_n+b＝F(x₁,x₂,x₃，,,,x_n)

需要进一步说明的是，在分布式部署架构中，并不是每台机器都使用相同的训练模型，也即各主机的训练模型既可能相同，也可能不相同。

在机器学习训练中，可以将每天的机器资源使用按时间切片，同时找到该时间切片对应的消息量，也即上述数学模型的输入量应该为一个P*Q的矩阵，其中，P表示机器上的服务场景数量，Q表示每天的机器资源取值样本数量。

而上述数学模型的输出量为X*Q矩阵，其中，X为统计的资源类型，例如CPU、内存、IO、硬盘、网卡。所有的输出数据都是量化的资源数据，比如某些参数只能采集到利用率的，则结合实际硬件的性能，如CPU可结合内核数目而将其量化为一个具体的数值，网卡通过流量进行量化。

通过上述训练，即可求解各服务对应的消息量与资源使用的函数关系中的系数W_n、常数b，进而最终得到函数F(x₁,x₂,x₃，,,,x_n)，也即以单个主机为单训练位的消息量与资源使用的数学模型。

进一步地，在本发明资源瓶颈预测方法另一实施例中，所述基于所述数学模型与所述调用树，对所述业务进行资源瓶颈预测包括：

步骤一、以所述业务的实际业务量作为消息量，计算所述调用树中每一个节点上的每一台主机所平摊的消息量；

步骤二、将每一台主机所平摊的消息量分别代入各自主机对应的数学模型中进行计算，得到所述调用树中每一个节点上的每一台主机所平摊的资源使用量；

步骤三、基于所述调用树中每一个节点上的每一台主机所平摊的资源使用量，对所述业务进行资源瓶颈预测。

例如，假设执行业务A的业务量为O，那么选取调用树中一个节点为例，比如图4所示调用树中的节点3，且该节点3的服务场景由N台主机承担，那么针对单个业务A，平摊到节点3上的每台主机的消息量为O/N。将消息量O/N传入该台主机的数学模型中，得到该台主机所平摊的资源使用量。然后依次计算得到调用树中每一个节点上的每一台主机所平摊的资源使用量。

本实施例中，预测设备20基于调用树中每一个节点上的每一台主机所平摊的资源使用量，即可对业务进行资源瓶颈预测，具体预设方式不限。

可选的，预测设备20基于调用树中每一个节点上的每一台主机所平摊的资源使用量，判断调用树中是否存在资源使用量超过合理范围的节点；若存在，则预警业务中该资源使用量超过合理范围的节点对应的服务场景存在资源瓶颈。

此外，预测设备20基于单个主机的数学模型还可进行以下应用：

(1)未来或推广期的资源瓶颈预测。一般在不出现特殊因素的情况下，基于时间的未来业务量预测都可以做得比较准确。例如，将业务量的预测值作为数学模型的输入量，进而计算得到对应的输出量-未来的资源使用需求。同理，在业务推广的情况下，预计的业务并发量也可以当成数学模型的输入量而得到相应的输出量，并进行资源瓶颈预测。

(2)应用架构合理性分析。通常，在一个业务占用资源高一般有两种情形：一种是业务量大，另一种则是业务逻辑不合理。在实际应用中，可以将单笔交易的业务量当成数学模型的输入量，进而得到该单笔交易的资源使用情况，最后再从宏观的角度去比较评价不同业务单笔交易所使用的资源情况，这在一定程度上可以反映出业务应用架构的优劣。

例如，A业务和B业务类似，但A业务每笔交易占用资源远远高于B业务，那么根据B业务的调用树，分析A业务的调用树中哪个节点占用的资源高、为什么会占用那么高、如何优化。

(3)版本bug的协助定位。上述说到的数学模型是基于历史数据训练出来的，即按照历史数据：多大的消息量，对应的资源占用是多大。而在发布了新版本之后，如果预测的资源占用值与实际资源占用值出现重大偏离，则说明可能存在问题，因此，同样结合业务调用树，即可快速定位到偏离正常轨迹的问题节点，最后通过定位问题原因以解决版本bug。

本发明还提供一种应用于资源瓶颈预测设备的计算机可读存储介质。

本发明的计算机可读存储介质上存储有资源瓶颈预测程序，该资源瓶颈预测程序被处理器执行时实现上述资源瓶颈预测方法任一实施例中的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，这些均属于本发明的保护之内。

Claims

1.一种资源瓶颈预测方法，应用于分布式业务系统，其特征在于，所述资源瓶颈预测方法包括以下步骤：

2.如权利要求1所述的资源瓶颈预测方法，其特征在于，所述通过机器学习方式，建立单个主机的消息量与资源使用之间的数学模型包括：

3.如权利要求2所述的资源瓶颈预测方法，其特征在于，所述训练模型如下所示：

<mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>f</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>b</mi> <mo>=</mo> <mi>F</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

4.如权利要求1-3中任一项所述的资源瓶颈预测方法，其特征在于，所述基于消息总线的消息调用关系，生成各服务场景所对应业务的调用树包括：

5.如权利要求4所述的资源瓶颈预测方法，其特征在于，所述基于所述数学模型与所述调用树，对所述业务进行资源瓶颈预测包括：

6.如权利要求5所述的资源瓶颈预测方法，其特征在于，所述基于所述调用树中每一个节点上的每一台主机所平摊的资源使用量，对所述业务进行资源瓶颈预测包括：

7.如权利要求1所述的资源瓶颈预测方法，其特征在于，在单个主机中，使用的资源至少包括：CPU、内存、IO、硬盘。

8.一种资源瓶颈预测设备，其特征在于，所述资源瓶颈预测设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的资源瓶颈预测程序，所述资源瓶颈预测程序被所述处理器执行时实现如权利要求1至7中任一项所述的资源瓶颈预测方法的步骤。

9.一种分布式业务系统，所述分布式业务系统包括多台采用分布式部署架构的主机，其特征在于，还包括权利要求8所述资源瓶颈预测设备。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有资源瓶颈预测程序，所述资源瓶颈预测程序被所述处理器执行时实现如权利要求1至7中任一项所述的资源瓶颈预测方法的步骤。