CN112953845A

CN112953845A - 分布式系统流量控制方法及装置

Info

Publication number: CN112953845A
Application number: CN202110154083.XA
Authority: CN
Inventors: 隋臣; 徐克宝; 吴成龙; 施生燊
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2021-02-04
Filing date: 2021-02-04
Publication date: 2021-06-11
Anticipated expiration: 2041-02-04
Also published as: CN112953845B

Abstract

本发明公开了一种分布式系统流量控制方法及装置，可用于金融领域或其他技术领域，该方法包括：获取分布式系统中服务器当前的运行状态数据；将所述当前的运行状态数据输入到预设的分类神经网络中，得到所述服务器当前的状态；确定所述当前的状态在预设的Q表格中对应的最大Q值，并确定该最大Q值对应的流量控制策略，以根据该最大Q值对应的流量控制策略对所述服务器进行流量控制，其中，所述Q表格为根据历史流量控制数据采用Q‑Learning算法训练得出的。本发明解决了现有技术人工设置控制规则的方式存在的控制效果难以保证以及难以确保系统运行的稳定性的技术问题。

Description

分布式系统流量控制方法及装置

技术领域

本发明涉及人工智能技术领域，具体而言，涉及一种分布式系统流量控制方法及装置。

背景技术

对于分布式系统，在服务数量多、拓扑复杂、处理能力逐渐变化的情况下，使用固定的最大并发会带来巨大的工作量以及可能导致系统服务不稳定。为了保护系统服务的稳定，用户需要设置流量控制规则，以对分布式系统的流量进行控制。目前分布式集群中的流量控制往往采用人工手动设置流量控制规则的方式，这种人工设置控制规则的方式控制效果难以保证，难以确保系统运行的稳定性。

发明内容

本发明为了解决上述背景技术中的技术问题，提出了一种分布式系统流量控制方法及装置。

为了实现上述目的，根据本发明的一个方面，提供了一种分布式系统流量控制方法，该方法包括：

获取分布式系统中服务器当前的运行状态数据；

将所述当前的运行状态数据输入到预设的分类神经网络中，得到所述服务器当前的状态；

确定所述当前的状态在预设的Q表格中对应的最大Q值，并确定该最大Q值对应的流量控制策略，以根据该最大Q值对应的流量控制策略对所述服务器进行流量控制，其中，所述Q表格为根据历史流量控制数据采用Q-Learning算法训练得出的。

可选的，所述历史流量控制数据包含：多种状态、多种流量控制策略、在每种状态下分别执行每种流量控制策略后达到的下一种状态以及在每种状态下分别执行每种流量控制策略的真实Q值。

可选的，所述运行状态数据包括：服务器的平均负载、服务器的CPU使用率、服务器的平均响应时间以及服务器的并发线程数中的至少一种。

可选的，该分布式系统流量控制方法，还包括：

获取所述历史流量控制数据；

根据所述历史流量控制数据采用Q-Learning算法进行模型训练，得到训练出的算法参数以及Q表格。

可选的，所述根据所述历史流量控制数据采用Q-Learning算法进行模型训练，包括：

在进行模型训练时使训练出的Q表格中的每个Q值逼近对应的所述真实Q值。

根据所述历史流量控制数据随机生成初始Q表格；

根据所述初始Q表格以及所述历史流量控制数据采用Q-Learning算法进行模型训练。

可选的，所述多种状态为将服务器历史的运行状态数据输入到所述分类神经网络中得到的。

为了实现上述目的，根据本发明的另一方面，提供了一种分布式系统流量控制装置，该装置包括：

运行状态数据获取单元，用于获取分布式系统中服务器当前的运行状态数据；

当前状态确定单元，用于将所述当前的运行状态数据输入到预设的分类神经网络中，得到所述服务器当前的状态；

流量控制策略确定单元，用于确定所述当前的状态在预设的Q表格中对应的最大Q值，并确定该最大Q值对应的流量控制策略，以根据该最大Q值对应的流量控制策略对所述服务器进行流量控制，其中，所述Q表格为根据历史流量控制数据采用Q-Learning算法训练得出的。

为了实现上述目的，根据本发明的另一方面，还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述分布式系统流量控制方法中的步骤。

为了实现上述目的，根据本发明的另一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序在计算机处理器中执行时实现上述分布式系统流量控制方法中的步骤。

本发明的有益效果为：本发明根据历史流量控制数据采用Q-Learning算法训练出Q表格，并根据服务器当前的状态以及训练出的Q表格自动确定出流量控制策略，实现了自动地确定最佳流量控制策略的效果，解决了现有技术人工设置控制规则的方式存在的控制效果难以保证以及难以确保系统运行的稳定性的技术问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本发明实施例分布式系统流量控制方法的流程图；

图2是本发明实施例模型训练的流程图；

图3是本发明实施例Q表格示意图；

图4是本发明实施例引入强化学习系统结构图；

图5是本发明实施例学习效果图；

图6是本发明实施例分布式系统流量控制装置的结构框图；

图7是本发明实施例计算机设备示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

需要说明的是，本发明的分布式系统流量控制方法及装置可用于金融领域，也可以应用于其他技术领域。

图1是本发明实施例分布式系统流量控制方法的流程图，如图1所示，本实施例的分布式系统流量控制方法包括步骤S101至步骤S103。

步骤S101，获取分布式系统中服务器当前的运行状态数据。

在本发明一个实施例中，分布式系统中包含多个服务器，本步骤具体获取分布式系统中每个服务器的运行状态数据。

在本发明一个实施例中，所述运行状态数据包括：服务器的平均负载、服务器的CPU使用率、服务器的平均响应时间以及服务器的并发线程数中的至少一种。

在本发明一个具体实施例中，所述运行状态数据包括：服务器的平均负载、服务器的CPU使用率、服务器的平均响应时间以及服务器的并发线程数四种数据。

步骤S102，将所述当前的运行状态数据输入到预设的分类神经网络中，得到所述服务器当前的状态。

在本发明实施例中，由于运行状态数据包含四种数据，每种数据的取值很多，四种数据可以有成千上万种组合，如果直接根据运行状态数据进行模型训练，那么训练工作量将会十分庞大。因此，本发明先将成千上万种组合的运行状态数据进行分类，分类为多个状态，进而在模型训练采用分类的状态进行模型训练，加快了模型训练速度。在本发明实施例中，本发明可以以大量的历史运行状态数据作为训练数据训练出分类神经网络，本发明可以采用现有技术任意一种分类神经网络进行训练。

步骤S103，确定所述当前的状态在预设的Q表格中对应的最大Q值，并确定该最大Q值对应的流量控制策略，以根据该最大Q值对应的流量控制策略对所述服务器进行流量控制，其中，所述Q表格为根据历史流量控制数据采用Q-Learning算法训练得出的。

在本发明实施例中，Q-Learning算法的思想为根据当前所处的状态(State)，随机地执行一种动作(Action)，该动作作用到所处的环境中，从而得到对应的奖励(Reward)，奖励值会更新到Q值中，反馈中该动作的效用大小。模型的训练成果是一个Q-table(Q表格)，它记录了每种状态下，执行不同的动作得到的Q值Q(s,a)，Q值反应了奖励的期望值。本发明在训练出Q表格后，将会选择当前状态下最大Q值所对应的动作，本发明通过试错学习和更新Q值，对不同的系统状态和流量情况，能够学习最优的决策。在本发明中，Q-Learning算法的状态(State)为服务器的状态，动作(Action)为流量控制策略。

图3是本发明一个实施例Q表格示意图，如图3所示，Q表格中的s₁至s_n表示多个服务器状态，a₁至a_n表示多个流量控制策略，坐标(s_n，a_n)对应的值为Q值，表示在状态s_n下执行流量控制策略a_n的Q值。

本步骤先确定当前的状态在Q表格中对应的最大Q值，进而根据该最大Q值对应的流量控制策略对所述服务器进行流量控制。例如在图3中，当前的服务器的状态为s₂，则在s₂对应的行中查找出最大的Q值为7，则此时采用最大的Q值为7对应的流量控制策略a₃对服务器进行流量控制。

在本发明实施例中，分布式系统中包含多个服务器，本发明针对每个服务器采用上述步骤S101至步骤S103确定出服务器的当前状态对应的流量控制策略，进而根据对应的流量控制策略对分布式系统中的各服务器进行流量控制。

在本发明一个实施例中，所述历史流量控制数据包含：多种状态、多种流量控制策略、在每种状态下分别执行每种流量控制策略后达到的下一种状态以及在每种状态下分别执行每种流量控制策略的真实Q值。在本发明一个实施例中，本发明的Q表格具体为根据多组历史流量控制数据采用Q-Learning算法训练得出的，每组历史流量控制数据包含上述内容。

在本发明一个实施例中，所述多种状态为将服务器历史的运行状态数据输入到所述分类神经网络中得到的，所述多种流量控制策略为用户预先设置的，在每种状态下分别执行每种流量控制策略的真实Q值为用户预先配置的。

在本发明一个实施例中，在根据历史流量控制数据采用Q-Learning算法进行训时，不断地根据历史流量控制数据进行迭代训练，使训练出的Q表格中的每个Q值逼近对应的所述真实Q值。

由此可见，本发明根据历史流量控制数据采用Q-Learning算法训练出Q表格，并根据服务器当前的状态以及训练出的Q表格自动确定出流量控制策略，实现了自动地确定最佳流量控制策略的效果，解决了现有技术人工设置控制规则的方式存在的控制效果难以保证以及难以确保系统运行的稳定性的技术问题。

下面对如何训练出Q表格进行介绍。图2是本发明实施例模型训练的流程图，如图2所示，在本发明一个实施例中，本发明的模型训练流程包括步骤S201和步骤S202。

步骤S201，获取所述历史流量控制数据。

步骤S202，根据所述历史流量控制数据采用Q-Learning算法进行模型训练，得到训练出的算法参数以及Q表格。

在本发明一个实施例中，本步骤可以根据Q-Learning的更新迭代算法不断的进行迭代训练，使训练出的Q表格中的每个Q值逼近对应的真实Q值。Q-Learning的更新迭代算法可以如下：

迭代训练的流程大致为，对于每一个时间点t，在状态st下执行动作at之后，迭代算法计算并更新该动作的期望奖励(即Q值)。

at(st,at)是大小在[0,1]之间的数值，代表执行动作带来的奖励对Q值的影响程度。

r_t+1是奖励及惩罚参数，是执行动作at得到的奖励值，这里奖励值是a或者b，a是一个正值，代表如果效果变大，则给予奖，b是一个负值，代表如果效用减小，则给予惩罚。

maxQ(s_t+1，a)是在下一个状态s_t+1下执行每一种动作得到的最大Q值，引入该值是为了考虑到下一个状态s_t+1下，执行动作a_t+1得到的奖惩，引入该项不仅考虑到当前状态，还考虑了下一状态。

在本发明实施例中，本发明根据上述Q-Learning的更新迭代算法不断的进行迭代训练，最终训练出Q表格Q(st,at)，以及上述算法中的算法参数：at(st,at)、r_t+1以及γ。

在本发明实施例中，训练出的Q表格记录了每种状态(state)下，采取不同的动作(Action)得到的Q值Q(s,a)，Q值反应了奖励的期望值，当Q表格学习完成后，模型执行当前状态下最大Q值所对应的动作。

在本发明一个实施例中，本步骤在进行模型训练时使训练出的Q表格中的每个Q值逼近对应的所述真实Q值。

在本发明一个实施例中，本步骤的进行模型训练具体包括：先根据所述历史流量控制数据随机生成初始Q表格，进而根据所述初始Q表格以及所述历史流量控制数据采用Q-Learning算法进行模型训练。在本发明实施例中，随机生成初始Q表格为

在本发明实施例中，本发明在实际应用过程中，可以根据当前的流量控制数据不断对训练出的算法参数以及Q表格进行优化。在本发明实施例中，本发明在实际应用过程中，对未出现过的输入组合，本发明所采用的算法因有奖励及惩罚参数，会对已经训练好的算法参数进行微调，最终会达到较好的预期，图5是本发明实施例学习效果图。

图4是本发明实施例引入强化学习系统结构图，在图4中，QL Analyzer用于接收一系列来自请求收集器(Query Collector)的请求和来自资源监控器(Resource Monitor)的可用资源，并将这些信息发送给状态选取器(State Action Pair Selector)。

状态选取器(State Action Pair Selector)，用于对最贴近当前输入的状态进行匹配，并为每个智能体(Agent)分配动作(Action)。

奖励计算器(Reward Calculator)，用于计算每个Agent获得的奖励。

Q-table生成器(Q-table Generator)，用于构建Q-table。

Q值计算器(Q-value Calculator)继承了Q-learning的算法来计算相应节点的Q值，并更新到Q-table中。

QL History Generator，用于存储行为数组(st,at)，以及对应的Q值。

Query Mapping Engine，用于计算了平均分配的请求，并且分配请求给已选中的资源。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

基于同一发明构思，本发明实施例还提供了一种分布式系统流量控制装置，可以用于实现上述实施例所描述的分布式系统流量控制方法，如下面的实施例所述。由于分布式系统流量控制装置解决问题的原理与分布式系统流量控制方法相似，因此分布式系统流量控制装置的实施例可以参见分布式系统流量控制方法的实施例，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图6是本发明实施例分布式系统流量控制装置的结构框图，如图6所示，本发明实施例分布式系统流量控制装置包括：

运行状态数据获取单元1，用于获取分布式系统中服务器当前的运行状态数据；

当前状态确定单元2，用于将所述当前的运行状态数据输入到预设的分类神经网络中，得到所述服务器当前的状态；

流量控制策略确定单元3，用于确定所述当前的状态在预设的Q表格中对应的最大Q值，并确定该最大Q值对应的流量控制策略，以根据该最大Q值对应的流量控制策略对所述服务器进行流量控制，其中，所述Q表格为根据历史流量控制数据采用Q-Learning算法训练得出的。

在本发明一个实施例中，本发明的分布式系统流量控制装置，还包括：

数据获取单元，用于获取所述历史流量控制数据；

模型训练单元，用于根据所述历史流量控制数据采用Q-Learning算法进行模型训练，得到训练出的算法参数以及Q表格。

在本发明一个实施例中，所述模型训练单元在进行模型训练时使训练出的Q表格中的每个Q值逼近对应的所述真实Q值。

在本发明一个实施例中，所述模型训练单元，包括：

初始Q表格生成模块，用于根据所述历史流量控制数据随机生成初始Q表格；

迭代模块，用于根据所述初始Q表格以及所述历史流量控制数据采用Q-Learning算法进行模型训练。

为了实现上述目的，根据本申请的另一方面，还提供了一种计算机设备。如图7所示，该计算机设备包括存储器、处理器、通信接口以及通信总线，在存储器上存储有可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述实施例方法中的步骤。

处理器可以为中央处理器(Central Processing Unit，CPU)。处理器还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及单元，如本发明上述方法实施例中对应的程序单元。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及作品数据处理，即实现上述方法实施例中的方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个单元存储在所述存储器中，当被所述处理器执行时，执行上述实施例中的方法。

上述计算机设备具体细节可以对应参阅上述实施例中对应的相关描述和效果进行理解，此处不再赘述。

为了实现上述目的，根据本申请的另一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序在计算机处理器中执行时实现上述分布式系统流量控制方法中的步骤。本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(RandomAccessMemory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard DiskDrive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种分布式系统流量控制方法，其特征在于，包括：

获取分布式系统中服务器当前的运行状态数据；

2.根据权利要求1所述的分布式系统流量控制方法，其特征在于，所述历史流量控制数据包含：多种状态、多种流量控制策略、在每种状态下分别执行每种流量控制策略后达到的下一种状态以及在每种状态下分别执行每种流量控制策略的真实Q值。

3.根据权利要求1所述的分布式系统流量控制方法，其特征在于，所述运行状态数据包括：服务器的平均负载、服务器的CPU使用率、服务器的平均响应时间以及服务器的并发线程数中的至少一种。

4.根据权利要求2所述的分布式系统流量控制方法，其特征在于，还包括：

获取所述历史流量控制数据；

5.根据权利要求4所述的分布式系统流量控制方法，其特征在于，所述根据所述历史流量控制数据采用Q-Learning算法进行模型训练，包括：

6.根据权利要求4所述的分布式系统流量控制方法，其特征在于，所述根据所述历史流量控制数据采用Q-Learning算法进行模型训练，包括：

根据所述历史流量控制数据随机生成初始Q表格；

7.根据权利要求2所述的分布式系统流量控制方法，其特征在于，所述多种状态为将服务器历史的运行状态数据输入到所述分类神经网络中得到的。

8.一种分布式系统流量控制装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任意一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序在计算机处理器中执行时实现如权利要求1至7任意一项所述的方法。