CN117792903A

CN117792903A - 基于深度强化学习的企业中台服务评估与动态治理方法

Info

Publication number: CN117792903A
Application number: CN202311744837.2A
Authority: CN
Inventors: 栾宁; 仇红剑; 李春霞; 凌进
Original assignee: Jiangsu Electric Power Information Technology Co Ltd
Current assignee: Jiangsu Electric Power Information Technology Co Ltd
Priority date: 2023-12-19
Filing date: 2023-12-19
Publication date: 2024-03-29

Abstract

本发明公开了一种基于深度强化学习的企业中台服务评估与动态治理方法，通过实时收集中台服务的各项指标和运行状态数据，建立异常时间条件模型识别并分析服务运行状态中的异常情况，进而利用深度强化学习算法对异常情况进行动态治理，实时监测与及时发现问题，从而提高对服务故障和性能下降的及时处理能力，提高评估和治理的准确性，依靠人工干预和经验判断的方法容易出现主观性、局限性和不一致性。本发明可以基于更加客观和准确的指标进行服务评估和决策，避免了人为错误和判断的不确定性，从而提高中台服务的稳定性和可靠性。

Description

基于深度强化学习的企业中台服务评估与动态治理方法

技术领域

本发明属于企业中台服务网格技术领域，具体涉及一种基于深度强化学习的企业中台服务评估与动态治理方法。

背景技术

经过十多年的信息化建设，国网公司的信息系统已广泛应用于企业经营、电网运行和客户服务等领域。这些系统在不同层级上的应用为公司的各项业务提供了有效支持。在数字化转型过程中，企业中台的建设为业务单元的业务与数据积累提供了基础，通过标准化数据格式、统一的数据接口和数据治理策略，实现了数据的共享、交换和流通。中台服务起着至关重要的作用。中台服务是指为企业内部不同部门和业务提供共享和集成的技术服务。这些中台服务通常用于支持企业内部的业务流程和决策。然而，由于不同业务需求的复杂性和变化性，中台服务的稳定性和可靠性成为了一个挑战。

随着企业信息化的发展，企业中台服务的稳定性和可靠性越来越受到重视。传统的中台服务评估和治理方法主要依赖于人工干预和经验判断，对服务的运行状态进行监控和管理，这种方式存在一定的局限性，如阈值设置不合理、对异常情况的判断不准确等。首先，人工监测服务的运行状态需要花费大量的时间和精力，无法实时获得服务的运行情况。这限制了对服务异常情况的及时发现和处理能力，可能导致服务故障或性能下降的延误。其次，人工调整和治理服务容易出现错误，因为依赖于人的判断和经验，存在主观性和局限性。不同的运维人员可能对问题的解决方案有不同的看法，导致处理方法的不一致性。而且，人工干预可能存在疏漏或遗忘的风险，无法保证持续的服务质量和稳定性。此外，随着中台服务的复杂性和规模的不断扩大，人工干预的成本和风险也逐渐增加。需要投入更多的人力资源和时间来监测和治理服务，而这可能超出人工的能力范围。此外，人工干预可能会引入人为错误，增加整体系统的不稳定性。因此，传统的中台服务评价和治理方法需要一种自动化、智能化的解决方案来应对这些挑战。

发明内容

为了解决上述问题，本发明的目的是提供一种基于深度强化学习的企业中台服务评估与动态治理方法，可以基于更加客观和准确的指标进行服务评估和决策，避免了人为错误和判断的不确定性，从而提高中台服务的稳定性和可靠性。

本发明的目的通过以下技术方案实现：

一种基于深度强化学习的企业中台服务评估与动态治理方法，其特征在于包括以下步骤：

1)首先，通过服务运行状态数据收集与处理模块实时收集中台服务的各项指标和运行状态数据，并对数据进行处理和分析；

2)其次，建立异常时间条件模型，用于识别并分析服务运行状态中的异常情况，判断系统是否处于异常状态，通过比较实际的运行数据与模型，系统检测到异常情况的发生；

3)深度强化学习算法模块基于智能体与环境的交互，在给定状态下选择最佳的动作；

4)服务治理模块自动调整中台服务的参数和配置，以应对异常情况并提高服务的稳定性和可靠性。

本发明包括以下四个模块，即服务运行状态数据收集与处理模块、异常时间条件模型、深度强化学习算法模块和服务治理模块。

首先通过监测设备实时收集中台服务的各项指标和运行状态数据，包括但不限于CPU利用率、内存占用、响应延迟等指标。这些数据被输入到本发明中进行处理和分析。其次，建立异常时间条件模型，用于识别并分析服务运行状态中的异常情况，包括但不限于高负载、网络拥堵、硬件故障等，判断系统是否处于异常状态。通过比较实际的运行数据与模型，系统能够检测到异常情况的发生。本发明利用深度强化学习算法对异常情况进行动态治理。深度强化学习算法基于智能体与环境的交互，在给定状态下选择最佳的动作。在这种情况下，系统能够自动调整中台服务的参数和配置，以应对异常情况并提高服务的稳定性和可靠性。

服务运行状态数据收集与处理模块：收集与服务运行状态相关的数据，包括但不限于CPU利用率、内存占用、响应延迟等指标数据。这些数据与来自于异常时间条件模型的数据通过Min-Max算法将各特征数据缩放至[0,1]区间，实现各特征数据的归一化。具体公式如下：

其中x为服务运行状态数据收集与处理模块和异常时间条件模型收集与处理的历史数据，x～为变换后的数据作为深度强化学习算法模块的状态输入数据。

异常时间条件模型：分析系统在各个时间段的异常情况，包括但不限于高负载、网络拥堵、硬件故障等，判断系统是否处于异常状态。这些指标用于评估服务实例的负载情况和异常表现，其数据统一交给服务运行状态数据收集与处理模块进行归一化处理。

深度强化学习算法模块：为了对服务进行动态治理，根据服务运行状态数据和异常时间条件模型的分析结果，将其作为深度强化学习算法模块的状态输入，自动调整服务的运行参数进而为服务治理模块提供动作输出，以提高服务的稳定性和可靠性。动作输出包含扩容、缩容、维持和切除故障等四类动作数据。深度强化学习算法模块的奖励函数如下：

R(s,a)＝r(s,a)+γ×max(Q(s',a'))

其中，R(s,a)是状态s下采取动作a所获得的奖励，r(s,a)是执行动作a后获得的即时奖励，γ是折扣因子，表示未来奖励的重要程度，取值范围为[0,1]，s'是执行动作a后的下一个状态，a'是在状态s'下选择的最佳动作，max(Q(s',a'))表示下一个状态s'采取最优动作a'所得到的最大值预期回报Q值。本发明中，根据状态数据和异常时间条件模型的分析结果，计算出每个可能的动作对应的Q值。算法的深度学习模型使用五层模型，第二层到第四层卷积神经网络(Conv)，第一层和第五层使用全连接神经网络(Dense)。

服务治理模块：与深度强化学习算法模块紧密对接，旨在管理系统的运行状态。它主要涉及四个动作，即扩容、缩容、维持和切除故障等四类操作。以下是对这些动作的详细描述：

1)扩容：深度强化学习算法模块发出扩容的动作信号时，服务治理模块首先会进行判定，以确定是否需要进行扩容操作。判断的依据可以是当前系统的负载情况，如CPU利用率、内存占用率等。如果判定为需要扩容，则服务治理模块会相应地增加系统资源，例如增加运行该服务的服务器数量或者开启更多的线程池来处理请求。

2)缩容：类似于扩容操作，深度强化学习算法模块发出缩容的指令后，服务治理模块会首先进行判定，检查系统负载情况以确定是否需要进行缩容操作。例如，如果系统处于轻负载状态，服务治理模块会减少服务器数量或者关闭一些线程池，以节约系统资源并提高效率。

3)维持：维持操作是针对系统保持当前状态的一种动作。当深度强化学习算法模块发出维持信号时，服务治理模块将检查当前系统状态是否处于稳定工作状态。通过检测关键指标，例如响应时间、错误率等，服务治理模块可以判断系统是否正常工作。如果系统运行正常，服务治理模块将保持当前状态，并继续监控系统的稳定性。如果系统出现故障或异常，服务治理模块将会触发相应的故障切除操作。

4)切除故障：当系统发生故障或异常时，深度强化学习算法模块可能会发出切除故障的信号。服务治理模块在接收到该信号后，会立即进行判定，并开始故障切除操作。这包括将出现故障的节点从系统中移除、停止其上运行的服务，并重新分配请求到其他正常的节点上，以确保系统的稳定性和可用性。

本发明通过实时收集中台服务的各项指标和运行状态数据，建立异常时间条件模型识别并分析服务运行状态中的异常情况，进而利用深度强化学习算法对异常情况进行动态治理。本发明的技术效果和优点：

1、实时监测与及时发现问题：本发明可以实时监测服务的运行状态，及时发现问题和异常情况，从而提高对服务故障和性能下降的及时处理能力。

2、提高评估和治理的准确性：依靠人工干预和经验判断的方法容易出现主观性、局限性和不一致性。本发明可以基于更加客观和准确的指标进行服务评估和决策，避免了人为错误和判断的不确定性，从而提高中台服务的稳定性和可靠性。

3、降低人力成本和风险：随着中台服务的复杂性和规模不断扩大，传统的人工评估和治理方法需要投入更多的人力资源和时间，且存在人为错误和遗漏的风险。本发明可以降低人力成本，并减少人工干预所引入的不稳定性，提高服务质量和稳定性。

4、自动化与智能化处理：传统的评价和治理方法繁琐且效率低下，无法应对中台服务的复杂性和变化性。本发明可以自动化地处理服务评价和治理任务，提高效率，并根据业务需求进行智能化决策，从而更好地支持企业的业务流程和决策。

综上所述，本发明可以实现实时监测与及时发现问题、提高评估和治理的准确性、降低人力成本和风险，以及自动化与智能化处理，从而在企业信息化发展中提供更有效的支持，保持企业中台服务的稳定和可靠的运行状态。

具体实施方式

下面通过具体实施方式，对本发明的技术方案做进一步的详细描述：

一种基于深度强化学习的企业中台服务评估与动态治理方法，首先通过监测设备实时收集中台服务的各项指标和运行状态数据，包括但不限于CPU利用率、内存占用、响应延迟等指标。这些数据被输入到本发明中进行处理和分析。其次，建立异常时间条件模型，用于识别并分析服务运行状态中的异常情况，包括但不限于高负载、网络拥堵、硬件故障等，判断系统是否处于异常状态。通过比较实际的运行数据与模型，系统能够检测到异常情况的发生。本发明利用深度强化学习算法对异常情况进行动态治理。深度强化学习算法基于智能体与环境的交互，在给定状态下选择最佳的动作。在这种情况下，系统能够自动调整中台服务的参数和配置，以应对异常情况并提高服务的稳定性和可靠性。其特征在于以下四个模块，即服务运行状态数据收集与处理模块、异常时间条件模型、深度强化学习算法模块和服务治理模块。

本实施例中，服务运行状态数据收集与处理模块：收集与服务运行状态相关的数据，包括但不限于CPU利用率、内存占用、响应延迟等指标数据。这些数据与来自于异常时间条件模型的数据通过Min-Max算法将各特征数据缩放至[0,1]区间，实现各特征数据的归一化。具体公式如下：

其中x为服务运行状态数据收集与处理模块和异常时间条件模型收集与处理的历史数据，为变换后的数据作为深度强化学习算法模块的状态输入数据。

本实施例中，异常时间条件模型：分析系统在各个时间段的异常情况，包括但不限于高负载、网络拥堵、硬件故障等，判断系统是否处于异常状态。这些指标用于评估服务实例的负载情况和异常表现，其数据统一交给服务运行状态数据收集与处理模块进行归一化处理。

本实施例中，深度强化学习算法模块：为了对服务进行动态治理，根据服务运行状态数据和异常时间条件模型的分析结果，将其作为深度强化学习算法模块的状态输入，自动调整服务的运行参数进而为服务治理模块提供动作输出，以提高服务的稳定性和可靠性。动作输出包含扩容、缩容、维持和切除故障等四类动作数据。

本实施例中，深度强化学习算法模块的奖励函数如下：

R(s,a)＝r(s,a)+γ×max(Q(s',a'))

其中，R(s,a)是状态s下采取动作a所获得的奖励，r(s,a)是执行动作a后获得的即时奖励，γ是折扣因子，表示未来奖励的重要程度，取值范围为[0,1]，s'是执行动作a后的下一个状态，a'是在状态s'下选择的最佳动作，max(Q(s',a'))表示下一个状态s'采取最优动作a'所得到的最大值预期回报Q值，根据状态数据和异常时间条件模型的分析结果，计算出每个可能的动作对应的Q值，算法的深度学习模型使用五层模型，第二层到第四层卷积神经网络(Conv)，第一层和第五层使用全连接神经网络(Dense)。

本实施例中，服务治理模块：与深度强化学习算法模块紧密对接，旨在管理系统的运行状态。它主要涉及四个动作，即扩容、缩容、维持和切除故障等四类操作。以下是对这些动作的详细描述：

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度强化学习的企业中台服务评估与动态治理方法，其特征在于包括以下步骤：

1)首先通过服务运行状态数据收集与处理模块实时收集中台服务的各项指标和运行状态数据，并对数据进行处理和分析；

2.根据权利要求1所述的一种基于深度强化学习的企业中台服务评估与动态治理方法，其特征在于：服务运行状态数据收集与处理模块完成收集与服务运行状态相关的数据，包括CPU利用率、内存占用、响应延迟指标数据，这些数据与来自于异常时间条件模型的数据通过Min-Max算法将各特征数据缩放至[0,1]区间，实现各特征数据的归一化，具体公式如下：

3.根据权利要求1所述的一种基于深度强化学习的企业中台服务评估与动态治理方法，其特征在于：所述异常时间条件模型分析系统在各个时间段的异常情况，包括高负载、网络拥堵、硬件故障，判断系统是否处于异常状态，这些指标用于评估服务实例的负载情况和异常表现，其数据统一交给服务运行状态数据收集与处理模块进行归一化处理。

4.根据权利要求1所述的一种基于深度强化学习的企业中台服务评估与动态治理方法，其特征在于：所述深度强化学习算法模块对服务进行动态治理，根据服务运行状态数据和异常时间条件模型的分析结果，将其作为深度强化学习算法模块的状态输入，自动调整服务的运行参数进而为服务治理模块提供动作输出，以提高服务的稳定性和可靠性。

5.根据权利要求4所述的一种基于深度强化学习的企业中台服务评估与动态治理方法，其特征在于：所述深度强化学习算法模块的奖励函数如下：

R(s,a)＝r(s,a)+γ×max(Q(s',a'))

其中，R(s,a)是状态s下采取动作a所获得的奖励，r(s,a)是执行动作a后获得的即时奖励，γ是折扣因子，表示未来奖励的重要程度，取值范围为[0,1]，s'是执行动作a后的下一个状态，a'是在状态s'下选择的最佳动作，max(Q(s',a'))表示下一个状态s'采取最优动作a'所得到的最大值预期回报Q值。

6.根据权利要求1所述的一种基于深度强化学习的企业中台服务评估与动态治理方法，其特征在于：根据所述状态数据和异常时间条件模型的分析结果，计算出每个可能的动作对应的Q值，算法的深度学习模型使用五层模型，第二层到第四层卷积神经网络，第一层和第五层使用全连接神经网络。

7.根据权利要求1所述的一种基于深度强化学习的企业中台服务评估与动态治理方法，其特征在于：所述服务治理模块与深度强化学习算法模块紧密对接，管理系统的运行状态，它主要涉及四个动作，即扩容、缩容、维持和切除故障四类操作；

所述扩容是深度强化学习算法模块发出扩容的动作信号时，服务治理模块首先会进行判定，以确定是否需要进行扩容操作，判断的依据是当前系统的负载情况，如果判定为需要扩容，则服务治理模块相应地增加系统资源。

8.根据权利要求7所述的一种基于深度强化学习的企业中台服务评估与动态治理方法，其特征在于：所述缩容是扩容操作，深度强化学习算法模块发出缩容的指令后，服务治理模块会首先进行判定，检查系统负载情况以确定是否需要进行缩容操作，如果系统处于轻负载状态，服务治理模块减少服务器数量或者关闭一些线程池，以节约系统资源并提高效率。

9.根据权利要求7所述的一种基于深度强化学习的企业中台服务评估与动态治理方法，其特征在于：所述维持操作是针对系统保持当前状态的一种动作，当深度强化学习算法模块发出维持信号时，服务治理模块检查当前系统状态是否处于稳定工作状态，通过检测关键指标，服务治理模块判断系统是否正常工作，如果系统运行正常，服务治理模块将保持当前状态，并继续监控系统的稳定性，如果系统出现故障或异常，服务治理模块将会触发相应的故障切除操作。

10.根据权利要求9所述的一种基于深度强化学习的企业中台服务评估与动态治理方法，其特征在于：当所述系统发生故障或异常时，深度强化学习算法模块发出切除故障的信号，服务治理模块在接收到该信号后，立即进行判定，并开始故障切除操作，包括将出现故障的节点从系统中移除、停止其上运行的服务，并重新分配请求到其他正常的节点上，以确保系统的稳定性和可用性。