CN117971488A

CN117971488A - 分布式数据库集群的存储管理方法及相关装置

Info

Publication number: CN117971488A
Application number: CN202410189249.5A
Authority: CN
Inventors: 雷经纬; 徐嘉禛; 于子烨; 罗响
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2024-02-20
Filing date: 2024-02-20
Publication date: 2024-05-03

Abstract

本申请涉及一种分布式数据库集群的存储管理方法及相关装置，涉及大数据技术领域。该方法包括：获取分布式数据库集群在当前监测周期内的第一运行指标；从第一运行指标中提取第一状态特征；利用预设强化学习模型、根据第一状态特征计算N个存储管理动作的价值函数值；从N个存储管理动作中选择价值函数值最大的动作，作为目标存储管理动作；针对分布式数据库集群执行目标存储管理动作。本方法根据分布式数据库集群的运行指标，感知系统负载变化，在分布式数据库集群运行时动态调整存储资源，实现存储资源的实时优化，能够减少存储资源的浪费，提升存储资源的利用效率，优化数据的访问性能，进而提升系统的响应速度和处理能力。

Description

分布式数据库集群的存储管理方法及相关装置

技术领域

本申请涉及大数据技术领域，特别是涉及一种分布式数据库集群的存储管理方法及相关装置。

背景技术

在金融行业中，数据作为支撑业务决策、风控评估和市场分析等多种业务活动的重要基础，其处理效率和准确性对业务运行有着重要影响。由于金融行业通常需要处理超大规模的数据，需要使用具有高效并行处理能力的MPP（大规模并行处理）分布式数据库集群。

MPP分布式数据库集群中的数据分布不均（数据被分布在多个节点上、可能存在数据倾斜），将导致集群性能降低，而如何有效地分配存储资源、计算资源和网络资源，以确保所有的查询和事务能够高效运行，是一个复杂的问题。由于MPP分布式数据库集群的工作负载动态变化、多租户不同的使用需求、数据增长的不确定性，针对MPP分布式数据库集群进行存储管理存在一定的难度。

另一方面，在运行过程中，如果MPP分布式数据库集群的存储容量用尽或达到极限，将导致系统性能下降、业务中断、数据丢失、运维成本增加等不利后果。

目前一般通过以下方式进行存储管理：1、静态存储分配：基于历史数据和经验规则，为各个节点分配固定的存储资源；2、手动调整：由数据库管理员根据系统的运行状态和预期的负载，手动调整存储资源的分配和数据的布局；3、阈值触发的数据迁移：当某个节点的存储使用达到预定阈值时，触发数据迁移操作，将数据迁移到其他节点；4、基于规则的存储管理：定义一系列的规则和策略，用于在特定情况下调整存储资源的分配和数据的布局。

目前采用的方式在一定程度上能够改善存储资源管理的问题，但是存在以下不足：1、缺乏灵活性：静态存储分配和手动调整往往缺乏足够的灵活性，无法快速适应系统负载的变化；2、管理开销大：手动调整存储资源和数据布局需要数据库管理员投入大量的时间和精力，增加了管理的复杂性和开销；3、响应延迟：阈值触发的数据迁移和基于规则的存储管理通常存在一定的响应延迟，可能无法及时调整资源分配来应对突发的负载变化；4、优化局限：通常基于预定义的规则和策略进行优化，可能无法充分利用系统的全部信息，达到全局的最优；5、可扩展性差：在大规模分布式数据库集群中，手动管理和基于规则的管理策略的可扩展性较差，难以满足大规模、动态变化的存储管理需求。

发明内容

基于此，有必要针对上述技术问题，提供一种分布式数据库集群的存储管理方法及相关装置，能够实时监测运行指标，并在分布式数据库集群运行时动态调整存储资源，实现存储资源的实时优化。

第一方面，本申请提供了一种分布式数据库集群的存储管理方法。所述方法包括：

获取分布式数据库集群在当前监测周期内的第一运行指标；

从所述第一运行指标中提取第一状态特征；

利用预设强化学习模型、根据所述第一状态特征计算N个存储管理动作的价值函数值；

从所述N个存储管理动作中选择价值函数值最大的动作，作为目标存储管理动作；

针对所述分布式数据库集群执行所述目标存储管理动作。

在其中一个实施例中，所述预设强化学习模型包括价值网络；所述利用预设强化学习模型、根据所述第一状态特征计算N个存储管理动作的价值函数值之前，所述方法还包括：

获取所述分布式数据库集群在上一个监测周期内的第二状态特征；所述第二状态特征为从所述分布式数据库集群在上一个监测周期内的第二运行指标中提取得到的；

利用奖励函数确定当前奖励值；

根据所述第一状态特征、所述当前奖励值、上一个监测周期内执行的存储管理动作以及所述第二状态特征，对所述价值网络的模型参数进行调整，得到更新后的价值网络；

所述利用预设强化学习模型、根据所述第一状态特征计算N个存储管理动作的价值函数值，包括：

利用更新后的价值网络、根据所述第一状态特征计算N个存储管理动作的价值函数值。

在其中一个实施例中，所述第一运行指标或所述第二运行指标包括用户级运行指标、表级运行指标以及作业级运行指标；所述用户级运行指标包括用户存储空间和用户查询负载；所述表级运行指标包括表存储空间和表查询负载；所述作业级运行指标包括作业执行状态和作业关联表清单。

在其中一个实施例中，所述N个存储管理动作包括资源分配、数据迁移、数据分级存储、以及回收表碎片。

在其中一个实施例中，所述针对所述分布式数据库集群执行所述目标存储管理动作之后，所述方法还包括：

实时监控所述分布式数据库集群的运行指标参数；

若所述运行指标参数超出告警阈值或正常运行范围，则发出告警提醒。

在其中一个实施例中，所述实时监控所述分布式数据库集群的运行指标参数之后，所述方法还包括：

对所述运行指标参数进行可视化展示；

并通过可视化展示页面接收用户反馈信息。

在其中一个实施例中，所述方法还包括：

获取系统状态信息和用户反馈信息；

基于所述系统状态信息和所述用户反馈信息，对策略相关数据或模型相关数据进行调整；所述策略相关数据包括告警阈值、资源分配策略、数据迁移策略中的至少一种；所述模型相关数据包括预设强化学习模型的学习参数、预设强化学习模型的结构数据、奖励函数、特征提取参数、训练数据增强策略中的至少一种。

第二方面，本申请还提供了一种分布式数据库集群的存储管理装置。所述装置包括：

获取模块，用于获取分布式数据库集群在当前监测周期内的第一运行指标；

提取模块，用于从所述第一运行指标中提取第一状态特征；

推理模块，用于利用预设强化学习模型、根据所述第一状态特征计算N个存储管理动作的价值函数值；从所述N个存储管理动作中选择价值函数值最大的动作，作为目标存储管理动作；

存储管理模块，用于针对所述分布式数据库集群执行所述目标存储管理动作。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取分布式数据库集群在当前监测周期内的第一运行指标；

从所述第一运行指标中提取第一状态特征；

针对所述分布式数据库集群执行所述目标存储管理动作。

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取分布式数据库集群在当前监测周期内的第一运行指标；

从所述第一运行指标中提取第一状态特征；

针对所述分布式数据库集群执行所述目标存储管理动作。

上述分布式数据库集群的存储管理方法及相关装置，获取分布式数据库集群在当前监测周期内的第一运行指标；从第一运行指标中提取第一状态特征；利用预设强化学习模型、根据第一状态特征计算N个存储管理动作的价值函数值；从N个存储管理动作中选择价值函数值最大的动作，作为目标存储管理动作；针对分布式数据库集群执行目标存储管理动作。通过上述方式，根据分布式数据库集群的运行指标，感知系统负载变化，在分布式数据库集群运行时动态调整存储资源，实现存储资源的实时优化，能够减少存储资源的浪费，提升存储资源的利用效率，优化数据的访问性能，进而提升系统的响应速度和处理能力；通过预设强化学习模型自适应地学习最优的存储管理策略，无需人工设定固定的规则；无需手动调整，减少了人力成本。

附图说明

图1为一个实施例中分布式数据库集群的存储管理方法的应用环境图；

图2为一个实施例中分布式数据库集群的存储管理方法的流程示意图；

图3为另一个实施例中分布式数据库集群的存储管理方法的流程示意图；

图4为一个实施例中处理单元中各模块的处理流程示意图；

图5为一个实施例中分布式数据库集群的存储管理装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的分布式数据库集群的存储管理方法，可以应用于如图1所示的应用环境中。其中，大数据平台100中设置有至少一个分布式数据库集群104，分布式数据库集群104包括n个数据库节点，处理单元102可以设置于大数据平台100的内部，也可以设置于大数据平台100的外部，本实施例以处理单元102设置于大数据平台100的内部为例进行说明。其中，处理单元102监测分布式数据库集群104中节点1至节点n的运行指标，根据运行指标按照最优的存储管理策略，推理出存储管理动作，针对需要调整的分布式数据库集群104进行存储管理。在一种实现方式中，处理单元102可以同时针对多个分布式数据库集群104进行存储管理。可选地，分布式数据库集群104为的MPP（大规模并行处理）分布式数据库集群。

可以理解的是，MPP分布式数据库存储管理存在如下几个难点：

1、数据分布不均：在MPP（Massively Parallel Processing）分布式数据库中，数据通常被分布在多个节点上以实现并行处理。由于所有的节点必须等待数据量最大的节点完成其工作，数据倾斜（某些节点上的数据量显著多于其他节点）可能导致查询性能下降，因此，如何均衡数据分布是一大挑战。

2、资源分配和优化：在分布式环境中，如何有效地分配存储资源、计算资源和网络资源，以确保所有的查询和事务能够高效运行，是一个复杂的问题。这需要一个智能的资源管理器，能够理解不同工作负载的需求，并能在运行时动态地调整资源分配。

MPP分布式数据库容量预测存在如下几个难点：

1、动态的工作负载：数据库的工作负载通常是动态变化的，这取决于用户的查询模式、数据更新频率和数据增长速度等多种因素。预测这些动态变化的工作负载，以便提前分配足够的存储资源，是一项极具挑战的任务。

2、多租户环境：在多租户的数据库环境中，不同的租户可能有完全不同的数据存储和查询需求。如何在保证每个租户的服务质量的同时，有效地预测和分配存储资源，需要深入理解每个租户的数据使用模式和业务特性。

3、数据增长的不确定性：数据的增长通常受到多种因素的影响，例如业务发展、市场变化等。这些因素通常是不可预测的，给精确的存储容量预测带来了巨大的挑战。

在运行过程中，如果MPP分布式数据库集群的存储容量用尽或达到极限，可能带来如下不利后果：

1、系统性能下降：当存储容量用尽或达到极限时，数据库的性能通常会显著下降。这不仅影响到查询的响应时间，还可能导致某些实时应用无法正常运行。

2、业务中断：存储容量用尽可能导致新的数据无法写入数据库，进而影响到正常的业务流程。例如，电商平台可能无法记录新的订单，金融系统可能无法处理交易。

3、数据丢失风险：在极端情况下，存储容量的不足可能导致数据丢失。例如，如果数据库需要进行某些大规模的数据重组或迁移操作，但无充足的存储空间来支持这些操作，可能会导致数据的不一致或丢失。

4、运维成本增加：为了解决存储容量不足的问题，运维团队可能需要进行紧急的数据清理或迁移操作，这不仅增加了运维的工作量，也增加了出错的风险。

在一个实施例中，如图2所示，提供了一种分布式数据库集群的存储管理方法，以该方法应用于图1中的处理单元102为例进行说明，包括以下步骤：

步骤202，获取分布式数据库集群在当前监测周期内的第一运行指标。

其中，分布式数据库集群是指在数据在物理上分布而在逻辑上集中管理的数据库系统，本实施例分布式数据库集群可以为MPP分布式数据库集群。处理单元具备针对分布式数据库集群的数据监测能力，预设有监测周期，监测周期对应一个固定时长，例如，24小时，在每个监测周期内按照设定指标项监测分布式数据库集群的状态参数，得到分布式数据库集群在该监测周期内的运行指标。在一种实现方式中，处理单元采集分布式数据库集群在一定时长（完成一个监测周期所需的时长）内的运行指标，按照监测周期的标识对每个周期采集的运行指标进行存储。当前监测周期是指当前时刻对应的监测周期，第一运行指标是指在当前监测周期内，处理单元按照设定指标项采集到的运行指标数据。

在一种实现方式中，第一运行指标包括分布式数据库集群在当前监测周期内的吞吐量、响应时间、完成时间。

在一种实现方式中，第一运行指标包括存储使用情况、I/O负载、查询延迟。

在一种实现方式中，第一运行指标包括用户级运行指标、表级运行指标以及作业级运行指标；用户级运行指标包括用户存储空间和用户查询负载；表级运行指标包括表存储空间和表查询负载；作业级运行指标包括作业执行状态和作业关联表清单。

步骤204，从所述第一运行指标中提取第一状态特征。

其中，步骤204包括对第一运行指标进行数据预处理，得到第一状态特征，数据预处理包括数据清洗、数据标准化、特征工程、数据转换处理。其中，数据预处理用于将第一运行指标转换为模型可用的格式。数据清洗包括缺失值处理和异常值处理，缺失值处理用于识别并处理缺失的运行指标数据，可以通过插值或使用默认值的方式进行缺失值处理；异常值处理用于识别并处理异常的运行指标数据，例如通过阈值检测或模型预测的方式识别异常值，并进行修正或剔除。数据标准化包括标准化和类别编码，标准化用于将各种运行指标数据转换到一个统一的数值范围，例如使用Min-Max标准化或Z-score标准化；类别编码用于将类别型的运行指标数据转换为模型可处理的格式，例如使用One-Hot编码。特征工程包括特征选择和特征构造，特征选择包括基于专家知识或模型的特征重要性选择关键的运行指标作为模型的输入特征；特征构造是指构造新的特征，例如通过计算滑动窗口的平均值、最大值、最小值等来捕捉运行指标的动态变化。数据格式转换包括数据结构调整，是指将数据调整为模型训练和推理所需的格式，例如调整数据的维度、数据类型等。在一种实现方式中，针对每个监测周期内采集的运行指标进行预处理，提取状态特征后存储在适合模型训练和推理的存储介质中，例如将预处理后的数据保存为TFRecord格式用于TensorFlow模型的训练。

步骤206，利用预设强化学习模型、根据所述第一状态特征计算N个存储管理动作的价值函数值。

其中，利用收集到的数据训练强化学习模型，并根据当前状态进行推理，输出最优的存储管理决策，例如是否需要扩展存储容量、是否需要迁移数据等。本实施例选用DeepQ-Networks(DQN)模型作为预设强化学习模型，来进行存储管理决策的学习和推理。强化学习中，智能体（agent）通过与环境交互，学习如何在给定的状态下选择动作，以最大化某种累积奖励。DQN是一种结合了深度学习和Q-learning的强化学习算法，能够处理高维输入空间和复杂的决策策略。在一种实现方式中，使用历史数据训练模型，通过不断地与环境交互，执行动作，观察奖励和新的状态，更新价值函数（Q函数），学习最优的决策策略。在系统运行过程中，模型不断接收到新的状态转移和奖励信息，可以通过在线学习的方式不断更新和优化模型参数。其中，预设强化学习模型涉及到的参数包括：状态s、动作a和奖励r，状态s通常包括系统的当前运行指标，例如存储使用量、I/O负载、查询延迟等；动作a通常包括各种存储管理操作，例如扩展存储、迁移数据、数据分级存储、回收表碎片等；奖励r通常基于系统性能的改善和资源使用的优化来定义，例如减少查询延迟、提高存储利用率等。

其中，在MPP分布式数据库集群运行数据加工作业的过程中，将系统当前的第一状态特征输入至预设强化学习模型，使用预设强化学习模型进行推理计算，得到预测的各个存储管理动作的价值函数值（Q值）。N＞1，N个存储管理动作包括资源分配、数据迁移、数据分级存储、以及回收表碎片中的至少两个动作，在一种实现方式中，N个存储管理动作包括资源分配、数据迁移、数据分级存储、以及回收表碎片。

在一种实现方式中，在每个监测周期内，采集运行指标，根据预设强化学习模型使用随机初始化后的参数得到该监测周期的系统状态下需要执行的动作，执行动作与环境进行交互，得到下一系统状态和奖励，将当前状态、下一状态、动作和奖励作为训练数据进行存储。在针对预设强化学习模型进行训练时，从存储空间中随机选择一批训练数据进行模型调整，得到调整后的预设强化学习模型。

步骤208，从所述N个存储管理动作中选择价值函数值最大的动作，作为目标存储管理动作。

步骤210，针对所述分布式数据库集群执行所述目标存储管理动作。

其中，选择价值函数值（Q值）最大的动作，根据模型的决策，执行具体的存储资源管理操作，如数据迁移、存储扩展等。通过预设强化学习模型的存储管理决策能力，智能地分配存储资源，以及在需要的时候自动进行数据迁移，以确保数据的均衡分布和系统的稳定运行。

在一种实现方式中，提供日志记录功能，通过详细的日志记录和性能监控，能够为运维人员提供数据迁移的详细信息和性能指标，帮助运维人员理解和优化数据迁移的过程。

上述分布式数据库集群的存储管理方法中，获取分布式数据库集群在当前监测周期内的第一运行指标；从第一运行指标中提取第一状态特征；利用预设强化学习模型、根据第一状态特征计算N个存储管理动作的价值函数值；从N个存储管理动作中选择价值函数值最大的动作，作为目标存储管理动作；针对分布式数据库集群执行目标存储管理动作。通过上述方式，根据分布式数据库集群的运行指标，感知系统负载变化，在分布式数据库集群运行时动态调整存储资源，实现存储资源的实时优化，能够减少存储资源的浪费，提升存储资源的利用效率，优化数据的访问性能，进而提升系统的响应速度和处理能力；通过预设强化学习模型自适应地学习最优的存储管理策略，无需人工设定固定的规则；无需手动调整，减少了人力成本。

在一个实施例中，如图3所示，所述预设强化学习模型包括价值网络；步骤206之前，所述方法还包括：

步骤302，获取所述分布式数据库集群在上一个监测周期内的第二状态特征；所述第二状态特征为从所述分布式数据库集群在上一个监测周期内的第二运行指标中提取得到的。

其中，上一个监测周期是指当前监测周期的前一个监测周期，假设当前监测周期为第t个监测周期，则上一个监测周期为第t-1个监测周期。针对每个监测周期采集到的运行指标，采用数据清洗、数据标准化、特征工程、数据转换处理的数据预处理步骤，将运行指标转换为模型可用的状态特征，并进行存储。第一运行指标是指在上一个监测周期内，处理单元按照设定指标项采集到的运行指标数据，针对该第一运行指标进行预处理，得到第二状态特征。

步骤304，利用奖励函数确定当前奖励值。

其中，奖励函数用于表征上一个监测周期内采取的动作与奖励值之间的映射关系。在一种实现方式中，为了减少查询延迟，根据当前监测周期内的采集到的查询延迟和上一个监测周期内的查询延迟确定当前奖励值，相较于上一个监测周期，当前监测周期的查询延迟越小，给予的正奖励越大；在一种实现方式中，为了提高存储利用率，根据当前监测周期内的已占用存储空间大小和上一个监测周期内的已占用存储空间大小确定当前奖励值，相较于上一个监测周期，当前监测周期的已占用存储空间增加，则给予正奖励。

步骤306，根据所述第一状态特征、所述当前奖励值、上一个监测周期内执行的存储管理动作以及所述第二状态特征，对所述价值网络的模型参数进行调整，得到更新后的价值网络。

其中，价值网络是指Q网络，价值网络对应一个用于评价动作好坏的价值函数。构建训练数据，训练数据为四元组（s,a,r,s’），s表示前一状态，即第二状态特征；a表示动作，即上一个监测周期内执行的存储管理动作；r表示奖励，即当前奖励值；s’表示后一状态，即第一状态特征。基于训练数据（s,a,r,s’）对模型进行训练，传播损失并更新价值网络的模型参数。

步骤206，包括：

步骤308，利用更新后的价值网络、根据所述第一状态特征计算N个存储管理动作的价值函数值。

其中，采用动态更新的价值网络，预估在当前状态下采用的存储管理动作，提升了价值函数值的准确性，

本实施例中，系统能够学习如何基于当前的运行指标做出合适的决策，通过不断的学习、调整，能够不断地适应和优化其决策的策略，应对环境的变化，在面临不同的存储使用情况时，推荐出合适的存储管理策略，避免存储容量耗尽，确保系统的稳定运行。

在一个实施例中，所述第一运行指标或所述第二运行指标包括用户级运行指标、表级运行指标以及作业级运行指标；所述用户级运行指标包括用户存储空间和用户查询负载；所述表级运行指标包括表存储空间和表查询负载；所述作业级运行指标包括作业执行状态和作业关联表清单。

其中，用户存储空间是指监测的每个用户占用的存储空间大小，包括数据文件、索引、日志等；用户查询负载是指收集的每个用户发起的查询的数量、执行时间、资源消耗等信息。表存储空间是指监控数据库中每个表占用的存储空间大小、节点分布；表查询负载是指收集的针对每个表的查询的数量、执行时间、资源消耗等信息。作业执行状态包括收集的每个作业的执行时间、状态（成功/失败）、资源消耗等信息；作业关联表清单为通过分析作业脚本，提取作业运行过程中涉及到的表的清单、访问模式（读/写）等信息得到的。

在一个实施例中，所述N个存储管理动作包括资源分配、数据迁移、数据分级存储、以及回收表碎片。

其中，资源分配是指根据模型决策，动态分配存储资源，包括存储配额管理和存储空间分配，存储配额管理分为用户存储配额和动态配额调整，用户存储配额是指为每个用户分配存储的配额，以控制单一用户的数据占用，防止资源的滥用或单点故障；动态配额调整是指根据用户的实际需求和系统的总体资源使用情况，动态调整用户的存储配额。存储空间分配分为数据块分配和热点数据识别，数据块分配是指根据数据的访问模式和存储需求，智能分配数据块的存储位置；热点数据识别是指识别并优先分配资源给访问频繁的热点数据。数据迁移是指在不同的存储节点之间迁移数据，以平衡存储负载、优化性能或避免单点故障。数据分级存储是指将使用率较低的表从热存储介质（如SSD）切换到冷存储介质（如HDD）中，为作业运行预留热存储空间。回收表碎片是指对碎片率较高的大表执行回收操作，为作业运行腾挪容量。

在一个实施例中，所述步骤210之后，所述方法还包括：实时监控所述分布式数据库集群的运行指标参数；若所述运行指标参数超出告警阈值或正常运行范围，则发出告警提醒。

其中，实时监控分布式数据库集群的运行指标参数和预设强化学习模型的运行状态参数，运行指标参数用于表征分布式数据库集群的运行状态，可以包括存储使用情况、I/O负载、查询延迟等，在出现异常或达到告警阈值时及时触发告警，帮助运维人员及时发现并处理问题。

运行指标参数包括用户存储使用情况、表大小清单、作业运行情况、特殊作业类型、批量高峰，用户存储使用情况的监控过程可以包括实时监控和历史趋势，实时监控用于实时追踪每个用户的存储使用情况，包括总存储使用量、增长速率等；历史趋势是指分析并展示用户存储使用情况的历史趋势，帮助识别可能的问题和优化点。表大小清单的监控过程可以包括监控表存储详情和表访问频率，表存储详情是指监控每个表的存储使用情况，包括数据文件、索引、日志等的大小；表访问频率是指追踪并记录每个表的访问频率，包括读取、写入、更新等操作的次数。作业运行情况的监控过程可以包括作业执行监控和作业资源消耗，作业执行监控是指追踪每个作业的执行情况，包括开始时间、结束时间、执行状态（成功/失败）等；作业资源消耗是指监控作业的资源消耗情况，包括CPU、内存、存储、网络等。特殊作业类型的监控过程可以包括监控数据导入作业的执行情况，包括导入的数据量、导入的表、导入的速率等；监控数据写入作业的执行情况，包括写入的数据量、写入的表、写入的速率等。批量高峰的监控过程可以包括高峰识别和资源预留，高峰识别是指通过分析历史数据，识别可能的批量高峰时段，例如月末、季末、年末等；资源预留是指在批量高峰时段，预留足够的资源以确保作业的正常执行。

通过对用户存储使用情况、表大小、作业运行情况等多维度的监控，能够为运维人员提供丰富的运行数据，帮助运维人员更好地理解和优化系统的运行情况。

其中，告警机制包括阈值告警和异常检测告警，告警阈值可以为运维人员根据实际情况设置的各种运行指标的阈值，例如存储使用量、资源消耗等，当实时监控的数据超过预设的阈值时，立即触发告警机制。异常检测告警中使用机器学习模型预测系统的正常运行范围，当实时数据偏离模型预测的正常运行范围时，触发告警机制。可选地，通过多个渠道发送告警通知，例如邮件、短信、应用通知等。可选地，根据告警的严重程度，设置不同级别的告警，并对应不同的通知策略。

在一个实施例中，所述实时监控所述分布式数据库集群的运行指标参数之后，所述方法还包括：对所述运行指标参数进行可视化展示；并通过可视化展示页面接收用户反馈信息。

其中，提供一个用户友好的界面，包括数据可视化模块和用户交互模块，数据可视化模块用于图形化展示系统的实时状态和运行指标；用户交互模块用于接收用户的操作和反馈。

在一个实施例中，所述方法还包括：获取系统状态信息和用户反馈信息；基于所述系统状态信息和所述用户反馈信息，对策略相关数据或模型相关数据进行调整；所述策略相关数据包括告警阈值、资源分配策略、数据迁移策略中的至少一种；所述模型相关数据包括预设强化学习模型的学习参数、预设强化学习模型的结构数据、奖励函数、特征提取参数、训练数据增强策略中的至少一种。

其中，系统状态信息用于表征系统的运行效果，根据系统状态信息和用户反馈，优化策略相关数据、调整模型相关数据。具体地，根据系统状态信息和用户反馈信息，评估当前策略的执行效果，例如存储利用率、数据迁移的开销、系统的稳定性等；根据执行效果的评估结果，对当前的决策策略进行调整，包括修改告警阈值、调整资源分配策略、优化数据迁移策略等。在策略相关数据后，在模拟环境或者与生产环境隔离的测试环境进行策略测试，以确保新策略不会带来负面效果。

其中，根据系统状态信息评估模型表现，根据模型表现和用户反馈信息，对模型相关参数进行调整，以改进模型的学习速度和稳定性。具体地，可以针对预设强化学习模型的学习参数、预设强化学习模型的结构数据、奖励函数、特征提取参数、训练数据增强策略进行调整，预设强化学习模型的学习参数包括学习率、折扣因子等；奖励函数是强化学习中的关键组成部分，定义了智能体的学习目标，根据实际操作的效果和用户反馈调整奖励函数，以便更精确地引导模型的学习过程；通过调整特征提取参数，选择新的特征、构造其他类型的特征，以便更好地捕捉和描述影响存储管理决策的关键因素；根据模型在实际应用中的表现，调整预设强化学习模型的结构数据，以改进模型的预测能力，例如，增加或减少神经网络的层数或节点数；调整训练数据增强策略，例如，使用数据扩充或生成对抗网络（GANs）来增强训练数据，提高模型的泛化能力和抵抗噪声的能力。

通过上述方式，形成智能地、自动化地存储资源管理系统，能够根据实时的系统状态和用户反馈，动态调整存储资源的分配，优化存储使用效率，提高系统的稳定性和性能。

在一种实现方式中，参照图4，图4示出了一种处理单元中各模块的处理流程；处理单元包括数据收集与预处理模块1、强化学习模型训练与推理块2、存储资源管理模块3、系统状态监控模块4、用户交互与可视化模块5、策略优化与反馈模块6。其中，数据收集与预处理模块1负责收集分布式数据库集群的各种运行指标，并进行预处理，为后续的模型训练和推理、系统状态监控提供数据支持。强化学习模型训练与推理块2利用收集到的数据训练强化学习模型，并根据当前状态进行推理，输出最优的存储管理决策。存储资源管理模块3根据模型的决策，执行具体的存储资源管理操作，如数据迁移、存储扩展等。系统状态监控模块4实时监控分布式数据库集群的运行状态，包括存储使用情况、I/O负载、查询延迟等，并提供实时的可视化展示。用户交互与可视化模块5提供用户友好界面，展示系统的实时状态和运行指标，接收用户的输入和反馈。策略优化与反馈模块6根据系统的运行效果和用户反馈，优化决策策略、调整模型的参数、奖励函数等。

以下结合实例对本发明提供的分布式数据库集群的存储管理方法进行说明。处理单元管理的MPP分布式数据库集群，包含多个用户，每个用户被分配有存储配额。存储管理的目标是通过智能的数据管理策略，确保每个用户的存储使用保持在分配的配额内，避免任意一个用户的存储容量耗尽。

假设在当前监测周期内，用户A的配额为50TB、当前使用45TB；用户B的配额为30TB、当前使用20TB；用户C的配额为40TB、当前使用35TB。通过采集在当前监测周期内的运行指标数据，确定每个用户的前存储使用情况、近期的存储使用增长趋势等特征，将确定的特征作为预设强化学习模型DQN的输入，由DQN输出在每个预测的动作上的Q值，预测的动作可以包括“压缩用户A的数据”、“将用户B的旧数据转移到冷存储介质”、“对用户C的表进行碎片整理以回收空间”等。

DQN模型的关键组成：（1）状态（State）：每个用户的当前存储使用情况和近期的使用增长趋势。（2）动作（Action）：数据管理操作，例如“压缩用户A的5TB数据”。（3）奖励（Reward）：定义为避免存储用尽的映射方式，例如，如果所有用户的存储使用都保持在配额内，则给予正奖励；如果某个用户的存储使用超过配额，则给予负奖励。

具体实施过程包括：

1、初始状态：用户A45TB、用户B20TB、用户C5TB；

2、模型推理：DQN模型根据当前状态推理出最优的存储管理动作。例如，模型推荐“压缩用户A的5TB数据”；

3、执行操作：系统执行推荐的存储管理动作，更新每个用户的存储使用情况；

4、更新状态：用户A41TB(假设压缩操作释放了4TB空间)、用户B20TB、用户C5TB；

5、计算奖励：由于所有用户的存储使用都在配额内，给予模型正奖励；

6、学习：使用新的状态、执行的动作和获得的奖励，更新DQN模型的参数；

7、迭代：重复上述过程，不断迭代和优化模型的参数。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的分布式数据库集群的存储管理方法的分布式数据库集群的存储管理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个分布式数据库集群的存储管理装置实施例中的具体限定可以参见上文中对于分布式数据库集群的存储管理方法的限定，在此不再赘述。

在一个实施例中，如图5所示，提供了一种分布式数据库集群的存储管理装置，包括：

获取模块502，用于获取分布式数据库集群在当前监测周期内的第一运行指标。

提取模块504，用于从所述第一运行指标中提取第一状态特征。

推理模块506，用于利用预设强化学习模型、根据所述第一状态特征计算N个存储管理动作的价值函数值；从所述N个存储管理动作中选择价值函数值最大的动作，作为目标存储管理动作。

存储管理模块508，用于针对所述分布式数据库集群执行所述目标存储管理动作。

上述分布式数据库集群的存储管理装置中，获取分布式数据库集群在当前监测周期内的第一运行指标；从第一运行指标中提取第一状态特征；利用预设强化学习模型、根据第一状态特征计算N个存储管理动作的价值函数值；从N个存储管理动作中选择价值函数值最大的动作，作为目标存储管理动作；针对分布式数据库集群执行目标存储管理动作。通过上述方式，根据分布式数据库集群的运行指标，感知系统负载变化，在分布式数据库集群运行时动态调整存储资源，实现存储资源的实时优化，能够减少存储资源的浪费，提升存储资源的利用效率，优化数据的访问性能，进而提升系统的响应速度和处理能力；通过预设强化学习模型自适应地学习最优的存储管理策略，无需人工设定固定的规则；无需手动调整，减少了人力成本。

在一个实施例中，所述预设强化学习模型包括价值网络；所述分布式数据库集群的存储管理装置还包括网络更新模块；

所述网络更新模块，用于获取所述分布式数据库集群在上一个监测周期内的第二状态特征；所述第二状态特征为从所述分布式数据库集群在上一个监测周期内的第二运行指标中提取得到的；利用奖励函数确定当前奖励值；根据所述第一状态特征、所述当前奖励值、上一个监测周期内执行的存储管理动作以及所述第二状态特征，对所述价值网络的模型参数进行调整，得到更新后的价值网络；

所述推理模块506，还用于利用更新后的价值网络、根据所述第一状态特征计算N个存储管理动作的价值函数值。

在一个实施例中，所述分布式数据库集群的存储管理装置还包括告警模块；所述告警模块，用于实时监控所述分布式数据库集群的运行指标参数；若所述运行指标参数超出告警阈值或正常运行范围，则发出告警提醒。

在一个实施例中，所述分布式数据库集群的存储管理装置还包括展示模块；

所述展示模块，用于对所述运行指标参数进行可视化展示；并通过可视化展示页面接收用户反馈信息。

在一个实施例中，所述分布式数据库集群的存储管理装置还包括调整模块，所述调整模块，用于获取系统状态信息和用户反馈信息；基于所述系统状态信息和所述用户反馈信息，对策略相关数据或模型相关数据进行调整；所述策略相关数据包括告警阈值、资源分配策略、数据迁移策略中的至少一种；所述模型相关数据包括预设强化学习模型的学习参数、预设强化学习模型的结构数据、奖励函数、特征提取参数、训练数据增强策略中的至少一种。

上述分布式数据库集群的存储管理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O）和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种分布式数据库集群的存储管理方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取分布式数据库集群在当前监测周期内的第一运行指标；

从所述第一运行指标中提取第一状态特征；

针对所述分布式数据库集群执行所述目标存储管理动作。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

利用奖励函数确定当前奖励值；

实时监控所述分布式数据库集群的运行指标参数；

对所述运行指标参数进行可视化展示；

并通过可视化展示页面接收用户反馈信息。

获取系统状态信息和用户反馈信息；

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取分布式数据库集群在当前监测周期内的第一运行指标；

从所述第一运行指标中提取第一状态特征；

针对所述分布式数据库集群执行所述目标存储管理动作。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

利用奖励函数确定当前奖励值；

实时监控所述分布式数据库集群的运行指标参数；

对所述运行指标参数进行可视化展示；

并通过可视化展示页面接收用户反馈信息。

获取系统状态信息和用户反馈信息；

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、存储、使用、加工、传输、提供、公开和应用等处理，均遵守相关国家和地区的相关法律法规和标准，采取了必要保密措施，不违背公序良俗，并提供有相应的操作入口，供用户选择授权或者拒绝。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种分布式数据库集群的存储管理方法，其特征在于，所述方法包括：

获取分布式数据库集群在当前监测周期内的第一运行指标；

从所述第一运行指标中提取第一状态特征；

针对所述分布式数据库集群执行所述目标存储管理动作。

2.根据权利要求1所述的方法，其特征在于，所述预设强化学习模型包括价值网络；所述利用预设强化学习模型、根据所述第一状态特征计算N个存储管理动作的价值函数值之前，所述方法还包括：

利用奖励函数确定当前奖励值；

3.根据权利要求2所述的方法，其特征在于，所述第一运行指标或所述第二运行指标包括用户级运行指标、表级运行指标以及作业级运行指标；所述用户级运行指标包括用户存储空间和用户查询负载；所述表级运行指标包括表存储空间和表查询负载；所述作业级运行指标包括作业执行状态和作业关联表清单。

4.根据权利要求1所述的方法，其特征在于，所述N个存储管理动作包括资源分配、数据迁移、数据分级存储、以及回收表碎片。

5.根据权利要求1至4中任意一项所述的方法，其特征在于，所述针对所述分布式数据库集群执行所述目标存储管理动作之后，所述方法还包括：

实时监控所述分布式数据库集群的运行指标参数；

6.根据权利要求5所述的方法，其特征在于，所述实时监控所述分布式数据库集群的运行指标参数之后，所述方法还包括：

对所述运行指标参数进行可视化展示；

并通过可视化展示页面接收用户反馈信息。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

获取系统状态信息和用户反馈信息；

8.一种分布式数据库集群的存储管理装置，其特征在于，所述装置包括：

提取模块，用于从所述第一运行指标中提取第一状态特征；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。