CN116910573B

CN116910573B - 异常诊断模型的训练方法及装置、电子设备和存储介质

Info

Publication number: CN116910573B
Application number: CN202311178969.3A
Authority: CN
Inventors: 丁辰晖
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Priority date: 2023-09-13
Filing date: 2023-09-13
Publication date: 2023-12-05
Anticipated expiration: 2043-09-13
Also published as: CN116910573A

Abstract

本公开公开了异常诊断模型的训练方法及装置、电子设备和存储介质，涉及人工智能技术领域，主要技术方案包括：对源域数据集进行降维，得到第一数据集；对目标域数据集进行降维，得到第二数据集；基于第一数据集对预设模型进行训练，得到第一参数；基于第一数据集与第二数据集，确定第一参数的权重系数；根据权重系数与第一参数确定第二参数，将第二参数应用于异常诊断模型中的目标层级。通过使用开源的源域数据集训练预设模型，用目标数据库的训练数据对预设模型的参数进行微调，使参数可以适配目标数据库，实现使用少量的训练数据对异常诊断模型的训练，避免了训练数据过少的数据库使用人工进行运维，提高了数据库的运维速度与精度。

Description

异常诊断模型的训练方法及装置、电子设备和存储介质

技术领域

本公开涉及数据处理技术领域，尤其涉及一种异常诊断模型的训练方法及装置、电子设备和存储介质。

背景技术

数据库是指按照一定的数据模型组织、存储和管理数据的集合，是一个结构化的数据存储系统，用于存储和管理大量相关数据的集合；数据库在各行各业应用广泛，需要针对高性能、海量数据做出及时的处理。

现有的数据库的运维方式大部分都为使用人工智能的方式，但是，该种方式存在一定的局限定。集需要大量的训练数据对人工智能进行训练；因此对于训练数据较少的数据库，无法使用人工智能的方式对数据库进行运行、维护。

发明内容

本公开提供了一种异常诊断模型的训练方法、装置、电子设备和存储介质。其主要目的在于解决训练数据较少的数据库无法使用人工智能的方式进行运维的技术问题。

根据本公开的第一方面，提供了一种异常诊断模型的训练方法，其中，包括：

根据预设维度阈值对源域数据集进行降维，得到第一数据集；

基于预设降维模型与所述第一数据集，对目标域数据集进行降维，得到第二数据集；其中，所述目标域数据集为目标数据库的日志数据集；

基于所述第一数据集，对预设模型进行训练，得到所述预设模型的第一参数；

基于所述第一数据集的数据量与所述第二数据集的数据量之比，确定所述第一参数的权重系数；其中，所述权重系数用于确定第一参数在模型中的目标层级中的参数占比；

根据所述权重系数与所述第一参数确定拟合后的第二参数，并将所述第二参数应用于异常诊断模型中的目标层级。

可选的，在根据预设维度阈值对源域数据集进行降维，得到第一数据集之前，所述方法还包括：

对日志数据的各项指标信息，按照时间顺序进行拼接，得到各具有时序信息的特征向量，其中，所述特征向量中包含不同指标的参数信息；所述日志数据为数据库的日志数据，所述日志数据中包含正常情况下的日志数据与异常情况下的日志数据；

根据各所述参数向量中参数信息，分别对各所述特征向量添加标签；其中，标签用于区分异常数据与正常数据，及异常数据的异常类型；

将标注标签后的各所述特征向量封装为所述目标域数据集。

可选的，所述根据预设维度阈值对源域数据集进行降维，得到第一数据集还包括：

对所述源域数据集进行第一降维，得到第一降维结果；

根据所述第一降维结果的协方差矩阵的特征向量，确定所述第一降维结果是否满足所述预设维度阈值；

在第一降维结果不满足所述预设维度阈值时，在所述第一降维结果的基础上，继续对所述第一降维结果进行第二降维，并继续判断第二降维结果是否满足所述预设维度阈值，直至降维结果满足所述预设维度阈值；

在第一降维结果满足所述预设维度阈值时，停止对所述源域数据的降维，得到第一数据集。

可选的，所述基于预设降维模型与所述第一数据集，对目标域数据集进行降维包括：

在所述预设降维模型中，通过正则化项得到所述目标域数据集的稀疏编码形式；

根据所述第一数据集的特征分布与所述稀疏编码形式的特征分布计算第一损失函数；

若所述第一损失函数大于第一预设阈值，则根据所述损失函数调整所述预设降维模型参数，并继续执行对所述目标域数据集的降维，直至损失函数满足预设阈值条件后，输出降维结果，得到降维后的所述目标域数据集；

若所述第一损失函数小于或等于所述第一预设阈值，则输出降维结果，得到降维后的所述目标域数据集。

可选的，所述基于所述第一数据集，对预设模型进行训练，得到所述预设模型的第一参数包括：

基于注意力机制对所述第一数据集中的不同特征向量，分配不同的注意力权重；

基于前向长短期记忆网络，对所述第一数据集中的各所述特征向量，按照正向时序进行学习，得到各特征向量的前向隐藏状态向量；

基于后向长短期记忆网络，对所述第一数据集中的各所述特征向量，按照反向时序进行学习，得到各特征向量的后向隐藏状态向量；

根据各所述特征向量的前向隐藏状态向量、后向隐藏状态向量及注意力权重，确定所述预设模型的输出结果；其中，所述输出结果为对各所述特征向量的类型的预测标签；

根据所述预测结果与所述特征向量的真实标签计算损失函数，并使用所述损失函数修正所述预设模型的模型参数；其中，所述第一数据集中包含各特征向量的真实标签；

重复上述训练过程，直至损失函数小于或等于第二预设阈值后，停止训练。

可选的，所述基于所述第一数据集与所述第二数据集的数据量之比，确定所述第一参数的权重系数还包括：

将所述第一数据集的数据量与所述第二数据集中的数据量比确定为迁移系数；

计算所述预设模型的期望矩阵与特征矩阵，根据所述期望矩阵、特征矩阵及所述迁移系数，计算所述权重系数。

可选的，在将所述第二参数应用于异常诊断模型中的目标层级之后，所述方法还包括：

获取数据库的日志数据，并将所述日志数据输入所述异常诊断模型；

所述异常诊断模型输出根据所述日志数据判断是否存在异常类型，并在存在异常类型的情况下，输出对应的异常类型。

根据本公开的第二方面，提供了一种异常诊断模型的训练装置，包括：

第一降维单元，用于根据预设维度阈值对源域数据集进行降维，得到第一数据集；

第二降维单元，用于基于预设降维模型与所述第一数据集，对目标域数据集进行降维，得到第二数据集；其中，所述目标域数据集为目标数据库的日志数据集；

训练单元，用于基于所述第一数据集，对预设模型进行训练，得到所述预设模型的第一参数；

确定单元，用于基于所述第一数据集的数据量与所述第二数据集的数据量之比，确定所述第一参数的权重系数；其中，所述权重系数用于确定第一参数在模型中的目标层级中的参数占比；

拟合单元，用于根据所述权重系数与所述第一参数确定拟合后的第二参数，并将所述第二参数应用于异常诊断模型中的目标层级。

可选的，所述装置还包括：

拼接单元，用于在第一降维单元根据预设维度阈值对源域数据集进行降维，得到第一数据集之前，对日志数据的各项指标信息，按照时间顺序进行拼接，得到各具有时序信息的特征向量，其中，所述特征向量中包含不同指标的参数信息；所述日志数据为数据库的日志数据，所述日志数据中包含正常情况下的日志数据与异常情况下的日志数据；

添加单元，用于根据各所述参数向量中参数信息，分别对各所述特征向量添加标签；其中，标签用于区分异常数据与正常数据，及异常数据的异常类型；

封装单元，用于将标注标签后的各所述特征向量封装为所述目标域数据集。

可选的，所述第一降维单元还用于：

对所述源域数据集进行第一降维，得到第一降维结果；

若不满足，则在所述第一降维结果的基础上，继续对所述第一降维结果进行第二降维，并继续判断第二降维结果是否满足所述预设维度阈值，直至降维结果满足所述预设维度阈值；

若满足，则停止对所述源域数据的降维，得到第一数据集。

可选的，所述第二降维单元还用于：

可选的，所述训练单元还用于：

可选的，所述确定单元还用于：

可选的，所述装置还包括：

获取单元，用于在拟合单元将所述第二参数应用于异常诊断模型中的目标层级之后，获取数据库的日志数据，并将所述日志数据输入所述异常诊断模型；

输出单元，用于所述异常诊断模型输出根据所述日志数据判断是否存在异常类型，并在存在异常类型的情况下，输出对应的异常类型。

根据本公开的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述第一方面所述的方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行前述第一方面所述的方法。

根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如前述第一方面所述的方法。

本公开提供的异常诊断模型的训练方法、装置、电子设备和存储介质，主要技术方案包括：首先，根据预设维度阈值对源域数据集进行降维，得到第一数据集；基于预设降维模型与所述第一数据集，对目标域数据集进行降维，得到第二数据集；其中，所述目标域数据集为目标数据库的日志数据集；其次，基于所述第一数据集，对预设模型进行训练，得到所述预设模型的第一参数；基于所述第一数据集的数据量与所述第二数据集的数据量之比，确定所述第一参数的权重系数；其中，所述权重系数用于确定第一参数在模型中的目标层级中的参数占比；最后，根据所述权重系数与所述第一参数确定拟合后的第二参数，并将所述第二参数应用于异常诊断模型中的目标层级。与相关技术相比，本申请实施例通过使用开源的、容易获得的源域数据集训练预设模型，并使用目标数据库的训练数据对预设模型的参数进行微调，使参数可以适配目标数据库，实现了使用少量的训练数据对异常诊断模型的训练，避免了训练数据过少的数据库使用人工进行运维的情况，提高了数据库的运维速度与精度。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本公开实施例所提供的一种异常诊断模型的训练方法的流程示意图；

图2为本公开实施例所提供的另一种异常诊断模型的训练方法的流程示意图；

图3为本公开实施例所提供的另一种异常诊断模型的训练方法的流程示意图；

图4为本公开实施例提供的一种异常诊断模型的训练装置的结构示意图；

图5为本公开实施例提供的另一种异常诊断模型的训练装置的结构示意图；

图6为本公开实施例提供的示例电子设备的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

下面参考附图描述本公开实施例的异常诊断模型的训练方法、装置、电子设备和存储介质。

图1为本公开实施例所提供的一种异常诊断模型的训练方法的流程示意图。

如图1所示，该方法包含以下步骤：

步骤101，根据预设维度阈值对源域数据集进行降维，得到第一数据集。

在本申请实施例的一种可实现方式中，源域数据集为开源数据集，指的是已有的、可用于训练的数据集，其包含了已经标记好的样本数据和对应的标签。

降维是一种常用的数据处理技术，它可以减少数据的维度，去除冗余信息，提高计算效率和模型性能，在本申请实施例的一种可实现方式中，在对源域数据集进行降维时，可采用主成分分析发进行降维，将源域数据集降维至预设维度阈值。

步骤102，基于预设降维模型与所述第一数据集，对目标域数据集进行降维，得到第二数据集；其中，所述目标域数据集为目标数据库的日志数据集。

在本申请实施例的一种可实现方式中，预设降维模型为提前训练好的，如主成分分析模型等，具体的，本申请实施例对此不进行限定。

为了尽可能在目标域数据集中保留与源域较为相似的特征，本申请实施例中，使用第一数据集来指导所述目标域数据集的降维，使第一数据集与第二数据集中的数据中，存在较多相似的数据类型，使根据第一数据集训练出的预设模型在对第二数据集进行训练时，能够更好的适应第二数据集中的特征分布，进而提高在第二数据集给的学习效果。

步骤103，基于所述第一数据集，对预设模型进行训练，得到所述预设模型的第一参数。

在本申请实施例的一种可实现方式中，第一数据集中的数据存在类型标签，因此预设模型可为有监督模型；在对预设模型进行训练时，将第一数据集中的数据输入到预设模型中，预设模型对各数据进行分类，并输出分类结果，使用数据的标签进行监督学习，提高预设模型的分类能力；具体的，本申请实施例对训练的过程不进行限定。

步骤104，基于所述第一数据集的数据量与所述第二数据集的数据量之比，确定所述第一参数的权重系数；其中，所述权重系数用于确定第一参数在模型中的目标层级中的参数占比。

在本申请实施例的一种可实现方式中，预设模型为使用其他数据库的数据训练得到的，若直接使用预设模型的参数对目标数据库进行预测，会导致预测结果存在误差；因此为了将第一采纳数迁移到其他模型中使用，本申请实施例使用第二参数的特征信息对第一参数进行微调，使得模型能够适应第二数据集的特征和模式。

在本申请实施例的一种可实现方式中，本申请实施例通过第一数据集的数据量与所述第二数据集的数据量之比，计算出模型中的目标层级的权重系数；需要说明的是，确定权重系数的过程是一种粗略的估计方法，具体的权重系数可能需要根据实际情况和需求进行调整和优化。此外，权重系数的选择还可以基于领域知识、经验或其他相关因素。

步骤105，根据所述权重系数与所述第一参数确定拟合后的第二参数，并将所述第二参数应用于异常诊断模型中的目标层级。

权重系数可以反映已知样本是否充足，以及第一数据集及与第二数据集的参数对学习结果信任度。在本申请实施例的一种可实现方式中，目标层级的设置与预设模型的层级类型有关，根据预设模型中包含的层级不同也不同，具体的，本申请实施例对目标层级的设置不进行限定。

本公开提供的异常诊断模型的训练方法，主要技术方案包括：首先，根据预设维度阈值对源域数据集进行降维，得到第一数据集；基于预设降维模型与所述第一数据集，对目标域数据集进行降维，得到第二数据集；其中，所述目标域数据集为目标数据库的日志数据集；其次，基于所述第一数据集，对预设模型进行训练，得到所述预设模型的第一参数；基于所述第一数据集的数据量与所述第二数据集的数据量之比，确定所述第一参数的权重系数；其中，所述权重系数用于确定第一参数在模型中的目标层级中的参数占比；最后，根据所述权重系数与所述第一参数确定拟合后的第二参数，并将所述第二参数应用于异常诊断模型中的目标层级。与相关技术相比，本申请实施例通过使用开源的、容易获得的源域数据集训练预设模型，再用目标数据库的训练数据对预设模型的参数进行微调，使参数可以适配目标数据库，实现了使用少量的训练数据完成了对异常诊断模型的训练，避免了训练数据过少的数据库使用人工进行运维的情况，提高了数据库的运维速度与精度。

在本申请实施例的一种可实现方式中，在根据预设维度阈值对源域数据集进行降维，得到第一数据集之前，首先需采集目标数据库的真实日志数据，本申请实施例以目标数据库为达梦数据库为例进行说明，在执行步骤101之前，以0.5秒为间隔单位，采集单位时间内各项日志的平均值，数据类型包括：Linux的进程数据、CPU使用率、磁盘I/O数量、网络丢包数，与数据库的语句执行时间、数量、锁等待时间、网页刷新数量等，具体的，本申请实施例对此不进行限定；在采集达梦数据库的异常数据之后，还需对日志数据进行特征提取，可参阅以下步骤：

对日志数据的各项指标信息，按照时间顺序进行拼接，得到各具有时序信息的特征向量，其中，所述特征向量中包含不同指标的参数信息；所述日志数据为数据库的日志数据，所述日志数据中包含正常情况下的日志数据与异常情况下的日志数据；根据各所述参数向量中参数信息，分别对各所述特征向量添加标签；其中，标签用于区分异常数据与正常数据，及异常数据的异常类型；将标注标签后的各所述特征向量封装为所述目标域数据集。清洗出各项指标日志的时序信息，将每一时刻所对应各项指标的信息进行拼接，生成一组固定维度的特征向量：[,/>,...,/>,...,/>]。

在执行步骤101对源域数据集进行降维时，可参阅以下步骤，请参阅图2，图2为本公开实施例所提供的一种异常诊断模型的训练方法的流程示意图，包括：

步骤201，对所述源域数据集进行第一降维，得到第一降维结果。

在本申请实施例的一种可实现方式中，本申请实施例对源域数据集进行降维时，使用主成分分析法进行降维，需要说明的是，该种叙述方式仅为一示例性说明，并非是对具体降维方式的具体限定。

主成分分析法是一种运用线性代数的知识来进行数据降维的方法，它将多个变量转换为少数几个不相关的综合变量来比较全面地反映整个数据集。这是因为数据集中的原始变量之间存在一定的相关关系，可用较少的综合变量来综合各原始变量之间的信息。这些综合变量称为主成分，各主成分之间彼此不相关，即所代表的信息不重叠。

在本申请实施例的一种可实现方式中，在进行降维时，可计算源域数据集中的各数据的方差，然后选取方差最大的方向作为新的坐标轴方向，即完成了对源域数据集的一次降维。

步骤202，根据所述第一降维结果的协方差矩阵的特征向量，确定所述第一降维结果是否满足所述预设维度阈值。

为了避免数据均值对坐标变换的影响，我们将每个特征值减去该维特征的平均值，对第 i 个样例的第 j 个特征，计算公式为:

u为第j个特征的期望。设协方差矩阵为n×n大小的方阵，具有 n 个特征向量，计算出协方差的特征向量及对应的特征值。将特征向量按照特征值的大小按列排放，组成矩阵u={[,/>,...,...,/>] },设定预设维度阈值为 p ，k 为选择的特征维度，n 为全部的特征维度，判断是否满足以下公式：

其中，表示PCA降维后的特征向量对应的特征值。

步骤203，若不满足，则在所述第一降维结果的基础上，继续对所述第一降维结果进行第二降维，并继续判断第二降维结果是否满足所述预设维度阈值，直至降维结果满足所述预设维度阈值。

需要说明的是，为区分不同的降维过程（第一次降维、第二次降维），本申请实施例通过第一、第二的方式进行叙述，但是该种叙述方式仅做区分用，并不用于其他限定。

在不满足的情况下，轮询执行步骤201-203，直至满足条件，停止训练，并输出降维结果，并确定降维结果为第一数据集。

步骤204，若满足，则停止对所述源域数据的降维，得到第一数据集。

在本申请实施例的一种可实现方式中，在执行步骤102时，可参阅以下步骤：

为了尽可能的保留与源域较为相似的特征，本申请实施例采用自编码机模型对目标域进行降维，在数据降维的过程中，可以通过正则化项得到数据集的稀疏编码形式，将源数据集降维后的特征信息作为稀疏正则化因子，来指导目标域数据集降维。为了获得目标域数据的稀疏特征表达，使用最小化源域与目标域数据集的分布差异的JS散度作为稀疏正则项，以此来提高模型在数据分布差异较大时的敏感性，JS散度的计算公式如下：

其中，p 为源域数据集降维后的特征分布，q 为目标域数据集降维后的特征分布。故得到自编码机的损失函数公式如式

其中，β为调节因子，用来调节稀疏化的强度，并通过梯度下降算法完成自编码机降维模型的收敛；J(W, b)表示基本的损失函数，其中W表示模型的权重参数，b表示模型的偏置参数。最终经过多个编码层后得到目标域数据低维度的特征表达形式。

最小化源域是指通过调整模型的训练过程，减小源域数据集与目标域数据集之间的分布差异。目标是使模型在目标域上的表现更好，即更好地适应目标域的特征分布。

源域与目标域可能在数据分布、特征分布、数据类别等方面存在差异。如果直接使用源域数据进行训练，在目标域上的性能可能会受到限制，因为源域的特征和模式可能与目标域不匹配。

为了解决这个问题，引入了JS散度（Jensen-Shannon Divergence），作为稀疏正则项的一部分，用于衡量源域数据集与目标域数据集之间的分布差异。JS散度可以度量两个概率分布之间的相似性或差异性。通过最小化JS散度，我们可以使源域数据集的特征分布与目标域数据集更接近，从而提高模型在目标域上的泛化能力。

在训练过程中，通过引入JS散度作为正则化项，将其纳入模型的损失函数中，使得模型在优化的过程中更加关注减小源域与目标域之间的分布差异。通过迭代优化，模型会逐渐学习到适应目标域数据的特征表达，提高在目标域上的性能。

因此，"最小化源域"意味着在训练过程中，通过减小源域与目标域之间的分布差异，使得模型能够更好地适应目标域的特征分布，从而提高在目标域上的学习效果。

在本申请实施例的一种可实现方式中，在执行步骤103对预设模型训练时，可参照以下步骤进行训练，请参阅图3，图3为本公开实施例所提供的一种异常诊断模型的训练方法的流程示意图：

步骤301，基于注意力机制对所述第一数据集中的不同特征向量，分配不同的注意力权重。

由于不同的日志信息对分类结果会有不同的影响，通过注意力机制对不同的日志信息分配不同的权重。通过降低噪声数据的权重，可以减少一些噪声数据对分类结果的影响，也可以同时增加有重大影响力的日志信息的权重。

请参阅表1，表1为异常类型表，不同的异常类型对应不同的数据情况，如异常类型为CPU瓶颈时，CPU占用率数据就会异常，因此通过注意力机制，针对数据标签，对标签为异常的特征向量，根据异常类型的不同，提升相应的数据值的注意力权重。

表1

步骤302，基于前向长短期记忆网络，对所述第一数据集中的各所述特征向量，按照正向时序进行学习，得到各特征向量的前向隐藏状态向量。

将Bi-LSTM（双向长短期记忆网络）拆分成前向LSTM和后向LSTM，便于更好地捕捉时序数据中的上下文信息；在标准LSTM中，信息的传递是从过去到未来，即按照时间顺序从前到后进行计算；然而，在某些情况下，当前时刻的预测可能依赖于过去和未来的上下文信息，为了获取更全面的时序上下文信息，本申请实施例引入了前向和后向两个LSTM层。

在前向LSTM中，信息从过去到未来进行传递，它能够学习到时序数据中的正向模式和依赖关系；而在后向LSTM中，信息从未来到过去进行传递，它能够学习到时序数据中的逆向模式和依赖关系。

通过将前向和后向LSTM层组合在一起，Bi-LSTM可以同时考虑过去和未来的上下文信息，从而更好地捕捉到时序数据中的长期依赖关系。在前向传播过程中，前向LSTM和后向LSTM分别对输入数据进行计算，并将它们的输出进行连接，形成最终的特征表示。

在训练时，前向LSTM和后向LSTM是同时进行训练的，而不是分开进行训练，通过梯度下降算法和反向传播，Bi-LSTM的参数会同时更新，以最小化损失函数。

步骤303，基于后向长短期记忆网络，对所述第一数据集中的各所述特征向量，按照反向时序进行学习，得到各特征向量的后向隐藏状态向量。

详细的实现步骤请参阅步骤302，本申请实施例在此不再进行一一赘述。

步骤304，根据各所述特征向量的前向隐藏状态向量、后向隐藏状态向量及注意力权重，确定所述预设模型的输出结果；其中，所述输出结果为对各所述特征向量的类型的预测标签。

在本申请实施例的一种可实现方式中，在实际应用中，可在隐藏层之后，注意力层之前，加入一个全连接层，用于连接隐藏状态向量和注意力权重，其中，阴层即为生成隐藏状态向量的层，注意力层中包含各数据的注意力权重，全连接层将隐藏状态和注意力权重作为输入，并输出一个综合的特征表示。

具体来说，全连接层将每个隐藏状态和对应的注意力权重进行连接或拼接。假设隐藏状态的维度为d，注意力权重的维度为k，那么全连接层的输入维度将是d+k。

以下是一个简单的例子来说明全连接层的配置和计算过程：

假设我们有一个时序数据集，每个时间步的隐藏状态表示为h（维度为d），对应的注意力权重表示为α（维度为k）。在某个时间步t，全连接层将输入的隐藏状态和注意力权重/>连接在一起。

全连接层的配置如下：

输入维度：d + k

输出维度：m

其中，m是全连接层的输出维度，可以根据实际需求进行设置。

步骤305，根据所述预测结果与所述特征向量的真实标签计算损失函数，并使用所述损失函数修正所述预设模型的模型参数；其中，所述第一数据集中包含各特征向量的真实标签。

承接上述申请实施例的说明，第一数据集中的特征向量，都存在对应的真实标签，再使用第一数据集训练预设模型时，根据预设模型输出的识别结果与数据的真实标签计算损失函数，损失函数用于衡量模型的精度，并可反向传播，对预设模型的模型参数进行修正，提高模型的精度。

步骤306，重复上述训练过程，直至损失函数小于或等于第二预设阈值后，停止训练。

在通过损失函数反向传播，对模型参数进行修正后，重复步骤301-步骤305对预设模型的训练步骤，直至损失函数小于或等于第二预设阈值后，停止训练。

第二预设阈值为一经验值，在实际应用中，可根据对预设模型的精度的需求进行设定，第二预设阈值设置的越小，训练出的预设模型的模型精度就越高，同时训练时长也会增加，因此在实际使用中，用户可根据自身需求进行设定，本申请实施例在此不进行限定。

在本申请实施例的一种可实现方式中，在预设模型训练完成后，得到预设模型的第一参数，本申请实施例通过迁移学习的方式，将预设模型的第一参数用于达梦数据库对应的异常诊断模型中，并通过微调的方式进行模型训练；微调的目的是通过在目标域数据集上对模型进行进一步训练，使得模型能够适应目标域的特征和模式，在微调过程中，通常只更新部分模型参数，例如全连接层和注意力层的参数，而保持源域模型的一部分参数固定。这样可以确保迁移的模型能够更好地适应目标域的特点。具体的实现方法请参阅以下步骤：

如公式所示，其中为[0,1]的调节因子，可用于网络后期调参，而v为源域与目标域数据集的数量分布之比，用于衡量源域与目标域数据集的数量差异。

对于全连接层与注意力层权重矩阵，权重矩阵w计算公式如下:

其中，表示旧的权重参数，是模型在调整之前的权重参数，/>为源域模型特征期望矩阵，a为源域模型特征矩阵数量。/>为目标域特征期望矩阵，b为目标域模型特征矩阵数量。

权重系数可以反映已知样本是否充足，以及源域与目标域的参数对学习结果信任度。当源域与目标域特征分布相近时,φ值较大，会得到较小的迁移层权重，源域对目标域的特征影响较大，但源域与目标域特征分布差异较大时，φ值较小，会得到较大的迁移层权重，源域对目标域的特征影响较小。通过权重系数优化模型隐层的权重拟合目标域的特征分布，最后获得模型迁移后的参数矩阵，完成模型的迁移构建。

在本申请实施例的一种可实现方式中，在迁移训练完成后，异常诊断模型即可用于对数据库的日常运行或维护，具体的，可参考以下步骤：

获取数据库的日志数据，并将所述日志数据输入所述异常诊断模型；所述异常诊断模型输出根据所述日志数据判断是否存在异常类型，并在存在异常类型的情况下，输出对应的异常类型。

与相关技术相比，本申请实施例的有益效果还包括：

1.使用迁移学习应用于达梦数据库异常检测模型，通过使用容易获得的开源数据库的训练集预训练网络模型，再使用少量的达梦数据库异常日志进行网络模型的微调，使得网络模型可以适配达梦数据库，解决缺乏达梦数据库数据集的问题。

2.在迁移训练中提出一种权重系数，用来解决在小样本数据集的条件下，出现的源域与目标域数据集数量的差异，导致的特征分布不同的问题。

3.提出两种数据降维的方法应用于源域数据集与目标域数据集，使得二者有相似的特征分布，使得应用于迁移学习获得更好的效果。

4.由于我们采集了多种日志指标，同时也会出现很多的噪声数据，我们引入注意力机制去降低噪声数据对模型影响的权重，加大重要日志信息的权重，提高系统的分类精度。

与上述的异常诊断模型的训练方法相对应，本发明还提出一种异常诊断模型的训练装置。由于本发明的装置实施例与上述的方法实施例相对应，对于装置实施例中未披露的细节可参照上述的方法实施例，本发明中不再进行赘述。

图4为本公开实施例提供的一种异常诊断模型的训练装置的结构示意图，如图4所示，包括：

第一降维单元41，用于根据预设维度阈值对源域数据集进行降维，得到第一数据集；

第二降维单元42，用于基于预设降维模型与所述第一数据集，对目标域数据集进行降维，得到第二数据集；其中，所述目标域数据集为目标数据库的日志数据集；

训练单元43，用于基于所述第一数据集，对预设模型进行训练，得到所述预设模型的第一参数；

确定单元44，用于基于所述第一数据集的数据量与所述第二数据集的数据量之比，确定所述第一参数的权重系数；其中，所述权重系数用于确定第一参数在模型中的目标层级中的参数占比；

拟合单元45，用于根据所述权重系数与所述第一参数确定拟合后的第二参数，并将所述第二参数应用于异常诊断模型中的目标层级。

本公开提供的异常诊断模型的训练装置，主要技术方案包括：首先，根据预设维度阈值对源域数据集进行降维，得到第一数据集；基于预设降维模型与所述第一数据集，对目标域数据集进行降维，得到第二数据集；其中，所述目标域数据集为目标数据库的日志数据集；其次，基于所述第一数据集，对预设模型进行训练，得到所述预设模型的第一参数；基于所述第一数据集的数据量与所述第二数据集的数据量之比，确定所述第一参数的权重系数；其中，所述权重系数用于确定第一参数在模型中的目标层级中的参数占比；最后，根据所述权重系数与所述第一参数确定拟合后的第二参数，并将所述第二参数应用于异常诊断模型中的目标层级。与相关技术相比，本申请实施例通过使用开源的、容易获得的源域数据集训练预设模型，并使用目标数据库的训练数据对预设模型的参数进行微调，使参数可以适配目标数据库，实现了使用少量的训练数据对异常诊断模型的训练，避免了训练数据过少的数据库使用人工进行运维的情况，提高了数据库的运维速度与精度。

进一步地，在本实施例一种可能的实现方式中，如图5所示，所述装置还包括：

拼接单元46，用于在第一降维单元41根据预设维度阈值对源域数据集进行降维，得到第一数据集之前，对日志数据的各项指标信息，按照时间顺序进行拼接，得到各具有时序信息的特征向量，其中，所述特征向量中包含不同指标的参数信息；所述日志数据为数据库的日志数据，所述日志数据中包含正常情况下的日志数据与异常情况下的日志数据；

添加单元47，用于根据各所述参数向量中参数信息，分别对各所述特征向量添加标签；其中，标签用于区分异常数据与正常数据，及异常数据的异常类型；

封装单元48，用于将标注标签后的各所述特征向量封装为所述目标域数据集。

进一步地，在本实施例一种可能的实现方式中，如图5所示，所述第一降维单元41还用于：

对所述源域数据集进行第一降维，得到第一降维结果；

在第一降维结果不满足所述预设维度阈值时，停止对所述源域数据的降维，得到第一数据集。

进一步地，在本实施例一种可能的实现方式中，如图5所示，所述第二降维单元42还用于：

进一步地，在本实施例一种可能的实现方式中，如图5所示，所述训练单元43还用于：

进一步地，在本实施例一种可能的实现方式中，如图5所示，所述确定单元44还用于：

获取单元49，用于在拟合单元45将所述第二参数应用于异常诊断模型中的目标层级之后，获取数据库的日志数据，并将所述日志数据输入所述异常诊断模型；

输出单元410，用于所述异常诊断模型输出根据所述日志数据判断是否存在异常类型，并在存在异常类型的情况下，输出对应的异常类型。

需要说明的是，前述对方法实施例的解释说明，也适用于本实施例的装置，原理相同，本实施例中不再限定。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，设备500包括计算单元501，其可以根据存储在ROM（Read-OnlyMemory，只读存储器）502中的计算机程序或者从存储单元508加载到RAM（Random AccessMemory，随机访问/存取存储器）503中的计算机程序，来执行各种适当的动作和处理。在RAM503中，还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。I/O（Input/Output，输入/输出）接口505也连接至总线504。

设备500中的多个部件连接至I/O接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于CPU（Central Processing Unit，中央处理单元）、GPU（Graphic Processing Units，图形处理单元）、各种专用的AI（Artificial Intelligence，人工智能）计算芯片、各种运行机器学习模型算法的计算单元、DSP（Digital SignalProcessor，数字信号处理器）、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理，例如异常诊断模型的训练方法。例如，在一些实施例中，异常诊断模型的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由计算单元501执行时，可以执行上文描述的方法的一个或多个步骤。备选地，在其他实施例中，计算单元501可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行前述异常诊断模型的训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、FPGA（Field Programmable Gate Array，现场可编程门阵列）、ASIC（Application-Specific Integrated Circuit，专用集成电路）、ASSP（Application Specific StandardProduct，专用标准产品）、SOC（System On Chip，芯片上系统的系统）、CPLD（ComplexProgrammable Logic Device，复杂可编程逻辑设备）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、EPROM（Electrically Programmable Read-Only-Memory，可擦除可编程只读存储器）或快闪存储器、光纤、CD-ROM（Compact Disc Read-Only Memory，便捷式紧凑盘只读存储器）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（Cathode-Ray Tube，阴极射线管）或者LCD（LiquidCrystal Display，液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：LAN（LocalArea Network，局域网）、WAN（Wide Area Network，广域网）、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务（"Virtual Private Server"，或简称"VPS"）中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

其中，需要说明的是，人工智能是研究使计算机来模拟人的某些思维过程和智能行为（如学习、推理、思考、规划等）的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种异常诊断模型的训练方法，其特征在于，包括：

根据所述权重系数与所述第一参数确定拟合后的第二参数，并将所述第二参数应用于异常诊断模型中的目标层级；

所述根据预设维度阈值对源域数据集进行降维，得到第一数据集还包括：

对所述源域数据集进行第一降维，得到第一降维结果；

若满足，则停止对所述源域数据的降维，得到第一数据集；

所述基于预设降维模型与所述第一数据集，对目标域数据集进行降维包括：

2.根据权利要求1所述的方法，其特征在于，在根据预设维度阈值对源域数据集进行降维，得到第一数据集之前，所述方法还包括：

对日志数据的各项指标信息，按照时间顺序进行拼接，得到各具有时序信息的特征向量，其中，所述特征向量中包含不同指标的参数信息；所述日志数据中包含正常情况下的日志数据与异常情况下的日志数据；

将标注标签后的各所述特征向量封装为所述目标域数据集。

3.根据权利要求1所述的方法，其特征在于，所述基于所述第一数据集，对预设模型进行训练，得到所述预设模型的第一参数包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述第一数据集与所述第二数据集的数据量之比，确定所述第一参数的权重系数还包括：

计算所述预设模型的期望矩阵与特征矩阵，根据所述期望矩阵、特征矩阵及所述迁移系数，计算平衡系数。

5.根据权利要求1-4中任一项所述的方法，其特征在于，在将所述第二参数应用于异常诊断模型中的目标层级之后，所述方法还包括：

6.一种异常诊断模型的训练装置，其特征在于，包括：

拟合单元，用于根据所述权重系数与所述第一参数确定拟合后的第二参数，并将所述第二参数应用于异常诊断模型中的目标层级；

所述第一降维单元还用于：

对所述源域数据集进行第一降维，得到第一降维结果；

若满足，则停止对所述源域数据的降维，得到第一数据集；

所述第二降维单元还用于：

7.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。

8.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行根据权利要求1-5中任一项所述的方法。