CN115795314A

CN115795314A - 一种关键样本采样方法、系统、电子设备及存储介质

Info

Publication number: CN115795314A
Application number: CN202310070903.6A
Authority: CN
Inventors: 闫瑞栋; 郭振华; 赵雅倩
Original assignee: Shandong Mass Institute Of Information Technology
Current assignee: Shandong Mass Institute Of Information Technology
Priority date: 2023-02-07
Filing date: 2023-02-07
Publication date: 2023-03-14
Anticipated expiration: 2043-02-07
Also published as: CN115795314B

Abstract

本申请公开了一种关键样本采样方法、系统、电子设备及存储介质，所属的技术领域为人工智能技术领域。所述关键样本采样方法包括：获取分布式训练系统的全体样本集合；根据多个属性的信息熵计算每一样本的评估得分，并根据评估得分剔除异常样本得到优选样本集合；根据优选样本集合构建目标矩阵；确定目标矩阵的特征值和特征向量，将数值最大的m个特征值对应的特征向量设置为主成分特征向量；将所述优选样本集合中的Q个样本设置为关键样本，以便所述分布式训练系统的计算节点利用所述关键样本进行模型训练；其中，每一所述关键样本包含所有所述主成分特征向量。本申请能够降低参与训练的样本数量和样本属性，提高分布式训练系统的训练效率。

Description

一种关键样本采样方法、系统、电子设备及存储介质

技术领域

本申请涉及人工智能技术领域，特别涉及一种关键样本采样方法、系统、电子设备及存储介质。

背景技术

随着大数据、人工智能、高性能计算以及互联网技术的迅猛发展，催生了各类海量的且复杂结构的数据集与模型，进而推动机器学习、深度学习模型训练与推理任务逐步朝着分布式计算架构领域不断迈进，并使其成为实现人工智能技术在计算机视觉、自然语言处理、语言识别、自动驾驶等领域取得突破性进展的关键举措。

与以往传统的单机训练方式相比，分布式训练技术有以下两方面的显著优势：一是分布式系统依赖于其众多计算节点的存储容量，解决了数据与模型的有效存储与加载问题；二是分布式系统众多计算节点的协同并行计算能力，大大缩短了单机训练时长。综上所述，分布式训练系统以其存储、并行计算等显著优势已成为人工智能研究领域的基础。

数学优化算法是训练大规模机器/深度学习系统的核心，在有足够数据资源的情况下，优化算法已被广泛应用于大规模数据集，并取得了巨大的成功。然而，实现这一成功也需要大量计算的资源(通常是GPU)，以及随之而来的成本开销和能源消耗。在不降低已学习系统训练精度的前提下，显著降低这些成本是分布式训练系统的一大挑战。

因此，如何降低参与训练的样本数量与样本属性，提高分布式训练系统的训练效率是本领域技术人员目前需要解决的技术问题。

发明内容

本申请的目的是提供一种关键样本采样方法、一种模型训练方法、一种关键样本采样系统、一种模型训练系统、一种电子设备及一种存储介质，能够降低参与训练的样本数量与样本属性，提高分布式训练系统的训练效率。

为解决上述技术问题，本申请提供一种关键样本采样方法，包括：

获取分布式训练系统的全体样本集合；其中，所述全体样本集合包括多个样本，每一样本包括多个属性；

根据多个属性的信息熵计算每一所述样本的评估得分，并根据所述评估得分剔除所述全体样本集合中的异常样本，得到优选样本集合；

根据所述优选样本集合中的所有样本构建目标矩阵；其中，所述目标矩阵为协方差矩阵或相关系数矩阵；

确定所述目标矩阵的特征值和特征向量，并将数值最大的m个特征值对应的特征向量设置为主成分特征向量；

将所述优选样本集合中的Q个样本设置为关键样本，以便所述分布式训练系统的计算节点利用所述关键样本进行模型训练；其中，每一所述关键样本包含所有所述主成分特征向量。

可选的，根据多个属性的信息熵计算每一所述样本的评估得分，包括：

利用信息熵计算公式计算每一所述样本包括的每一属性的信息熵；

将每一所述样本包括的所有属性的信息熵之和设置为所述评估得分。

可选的，根据所述评估得分剔除所述全体样本集合中的异常样本，得到优选样本集合，包括：

计算所有所述样本的评估得分的平均值，根据所述平均值确定参考得分；

将评估得分小于所述参考得分的样本设置为所述异常样本，并剔除所述全体样本集合中的所述异常样本，得到所述优选样本集合。

可选的，根据所述优选样本集合中的所有样本构建目标矩阵，包括：

提取所述优选样本集合中每一样本的样本特征，根据所述样本特征构建所述目标矩阵。

可选的，根据所述样本特征构建所述目标矩阵，包括：

根据所述样本特征构建p×n的样本特征矩阵；其中，n为所述优选样本集合包含的样本数量，p为样本包含的属性数量；

计算所述样本特征矩阵对应的所述目标矩阵。

可选的，计算所述样本特征矩阵对应的所述目标矩阵，包括：

利用正交矩阵对所述样本特征矩阵进行线性变换，得到所述目标矩阵。

可选的，在利用正交矩阵对所述样本特征矩阵进行线性变换之前，还包括：

确定符合第一约束条件的正交矩阵；

其中，所述第一约束条件为T_i′T_i = 1，T_i表示所述正交矩阵的第i行元素，T_i′表示所述正交矩阵对应的转置矩阵的第i行元素。

确定符合第二约束条件的正交矩阵；

其中，所述第二约束条件为|T_i|=1，T_i表示正交矩阵的第i行元素。

可选的，确定所述目标矩阵的特征值和特征向量，包括：

将所述目标矩阵的特征根设置为目标矩阵的特征值，并确定每一所述特征值对应的单位化的特征向量。

可选的，在将数值最大的m个特征值对应的特征向量设置为主成分特征向量之前，还包括：

按照从大到小的顺序对所有所述特征值进行排序；

确定符合预设规则的主成分特征向量数量m；其中，所述预设规则为排序前m位的特征值对应的特征向量的累计方差贡献率大于预设值。

可选的，确定符合预设规则的主成分特征向量数量m，包括：

将k的值设置为1；

判断排序前k位的特征值对应的特征向量的累计方差贡献率是否大于所述预设值；

若是，则将k的值设置为所述主成分特征向量数量m；

若否，则将k的值加1，并进入判断排序前k位的特征值对应的特征向量的累计方差贡献率是否大于所述预设值的步骤。

可选的，在将所述优选样本集合中的Q个样本设置为关键样本之后，还包括：

将Q个所述关键样本划分为多个关键样本子集合；

将所述关键样本子集合发送至所述分布式训练系统的计算节点，以便所述计算节点利用所述关键样本子集合对子模型进行训练；其中，所述计算节点中的子模型由通过对待训练模型拆分得到。可选的，在将所述优选样本集合中的Q个样本设置为关键样本之后，还包括：

将Q个所述关键样本发送至所述分布式训练系统的计算节点，以便所述计算节点利用Q个所述关键样本对子模型进行训练；其中，所述计算节点中的子模型由通过对待训练模型拆分得到。

可选的，所述待训练模型为图像处理模型，所述全体样本集合中的样本为样本图像。

可选的，所述待训练模型为自动驾驶模型，所述全体样本集合中的样本为车辆驾驶数据；其中，所述车辆驾驶数据包括行驶环境信息、车辆状态信息和用户控制信息。

本申请还提供了一种模型训练方法，应用于分布式训练系统的管理节点，包括：

汇总所述分布式训练系统中每一计算节点中用于训练模型的样本，得到全体样本集合；其中，所述全体样本集合包括多个样本，每一样本包括多个属性；

将所述优选样本集合中的Q个样本设置为关键样本；其中，每一所述关键样本包含所有所述主成分特征向量；

将所述关键样本分发至每一所述计算节点，以便所述计算节点利用所述关键样本进行模型训练。本申请还提供了一种模型训练方法，应用于分布式训练系统的计算节点，包括：

接收所述分布式训练系统中控制节点分配的子模型和局部样本集合；其中，所述局部样本集合包括多个样本，每一样本包括多个属性；

根据多个属性的信息熵计算每一所述样本的评估得分，并根据所述评估得分剔除所述局部样本集合中的异常样本，得到优选样本集合；

利用Q个所述关键样本对所述子模型进行训练。

本申请还提供了一种关键样本采样系统，包括：

集合获取模块，用于获取分布式训练系统的全体样本集合；其中，所述全体样本集合包括多个样本，每一样本包括多个属性；

第一筛选模块，用于根据多个属性的信息熵计算每一所述样本的评估得分，并根据所述评估得分剔除所述全体样本集合中的异常样本，得到优选样本集合；

第一矩阵构建模块，用于根据所述优选样本集合中的所有样本构建目标矩阵；其中，所述目标矩阵为协方差矩阵或相关系数矩阵；

采样模块，用于确定所述目标矩阵的特征值和特征向量，并将数值最大的m个特征值对应的特征向量设置为主成分特征向量；还用于将所述优选样本集合中的Q个样本设置为关键样本，以便所述分布式训练系统的计算节点利用所述关键样本进行模型训练；其中，每一所述关键样本包含所有所述主成分特征向量。

本申请还提供了一种模型训练系统，应用于分布式训练系统的管理节点，包括：

样本汇总模块，用于汇总所述分布式训练系统中每一计算节点中用于训练模型的样本，得到全体样本集合；其中，所述全体样本集合包括多个样本，每一样本包括多个属性；

第二筛选模块，用于根据多个属性的信息熵计算每一所述样本的评估得分，并根据所述评估得分剔除所述全体样本集合中的异常样本，得到优选样本集合；

第二矩阵构建模块，用于根据所述优选样本集合中的所有样本构建目标矩阵；其中，所述目标矩阵为协方差矩阵或相关系数矩阵；

关键样本确定模块，用于确定所述目标矩阵的特征值和特征向量，并将数值最大的m个特征值对应的特征向量设置为主成分特征向量；还用于将所述优选样本集合中的Q个样本设置为关键样本；其中，每一所述关键样本包含所有所述主成分特征向量；

样本分发模块，用于将所述关键样本分发至每一所述计算节点，以便所述计算节点利用所述关键样本进行模型训练。

本申请还提供了一种模型训练系统，应用于分布式训练系统的计算节点，包括：

数据接收模块，用于接收所述分布式训练系统中控制节点分配的子模型和局部样本集合；其中，所述局部样本集合包括多个样本，每一样本包括多个属性；

第三筛选模块，用于根据多个属性的信息熵计算每一所述样本的评估得分，并根据所述评估得分剔除所述局部样本集合中的异常样本，得到优选样本集合；

第三矩阵确定模块，用于根据所述优选样本集合中的所有样本构建目标矩阵；其中，所述目标矩阵为协方差矩阵或相关系数矩阵；

样本筛选模块，用于确定所述目标矩阵的特征值和特征向量，并将数值最大的m个特征值对应的特征向量设置为主成分特征向量；将所述优选样本集合中的Q个样本设置为关键样本；其中，每一所述关键样本包含所有所述主成分特征向量；

训练模块，用于利用Q个所述关键样本对所述子模型进行训练。

本申请还提供了一种存储介质，其上存储有计算机程序，所述计算机程序执行时实现上述关键样本采样方法和/或模型训练方法执行的步骤。

本申请还提供了一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器调用所述存储器中的计算机程序时实现上述关键样本采样方法执行的步骤。本申请提供了一种关键样本采样方法，包括：获取分布式训练系统的全体样本集合；其中，所述全体样本集合包括多个样本，每一样本包括多个属性；根据多个属性的信息熵计算每一所述样本的评估得分，并根据所述评估得分剔除所述全体样本集合中的异常样本，得到优选样本集合；根据所述优选样本集合中的所有样本构建目标矩阵；其中，所述目标矩阵为协方差矩阵或相关系数矩阵；确定所述目标矩阵的特征值和特征向量，并将数值最大的m个特征值对应的特征向量设置为主成分特征向量；将所述优选样本集合中的Q个样本设置为关键样本，以便所述分布式训练系统的计算节点利用所述关键样本进行模型训练；其中，每一所述关键样本包含所有所述主成分特征向量。

本申请在获取分布式训练系统的全体样本集合后，利用属性的信息熵剔除全体样本集合中的异常样本得到优选样本集合，减少参与关键样本提取的样本数量。在得到优选样本集合后，本申请根据优选样本集合中的所有样本构建协方差矩阵或相关系数矩阵，根据协方差矩阵或相关系数矩阵的特征值和特征向量确定主成分特征向量，将包含所有所述主成分特征向量的样本设置为关键样本，进而实现基于主成分分析的关键样本采样，以便利用关键样本参与分布式训练系统的模型训练过程。上述过程通过异常样本剔除和基于主成分分析的关键样本采样实现了两阶段的样本筛选，能够降低参与训练的样本数量和样本属性，提高分布式训练系统的训练效率。本申请同时还提供了一种模型训练方法、一种关键样本采样系统、一种模型训练系统、一种电子设备及一种存储介质，具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例，下面将对实施例中所需要使用的附图做简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例所提供的一种关键样本采样方法的流程图；

图2为本申请实施例所提供的一种应用于管理节点的模型训练方法的流程图；

图3为本申请实施例所提供的一种应用于计算节点的模型训练方法的流程图；

图4为本申请实施例所提供的一种关键样本采样系统的结构示意图；

图5为本申请实施例所提供的一种应用于分布式训练系统的管理节点的模型训练系统的结构示意图；

图6为本申请实施例所提供的一种应用于分布式训练系统的计算节点的模型训练系统的结构示意图；

图7为本申请实施例所提供的一种电子设备的结构示意图；

图8为本申请实施例所提供的一种存储介质的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面请参见图1，图1为本申请实施例所提供的一种关键样本采样方法的流程图。

具体步骤可以包括：

S101：获取分布式训练系统的全体样本集合；

其中，本实施例可以应用于分布式训练系统，也可以应用于与分布式训练系统连接的电子设备。在本实施例中可以对分布式训练系统中各个节点中的样本进行汇总，得到全体样本集合。上述全体样本集合包括多个样本，每一样本包括多个属性。上述样本的属性值均经过归一化操作。分布式训练系统用于对待训练模型进行训练，若待训练模型为图像处理模型，则所述全体样本集合中的样本为样本图像（如行人图像、人脸图像等），样本图像可以包括人脸特征向量、位置信息等属性；相应的，在分布式训练系统对图像处理模型进行训练之后，还可以利用训练后的图像处理模型对输入的未知图像执行图像处理操作。此外若待训练模型为自动驾驶模型，则全体样本集合中的样本为车辆驾驶数据；其中，所述车辆驾驶数据包括行驶环境信息、车辆状态信息和用户控制信息等属性。相应的，在分布式训练系统对自动驾驶模型进行训练之后，还可以利用训练后的自动驾驶模型对输入的未知图像执行图像处理操作。

上述分布式训练系统是一种管理节点和计算节点(worker)的模型训练网络，并且分布式训练系统的节点之间以参数服务器、All-Reduce等多种通信拓扑形式相连。分布式训练系统训练模型的过程可以包括以下步骤A1~A4：

步骤A1：拆分数据集/模型。

深度学习模型训练任务依赖于大规模复杂的数据集和模型。通常这类包含海量数据样本的数据集以及包含众多参数的模型难以直接存储于单个计算节点worker。因此，分布式训练首先要将大数据集/模型按照数据并行/模型并行的方式拆分成若干可处理的子数据集/子模型。将上述子数据集/子模型分配至相应的计算节点并执行后续局部训练步骤。

步骤A2：计算节点的局部训练。

各个计算节点基于各自分配的局部子数据集/子模型进行训练，完成局部目标函数的优化任务。

步骤A3：计算节点间的通信。

由于各个计算节点是按照各自的局部子数据集/子模型执行训练任务，因此产生的局部训练结果存在一定程度的差异性。为了缓解这种差异性，不同计算节点间需要彼此通信，保证全局模型的参数一致性，进而实现算法的收敛性。

步骤A4：全局收敛训练结果输出。

待模型整体趋于稳定并收敛后，系统输出全局训练结果。

S102：根据多个属性的信息熵计算每一所述样本的评估得分，并根据所述评估得分剔除所述全体样本集合中的异常样本，得到优选样本集合；

具体的，本步骤可以利用信息熵计算公式计算每一所述样本包括的每一属性的信息熵；将每一所述样本包括的所有属性的信息熵之和设置为所述评估得分。进一步的，本步骤还可以计算所有所述样本的评估得分的平均值，根据所述平均值确定参考得分；将评估得分小于所述参考得分的样本设置为所述异常样本，并剔除所述全体样本集合中的所述异常样本，得到所述优选样本集合。作为一种可行的实施方式可以将上述平均值与预设系数的乘积作为参考得分，预设系数的范围可以为[0.5,1）。上述属性的信息熵用于描述属性的值占所有样本的所有属性的比重。

S103：根据所述优选样本集合中的所有样本构建目标矩阵；

其中，在得到优选样本集合后，本实施例可以根据优选样本集合中的所有样本构建目标矩阵，具体的，本实施例可以将各个样本的特征值作为目标矩阵的元素，上述目标矩阵为协方差矩阵或相关系数矩阵。

作为可行的实施方式，本实施例可以提取所述优选样本集合中每一样本的样本特征，根据所述样本特征构建所述目标矩阵。具体的，可以根据所述样本特征构建p×n的样本特征矩阵；其中，n为所述优选样本集合包含的样本数量，p为优选样本集合包含的样本属性数据量；计算所述样本特征矩阵对应的目标矩阵（协方差矩阵或相关系数矩阵）。具体的，本实施例可以利用正交矩阵对所述样本特征矩阵进行线性变换，得到所述目标矩阵。

S104：确定所述目标矩阵的特征值和特征向量，并将数值最大的m个特征值对应的特征向量设置为主成分特征向量；

具体的，本实施例可以将所述目标矩阵的特征根设置为目标矩阵的特征值，并确定每一所述特征值对应的单位化的特征向量。

本步骤可以根据各个特征向量的累计方差贡献率确定需要选取的主成分特征向量数量m，进而基于主成分特征向量数量m选取主成分特征向量，具体过程如下：确定所述目标矩阵的特征值和特征向量，根据多个所述特征向量的累计方差贡献率主成分特征向量数量m。本实施例可以按照从大到小的顺序对所述特征值进行排序，并确定符合预设规则的主成分特征向量数量m；其中，所述预设规则为排序前m位的特征值对应的特征向量的累计方差贡献率大于预设值。上述预设值可以为85%，m可以为符合预设规则的最小值。在得到主成分特征向量数量m之后，本实施例还可以将数值最大的m个特征值对应的特征向量设置为主成分特征向量。

S105：将所述优选样本集合中的Q个样本设置为关键样本，以便所述分布式训练系统的计算节点利用所述关键样本进行模型训练；

其中，每一所述关键样本包含所有所述主成分特征向量；本步骤将所述优选样本集合中均包含上述m个主成分特征向量的Q个样本设置为关键样本。在得到关键样本之后，可以通过以下方式实现分布式训练系统的模型训练：将Q个所述关键样本划分为多个关键样本子集合；将所述关键样本子集合发送至所述分布式训练系统的计算节点，以便所述计算节点利用所述关键样本子集合对子模型进行训练；其中，所述计算节点中的子模型由通过对待训练模型拆分得到。此外，本实施例也可以将Q个所述关键样本发送至所述分布式训练系统的计算节点，以便所述计算节点各自利用Q个所述关键样本对子模型进行训练；其中，所述计算节点中的子模型由通过对待训练模型拆分得到。

本实施例在获取分布式训练系统的全体样本集合后，利用属性的信息熵剔除全体样本集合中的异常样本得到优选样本集合，减少参与关键样本提取的样本数量。在得到优选样本集合后，本实施例根据优选样本集合中的所有样本构建协方差矩阵或相关系数矩阵，根据协方差矩阵或相关系数矩阵的特征值和特征向量确定主成分特征向量，将包含所有所述主成分特征向量的样本设置为关键样本，进而实现基于主成分分析的关键样本采样，以便利用关键样本参与分布式训练系统的模型训练过程。上述过程通过异常样本剔除和基于主成分分析的关键样本采样实现了两阶段的样本筛选，能够降低参与训练的样本数量和样本属性，提高分布式训练系统的训练效率。

根据以上实施例可知，本申请将筛选关键样本划分为以下两个阶段：

第一阶段：利用定义的属性信息熵与样本评估方法，剔除异常样本，减少样本量；

第二阶段：对第一阶段处理后的样本执行PCA算法，降低样本维度，进一步筛选关键样本。

下面具体说明基于信息熵的异常样本剔除过程。信息熵的定义如下：

给定一个原始的全体样本集合

，该样本集合包含N个样本x且每个样本具有p个属性 (有些属性可能没有数值)。上述原始的全体样本集合已经是归一化后的数值表示。

上述实施例中每个属性F_i的信息熵H（F_i）计算公式如下：

，其中，i=1,2,…p；

上式中，X^Fi表示包含属性F_i的所有样本构成的样本子集，函数log（）表示以2为底的对数操作。

表示属性F_i占全体属性的比重，

表示第k个样本的第i个属性的值，比重计算公式如下：

；

其中，Sum(X)表示对样本集合全体属性的值求和操作。

在得到属性的信息熵后，本实施例可以通过以下方式计算样本的评估得分：

样本评估得分Score的主要原理是：如果一个样本x=(x₁₁,…x_1i,…x_1p,)包含属性F_i，即x_1i不为零，则将H(F_i)计入Score。具体形式如下：

；

计算全体样本的平均得分

；

如果某个样本得分

，则剔除该样本，从而压缩样本空间，减少后续的计算量。其中

∈[0.5,1)表示可调节的参数，

取值越小表示剔除的样本数量也越少。

经过上述样本剔除过程后，获得优选样本数据集合

，n表示优选样本集合中的样本数，后续可以对优选样本集合执行PCA算法流程。

作为对于图1对应实施例的进一步介绍，为了避免确定主成分特征向量过程中方差无限增大，可以对参与线性变换的正交矩阵进行约束，具体方式如下：

方式1：确定符合第一约束条件的正交矩阵；其中，所述第一约束条件为T_i′T_i = 1，T_i表示所述正交矩阵的第i行元素，T_i′表示所述正交矩阵对应的转置矩阵的第i行元素。

方式2：确定符合第二约束条件的正交矩阵；其中，所述第二约束条件为|T_i|=1，T_i表示正交矩阵的第i行元素。

作为对于图1对应实施例的进一步介绍，在将数值最大的m个特征值对应的特征向量设置为主成分特征向量之前，还可以按照从大到小的顺序对所有所述特征值进行排序；确定符合预设规则的主成分特征向量数量m；其中，所述预设规则为排序前m位的特征值对应的特征向量的累计方差贡献率大于预设值。

具体的，上述确定符合预设规则的主成分特征向量数量m的过程包括：

步骤B1：将k的值设置为1；

步骤B2：判断排序前k位的特征值对应的特征向量的累计方差贡献率是否大于所述预设值；若是，则进入步骤B3；若否，则进入步骤B4；

步骤B3：将k的值设置为所述主成分特征向量数量m；

步骤B4：将k的值加1，并进入步骤B2。

通过上述方式，可以确定符合预设规则且数值最小的主成分特征向量数量m，可以降低参与训练的样本数量和样本属性，提高分布式训练系统的训练效率。

下面请参见图2，图2为本申请实施例所提供的一种应用于管理节点的模型训练方法的流程图，本实施例可以应用于分布式训练系统的管理节点，具体过程如下以下步骤：

S201：汇总所述分布式训练系统中每一计算节点中用于训练模型的样本，得到全体样本集合；

其中，所述全体样本集合包括多个样本，每一样本包括多个属性；

S202：根据多个属性的信息熵计算每一所述样本的评估得分，并根据所述评估得分剔除所述全体样本集合中的异常样本，得到优选样本集合；

S203：根据所述优选样本集合中的所有样本构建目标矩阵；其中，所述目标矩阵为协方差矩阵或相关系数矩阵；

S204：确定所述目标矩阵的特征值和特征向量，并将数值最大的m个特征值对应的特征向量设置为主成分特征向量；

S205：将所述优选样本集合中的Q个样本设置为关键样本；

其中，每一所述关键样本包含所有所述主成分特征向量；S206：将所述关键样本分发至每一所述计算节点，以便所述计算节点利用所述关键样本进行模型训练。

进一步的，根据多个属性的信息熵计算每一所述样本的评估得分，包括：

进一步的，根据所述评估得分剔除所述全体样本集合中的异常样本，得到优选样本集合，包括：

进一步的，根据所述优选样本集合中的所有样本构建目标矩阵，包括：

进一步的，根据所述样本特征构建所述目标矩阵，包括：

根据所述样本特征构建p×n的样本特征矩阵；其中，n为优选样本集合包含的样本数量，p为样本包括的属性数量；

计算所述样本特征矩阵对应的所述目标矩阵。

进一步的，计算所述样本特征矩阵对应的所述目标矩阵，包括：

进一步的，在利用正交矩阵对所述样本特征矩阵进行线性变换之前，还包括：

确定符合第一约束条件的正交矩阵；

确定符合第二约束条件的正交矩阵；

进一步的，确定所述目标矩阵的特征值和特征向量，包括：

进一步的，在将数值最大的m个特征值对应的特征向量设置为主成分特征向量之前，还包括：

按照从大到小的顺序对所有所述特征值进行排序；

进一步的，确定符合预设规则的主成分特征向量数量m，包括：

将k的值设置为1；

若是，则将k的值设置为所述主成分特征向量数量m；

进一步的，所述待训练模型为图像处理模型，所述全体样本集合中的样本为样本图像。

进一步的，所述待训练模型为自动驾驶模型，所述全体样本集合中的样本为车辆驾驶数据；其中，所述车辆驾驶数据包括行驶环境信息、车辆状态信息和用户控制信息。

下面请参见图3，图3为本申请实施例所提供的一种应用于计算节点的模型训练方法的流程图，本实施例可以应用于分布式训练系统的计算节点，具体过程如下以下步骤：

S301：接收所述分布式训练系统中控制节点分配的子模型和局部样本集合；

其中，所述局部样本集合包括多个样本，每一样本包括多个属性；

S302：根据多个属性的信息熵计算每一所述样本的评估得分，并根据所述评估得分剔除所述局部样本集合中的异常样本，得到优选样本集合；

S303：根据所述优选样本集合中的所有样本构建目标矩阵；其中，所述目标矩阵为协方差矩阵或相关系数矩阵；

S304：确定所述目标矩阵的特征值和特征向量，并将数值最大的m个特征值对应的特征向量设置为主成分特征向量；

S305：将所述优选样本集合中的Q个样本设置为关键样本；

其中，每一所述关键样本包含所有所述主成分特征向量；

S306：利用Q个所述关键样本对所述子模型进行训练。

本实施例在获取分布式训练系统的局部样本集合后，利用属性的信息熵剔除局部样本集合中的异常样本得到优选样本集合，减少参与关键样本提取的样本数量。在得到优选样本集合后，本实施例根据优选样本集合中的所有样本构建协方差矩阵或相关系数矩阵，根据协方差矩阵或相关系数矩阵的特征值和特征向量确定主成分特征向量，将包含所有所述主成分特征向量的样本设置为关键样本，进而实现基于主成分分析的关键样本采样，以便利用关键样本参与分布式训练系统的模型训练过程。上述过程通过异常样本剔除和基于主成分分析的关键样本采样实现了两阶段的样本筛选，能够降低参与训练的样本数量和样本属性，提高分布式训练系统的训练效率。

进一步的，根据所述样本特征构建所述目标矩阵，包括：

根据所述样本特征构建p×n的样本特征矩阵；其中，n为所述优选样本集合包含的样本数量，p为样本包括的属性数量；

计算所述样本特征矩阵对应的所述目标矩阵。

确定符合第一约束条件的正交矩阵；

确定符合第二约束条件的正交矩阵；

进一步的，确定所述目标矩阵的特征值和特征向量，包括：

按照从大到小的顺序对所有所述特征值进行排序；

将k的值设置为1；

若是，则将k的值设置为所述主成分特征向量数量m；

进一步的，所述待训练模型为图像处理模型，所述局部样本集合中的样本为样本图像。

进一步的，所述待训练模型为自动驾驶模型，所述局部样本集合中的样本为车辆驾驶数据；其中，所述车辆驾驶数据包括行驶环境信息、车辆状态信息和用户控制信息。

下面通过在实际应用中的实施例说明上述实施例描述的流程。

本实施例提供一种关键样本的采样方案，构建一个关键样本集合S并且保证后续分布式训练基于该关键样本集合具有类似的收敛精度。一旦实现了上述方法，则分布式训练速度可直接提升|V|/|S|倍，其中|S|表示关键样本数量，|V|表示全体样本数量。

由于各不同领域产生的海量数据以及超大参数规模的模型训练，对存储容量、算力资源、训练方法、计算性能等方面要求各异，关键样本选择仍然面临如下两个挑战：1）选择关键样本集合S的标准难以确定（即，如何确定选择的样本具有代表性或者样本选择的标准）；2）选择关键样本集合S的速度一定要快，否则，挑选S的计算复杂较高，难以起到实际的加速计算效果。

为了解决上述挑战，本实施例提供一种面向分布式训练系统的关键样本采样方案，通过设计有效的关键样本选择方法，压缩训练样本数量，降低训练复杂度，加速深度学习模型训练过程。

关键样本子集本质上是全体数据集的加权子集，其核心思想如下：如果某种算法可以保证拟合关键样本子集，那么该算法通常也能很好地拟合原始数据。目前，为了解决基于海量参数的深度神经网络模型在大数据集上的高效训练问题，相关技术中对关键样本子集的构造方法上对敏感性评分进行重要抽样，以提供高概率解。现有关键子集主要应用于k-means问题、朴素贝叶斯问题、最近邻问题、低秩近似问题、普近似问题、贝叶斯推断等。综上所述，尽管目前存在针对深度学习模型训练通信问题的相关方法和算法，但是它们在以下存在不足：算法逻辑复杂且计算量大使得算法性能受限。深度学习问题的有效解决方案通常依赖于大数据集和大模型的支撑。然而，已有研究已经证明低效的通信方式训练神经网络模型至少花费数周的时间，因而对于时间敏感型任务场景难以适用。考虑到上述挑战，本实施例提出一种面向分布式训练系统的关键样本采样方法，通过设计有效的关键样本选择方案，压缩训练样本数量，降低训练复杂度，加速深度学习模型训练过程。

本实施例的整体技术方案设计分布式训练系统的关键样本子集方法，主要包括选择器部件。选择器主要完成制定挑选样本的标准与规则并完成关键种子选取过程。

选择器的核心任务在于制定样本选择的关键属性和标准。本实施例提出一种基于主成分分析（Principal Component analysis，PCA）的样本选择方法。本实施例首先介绍PCA 算法。其次将 PCA 应用于样本选择。 PCA 样本选择方法的优势在于无需设定任何参数，仅需要提供累计贡献率（通常设定为 85%）。此外，由于 PCA 方法是一种基于全局信息的方法，因此该方法能够保证算法的收敛精度。

主成分分析（PCA）利用变量的相关系数矩阵或者协方差矩阵，将为数众多的变量转为少数几个变量的线性组合（称为主成分），进而实现维数约减的目的。一般情况下，这些主成分可以表达降维前数据的绝大部分结构和信息。值得一提的是 PCA 将数据方差作为评价标准：如果方差越大，则主成分所表达的原始信息就越丰富；反之，表明主成分所表达的原始信息就越贫乏。

主成分分析的理论解释：假设某事件有p 个影响因素，令这p 个因素可以表示为X ₁，X ₂， ...，X _p。X _i表示第i个影响因素，1≤i≤p，X ₁，~X _p构成一个均值为µ，协方差矩阵为 Σ的p维随机向量X = (X ₁ , X ₂ , ..., X _p)′，“′”表示转置。假设原始变量降维后为一组新的相互独立的变量Y ₁ , Y ₂ , ..., Y _m（m ≤ p）。对X做正交变换，要求Y =T′X，T 为正交矩阵。T’为正交矩阵的转置矩阵，引入如下线性变换：

；

上式中，t_ij表示T′第i行第j列的元素，T′ _s表示T′的第s行，1≤i≤p，1≤j≤p，1≤s≤p。

即 Y = T′X，其中 Y = (Y₁, Y₂, ..., Yp)′， T = T₁, T₂, ..., Tp。已知：

；

为使得 D(Y_i)= T_i′ΣT_i（i= 1,2, ..., m）达到最大，就需要找到合适的 T_i。如果不对 T_i 加以限制， D(Y_i) 可以无限增大。那么，问题就没有意义。由此，不妨令 T_i′T_i = 1 或者|T_i|=1。进而，第一主成分 Y1 就是满足 T₁′T₁ = 1 并使得D(Y₁)= T₁′ΣT₁。以此类推，第 m（1 ≤ m≤ p）个主成分 Y_m需要满足 T_m′ T_m = 1，cov(Y_m, Yi) = cov(T_m′ X, T_i′X)= 0，其中 i＜m 并使得 D(Y_m)= T_m′ΣT_m达到最大的 Y_m = T_m′ X。cov表示协方差公式。

通过构造目标函数，可以求出协方差矩阵Σ的特征根为λ₁≥λ₂≥λ₃... ≥λ_p≥ 0，相应的单位化的特征向量为 T₁， T₂， ...， T_p。由此，所求的主成分为Y₁= T₁′X， Y₂= T₂′X，...， Y_m= T_m′X，其方差分别是协方差矩阵 Σ 的特征根。通常，在现实应用中选取的主成分个数少于 p 个，并且主成分的个数要由累计贡献率决定。另外，主成分分析把原始的 p 个变量的总方差 tr(Σ) 分解成 p 个相互独立的变量 Y₁，Y₂ ，...，Y_p，使得它们的方差之和为

。

因此可以得到

为第 i 个主成分的贡献率，则累计贡献率就是

。所以，一般情况下，累计贡献率的值决定了取多少个主成分，比如累计贡献率达到85%就是一个较高的水平。

综上，将关键样本视为主成分，基于PCA的样本选择方法伪代码如下：

输入：一个高维度矩阵，累计贡献率阈值；

输出：各个主成分及其贡献率；

第1行：根据原始变量数据判断采用协方差矩阵或相关系数矩阵求解主成分；

第2行：计算协方差或相关系数矩阵；

第3行：求协方差或相关系数矩阵的特征值和特征向量；

第4行：特征值从大到小排序；

第5行：选择数值较大的特征值对应的特征向量作为主成分，并确定主成分个数，选取主成分；

第6行：结合主成分对实际问题进行分析：

第7行：返回各个主成分及其贡献率。

基于PCA算法选择样本仅需要对协方差或者相关矩阵进行变换求解就能达样本选择的效果，所以算法没有超参数限制，简单易懂。通过累计方差贡献率，可以确定关键样本的容量。

为了提升和改进现有面向深度学习模型训练方案，本实施例提出一种面向分布式训练系统的关键样本采样方法，通过设计有效的关键样本选择方法，压缩训练样本数量，降低训练复杂度，加速深度学习模型训练过程。本实施例通过设计基于PCA算法的关键样本选择方法，有效降低待训练的样本数目，压缩训练样本容量，降低全局计算节点的计算开销。该实施例主要用于解决深度模型训练过程中的如下关键问题：样本选择标准问题和模型训练速度的提升问题。上述本实施例提供了基于PCA算法的样本选择方法，能够提升模型训练速度。

本实施例针对全体样本集（一个p×n维矩阵，p表示样本全体属性数量，n表示全体样本数量）使用主成分分析（PCA）方法，获取m个关键特征属性，以及这些关键属性所对应的Q个关键样本。上述方式至少存在以下有益效果：（1）如果某些样本不包含PCA认定的关键特征，那么这些样本就会被剔除，从而减少训练样本规模；（2）通过PCA，样本属性可由P维降低至m维，从而减少训练计算量，提高训练效率。

请参见图4，图4为本申请实施例所提供的一种关键样本采样系统的结构示意图，该系统可以包括：

集合获取模块401，用于获取分布式训练系统的全体样本集合；其中，所述全体样本集合包括多个样本，每一样本包括多个属性；

第一筛选模块402，用于根据多个属性的信息熵计算每一所述样本的评估得分，并根据所述评估得分剔除所述全体样本集合中的异常样本，得到优选样本集合；

第一矩阵构建模块403，用于根据所述优选样本集合中的所有样本构建目标矩阵；其中，所述目标矩阵为协方差矩阵或相关系数矩阵；

采样模块404，用于确定所述目标矩阵的特征值和特征向量，并将数值最大的m个特征值对应的特征向量设置为主成分特征向量；还用于将所述优选样本集合中的Q个样本设置为关键样本，以便所述分布式训练系统的计算节点利用所述关键样本进行模型训练；其中，每一所述关键样本包含所有所述主成分特征向量。

进一步的，第一筛选模块402根据多个属性的信息熵计算每一所述样本的评估得分的过程包括：利用信息熵计算公式计算每一所述样本包括的每一属性的信息熵；将每一所述样本包括的所有属性的信息熵之和设置为所述评估得分。

进一步的，第一筛选模块402根据所述评估得分剔除所述全体样本集合中的异常样本，得到优选样本集合的过程包括：计算所有所述样本的评估得分的平均值，根据所述平均值确定参考得分；将评估得分小于所述参考得分的样本设置为所述异常样本，并剔除所述全体样本集合中的所述异常样本，得到所述优选样本集合。

进一步的，第一矩阵构建模块403根据所述全体样本集合中的所有样本构建目标矩阵的过程包括：提取所述优选样本集合中每一样本的样本特征，根据所述样本特征构建所述目标矩阵。

进一步的，第一矩阵构建模块403根据所述样本特征构建所述目标矩阵的过程包括：根据所述样本特征构建p×n的样本特征矩阵；其中，n为所述优选样本集合包含的样本数量，p为样本包括的属性数量；计算所述样本特征矩阵对应的所述目标矩阵。

进一步的，第一矩阵构建模块403计算所述样本特征矩阵对应的所述目标矩阵的过程包括：利用正交矩阵对所述样本特征矩阵进行线性变换，得到所述目标矩阵。

进一步的，还包括：

第一正交矩阵确定模块，用于在利用正交矩阵对所述样本特征矩阵进行线性变换之前，确定符合第一约束条件的正交矩阵；

进一步的，还包括：

第二正交矩阵确定模块，用于在利用正交矩阵对所述样本特征矩阵进行线性变换之前，确定符合第二约束条件的正交矩阵；

进一步的，所述采样模块404确定所述目标矩阵的特征值和特征向量的过程包括：将所述目标矩阵的特征根设置为目标矩阵的特征值，并确定每一所述特征值对应的单位化的特征向量。

进一步的，还包括：

数量确定模块，用于在将数值最大的m个特征值对应的特征向量设置为主成分特征向量之前，按照从大到小的顺序对所有所述特征值进行排序；确定符合预设规则的主成分特征向量数量m；其中，所述预设规则为排序前m位的特征值对应的特征向量的累计方差贡献率大于预设值。

进一步的，数量确定模块确定符合预设规则的主成分特征向量数量m的过程包括：将k的值设置为1；判断排序前k位的特征值对应的特征向量的累计方差贡献率是否大于所述预设值；若是，则将k的值设置为所述主成分特征向量数量m；若否，则将k的值加1，并进入判断排序前k位的特征值对应的特征向量的累计方差贡献率是否大于所述预设值的步骤。

进一步的，还包括：

第一样本分发模块，用于在将所述全体样本集合中包含所有所述主成分特征向量的Q个样本设置为关键样本之后，将Q个所述关键样本划分为多个关键样本子集合；还用于将所述关键样本子集合发送至所述分布式训练系统的计算节点，以便所述计算节点利用所述关键样本子集合对子模型进行训练；其中，所述计算节点中的子模型由通过对待训练模型拆分得到。

进一步的，还包括：

第二样本分发模块，用于在将所述全体样本集合中包含所有所述主成分特征向量的Q个样本设置为关键样本之后，将Q个所述关键样本发送至所述分布式训练系统的计算节点，以便所述计算节点利用Q个所述关键样本对子模型进行训练；其中，所述计算节点中的子模型由通过对待训练模型拆分得到。

请参见图5，图5为本申请实施例提供的一种应用于分布式训练系统的管理节点的模型训练系统的结构示意图，包括：

样本汇总模块501，用于汇总所述分布式训练系统中每一计算节点中用于训练模型的样本，得到全体样本集合；其中，所述全体样本集合包括多个样本，每一样本包括多个属性；

第二筛选模块502，用于根据多个属性的信息熵计算每一所述样本的评估得分，并根据所述评估得分剔除所述全体样本集合中的异常样本，得到优选样本集合；

第二矩阵构建模块503，用于根据所述优选样本集合中的所有样本构建目标矩阵；其中，所述目标矩阵为协方差矩阵或相关系数矩阵；

关键样本确定模块504，用于确定所述目标矩阵的特征值和特征向量，并将数值最大的m个特征值对应的特征向量设置为主成分特征向量；还用于将所述优选样本集合中的Q个样本设置为关键样本；其中，每一所述关键样本包含所有所述主成分特征向量；

样本分发模块505，用于将所述关键样本分发至每一所述计算节点，以便所述计算节点利用所述关键样本进行模型训练。

进一步的，第二筛选模块502根据多个属性的信息熵计算每一所述样本的评估得分的过程包括：利用信息熵计算公式计算每一所述样本包括的每一属性的信息熵；将每一所述样本包括的所有属性的信息熵之和设置为所述评估得分。

进一步的，第二筛选模块502根据所述评估得分剔除所述全体样本集合中的异常样本，得到优选样本集合的过程包括：计算所有所述样本的评估得分的平均值，根据所述平均值确定参考得分；将评估得分小于所述参考得分的样本设置为所述异常样本，并剔除所述全体样本集合中的所述异常样本，得到所述优选样本集合。

进一步的，第二矩阵构建模块根据所述优选样本集合中的所有样本构建目标矩阵的过程包括：提取所述优选样本集合中每一样本的样本特征，根据所述样本特征构建所述目标矩阵。

进一步的，第二矩阵构建模块根据所述样本特征构建所述目标矩阵的过程包括：根据所述样本特征构建p×n的样本特征矩阵；其中，n为优选样本集合包含的样本数量，p为样本包括的属性数量；计算所述样本特征矩阵对应的所述目标矩阵。

进一步的，第二矩阵构建模块计算所述样本特征矩阵对应的所述目标矩阵的过程包括：利用正交矩阵对所述样本特征矩阵进行线性变换，得到所述目标矩阵。

进一步的，还包括：

进一步的，关键样本确定模块确定所述目标矩阵的特征值和特征向量的过程包括：将所述目标矩阵的特征根设置为目标矩阵的特征值，并确定每一所述特征值对应的单位化的特征向量。

进一步的，还包括：

数量确定模块，用于在将数值最大的m个特征值对应的特征向量设置为主成分特征向量之前，按照从大到小的顺序对所有所述特征值进行排序；还用于确定符合预设规则的主成分特征向量数量m；其中，所述预设规则为排序前m位的特征值对应的特征向量的累计方差贡献率大于预设值。

请参见图6，图6为本申请实施例提供的一种应用于分布式训练系统的计算节点的模型训练系统的结构示意图，包括：

数据接收模块601，用于接收所述分布式训练系统中控制节点分配的子模型和局部样本集合；其中，所述局部样本集合包括多个样本，每一样本包括多个属性；

第三筛选模块602，用于根据多个属性的信息熵计算每一所述样本的评估得分，并根据所述评估得分剔除所述局部样本集合中的异常样本，得到优选样本集合；

第三矩阵确定模块603，用于根据所述优选样本集合中的所有样本构建目标矩阵；其中，所述目标矩阵为协方差矩阵或相关系数矩阵；

样本筛选模块604，用于确定所述目标矩阵的特征值和特征向量，并将数值最大的m个特征值对应的特征向量设置为主成分特征向量；将所述优选样本集合中的Q个样本设置为关键样本；其中，每一所述关键样本包含所有所述主成分特征向量；

训练模块605，用于利用Q个所述关键样本对所述子模型进行训练。

进一步的，所述第三筛选模块602根据多个属性的信息熵计算每一所述样本的评估得分的过程包括：利用信息熵计算公式计算每一所述样本包括的每一属性的信息熵；将每一所述样本包括的所有属性的信息熵之和设置为所述评估得分。

进一步的，第三筛选模块602根据所述评估得分剔除所述全体样本集合中的异常样本，得到优选样本集合的过程包括：计算所有所述样本的评估得分的平均值，根据所述平均值确定参考得分；将评估得分小于所述参考得分的样本设置为所述异常样本，并剔除所述全体样本集合中的所述异常样本，得到所述优选样本集合。

进一步的，第三矩阵确定模块根据所述优选样本集合中的所有样本构建目标矩阵的过程包括：提取所优选样本集合中每一样本的样本特征，根据所述样本特征构建所述目标矩阵。

进一步的，第三矩阵确定模块根据所述样本特征构建所述目标矩阵的过程包括：根据所述样本特征构建p×n的样本特征矩阵；其中，n为所述优选样本集合包含的样本数量，p为样本包括的属性数量；计算所述样本特征矩阵对应的所述目标矩阵。

进一步的，第三矩阵确定模块计算所述样本特征矩阵对应的所述目标矩阵的过程包括：利用正交矩阵对所述样本特征矩阵进行线性变换，得到所述目标矩阵。

进一步的，还包括：

进一步的，样本筛选模块确定所述目标矩阵的特征值和特征向量的过程包括：

进一步的，还包括：

进一步的，数量确定模块确定符合预设规则的主成分特征向量数量m的过程，包括：将k的值设置为1；判断排序前k位的特征值对应的特征向量的累计方差贡献率是否大于所述预设值；若是，则将k的值设置为所述主成分特征向量数量m；若否，则将k的值加1，并进入判断排序前k位的特征值对应的特征向量的累计方差贡献率是否大于所述预设值的步骤。

由于系统部分的实施例与方法部分的实施例相互对应，因此系统部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

本申请还提供了一种电子设备，可以包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时，可以实现上述实施例所提供的步骤。当然所述电子设备还可以包括各种网络接口，电源等组件。图7为本申请实施例所提供的一种电子设备的结构示意图，如图7所示，电子设备包括：

通信接口701，能够与其它设备比如网络设备等进行信息交互；

处理器702，与通信接口701连接，以实现与其它设备进行信息交互，用于运行计算机程序时，执行上述一个或多个技术方案提供的纠删码融合方法。而所述计算机程序存储在存储器703上。

当然，实际应用时，电子设备中的各个组件通过总线系统704耦合在一起。可理解，总线系统704用于实现这些组件之间的连接通信。总线系统704除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图7中将各种总线都标为总线系统704。

本申请还提供了一种存储介质，其上存有计算机程序，该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括：半导体存储芯片、U盘、移动硬盘、只读存储器（Read-Only Memory ，ROM）、随机存取存储器（Random Access Memory ，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。图8为本申请实施例所提供的一种存储介质的结构示意图，该存储介质可以为非易失或非瞬时的存储芯片，具体包括译码驱动、存储矩阵、读写电路、地址线、数据线、片选线和读/写控制线。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种关键样本采样方法，其特征在于，包括：

2.根据权利要求1所述关键样本采样方法，其特征在于，根据多个属性的信息熵计算每一所述样本的评估得分，包括：

3.根据权利要求1所述关键样本采样方法，其特征在于，根据所述评估得分剔除所述全体样本集合中的异常样本，得到优选样本集合，包括：

4.根据权利要求1所述关键样本采样方法，其特征在于，根据所述优选样本集合中的所有样本构建目标矩阵，包括：

5.根据权利要求4所述关键样本采样方法，其特征在于，根据所述样本特征构建所述目标矩阵，包括：

计算所述样本特征矩阵对应的所述目标矩阵。

6.根据权利要求5所述关键样本采样方法，其特征在于，计算所述样本特征矩阵对应的所述目标矩阵，包括：

7.根据权利要求6所述关键样本采样方法，其特征在于，在利用正交矩阵对所述样本特征矩阵进行线性变换之前，还包括：

确定符合第一约束条件的正交矩阵；

8.根据权利要求6所述关键样本采样方法，其特征在于，在利用正交矩阵对所述样本特征矩阵进行线性变换之前，还包括：

确定符合第二约束条件的正交矩阵；

9.根据权利要求1所述关键样本采样方法，其特征在于，确定所述目标矩阵的特征值和特征向量，包括：

10.根据权利要求1所述关键样本采样方法，其特征在于，在将数值最大的m个特征值对应的特征向量设置为主成分特征向量之前，还包括：

按照从大到小的顺序对所有所述特征值进行排序；

11.根据权利要求10所述关键样本采样方法，其特征在于，确定符合预设规则的主成分特征向量数量m，包括：

将k的值设置为1；

若是，则将k的值设置为所述主成分特征向量数量m；

12.根据权利要求1所述关键样本采样方法，其特征在于，在将所述优选样本集合中的Q个样本设置为关键样本之后，还包括：

将Q个所述关键样本划分为多个关键样本子集合；

将所述关键样本子集合发送至所述分布式训练系统的计算节点，以便所述计算节点利用所述关键样本子集合对子模型进行训练；其中，所述计算节点中的子模型由通过对待训练模型拆分得到。

13.根据权利要求1所述关键样本采样方法，其特征在于，在将所述优选样本集合中的Q个样本设置为关键样本之后，还包括：

14.根据权利要求13所述关键样本采样方法，其特征在于，所述待训练模型为图像处理模型，所述全体样本集合中的样本为样本图像。

15.根据权利要求13所述关键样本采样方法，其特征在于，所述待训练模型为自动驾驶模型，所述全体样本集合中的样本为车辆驾驶数据；其中，所述车辆驾驶数据包括行驶环境信息、车辆状态信息和用户控制信息。

16.一种模型训练方法，其特征在于，应用于分布式训练系统的管理节点，包括：

将所述关键样本分发至每一所述计算节点，以便所述计算节点利用所述关键样本进行模型训练。

17.一种模型训练方法，其特征在于，应用于分布式训练系统的计算节点，包括：

利用Q个所述关键样本对所述子模型进行训练。

18.一种关键样本采样系统，其特征在于，包括：

19.一种模型训练系统，其特征在于，应用于分布式训练系统的管理节点，包括：

20.一种模型训练系统，其特征在于，应用于分布式训练系统的计算节点，包括：

21.一种电子设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器调用所述存储器中的计算机程序时实现如权利要求1至17任一项所述方法的步骤。

22.一种存储介质，其特征在于，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如权利要求1至17任一项所述方法的步骤。