CN111339212A

CN111339212A - 样本聚类方法、装置、设备及可读存储介质

Info

Publication number: CN111339212A
Application number: CN202010090370.4A
Authority: CN
Inventors: 鞠策; 高大山
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2020-02-13
Filing date: 2020-02-13
Publication date: 2020-06-26

Abstract

本申请公开了一种样本聚类方法、装置、设备和可读存储介质，所述样本聚类方法包括：接收待聚类数据，并对所述待聚类数据进行预处理，获得各第一类型数据和各第二类型数据，对各所述第一类型数据和各所述第二类型数据进行聚类处理，获得聚类样本，基于所述聚类样本，与所述第一设备关联的各第二设备进行联邦学习。本申请解决了样本获取效率低的技术问题。

Description

样本聚类方法、装置、设备及可读存储介质

技术领域

本申请涉及金融科技(Fintech)的人工智能技术领域，尤其涉及一种样本聚类方法、装置、设备及可读存储介质。

背景技术

随着金融科技，尤其是互联网科技金融的不断发展，越来越多的技术(如分布式、区块链Blockchain、人工智能等)应用在金融领域，但金融业也对技术提出了更高的要求，如对金融业对应待办事项的分发也有更高的要求。

随着计算机软件和人工智能的不断发展，人工智能的应用也越来越广泛，在无人驾驶领域，许多基础算法模块均涉及到基于数据的人工智能技术，例如，无人车的感知模块和路径规划模块的部分技术等，进而利用该技术进行路测可收集训练样本用于进行无人车自动驾驶的训练，但是，单个无人驾驶公司利用该方法收集的训练样本的数量往往是有限的，而不同的无人驾驶公司之间的训练样本往往是互相保密的，极大程度上影响了各无人车公司获取训练样本的效率，且路测收集的训练样本往往存在过多的噪音，难以筛选出特征丰富度高的训练样本，进而导致各无人驾驶公司获取样本的效率更低，所以，现有技术中存在样本获取效率低的技术问题。

发明内容

本申请的主要目的在于提供一种样本聚类方法、装置、设备和可读存储介质，旨在解决现有技术中样本获取效率低的技术问题。

为实现上述目的，本申请提供一种样本聚类方法，所述样本聚类方法应用于第一设备，所述样本聚类方法包括：

接收待聚类数据，并对所述待聚类数据进行预处理，获得各第一类型数据和各第二类型数据；

对各所述第一类型数据和各所述第二类型数据进行聚类处理，获得聚类样本；

基于所述聚类样本，与所述第一设备关联的各第二设备进行联邦学习。

可选地，各所述第一类型数据包括一个或多个的车辆动力学数据，各所述第二类型数据包括一个或者多个环境数据，

所述对各所述第一类型数据和各所述第二类型数据进行聚类处理，获得聚类样本的步骤包括：

对各所述车辆动力学数据进行聚类处理，获得车辆动力学聚类数据，并从各所述车辆动力学聚类数据中选取第一类型样本；

对各所述环境数据进行降维处理，获得所述降维数据，并在所述降维数据中选取各所述第一类型样本对应的待聚类降维数据；

对各所述待聚类降维数据进行聚类处理，获得第二类型样本，并从所述第一类型样本和所述第二类型样本中选取所述聚类样本。

可选地，所述第一类型样本包括一个或者多个第一类型时间片段数据，所述第二类型样本包括一个或者多个第二类型时间片段数据，

所述从所述第一类型样本和所述第二类型样本中选取所述聚类样本的步骤包括：

从各所述第一类型时间片段数据中选取预设数量的第一聚类数据，并获取各所述第一聚类数据对应的时间片段；

基于各所述时间片段，在各所述第二类型时间片段数据中选取各所述第一聚类数据对应的第二聚类数据；

分别将各所述第一聚类数据和各所述第二聚类数据中所述片段相同的数据进行组合，获得所述聚类样本。

可选地，所述对各所述车辆动力学数据进行聚类处理，获得车辆动力学聚类数据的步骤包括：

将各所述车辆动力学数据输入预设聚类模型，以对各所述车辆动力学数据进行分簇，获得预设个数的聚类数据簇；

判断各所述聚类数据簇是否达到预设训练完成条件，若各所述聚类数据簇达到预设训练完成条件，则将各所述聚类数据簇作为所述车辆动力学聚类数据；

若各所述聚类数据簇未达到预设训练完成条件，则重新对各所述车辆动力学数据进行分簇，直至各所述聚类数据簇达到预设训练完成条件。

可选地，所述对各所述环境数据进行降维处理，获得所述降维数据的步骤包括：

获取各所述环境数据对应的环境数据表示矩阵，并对所述环境数据表示矩阵进行特征中心化处理，获得特征中心化矩阵；

计算所述特征中心化矩阵对应的协方差矩阵，并获取所述协方差矩阵对应的各环境数据特征值和各所述环境数据特征值对应的各环境数据特征向量；

基于各所述环境数据特征值的大小，对各所述环境数据特征向量进行排列，获得特征向量矩阵；

基于所述特征向量矩阵，计算降维数据表示矩阵，以获取所述降维数据。

可选地，所述接收待聚类数据，并对所述待聚类数据进行预处理，获得各第一类型数据和各第二类型数据的步骤包括：

接收所述待聚类数据，并基于预设时间宽度对所述待聚类数据进行分段，获得多个时间片段数据；

基于各所述时间片段数据对应的数据收集装置类型，对各所述时间片段数据进行分类，获得各所述第一类型数据和各所述第二类型数据。

可选地，所述基于所述聚类样本，与所述第一设备关联的各第二设备进行联邦学习的步骤包括：

基于所述聚类样本，对预设本地模型进行训练，获得模型优化信息，并将所述模型优化信息发送至预设联邦服务器；

接收所述联邦服务器反馈的信息更新参数，并基于所述信息更新参数对所述预设本地模型进行迭代更新，直至所述预设本地模型达到预设更新完成条件。

本申请还提供一种样本聚类装置，所述样本聚类装置为虚拟装置，且所述样本聚类装置应用于第一设备，所述样本聚类装置包括：

预处理模块，用于所述接收待聚类数据，并对所述待聚类数据进行预处理，获得各第一类型数据和各第二类型数据；

聚类模块，用于所述对各所述第一类型数据和各所述第二类型数据进行聚类处理，获得聚类样本；

联邦模块，用于所述基于所述聚类样本，与所述第一设备关联的各第二设备进行联邦学习。

可选地，所述聚类模块包括：

第一聚类单元，用于对各所述车辆动力学数据进行聚类处理，获得车辆动力学聚类数据，并从各所述车辆动力学聚类数据中选取第一类型样本；

降维单元，用于所述对各所述环境数据进行降维处理，获得所述降维数据，并在所述降维数据中选取各所述第一类型样本对应的待聚类降维数据；

第二聚类单元，用于所述对各所述待聚类降维数据进行聚类处理，获得第二类型样本，并从所述第一类型样本和所述第二类型样本中选取所述聚类样本。

可选地，所述第二聚类单元包括：

第一选取子单元，用于所述从各所述第一类型时间片段数据中选取预设数量的第一聚类数据，并获取各所述第一聚类数据对应的时间片段；

第二选取子单元，用于所述基于各所述时间片段，在各所述第二类型时间片段数据中选取各所述第一聚类数据对应的第二聚类数据；

组合子单元，用于所述分别将各所述第一聚类数据和各所述第二聚类数据中所述片段相同的数据进行组合，获得所述聚类样本。

可选地，所述第一聚类单元包括：

第一分簇子单元，用于所述将各所述车辆动力学数据输入预设聚类模型，以对各所述车辆动力学数据进行分簇，获得预设个数的聚类数据簇；

判断子单元，用于所述判断各所述聚类数据簇是否达到预设训练完成条件，若各所述聚类数据簇达到预设训练完成条件，则将各所述聚类数据簇作为所述车辆动力学聚类数据；

第二分簇子单元，用于所述若各所述聚类数据簇未达到预设训练完成条件，则重新对各所述车辆动力学数据进行分簇，直至各所述聚类数据簇达到预设训练完成条件。

可选地，所述降维单元包括：

特征中心化子单元，用于所述获取各所述环境数据对应的环境数据表示矩阵，并对所述环境数据表示矩阵进行特征中心化处理，获得特征中心化矩阵；

第一计算子单元，用于所述计算所述特征中心化矩阵对应的协方差矩阵，并获取所述协方差矩阵对应的各环境数据特征值和各所述环境数据特征值对应的各环境数据特征向量；

排列子单元，用于所述基于各所述环境数据特征值的大小，对各所述环境数据特征向量进行排列，获得特征向量矩阵；

第二计算子单元，用于所述基于所述特征向量矩阵，计算降维数据表示矩阵，以获取所述降维数据。

可选地，所述预测处理模块包括：

分段单元，用于所述接收所述待聚类数据，并基于预设时间宽度对所述待聚类数据进行分段，获得多个时间片段数据；

分类单元，用于所述基于各所述时间片段数据对应的数据收集装置类型，对各所述时间片段数据进行分类，获得各所述第一类型数据和各所述第二类型数据。

可选地，所述联邦模块包括：

模型训练单元，用于所述基于所述聚类样本，对预设本地模型进行训练，获得模型优化信息，并将所述模型优化信息发送至预设联邦服务器；

迭代更新单元，用于所述接收所述联邦服务器反馈的信息更新参数，并基于所述信息更新参数对所述预设本地模型进行迭代更新，直至所述预设本地模型达到预设更新完成条件。

本申请还提供一种样本聚类设备，所述样本聚类设备为实体设备，所述样本聚类设备包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述样本聚类方法的程序，所述样本聚类方法的程序被处理器执行时可实现如上述的样本聚类方法的步骤。

本申请还提供一种可读存储介质，所述可读存储介质上存储有实现样本聚类方法的程序，所述样本聚类方法的程序被处理器执行时实现如上述的样本聚类方法的步骤。

本申请通过接收待聚类数据，并对所述待聚类数据进行预处理，获得各第一类型数据和各第二类型数据，进而对各所述第一类型数据和各所述第二类型数据进行聚类处理，获得聚类样本，进而基于所述聚类样本，与所述第一设备关联的各第二设备进行联邦学习。也即，本申请首先进行待聚类数据的接收，进而进行对所述待聚类数据的预处理，获得各第一类型数据和各第二类型数据，进而分别进行对各所述第一类型数据和各所述第二类型数据进行聚类处理，获得聚类样本，进而基于所述聚类样本，进行与所述第一设备关联的各第二设备的联邦学习。也即，本申请通过对预处理后的所述待聚类数据进行聚类处理，获得聚类样本，以消除所述待聚类数据中的噪音，高效且自动的筛选出特征丰富度高的样本，进而提高了训练样本的获取效率，进而基于所述聚类样本，与各所述第二设备进行联邦学习，以联合多方数据进行本地模型的训练，进而扩充了训练样本的数量，进一步提高了训练样本的获取效率，避免了由于训练样本少且特征丰富低而导致本地模型训练效果差且训练效率低的情况发生，所以，解决了现有技术中样本获取效率低的技术问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请样本聚类方法第一实施例的流程示意图；

图2为本申请样本聚类方法第二实施例的流程示意图；

图3为本申请实施例方案涉及的硬件运行环境的设备结构示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供一种样本聚类方法，所述样本聚类方法应用于第一设备，在本申请样本聚类方法的第一实施例中，参照图1，所述样本聚类方法包括：

步骤S10，接收待聚类数据，并对所述待聚类数据进行预处理，获得各第一类型数据和各第二类型数据；

在本实施例中，需要说明的是，所述待聚类数据包括无人驾驶训练数据，所述无人驾驶训练数据由无人车上的各数据收集装置在一段时间内进行连续收集而获得，所述数据收集装置包括摄像头，激光雷达，毫米波雷达、GPS(Global Positioning System，全球定位系统)、IMU(Inertial measurement unit，惯性测量单元)和车身物理装置等，相应地，所述第一类型数据包括摄像头，激光雷达，毫米波雷达、GPS等数据收集装置收集的数据，所述第二类型数据包括IMU和车身物理装置等数据收集装置收集的数据。

接收待聚类数据，并对所述待聚类数据进行预处理，获得各第一类型数据和各第二类型数据，具体地，接收待聚类数据，并基于预设时间宽度，将所述待聚类数据拆分为多个时间片段数据，其中，各所述时间片段数据均包括多条装置收集数据，进而获取各所述时间片段数据中各装置收集数据对应的数据收集装置类型，以基于所述数据收集装置类型，对各所述时间片段数据拆分为对应的各所述第一类型数据和各所述第二类型数据，其中，一所述时间片段数据可拆分为一所述第一类型数据和一所述第二类型数据。

其中，所述接收待聚类数据，并对所述待聚类数据进行预处理，获得各第一类型数据和各第二类型数据的步骤包括：

步骤S11，接收所述待聚类数据，并基于预设时间宽度对所述待聚类数据进行分段，获得多个时间片段数据；

在本实施例中，接收所述待聚类数据，并基于预设时间宽度对所述待聚类数据进行分段，获得多个时间片段数据，具体地，接收所述待聚类数据，并将所述待聚类收集拆分为多个预设时间宽度的时间片段数据，例如，假设所述待聚类数据为各所述数据收集装置连续收集24小时的训练场景数据，若所述预设时间宽度为1分钟，则可将所述待聚类数据拆分为1440个时间片段数据，一所述时间片段数据为各所述数据收集装置连续收集1分钟的训练场景数据。

步骤S12，基于各所述时间片段数据对应的数据收集装置类型，对各所述时间片段数据进行分类，获得各所述第一类型数据和各所述第二类型数据。

在本实施例中，需要说明的是，所述数据收集装置类型包括第一装置类型和第二装置类型，其中，所述第一装置类型包括摄像头，激光雷达，毫米波雷达、GPS等数据收集装置类型，所述第二装置类型包括IMU和车身物理装置等数据收集装置类型，所述时间片段数据包括多条装置收集数据。

基于各所述时间片段数据对应的数据收集装置类型，对各所述时间片段数据进行分类，获得各所述第一类型数据和各所述第二类型数据，具体地，获取各所述时间片段数据对应的数据收集装置类型，并判断各所述时间片段数据中各所述装置收集数据对应的数据收集装置类型，若所述装置收集数据对应的数据收集装置类型为所述第一装置类型，则将所述装置收集数据划分为所述第一类型数据，若所述装置收集数据对应的数据收集装置类型为所述第二装置类型，则将所述装置收集数据划分为所述第二类型数据，进而获得各所述第一类型数据和各所述第二类型数据。

步骤S20，对各所述第一类型数据和各所述第二类型数据进行聚类处理，获得聚类样本；

在本实施例中，对各所述第一类型数据和各所述第二类型数据进行聚类处理，获得聚类样本，具体地，基于预设聚类算法，分别对各所述第一类型数据进行聚类处理，获得各第一聚类数据，并从各所述第一聚类数据中选取第一样本，其中所述第一样本包括一个或者多个第一聚类数据，进而基于预设数据降维算法对各所述第二类型数据进行降维处理，获得降维数据，进而在各所述降维数据中选取所述第一样本对应的待聚类降维数据，其中，所述待聚类降维数据包括一个或者多个降维数据，且所述待聚类降维数据与所述第一样本的时间段相同，例如，假设所述第一样本包括一个第一聚类数据，第一个聚类数据是在2019年10月5日8点10分至15分收集的，则所述第一样本对应的待聚类降维数据也包括一个降维数据，且该降维数据也应是在2019年10月5日8点10分至15分收集的，进而基于预设聚类算法对所述待聚类降维数据进行聚类处理，获得第二样本，进一步地，从所述第一样本和所述第二样本中选取收集时间段相同的样本数据，获得所述聚类样本，例如，假设所述第一样本包括t1时间段收集的样本数据x1和t2时间段收集的样本数据x2，则对应地所述第二样本包括t1时间段收集的样本数据y1和t2时间段收集的样本数据y2，则将x1和y1组合为一个聚类样本(x1，y1)，将x2和y2组合为一个聚类样本(x2，y2)。

步骤S30，基于所述聚类样本，与所述第一设备关联的各第二设备进行联邦学习。

在本实施例中，所述模型优化信息包括本地模型梯度信息，所述信息更新参数包括联邦模型梯度信息，所述第一设备和各所述第二设备均对应参与所述联邦学习的各参与方。

基于所述聚类样本，与所述第一设备关联的各第二设备进行联邦学习，具体地，将所述聚类样本作为预设本地模型的训练数据，对所述预设本地模型进行训练，以计算所述预设本地模型的本地模型损失函数，并对所述本地模型损失函数求偏导，获得本地模型梯度信息，进而将所述本地模型梯度信息发送至预设联邦服务器，进而接收所述预设联邦服务器反馈的联邦模型梯度信息，进而基于所述联邦模型梯度信息，更新所述预设本地模型，其中，所述本地模型梯度信息用于优化所述预设联邦服务器的联邦模型，且所述联邦模型与所述预设本地模型具有相同的结构，所述联邦模型梯度信息用于更新所述预设本地模型。

其中，所述基于所述聚类样本，与所述第一设备关联的各第二设备进行联邦学习的步骤包括：

步骤S31，基于所述聚类样本，对预设本地模型进行训练，获得模型优化信息，并将所述模型优化信息发送至预设联邦服务器；

在本实施例中，需要说明的是，所述模型优化信息包括本地模型梯度信息。

基于所述聚类样本，对预设本地模型进行训练，获得模型优化信息，并将所述模型优化信息发送至预设联邦服务器，具体地，将所述聚类样本输入所述预设本地模型，以对所述预设本地模型进行训练，获得模型优化信息，并将所述模型优化信息发送至预设联邦服务器，其中，所述预设联邦服务器用于基于所述第一设备发送的本地模型梯度信息和各所述第二设备发送的其他梯度信息，进而所述联邦服务器将基于所述梯度信息和各所述其他梯度信息，优化更新所述联邦模型，以计算所述联邦模型对应的损失函数，并对所述损失函数求取偏导数，获得所述联邦模型梯度信息。

步骤S32，接收所述联邦服务器反馈的信息更新参数，并基于所述信息更新参数对所述预设本地模型进行迭代更新，直至所述预设本地模型达到预设更新完成条件。

在本实施例，需要说明的是，所述信息更新参数包括联邦模型梯度信息。

接收所述联邦服务器反馈的信息更新参数，并基于所述信息更新参数对所述预设本地模型进行迭代更新，直至所述预设本地模型达到预设更新完成条件，具体地，接收所述联邦服务器反馈的联邦模型梯度信息，并基于所述联邦模型梯度信息，更新所述预设本地模型的模型参数，并判断更新后的所述预设本地模型是否满足预设训练完成条件，若更新后的所述预设本地模型满足所述预设训练完成条件，则完成本次联邦学习，若更新后的所述预设本地模型不满足所述预设训练完成条件，则获取新的聚类样本，并重新进行联邦学习，直至更新后的所述预设本地模型满足所述预设训练完成条件，其中，所述预设训练完成条件包括达到最大迭代次数、模型对应的损失函数收敛等。

本实施例通过接收待聚类数据，并对所述待聚类数据进行预处理，获得各第一类型数据和各第二类型数据，进而对各所述第一类型数据和各所述第二类型数据进行聚类处理，获得聚类样本，进而基于所述聚类样本，与所述第一设备关联的各第二设备进行联邦学习。也即，本实施例首先进行待聚类数据的接收，进而进行对所述待聚类数据的预处理，获得各第一类型数据和各第二类型数据，进而分别进行对各所述第一类型数据和各所述第二类型数据进行聚类处理，获得聚类样本，进而基于所述聚类样本，进行与所述第一设备关联的各第二设备的联邦学习。也即，本实施例通过对预处理后的所述待聚类数据进行聚类处理，获得聚类样本，以消除所述待聚类数据中的噪音，高效且自动的筛选出特征丰富度高的样本，进而提高了训练样本的获取效率，进而基于所述聚类样本，与各所述第二设备进行联邦学习，以联合多方数据进行本地模型的训练，进而扩充了训练样本的数量，进一步提高了训练样本的获取效率，避免了由于训练样本少且特征丰富低而导致本地模型训练效果差且训练效率低的情况发生，所以，解决了现有技术中样本获取效率低的技术问题。

进一步地，参照图2，基于本申请中第一实施例，在样本聚类方法的另一实施例中，各所述第一类型数据包括一个或多个的车辆动力学数据，各所述第二类型数据包括一个或者多个环境数据，

步骤S21，对各所述车辆动力学数据进行聚类处理，获得车辆动力学聚类数据，并从各所述车辆动力学聚类数据中选取第一类型样本；

在本实施例中，需要说明的是，所述车辆动力学数据为在预设时间宽度内IMU和车身物理装置等数据收集装置收集的数据，所述第一类型样本包括预设数量的所述车辆动力学聚类数据。

对各所述车辆动力学数据进行聚类处理，获得车辆动力学聚类数据，并从各所述车辆动力学聚类数据中选取第一类型样本，具体地，对各所述车辆动力学数据进行聚类处理，以分别将各所述车辆动力学聚类数据划分为一个或者多个聚类数据簇，其中，各聚类数据簇之间的数据相似度应低于簇间数据相似度阀值，各聚类数据簇内的数据相似度应高于簇内数据相似度阀值，进而获得各所述车辆动力学数据对应的各所述车辆动力学聚类数据，其中，一所述车辆动力学数据对应一所述车辆动力学聚类数据，进而从各所述车辆动力学聚类数据中选取预设数量的所述车辆动力学聚类数据作为所述第一类型样本，其中，所述预设数量可由用户自行设置，例如，假设所述车辆动力学数据为无人驾驶训练中的车辆速度，所述车辆速度分别为10，10.1，10.2，50，50.1，50.2，100，进而对所述车辆动力学数据进行聚类处理，获得所述聚类数据簇数据为第一聚类数据簇(10，10.1，10.2)和第二聚类数据簇(50，50.1，50.2)，且100为离群点，直接去除即可，进而可在所述第一聚类数据簇和第二数据簇中选取第一类型样本(10，50)和(10.1，50)等。

另外地，在对各所述车辆动力学数据进行聚类处理时，若有离群点产生，也即，不归属于任何一个聚类数据簇的异常数据产生，则认为该异常数据为噪音，可由用户选择是否删除所述异常数据。

其中，在步骤S21中，所述对各所述车辆动力学数据进行聚类处理，获得车辆动力学聚类数据的步骤包括：

步骤S211，将各所述车辆动力学数据输入预设聚类模型，以对各所述车辆动力学数据进行分簇，获得预设个数的聚类数据簇；

在本实施例中，需要说明的是，所述预设聚类模型包括预设聚类算法，所述预设聚类算法包括K-Means，凝聚层次聚类算法等，一所述聚类数据簇包括一个或多个所述车辆动力学数据，所述预设个数可由用户自行设置。

将各所述车辆动力学数据输入预设聚类模型，以对各所述车辆动力学数据进行分簇，获得预设个数的聚类数据簇，具体地，将各所述车辆动力学数据输入预设聚类模型，通过所述预设聚类算法对各所述车辆动力学数据进行聚类处理，以将各所述车辆动力学数据划分为预设个数的聚类数据簇。

步骤S212，判断各所述聚类数据簇是否达到预设训练完成条件，若各所述聚类数据簇达到预设训练完成条件，则将各所述聚类数据簇作为所述车辆动力学聚类数据；

在本实施例中，需要说明的是，所述预设训练完成条件包括聚类数据簇的簇间数据相似度低于预设簇间数据相似度阀值、聚类数据簇的簇内数据相似度高于预设簇内数据相似度阀值等。

判断各所述聚类数据簇是否达到预设训练完成条件，若各所述聚类数据簇达到预设训练完成条件，则将各所述聚类数据簇作为所述车辆动力学聚类数据，具体地，判断各所述聚类数据簇是否达到预设训练完成条件，若各所述聚类数据簇达到预设训练完成条件，则结束本次聚类，并输出各所述聚类数据簇，进而可将各所述聚类数据簇作为所述车辆动力学聚类数据。

步骤S213，若各所述聚类数据簇未达到预设训练完成条件，则重新对各所述车辆动力学数据进行分簇，直至各所述聚类数据簇达到预设训练完成条件。

在本实施例中，若各所述聚类数据簇未达到预设训练完成条件，则重新对各所述车辆动力学数据进行分簇，直至各所述聚类数据簇达到预设训练完成条件，具体地，若各所述聚类数据簇未达到预设训练完成条件，则重新对各所述车辆动力学数据进行聚类处理，以将各所述车辆动力学数据划分为预设个数的聚类数据簇，直至各所述聚类数据簇达到预设训练完成条件，则结束本次聚类。

步骤S22，对各所述环境数据进行降维处理，获得所述降维数据，并在所述降维数据中选取各所述第一类型样本对应的待聚类降维数据；

在本实施例中，对各所述环境数据进行降维处理，获得所述降维数据，并在所述降维数据中选取各所述第一类型样本对应的待聚类降维数据，具体地，基于预设数据降维算法，对各所述环境数据进行降维处理，以将各所述环境数据降维为预设维度的降维数据，其中，所述预设维度可由用户自行设置，所述预设数据降维算法包括主成分分析、流型学习和t-SNE(t-distributed stochastic neighbor embedding，t-分布随机邻居嵌入)算法等，进而在所述降维数据中选取各所述第一类型样本对应的待聚类降维数据，其中，所述第一类型样本包括预设数量的所述车辆动力学聚类数据，对应地，所述降维数据包括所述预设数量的所述待聚类降维数据，且第一类型样本中的所述车辆动力学聚类数据与所述降维数据中的所述待聚类降维数据一一对应，例如，假设所述第一类型样本中存在一个在时间片段t1内收集的所述车辆动力学聚类数据，则对应地，所述降维数据中也存在一个在时间片段t1内收集的所述待聚类降维数据。

另外地，在对各所述降维数据进行聚类处理时，若有离群点产生，也即，不归属于任何一个聚类数据簇的异常数据产生，则认为该异常数据为噪音，可由用户选择是否删除所述异常数据。

其中，在步骤S22中，所述对各所述环境数据进行降维处理，获得所述降维数据的步骤包括：

步骤S221，获取各所述环境数据对应的环境数据表示矩阵，并对所述环境数据表示矩阵进行特征中心化处理，获得特征中心化矩阵；

在本实施例中，各所述环境数据可用矩阵进行表示，例如，假设各所述环境数据的数量为m，每一环境数据包括n个特征值，则所述环境数据表示矩阵为一个n行m列的矩阵，具体地，例如，假设各所述环境数据包括环境数据X和环境数据Y，X＝(x1，x2)，Y＝(y1，y2)，则所述环境数据表示矩阵如下所示，

其中，M为所述环境数据表示矩阵。

获取各所述环境数据对应的环境数据表示矩阵，并对所述环境数据表示矩阵进行特征中心化处理，获得特征中心化矩阵，具体地，获取各所述环境数据对应的环境数据表示矩阵，并将所述环境数据表示矩阵每一列数据均减去各自的列均值，获得特征中心化矩阵，例如，假设所述环境数据表示矩阵M如下所示，

则，所述特征中心化矩阵N如下所示，

步骤S222，计算所述特征中心化矩阵对应的协方差矩阵，并获取所述协方差矩阵对应的各环境数据特征值和各所述环境数据特征值对应的各环境数据特征向量；

在本实施例中，计算所述特征中心化矩阵对应的协方差矩阵，并获取所述协方差矩阵对应的各环境数据特征值和各所述环境数据特征值对应的各环境数据特征向量，具体地，基于预设协方差矩阵计算公式，计算所述特征中心化矩阵对应的协方差矩阵，并获取所述协方差矩阵的各特征值和各特征值对应的特征向量，也即，获取所述协方差矩阵对应的各环境数据特征值和各所述环境数据特征值对应的各环境数据特征向量。

步骤S223，基于各所述环境数据特征值的大小，对各所述环境数据特征向量进行排列，获得特征向量矩阵；

在本实施例中，基于各所述环境数据特征值的大小，对各所述环境数据特征向量进行排列，获得特征向量矩阵，具体地，基于各所述环境数据特征值的大小，以从大到小的排列方式对各所述环境数据特征向量进行排列，并以各所述环境数据特征向量作为所述特征向量矩阵的列，构建所述特征向量矩阵，例如，假设各所述环境数据特征向量包括向量C1＝(a1，a2)和向量C2＝(b1，b2)，则所述特征向量矩阵如下所示，

其中，H为所述特征向量矩阵。

步骤S224，基于所述特征向量矩阵，计算降维数据表示矩阵，以获取所述降维数据。

在本实施例中，基于所述特征向量矩阵，计算降维数据表示矩阵，以获取所述降维数据，具体地，获取预设维度，并基于所述预设维度，在所述特征向量矩阵中选取预设维度对应的一个或者多个选择特征向量，并基于各所述选择特征向量，组合选择特征向量矩阵，并基于所述选择特征向量矩阵和所述环境数据表示矩阵，计算所述降维数据表示矩阵，也即，获取所述降维数据，例如，假设所述环境数据表示矩阵为150行4列的矩阵S_150×4，则所述特征向量矩阵为4行4列的矩阵A_4×4，若所述预设维度为二维，则选取特征值最大两个特征向量作为所述选择特征向量，则所述选择特征向量矩阵为4行2列的矩阵A_4×2，则根据公式S_150×4＝S_150×2*A_4×2，计算所述降维数据表示矩阵S_150×2。

步骤S23，对各所述待聚类降维数据进行聚类处理，获得第二类型样本，并从所述第一类型样本和所述第二类型样本中选取所述聚类样本。

在本实施例中，需要说明的是，所述第一类型样本包括一个或者多个第一类型时间片段数据，其中，所述第一类型时间片段数据通过对所述车辆动力学数据进行聚类处理而获得，所述第二类型样本包括一个或者多个第二类型时间片段数据，所述第二类型时间片段数据通过对所述环境数据进行降维处理和聚类处理而获得。

对各所述待聚类降维数据进行聚类处理，获得第二类型样本，并从所述第一类型样本和所述第二类型样本中选取所述聚类样本，具体地，基于所述预设聚类算法，对各所述待聚类降维数据进行聚类处理，获得第二类型样本，并从所述第一类型样本中选取第一类型时间片段数据和从所述第二类型样本中选取所述第一类型时间片段数据对应的第二类型时间片段数据，其中，一个所述聚类样本包括一条所述第一类型时间片段数据和一条所述第二类型时间片段数据，且同一所述聚类样本内的所述第一类型时间片段数据和所述第二类型时间片段数据对应同一时间片段，也即，同一所述聚类样本内的所述第一类型时间片段数据和所述第二类型时间片段数据应当是同时收集的。

其中，在步骤S23中，所述第一类型样本包括一个或者多个第一类型时间片段数据，所述第二类型样本包括一个或者多个第二类型时间片段数据，

步骤S231，从各所述第一类型时间片段数据中选取预设数量的第一聚类数据，并获取各所述第一聚类数据对应的时间片段；

在本实施例中，需要说明的是，所述预设数量可由用户自行设定，所述时间片段为各所述第一聚类数据对应的各所述车辆动力学数据的收集时间段，也即，例如，假设通过IMU和车身物理装置等数据收集装置在2018年10月1号8点10分至15分收集了一所述车辆动力学数据，则所述车辆动力学数据对应的所述第一聚类数据的时间片段为018年10月1号8点10分至15分。

步骤S232，基于各所述时间片段，在各所述第二类型时间片段数据中选取各所述第一聚类数据对应的第二聚类数据；

在本实施例中，基于各所述时间片段，在各所述第二类型时间片段数据中选取各所述第一聚类数据对应的第二聚类数据，具体地，在各所述第二类型时间片段数据中选取各所述第一聚类数据对应的第二聚类数据，其中，一所述第一聚类数据对应一所述第二聚类数据，且每一所述第一聚类数据和各自对应的所述第二聚类数据共同对应同一时间片段，也即，在同一时间片段内，通过IMU和车身物理装置等数据收集装置收集了所述第一聚类数据对应的车辆动力学数据，同时通过摄像头，激光雷达，毫米波雷达、GPS等数据收集装置收集了所述第一聚类数据对应的第二聚类数据对应的环境收集。

步骤S233，分别将各所述第一聚类数据和各所述第二聚类数据中所述片段相同的数据进行组合，获得所述聚类样本。

在本实施例中，分别将各所述第一聚类数据和各所述第二聚类数据中所述片段相同的数据进行组合，获得所述聚类样本，具体地，分别将属于同一所述时间片段所述第一聚类数据和所述第二聚类数据进行组合，获得一个或者多个训练场景数据，也即，获得所述聚类样本，例如，假设，各所述第一聚类数据包括时间片段t1对应的第一聚类数据X1和时间片段t2对应的第一聚类数据X2，各所述第二聚类数据包括时间片段t1对应的第二聚类数据Y1和时间片段t2对应的第二聚类数据Y2，则将X1和Y1组合为时间片段t1对应的训练场景数据C1＝(X1，Y1)，将X2和Y2组合为时间片段t2对应的训练场景数据C2＝(X2，Y2)，进而获得的聚类样本为(C1，C2)。

本实施例通过对各所述车辆动力学数据进行聚类处理，获得车辆动力学聚类数据，并从各所述车辆动力学聚类数据中选取第一类型样本，进而对各所述环境数据进行降维处理，获得所述降维数据，并在所述降维数据中选取各所述第一类型样本对应的待聚类降维数据，进而对各所述待聚类降维数据进行聚类处理，获得第二类型样本，并从所述第一类型样本和所述第二类型样本中选取所述聚类样本。也即，本实施例通过对各所述车辆动力学数据进行聚类处理，获得第一类型样本，并对各所述环境数据进行降维处理和聚类处理，获得第二类型样本，进而可在所述第一类型样本和所述第二类型样本中选取所述聚类样本。也即，本实施通过对所述环境数据进行降维处理，降低了所述环境数据的噪音，进而提高了所述环境数据的样本获取效率和特征丰富度，且通过对所述车辆动力学数据和降维后的所述环境数据进行聚类处理，将特征不明显的数据划分为特征明显的多个数据簇，提高了待聚类数据的特征丰富度，进而提高了样本的获取效率，所以，为解决现有技术中样本获取效率低的技术问题奠定了基础。

参照图3，图3是本申请实施例方案涉及的硬件运行环境的设备结构示意图。

如图3所示，该样本聚类设备可以包括：处理器1001，例如CPU，存储器1005，通信总线1002。其中，通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。

可选地，该样本聚类设备还可以包括矩形用户接口、网络接口、摄像头、RF(RadioFrequency，射频)电路，传感器、音频电路、WiFi模块等等。矩形用户接口可以包括显示屏(Display)、输入子模块比如键盘(Keyboard)，可选矩形用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

本领域技术人员可以理解，图3中示出的样本聚类设备结构并不构成对样本聚类设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图3所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及样本聚类程序。操作系统是管理和控制样本聚类设备硬件和软件资源的程序，支持样本聚类程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信，以及与样本聚类系统中其它硬件和软件之间通信。

在图3所示的样本聚类设备中，处理器1001用于执行存储器1005中存储的样本聚类程序，实现上述任一项所述的样本聚类方法的步骤。

本申请样本聚类设备具体实施方式与上述样本聚类方法各实施例基本相同，在此不再赘述。

本申请实施例还提供一种样本聚类装置，所述样本聚类装置应用于第一设备，所述样本聚类装置包括：

可选地，所述聚类模块包括：

可选地，所述第二聚类单元包括：

可选地，所述第一聚类单元包括：

可选地，所述降维单元包括：

可选地，所述预测处理模块包括：

可选地，所述联邦模块包括：

本申请样本聚类装置的具体实施方式与上述样本聚类方法各实施例基本相同，在此不再赘述。

本申请实施例提供了一种可读存储介质，且所述可读存储介质存储有一个或者一个以上程序，所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述任一项所述的样本聚类方法的步骤。

本申请可读存储介质具体实施方式与上述样本聚类方法各实施例基本相同，在此不再赘述。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利处理范围内。

Claims

1.一种样本聚类方法，其特征在于，所述样本聚类方法应用于第一设备，所述样本聚类方法包括：

2.如权利要求1所述样本聚类方法，其特征在于，各所述第一类型数据包括一个或多个的车辆动力学数据，各所述第二类型数据包括一个或者多个环境数据，

3.如权利要求2所述样本聚类方法，其特征在于，所述第一类型样本包括一个或者多个第一类型时间片段数据，所述第二类型样本包括一个或者多个第二类型时间片段数据，

4.如权利要求2所述样本聚类方法，其特征在于，所述对各所述车辆动力学数据进行聚类处理，获得车辆动力学聚类数据的步骤包括：

5.如权利要求2所述样本聚类方法，其特征在于，所述对各所述环境数据进行降维处理，获得所述降维数据的步骤包括：

6.如权利要求1所述样本聚类方法，其特征在于，所述接收待聚类数据，并对所述待聚类数据进行预处理，获得各第一类型数据和各第二类型数据的步骤包括：

7.如权利要求1所述样本聚类方法，其特征在于，所述基于所述聚类样本，与所述第一设备关联的各第二设备进行联邦学习的步骤包括：

8.一种样本聚类装置，其特征在于，所述样本聚类装置包括：

9.一种样本聚类设备，其特征在于，所述样本聚类设备包括：存储器、处理器以及存储在存储器上的用于实现所述样本聚类方法的程序，

所述存储器用于存储实现样本聚类方法的程序；

所述处理器用于执行实现所述样本聚类方法的程序，以实现如权利要求1至7中任一项所述样本聚类方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储有实现样本聚类方法的程序，所述实现样本聚类方法的程序被处理器执行以实现如权利要求1至7中任一项所述样本聚类方法的步骤。