CN116522143B

CN116522143B - 模型训练方法、聚类方法、设备及介质

Info

Publication number: CN116522143B
Application number: CN202310513059.XA
Authority: CN
Inventors: 樊继聪
Original assignee: Shenzhen Research Institute of Big Data SRIBD
Current assignee: Shenzhen Research Institute of Big Data SRIBD
Priority date: 2023-05-08
Filing date: 2023-05-08
Publication date: 2024-04-05
Anticipated expiration: 2043-05-08
Also published as: CN116522143A

Abstract

本公开涉及模型训练技术领域，具体涉及一种模型训练方法、聚类方法、设备及介质，所述方法包括：根据训练数据集对第一深度特征选择自编码器网络进行训练；根据训练后的第一深度特征选择自编码器网络中每层的权重参数和偏置参数对具备聚类网络层的第二深度特征选择自编码器网络中每层的权重参数和偏置参数进行初始化；采用目标聚类算法对初始化后的第二深度特征选择自编码器网络的隐藏表示进行处理；根据训练数据集对初始化后的第二深度特征选择自编码器网络进行训练。该方法训练得到的深度特征选择自编码器网络有效利用了深度神经网络的结构，提高了对输入数据集进行深度特征选择并聚类的准确度。

Description

模型训练方法、聚类方法、设备及介质

技术领域

本公开涉及模型训练技术领域，具体涉及一种模型训练方法、聚类方法、设备及介质。

背景技术

聚类作为数据分析、数据挖掘的重要分支，是指在没有监督信息的条件下，将一组数据划分为不同的多个簇的过程。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。由于聚类技术对数据没有要求大量标注信息的特点，使其被广泛应用于医学图像分割、用户群体划分、金融欺诈检测等现实应用场景中。而随着大数据时代的发展，数据量在飞速增加，高维度的数据在大多数下游任务(如分类和聚类)中会使算法的可解释性、计算效率和准确率降低。例如，在一个图像聚类问题中，如果图像的大小是512×512，那么数据的维度或者说以图像像素为单位的特征数量即为262144；在单细胞基因数据中，数据的维度(即基因的数量)通常都高于一万，高纬度数据往往会引发“维度诅咒”问题。因此，如何从海量数据中学习到有效的低维数据表示，更具体地说，如何从这些数据的特征维度中选出并保留“重要的”、“有价值的”的维度，剔除无关的冗余特征是至关重要且具有挑战性的。

特征选择算法作为其重要分支之一，旨在从原始数据中选择一些具有判别性信息的特征，为此可以将特征选择和聚类任务相结合，然而传统的特征选择算法在面对非线性数据结构或样本数据较多的情况时，需要花费更高的计算成本。而深度神经网络在此方面表现出巨大潜力，也因此特征选择与深度学习结合的趋势逐渐显露。然而，相关技术中的深度特征选择方法仅作用在单层神经网络进行特征选择，从而无法有效利用深度神经网络的结构，导致聚类结果的准确度较低。

如此，如何更好地融合特征选择和聚类任务，以避免上述所提到的问题，从而在有相应聚类信息引导的情况下学习到更有意义的特征表示是亟待解决的。

发明内容

为了解决相关技术中的问题，本公开实施例提供一种模型训练方法、聚类方法、设备及介质。

第一方面，本公开实施例中提供了一种模型训练方法，所述方法包括：

根据训练数据集对第一深度特征选择自编码器网络进行训练，所述训练数据集包括至少一组训练数据，所述训练数据包括图像或其他类型数据；

根据训练后的第一深度特征选择自编码器网络中每层的权重参数和偏置参数，对具备聚类网络层的第二深度特征选择自编码器网络中每层的权重参数和偏置参数进行初始化；

采用目标聚类算法对初始化后的第二深度特征选择自编码器网络的隐藏表示进行处理，以初始化所述聚类网络层的聚类中心；

根据所述训练数据集对初始化后具备聚类网络层的第二深度特征选择自编码器网络进行训练，训练后的第二深度特征选择自编码器网络用于通过所述聚类网络层对输入数据集进行聚类，以得到聚类结果；其中，所述聚类结果中的每个元素所在的位置用于指示所述输入数据集中的一个数据样本点所属的簇类。

在本公开一可能的实现方式中，所述根据所述训练数据集对初始化后具备聚类网络层的第二深度特征选择自编码器网络进行训练，包括：

针对每个训练轮次，根据所述训练数据集，对具备聚类网络层的第二深度特征选择自编码器网络前向传播，以得到所述第二深度特征选择自编码器网络的总损失；

使用梯度下降算法，对具备聚类网络层的第二深度特征选择自编码器网络的总损失进行处理；

基于处理后的所述第二深度特征选择自编码器网络的总损失进行反向传播，以更新所述第二深度特征选择自编码器网络中每层的权重参数、偏置参数以及所述聚类网络层的聚类中心。

在本公开一可能的实现方式中，所述根据所述训练数据集，对具备聚类网络层的第二深度特征选择自编码器网络前向传播，以得到所述第二深度特征选择自编码器网络的总损失，包括：

根据所述训练数据集，对所述第二深度特征选择自编码器网络前向传播，得到所述第二自编码器的重构损失和隐藏表示矩阵；

根据所述隐藏表示矩阵，计算所述第二深度特征选择自编码器网络的目标参数，所述目标参数包括以下至少一项：所述第二深度特征选择自编码器网络的范数正则化矩阵、所述第二深度特征选择自编码器网络的正交约束性矩阵、所述第二深度特征选择自编码器网络的聚类损失和所述第二深度特征选择自编码器网络的类簇差异性损失；

根据所述第二自编码器的重构损失和所述目标参数，得到所述第二深度特征选择自编码器网络的总损失。

在本公开一可能的实现方式中，所述目标参数包括所述第二深度特征选择自编码器网络的范数正则化矩阵；

所述根据所述隐藏表示矩阵，计算所述第二深度特征选择自编码器网络的目标参数，包括：

根据所述隐藏表示矩阵和所述训练数据集中每个样本计算雅可比矩阵，以得到特征指示矩阵；

对所述特征指示矩阵施加范数正则化，得到所述范数正则化矩阵。

在本公开一可能的实现方式中，所述目标参数还包括所述第二深度特征选择自编码器网络的正交约束性矩阵；

所述根据所述训练数据集中第i个样本的雅可比矩阵，计算特征指示矩阵之后，所述方法还包括：

向所述特征指示矩阵施加正交性约束，得到所述正交约束性矩阵。

在本公开一可能的实现方式中，所述目标参数包括所述第二深度特征选择自编码器网络的聚类损失；

根据所述隐藏表示矩阵以及所述聚类网络层的聚类中心，得到软分配分布和目标分布；

计算所述软分配分布和所述目标分布的相对熵；

将所述相对熵确定为所述第二深度特征选择自编码器网络的聚类损失。

在本公开一可能的实现方式中，所述目标参数包括所述第二深度特征选择自编码器网络的类簇差异性损失；

根据预先获取的预定义阈值和目标分布，得到类别指示向量；

根据所述隐藏表示矩阵、所述类别指示向量和所述目标分布以及所述聚类网络层的聚类中心，计算得到每一簇类的类内差异性；

根据所述聚类中心，计算得到一个簇类和另一个簇类之间的类间差异性，所述一个簇类为所述聚类中心中第i个元素对应的簇类，所述另一个簇类为所述聚类中心中第j个元素对应的簇类；

根据所述类内差异性和所述类间差异性，计算得到所述第二深度特征选择自编码器网络的类簇差异性损失。

在本公开一可能的实现方式中，所述根据所述训练数据集对具备聚类网络层的第二深度特征选择自编码器网络进行训练之后，所述方法还包括：

在训练后具备聚类网络层的第二深度特征选择自编码器网络满足预设条件的情况下，对具备聚类网络层的第二深度特征选择自编码器网络结束训练。

在本公开一可能的实现方式中，所述根据训练数据集对第一深度特征选择自编码器网络进行训练，包括：

针对每个训练轮次，根据所述训练数据集对所述第一深度特征选择自编码器网络前向传播；

根据所述第一深度特征选择自编码器网络的重构损失函数，计算得到所述第一深度特征选择自编码器网络的重构损失；

使用梯度下降算法，对所述第一深度特征选择自编码器网络的重构损失进行处理；

基于处理后的重构损失，对所述第一深度特征选择自编码器网络反向传播，以更新所述第一深度特征选择自编码器网络中每层的权重参数和偏置参数；

在所述第一自动编码器网络的训练轮次达到预训练轮次时，对所述第一深度特征选择自编码器网络结束训练。

第二方面，本公开实施例中提供了一种聚类方法，所述方法包括：

获取具备聚类网络层的深度特征选择自编码器网络，所述深度特征选择自编码器网络模型是根据上述第一方面及所有可能实现方式中任一项所述的方法训练得到；

根据所述聚类网络层对输入数据集进行聚类，以得到聚类结果；

其中，所述聚类结果中的每个元素所在的位置用于指示所述输入数据集中的一个数据样本点所属的簇类。

在本公开一实现方式中，所述根据所述聚类网络层对输入数据集进行聚类，以得到聚类结果，包括：

根据所述聚类网络层，得到软分配分布，所述软分配分布包括n行和c列，所述n行中的每一行对应所述输入数据集中的一个数据样本点，所述c列中的每一列表示所述一个数据样本点对应的一个簇类，n和c均为正整数；

从所述软分配分布包括的n行中的每行选择一个最大元素；

将所述一个最大元素的位置确定为所述输入数据集中对应的一个数据样本点所属的簇类。

第三方面，本公开实施例中提供了一种模型训练装置，包括：

第一训练模块，被配置为根据训练数据集对第一深度特征选择自编码器网络进行训练，所述训练数据集包括至少一组训练数据，所述训练数据包括图像或其他类型数据；

初始化模块，被配置为根据训练后的第一深度特征选择自编码器网络中每层的权重参数和偏置参数，对具备聚类网络层的第二深度特征选择自编码器网络中每层的权重参数和偏置参数进行初始化；

处理模块，被配置为采用目标聚类算法对初始化后的第二深度特征选择自编码器网络的隐藏表示进行处理，以初始化所述聚类网络层的聚类中心；

第二训练模块，被配置为根据所述训练数据集对具备聚类网络层的第二深度特征选择自编码器网络进行训练，训练后的第二深度特征选择自编码器网络用于通过所述聚类网络层对输入数据集进行聚类，以得到聚类结果；其中，所述聚类结果中的每个元素所在的位置用于指示所述输入数据集中的一个数据样本点所属的簇类。

在本公开一可能的实现方式中，所述第二训练模块，具体被配置为：

在本公开一可能的实现方式中，所述目标参数包括所述第二深度特征选择自编码器网络的范数正则化矩阵；所述第二训练模块，具体被配置为：

在本公开一可能的实现方式中，所述目标参数还包括所述第二深度特征选择自编码器网络的正交约束性矩阵；所述模型训练装置还包括：

确定模块，被配置为向所述特征指示矩阵施加正交性约束，得到所述正交约束性矩阵。

在本公开一可能的实现方式中，所述目标参数包括所述第二深度特征选择自编码器网络的聚类损失；所述第二训练模块，被配置为：

计算所述软分配分布和所述目标分布的相对熵；

在本公开一可能的实现方式中，所述目标参数包括所述第二深度特征选择自编码器网络的类簇差异性损失；所述第二训练模块，被配置为：

在本公开一可能的实现方式中，所述模型训练装置还包括：

第三训练模块，被配置为在训练后具备聚类网络层的第二深度特征选择自编码器网络满足预设条件的情况下，对具备聚类网络层的第二深度特征选择自编码器网络结束训练。

在本公开一可能的实现方式中，所述第一训练模块，被配置为：

第四方面，本公开实施例中提供了一种聚类装置，包括：

获取模块，被配置为获取具备聚类网络层的深度特征选择自编码器网络，所述深度特征选择自编码器网络模型是根据上述第三方面及所有可能实现方式中任一项所述的方法训练得到；

聚类模块，被配置为根据所述聚类网络层对输入数据集进行聚类，以得到聚类结果；

在本公开一可能的实现方式中，所述聚类模块，被配置为：

从所述软分配分布包括的n行中的每行选择一个最大元素；

第五方面，本公开实施例提供了一种电子设备，包括存储器和处理器，其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现如第一方面或第二方面任一项所述的方法。

第六方面，本公开实施例中提供了一种计算机可读存储介质，其上存储有计算机指令，该计算机指令被处理器执行时实现如第一方面或第二方面所述的方法。

本公开实施例提供的模型训练方法，先根据训练数据集对第一深度特征选择自编码器网络进行训练，并利用训练后的第一深度特征选择自编码器网络中每层的权重参数和偏置参数，对具备聚类网络层的第二深度特征选择自编码器网络中每层的权重参数和偏置参数进行初始化，以及采用目标聚类算法对初始化后的第二深度特征选择自编码器网络的隐藏表示进行处理，以初始化该聚类网络层的聚类中心，进而可以根据训练数据集对初始化后具备聚类网络层的第二深度特征选择自编码器网络进行训练，以得到可以对输入数据集进行特征选择并聚类的第二深度特征选择自编码器网络。通过该方案，可以利用训练后的第二深度特征选择自编码器网络对输入数据集进行深度特征选择并聚类，从而有效利用了深度神经网络的结构，且提高了聚类结果的准确度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

结合附图，通过以下非限制性实施方式的详细描述，本公开的其它特征、目的和优点将变得更加明显。在附图中：

图1示出根据本公开实施例的模型训练方法的流程图；

图2示出根据本公开的实施例的聚类方法的流程图；

图3示出根据本公开实施例提供的一种可能的框架示意图；

图4示出根据本公开的实施例的模型训练装置的结构框图；

图5示出根据本公开的实施例的聚类装置的结构框图；

图6示出根据本公开的实施例的电子设备的结构框图。

图7示出适于用来实现根据本公开实施例的方法的计算机系统的结构示意图。

具体实施方式

下文中，将参考附图详细描述本公开的示例性实施例，以使本领域技术人员可容易地实现它们。此外，为了清楚起见，在附图中省略了与描述示例性实施例无关的部分。

在本公开中，应理解，诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在，并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。

另外还需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

在本公开中，如涉及对用户信息或用户数据的获取操作或向他人展示用户信息或用户数据的操作，则所述操作均为经用户授权、确认，或由用户主动选择的操作。

上文中提及，聚类作为数据分析、数据挖掘的重要分支，是指在没有监督信息的条件下，将一组数据划分为不同的多个簇的过程。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。由于聚类技术对数据没有要求大量标注信息的特点，使其被广泛应用于医学图像分割、用户群体划分、金融欺诈检测等现实应用场景中。而随着大数据时代的发展，数据量在飞速增加，高维度的数据在大多数下游任务(如分类和聚类)中会使算法的可解释性、计算效率和准确率降低。例如，在一个图像聚类问题中，如果图像的大小是512×512，那么数据的维度或者说以图像像素为单位的特征数量即为262144；在单细胞基因数据中，数据的维度(即基因的数量)通常都高于一万，高纬度数据往往会引发“维度诅咒”问题。因此，如何从海量数据中学习到有效的低维数据表示，更具体地说，如何从这些数据的特征维度中选出并保留“重要的”、“有价值的”的维度，剔除无关的冗余特征是至关重要且具有挑战性的。

基于上述技术缺陷，本公开实施例提供了一种模型训练方法，先根据训练数据集对第一深度特征选择自编码器网络进行训练，并利用训练后的第一深度特征选择自编码器网络中每层的权重参数和偏置参数，对具备聚类网络层的第二深度特征选择自编码器网络中每层的权重参数和偏置参数进行初始化，以及采用目标聚类算法对初始化后的第二深度特征选择自编码器网络的隐藏表示进行处理，以初始化该聚类网络层的聚类中心，进而可以根据训练数据集对初始化后具备聚类网络层的第二深度特征选择自编码器网络进行训练，以得到可以对输入数据集进行特征选择并聚类的第二深度特征选择自编码器网络。

通过该方案，可以利用训练后的第二深度特征选择自编码器网络对输入数据集进行深度特征选择并聚类，从而有效利用了深度神经网络的结构，且提高了聚类结果的准确度。

图1示出根据本公开的实施例的模型训练方法的流程图。如图1所示，所述模型训练方法包括以下步骤S101-S104：

在步骤S101中，根据训练数据集对第一深度特征选择自编码器网络进行训练，所述训练数据集包括至少一组训练数据，所述训练数据包括图像或其他类型数据；

在步骤S102中，根据训练后的第一深度特征选择自编码器网络中每层的权重参数和偏置参数，对具备聚类网络层的第二深度特征选择自编码器网络中每层的权重参数和偏置参数进行初始化；

在步骤S103中，采用目标聚类算法对初始化后的第二深度特征选择自编码器网络的隐藏表示进行处理，以初始化所述聚类网络层的聚类中心；

在步骤S104中，根据所述训练数据集对初始化后具备聚类网络层的第二深度特征选择自编码器网络进行训练，训练后的第二深度特征选择自编码器网络用于通过所述聚类网络层对输入数据集进行聚类，以得到聚类结果；其中，所述聚类结果中的每个元素所在的位置用于指示所述输入数据集中的一个数据样本点所属的簇类。

在本公开一实施方式中，训练数据集为预先给定的，该训练数据集可以理解为是具有n个样本和d维特征的数据集。

在本公开一实施方式中，训练数据可以为以下任一类型数据：图像数据、单细胞基因数据及其他可能类型的数据。

在本公开一实施方式中，第一深度特征选择自编码器网络可以理解是多层自编码器网络。具体地，可以先构建一个L层自编码器网络，也即第一深度特征选择自编码器网络，L为大于1的整数；然后初始化该L层自编码器网络中每层的权重参数H和偏置参数s，即可以用参数集合表示；进而可以使用训练数据集对初始化后的第一深度特征选择自编码器网络进行训练。具体可以参照下述实施例中的详细描述，本公开实施例在此不予赘述。另外，需要说明的是，该第一深度特征选择自编码器网络是用于对输入数据进行重构的。

在本公开一实施方式中，在训练数据为图像时，通过向第一深度特征选择自编码器网络输入图像之后，可以输出重构图像。重构图像可以理解为是对图像重构后得到的图像，也即为图像的相似图像。具体可以参照相关技术中的内容，本公开实施例对此不予赘述。

在本公开一实施方式中，可以先定义网络中的隐藏表示的特征维度和聚类任务的目标簇类数，根据该特征维度和该目标簇类数，构建一个具备聚类网络层的多层自编码器网络，即得到具备聚类网络层的第二深度特征选择自编码器网络，从而可以对该第二深度特征选择自编码器网络进行初始化。

基于得到的具备聚类网络层的第二深度特征选择自编码器网络，可以根据训练后的第一深度特征选择自编码器网络中每层的权要参数和偏置参数，对第二深度特征选择自编码器网络中每层的权重参数和偏置参数进行初始化，即初始化后的第二深度特征选择自编码器网络中每层的权重参数和偏置参数为训练后的第一深度特征选择自编码器网络中对应层的权要参数和偏置参数。

示例性地，假设第二深度特征选择自编码器网络中每层的权重参数为W、偏置参数为b，可以用参数集合表示，可以使用训练后的第一深度特征选择自编码器网络的参数集合Θ初始化/>

在本公开一实施方式中，在第二深度特征选择自编码器网络包括L层时，该第二深度特征选择自编码器网络的隐藏表示可以理解为是该第二深度特征选择自编码器网络的第L/2层的表示，即第L/2层为隐藏层。通过采用目标聚类算法，对初始化后的第二深度特征选择自编码器网络的隐藏表示进行处理，可以对第二深度特征选择自编码器网络的聚类网络层的聚类中心(即不同簇的中心)进行初始化。应理解的是，聚类网络层就是第二深度特征选择自编码器网络的隐藏层。另外，该目标聚类算法可以为K-Means聚类算法或其他可能的算法，本公开实施例对此不作限定。

需要说明的是，通过聚类网络层聚类的目的是将输入数据集中每个数据样本点分到最近的聚类中心附近，从而达到将该输入数据集聚为多个簇的目的。在训练过程中，聚类中心将作为整个网络参数的一部分，进行参数更新，从而找到最优的聚类中心，完成聚类目标。用K-Means聚类算法获得的聚类中心初始化的目的是期望训练过程中能更快地寻找到更好的优化结果。

应理解的是，输入数据集中数据的数据类型和/或数据格式与训练数据集中数据的数据类型和/或数据格式相同，即第二深度特征选择自编码器网络可以对与训练数据集中数据的数据类型和/或数据格式相同的输入数据进行聚类。

在一种可能的场景中，以输入数据为普通图像数据为例，在采用普通图像数据对具备聚类网络层的第二深度特征选择自编码器网络进行训练，训练后的第二深度特征选择自编码器网络可以用于通过聚类网络层对普通图像数据进行聚类，以得到聚类结果。之后，若向训练后的第二深度特征选择自编码器网络输入一个特征数量为262144的图像，则可以对该图像的特征进行特征选择，以选择出一些具有重要判别特性的特征表示并对其聚类。

在另一种可能的场景中，以输入数据为单细胞基因数据为例，在采用单细胞基因数据对具备聚类网络层的第二深度特征选择自编码器网络进行训练，训练后的第二深度特征选择自编码器网络可以用于通过聚类网络层对单细胞基因数据进行聚类，以得到聚类结果。之后，若向训练后的第二深度特征选择自编码器网络输入一个特征数量高达万级的单细胞基因数据，则可以对该单细胞基因数据的特征进行特征选择，以选择出一些具有重要判别特性的特征表示并对其聚类。

需要说明的是，与相关技术中仅作用在模型中的一层网络进行特征选择相比，通过本公开实施例提供的模型训练方法得到第二深度特征选择自编码器网络是将输入作用在网络模型的多层进行深度特征选择，更有效利用了深度学习结构，可以选出更具有判别性的特征，从而实现对高维度数据的降维。

本公开实施例提供的模型训练方法，先根据训练数据集对第一深度特征选择自编码器网络进行训练，并利用训练后的第一深度特征选择自编码器网络中每层的权重参数和偏置参数，对具备聚类网络层的第二深度特征选择自编码器网络中每层的权重参数和偏置参数进行初始化，以及采用目标聚类算法对初始化后的第二深度特征选择自编码器网络的隐藏表示进行处理，以初始化该聚类网络层的聚类中心，进而可以根据训练数据集对初始化后具备聚类网络层的第二深度特征选择自编码器网络进行训练，以得到可以对输入数据集进行特征选择并聚类的第二深度特征选择自编码器网络。通过该方案，可以利用训练后的第二深度特征选择自编码器网络对输入数据集进行深度特征选择并聚类，从而有效利用了深度神经网络的结构，且提高了导致聚类结果的准确度。

在本公开一实施方式中，步骤S104，即所述根据所述数据集对具备聚类网络层的第二深度特征选择自编码器网络进行训练的步骤，可以具体包括以下步骤：

针对每个训练轮次，根据所述数据集，对具备聚类网络层的第二深度特征选择自编码器网络前向传播，以得到所述第二深度特征选择自编码器网络的总损失；

在本公开一实施方式中，使用梯度下降算法对第二深度特征选择自编码器网络的总损失进行处理，可以最小化该第二深度特征选择自编码器网络的总损失，使得该第二深度特征选择自编码器网络得到优化。

在该实施方式中，在每个训练轮次根据训练数据集，对具备聚类网络层的第二深度特征选择自编码器网络前向传播，可以理解为是该训练数据集的输入数据输入该第二深度特征选择自编码器网络以获得响应。在训练的过程中，可以计算第二深度特征选择自编码器网络前向传播的总损失，使用梯度下降算法使得总损失最小，并利用优化后的总损失反向传播，更新第二深度特征选择自编码器网络中每层的权重参数、偏置参数以及聚类网络层的聚类中心。可以理解的是，在训练的过程中，聚类网络层的聚类中心得到了优化，从而通过聚类网络层进行聚类可以得到更优的聚类结果。

进一步地，在本公开一实施方式中，所述根据所述数据集，对具备聚类网络层的第二深度特征选择自编码器网络前向传播，以得到所述第二深度特征选择自编码器网络的总损失的步骤，可以具体包括以下步骤：

根据所述数据集，对所述第二深度特征选择自编码器网络前向传播，得到所述第二自编码器的重构损失和隐藏表示矩阵；

在本公开一实施方式中，根据训练数据集，对第二深度特征选择自编码器网络前向传播时，可以计算第二深度特征选择自编码器网络的重构损失函数，基于该重构损失函数得到第二深度特征选择自编码器网络的重构损失；之后，还可以获取第二深度特征选择自编码器网络中聚类网络层的隐藏表示矩阵，并根据该隐藏表示矩阵得到第二深度特征选择自编码器网络中聚类网络层的目标参数，从而可以根据重构损失和该目标参数，得到第二深度特征选择自编码器网络的总损失。

示例性地，以表示第二深度特征选择自编码器网络。重构损失L_recon可以通过公式计算得到：

其中，X_i是输入到第二深度特征选择自编码器网络的输入数据集，n为输入数据集包括的样本数量，该输入数据集具有n个数据样本和d维特征。

示例性地，第二深度特征选择自编码器网络包括L层，隐藏表示矩阵是针对该第二深度特征选择自编码器网络的隐藏层的隐藏表示，该隐藏层即为L/2层。该第二深度特征选择自编码器网络中第L/2层的n x k维隐藏表示矩阵的第i行可以表示如下：

其中，k是网络第L/2层获得的表示维度(即n x k)，d为输入数据集的特征维度，为了对数据进行降维，通常k<<d。

在本公开一实施方式中，在得到重构损失、范数正则化矩阵、正交约束性矩阵、聚类损失和类簇差异性损失之后，可以通过下述公式计算第二深度特征选择自编码器网络的总损失：

其中，L_recon为重构损失，L_2,1为范数正则化矩阵，L_orth为正交约束性矩阵，L_disc为聚类损失，L_clust为类簇差异性损失。α、β、分别代表了各自对应的权重系数。

进一步地，在本公开一实施方式中，所述目标参数包括所述第二深度特征选择自编码器网络的范数正则化矩阵；所述根据所述隐藏表示矩阵，计算所述第二深度特征选择自编码器网络的目标参数的步骤，可以具体包括以下步骤：

根据所述隐藏表示矩阵和所述数据集中每个样本计算雅可比矩阵，以得到特征指示矩阵；

在本公开一实施方式中，可以先定义输入数据集中第i个数据样本的雅可比矩阵Jacobian Matrix，可以表示为

通过下述公式计算特征指示矩阵

进一地，通过以下公式对特征指示矩阵施加l_2,1范数正则化，得到范数正则化矩阵：/>

其中，i和j用以指特征指示矩阵的第i行和第j列，从而定位特征指示矩阵内的元素，这里/>的形状为d x k。

应理解的是，通过对特征向量矩阵施加范数正则化，可以实现特征向量矩阵相应地行稀疏，从而便于进行特征提取。

在该实施例中，在设计了多层自编码器网络的特征选择架构之后，利用l_2,1范数稀疏化基于雅可比矩阵优化得到多层自编码器网络的特征指示矩阵，从而在框架内训练后的该多层自编码器网络可以直接对原始输入数据，进行具有自适应地确定选择特征数量的特征选择。

进一步地，在本公开一实施方式中，所述目标参数还包括所述第二深度特征选择自编码器网络的正交约束性矩阵；在所述根据所述数据集中第i个样本的雅可比矩阵，计算特征指示矩阵的步骤之后，本公开实施例提供的模型训练方法还可以包括以下步骤：

在本公开一实施方式中，将形状为k x k的单位矩阵表示为I_k，向特征指示矩阵施加正交性约束，得到正交约束性矩阵L_orth，公式如下所示：

进一步地，在本公开一实施方式中，所述目标参数包括所述第二深度特征选择自编码器网络的聚类损失；所述根据所述隐藏表示矩阵，计算所述第二深度特征选择自编码器网络的目标参数的步骤，可以具体包括以下步骤：

计算所述软分配分布和所述目标分布的相对熵；

在本公开一实施方式中，预定义参数f控制学生t-分布的自由度，通过下述公式计算形状为n x c的软分配分布Q，该软分配分布Q可以衡量隐藏表示Z和聚类中心μ之间的相似度：

其中，q_ij表示软分配分布Q的第i行、第j列元素，z_i和μ_j分别为隐藏表示Z的第i行向量和第j个聚类中心(即μ的第j行向量)，j’是聚类中心的行索引，公式中分子部分衡量第i个样本的隐藏表示与第j个聚类中心的相似度，分母部分则是计算第i个样本的隐藏表示与j’索引的所有聚类中心相似度之和。

进一步地，根据下述公式计算目标分布P：

在进一步地通过下述公式，计算软分配分布Q和目标分布P之间的相对熵，即KL散度Kullback-Leibler Divergence，用于比较两个概率分布的接近程度，并将该相对熵确定为第二深度特征选择自编码器网络的聚类损失：

进一步地，在本公开一实施方式中，所述目标参数包括所述第二深度特征选择自编码器网络的类簇差异性损失；所述根据所述隐藏表示矩阵，计算所述第二深度特征选择自编码器网络的目标参数的步骤，可以具体包括以下步骤：

在本公开一实施方式中，获取预定义阈值δ，基于目标分布与预定义阈值，通过下述公式计算类别指示向量t：

在本公开一实施方式中，通过下述公式计算每一簇类的类内差异性：

在本公开一实施方式中，通过下述公式计算得到一个簇类和另一个簇类之间的类间差异性：

其中，c为聚类任务的目标簇数，μ_i和μ_j分别表示聚类中心μ的第m行和第j行。通过聚类中心两两之间进行类间差异性计算。

进一步地，基于上述两个公式分别计算得到的类内差异性和类间差异性之后，可以计算类内差异性和类间差异性之间的比值，即通过下述公式计算得到类簇差异性损失：

应理解的是，在使用梯度下降算法最小化第二深度特征选择自编码器网络的总损失时，聚类损失得到了相应的优化，使训练后的第二深度特征选择自编码器网络尽可能扩大类间差异性，减小类内差异性。

进一步地，在本公开一实施方式中，在步骤S104之后，即在所述根据所述训练数据集对具备聚类网络层的第二深度特征选择自编码器网络进行训练的步骤之后，本公开实施例提供的模型训练方法还可以包括以下步骤：

在本公开一实施方式中，第二深度特征选择自编码器网络满足预设条件可以包括至少一项：

第二深度特征选择自编码器网络的训练轮次达到目标训练轮次，第二深度特征选择自编码器网络已收敛。

需要说明是，在第二深度特征选择自编码器网络已收敛时，第二深度特征选择自编码器网络的的总损失趋于稳定在一个值附近，没有较大波动。而如果第二深度特征选择自编码器网络已经收敛但其训练次数还未达到目标训练轮次则继续训练，以保证模型在训练中获得的解是其寻找到的最满足目标函数的最优解。

在该实施例中，在训练后具备聚类网络层的第二深度特征选择自编码器网络达到目标训练轮次和/或第二深度特征选择自编码器网络已收敛时，对第二深度特征选择自编码器网络的训练已经符合要求，从而可以对具备聚类网络层的第二深度特征选择自编码器网络结束训练。

在本公开一实施方式中，步骤S101，即所述根据训练数据集对第一深度特征选择自编码器网络进行训练的步骤，可以具体包括以下步骤：

在本公开一实施方式中，根据训练数据集对第一深度特征选择自编码器网络前向传播，即向第一深度特征选择自编码器网络输入X＝{x₁,…，x_n}，得到重构输出从而可以通过下述公式得到第一深度特征选择自编码器网络的重构损失：

在该实施方式中，使用梯度下降算法对第一深度特征选择自编码器网络的重构损失进行处理，可以最小化该第一深度特征选择自编码器网络的重构损失。之后，可以采用最小化的重构损失对该第一深度特征选择自编码器网络进行反向传播，以更新该第一深度特征选择自编码器网络中每层的权重参数和偏置参数，使得训练后的该第一深度特征选择自编码器网络得到优化。

在本公开一实施方式中，在第一自动编码器网络的训练轮次达到预训练轮次时，对第一深度特征选择自编码器网络结束训练，而在第一自动编码器网络的训练轮次未达到预训练轮次时，继续对第一深度特征选择自编码器网络进行训练直到达到预训练轮次后结束训练。

图2示出根据本公开的实施例的聚类方法的流程图。如图2所示，所述模型训练方法包括以下步骤S201–S202：

在步骤S201中，获取具备聚类网络层的深度特征选择自编码器网络，所述深度特征选择自编码器网络模型是根据上述实施例中的模型训练方法训练得到；

在步骤S202中，根据所述聚类网络层对输入数据集进行聚类，以得到聚类结果；其中，所述聚类结果中的每个元素所在的位置用于指示所述输入数据集中的一个数据样本点所属的簇类。

在本公开一实施方式中，输入数据集中的数据可以为以下任一类型数据：图像数据、单细胞基因数据及其他可能类型的数据。

本公开实施例中，聚类网络层即为深度特征选择自编码器网络的隐藏层。该深度特征选择自编码器网络可以通过上述实施例提供的模型训练方法训练得到，即该实施例中获取的深度特征选择自编码器网络为训练后的第二深度特征选择自编码器网络。由于该深度特征选择自编码器网络的聚类网络层可以对输入数据集进行聚类，因此当向该深度特征选择自编码器网络输入输入数据集之后，可以根据该聚类网络层对该输入数据集进行聚类，以得到聚类结果。

进一步地，在本公开一实施方式中，步骤S202，即所述根据所述聚类网络层对输入数据集进行聚类，以得到聚类结果的步骤，可以具体包括以下步骤：

从所述软分配分布包括的n行中的每行选择一个最大元素；

在该实施例中，根据聚类网络层，得到软分配分布具体是指基于该聚类网络层先得到隐藏表示矩阵，之后可以根据该隐藏表示矩阵以及该聚类网络层的聚类中心，得到软分配分布。具体可以参照上述实施例中提供的模型训练方法所采用的公式计算软分配分布，本公开实施例对此不再赘述。

软分配分布是一个n x c矩阵，该矩阵中的每一行对应输入数据集中每一个数据样本。在得到软分配分布之后，从该软分配分布的每行中选择一个最大元素，并将该一个最大元素的位置确定为一个数据样本点所属的簇类，即为一个聚类结果，进而得到n个数据样本点的聚类结果。

示例性地，根据深度特征选择自编码器网络的聚类网络层对包括n个数据样本点的输入数据集进行聚类，得到聚类结果，可以记为该聚类结果可以通过下述公式得到：

其中，q_ij为软分配分布中的一个元素。

在该实施方式中，在获取具备聚类网络层的深度特征选择自编码器网络之后，可以有效地通过深度特征选择自编码器网络的聚类网络层对图像数据、单细胞基因数据等数据集进行深度特征选择并实现聚类。

图3示出根据本公开实施例提供的一种可能的框架示意图。如图3所示，本公开由嵌入聚类层的多层自编码器神经网络组成，其中该多层自编码器神经网络又被看作特征选择器。整体的网络由重构损失引导，通过对由隐藏表示和输入数据所导出的特征选择指示矩阵施加l_2,1范数和正交约束，前者使得特征指示矩阵实现某种程度的行稀疏效果，从而达到对原始输入数据选择特征，后者则是尽可能使选择的特征正交。进一步地，对特征指示矩阵的优化会反过来影响隐藏表示的学习方向，最终达到获得的隐藏表示只与部分特征相关的目的。本公开将获得的隐藏表示结果送入该多层自编码器神经网络的聚类网络层计算聚类损失，使模型在受到聚类信息引导的情况下学习，同时对聚类网络层获得的聚类中心结果最小化类内差异和最大化类间差异，从而挖掘出更准确的聚类信息。

图4示出根据本公开的实施例的模型训练装置的结构框图。其中，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。

如图4所示，所述模型训练装置包括第一训练模块401、初始化模块402、处理模块403和第二训练模块404。

第一训练模块401，可以被配置为根据训练数据集对第一深度特征选择自编码器网络进行训练，所述训练数据集包括至少一组训练数据，所述训练数据包括图像以及重构图像；

初始化模块402，可以被配置为根据训练后的第一深度特征选择自编码器网络中每层的权重参数和偏置参数，对具备聚类网络层的第二深度特征选择自编码器网络中每层的权重参数和偏置参数进行初始化；

处理模块403，可以被配置为采用目标聚类算法对初始化后的第二深度特征选择自编码器网络的隐藏表示进行处理，以初始化所述聚类网络层的聚类中心；

第二训练模块404，可以被配置为根据所述训练数据集对具备聚类网络层的第二深度特征选择自编码器网络进行训练，训练后的第二深度特征选择自编码器网络用于通过所述聚类网络层对输入数据集进行聚类，以得到聚类结果；其中，所述聚类结果中的每个元素所在的位置用于指示所述输入数据集中的一个数据样本点所属的簇类。

在本公开一可能的实现方式中，所述第二训练模块，可以具体被配置为：

在本公开一可能的实现方式中，所述目标参数包括所述第二深度特征选择自编码器网络的范数正则化矩阵；所述第二训练模块，可以具体被配置为：

在本公开一可能的实现方式中，所述目标参数还包括所述第二深度特征选择自编码器网络的正交约束性矩阵；所述模型训练装置还可以包括：

确定模块，可以被配置为向所述特征指示矩阵施加正交性约束，得到所述正交约束性矩阵。

在本公开一可能的实现方式中，所述目标参数包括所述第二深度特征选择自编码器网络的聚类损失；所述第二训练模块，可以被配置为：

计算所述软分配分布和所述目标分布的相对熵；

在本公开一可能的实现方式中，所述目标参数包括所述第二深度特征选择自编码器网络的类簇差异性损失；所述第二训练模块，可以被配置为：

在本公开一可能的实现方式中，所述模型训练装置还可以包括：

在本公开一可能的实现方式中，所述第一训练模块，可以被配置为：

本公开实施例提供的模型训练装置，先根据训练数据集对第一深度特征选择自编码器网络进行训练，并利用训练后的第一深度特征选择自编码器网络中每层的权重参数和偏置参数，对具备聚类网络层的第二深度特征选择自编码器网络中每层的权重参数和偏置参数进行初始化，以及采用目标聚类算法对初始化后的第二深度特征选择自编码器网络的隐藏表示进行处理，以初始化该聚类网络层的聚类中心，进而可以根据训练数据集对初始化后具备聚类网络层的第二深度特征选择自编码器网络进行训练，以得到可以对输入数据集进行特征选择并聚类的第二深度特征选择自编码器网络。通过该装置，可以利用训练后的第二深度特征选择自编码器网络对输入数据集进行深度特征选择并聚类，从而有效利用了深度神经网络的结构，且提高了导致聚类结果的准确度。

图5示出根据本公开的实施例的聚类装置的结构框图。其中，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。

如图5所示，所述聚类装置包括获取模块501和聚类模块502。

获取模块501，可以被配置为获取具备聚类网络层的深度特征选择自编码器网络，所述深度特征选择自编码器网络模型是根据上述实施例中的模型训练装置训练得到；

聚类模块502，可以被配置为根据所述聚类网络层对输入数据集进行聚类，以得到聚类结果；

在本公开一可能的实现方式中，聚类模块502，可以具体被配置为：

从所述软分配分布包括的n行中的每行选择一个最大元素；

本公开实施例提供的聚类装置，在获取具备聚类网络层的深度特征选择自编码器网络之后，可以有效地通过深度特征选择自编码器网络的聚类网络层对图像数据、单细胞基因数据等数据集进行深度特征选择并实现聚类。

本公开还公开了一种电子设备，图6示出根据本公开的实施例的电子设备的结构框图。

如图6所示，所述电子设备包括存储器和处理器，其中，存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现根据本公开的实施例的方法。

如图7所示，计算机系统包括处理单元，其可以根据存储在只读存储器(ROM)中的程序或者从存储部分加载到随机访问存储器(RAM)中的程序而执行上述实施例中的各种方法。在RAM中，还存储有计算机系统操作所需的各种程序和数据。处理单元、ROM以及RAM通过总线彼此相连。输入/输出(I/O)接口也连接至总线。

以下部件连接至I/O接口：包括键盘、鼠标等的输入部分；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分；包括硬盘等的存储部分；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信过程。驱动器也根据需要连接至I/O接口。可拆卸介质，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器上，以便于从其上读出的计算机程序根据需要被安装入存储部分。其中，所述处理单元可实现为CPU、GPU、TPU、FPGA、NPU等处理单元。

特别地，根据本公开的实施例，上文描述的方法可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行上述方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过可编程硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

作为另一方面，本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中电子设备或计算机系统中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种模型训练方法，其特征在于，所述方法包括：

根据训练数据集对第一深度特征选择自编码器网络进行训练，所述训练数据集包括至少一组训练数据，所述训练数据包括图像或其他类型数据，所述其他类型数据为单细胞基因数据；

针对每个训练轮次，根据所述训练数据集，对所述第二深度特征选择自编码器网络前向传播，得到所述第二深度特征选择自编码器网络的重构损失和隐藏表示矩阵；

根据所述第二深度特征选择自编码器网络的重构损失和所述目标参数，得到所述第二深度特征选择自编码器网络的总损失；

基于处理后的所述第二深度特征选择自编码器网络的总损失进行反向传播，以更新所述第二深度特征选择自编码器网络中每层的权重参数、偏置参数以及所述聚类网络层的聚类中心，训练后的第二深度特征选择自编码器网络用于通过所述聚类网络层对输入数据集进行聚类，以得到聚类结果；其中，所述聚类结果中的每个元素所在的位置用于指示所述输入数据集中的一个数据样本点所属的簇类。

2.根据权利要求1所述的方法，其特征在于，所述目标参数包括所述第二深度特征选择自编码器网络的范数正则化矩阵；

3.根据权利要求2所述的方法，其特征在于，所述目标参数还包括所述第二深度特征选择自编码器网络的正交约束性矩阵；

所述根据所述隐藏表示矩阵和所述训练数据集中每个样本计算雅可比矩阵，以得到特征指示矩阵之后，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述目标参数包括所述第二深度特征选择自编码器网络的聚类损失；

计算所述软分配分布和所述目标分布的相对熵；

5.根据权利要求1所述的方法，其特征在于，所述目标参数包括所述第二深度特征选择自编码器网络的类簇差异性损失；

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述根据训练数据集对第一深度特征选择自编码器网络进行训练，包括：

在所述第一深度特征选择自编码器网络的训练轮次达到预训练轮次时，对所述第一深度特征选择自编码器网络结束训练。

8.一种聚类方法，其特征在于，所述方法包括：

获取具备聚类网络层的深度特征选择自编码器网络，所述深度特征选择自编码器网络模型是根据上述权利要求1-7中任一项所述的方法训练得到；

9.根据权利要求8所述的方法，其特征在于，所述根据所述聚类网络层对输入数据集进行聚类，以得到聚类结果，包括：

从所述软分配分布包括的n行中的每行选择一个最大元素；

10.一种电子设备，其特征在于，包括存储器和处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现权利要求1至9任一项所述的方法步骤。

11.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该计算机指令被处理器执行时实现权利要求1至9任一项所述的方法步骤。