CN112818152A

CN112818152A - 一种深度聚类模型的数据增强方法和装置

Info

Publication number: CN112818152A
Application number: CN202110265436.3A
Authority: CN
Inventors: 陈晋音; 王珏
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-03-11
Filing date: 2021-03-11
Publication date: 2021-05-18

Abstract

本发明公开了一种深度聚类模型的数据增强方法和装置，包括：获取原始数据集，并采用原始数据集优化深度聚类模型参数，同时获得利用优化后的深度聚类模型对原始数据集的聚类结果；根据聚类结果提取原始数据来构建中心样本集和边缘样本集；基于中心样本集和边缘样本集，采用生成式对抗网络生成新中心样本和新边缘样本，同时将部分新中心样本和部分新边缘样本添加到原始数据集中，获得增强数据集；利用优化后的深度聚类模型对增强数据集进行聚类，对原始数据集和增强数据集进行黑盒攻击，以两者对黑盒攻击的鲁棒性差距最大为目标，调整填加的新中心样本和新边缘样本，以实现对数据的增强。

Description

一种深度聚类模型的数据增强方法和装置

技术领域

本发明属于人工智能领域，尤其涉及一种深度聚类模型的数据增强方法和装置。

背景技术

随着计算和各种智能设备的飞速发展，大数据成为当今社会的必然产物。如何从大数据中尽可能地发现隐藏的知识和规律，是亟待解决的问题和任务。

聚类是指根据样本的相似程度，将数据集样本划分为若干类簇，相似度高的样本位于同一类簇，相似度低的样本处在不同类簇。深度聚类是将深度学习和聚类相结合的方法，在图像识别领域表现出明显优势。

分类和聚类是数据挖掘中广泛采用的两种技术。就医学图像而言，如果获取了大量图像及相应的诊断结果，以诊断结果作为类标识，准确地描述图像特征与其对应疾病的关系模型，便可以根据这些模型对新的图像进行分类。同样，根据图像的特征，将特征相似的图像聚类，也将有助于疾病的诊断。

然而近期的研究表明，不管是深度学习还是聚类算法，都容易受到攻击，使得模型性能严重下降。在深度聚类算法中，更容易受到攻击的是聚类部分，仅仅是在两个类簇的边界的一个样本上添加扰动就可以使得聚类效果严重下降，即使未加扰动的样本聚类到另一个类簇，与原始的聚类结果相违背，因此需要进行鲁棒性增强来保证模型在面对攻击时保持良好的性能。这样在医学影像这种安全性要求比较严格的场景中才能更好的应用。

数据增强是模型鲁棒性增强的一种方法，数据增强包含一系列用来生成新训练样本的技术。在数据集中添加这些生成的样本，目标是增加模型的泛化性能。鉴于模型持续不断看到新的、稍微修改过的输入数据点，它能够具有更强的鲁棒性。对于深度聚类模型而言，就需要设计一些样本使得类簇之间区分更加明显。类簇中比较关键的就是它的中心样本与边缘样本。

综上所述，如何生成中心样本和边缘样本进行数据增强，使得使用增强数据训练的模型具有更强的泛化能力和鲁棒性，对深度聚类模型应用到医学影像聚类的领域中具有重要的理论和实践意义。

发明内容

基于上述，本发明的目的是提供了一种深度聚类模型的数据增强方法和装置，利用生成式对抗网络(GAN)基于原始数据生成具有相同分布的中心样本和边缘样本，将这些样本加入到原始数据集中，通过黑盒攻击筛选增加的中心样本和边缘样本，实现对数据增强。

为实现上述发明目的，本发明提供以下技术方案：

第一方面，一种深度聚类模型的医学影像聚类数据增强方法，包括以下步骤：

获取原始数据集，并采用原始数据集优化深度聚类模型参数，同时获得利用优化后的深度聚类模型对原始数据集的聚类结果；

根据聚类结果提取原始数据来构建中心样本集和边缘样本集；

基于中心样本集和边缘样本集，采用生成式对抗网络生成新中心样本和新边缘样本，同时将部分新中心样本和部分新边缘样本添加到原始数据集中，获得增强数据集；

利用优化后的深度聚类模型对增强数据集进行聚类，聚类过程中增加黑盒攻击，对原始数据集和增强数据集进行黑盒攻击，以两者对黑盒攻击的鲁棒性差距最大为目标，调整填加的新中心样本和新边缘样本，以实现对数据的增强。

优选地，利用优化后的深度聚类模型对原始数据集进行聚类时，首先利用编码器获得数据的嵌入向量，然后对嵌入向量进行聚类，并以嵌入向量对应的原始数据的聚类情况作为聚类结果。

优选地，所述根据聚类结果提取原始数据来构建中心样本集和边缘样本集包括：

针对每个聚类簇，确定聚类簇中心，并选择距离聚类簇中心最近的多个数据作为中心样本，这些中心样本与聚类中心组成中心样本集；

针对两个聚类簇，确定其中一个聚类簇中心，并从另外一个聚类簇中选择距离聚类簇中心最近的多个数据作为两个聚类簇的边缘样本，组成边缘样本集。

优选地，针对每个类对应的中心样本集和边缘样本集分别采用生成式对抗网络生成新中心样本和新边缘样本。

优选地，构建增强数据集时，每次从生成式对抗网络生成新中心样本和新边缘样本中选择15～25％样本添加到原始数据集得到增强数据集。

优选地，聚类过程中增加的黑盒攻击的目标是通过在两个聚类簇之间的边缘样本上增加扰动以使应该分为原类别的样本分到了非原类别的其他类别，增加扰动时采用马氏深度限定扰动的大小。

优选地，以公式(1)表示的被黑盒攻击前后的聚类结果的差距作为攻击效果的指标δ：

δ＝-||YY^T-Y'Y'^T||_F

其中，Y表示原始聚类结果，Y'表示被黑盒攻击后的聚类结果，上标T表示转置，||·||_F表示范数；

以攻击效果的指标δ最大为目标函数，修改边缘样本的扰动，尽可能的使样本聚类错误，以此来评估数据集的鲁棒性。

优选地，所述数据增强方法用于医学影像数据的增强，即所述原始数据集为医学影像数据。

第二方面，一种深度聚类的模型数据增强装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，所述计算机处理器执行所述计算机程序时实现上述基于深度聚类的数据增强方法。

与现有技术相比，本发明具有的有益效果至少包括：

通过深度聚类模型挑选出中心样本和边缘样本，使用对抗式生成网络生成同分布的新中心样本和新边缘样本，再将新样本加入数据集中实现数据增强，使得类簇的中心和边缘更加明确，使得聚类的鲁棒性大大增强，为下游应用的效果奠定了基础。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是本发明实施例提供的基于深度聚类的数据增强方法的流程图；

图2是本发明实施例提供的DEC深度聚类模型的结构示意图；

图3是本发明实施例提供的GAN的结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

在使用深度聚类模型进行数据聚类时，由于类簇的边缘模糊问题，容易受到攻击的影响，导致聚类的效果大幅度下降，因此实施例中对数据进行增强，利用增强的数据集可以优化深度聚类模型，防止深度聚类模型被攻击，以提升深度聚类模型的鲁棒性，提高聚类结果的准确性。

图1是本发明实施例提供的深度聚类模型的数据增强方法的流程图，如图1所示，实施例提供的深度聚类模型的数据增强方法包括以下步骤：

步骤1，获取原始数据集，采用原始数据集优化深度聚类模型参数，同时获得利用优化后的深度聚类模型对原始数据集的聚类结果。

实施例中，原始数据集可以是任意一种类型的数据集，可以是图像数据集，如医学影像数据集，可以是信号数据集，如通信信号或者语音信号或者调制信号等。

针对有n个样本的原始数据集X，每个样本是一个d维向量。以如图2所示的深度聚类算法DEC为例对深度聚类模型进行说明。首先使用栈式降噪自编码对数据进行预训练，然后移除解码层，对整个网络使用相对熵作为损失函数进行微调，调整网络参数的同时实现聚类。相对熵的定义为：

相对熵描述两个概率分布P和Q的差异，其中，P表示真实分布，也就是目标分布，Q表示P的拟合分布，q_ij表示原始空间经过非线性映射到潜在特征空间的嵌入向量z_i和聚类中心向量

的相似性，也即拟合分布Q的表示，其计算公式为：

其中α是t分布的自由度，通常取1。q_ij表达了样本x_i属于类簇j的概率。目标分布P的定义为：

可以看出目标分布P是由拟合分布Q来定义的，这是DEC算法的核心，最小化KL是一种自训练。整个过程即为先使用整个网络进行预训练，得到原始数据映射到特征空间的数据表示。然后将得到的特征向量使用k-means算法获得聚类结果。再依据聚类结果使用相对熵迭代微调网络，直至满足收敛判定准则。最终x_i所属类簇就是使得q_ij最大的类簇中心点

步骤2，根据聚类结果提取原始数据来构建中心样本集和边缘样本集。

实施例中，根据聚类结果找到各个聚类簇的中心样本

和边缘样本x～，然后构成中心样本数据集

和边缘样本数据集

每个类簇都有分别对应的中心样本集和边缘样本集。

针对每个聚类簇，确定聚类簇中心，并选择距离聚类簇中心最近的m个数据作为中心样本，这些中心样本与聚类中心组成中心样本集；其中，距离使用欧氏距离d(z_i,z_j)进行度量：

其中，s为嵌入向量的维数，k为维数的索引，z_i,z_j分别表示第i个数据样本的嵌入向量和第j个聚类簇中心的嵌入向量。

边缘样本的选取则通过两两类簇分别进行。针对两个聚类簇，确定其中一个聚类簇中心，并从另外一个聚类簇中选择距离聚类簇中心最近的多个数据作为两个聚类簇的边缘样本，组成边缘样本集。

具体过程为：首先确定需要求边缘样本的聚类簇a，确定聚类簇b的中心：

其中，边缘样本则为x_t，根据嵌入向量确定：

需要注意的是，这里选取标准的计算是使用嵌入向量的，但是实际构成集合的向量为嵌入向量对应的样本数据。

步骤3，基于中心样本集和边缘样本集，采用生成式对抗网络生成新中心样本和新边缘样本。

具体过程为：(3-1)搭建如图3所示的生成式对抗网络结构。GAN由两部分组成：生成器G和判别器D。由于处理的数据为图像数据，采用卷积神经网络来构建G和D。生成式对抗网络采用博弈论中零和博弈的思想，使得生成网络在和判别网络的不断博弈过程中，趋向于完美。需要保证判别器和生成器的网络结构复杂度相似，这不仅确保了二者在训练过程中的动态平衡，还能使得整体结构更快趋向最终的平衡点。

(3-2)初始化鉴别器参数θ_d，生成器参数θ_g。

(3-3)训练鉴别器。从所需要生成类似样本的数据集(中心样本集或边缘样本集)中挑选s个样本，s为超参数，需要根据实际情况进行调整。从高斯分布中采样出s个向量{y¹,y²,…,y^s}。将这些向量作为输入，获得s个生成的数据

更新鉴别器的参数θ_d来最大化目标函数：

θ_d←θ_d+η▽V₁(θ_d)

其中η是超参数，决定参数更新的步长，通常鉴别器的参数可以多更新几次。

(3-4)训练生成器。与步骤(3-3)中一样，从一个高斯分布中抽样出s个向量，但是这些向量可以不跟步骤(3-3)中的保持一致。

更新生成器的参数θ_g来最小化目标函数V₂:

θ_g←θ_g-η▽V₂(θ_g)

通常在训练生成器的时候，参数不能变化太大，可以少更新几次。

(3-5)重复迭代更新，即重新进行(3-3)和(3-4)的更新操作，固定生成器，更新鉴别器的参数，然后固定鉴别器，更新生成器的参数。

(3-6)查看迭代过程中生成图片的质量，接近原图片则停止训练，将训练好的生成器G取出生成的新中心样本和新边缘样本。

实施例中，针对每个类对应的中心样本集和边缘样本集分别采用生成式对抗网络生成新中心样本和新边缘样本。

步骤4，将部分新中心样本和部分新边缘样本添加到原始数据集中，获得增强数据集。

实施例中，将步骤3生成的新中心样本和新边缘样本添加到原始数据集中，得到增强数据集X'，由于中心样本和边缘样本并不是数据的主体部分，因此，这里设定加入的样本数量为原数据集数量的20％，即每次从生成式对抗网络生成新中心样本和新边缘样本中选择20％样本添加到原始数据集得到增强数据集。

步骤5，利用优化后的深度聚类模型对增强数据集进行聚类，对原始数据集和增强数据集进行黑盒攻击，以两者对黑盒攻击的鲁棒性差距最大为目标，调整填加的新中心样本和新边缘样本，以实现对数据的增强。

在获得增强数据集时，先利用优化后的深度聚类模型对增强数据集进行聚类，聚类过程中，使用一种针对深度聚类算法的黑盒攻击进行攻击，目的是通过在两个聚类簇之间的边缘样本上增加扰动以使应该分为a类别的样本分到了非b类别，增加扰动时采用马氏深度限定扰动的大小。增加后扰动后的数据集变为Z”，针对数据集Z”的聚类结果为Y'。实施例中，使用数据集被黑盒攻击的聚类结果与原始数据集聚类结果的差距指标δ作为攻击效果的指标：

δ＝-||YY^T-Y'Y'^T||_F

其中，Y表示原始数据集聚类结果，Y'表示被黑盒攻击的聚类结果，上标T表示转置，||·||_F表示范数，可以是一范数，也可以是二范数。

使用上述该攻击方法在原数据集和增强数据集上分别进行攻击，这里对所有的类簇对都进行攻击，取攻击前后类簇改变的样本总数作为评价指标，判定两个数据集之间的鲁棒性差异，根据鲁棒性差异判定是否重新添加样本，调整填加的新中心样本和新边缘样本，以实现对数据的增强。

实施例还提供了一种深度聚类模型的数据增强装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，计算机处理器执行计算机程序时实现上述基于深度聚类的数据增强方法。

实际应用中，计算机存储器可以为在近端的易失性存储器，如RAM，还可以是非易失性存储器，如ROM，FLASH，软盘，机械硬盘等，还可以是远端的存储云。计算机处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA)，即可以通过这些处理器实现基于深度聚类的数据增强方法步骤。

实施例提供的深度聚类模型的数据增强方法和装置，通过深度聚类模型挑选出中心样本和边缘样本，使用GAN生成同分布的新中心样本和新边缘样本，再将新样本加入数据集中实现数据增强，使得类簇的中心和边缘更加明确，使得聚类的鲁棒性大大增强，为下游应用的效果奠定了基础。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种深度聚类模型的数据增强方法，其特征在于，包括以下步骤：

利用优化后的深度聚类模型对增强数据集进行聚类，对原始数据集和增强数据集进行黑盒攻击，以两者对黑盒攻击的鲁棒性差距最大为目标，调整填加的新中心样本和新边缘样本，以实现对数据的增强。

2.如权利要求1所述的深度聚类模型的数据增强方法，其特征在于，利用优化后的深度聚类模型对原始数据集进行聚类时，首先利用编码器获得数据的嵌入向量，然后对嵌入向量进行聚类，并以嵌入向量对应的原始数据的聚类情况作为聚类结果。

3.如权利要求1所述的深度聚类模型的数据增强方法，其特征在于，所述根据聚类结果提取原始数据来构建中心样本集和边缘样本集包括：

4.如权利要求1所述的深度聚类模型的数据增强方法，其特征在于，针对每个类对应的中心样本集和边缘样本集分别采用生成式对抗网络生成新中心样本和新边缘样本。

5.如权利要求1所述的深度聚类模型的数据增强方法，其特征在于，构建增强数据集时，每次从生成式对抗网络生成新中心样本和新边缘样本中选择15～25％样本添加到原始数据集得到增强数据集。

6.如权利要求1所述的深度聚类模型的数据增强方法，其特征在于，聚类过程中使用的黑盒攻击的目标是通过在两个聚类簇之间的边缘样本上增加扰动以使应该分为原类别的样本分到了非原类别的其他类别，增加扰动时采用马氏深度限定扰动的大小。

7.如权利要求1所述的深度聚类模型的数据增强方法，其特征在于，以公式(1)表示的被攻击前后聚类结果的差距作为攻击效果的指标δ：

δ＝-||YY^T-Y'Y'^T||_F

其中，Y表示原始聚类结果，Y'表示被黑盒攻击的聚类结果，上标T表示转置，||·||_F表示范数；

8.如权利要求1所述的深度聚类模型的数据增强方法，其特征在于，所述数据增强方法用于医学影像数据的增强，即所述原始数据集为医学影像数据。

9.一种深度聚类模型的数据增强装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，其特征在于，所述计算机处理器执行所述计算机程序时实现权利要求1～8任一项所述深度聚类模型的数据增强方法。