CN112818152A - 一种深度聚类模型的数据增强方法和装置 - Google Patents
一种深度聚类模型的数据增强方法和装置 Download PDFInfo
- Publication number
- CN112818152A CN112818152A CN202110265436.3A CN202110265436A CN112818152A CN 112818152 A CN112818152 A CN 112818152A CN 202110265436 A CN202110265436 A CN 202110265436A CN 112818152 A CN112818152 A CN 112818152A
- Authority
- CN
- China
- Prior art keywords
- clustering
- data set
- data
- center
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Abstract
本发明公开了一种深度聚类模型的数据增强方法和装置,包括:获取原始数据集,并采用原始数据集优化深度聚类模型参数,同时获得利用优化后的深度聚类模型对原始数据集的聚类结果;根据聚类结果提取原始数据来构建中心样本集和边缘样本集;基于中心样本集和边缘样本集,采用生成式对抗网络生成新中心样本和新边缘样本,同时将部分新中心样本和部分新边缘样本添加到原始数据集中,获得增强数据集;利用优化后的深度聚类模型对增强数据集进行聚类,对原始数据集和增强数据集进行黑盒攻击,以两者对黑盒攻击的鲁棒性差距最大为目标,调整填加的新中心样本和新边缘样本,以实现对数据的增强。
Description
技术领域
本发明属于人工智能领域,尤其涉及一种深度聚类模型的数据增强方法和装置。
背景技术
随着计算和各种智能设备的飞速发展,大数据成为当今社会的必然产物。如何从大数据中尽可能地发现隐藏的知识和规律,是亟待解决的问题和任务。
聚类是指根据样本的相似程度,将数据集样本划分为若干类簇,相似度高的样本位于同一类簇,相似度低的样本处在不同类簇。深度聚类是将深度学习和聚类相结合的方法,在图像识别领域表现出明显优势。
分类和聚类是数据挖掘中广泛采用的两种技术。就医学图像而言,如果获取了大量图像及相应的诊断结果,以诊断结果作为类标识,准确地描述图像特征与其对应疾病的关系模型,便可以根据这些模型对新的图像进行分类。同样,根据图像的特征,将特征相似的图像聚类,也将有助于疾病的诊断。
然而近期的研究表明,不管是深度学习还是聚类算法,都容易受到攻击,使得模型性能严重下降。在深度聚类算法中,更容易受到攻击的是聚类部分,仅仅是在两个类簇的边界的一个样本上添加扰动就可以使得聚类效果严重下降,即使未加扰动的样本聚类到另一个类簇,与原始的聚类结果相违背,因此需要进行鲁棒性增强来保证模型在面对攻击时保持良好的性能。这样在医学影像这种安全性要求比较严格的场景中才能更好的应用。
数据增强是模型鲁棒性增强的一种方法,数据增强包含一系列用来生成新训练样本的技术。在数据集中添加这些生成的样本,目标是增加模型的泛化性能。鉴于模型持续不断看到新的、稍微修改过的输入数据点,它能够具有更强的鲁棒性。对于深度聚类模型而言,就需要设计一些样本使得类簇之间区分更加明显。类簇中比较关键的就是它的中心样本与边缘样本。
综上所述,如何生成中心样本和边缘样本进行数据增强,使得使用增强数据训练的模型具有更强的泛化能力和鲁棒性,对深度聚类模型应用到医学影像聚类的领域中具有重要的理论和实践意义。
发明内容
基于上述,本发明的目的是提供了一种深度聚类模型的数据增强方法和装置,利用生成式对抗网络(GAN)基于原始数据生成具有相同分布的中心样本和边缘样本,将这些样本加入到原始数据集中,通过黑盒攻击筛选增加的中心样本和边缘样本,实现对数据增强。
为实现上述发明目的,本发明提供以下技术方案:
第一方面,一种深度聚类模型的医学影像聚类数据增强方法,包括以下步骤:
获取原始数据集,并采用原始数据集优化深度聚类模型参数,同时获得利用优化后的深度聚类模型对原始数据集的聚类结果;
根据聚类结果提取原始数据来构建中心样本集和边缘样本集;
基于中心样本集和边缘样本集,采用生成式对抗网络生成新中心样本和新边缘样本,同时将部分新中心样本和部分新边缘样本添加到原始数据集中,获得增强数据集;
利用优化后的深度聚类模型对增强数据集进行聚类,聚类过程中增加黑盒攻击,对原始数据集和增强数据集进行黑盒攻击,以两者对黑盒攻击的鲁棒性差距最大为目标,调整填加的新中心样本和新边缘样本,以实现对数据的增强。
优选地,利用优化后的深度聚类模型对原始数据集进行聚类时,首先利用编码器获得数据的嵌入向量,然后对嵌入向量进行聚类,并以嵌入向量对应的原始数据的聚类情况作为聚类结果。
优选地,所述根据聚类结果提取原始数据来构建中心样本集和边缘样本集包括:
针对每个聚类簇,确定聚类簇中心,并选择距离聚类簇中心最近的多个数据作为中心样本,这些中心样本与聚类中心组成中心样本集;
针对两个聚类簇,确定其中一个聚类簇中心,并从另外一个聚类簇中选择距离聚类簇中心最近的多个数据作为两个聚类簇的边缘样本,组成边缘样本集。
优选地,针对每个类对应的中心样本集和边缘样本集分别采用生成式对抗网络生成新中心样本和新边缘样本。
优选地,构建增强数据集时,每次从生成式对抗网络生成新中心样本和新边缘样本中选择15~25%样本添加到原始数据集得到增强数据集。
优选地,聚类过程中增加的黑盒攻击的目标是通过在两个聚类簇之间的边缘样本上增加扰动以使应该分为原类别的样本分到了非原类别的其他类别,增加扰动时采用马氏深度限定扰动的大小。
优选地,以公式(1)表示的被黑盒攻击前后的聚类结果的差距作为攻击效果的指标δ:
δ=-||YYT-Y'Y'T||F
其中,Y表示原始聚类结果,Y'表示被黑盒攻击后的聚类结果,上标T表示转置,||·||F表示范数;
以攻击效果的指标δ最大为目标函数,修改边缘样本的扰动,尽可能的使样本聚类错误,以此来评估数据集的鲁棒性。
优选地,所述数据增强方法用于医学影像数据的增强,即所述原始数据集为医学影像数据。
第二方面,一种深度聚类的模型数据增强装置,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,所述计算机处理器执行所述计算机程序时实现上述基于深度聚类的数据增强方法。
与现有技术相比,本发明具有的有益效果至少包括:
通过深度聚类模型挑选出中心样本和边缘样本,使用对抗式生成网络生成同分布的新中心样本和新边缘样本,再将新样本加入数据集中实现数据增强,使得类簇的中心和边缘更加明确,使得聚类的鲁棒性大大增强,为下游应用的效果奠定了基础。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是本发明实施例提供的基于深度聚类的数据增强方法的流程图;
图2是本发明实施例提供的DEC深度聚类模型的结构示意图;
图3是本发明实施例提供的GAN的结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
在使用深度聚类模型进行数据聚类时,由于类簇的边缘模糊问题,容易受到攻击的影响,导致聚类的效果大幅度下降,因此实施例中对数据进行增强,利用增强的数据集可以优化深度聚类模型,防止深度聚类模型被攻击,以提升深度聚类模型的鲁棒性,提高聚类结果的准确性。
图1是本发明实施例提供的深度聚类模型的数据增强方法的流程图,如图1所示,实施例提供的深度聚类模型的数据增强方法包括以下步骤:
步骤1,获取原始数据集,采用原始数据集优化深度聚类模型参数,同时获得利用优化后的深度聚类模型对原始数据集的聚类结果。
实施例中,原始数据集可以是任意一种类型的数据集,可以是图像数据集,如医学影像数据集,可以是信号数据集,如通信信号或者语音信号或者调制信号等。
针对有n个样本的原始数据集X,每个样本是一个d维向量。以如图2所示的深度聚类算法DEC为例对深度聚类模型进行说明。首先使用栈式降噪自编码对数据进行预训练,然后移除解码层,对整个网络使用相对熵作为损失函数进行微调,调整网络参数的同时实现聚类。相对熵的定义为:
相对熵描述两个概率分布P和Q的差异,其中,P表示真实分布,也就是目标分布,Q表示P的拟合分布,qij表示原始空间经过非线性映射到潜在特征空间的嵌入向量zi和聚类中心向量的相似性,也即拟合分布Q的表示,其计算公式为:
其中α是t分布的自由度,通常取1。qij表达了样本xi属于类簇j的概率。目标分布P的定义为:
可以看出目标分布P是由拟合分布Q来定义的,这是DEC算法的核心,最小化KL是一种自训练。整个过程即为先使用整个网络进行预训练,得到原始数据映射到特征空间的数据表示。然后将得到的特征向量使用k-means算法获得聚类结果。再依据聚类结果使用相对熵迭代微调网络,直至满足收敛判定准则。最终xi所属类簇就是使得qij最大的类簇中心点
步骤2,根据聚类结果提取原始数据来构建中心样本集和边缘样本集。
针对每个聚类簇,确定聚类簇中心,并选择距离聚类簇中心最近的m个数据作为中心样本,这些中心样本与聚类中心组成中心样本集;其中,距离使用欧氏距离d(zi,zj)进行度量:
其中,s为嵌入向量的维数,k为维数的索引,zi,zj分别表示第i个数据样本的嵌入向量和第j个聚类簇中心的嵌入向量。
边缘样本的选取则通过两两类簇分别进行。针对两个聚类簇,确定其中一个聚类簇中心,并从另外一个聚类簇中选择距离聚类簇中心最近的多个数据作为两个聚类簇的边缘样本,组成边缘样本集。
具体过程为:首先确定需要求边缘样本的聚类簇a,确定聚类簇b的中心:
其中,边缘样本则为xt,根据嵌入向量确定:
需要注意的是,这里选取标准的计算是使用嵌入向量的,但是实际构成集合的向量为嵌入向量对应的样本数据。
步骤3,基于中心样本集和边缘样本集,采用生成式对抗网络生成新中心样本和新边缘样本。
具体过程为:(3-1)搭建如图3所示的生成式对抗网络结构。GAN由两部分组成:生成器G和判别器D。由于处理的数据为图像数据,采用卷积神经网络来构建G和D。生成式对抗网络采用博弈论中零和博弈的思想,使得生成网络在和判别网络的不断博弈过程中,趋向于完美。需要保证判别器和生成器的网络结构复杂度相似,这不仅确保了二者在训练过程中的动态平衡,还能使得整体结构更快趋向最终的平衡点。
(3-2)初始化鉴别器参数θd,生成器参数θg。
(3-3)训练鉴别器。从所需要生成类似样本的数据集(中心样本集或边缘样本集)中挑选s个样本,s为超参数,需要根据实际情况进行调整。从高斯分布中采样出s个向量{y1,y2,…,ys}。将这些向量作为输入,获得s个生成的数据
更新鉴别器的参数θd来最大化目标函数:
θd←θd+η▽V1(θd)
其中η是超参数,决定参数更新的步长,通常鉴别器的参数可以多更新几次。
(3-4)训练生成器。与步骤(3-3)中一样,从一个高斯分布中抽样出s个向量,但是这些向量可以不跟步骤(3-3)中的保持一致。
更新生成器的参数θg来最小化目标函数V2:
θg←θg-η▽V2(θg)
通常在训练生成器的时候,参数不能变化太大,可以少更新几次。
(3-5)重复迭代更新,即重新进行(3-3)和(3-4)的更新操作,固定生成器,更新鉴别器的参数,然后固定鉴别器,更新生成器的参数。
(3-6)查看迭代过程中生成图片的质量,接近原图片则停止训练,将训练好的生成器G取出生成的新中心样本和新边缘样本。
实施例中,针对每个类对应的中心样本集和边缘样本集分别采用生成式对抗网络生成新中心样本和新边缘样本。
步骤4,将部分新中心样本和部分新边缘样本添加到原始数据集中,获得增强数据集。
实施例中,将步骤3生成的新中心样本和新边缘样本添加到原始数据集中,得到增强数据集X',由于中心样本和边缘样本并不是数据的主体部分,因此,这里设定加入的样本数量为原数据集数量的20%,即每次从生成式对抗网络生成新中心样本和新边缘样本中选择20%样本添加到原始数据集得到增强数据集。
步骤5,利用优化后的深度聚类模型对增强数据集进行聚类,对原始数据集和增强数据集进行黑盒攻击,以两者对黑盒攻击的鲁棒性差距最大为目标,调整填加的新中心样本和新边缘样本,以实现对数据的增强。
在获得增强数据集时,先利用优化后的深度聚类模型对增强数据集进行聚类,聚类过程中,使用一种针对深度聚类算法的黑盒攻击进行攻击,目的是通过在两个聚类簇之间的边缘样本上增加扰动以使应该分为a类别的样本分到了非b类别,增加扰动时采用马氏深度限定扰动的大小。增加后扰动后的数据集变为Z”,针对数据集Z”的聚类结果为Y'。实施例中,使用数据集被黑盒攻击的聚类结果与原始数据集聚类结果的差距指标δ作为攻击效果的指标:
δ=-||YYT-Y'Y'T||F
其中,Y表示原始数据集聚类结果,Y'表示被黑盒攻击的聚类结果,上标T表示转置,||·||F表示范数,可以是一范数,也可以是二范数。
使用上述该攻击方法在原数据集和增强数据集上分别进行攻击,这里对所有的类簇对都进行攻击,取攻击前后类簇改变的样本总数作为评价指标,判定两个数据集之间的鲁棒性差异,根据鲁棒性差异判定是否重新添加样本,调整填加的新中心样本和新边缘样本,以实现对数据的增强。
实施例还提供了一种深度聚类模型的数据增强装置,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,计算机处理器执行计算机程序时实现上述基于深度聚类的数据增强方法。
实际应用中,计算机存储器可以为在近端的易失性存储器,如RAM,还可以是非易失性存储器,如ROM,FLASH,软盘,机械硬盘等,还可以是远端的存储云。计算机处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA),即可以通过这些处理器实现基于深度聚类的数据增强方法步骤。
实施例提供的深度聚类模型的数据增强方法和装置,通过深度聚类模型挑选出中心样本和边缘样本,使用GAN生成同分布的新中心样本和新边缘样本,再将新样本加入数据集中实现数据增强,使得类簇的中心和边缘更加明确,使得聚类的鲁棒性大大增强,为下游应用的效果奠定了基础。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种深度聚类模型的数据增强方法,其特征在于,包括以下步骤:
获取原始数据集,并采用原始数据集优化深度聚类模型参数,同时获得利用优化后的深度聚类模型对原始数据集的聚类结果;
根据聚类结果提取原始数据来构建中心样本集和边缘样本集;
基于中心样本集和边缘样本集,采用生成式对抗网络生成新中心样本和新边缘样本,同时将部分新中心样本和部分新边缘样本添加到原始数据集中,获得增强数据集;
利用优化后的深度聚类模型对增强数据集进行聚类,对原始数据集和增强数据集进行黑盒攻击,以两者对黑盒攻击的鲁棒性差距最大为目标,调整填加的新中心样本和新边缘样本,以实现对数据的增强。
2.如权利要求1所述的深度聚类模型的数据增强方法,其特征在于,利用优化后的深度聚类模型对原始数据集进行聚类时,首先利用编码器获得数据的嵌入向量,然后对嵌入向量进行聚类,并以嵌入向量对应的原始数据的聚类情况作为聚类结果。
3.如权利要求1所述的深度聚类模型的数据增强方法,其特征在于,所述根据聚类结果提取原始数据来构建中心样本集和边缘样本集包括:
针对每个聚类簇,确定聚类簇中心,并选择距离聚类簇中心最近的多个数据作为中心样本,这些中心样本与聚类中心组成中心样本集;
针对两个聚类簇,确定其中一个聚类簇中心,并从另外一个聚类簇中选择距离聚类簇中心最近的多个数据作为两个聚类簇的边缘样本,组成边缘样本集。
4.如权利要求1所述的深度聚类模型的数据增强方法,其特征在于,针对每个类对应的中心样本集和边缘样本集分别采用生成式对抗网络生成新中心样本和新边缘样本。
5.如权利要求1所述的深度聚类模型的数据增强方法,其特征在于,构建增强数据集时,每次从生成式对抗网络生成新中心样本和新边缘样本中选择15~25%样本添加到原始数据集得到增强数据集。
6.如权利要求1所述的深度聚类模型的数据增强方法,其特征在于,聚类过程中使用的黑盒攻击的目标是通过在两个聚类簇之间的边缘样本上增加扰动以使应该分为原类别的样本分到了非原类别的其他类别,增加扰动时采用马氏深度限定扰动的大小。
7.如权利要求1所述的深度聚类模型的数据增强方法,其特征在于,以公式(1)表示的被攻击前后聚类结果的差距作为攻击效果的指标δ:
δ=-||YYT-Y'Y'T||F
其中,Y表示原始聚类结果,Y'表示被黑盒攻击的聚类结果,上标T表示转置,||·||F表示范数;
以攻击效果的指标δ最大为目标函数,修改边缘样本的扰动,尽可能的使样本聚类错误,以此来评估数据集的鲁棒性。
8.如权利要求1所述的深度聚类模型的数据增强方法,其特征在于,所述数据增强方法用于医学影像数据的增强,即所述原始数据集为医学影像数据。
9.一种深度聚类模型的数据增强装置,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,其特征在于,所述计算机处理器执行所述计算机程序时实现权利要求1~8任一项所述深度聚类模型的数据增强方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110265436.3A CN112818152A (zh) | 2021-03-11 | 2021-03-11 | 一种深度聚类模型的数据增强方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110265436.3A CN112818152A (zh) | 2021-03-11 | 2021-03-11 | 一种深度聚类模型的数据增强方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112818152A true CN112818152A (zh) | 2021-05-18 |
Family
ID=75863142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110265436.3A Pending CN112818152A (zh) | 2021-03-11 | 2021-03-11 | 一种深度聚类模型的数据增强方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112818152A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113947706A (zh) * | 2021-12-20 | 2022-01-18 | 四川师范大学 | 一种基于生成对抗网络的图像多样性增强方法与系统 |
-
2021
- 2021-03-11 CN CN202110265436.3A patent/CN112818152A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113947706A (zh) * | 2021-12-20 | 2022-01-18 | 四川师范大学 | 一种基于生成对抗网络的图像多样性增强方法与系统 |
CN113947706B (zh) * | 2021-12-20 | 2022-06-28 | 四川师范大学 | 一种基于生成对抗网络的图像多样性增强方法与系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113326731B (zh) | 一种基于动量网络指导的跨域行人重识别方法 | |
CN110516533B (zh) | 一种基于深度度量的行人再辨识方法 | |
CN110222747B (zh) | 一种优化的聚类方法 | |
CN112464004A (zh) | 一种多视角深度生成图像聚类方法 | |
CN113076970A (zh) | 一种缺失条件下的高斯混合模型聚类机器学习方法 | |
CN109871855B (zh) | 一种自适应的深度多核学习方法 | |
CN109840518B (zh) | 一种结合分类与域适应的视觉追踪方法 | |
CN108845974A (zh) | 采用最小最大概率机的分离概率的有监督线性降维方法 | |
CN113850281A (zh) | 一种基于meanshift优化的数据处理方法和装置 | |
Yu et al. | Dynamic background subtraction using histograms based on fuzzy c-means clustering and fuzzy nearness degree | |
CN113364751A (zh) | 网络攻击预测方法、计算机可读存储介质及电子设备 | |
Reddy et al. | A hybrid K-means algorithm improving low-density map-based medical image segmentation with density modification | |
CN115565019A (zh) | 基于深度自监督生成对抗的单通道高分辨sar图像地物分类方法 | |
Zhang et al. | Improvement of K-means algorithm based on density | |
CN115952067A (zh) | 一种数据库操作异常行为检测方法及可读存储介质 | |
CN103824285B (zh) | 一种基于蝙蝠优化模糊聚类的图像分割方法 | |
CN112818152A (zh) | 一种深度聚类模型的数据增强方法和装置 | |
CN113378620B (zh) | 监控视频噪声环境下跨摄像头行人重识别方法 | |
CN111191742A (zh) | 一种用于多源异构数据流的滑动窗口长度自适应调整方法 | |
CN116405100B (zh) | 一种基于先验知识的失真信号还原方法 | |
CN111239685A (zh) | 基于均匀设计和自组织特征映射神经网络的声源定位方法 | |
CN111401440A (zh) | 目标分类识别方法、装置、计算机设备及存储介质 | |
CN111639680A (zh) | 一种基于专家反馈机制的身份识别方法 | |
CN116543259A (zh) | 一种深度分类网络噪声标签建模与纠正方法、系统及存储介质 | |
CN116012632A (zh) | 一种基于局部线性嵌入的特征一致性多视角聚类算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210518 |
|
RJ01 | Rejection of invention patent application after publication |