CN115147632A - 基于密度峰值聚类算法的图像类别自动标注方法及装置 - Google Patents
基于密度峰值聚类算法的图像类别自动标注方法及装置 Download PDFInfo
- Publication number
- CN115147632A CN115147632A CN202210800775.1A CN202210800775A CN115147632A CN 115147632 A CN115147632 A CN 115147632A CN 202210800775 A CN202210800775 A CN 202210800775A CN 115147632 A CN115147632 A CN 115147632A
- Authority
- CN
- China
- Prior art keywords
- image data
- clustering
- feature vector
- training
- encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于密度峰值聚类算法的图像类别自动标注方法及装置,包括卷积自编码器模型训练和卷积编码器‑聚类联合训练,将待标注的图像数据集输入到模型训练卷积自编码器模块,然后取出训练好的卷积编码器模块,将图像数据降维到低维特征向量空间;将低维特征向量输入到卷积编码器‑聚类联合训练模块,在特征向量空间使用密度峰值聚类方法选择候选聚类中心并找到高置信度数据集合,将高置信度数据集合类别作为真实标签训练卷积编码器模块,得到可信度高的聚类结果,最后用特征向量类别对输入的无标签图像数据进行类别标注。本发明可对无标签图像数据实现自动类别标注,解决了当前人工标注类别耗时长、成本高、准确率低、效率差的问题。
Description
技术领域
本发明涉及聚类分析技术领域,特别涉及一种基于密度峰值聚类算法的图像类别自动标注方法及装置。
背景技术
在传统的基于密度聚类方法中,密度峰值聚类方法是一种简单且高效的算法,其易于执行且扩展性高,被广泛应用到各类任务中。基于密度的聚类方法通过适当的密度函数计算数据点的局部密度,并以此为依据找到数据点之间的关联,对数据点进行聚类。在图像聚类领域,传统聚类方法通常是先将图像数据降维成低级图像特征表示编码,对特征表示编码聚类。最近的深度聚类方法将深度学习应用到聚类领域,将特征学习与聚类结合到同一个模型中,使用自编码器或其他网络学习图像的信息表示,然后使用传统聚类方法对学习到的信息表示进行聚类。
对于现有的密度峰值聚类方法,其存在密度度量不合理、人工选取聚类中心、参数敏感性等问题。由于基于范式距离的度量方式无法计算图片数据之间的相似度,在处理图像数据时会放大算法的缺陷,加之CPU内存、运算时间等计算资源的限制,传统聚类方法很难直接应用到大规模图片数据集。有的传统聚类方法会使用降维方法获得图像的低级特征对其聚类,但是这类低级特征表示容易受到图片场景变化和对象外观变化的影响,旋转、亮度变化等图像变换也会对特征学习产生较大影响。很多研究方法使用深度无监督特征学习方法学习图像的特征表示,但是大多数深度学习方法将特征学习与聚类任务分步进行,其学习的特征虽然能够重构输入数据,但是无法直接应用到聚类算法中获得聚类结果。此外,这些方法直接对特征使用K-means算法聚类,会导致聚类部分收敛速度慢、时间复杂度高,并且只能保证局部最优,并且特征提取与聚类分离的方法,很难让网络模型学习到最优的特征表示,影响最终聚类效果。
发明内容
本发明针对上述问题,提供了一种基于密度峰值聚类算法的图像类别自动标注方法及装置,用以对无标签的图像数据实现自动类别标注,解决了当前人工标注图片方法类别耗时长、成本高、准确率低、效率差的问题。
本发明的第一方面,提供了一种基于密度峰值聚类算法的图像类别自动标注方法,所述方法包括:
获取待标注类别的无标签图像数据集;
将无标签图像数据集输入到卷积自编码器模型进行训练,具体过程包括:利用卷积自编码器模型中的卷积编码器模块将输入的无标签图像数据降维压缩到低维特征向量,然后由卷积解码器模块将低维特征向量进行图像恢复得到重构图像数据,计算输入无标签图像数据与重构图像数据之间的重构损失,当重构损失小于给定阈值即确定卷积自编码器模型训练截止;
保留训练好的卷积自编码器模型中的卷积编码器模块,利用卷积编码器模块获取无标签图像数据集的低维特征向量集合;
将低维特征向量集合输入到卷积编码器-聚类联合训练模块进行联合训练,具体过程包括:利用密度峰值聚类方法计算低维特征向量集合中特征向量点的局部密度和距高密度点距离,并将特征向量点的局部密度和距高密度点距离相乘得到特征向量的伽马值;对低维特征向量集合中所有特征向量的伽马值进行降序排序,将前m个特征向量点选为候选聚类中心,得到候选聚类中心集合;计算剩余特征向量点到每个候选聚类中心的距离,得到m维距离向量;将m维距离向量中每个分量取倒数并归一化得到的m维类别分配置信度向量,取m维类别分配置信度向量中值最大的分量所在列作为特征向量点的真实类别标签,得到类别分配置信度向量的聚类结果,将真实类别标签作为有标签训练卷积编码器模块;用训练过的卷积编码器模块更新剩余特征向量点的置信度向量矩阵直到前后两轮聚类结果的KL散度值小于给定阈值,训练结束;
将训练结束后得到的聚类结果作为最终的聚类结果,用最终的聚类结果标注输入的无标签图像,得到最终的标注图像数据集。
本发明的进一步技术方案是:在将无标签图像数据集输入到卷积自编码器模型进行训练前,先对输入的无标签图像数据进行数据增强并添加随机高斯噪声。
本发明的进一步技术方案是:计算输入无标签图像数据与重构图像数据之间的重构损失,具体表达式为:
其中,n表示输入无标签图像数据集的大小,Xi表示输入的无标签图像数据样本,表示Xi经过卷积编码器模块和卷积解码器模块得到的重构图像数据,φ表示卷积编码器模块的参数,θ表示卷积解码器模块的参数,fφ表示卷积编码器模块实现的从输入无标签图像数据到特征向量的映射,gθ表示卷积解码器模块实现的从特征向量到重构图像数据的映射,Lrec表示整个卷积自编码器模型的重构损失。
本发明的进一步技术方案是:利用密度峰值聚类方法计算低维特征向量集合中特征向量点的局部密度和距高密度点距离,具体方法包括:
计算每个特征向量点到其k个近邻的距离,计算k近邻距离的均值μ和标准差σ;
其中d(x,xi)表示特征向量点x到其k近邻xi的欧式距离;
根据拉伊达准则计算得到一个上限θ=μ+3σ,遍历k近邻距离,将大于上限θ的近邻移除,得到新的k近邻集合,根据更新后的k近邻集合计算数据点的局部密度ρ为:
其中更新后的k近邻集合为AKNN={xj|d(x,xj)≤d(x,xk)∧d(x,xj)≤θ=μ+3σ},x表示特征向量点,xj是x的k近邻中的一个对象,xj∈AKNN表示xj属于x的k近邻,d(x,xj)表示x与xj的欧氏距离,符号^表示条件与;
特征向量点距高密度点距离δ为:
其中ρi表示点i的局部密度,D表示全体特征向量点集合,d(xi,xj)表示xi和xj两点间的欧式距离。
本发明的第二方面,提供了一种基于密度峰值聚类算法的图像类别自动标注装置,所述装置包括:
图像获取单元,用于获取待标注类别的无标签图像数据集;
卷积自编码器模型训练单元,用于将无标签图像数据集输入到卷积自编码器模型进行训练,具体过程包括:利用卷积自编码器模型中的卷积编码器模块将输入的无标签图像数据降维压缩到低维特征向量,然后由卷积解码器模块将低维特征向量进行图像恢复得到重构图像数据,计算输入无标签图像数据与重构图像数据之间的重构损失,当重构损失小于给定阈值即确定卷积自编码器模型训练截止;
低维特征向量集合获取单元,用于保留训练好的卷积自编码器模型中的卷积编码器模块,利用卷积编码器模块获取无标签图像数据集的低维特征向量集合;
卷积编码器-聚类联合训练模块训练单元,用于将低维特征向量集合输入到卷积编码器-聚类联合训练模块进行联合训练,具体过程包括:利用密度峰值聚类方法计算低维特征向量集合中特征向量点的局部密度和距高密度点距离,并将特征向量点的局部密度和距高密度点距离相乘得到特征向量的伽马值;对低维特征向量集合中所有特征向量的伽马值进行降序排序,将前m个特征向量点选为候选聚类中心,得到候选聚类中心集合;计算剩余特征向量点到每个候选聚类中心的距离,得到m维距离向量;将m维距离向量中每个分量取倒数并归一化得到的m维类别分配置信度向量,
取m维类别分配置信度向量中值最大的分量所在列作为特征向量点的真实类别标签,得到类别分配置信度向量的聚类结果,将真实类别标签作为有标签训练卷积编码器模块;用训练过的卷积编码器模块更新剩余特征向量点的置信度向量矩阵直到前后两轮聚类结果的KL散度值小于给定阈值,训练结束;
标注图像数据集单元,用于将训练结束后得到的聚类结果作为最终的聚类结果,用类别划分结果标注输入的无标签图像,得到最终的标注图像数据集。
本发明的进一步技术方案是:卷积自编码器模型训练单元在将无标签图像数据集输入到卷积自编码器模型进行训练前,先对输入的无标签图像数据进行数据增强并添加随机高斯噪声。
本发明的第三方面,提供了一种基于密度峰值聚类算法的图像类别自动标注装置,包括:处理器;以及存储器,其中,所述存储器中存储有计算机可执行程序,当由所述处理器执行所述计算机可执行程序时,执行上述基于密度峰值聚类算法的图像类别自动标注方法。
本发明的第四方面,提供了一种计算机可读存储介质,其上存储有指令,所述指令在被处理器执行时,使得所述处理器执行上述基于密度峰值聚类算法的图像类别自动标注方法。
本发明提出一种基于密度峰值聚类算法的图像类别自动标注方法、装置及存储介质,方法主要包括卷积自编码器模型预训练模块和卷积编码器-聚类联合训练模块,将待标注的图像数据集输入到预训练模块训练卷积自编码器模块,然后取出训练好的卷积编码器模块,将图像数据降维到低维特征向量空间;将低维特征向量输入到卷积编码器-聚类联合训练模块,在特征向量空间使用密度峰值聚类方法选择候选聚类中心并找到高置信度数据集合,使用半监督聚类方法,将高置信度数据集合类别作为真实标签训练卷积编码器,最终得到可信度高的聚类结果,最后用特征向量类别对输入的无标签图像数据进行类别标注。本发明方法可以对无标签的图像数据实现自动类别标注,解决了当前人工标注图片方法类别耗时长、成本高、准确率低、效率差的问题。
附图说明
图1是本发明实施例中基于密度峰值聚类算法的图像类别自动标注方法流程示意图;
图2是本发明实施例中卷积自编码器模型训练方法示意图;
图3是本发明实施例中卷积编码器-聚类联合训练方法示意图;
图4是本发明实施例中基于密度峰值聚类算法的图像类别自动标注装置结构示意图;
图5是本发明实施例中的计算机设备的架构;
图6是本发明实施例中的特征向量分布图;
图7是本发明实施例中的MNIST数据集部分聚类结果示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅出示了与本发明相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
在本发明的描述中,“多个”“若干”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
本发明实施例针对一种基于密度峰值聚类算法的图像类别自动标注方法、装置及存储介质,提供了如下实施例:
基于本发明的实施例1
本实施例用于说明基于密度峰值聚类算法的图像类别自动标注方法中的卷积自编码器模型训练部分,如图1所示,为本发明实施例的基于密度峰值聚类算法的图像类别自动标注方法流程图:
获取待标注类别的无标签图像数据集;
将无标签图像数据集输入到卷积自编码器模型进行训练,如图2所示,为卷积自编码器模型训练过程,具体过程包括:利用卷积自编码器模型中的卷积编码器模块将输入的无标签图像数据降维压缩到低维特征向量,然后由卷积解码器模块将低维特征向量进行图像恢复得到重构图像数据,计算输入无标签图像数据与重构图像数据之间的重构损失,当重构损失小于给定阈值即确定卷积自编码器模型训练截止;
具体实施过程中,卷积神经网络使用卷积核提取图像数据的特征,通过多层卷积层堆叠的方式可以增加卷积神经网络模型提取特征的能力和获得的信息量,使用多个输出通道可以分别提取不同层次的图像信息,增强特征的表示能力。但如果简单的堆叠卷积层提取特征,无法保证网络输出的特征向量空间分布情况与原始图像数据的真实类别分布一致,进而导致后续的聚类算法在特征向量上的聚类结果不准确。一般的卷积神经网络模型的训练方法是将数据输入到网络模型中得到模型分类结果,使用损失函数计算已知类别标签与模型输出类别的误差,使用误差更新网络权重。本实施例的应用场景中,输入的数据集是无标签的,无法使用真实类别标签计算损失函数更新网络权重。因此,实施例使用自编码器结构训练卷积自编码器模型,使用“编码器-解码器”的网络结构,避免了传统网络模型对样本标签的需求。卷积自编码器模型使用卷积编码器模块对输入的图像数据进行降维压缩和特征提取,得到一维特征向量,然后使用卷积解码器对一维特征向量进行图片还原操作,得到重构的图片数据。卷积自编码器模型通过计算重构图片与输入图片之间的差异,评价模型的训练效果。如果重构图片与输入图片的差距过大,说明训练的卷积自编码器模型效果还不到位;如果重构图片与输入图片的差距很小,说明模型训练效果好。
进一步地,计算输入无标签图像数据与重构图像数据之间的重构损失,具体表达式为:
其中,n表示输入无标签图像数据集的大小,Xi表示输入的无标签图像数据样本,表示Xi经过卷积编码器模块和卷积解码器模块得到的重构图像数据,φ表示卷积编码器模块的参数,θ表示卷积解码器模块的参数,fφ表示卷积编码器模块实现的从输入无标签图像数据到特征向量的映射,gθ表示卷积解码器模块实现的从特征向量到重构图像数据的映射,Lrec表示整个卷积自编码器模型的重构损失。重构损失Lrec的值越小,表示模型在整个输入图像数据集上的训练效果越好,其编码器提取到的特征向量表示效果越好。
进一步的,在将无标签图像数据集输入到卷积自编码器模型进行训练前,先对输入的无标签图像数据进行数据增强并添加随机高斯噪声。对应的,输入图像进行数据增强操作,对图像进行(平移、旋转、翻转)操作,施加随机噪声,提高模型训练的鲁棒性。增强卷积自编码器训练模型的损失函数计算方式为:
具体实施过程中,对输入的图像数据进行简单的数据增强操作,比如图像平移、图像旋转、水平/垂直翻转等,并添加随机高斯噪声,用经过数据增强的图片数据训练卷积自编码器模型,卷积编码器部分将数据增强后的图片数据降维到低维特征向量空间中,然后由卷积解码器通过特征向量恢复图像得到重构图像数据,计算输入图像数据与重构图像数据之间的重构损失,如果重构损失大于给定阈值或未满足训练截止条件,则继续输入图像数据训练卷积自编码器模型,如果重构损失小于给定阈值,停止训练模型,并保存训练好的卷积自编码器模型。
基于本发明的实施例2
本实施例基于实施例1,在实施例1的基础上用于说明基于密度峰值聚类算法的图像类别自动标注方法中的卷积编码器-聚类联合训练模块部分。
保留训练好的卷积自编码器模型中的卷积编码器模块,利用卷积编码器模块获取无标签图像数据集的低维特征向量集合;
具体实施过程中,实施例1使用待标注的无标签图片数据集训练卷积自编码器模型,可以让卷积编码器很好的提取原始图片数据集的特征,得到低维特征向量集合。得到低维特征向量集合后,使用密度峰值聚类方法对特征向量集合聚类,将特征向量集合进行类别划分。
具体实施过程中,丢弃掉卷积解码器模块,将训练好的卷积自编码器模型中的卷积编码器模块保留下来,将待标注的图像数据集降维到低维特征向量空间中。将低维特征向量集合输入到卷积编码器-聚类联合训练模块。
将低维特征向量集合输入到卷积编码器-聚类联合训练模块进行联合训练,如图3所示,为卷积编码器-聚类联合训练过程,具体过程包括:利用密度峰值聚类方法计算低维特征向量集合中特征向量点的局部密度和距高密度点距离,并将特征向量点的局部密度和距高密度点距离相乘得到特征向量的伽马值;对低维特征向量集合中所有特征向量的伽马值进行降序排序,将前m个特征向量点选为候选聚类中心,得到候选聚类中心集合;计算剩余特征向量点到每个候选聚类中心的距离,得到m维距离向量;将m维距离向量中每个分量取倒数并归一化得到的m维类别分配置信度向量,取m维类别分配置信度向量中值最大的分量所在列作为特征向量点的真实类别标签,得到类别分配置信度向量的聚类结果,将真实类别标签作为有标签训练卷积编码器模块;用训练过的卷积编码器模块更新剩余特征向量点的置信度向量矩阵直到前后两轮聚类结果的KL散度值小于给定阈值,训练结束;
优选实施例中,首先按照密度峰值方法计算特征向量的局部密度和距高密度点距离,并将二者相乘得到特征向量的伽马值,对伽马值进行降序排序,将位置靠前的特征向量点选为候选聚类中心,得到候选聚类中心集合;计算剩余特征向量点到计算剩余数据点到每个候选聚类中心的距离,得到整体的置信度向量集合。将高置信度的特征向量点所属的类别作为其真实类别标签,作为有标签训练数据训练卷积编码器模块,用训练过的卷积编码器模块更新剩余点的置信度向量。通过计算前后两轮聚类结果的KL散度值,若大于给定阈值,重复上述训练方式,先用高置信度特征向量集合训练网络,再用训练后的网络更新剩余数据点;若小于给定阈值,训练结束。
将训练结束后得到的聚类结果作为最终的聚类结果,用最终的聚类结果标注输入的无标签图像,得到最终的标注图像数据集。
传统密度峰值聚类方法步骤如下:使用自适应k近邻计算每个数据点的局部密度。常用的局部密度计算方法使用数据点的k近邻信息估计计算,常用计算公式为数据点的局部密度ρ越大,表示该点局部密度越高,其属于真实聚类中心的可能性越大。如果直接使用数据点的k个近邻计算而不加筛选,k近邻集合里很可能会包含到边界点、离群点或其他类的点。此时计算出的局部密度可能会对当前数据点的类分配造成负影响,造成后续对象划分连续错误。为了解决这个问题,本发明提出了自适应k近邻的概念,并据此计算数据点的局部密度。
具体地,利用密度峰值聚类方法计算低维特征向量集合中特征向量点的局部密度和距高密度点距离,具体方法包括:
计算每个特征向量点到其k个近邻的距离,计算k近邻距离的均值μ和标准差σ;
其中d(x,xi)表示特征向量点x到其k近邻xi的欧式距离;
根据拉伊达准则计算得到一个上限θ=μ+3σ,遍历k近邻距离,将大于上限θ的近邻移除,得到新的k近邻集合,根据更新后的k近邻集合计算数据点的局部密度ρ为:
其中更新后的k近邻集合为AKNN={xj|d(x,xj)≤d(x,xk)∧d(x,xj)≤θ=μ+3σ},x表示特征向量点,xj是x的k近邻中的一个对象,xj∈AKNN表示xj属于x的k近邻,d(x,xj)表示x与xj的欧氏距离,符号^表示条件与;
特征向量点距高密度点距离δ为:
其中ρi表示点i的局部密度,D表示全体特征向量点集合,d(xi,xj)表示xi和xj两点间的欧式距离。
具体实施过程中,密度峰值聚类方法认为聚类中心的特点为:其自身的局部密度高,并且与其他高密度点的距离远。所以将局部密度ρ与距离δ相乘得到的伽马值作为判断数据样本是否是聚类中心的判断标准,数据样本的伽马值越大,越可能是聚类中心。据此标准,将计算得到的伽马值按降序排列,位置靠前的数据样本优先被选为聚类中心。选择前m个数据点作为输入数据集的聚类中心,分别用m维向量e1,e2,...,em表示,其中ei表示向量的第i个位置为1,其他位置为0。遍历剩余的数据样本点,计算每个数据点到聚类中心的距离,得到m维距离向量[d1,d2,...,dm],对距离向量中每个分量取倒数并归一化得到的m维向量[p1,p2,...,pm]作为类别分配置信度,即pi表示当前数据点属于第i类的置信度。
进一步地,为了防止一次聚类结果的随机性和误差,本发明实施例使用每轮高置信度的样本类别作为伪标签,使用半监督方法训练卷积编码器模块。首先通过卷积编码器模块将输入图像数据降维到特征向量空间,在特征向量空间应用密度峰值聚类方法,用自适应k近邻计算每个数据点的局部密度,通过局部密度计算数据点距高密度点的最近距离,将局部密度和最近距离相乘得到的伽马值降序排列,取前m个数据点作为候选聚类中心,计算剩余数据点到每个候选聚类中心的距离,得到整个数据集的置信度向量集合。
取出高置信度数据点,将其所属类别作为真实类别标签,得到确信类别数据集合,并使用这部分数据重新训练卷积编码器模块,更新卷积编码器模块,然后用更新后的卷积编码器模块计算并更新剩余数据点的置信度向量,将置信度向量中值最大的分量所在列作为数据点的类别标签。基于上述流程,实现了让高置信度的数据点训练卷积编码器模块并更新权重的目的,使得类别标签更加可靠。当卷积编码器模块得到的最近两次聚类结果的差距小于给定阈值时,结束训练,并将此时的聚类结果作为数据点的最终类别,也就是输入的无标签图像数据集的最终类别。
基于本发明的实施例3
以下,参照图4来描述根据本公开实施例1-3的方法对应的装置,一种基于密度峰值聚类算法的图像类别自动标注装置400,包括图像获取单元401,用于获取待标注类别的无标签图像数据集;卷积自编码器模型训练单元402,用于将无标签图像数据集输入到卷积自编码器模型进行训练,具体过程包括:利用卷积自编码器模型中的卷积编码器模块将输入的无标签图像数据降维压缩到低维特征向量,然后由卷积解码器模块将低维特征向量进行图像恢复得到重构图像数据,计算输入无标签图像数据与重构图像数据之间的重构损失,当重构损失小于给定阈值即确定卷积自编码器模型训练截止;低维特征向量集合获取单元403,用于保留训练好的卷积自编码器模型中的卷积编码器模块,利用卷积编码器模块获取无标签图像数据集的低维特征向量集合;卷积编码器-聚类联合训练模块训练单元404,用于将低维特征向量集合输入到卷积编码器-聚类联合训练模块进行联合训练,具体过程包括:利用密度峰值聚类方法计算低维特征向量集合中特征向量点的局部密度和距高密度点距离,并将特征向量点的局部密度和距高密度点距离相乘得到特征向量的伽马值;对低维特征向量集合中所有特征向量的伽马值进行降序排序,将前m个特征向量点选为候选聚类中心,得到候选聚类中心集合;计算剩余特征向量点到每个候选聚类中心的距离,得到m维距离向量;将m维距离向量中每个分量取倒数并归一化得到的m维类别分配置信度向量,取m维类别分配置信度向量中值最大的分量所在列作为特征向量点的真实类别标签,得到类别分配置信度向量的聚类结果,将真实类别标签作为有标签训练卷积编码器模块;用训练过的卷积编码器模块更新剩余特征向量点的置信度向量矩阵直到前后两轮聚类结果的KL散度值小于给定阈值,训练结束;标注图像数据集单元405,用于将训练结束后得到的聚类结果作为最终的聚类结果,用类别划分结果标注输入的无标签图像,得到最终的标注图像数据集。除了上述5个单元以外,装置400还可以包括其他部件,然而,由于这些部件与本公开实施例的内容无关,因此在这里省略其图示和描述。
进一步地,卷积自编码器模型训练单元402在将无标签图像数据集输入到卷积自编码器模型进行训练前,先对输入的无标签图像数据进行数据增强并添加随机高斯噪声。
基于密度峰值聚类算法的图像类别自动标注装置400的具体工作过程参照上述基于密度峰值聚类算法的图像类别自动标注方法实施例1-3的描述,不再赘述。
基于本发明的实施例4
根据本发明实施例的装置也可以借助于图5所示的计算设备的架构来实现。图5示出了该计算设备的架构。如图5所示,计算机系统501、系统总线503、一个或多个CPU 504、输入/输出502、存储器505等。存储器505可以存储计算机处理和/或通信使用的各种数据或文件以及CPU所执行包括实施例1-3方法的程序指令。图5所示的架构只是示例性的,在实现不同的设备时,根据实际需要调整图5中的一个或多个组件。
基于本发明的实施例5
本发明实施例也可以被实现为计算机可读存储介质。根据实施例5的计算机可读存储介质上存储有计算机可读指令。当所述计算机可读指令由处理器运行时,可以执行参照以上附图描述的根据本发明实施例1-3的上述基于密度峰值聚类算法的图像类别自动标注方法。
本发明实施例针对以上所述基于密度峰值聚类算法的图像类别自动标注方法、装置及存储介质,选用MNIST数据集和USPS数据集测试提出本发明方法的性能,并选择K-means、DPC、DEC、DCN作为对比方法。
评价指标选择聚类准确率(ACC),计算公式为
其中,n表示数据集中的样本数量,y表示样本的真实标签,y’表示聚类标签。
首先,分别使用MNIST数据集和USPS数据集预训练卷积自编码器网络,然后在MNIST-TSET数据集和USPS数据集上测试本发明提出的无标签图像数据集类别标注方法。表1展示了本发明方法与其他方法在MNIST-TEST和USPS数据集上的聚类精度对比:
表1与其他方法在不同数据集上准确率对比
从表中可以看出,深度聚类方法(DEC、DCN)的聚类性能明显优于传统聚类方法(K-means、DPC),本方法(OUR)使用数据增强后的图像数据训练卷积自编码器,提高了网络的鲁棒性,使用卷积编码器对图像数据进行降维,可以让传统聚类方法很好的处理特征向量,充分利用传统聚类方法扩展性高的优势。后续将数据集分为高置信度数据集合和低置信度数据集合,并使用高置信度数据集合作为真实标签,采取半监督训练方式训练网络,更新权重和置信度向量,可以让卷积编码器更好地学习聚类特征向量,提高最终的聚类准确率。图6将经过卷积编码器降维后的特征向量可视化,可以看到,经过半监督联合训练,本发明方法可以很好的将相同类别的数据划分到一起,将其与不同类别的数据分隔开。图7展示了MNIST数据集的部分聚类结果。
利用实施例1-5以及上述性能分析,本发明方法可以对无标签的图像数据实现自动类别标注,解决了当前人工标注图片方法类别耗时长、成本高、准确率低、效率差的问题。方法主要包括卷积自编码器模型预训练模块和卷积编码器-聚类联合训练模块,将待标注的图像数据集输入到预训练模块训练卷积自编码器模块,然后取出训练好的卷积编码器模块,将图像数据降维到低维特征向量空间;将低维特征向量输入到卷积编码器-聚类联合训练模块,在特征向量空间使用密度峰值聚类方法选择候选聚类中心并找到高置信度数据集合,使用半监督聚类方法,将高置信度数据集合类别作为真实标签训练卷积编码器,最终得到可信度高的聚类结果,最后用特征向量类别对输入的无标签图像数据进行类别标注。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (8)
1.一种基于密度峰值聚类算法的图像类别自动标注方法,其特征在于,所述方法包括:
获取待标注类别的无标签图像数据集;
将无标签图像数据集输入到卷积自编码器模型进行训练,具体过程包括:利用卷积自编码器模型中的卷积编码器模块将输入的无标签图像数据降维压缩到低维特征向量,然后由卷积解码器模块将低维特征向量进行图像恢复得到重构图像数据,计算输入无标签图像数据与重构图像数据之间的重构损失,当重构损失小于给定阈值即确定卷积自编码器模型训练截止;
保留训练好的卷积自编码器模型中的卷积编码器模块,利用卷积编码器模块获取无标签图像数据集的低维特征向量集合;
将低维特征向量集合输入到卷积编码器-聚类联合训练模块进行联合训练,具体过程包括:利用密度峰值聚类方法计算低维特征向量集合中特征向量点的局部密度和距高密度点距离,并将特征向量点的局部密度和距高密度点距离相乘得到特征向量的伽马值;对低维特征向量集合中所有特征向量的伽马值进行降序排序,将前m个特征向量点选为候选聚类中心,得到候选聚类中心集合;计算剩余特征向量点到每个候选聚类中心的距离,得到m维距离向量;将m维距离向量中每个分量取倒数并归一化得到的m维类别分配置信度向量,取m维类别分配置信度向量中值最大的分量所在列作为特征向量点的真实类别标签,得到类别分配置信度向量的聚类结果,将真实类别标签作为有标签训练卷积编码器模块;用训练过的卷积编码器模块更新剩余特征向量点的置信度向量矩阵直到前后两轮聚类结果的KL散度值小于给定阈值,训练结束;
将训练结束后得到的聚类结果作为最终的聚类结果,用最终的聚类结果标注输入的无标签图像,得到最终的标注图像数据集。
2.根据权利要求1所述的基于密度峰值聚类算法的图像类别自动标注方法,其特征在于,在将无标签图像数据集输入到卷积自编码器模型进行训练前,先对输入的无标签图像数据进行数据增强并添加随机高斯噪声。
4.根据权利要求1所述的基于密度峰值聚类算法的图像类别自动标注方法,其特征在于,利用密度峰值聚类方法计算低维特征向量集合中特征向量点的局部密度和距高密度点距离,具体方法包括:
计算每个特征向量点到其k个近邻的距离,计算k近邻距离的均值μ和标准差σ;
其中d(x,xi)表示特征向量点x到其k近邻xi的欧式距离;
根据拉伊达准则计算得到一个上限θ=μ+3σ,遍历k近邻距离,将大于上限θ的近邻移除,得到新的k近邻集合,根据更新后的k近邻集合计算数据点的局部密度ρ为:
其中更新后的k近邻集合为AKNN={xj|d(x,xj)≤d(x,xk)∧d(x,xj)≤θ=μ+3σ},x表示特征向量点,xj是x的k近邻中的一个对象,xj∈AKNN表示xj属于x的k近邻,d(x,xj)表示x与xj的欧氏距离,符号^表示条件与;
特征向量点距高密度点距离δ为:
其中ρi表示点i的局部密度,D表示全体特征向量点集合,d(xi,xj)表示xi和xj两点间的欧式距离。
5.一种基于密度峰值聚类算法的图像类别自动标注装置,其特征在于,包括:
图像获取单元,用于获取待标注类别的无标签图像数据集;
卷积自编码器模型训练单元,用于将无标签图像数据集输入到卷积自编码器模型进行训练,具体过程包括:利用卷积自编码器模型中的卷积编码器模块将输入的无标签图像数据降维压缩到低维特征向量,然后由卷积解码器模块将低维特征向量进行图像恢复得到重构图像数据,计算输入无标签图像数据与重构图像数据之间的重构损失,当重构损失小于给定阈值即确定卷积自编码器模型训练截止;
低维特征向量集合获取单元,用于保留训练好的卷积自编码器模型中的卷积编码器模块,利用卷积编码器模块获取无标签图像数据集的低维特征向量集合;
卷积编码器-聚类联合训练模块训练单元,用于将低维特征向量集合输入到卷积编码器-聚类联合训练模块进行联合训练,具体过程包括:利用密度峰值聚类方法计算低维特征向量集合中特征向量点的局部密度和距高密度点距离,并将特征向量点的局部密度和距高密度点距离相乘得到特征向量的伽马值;对低维特征向量集合中所有特征向量的伽马值进行降序排序,将前m个特征向量点选为候选聚类中心,得到候选聚类中心集合;计算剩余特征向量点到每个候选聚类中心的距离,得到m维距离向量;将m维距离向量中每个分量取倒数并归一化得到的m维类别分配置信度向量,
取m维类别分配置信度向量中值最大的分量所在列作为特征向量点的真实类别标签,得到类别分配置信度向量的聚类结果,将真实类别标签作为有标签训练卷积编码器模块;用训练过的卷积编码器模块更新剩余特征向量点的置信度向量矩阵直到前后两轮聚类结果的KL散度值小于给定阈值,训练结束;
标注图像数据集单元,用于将训练结束后得到的聚类结果作为最终的聚类结果,用类别划分结果标注输入的无标签图像,得到最终的标注图像数据集。
6.根据权利要求5所述的基于密度峰值聚类算法的图像类别自动标注装置,其特征在于,卷积自编码器模型训练单元在将无标签图像数据集输入到卷积自编码器模型进行训练前,先对输入的无标签图像数据进行数据增强并添加随机高斯噪声。
7.一种基于密度峰值聚类算法的图像类别自动标注装置,其特征在于,包括:处理器;以及存储器,其中,所述存储器中存储有计算机可执行程序,当由所述处理器执行所述计算机可执行程序时,执行权利要求1-4中任一项所述的基于密度峰值聚类算法的图像类别自动标注方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述的基于密度峰值聚类算法的图像类别自动标注方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210800775.1A CN115147632A (zh) | 2022-07-08 | 2022-07-08 | 基于密度峰值聚类算法的图像类别自动标注方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210800775.1A CN115147632A (zh) | 2022-07-08 | 2022-07-08 | 基于密度峰值聚类算法的图像类别自动标注方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115147632A true CN115147632A (zh) | 2022-10-04 |
Family
ID=83413118
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210800775.1A Pending CN115147632A (zh) | 2022-07-08 | 2022-07-08 | 基于密度峰值聚类算法的图像类别自动标注方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115147632A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116205236A (zh) * | 2023-05-06 | 2023-06-02 | 四川三合力通科技发展集团有限公司 | 基于实体命名识别的数据快速脱敏系统及方法 |
CN116884554A (zh) * | 2023-09-06 | 2023-10-13 | 济宁蜗牛软件科技有限公司 | 一种电子病历分类管理方法及系统 |
CN117636100A (zh) * | 2024-01-25 | 2024-03-01 | 北京航空航天大学杭州创新研究院 | 预训练任务模型调整处理方法、装置、电子设备和介质 |
CN118429625A (zh) * | 2024-07-05 | 2024-08-02 | 湖南大学 | 一种基于主动学习选择策略的厨余垃圾目标检测方法 |
-
2022
- 2022-07-08 CN CN202210800775.1A patent/CN115147632A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116205236A (zh) * | 2023-05-06 | 2023-06-02 | 四川三合力通科技发展集团有限公司 | 基于实体命名识别的数据快速脱敏系统及方法 |
CN116205236B (zh) * | 2023-05-06 | 2023-08-18 | 四川三合力通科技发展集团有限公司 | 基于实体命名识别的数据快速脱敏系统及方法 |
CN116884554A (zh) * | 2023-09-06 | 2023-10-13 | 济宁蜗牛软件科技有限公司 | 一种电子病历分类管理方法及系统 |
CN116884554B (zh) * | 2023-09-06 | 2023-11-24 | 济宁蜗牛软件科技有限公司 | 一种电子病历分类管理方法及系统 |
CN117636100A (zh) * | 2024-01-25 | 2024-03-01 | 北京航空航天大学杭州创新研究院 | 预训练任务模型调整处理方法、装置、电子设备和介质 |
CN117636100B (zh) * | 2024-01-25 | 2024-04-30 | 北京航空航天大学杭州创新研究院 | 预训练任务模型调整处理方法、装置、电子设备和介质 |
CN118429625A (zh) * | 2024-07-05 | 2024-08-02 | 湖南大学 | 一种基于主动学习选择策略的厨余垃圾目标检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113378632B (zh) | 一种基于伪标签优化的无监督域适应行人重识别方法 | |
CN110163258B (zh) | 一种基于语义属性注意力重分配机制的零样本学习方法及系统 | |
CN111354017B (zh) | 一种基于孪生神经网络及平行注意力模块的目标跟踪方法 | |
CN107657279B (zh) | 一种基于少量样本的遥感目标检测方法 | |
CN109671070B (zh) | 一种基于特征加权和特征相关性融合的目标检测方法 | |
CN115147632A (zh) | 基于密度峰值聚类算法的图像类别自动标注方法及装置 | |
CN111340738B (zh) | 一种基于多尺度渐进融合的图像去雨方法 | |
CN109671102B (zh) | 一种基于深度特征融合卷积神经网络的综合式目标跟踪方法 | |
CN110942091B (zh) | 寻找可靠的异常数据中心的半监督少样本图像分类方法 | |
CN109033978B (zh) | 一种基于纠错策略的cnn-svm混合模型手势识别方法 | |
CN111027576B (zh) | 基于协同显著性生成式对抗网络的协同显著性检测方法 | |
CN112633382A (zh) | 一种基于互近邻的少样本图像分类方法及系统 | |
CN112232395B (zh) | 一种基于联合训练生成对抗网络的半监督图像分类方法 | |
WO2024021461A1 (zh) | 缺陷检测方法及装置、设备、存储介质 | |
CN110852327A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN117152459B (zh) | 图像检测方法、装置、计算机可读介质及电子设备 | |
CN111860823A (zh) | 神经网络训练、图像处理方法及装置、设备及存储介质 | |
CN114565605A (zh) | 一种病理图像的分割方法及装置 | |
CN109344777A (zh) | 基于elm的高光谱遥感影像土地利用覆盖的优化分类方法 | |
CN111310820A (zh) | 基于交叉验证深度cnn特征集成的地基气象云图分类方法 | |
CN114255381A (zh) | 图像识别模型的训练方法、图像识别方法、装置及介质 | |
CN113313179A (zh) | 一种基于l2p范数鲁棒最小二乘法的噪声图像分类方法 | |
CN116543250A (zh) | 一种基于类注意力传输的模型压缩方法 | |
CN114841887B (zh) | 一种基于多层次差异学习的图像恢复质量评价方法 | |
CN116109656A (zh) | 一种基于无监督学习的交互式图像分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |