CN112766299A - 一种人脸图像的迭代式双向连接聚类算法 - Google Patents

一种人脸图像的迭代式双向连接聚类算法 Download PDF

Info

Publication number
CN112766299A
CN112766299A CN202011425964.2A CN202011425964A CN112766299A CN 112766299 A CN112766299 A CN 112766299A CN 202011425964 A CN202011425964 A CN 202011425964A CN 112766299 A CN112766299 A CN 112766299A
Authority
CN
China
Prior art keywords
data
image
shedding
current
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011425964.2A
Other languages
English (en)
Other versions
CN112766299B (zh
Inventor
杜明晶
国艺璇
瞿欢添
王茹
朱俊
盛锦超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Normal University
Original Assignee
Jiangsu Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Normal University filed Critical Jiangsu Normal University
Priority to CN202011425964.2A priority Critical patent/CN112766299B/zh
Publication of CN112766299A publication Critical patent/CN112766299A/zh
Application granted granted Critical
Publication of CN112766299B publication Critical patent/CN112766299B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

一种人脸图像识别的迭代式双向连接聚类算法,针对人脸图像数据重叠较高的特点,在基于密度聚类的基础上,采用数据脱落策略,找出图像数据集中的核心数据,完成核心数据的聚类工作,最后采用双向连接方式实现脱落数据的分配操作。其特征在于,包含以下步骤:根据公式计算人脸图像的距离矩阵;计算图像间的共享近邻相似度;进行数据的迭代脱落过程,发现核心数据;完成核心数据聚类;通过双向连接准则完成剩余数据的分配。本发明的一种人脸图像识别的迭代式双向连接聚类算法中,每一类簇都被用独特的颜色表示,离群值用灰色表示,对离群值的判断更优,相比于现有的算法可产生更正确且更多的最优簇结构。

Description

一种人脸图像的迭代式双向连接聚类算法
技术领域
本发明涉及图像处理领域,具体涉及一种人脸图像识别的迭代式双向连接聚类算法。
背景技术
人脸识别是图像识别领域的研究方向之一,具有非常广阔的应用前景。人脸识别技术主要包括人脸检测、人脸特征提取和人脸识别三个过程。但是随着人脸数据库“量”的增长以及识别“速”的要求提高,以及人脸图像数据点非均匀分布的特征,传统的检索策略便十分耗时,不利于高效率识别人脸图像特征。
聚类分析是数据分析的一种重要方法,其本质是将数据按照其特征进行分组,使得组内数据的相似度尽可能小。目前聚类分析在数据挖掘、机器学习及模式识别等领域得到了广泛的应用,常用于对不同群体的细分,尤其是在人脸图像识别领域的应用。但目前应用于人脸图像识别领域的聚类算法存在以下问题:(1)密度估计函数的设计较复杂,且人脸图像集数据点分布不均匀时,无法进行有效处理;(2)人脸图像集合呈现细长分布时,聚类效果很差。
本发明将聚类分析算法与人脸识别技术结合。首先计算人脸图像间的欧几里得距离,进而计算人脸图像数据的密度值,并通过脱落策略找出人脸图像数据中的核心区域,完成核心数据的聚类,最后使用双向连接策略完成脱落数据的分配。
发明内容
为克服上述现有聚类算法在处理人脸图像集中遇到的几个问题,本发明提出了一种人脸图像识别的迭代式双向连接聚类算法,包括以下步骤:
步骤1:计算人脸图像距离矩阵
提取人脸特征,从人脸图像数据集X里提取任意两个图像xi和xj,根据公式(1)计算两个图像之间的欧几里得距离;
d(xi,xj)=||xi-xj||2 (1)
其中,1≤i≤n,1≤j≤n;
步骤2:计算图像间的共享近邻相似度;
根据公式(2)得到任意两个图像xi和xj间的共享近邻关系(Shared NearestNeighbour,简称SNN),
SNNk(xi,xj)={xl|xl∈Nk(xi)∩xl∈Nk(xj)} (2)
其中k表示近邻个数,Nk(xi)表示图像xi的k近邻集合,Nk(xj)表示图像xj的k近邻集合;
根据共享近邻相似度公式(3)计算图像xi和xj间共享近邻相似度,
Figure RE-GDA0003007923630000021
其中,|SNNk(xi,xj)|表示图像xi和xj间共享近邻的数目;
步骤3:迭代执行数据脱落操作,发现核心数据
步骤3.1:对数据脱落进行初始化操作,令t=1,该次迭代所处理的图像数据集合为 X(t)=X;
其中t为当前迭代次数;
步骤3.2:根据公式(4)计算第t次迭代中数据X(t)的密度值
Figure RE-GDA0003007923630000022
Figure RE-GDA0003007923630000023
其中,
Figure RE-GDA0003007923630000024
表示两个图像间的欧几里得距离的平方;Σ为求和公式;
Figure RE-GDA0003007923630000025
表示第t次迭代图像xi反k近邻集合,其数学定义为
Figure RE-GDA0003007923630000026
其中
Figure RE-GDA0003007923630000027
表示第t次迭代图像xi的k近邻集合。
步骤3.3:执行第t次图像数据的脱落操作
按照密度脱落掉当前图像数据中10%的数据,b(t)是当前图像数据X(t)按密度从小到大排列,第10百分位上的密度值。将密度比b(t)小的数据进行脱落,根据公式(5)得到第t次的脱落集合
Figure RE-GDA0003007923630000028
Figure RE-GDA0003007923630000029
步骤3.4:更新迭代状态,令下一次所处理的数据集合X(t+1)为当前数据集合X(t)与脱落集合
Figure RE-GDA00030079236300000210
的差集;
其中,
Figure RE-GDA00030079236300000211
步骤3.5:判断迭代是否结束,当满足公式(6)时,迭代终止;
λ(t)>2·λ(t-1) (6)
其中λ(t)表示第t次中脱落集合
Figure RE-GDA0003007923630000031
中密度最大值,λ(t-1)表示第t-1次中脱落集合
Figure RE-GDA0003007923630000032
中密度最大值,即前者比后者大两倍,则终止迭代,令核心数据集Ω=X(t+1),最大迭代次数T 为t,如果未满足公式(6),则令t=t+1,跳转步骤3.2;
步骤4:实现核心数据的聚类
步骤4.1:初始化类簇数目
Figure RE-GDA0003007923630000033
初始化数据划分
Figure RE-GDA0003007923630000034
核心数据的未访问集合Γ,其初始为Γ=Ω,根据公式(7)定义距离阈值ε;
ε=mean(Dk)+std(Dk) (7)
其中Dk表示核心数据集合Ω中各个数据点到其k近邻点的距离的集合,mean表示该集合的平均值,std表示该集合的标准差;
定义可达,对于任意的两个核心数据xi和xj,有过存在一个核心数据序列p1,p2,...,pS (其中S为该序列的长度),满足p1为xi,ps为xj,且满足对于任意的1≤s≤S,有 d(ps,ps+1)≤ε,即ps和ps+1之间的欧几里得距离小于等于距离阈值ε,则称由xi到xj可达。
步骤4.2:初始化新的类簇,令
Figure RE-GDA0003007923630000035
随机选择数据集Γ中的一个图像x构成当前类簇,即将当前新生成的类簇
Figure RE-GDA0003007923630000036
设置为
Figure RE-GDA0003007923630000037
并将核心数据的未访问集合Γ设置为Γ与{x} 的差集,即剔除核心数据的未访问集合Γ中的数据x;
步骤4.3:扩展新的类簇,逐个遍历的未访问集合Γ中的数据,找出所有可以与x存在可达关系的数据点x′,将其并入到当前类簇
Figure RE-GDA0003007923630000038
中,即
Figure RE-GDA0003007923630000039
同时将核心数据的未访问集合Γ设置为Γ与{x′}的差集,即剔除核心数据的未访问集合Γ中的数据x′。无法从未访问集合Γ找出符合可达条件的图像数据,则终止遍历,更新数据划分
Figure RE-GDA00030079236300000310
如果未访问集合Γ是空集合,则完成核心数据聚类,继续往下执行,否则跳转到步骤4.2;
步骤5:使用向内的连接策略完成脱落数据的分配
步骤5.1:从最内的脱落集合向最外的脱落集合进行逐步聚类工作,完成脱落数据聚类的初始化工作;
令当前层数t为最大脱落迭代次数T;当前数据划分
Figure RE-GDA00030079236300000311
初始化为核心数据划分
Figure RE-GDA00030079236300000312
Figure RE-GDA00030079236300000313
已聚类数据集合Φ初始化为已完成聚类的核心数据集Ω,即Φ=Ω。
当前层脱落数据Δ初始化为最后一层的脱落数据
Figure RE-GDA0003007923630000041
其中T为最大脱落迭代次数;
步骤5.2:使用向内的连接策略聚类当前层的脱落数据
逐个选择当前层脱落数据Δ中的图像数据x,从已聚类数据集合Φ中找出与x最近的图像数据x′,假设该已聚类数据x′属于类簇
Figure RE-GDA0003007923630000042
(
Figure RE-GDA0003007923630000043
其中
Figure RE-GDA0003007923630000044
为当前划分的类簇个数),则将x分配至该类簇
Figure RE-GDA0003007923630000045
更新
Figure RE-GDA0003007923630000046
且更新已聚类数据集合Φ=Φ∪x,更新当前层脱落数据Δ为Δ与数据x的差集。当前层脱落数据Δ为空集合时,终止该层的数据分配工作;
步骤5.3:判断向内连接是否结束,更新当前层数t=t-1,如果t为0,则脱落数据的向内连接结束;否则,令当前层脱落数据Δ为第t层脱落数据
Figure RE-GDA0003007923630000047
跳转至步骤5.2;
步骤6:使用基于共享近邻相似度向外连接策略完成类簇的合并
遍历图像数据集X中各个成对数据,如果存在两个图像数据x和x′分属于两个不同的类簇
Figure RE-GDA0003007923630000048
Figure RE-GDA0003007923630000049
(
Figure RE-GDA00030079236300000410
其中
Figure RE-GDA00030079236300000411
为当前划分的类簇个数),且两个图像数据的共享近邻相似度大于0.5,合并类簇
Figure RE-GDA00030079236300000412
Figure RE-GDA00030079236300000413
形成一个新的类簇,即
Figure RE-GDA00030079236300000414
如果simSNN(x,x′)≥0.5 则完成遍历工作,得到新的
Figure RE-GDA00030079236300000415
其中下标c是完成合并工作后最终的类簇数目。
与现有技术相比,本发明的有益技术效果:
本发明的一种人脸图像识别的迭代式双向连接聚类算法中,每一类簇都被用独特的颜色表示,离群值用灰色表示,对离群值的判断更优,相比于现有的算法可产生更正确且更多的最优簇结构。
附图说明
图1是基于Olivetti人脸数据集的可视化结果,其中a是本文提出的“一种人脸图像识别的迭代式双向连接聚类算法”,b是DB算法,c是DBSCAN算法,d是HDBSCAN算法。
具体实施方式:
实施例1
一种人脸图像识别的迭代式双向连接聚类算法,包括以下步骤:
步骤1:计算人脸图像距离矩阵
提取人脸特征,从人脸图像数据集X里提取任意两个图像xi和xj,根据公式(1)计算两个图像之间的欧几里得距离;
d(xi,xj)=||xi-xj||2 (1)
其中,1≤i≤n,1≤j≤n;
步骤2:计算图像间的共享近邻相似度
根据公式(2)得到任意两个图像xi和xj间的共享近邻关系(Shared NearestNeighbour,简称SNN),
SNNk(xi,xj)={xl|xl∈Nk(xi)∩xl∈Nk(xj)} (2)
其中k表示近邻个数,Nk(xi)表示图像xi的k近邻集合,Nk(xj)表示图像xj的k近邻集合;
根据共享近邻相似度公式(3)计算图像xi和xj间共享近邻相似度,
Figure RE-GDA0003007923630000051
其中,|SNNk(xi,xj)|表示图像xi和xj间共享近邻的数目;
步骤3:迭代执行数据脱落操作,发现核心数据
步骤3.1:对数据脱落进行初始化操作,令t=1,该次迭代所处理的图像数据集合为 X(t)=X;
其中t为当前迭代次数;
步骤3.2:根据公式(4)计算第t次迭代中数据X(t)的密度值
Figure RE-GDA0003007923630000052
Figure RE-GDA0003007923630000053
其中,
Figure RE-GDA0003007923630000054
表示两个图像间的欧几里得距离的平方;Σ为求和公式;
Figure RE-GDA0003007923630000055
表示第t次迭代图像xi反k近邻集合,其数学定义为
Figure RE-GDA0003007923630000056
其中
Figure RE-GDA0003007923630000057
表示第t次迭代图像xi的k近邻集合。
步骤3.3:执行第t次图像数据的脱落操作
按照密度脱落掉当前图像数据中10%的数据,b(t)是当前图像数据X(t)按密度从小到大排列,第10百分位上的密度值。将密度比b(t)小的数据进行脱落,根据公式(5)得到第t次的脱落集合
Figure RE-GDA0003007923630000058
Figure RE-GDA0003007923630000059
步骤3.4:更新迭代状态,令下一次所处理的数据集合X(t+1)为当前数据集合X(t)与脱落集合
Figure RE-GDA00030079236300000510
的差集;
其中,
Figure RE-GDA0003007923630000061
步骤3.5:判断迭代是否结束,当满足公式(6)时,迭代终止;
λ(t)>2·λ(t-1) (6)
其中λ(t)表示第t次中脱落集合
Figure RE-GDA0003007923630000062
中密度最大值,λ(t-1)表示第t-1次中脱落集合
Figure RE-GDA0003007923630000063
中密度最大值,即前者比后者大两倍,则终止迭代,令核心数据集Ω=X(t+1),最大迭代次数T 为t,如果未满足公式(6),则令t=t+1,跳转步骤3.2;
步骤4:实现核心数据的聚类
步骤4.1:初始化类簇数目
Figure RE-GDA0003007923630000064
初始化数据划分
Figure RE-GDA0003007923630000065
核心数据的未访问集合Γ,其初始为Γ=Ω,根据公式(7)定义距离阈值ε;
ε=mean(Dk)+std(Dk) (7)
其中Dk表示核心数据集合Ω中各个数据点到其k近邻点的距离的集合,mean表示该集合的平均值,std表示该集合的标准差;
定义可达,对于任意的两个核心数据xi和xj,有过存在一个核心数据序列p1,p2,...,pS (其中S为该序列的长度),满足p1为xi,ps为xj,且满足对于任意的1≤s≤S,有 d(ps,ps+1)≤ε,即ps和ps+1之间的欧几里得距离小于等于距离阈值ε,则称由xi到xj可达。
步骤4.2:初始化新的类簇,令
Figure RE-GDA0003007923630000066
随机选择数据集Γ中的一个图像x构成当前类簇,即将当前新生成的类簇
Figure RE-GDA0003007923630000067
设置为
Figure RE-GDA0003007923630000068
并将核心数据的未访问集合Γ设置为Γ与{x} 的差集,即剔除核心数据的未访问集合Γ中的数据x;
步骤4.3:扩展新的类簇,逐个遍历的未访问集合Γ中的数据,找出所有可以与x存在可达关系的数据点x′,将其并入到当前类簇
Figure RE-GDA0003007923630000069
中,即
Figure RE-GDA00030079236300000610
同时将核心数据的未访问集合Γ设置为Γ与{x′}的差集,即剔除核心数据的未访问集合Γ中的数据x′。无法从未访问集合Γ找出符合可达条件的图像数据,则终止遍历,更新数据划分
Figure RE-GDA00030079236300000611
如果未访问集合Γ是空集合,则完成核心数据聚类,继续往下执行,否则跳转到步骤4.2;
步骤5:使用向内的连接策略完成脱落数据的分配
步骤5.1:从最内的脱落集合向最外的脱落集合进行逐步聚类工作,完成脱落数据聚类的初始化工作;
令当前层数t为最大脱落迭代次数T;当前数据划分
Figure RE-GDA0003007923630000071
初始化为核心数据划分
Figure RE-GDA0003007923630000072
Figure RE-GDA0003007923630000073
已聚类数据集合Φ初始化为已完成聚类的核心数据集Ω,即Φ=Ω。
当前层脱落数据Δ初始化为最后一层的脱落数据
Figure RE-GDA0003007923630000074
其中T为最大脱落迭代次数;
步骤5.2:使用向内的连接策略聚类当前层的脱落数据
逐个选择当前层脱落数据Δ中的图像数据x,从已聚类数据集合Φ中找出与x最近的图像数据x′,假设该已聚类数据x′属于类簇
Figure RE-GDA0003007923630000075
(
Figure RE-GDA0003007923630000076
其中
Figure RE-GDA0003007923630000077
为当前划分的类簇个数),则将x分配至该类簇
Figure RE-GDA0003007923630000078
更新
Figure RE-GDA0003007923630000079
且更新已聚类数据集合Φ=Φ∪x,更新当前层脱落数据Δ为Δ与数据x的差集。当前层脱落数据Δ为空集合时,终止该层的数据分配工作;
步骤5.3:判断向内连接是否结束,更新当前层数t=t-1,如果t为0,则脱落数据的向内连接结束;否则,令当前层脱落数据Δ为第t层脱落数据
Figure RE-GDA00030079236300000710
跳转至步骤5.2;
步骤6:使用基于共享近邻相似度向外连接策略完成类簇的合并
遍历图像数据集X中各个成对数据,如果存在两个图像数据x和x′分属于两个不同的类簇
Figure RE-GDA00030079236300000711
Figure RE-GDA00030079236300000712
(
Figure RE-GDA00030079236300000713
其中
Figure RE-GDA00030079236300000714
为当前划分的类簇个数),且两个图像数据的共享近邻相似度大于0.5,合并类簇
Figure RE-GDA00030079236300000715
Figure RE-GDA00030079236300000716
形成一个新的类簇,即
Figure RE-GDA00030079236300000717
如果simSNN(x,x′)≥0.5 则完成遍历工作,得到新的
Figure RE-GDA00030079236300000718
其中下标c是完成合并工作后最终的类簇数目。
选择其他五个经典的密度聚类(或层次聚类)算法作为基线方法进行实验结果的比较,这五种方法分别是DBSCAN算法、HDBSCAN算法、边界剥离(BP)算法、密度峰值(DP)算法和 DPC-KNN算法。所有算法皆为Matlab版本,且所有实验均在Intel Core i7-8750U2.2GHz处理器、16gb RAM运行Matlab 2018b的计算机上进行测试。
为了实验结果的真实有效,使用了机器学习中广泛使用的Olivetti人脸数据库。本算法采用了Olivetti人脸数据库的前100个人脸进行实验。每个人脸的图像从10个不同的角度拍摄,并且每个图像的角度是独一无二的。换句话说,每个类由10个人脸图像组成,每张人脸图像都有10304个特征。
在实验中采用主成分分析法对原始特征进行分析并降至28个,随后进行实验,进而得到实验结果。
在数据聚类领域中有许多基于基本事实的可能度量,实验通过计算三个广泛使用的评估指标:调整Rand指数(ARI)、标准化互信息(NMI)和调整互信息(AMI)来评估实验结果。三个度量值的值都介于0和1之间,得分越高,聚类性能越好。(值得注意的是,ARI的值可能是负的,这时候的指数没有实际意义。)
为了客观反映算法的性能,每一种聚类方法都运行了多次,本实验皆取其最优的实验结果进行比较。
表一显示了所有评估算法的结果。对于每个评价指标,以粗体突出显示获得的最大度量值。表中还给出了每个算法生成的聚类数(Clu#)。最佳簇数也用粗体突出显示。
如表一所示,尽管本算法未能检测到正确的簇数,但从三种评估指标来看,本算法取得了比其他方法更好的效果。
表1评价算法在Olivetti人脸数据集上的性能
Figure RE-GDA0003007923630000081
本实验的可视化结果如图1所示。每一类簇都被用独特的颜色表示,离群值用灰色表示。从图1(a)来看,本算法产生了前8个个体的最优簇结构,对离群值的判断更优。而从可视化结果来看,其他算法均未产生更正确且更多的最优簇结构。
综上所述,本专利提出的人脸图像识别的迭代式双向连接聚类算法在处理非均匀分布的复杂人脸图像数据集时的性能优于其他方法。

Claims (6)

1.一种人脸图像的迭代式双向连接聚类算法,其特征在于,包括如下步骤:
步骤1:计算人脸图像距离矩阵
提取人脸特征,从人脸图像数据集X里提取任意两个图像xi和xj,根据公式(1)计算两个图像之间的欧几里得距离;
d(xi,xj)=||xi-xj||2 (1)
其中,1≤i≤n,1≤j≤n;
步骤2:计算图像间的共享近邻相似度
根据公式(2)得到任意两个图像xi和xj间的共享近邻关系SNN,
SNNk(xi,xj)={xl|xl∈Nk(xi)Ixl∈Nk(xj)} (2)
其中k表示近邻个数,Nk(xi)表示图像xi的k近邻集合,Nk(xj)表示图像xj的k近邻集合;
根据共享近邻相似度公式(3)计算图像xi和xj间共享近邻相似度,
Figure RE-FDA0003007923620000011
其中,|SNNk(xi,xj)|表示图像xi和xj间共享近邻的数目;
步骤3:迭代执行数据脱落操作,发现核心数据;
步骤4:实现核心数据的聚类;
步骤5:使用向内的连接策略完成脱落数据的分配;
步骤6:使用基于共享近邻相似度向外连接策略完成类簇的合并。
2.根据权利要求1所述的一种人脸图像的迭代式双向连接聚类算法,其特征在于,所述步骤3包括:
步骤3.1:对数据脱落进行初始化操作,令t=1,该次迭代所处理的图像数据集合为X(t)=X;
其中t为当前迭代次数;
步骤3.2:根据公式(4)计算第t次迭代中数据X(t)的密度值
Figure RE-FDA0003007923620000012
Figure RE-FDA0003007923620000013
其中,
Figure RE-FDA0003007923620000014
表示两个图像间的欧几里得距离的平方;Σ为求和公式;
Figure RE-FDA0003007923620000015
表示第t次迭代图像xi反k近邻集合,其数学定义为
Figure RE-FDA0003007923620000021
其中
Figure RE-FDA0003007923620000022
表示第t次迭代图像xi的k近邻集合;
步骤3.3:执行第t次图像数据的脱落操作
按照密度脱落掉当前图像数据中10%的数据,b(t)是当前图像数据X(t)按密度从小到大排列,第10百分位上的密度值。将密度比b(t)小的数据进行脱落,根据公式(5)得到第t次的脱落集合
Figure RE-FDA0003007923620000023
Figure RE-FDA0003007923620000024
步骤3.4:更新迭代状态,令下一次所处理的数据集合X(t+1)为当前数据集合X(t)与脱落集合
Figure RE-FDA0003007923620000025
的差集;
其中,
Figure RE-FDA0003007923620000026
步骤3.5:判断迭代是否结束,当满足公式(6)时,迭代终止;
λ(t)>2·λ(t-1) (6)
其中λ(t)表示第t次中脱落集合
Figure RE-FDA0003007923620000027
中密度最大值,λ(t-1)表示第t-1次中脱落集合
Figure RE-FDA0003007923620000028
中密度最大值,即前者比后者大两倍,则终止迭代,令核心数据集Ω=X(t+1),最大迭代次数T为t,如果未满足公式(6),则令t=t+1,跳转步骤3.2。
3.根据权利要求1所述的一种人脸图像的迭代式双向连接聚类算法,其特征在于,所述步骤4包括:
步骤4.1:初始化类簇数目
Figure RE-FDA0003007923620000029
初始化数据划分
Figure RE-FDA00030079236200000210
核心数据的未访问集合Γ,其初始为Γ=Ω,根据公式(7)定义距离阈值ε;
ε=mean(Dk)+std(Dk) (7)
其中Dk表示核心数据集合Ω中各个数据点到其k近邻点的距离的集合,mean表示该集合的平均值,std表示该集合的标准差;
定义可达,对于任意的两个核心数据xi和xj,有过存在一个核心数据序列p1,p2,K,pS;其中S为该序列的长度;满足p1为xi,ps为xj,且满足对于任意的1≤s≤S,有d(ps,ps+1)≤ε,即ps和ps+1之间的欧几里得距离小于等于距离阈值ε,则称由xi到xj可达;
步骤4.2:初始化新的类簇,令
Figure RE-FDA0003007923620000031
随机选择数据集Γ中的一个图像x构成当前类簇,即将当前新生成的类簇
Figure RE-FDA0003007923620000032
设置为
Figure RE-FDA0003007923620000033
并将核心数据的未访问集合Γ设置为Γ与{x}的差集,即剔除核心数据的未访问集合Γ中的数据x;
步骤4.3:扩展新的类簇,逐个遍历的未访问集合Γ中的数据,找出所有可以与x存在可达关系的数据点x′,将其并入到当前类簇
Figure RE-FDA0003007923620000034
中,即
Figure RE-FDA0003007923620000035
同时将核心数据的未访问集合Γ设置为Γ与{x′}的差集,即剔除核心数据的未访问集合Γ中的数据x′;无法从未访问集合Γ找出符合可达条件的图像数据,则终止遍历,更新数据划分
Figure RE-FDA0003007923620000036
如果未访问集合Γ是空集合,则完成核心数据聚类,继续往下执行,否则跳转到步骤4.2。
4.根据权利要求1所述的一种人脸图像的迭代式双向连接聚类算法,其特征在于,所述步骤5包括:
步骤5.1:从最内的脱落集合向最外的脱落集合进行逐步聚类工作,完成脱落数据聚类的初始化工作;
令当前层数t为最大脱落迭代次数T;当前数据划分
Figure RE-FDA0003007923620000037
初始化为核心数据划分
Figure RE-FDA0003007923620000038
Figure RE-FDA0003007923620000039
已聚类数据集合Φ初始化为已完成聚类的核心数据集Ω,即Φ=Ω;
当前层脱落数据Δ初始化为最后一层的脱落数据
Figure RE-FDA00030079236200000310
其中T为最大脱落迭代次数;
步骤5.2:使用向内的连接策略聚类当前层的脱落数据;
步骤5.3:判断向内连接是否结束,更新当前层数t=t-1,如果t为0,则脱落数据的向内连接结束;否则,令当前层脱落数据Δ为第t层脱落数据
Figure RE-FDA00030079236200000311
跳转至步骤5.2。
5.根据权利要求4所述的一种人脸图像的迭代式双向连接聚类算法,其特征在于,所述步骤5.2包括:
逐个选择当前层脱落数据Δ中的图像数据x,从已聚类数据集合Φ中找出与x最近的图像数据x′,假设该已聚类数据x′属于类簇
Figure RE-FDA00030079236200000312
其中
Figure RE-FDA00030079236200000313
为当前划分的类簇个数;则将x分配至该类簇
Figure RE-FDA00030079236200000314
更新
Figure RE-FDA00030079236200000315
且更新已聚类数据集合Φ=Φ∪x,更新当前层脱落数据Δ为Δ与数据x的差集;当前层脱落数据Δ为空集合时,终止该层的数据分配工作。
6.根据权利要求1所述的一种人脸图像的迭代式双向连接聚类算法,其特征在于,所述步骤6包括:
遍历图像数据集X中各个成对数据,如果存在两个图像数据x和x′分属于两个不同的类簇
Figure RE-FDA0003007923620000041
Figure RE-FDA0003007923620000048
Figure RE-FDA0003007923620000042
其中
Figure RE-FDA0003007923620000043
为当前划分的类簇个数;且两个图像数据的共享近邻相似度大于0.5,合并类簇
Figure RE-FDA0003007923620000044
Figure RE-FDA0003007923620000045
形成一个新的类簇,即
Figure RE-FDA0003007923620000046
如果simSNN(x,x′)≥0.5则完成遍历工作,得到新的
Figure RE-FDA0003007923620000047
其中下标c是完成合并工作后最终的类簇数目。
CN202011425964.2A 2020-12-09 2020-12-09 一种人脸图像的迭代式双向连接聚类算法 Active CN112766299B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011425964.2A CN112766299B (zh) 2020-12-09 2020-12-09 一种人脸图像的迭代式双向连接聚类算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011425964.2A CN112766299B (zh) 2020-12-09 2020-12-09 一种人脸图像的迭代式双向连接聚类算法

Publications (2)

Publication Number Publication Date
CN112766299A true CN112766299A (zh) 2021-05-07
CN112766299B CN112766299B (zh) 2024-01-09

Family

ID=75693364

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011425964.2A Active CN112766299B (zh) 2020-12-09 2020-12-09 一种人脸图像的迭代式双向连接聚类算法

Country Status (1)

Country Link
CN (1) CN112766299B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115100453A (zh) * 2022-08-23 2022-09-23 浙江大华技术股份有限公司 一种图像聚类方法、装置、终端及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740842A (zh) * 2016-03-01 2016-07-06 浙江工业大学 基于快速密度聚类算法的无监督人脸识别方法
CN108280472A (zh) * 2018-01-18 2018-07-13 安徽师范大学 一种基于局部密度和聚类中心优化的密度峰聚类方法
KR20190106863A (ko) * 2019-08-27 2019-09-18 엘지전자 주식회사 얼굴 인식 활용 단말기 및 얼굴 인식 활용 방법
CN111507240A (zh) * 2020-04-13 2020-08-07 三一重工股份有限公司 人脸聚类方法、装置、电子设备和计算机可读存储介质
CN111985336A (zh) * 2020-07-22 2020-11-24 深圳供电局有限公司 人脸图像聚类方法、装置、计算机设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740842A (zh) * 2016-03-01 2016-07-06 浙江工业大学 基于快速密度聚类算法的无监督人脸识别方法
CN108280472A (zh) * 2018-01-18 2018-07-13 安徽师范大学 一种基于局部密度和聚类中心优化的密度峰聚类方法
KR20190106863A (ko) * 2019-08-27 2019-09-18 엘지전자 주식회사 얼굴 인식 활용 단말기 및 얼굴 인식 활용 방법
CN111507240A (zh) * 2020-04-13 2020-08-07 三一重工股份有限公司 人脸聚类方法、装置、电子设备和计算机可读存储介质
CN111985336A (zh) * 2020-07-22 2020-11-24 深圳供电局有限公司 人脸图像聚类方法、装置、计算机设备和存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
杜明晶: "密度峰值聚类算法研究", 中国博士学位论文全文数据库 信息科技辑 *
蔡川丽 等: "一种抗姿态与表情变化的三维人脸识别方法", 应用光学, no. 04 *
鲍舒婷 等: "基于共享近邻相似度的密度峰聚类算法", 计算机应用, no. 06 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115100453A (zh) * 2022-08-23 2022-09-23 浙江大华技术股份有限公司 一种图像聚类方法、装置、终端及计算机可读存储介质
CN115100453B (zh) * 2022-08-23 2022-11-18 浙江大华技术股份有限公司 一种图像聚类方法、装置、终端及计算机可读存储介质

Also Published As

Publication number Publication date
CN112766299B (zh) 2024-01-09

Similar Documents

Publication Publication Date Title
Dwivedi et al. Representation similarity analysis for efficient task taxonomy & transfer learning
Elbatta et al. A dynamic method for discovering density varied clusters
Sathya et al. Image segmentation by clustering methods: performance analysis
Lin et al. Study of image retrieval and classification based on adaptive features using genetic algorithm feature selection
Rahmani et al. Clustering of image data using K-means and fuzzy K-means
Zhou et al. A new membership scaling fuzzy C-means clustering algorithm
Chen et al. Central clustering of categorical data with automated feature weighting
CN113076970A (zh) 一种缺失条件下的高斯混合模型聚类机器学习方法
Amelio et al. A genetic algorithm for color image segmentation
Harikiran et al. Fast clustering algorithms for segmentation of microarray images
CN114581451A (zh) 一种基于散射图神经网络的大脑磁共振图像分割方法
CN112766299B (zh) 一种人脸图像的迭代式双向连接聚类算法
CN110781943A (zh) 一种基于毗邻网格搜索的聚类方法
Guan et al. SMMP: a stable-membership-based auto-tuning multi-peak clustering algorithm
CN109711439A (zh) 一种使用Group算法加速邻居搜索的密度峰大规模游客画像数据聚类方法
Li et al. Accelerated fuzzy C-means clustering based on new affinity filtering and membership scaling
CN112768001A (zh) 一种基于流形学习和主曲线的单细胞轨迹推断方法
CN112163641A (zh) 一种基于概率多层次图结构的高维数据可视化方法
Tsai et al. GF-DBSCAN; a new efficient and effective data clustering technique for large databases
CN111986223A (zh) 一种基于能量函数的室外点云场景中树木提取方法
CN109241628B (zh) 基于图谱理论和聚类的三维cad模型分割方法
CN109978066B (zh) 基于多尺度数据结构的快速谱聚类方法
Saha et al. Real-coded differential crisp clustering for MRI brain image segmentation
Fan et al. Predicting yeast protein localization sites by a new clustering algorithm based on weighted feature ensemble
Tripathy et al. Adaptive K-means clustering to handle heterogeneous data using basic rough set theory

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant