CN111695612A - 一种基于聚类的半监督识别方法 - Google Patents

一种基于聚类的半监督识别方法 Download PDF

Info

Publication number
CN111695612A
CN111695612A CN202010459153.8A CN202010459153A CN111695612A CN 111695612 A CN111695612 A CN 111695612A CN 202010459153 A CN202010459153 A CN 202010459153A CN 111695612 A CN111695612 A CN 111695612A
Authority
CN
China
Prior art keywords
sample
samples
category
clustering
marked
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010459153.8A
Other languages
English (en)
Inventor
黄杰
许顺轶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202010459153.8A priority Critical patent/CN111695612A/zh
Publication of CN111695612A publication Critical patent/CN111695612A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于聚类的半监督识别方法。首先,初始化样本集,将样本集中的样本分为有标记样本和未标记样本,并根据有标记样本的类别标签初始化各类别中心;其次,计算未标记样本到各类别中心的余弦距离,确定距离最近的类别中心,进入循环;再次,计算未标记样本的Z‑Score值,确定其类别归属;然后,判断是否达到迭代终止条件;最后,完成聚类,未标记样本均获得类别标记。本发明通过选取余弦距离作为距离衡量标准,引入Z‑Score值进行相似性度量的方式对约束种子k均值算法进行改进。与约束种子k均值算法相比,改进后的算法在物联网设备识别中具备更好的聚类效果和新类别发现能力。

Description

一种基于聚类的半监督识别方法
技术领域
本发明涉及一种基于聚类的半监督识别方法,属于模式识别的聚类算法和半监督学习算法领域。
背景技术
所谓模式识别,就是指用计算的方法根据样本的特征将样本划分到一定的类别中去。根据样本有无类别标记,模式识别包括:有监督学习、无监督学习和半监督学习。有监督学习使用的样本均有类别标记;无监督学习使用的样本均无类别标记;半监督学习使用的样本的一部分有类别标记,而另一部分无类别标记。
聚类是典型的无监督学习,主要通过对无标记样本的训练获取数据包含的内在规律。常见聚类算法有DBSCAN、AGNES和k均值算法。DBSCAN算法可以找到任意尺寸和任意形状的类别,但是DBSCAN算法的缺点也很明显:当数据集中的样本密度变化时,算法效果并不好;算法中邻域的范围以及邻域内邻近点的数量阈值很难预先给出。AGNES算法对距离衡量指标的选取不敏感,但该算法效率低、有较大计算开销。k均值算法计算速度快,但有四大缺点:首先,在聚类前必须给定类别数k,而k值的选取比较困难;其次,k均值算法中的初始聚类中心是随机选取的,容易陷入局部最优解;再次,k均值算法默认使用欧式距离,有些数据集的数据特点造成选用欧式距离作为距离衡量指标时聚类效果并不好;最后,k均值算法很难发现任意形状的类别簇,只能实现“类圆形”的聚类。
实际中所使用的样本集往往既包含有标记样本又包含无标记样本,因而可以通过半监督聚类来利用有标记信息以获得更好的聚类效果,约束种子k均值是一种典型的半监督聚类方法。约束种子k均值算法利用有标记样本确定初始聚类中心,克服了k均值算法存在的部分缺点,包括:需预先指定类别数,随机选择初始聚类中心造成的易陷入局部最优解问题。但该算法并不能满足物联网设备识别的需求,存在聚类效果不佳和新类别发现困难的问题。因此,如何使得约束种子k均值算法能更好地适用于物联网设备识别、提升聚类效果和新类别发现能力,成为亟待解决的问题。
发明内容
针对约束种子k均值算法在识别设备类别过程中存在的聚类效果不佳和新类别发现困难的问题,本发明设计了一种基于聚类的半监督识别方法,能够提升聚类效果和新类别的发现能力。
为了达到上述目的,本发明提供如下技术方案:
一种基于聚类的半监督识别方法,包括如下步骤:
(1)初始化样本集,将样本集中的样本分为有标记样本和未标记样本,并根据有标记样本的类别标签初始化各类别中心;
(2)计算未标记样本到各类别中心的余弦距离,确定到未标记样本距离最近的类别中心,进入循环;
(3)计算未标记样本的Z-Score值,判断Z-Score值与阈值关系,确定未标记样本的类别归属;
(4)判断是否达到迭代终止条件,如果未达到,返回步骤(2),如果已经达到,进入步骤(5);
(5)完成聚类,未标记样本均获得类别标记。
进一步地,所述步骤(1)具体包括以下步骤:
(11)将样本集V={v1,v2,…,vm}中的设备标记规范化,保证同一类别的标记相同,vi(1≤i≤m)为n维特征向量;
(12)将有标记样本标记转化为0~(k-1)的数字,其中k为有标记样本类别数,将无标记样本类别标号指定为-999;
(13)采用有标记样本初始化各类别中心,将有标记样本集合记为S,那么
Figure BDA0002509361270000021
各类别中心的公式为:
Figure BDA0002509361270000022
(14)初始化每个类别集合
Figure BDA0002509361270000023
将每个有标记样本x划分到对应的类别集合中Cj=Cj∪{x}。
进一步地,所述步骤(2)具体包括以下步骤:
(21)计算未标记样本vj到各均值向量μi(0≤i≤k-1)的余弦距离d(vji)。,余弦距离公式为:
Figure BDA0002509361270000024
(22)找出与未标记样本vj余弦距离最近的类别中心,该中心对应的类别簇r=argmini∈{0,1,…,k-1}d(vji)。
进一步地,所述步骤(3)具体包括以下步骤:
(31)计算类别簇r此时的均值δr和标准差σr
(32)计算未标记样本vj的Z-Score值,Z-Score值的公式如下:
Figure BDA0002509361270000031
(33)将计算出的Z-Score值与阈值作比较,如果该未标记样本的Z-Score值大于阈值,将样本vj划入对应的类别集合Cr=Cr∪{vj},如果该未标记样本的Z-Score值小于阈值,将样本vj划入新增加的类别集合Ck={vj}。
进一步地,步骤(4)中所述的迭代终止条件是指各类别中心不在有变化。
进一步地,所述步骤(5)具体包括以下步骤:
(51)得到有关类别集合的划分{C0,C1,…,Ck-1,…};
(52)将样本所属类别簇的标号与k比较,当标号小于k时,该样本的设备类型为该标号所对应的设备类型;当标号大于等于k时,该样本为新发现的设备类型,具体的设备类型名称需获取更多设备信息来进一步确定;类别簇的最大标号与k的差值代表该算法发现的新设备类别数。
本发明通过选取余弦距离作为距离衡量标准,引入Z-Score值进行相似性度量的方式对约束种子k均值算法进行改进。与约束种子k均值算法相比,改进后的算法在物联网设备识别中具备更好的聚类效果和新类别发现能力。
附图说明
图1为本发明流程图。
图2为改进的算法与约束种子k均值算法运行时间对比图。
图3为改进的算法与约束种子k均值算法识别准确率对比图。
具体实施方式
下面将结合附图对本发明作进一步描述。如图1所示,本发明包括以下步骤:
步骤1,初始化样本集:将样本集V={v1,v2,…,vm}中的设备标记规范化,保证同一类别的标记相同,vi(1≤i≤m)为n维特征向量。
将有标记样本标记转化为0~(k-1)的数字,其中k为有标记样本类别数,将无标记样本类别标号指定为-999。
用有标记样本初始化各类别中心,有标记样本集合
Figure BDA0002509361270000032
各类别中心的公式为:
Figure BDA0002509361270000033
初始化每个类别集合
Figure BDA0002509361270000034
将每个有标记样本x划分到对应的类别集合中Cj=Cj∪{x}。
步骤2,计算未标记样本到各类别中心的余弦距离,确定距离最近的类别中心:计算未标记样本vj到各均值向量μi(0≤i≤k-1)的余弦距离d(vji)。余弦距离公式为:
Figure BDA0002509361270000041
找出与未标记样本vj余弦距离最近的类别中心,该中心对应的类别簇r=argmini∈{0,1,…,k-1}d(vji)。
步骤3,计算未标记样本Z-Score值,确定类别归属:计算r类别簇此时的均值δr和标准差σr
计算未标记样本vj的Z-Score值,Z-Score值的公式如下:
Figure BDA0002509361270000042
将计算出的Z-Score值与阈值作比较,在实际操作中,根据样本集的不同阈值在区间[0,2]中选取,如果该未标记样本的Z-Score值大于阈值,将样本vj划入对应的类别集合Cr=Cr∪{vj},如果该未标记样本的Z-Score值小于阈值,将样本vj划入新增加的类别集合Ck={vj}。
步骤4,判断是否达到终止条件:如果各类别中心不在有变化,进入步骤5,否则返回步骤2。
步骤5,完成聚类,未标记样本均获得类别标记:得到有关类别集合的划分{C0,C1,…,Ck-1,…}。
将样本所属类别簇的标号与k比较,当标号小于k时,该样本的设备类型为该标号所对应的设备类型;当标号大于等于k时,该样本为新发现的设备类型,具体的设备类型名称需获取更多设备信息来进一步确定;类别簇的最大标号与k的差值代表该算法发现的新设备类别数。
本发明利用真实采集的物联网设备信息,分别用约束种子k均值算法和本发明提供的改进算法进行运算,并针对上述两方法从运行时间和识别准确率两个方面进行了对比,结果如图2和图3所示。由图2可知:测试数据量相同时,两种算法的运行速度差别不大,对算法的改进并未显著增加算法的运行时间,降低算法的执行效率。由图3可知:改进后的算法的设备识别能力较强,具备较高的识别准确率,约束种子k均值算法各类别的识别准确率普遍不及改进后的算法。
本发明所公开的技术手段不仅限于上述技术手段所公开的技术手段,还包括由以上技术特征等同替换所组成的技术方案。本发明的未尽事宜,属于本领域技术人员的公知常识。

Claims (5)

1.一种基于聚类的半监督识别方法,其特征在于,包括以下步骤:
(1)初始化样本集,将样本集中的样本分为有标记样本和未标记样本,并根据有标记样本的类别标签初始化各类别中心;
(2)计算未标记样本到各类别中心的余弦距离,确定到未标记样本距离最近的类别中心,进入循环;
(3)计算未标记样本的Z-Score值,判断Z-Score值与阈值关系,确定未标记样本的类别归属;
(4)判断是否达到迭代终止条件,如果未达到,返回步骤(2),如果已经达到,进入步骤(5);
(5)完成聚类,未标记样本均获得类别标记。
2.根据权利要求1所述的一种基于聚类的半监督识别方法,其特征在于,所述步骤(1)具体包括以下步骤:
(11)将样本集V={v1,v2,…,vm}中的设备标记规范化,保证同一类别的标记相同,vi(1≤i≤m)为n维特征向量;
(12)将有标记样本标记转化为0~(k-1)的数字,其中k为有标记样本类别数,将无标记样本类别标号指定为-999;
(13)采用有标记样本初始化各类别中心,将有标记样本集合记为S,那么
Figure FDA0002509361260000011
各类别中心的公式为:
Figure FDA0002509361260000012
(14)初始化每个类别集合
Figure FDA0002509361260000013
将每个有标记样本x划分到对应的类别集合中Cj=Cj∪{x}。
3.根据权利要求1所述的一种基于聚类的半监督识别方法,其特征在于,所述步骤(2)具体包括以下步骤:
(21)计算未标记样本vj到各均值向量μi(0≤i≤k-1)的余弦距离d(vji)。,余弦距离公式为:
Figure FDA0002509361260000014
(22)找出与未标记样本vj余弦距离最近的类别中心,该中心对应的类别簇r=argmini∈{0,1,…,k-1}d(vji)。
4.根据权利要求1所述的一种基于聚类的半监督识别方法,其特征在于,所述步骤(3)具体包括以下步骤:
(31)计算r类别簇此时的均值δr和标准差σr
(32)计算未标记样本vj的Z-Score值,Z-Score值的公式如下:
Figure FDA0002509361260000021
(33)将计算出的Z-Score值与阈值作比较,如果该未标记样本的Z-Score值大于阈值,将样本vj划入对应的类别集合Cr=Cr∪{vj},如果该未标记样本的Z-Score值小于阈值,将样本vj划入新增加的类别集合Ck={vj}。
5.根据权利要求1所述的一种基于聚类的半监督识别方法,其特征在于,所述步骤(5)具体包括以下步骤:
(51)得到有关类别集合的划分{C0,C1,…,Ck-1,…};
(52)将样本所属类别簇的标号与k比较,当标号小于k时,该样本的设备类型为该标号所对应的设备类型;当标号大于等于k时,该样本为新发现的设备类型,具体的设备类型名称需获取更多设备信息来进一步确定;类别簇的最大标号与k的差值代表该算法发现的新设备类别数。
CN202010459153.8A 2020-05-26 2020-05-26 一种基于聚类的半监督识别方法 Pending CN111695612A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010459153.8A CN111695612A (zh) 2020-05-26 2020-05-26 一种基于聚类的半监督识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010459153.8A CN111695612A (zh) 2020-05-26 2020-05-26 一种基于聚类的半监督识别方法

Publications (1)

Publication Number Publication Date
CN111695612A true CN111695612A (zh) 2020-09-22

Family

ID=72478429

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010459153.8A Pending CN111695612A (zh) 2020-05-26 2020-05-26 一种基于聚类的半监督识别方法

Country Status (1)

Country Link
CN (1) CN111695612A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257862A (zh) * 2020-09-30 2021-01-22 重庆大学 一种基于关系网络标记样本扩充的半监督辨识方法
CN114328922A (zh) * 2021-12-28 2022-04-12 盐城工学院 一种基于谱图理论的选择性文本聚类集成方法
CN115310879A (zh) * 2022-10-11 2022-11-08 浙江浙石油综合能源销售有限公司 一种基于半监督聚类算法的多加油站用电量能耗管控方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106228183A (zh) * 2016-07-18 2016-12-14 北京邮电大学 一种半监督学习分类方法与装置
CN107145907A (zh) * 2017-05-04 2017-09-08 云南大学 一种基于k均值样本预选的支持向量机主动学习方法
CN108038511A (zh) * 2017-12-25 2018-05-15 江苏江大智慧科技有限公司 修正聚类假设联合成对约束半监督分类方法
CN108446736A (zh) * 2018-03-21 2018-08-24 北京理工大学 融合成对约束和规模约束的半监督聚类方法
CN110533111A (zh) * 2019-09-03 2019-12-03 西南交通大学 一种基于局部密度与球哈希的自适应k均值聚类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106228183A (zh) * 2016-07-18 2016-12-14 北京邮电大学 一种半监督学习分类方法与装置
CN107145907A (zh) * 2017-05-04 2017-09-08 云南大学 一种基于k均值样本预选的支持向量机主动学习方法
CN108038511A (zh) * 2017-12-25 2018-05-15 江苏江大智慧科技有限公司 修正聚类假设联合成对约束半监督分类方法
CN108446736A (zh) * 2018-03-21 2018-08-24 北京理工大学 融合成对约束和规模约束的半监督聚类方法
CN110533111A (zh) * 2019-09-03 2019-12-03 西南交通大学 一种基于局部密度与球哈希的自适应k均值聚类方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257862A (zh) * 2020-09-30 2021-01-22 重庆大学 一种基于关系网络标记样本扩充的半监督辨识方法
CN112257862B (zh) * 2020-09-30 2023-12-05 重庆大学 一种基于关系网络标记样本扩充的半监督辨识方法
CN114328922A (zh) * 2021-12-28 2022-04-12 盐城工学院 一种基于谱图理论的选择性文本聚类集成方法
CN115310879A (zh) * 2022-10-11 2022-11-08 浙江浙石油综合能源销售有限公司 一种基于半监督聚类算法的多加油站用电量能耗管控方法
CN115310879B (zh) * 2022-10-11 2022-12-16 浙江浙石油综合能源销售有限公司 一种基于半监督聚类算法的多加油站用电量能耗管控方法

Similar Documents

Publication Publication Date Title
CN111967294B (zh) 一种无监督域自适应的行人重识别方法
CN111695612A (zh) 一种基于聚类的半监督识别方法
CN107085585B (zh) 用于图像搜索的准确的标签相关性预测
Chuang et al. A feature learning and object recognition framework for underwater fish images
Ibrahim et al. Cluster representation of the structural description of images for effective classification
CN111553127B (zh) 一种多标记的文本类数据特征选择方法及装置
Kryszczuk et al. Estimation of the number of clusters using multiple clustering validity indices
CN101140623A (zh) 一种基于支持向量机的视频对象识别方法及系统
CN109359135B (zh) 一种基于分段权重的时间序列相似性搜索方法
CN111598004B (zh) 一种渐进增强自学习的无监督跨领域行人再识别方法
CN112926045B (zh) 一种基于逻辑回归模型的群控设备识别方法
CN112288465B (zh) 一种基于半监督聚类集成学习的客户细分方法
CN113553906A (zh) 基于类中心域对齐的判别无监督跨域行人重识别方法
CN110781295A (zh) 一种多标记数据的特征选择方法及装置
JP2022038941A (ja) 学習データ収集装置、学習装置、学習データ収集方法およびプログラム
WO2022166578A1 (zh) 用于域自适应学习的方法、装置、设备、介质和产品
CN112115996A (zh) 图像数据的处理方法、装置、设备及存储介质
Han et al. DMRNet++: Learning discriminative features with decoupled networks and enriched pairs for one-step person search
Chang et al. A Modified Editing k-nearest Neighbor Rule.
CN111950652A (zh) 一种基于相似度的半监督学习数据分类算法
CN112465016A (zh) 基于最优劣距的部分多标记学习方法
CN109947945B (zh) 基于词向量和集成svm的文本数据流分类方法
CN108805162A (zh) 一种基于粒子群优化的酵母菌多标记特征选择方法及装置
Dai et al. Self-supervised pairing image clustering and its application in cyber manufacturing
CN111160391A (zh) 基于空间划分的快速相对密度噪声检测方法及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200922