CN111695612A

CN111695612A - 一种基于聚类的半监督识别方法

Info

Publication number: CN111695612A
Application number: CN202010459153.8A
Authority: CN
Inventors: 黄杰; 许顺轶
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2020-09-22

Abstract

本发明公开了一种基于聚类的半监督识别方法。首先，初始化样本集，将样本集中的样本分为有标记样本和未标记样本，并根据有标记样本的类别标签初始化各类别中心；其次，计算未标记样本到各类别中心的余弦距离，确定距离最近的类别中心，进入循环；再次，计算未标记样本的Z‑Score值，确定其类别归属；然后，判断是否达到迭代终止条件；最后，完成聚类，未标记样本均获得类别标记。本发明通过选取余弦距离作为距离衡量标准，引入Z‑Score值进行相似性度量的方式对约束种子k均值算法进行改进。与约束种子k均值算法相比，改进后的算法在物联网设备识别中具备更好的聚类效果和新类别发现能力。

Description

一种基于聚类的半监督识别方法

技术领域

本发明涉及一种基于聚类的半监督识别方法，属于模式识别的聚类算法和半监督学习算法领域。

背景技术

所谓模式识别，就是指用计算的方法根据样本的特征将样本划分到一定的类别中去。根据样本有无类别标记，模式识别包括：有监督学习、无监督学习和半监督学习。有监督学习使用的样本均有类别标记；无监督学习使用的样本均无类别标记；半监督学习使用的样本的一部分有类别标记，而另一部分无类别标记。

聚类是典型的无监督学习，主要通过对无标记样本的训练获取数据包含的内在规律。常见聚类算法有DBSCAN、AGNES和k均值算法。DBSCAN算法可以找到任意尺寸和任意形状的类别，但是DBSCAN算法的缺点也很明显：当数据集中的样本密度变化时，算法效果并不好；算法中邻域的范围以及邻域内邻近点的数量阈值很难预先给出。AGNES算法对距离衡量指标的选取不敏感，但该算法效率低、有较大计算开销。k均值算法计算速度快，但有四大缺点：首先，在聚类前必须给定类别数k，而k值的选取比较困难；其次，k均值算法中的初始聚类中心是随机选取的，容易陷入局部最优解；再次，k均值算法默认使用欧式距离，有些数据集的数据特点造成选用欧式距离作为距离衡量指标时聚类效果并不好；最后，k均值算法很难发现任意形状的类别簇，只能实现“类圆形”的聚类。

实际中所使用的样本集往往既包含有标记样本又包含无标记样本，因而可以通过半监督聚类来利用有标记信息以获得更好的聚类效果，约束种子k均值是一种典型的半监督聚类方法。约束种子k均值算法利用有标记样本确定初始聚类中心，克服了k均值算法存在的部分缺点，包括：需预先指定类别数，随机选择初始聚类中心造成的易陷入局部最优解问题。但该算法并不能满足物联网设备识别的需求，存在聚类效果不佳和新类别发现困难的问题。因此，如何使得约束种子k均值算法能更好地适用于物联网设备识别、提升聚类效果和新类别发现能力，成为亟待解决的问题。

发明内容

针对约束种子k均值算法在识别设备类别过程中存在的聚类效果不佳和新类别发现困难的问题，本发明设计了一种基于聚类的半监督识别方法，能够提升聚类效果和新类别的发现能力。

为了达到上述目的，本发明提供如下技术方案：

一种基于聚类的半监督识别方法，包括如下步骤：

(1)初始化样本集，将样本集中的样本分为有标记样本和未标记样本，并根据有标记样本的类别标签初始化各类别中心；

(2)计算未标记样本到各类别中心的余弦距离，确定到未标记样本距离最近的类别中心，进入循环；

(3)计算未标记样本的Z-Score值，判断Z-Score值与阈值关系，确定未标记样本的类别归属；

(4)判断是否达到迭代终止条件，如果未达到，返回步骤(2)，如果已经达到，进入步骤(5)；

(5)完成聚类，未标记样本均获得类别标记。

进一步地，所述步骤(1)具体包括以下步骤：

(11)将样本集V＝{v₁,v₂,…,v_m}中的设备标记规范化，保证同一类别的标记相同，v_i(1≤i≤m)为n维特征向量；

(12)将有标记样本标记转化为0～(k-1)的数字，其中k为有标记样本类别数，将无标记样本类别标号指定为-999；

(13)采用有标记样本初始化各类别中心,将有标记样本集合记为S，那么

各类别中心的公式为：

(14)初始化每个类别集合

将每个有标记样本x划分到对应的类别集合中C_j＝C_j∪{x}。

进一步地，所述步骤(2)具体包括以下步骤：

(21)计算未标记样本v_j到各均值向量μ_i(0≤i≤k-1)的余弦距离d(v_j,μ_i)。，余弦距离公式为：

(22)找出与未标记样本v_j余弦距离最近的类别中心，该中心对应的类别簇r＝argmin_{i∈{0,1,…,k-1}}d(v_j,μ_i)。

进一步地，所述步骤(3)具体包括以下步骤：

(31)计算类别簇r此时的均值δ_r和标准差σ_r；

(32)计算未标记样本v_j的Z-Score值，Z-Score值的公式如下：

(33)将计算出的Z-Score值与阈值作比较，如果该未标记样本的Z-Score值大于阈值，将样本v_j划入对应的类别集合C_r＝C_r∪{v_j}，如果该未标记样本的Z-Score值小于阈值，将样本v_j划入新增加的类别集合C_k＝{v_j}。

进一步地，步骤(4)中所述的迭代终止条件是指各类别中心不在有变化。

进一步地，所述步骤(5)具体包括以下步骤：

(51)得到有关类别集合的划分{C₀,C₁,…,C_k-1,…}；

(52)将样本所属类别簇的标号与k比较，当标号小于k时，该样本的设备类型为该标号所对应的设备类型；当标号大于等于k时，该样本为新发现的设备类型，具体的设备类型名称需获取更多设备信息来进一步确定；类别簇的最大标号与k的差值代表该算法发现的新设备类别数。

本发明通过选取余弦距离作为距离衡量标准，引入Z-Score值进行相似性度量的方式对约束种子k均值算法进行改进。与约束种子k均值算法相比，改进后的算法在物联网设备识别中具备更好的聚类效果和新类别发现能力。

附图说明

图1为本发明流程图。

图2为改进的算法与约束种子k均值算法运行时间对比图。

图3为改进的算法与约束种子k均值算法识别准确率对比图。

具体实施方式

下面将结合附图对本发明作进一步描述。如图1所示，本发明包括以下步骤：

步骤1，初始化样本集：将样本集V＝{v₁,v₂,…,v_m}中的设备标记规范化，保证同一类别的标记相同，v_i(1≤i≤m)为n维特征向量。

将有标记样本标记转化为0～(k-1)的数字，其中k为有标记样本类别数，将无标记样本类别标号指定为-999。

用有标记样本初始化各类别中心,有标记样本集合

各类别中心的公式为：

初始化每个类别集合

将每个有标记样本x划分到对应的类别集合中C_j＝C_j∪{x}。

步骤2，计算未标记样本到各类别中心的余弦距离，确定距离最近的类别中心：计算未标记样本v_j到各均值向量μ_i(0≤i≤k-1)的余弦距离d(v_j,μ_i)。余弦距离公式为：

找出与未标记样本v_j余弦距离最近的类别中心，该中心对应的类别簇r＝argmin_{i∈{0,1,…,k-1}}d(v_j,μ_i)。

步骤3，计算未标记样本Z-Score值，确定类别归属：计算r类别簇此时的均值δ_r和标准差σ_r。

计算未标记样本v_j的Z-Score值，Z-Score值的公式如下：

将计算出的Z-Score值与阈值作比较，在实际操作中，根据样本集的不同阈值在区间[0,2]中选取，如果该未标记样本的Z-Score值大于阈值，将样本v_j划入对应的类别集合C_r＝C_r∪{v_j}，如果该未标记样本的Z-Score值小于阈值，将样本v_j划入新增加的类别集合C_k＝{v_j}。

步骤4，判断是否达到终止条件：如果各类别中心不在有变化，进入步骤5,否则返回步骤2。

步骤5，完成聚类，未标记样本均获得类别标记：得到有关类别集合的划分{C₀,C₁,…,C_k-1,…}。

将样本所属类别簇的标号与k比较，当标号小于k时，该样本的设备类型为该标号所对应的设备类型；当标号大于等于k时，该样本为新发现的设备类型，具体的设备类型名称需获取更多设备信息来进一步确定；类别簇的最大标号与k的差值代表该算法发现的新设备类别数。

本发明利用真实采集的物联网设备信息，分别用约束种子k均值算法和本发明提供的改进算法进行运算，并针对上述两方法从运行时间和识别准确率两个方面进行了对比，结果如图2和图3所示。由图2可知：测试数据量相同时，两种算法的运行速度差别不大，对算法的改进并未显著增加算法的运行时间，降低算法的执行效率。由图3可知：改进后的算法的设备识别能力较强，具备较高的识别准确率，约束种子k均值算法各类别的识别准确率普遍不及改进后的算法。

本发明所公开的技术手段不仅限于上述技术手段所公开的技术手段，还包括由以上技术特征等同替换所组成的技术方案。本发明的未尽事宜，属于本领域技术人员的公知常识。