CN111695610A

CN111695610A - 一种基于多分类器集成的半监督识别方法

Info

Publication number: CN111695610A
Application number: CN202010458674.1A
Authority: CN
Inventors: 黄杰; 许顺轶
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2020-09-22

Abstract

本发明公开了一种基于多分类器集成的半监督识别方法。首先，初始化样本集，将样本集中的样本分为有标记样本和未标记样本；其次，利用有标记样本集训练基分类器；再次，分类未标记样本，计算对应置信值CZ，用基分类器的分类准确率更新权重参数进入循环；之后，判断CZ与阈值λ关系，为未标记样本打标；然后，判断是否达到迭代终止条件；最后，完成分类，未标记样本获得类别标记。本发明通过构建有效的基分类器、引入置信值参数和设置提前终止条件的方式提升分类性能，克服了协同训练算法有效视图不易生成、迭代过程引入噪声使识别效果变差的问题。与协同训练算法相比，本发明在标记样本有限的条件下能达到较好的识别效果。

Description

一种基于多分类器集成的半监督识别方法

技术领域

本发明涉及一种基于多分类器集成的半监督识别方法，属于模式识别的分类算法和半监督学习算法领域。

背景技术

所谓模式识别，就是指用计算的方法根据样本的特征将样本划分到一定的类别中去。根据样本有无类别标记，模式识别包括：有监督学习、无监督学习和半监督学习。有监督学习使用的样本均有类别标记；无监督学习使用的样本均无类别标记；半监督学习使用的样本的一部分有类别标记，而另一部分无类别标记。

分类问题是典型的有监督学习问题，常见的分类算法有逻辑回归、决策树和支持向量机。逻辑回归算法原理易于理解，分类效率高，但泛化能力较差。决策树的优点是分类速度快、模型易于解释，缺点是容易出现过拟合问题。支持向量机的优点是：线性和非线性问题都能解决，而且在高维空间仍高效，缺点是：对核函数比较敏感，且存在过拟合问题。使用单一分类器进行分类，一般分类效果较差，采用多个互补的基分类器集成进行分类能够提升分类的效果。

实际中所使用的样本集往往既包含有标记样本又包含无标记样本，因而可以采用集成的半监督方法提升分类效果，协同训练是一种典型的半监督集成算法。但该算法并不能满足物联网设备识别的需求，存在有效视图不易生成、迭代过程引入噪声使识别效果变差的问题。因而，设计一种基于多分类器集成的半监督识别方法以克服协同训练算法的缺陷，成为亟待解决的问题。

发明内容

针对协同训练算法有效视图不易生成、迭代过程引入噪声使识别效果变差的问题，本发明设计了一种基于多分类集成的半监督识别方法。该方法通过构建有效的基分类器、引入置信值参数和设置提前终止条件的方式提升分类性能。设计的算法在标记样本有限的条件下有较高的识别准确率。

为了达到上述目的，本发明提供如下技术方案：

一种基于多分类器集成的半监督识别方法，包括如下步骤：

(1)初始化样本集，将样本集中的样本分为有标记样本和未标记样本；

(2)利用有标记样本集训练基分类器；

(3)分类未标记样本，计算对应置信值CZ，用基分类器的分类准确率更新权重参数进入循环；

(4)判断未标记样本置信值CZ与阈值λ关系，为未标记样本打标；

(5)判断是否达到迭代终止条件，如果未达到，返回步骤(3)，如果已经达到，进入步骤(6)；

(6)完成分类，未标记样本获得类别标记。

进一步地，所述步骤(1)具体包括以下步骤：

(11)将样本集V＝{v₁,v₂,…,v_m}中的设备标记规范化，保证同一类别的标记相同，v_i(1≤i≤m)为n维特征向量；

(12)将有标记样本标记转化为1～k的数字，其中k为有标记样本类别数，将无标记样本类别标号指定为-999；

(13)初始化三个基分类器权重参数x₁＝x₂＝x₃＝1，和三个基分类器的置信度C₁＝C₂＝C₃＝0，给定置信度阈值λ。

进一步地，步骤(2)中所述的用有标记样本集训练基分类器是指：选定若干分类算法，对有标记样本集进行训练，从中选出三个效果最好的分类算法作为基分类器，这里选定逻辑回归、支持向量机和决策树三种算法用于生成基分类器。

进一步地，所述步骤(3)具体包括以下步骤：

(31)用三个基分类器对未标记样本v_j分类；

(32)得到预测的设备类别及各个基分类器的置信度C₁、C₂、C₃，用基分类器的分类准确率更新权重参数x₁、x₂、x₃；

(33)计算该未标记样本的置信值CZ(v_j)，相应公式为：

CZ(v_j)＝x₁C₁+x₂C₂+x₃C₃。

进一步地，所述步骤(4)具体包括以下步骤：

(41)将各个未标记样本的置信值CZ(v_j)与置信度阈值λ比较，若其小于λ，不进行任何处理，若其大于λ，将未标记数据给定标签，归入有标记数据集中S＝S∪{v_j}，同时在未标记数据集中去除该项U＝U-{v_j}；

(42)判断新加入有标记数据集中的数据量是否达到规定值，若达到规定值，进行样本及特征抽取，重新训练三个基分类器，并用准确率更新x₁、x₂、x₃，否则直接进入下一步。

进一步地，步骤(5)中所述的迭代终止条件是指算法性能不再有提升。

本发明通过构建有效的基分类器、引入置信值参数和设置提前终止条件的方式提升分类性能，克服了协同训练算法有效视图不易生成、迭代过程引入噪声使识别效果变差的问题。与协同训练算法相比，本发明所提出的基于多分类器集成的半监督识别方法在物联网设备识别过程中有良好的表现，在标记样本有限的条件下能达到较好的识别效果。

附图说明

图1为本发明流程图。

图2为本发明算法结构图。

图3为提出的算法、协同训练算法和SVM算法的F₁值对比图。

具体实施方式

下面将结合附图对本发明作进一步描述。如图1所示，本发明包括以下步骤：

步骤1，初始化样本集：将样本集V＝{v₁,v₂,…,v_m}中的设备标记规范化，保证同一类别的标记相同，v_i(1≤i≤m)为n维特征向量。

将有标记样本标记转化为1～k的数字，其中k为有标记样本类别数，将无标记样本类别标号指定为-999。

初始化三个基分类器权重参数x₁＝x₂＝x₃＝1，和三个基分类器的置信度C₁＝C₂＝C₃＝0，给定置信度阈值λ。在实际操作中λ根据样本集的不同在区间[1,3]中选取。

步骤2，利用有标记样本集训练基分类器：选定若干分类算法，对有标记样本集进行训练，从中选出三个效果最好的分类算法作为基分类器，这里选定逻辑回归、支持向量机和决策树三种算法用于生成基分类器。

步骤3，分类未标记样本，计算对应置信值CZ：用三个基分类器对未标记样本v_j分类，得到预测的设备类别及各个基分类器的置信度C₁、C₂、C₃，用基分类器的分类准确率更新权重参数x₁、x₂、x₃。

计算该未标记样本的置信值CZ(v_j)，相应公式为：

CZ(v_j)＝x₁C₁+x₂C₂+x₃C₃

步骤4，判断CZ与阈值λ关系，为未标记样本打标：将CZ(v_j)与置信度阈值λ比较，若其小于λ，不进行任何处理，若其大于λ，将未标记数据给定标签，归入有标记数据集中S＝S∪{v_j}，同时在未标记数据集中去除该项U＝U-{v_j}。

判断新加入有标记数据集中的数据量是否达到规定值，若达到规定值，进行样本及特征抽取，重新训练三个基分类器，并用准确率更新x₁、x₂、x₃，否则直接进入下一步。

步骤5，判断是否达到终止条件：如果算法性能不再有提升，进入步骤6,否则返回步骤3。

步骤6，完成分类，未标记样本获得类别标记。

本发明利用真实采集的物联网设备信息，分别将本发明提供的算法、协同训练算法和SVM算法进行运算，并针对上述三种方法从F₁值的角度进行对比，结果如图3所示。由图3可知：采用单一分类器的SVM算法和协同训练算法的F₁取值普遍不及基于多分类器集成的半监督方法，说明基于多分类器集成的半监督方法具备较强的分类能力。

本发明所公开的技术手段不仅限于上述技术手段所公开的技术手段，还包括由以上技术特征等同替换所组成的技术方案。本发明的未尽事宜，属于本领域技术人员的公知常识。

Claims

1.一种基于多分类器集成的半监督识别方法，其特征在于，包括以下步骤：

(2)利用有标记样本集训练基分类器；

(6)完成分类，未标记样本获得类别标记。

2.根据权利要求1所述的一种基于多分类器集成的半监督识别方法，其特征在于，所述步骤(1)具体包括以下步骤：

(11)将样本集V＝{V₁，V₂，...，v_m}中的设备标记规范化，保证同一类别的标记相同，v_i(1≤i≤m)为n维特征向量；

3.根据权利要求1所述的一种基于多分类器集成的半监督识别方法，其特征在于，步骤(2)中所述的利用有标记样本集训练基分类器是指：选定逻辑回归、支持向量机和决策树三种算法，对有标记样本集进行训练生成基分类器。

4.根据权利要求1所述的一种基于多分类器集成的半监督识别方法，其特征在于，所述步骤(3)具体包括以下步骤：

(31)用三个基分类器对未标记样本V_j分类；

(33)计算该未标记样本的置信值CZ(V_j)，相应公式为：

CZ(v_j)＝x₁C₁+x₂C₂+x₃C₃

5.根据权利要求1所述的一种基于多分类器集成的半监督识别方法，其特征在于，所述步骤(4)具体包括以下步骤：