CN111695610A - 一种基于多分类器集成的半监督识别方法 - Google Patents

一种基于多分类器集成的半监督识别方法 Download PDF

Info

Publication number
CN111695610A
CN111695610A CN202010458674.1A CN202010458674A CN111695610A CN 111695610 A CN111695610 A CN 111695610A CN 202010458674 A CN202010458674 A CN 202010458674A CN 111695610 A CN111695610 A CN 111695610A
Authority
CN
China
Prior art keywords
sample
classifier
samples
semi
unmarked
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010458674.1A
Other languages
English (en)
Inventor
黄杰
许顺轶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202010458674.1A priority Critical patent/CN111695610A/zh
Publication of CN111695610A publication Critical patent/CN111695610A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多分类器集成的半监督识别方法。首先,初始化样本集,将样本集中的样本分为有标记样本和未标记样本;其次,利用有标记样本集训练基分类器;再次,分类未标记样本,计算对应置信值CZ,用基分类器的分类准确率更新权重参数进入循环;之后,判断CZ与阈值λ关系,为未标记样本打标;然后,判断是否达到迭代终止条件;最后,完成分类,未标记样本获得类别标记。本发明通过构建有效的基分类器、引入置信值参数和设置提前终止条件的方式提升分类性能,克服了协同训练算法有效视图不易生成、迭代过程引入噪声使识别效果变差的问题。与协同训练算法相比,本发明在标记样本有限的条件下能达到较好的识别效果。

Description

一种基于多分类器集成的半监督识别方法
技术领域
本发明涉及一种基于多分类器集成的半监督识别方法,属于模式识别的分类算法和半监督学习算法领域。
背景技术
所谓模式识别,就是指用计算的方法根据样本的特征将样本划分到一定的类别中去。根据样本有无类别标记,模式识别包括:有监督学习、无监督学习和半监督学习。有监督学习使用的样本均有类别标记;无监督学习使用的样本均无类别标记;半监督学习使用的样本的一部分有类别标记,而另一部分无类别标记。
分类问题是典型的有监督学习问题,常见的分类算法有逻辑回归、决策树和支持向量机。逻辑回归算法原理易于理解,分类效率高,但泛化能力较差。决策树的优点是分类速度快、模型易于解释,缺点是容易出现过拟合问题。支持向量机的优点是:线性和非线性问题都能解决,而且在高维空间仍高效,缺点是:对核函数比较敏感,且存在过拟合问题。使用单一分类器进行分类,一般分类效果较差,采用多个互补的基分类器集成进行分类能够提升分类的效果。
实际中所使用的样本集往往既包含有标记样本又包含无标记样本,因而可以采用集成的半监督方法提升分类效果,协同训练是一种典型的半监督集成算法。但该算法并不能满足物联网设备识别的需求,存在有效视图不易生成、迭代过程引入噪声使识别效果变差的问题。因而,设计一种基于多分类器集成的半监督识别方法以克服协同训练算法的缺陷,成为亟待解决的问题。
发明内容
针对协同训练算法有效视图不易生成、迭代过程引入噪声使识别效果变差的问题,本发明设计了一种基于多分类集成的半监督识别方法。该方法通过构建有效的基分类器、引入置信值参数和设置提前终止条件的方式提升分类性能。设计的算法在标记样本有限的条件下有较高的识别准确率。
为了达到上述目的,本发明提供如下技术方案:
一种基于多分类器集成的半监督识别方法,包括如下步骤:
(1)初始化样本集,将样本集中的样本分为有标记样本和未标记样本;
(2)利用有标记样本集训练基分类器;
(3)分类未标记样本,计算对应置信值CZ,用基分类器的分类准确率更新权重参数进入循环;
(4)判断未标记样本置信值CZ与阈值λ关系,为未标记样本打标;
(5)判断是否达到迭代终止条件,如果未达到,返回步骤(3),如果已经达到,进入步骤(6);
(6)完成分类,未标记样本获得类别标记。
进一步地,所述步骤(1)具体包括以下步骤:
(11)将样本集V={v1,v2,…,vm}中的设备标记规范化,保证同一类别的标记相同,vi(1≤i≤m)为n维特征向量;
(12)将有标记样本标记转化为1~k的数字,其中k为有标记样本类别数,将无标记样本类别标号指定为-999;
(13)初始化三个基分类器权重参数x1=x2=x3=1,和三个基分类器的置信度C1=C2=C3=0,给定置信度阈值λ。
进一步地,步骤(2)中所述的用有标记样本集训练基分类器是指:选定若干分类算法,对有标记样本集进行训练,从中选出三个效果最好的分类算法作为基分类器,这里选定逻辑回归、支持向量机和决策树三种算法用于生成基分类器。
进一步地,所述步骤(3)具体包括以下步骤:
(31)用三个基分类器对未标记样本vj分类;
(32)得到预测的设备类别及各个基分类器的置信度C1、C2、C3,用基分类器的分类准确率更新权重参数x1、x2、x3
(33)计算该未标记样本的置信值CZ(vj),相应公式为:
CZ(vj)=x1C1+x2C2+x3C3
进一步地,所述步骤(4)具体包括以下步骤:
(41)将各个未标记样本的置信值CZ(vj)与置信度阈值λ比较,若其小于λ,不进行任何处理,若其大于λ,将未标记数据给定标签,归入有标记数据集中S=S∪{vj},同时在未标记数据集中去除该项U=U-{vj};
(42)判断新加入有标记数据集中的数据量是否达到规定值,若达到规定值,进行样本及特征抽取,重新训练三个基分类器,并用准确率更新x1、x2、x3,否则直接进入下一步。
进一步地,步骤(5)中所述的迭代终止条件是指算法性能不再有提升。
本发明通过构建有效的基分类器、引入置信值参数和设置提前终止条件的方式提升分类性能,克服了协同训练算法有效视图不易生成、迭代过程引入噪声使识别效果变差的问题。与协同训练算法相比,本发明所提出的基于多分类器集成的半监督识别方法在物联网设备识别过程中有良好的表现,在标记样本有限的条件下能达到较好的识别效果。
附图说明
图1为本发明流程图。
图2为本发明算法结构图。
图3为提出的算法、协同训练算法和SVM算法的F1值对比图。
具体实施方式
下面将结合附图对本发明作进一步描述。如图1所示,本发明包括以下步骤:
步骤1,初始化样本集:将样本集V={v1,v2,…,vm}中的设备标记规范化,保证同一类别的标记相同,vi(1≤i≤m)为n维特征向量。
将有标记样本标记转化为1~k的数字,其中k为有标记样本类别数,将无标记样本类别标号指定为-999。
初始化三个基分类器权重参数x1=x2=x3=1,和三个基分类器的置信度C1=C2=C3=0,给定置信度阈值λ。在实际操作中λ根据样本集的不同在区间[1,3]中选取。
步骤2,利用有标记样本集训练基分类器:选定若干分类算法,对有标记样本集进行训练,从中选出三个效果最好的分类算法作为基分类器,这里选定逻辑回归、支持向量机和决策树三种算法用于生成基分类器。
步骤3,分类未标记样本,计算对应置信值CZ:用三个基分类器对未标记样本vj分类,得到预测的设备类别及各个基分类器的置信度C1、C2、C3,用基分类器的分类准确率更新权重参数x1、x2、x3
计算该未标记样本的置信值CZ(vj),相应公式为:
CZ(vj)=x1C1+x2C2+x3C3
步骤4,判断CZ与阈值λ关系,为未标记样本打标:将CZ(vj)与置信度阈值λ比较,若其小于λ,不进行任何处理,若其大于λ,将未标记数据给定标签,归入有标记数据集中S=S∪{vj},同时在未标记数据集中去除该项U=U-{vj}。
判断新加入有标记数据集中的数据量是否达到规定值,若达到规定值,进行样本及特征抽取,重新训练三个基分类器,并用准确率更新x1、x2、x3,否则直接进入下一步。
步骤5,判断是否达到终止条件:如果算法性能不再有提升,进入步骤6,否则返回步骤3。
步骤6,完成分类,未标记样本获得类别标记。
本发明利用真实采集的物联网设备信息,分别将本发明提供的算法、协同训练算法和SVM算法进行运算,并针对上述三种方法从F1值的角度进行对比,结果如图3所示。由图3可知:采用单一分类器的SVM算法和协同训练算法的F1取值普遍不及基于多分类器集成的半监督方法,说明基于多分类器集成的半监督方法具备较强的分类能力。
本发明所公开的技术手段不仅限于上述技术手段所公开的技术手段,还包括由以上技术特征等同替换所组成的技术方案。本发明的未尽事宜,属于本领域技术人员的公知常识。

Claims (5)

1.一种基于多分类器集成的半监督识别方法,其特征在于,包括以下步骤:
(1)初始化样本集,将样本集中的样本分为有标记样本和未标记样本;
(2)利用有标记样本集训练基分类器;
(3)分类未标记样本,计算对应置信值CZ,用基分类器的分类准确率更新权重参数进入循环;
(4)判断未标记样本置信值CZ与阈值λ关系,为未标记样本打标;
(5)判断是否达到迭代终止条件,如果未达到,返回步骤(3),如果已经达到,进入步骤(6);
(6)完成分类,未标记样本获得类别标记。
2.根据权利要求1所述的一种基于多分类器集成的半监督识别方法,其特征在于,所述步骤(1)具体包括以下步骤:
(11)将样本集V={V1,V2,...,vm}中的设备标记规范化,保证同一类别的标记相同,vi(1≤i≤m)为n维特征向量;
(12)将有标记样本标记转化为1~k的数字,其中k为有标记样本类别数,将无标记样本类别标号指定为-999;
(13)初始化三个基分类器权重参数x1=x2=x3=1,和三个基分类器的置信度C1=C2=C3=0,给定置信度阈值λ。
3.根据权利要求1所述的一种基于多分类器集成的半监督识别方法,其特征在于,步骤(2)中所述的利用有标记样本集训练基分类器是指:选定逻辑回归、支持向量机和决策树三种算法,对有标记样本集进行训练生成基分类器。
4.根据权利要求1所述的一种基于多分类器集成的半监督识别方法,其特征在于,所述步骤(3)具体包括以下步骤:
(31)用三个基分类器对未标记样本Vj分类;
(32)得到预测的设备类别及各个基分类器的置信度C1、C2、C3,用基分类器的分类准确率更新权重参数x1、x2、x3
(33)计算该未标记样本的置信值CZ(Vj),相应公式为:
CZ(vj)=x1C1+x2C2+x3C3
5.根据权利要求1所述的一种基于多分类器集成的半监督识别方法,其特征在于,所述步骤(4)具体包括以下步骤:
(41)将各个未标记样本的置信值CZ(vj)与置信度阈值λ比较,若其小于λ,不进行任何处理,若其大于λ,将未标记数据给定标签,归入有标记数据集中S=S∪{vj},同时在未标记数据集中去除该项U=U-{vj};
(42)判断新加入有标记数据集中的数据量是否达到规定值,若达到规定值,进行样本及特征抽取,重新训练三个基分类器,并用准确率更新x1、x2、x3,否则直接进入下一步。
CN202010458674.1A 2020-05-26 2020-05-26 一种基于多分类器集成的半监督识别方法 Pending CN111695610A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010458674.1A CN111695610A (zh) 2020-05-26 2020-05-26 一种基于多分类器集成的半监督识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010458674.1A CN111695610A (zh) 2020-05-26 2020-05-26 一种基于多分类器集成的半监督识别方法

Publications (1)

Publication Number Publication Date
CN111695610A true CN111695610A (zh) 2020-09-22

Family

ID=72478437

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010458674.1A Pending CN111695610A (zh) 2020-05-26 2020-05-26 一种基于多分类器集成的半监督识别方法

Country Status (1)

Country Link
CN (1) CN111695610A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990294A (zh) * 2021-03-10 2021-06-18 挂号网(杭州)科技有限公司 行为判别模型的训练方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990294A (zh) * 2021-03-10 2021-06-18 挂号网(杭州)科技有限公司 行为判别模型的训练方法、装置、电子设备及存储介质
CN112990294B (zh) * 2021-03-10 2024-04-16 挂号网(杭州)科技有限公司 行为判别模型的训练方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN110414462B (zh) 一种无监督的跨域行人重识别方法及系统
CN106845510B (zh) 基于深度层级特征融合的中国传统视觉文化符号识别方法
CN110909820B (zh) 基于自监督学习的图像分类方法及系统
CN113408605B (zh) 基于小样本学习的高光谱图像半监督分类方法
CN107943856A (zh) 一种基于扩充标记样本的文本分类方法及系统
CN110647907B (zh) 利用多层分类和字典学习的多标签图像分类算法
CN111597887B (zh) 一种行人再识别方法及系统
CN110390275B (zh) 一种基于迁移学习的手势分类方法
CN101140623A (zh) 一种基于支持向量机的视频对象识别方法及系统
CN109376796A (zh) 基于主动半监督学习的图像分类方法
CN109635708B (zh) 一种基于三数据集交叉迁移学习的无监督行人再识别方法
CN108898138A (zh) 基于深度学习的场景文本识别方法
JP6897749B2 (ja) 学習方法、学習システム、および学習プログラム
CN113326390B (zh) 基于深度特征一致哈希算法的图像检索方法
Tian et al. An accurate eye pupil localization approach based on adaptive gradient boosting decision tree
CN111931562A (zh) 一种基于软标签回归的无监督特征选择方法和系统
CN110414587A (zh) 基于渐进学习的深度卷积神经网络训练方法与系统
Dwivedi et al. A leaf disease detection mechanism based on L1-norm minimization extreme learning machine
CN113222072A (zh) 基于K-means聚类和GAN的肺部X光图像分类方法
CN115439715A (zh) 基于反标签学习的半监督少样本图像分类学习方法及系统
CN111695610A (zh) 一种基于多分类器集成的半监督识别方法
CN109919165A (zh) 一种基于相似度的多示例字典学习分类方法及装置
Soumya et al. Classification of ancient epigraphs into different periods using random forests
CN110399815B (zh) 一种基于vgg16的cnn-svm手写签名识别方法
CN109145749B (zh) 一种跨数据集的面部表情识别模型构建及识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200922