CN110197286B - 一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法 - Google Patents

一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法 Download PDF

Info

Publication number
CN110197286B
CN110197286B CN201910387355.3A CN201910387355A CN110197286B CN 110197286 B CN110197286 B CN 110197286B CN 201910387355 A CN201910387355 A CN 201910387355A CN 110197286 B CN110197286 B CN 110197286B
Authority
CN
China
Prior art keywords
sample
model
gaussian
samples
gmm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910387355.3A
Other languages
English (en)
Other versions
CN110197286A (zh
Inventor
刘芳
马登峰
王洪海
李政颖
陈钢
赵洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN201910387355.3A priority Critical patent/CN110197286B/zh
Publication of CN110197286A publication Critical patent/CN110197286A/zh
Application granted granted Critical
Publication of CN110197286B publication Critical patent/CN110197286B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法,该方法包括以下步骤:1)对包括已标记样本和未标记样本的所有样本,采用混合高斯模型训练所有样本得到各个高斯分量的混合系数、均值和协方差;2)构建初始训练集XL,将初始训练集作为已标记样本集,并更新未标注样本集XU;3)构建初始的基于混合高斯核的直推式相关向量机模型GMM‑FRVM;4)基于GMM‑FRVM模型更新已标记样本集和未标记样本集;5)基于更新后的已标记样本集和未标记样本集重新训练GMM‑FRVM模型;6)采用最终的GMM‑FRVM模型完成所有样本的分类标记。本发明方法通过混合高斯模型和稀疏贝叶斯相结合的主动学习的手段,通过尽量少的人工标注获得较优的分类效果。

Description

一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法
技术领域
本发明涉及机器学习领域,尤其涉及一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法。
背景技术
随着计算机相关技术的飞速发展,社会变得更加信息化,每天都会有大量的数据产生。在实际场景中,人们获得的大量数据都是未经标注标签的,传统监督学习方法在使用少部分有标签数据进行训练时因为样本规模小、信息少很难有较好的预测结果。人工标注样本需要消耗大量的时间和精力,甚至一些情况根本无法完成对大量样本的标注。基于这些问题,本发明提出了一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法。
主动学习通过不断从样本中筛选最具有价值的样本进行标注来扩充样本集,以此达到通过利用较少的样本训练出性能优良的分类器。本发明采用的主动学习方法是基于池的主动学习方法,其过程包含初始化和循环查询两个阶段。在初始化阶段中,从未标记样本集中筛选出部分样本,提供给专家进行标注,形成训练集建立初始模型。循环查询阶段中,根据某种选择策略,每次从未标记样本集中选取包含信息量最大的部分样本进行标注,然后更新已标记样本集,并重新训练模型。如此循环往复,直到达到停止标准为止。
混合高斯模型就是对多个高斯分布进行线性组合的一个混合模型,高斯分布具有很重要的分析性质,但是使用高斯分布来分析实际数据集会有很大的局限性。实际中的复杂数据使用简答的高斯分布并不能充分描述出其结构特征,但是如果使用足够多的高斯分布,调节不同高斯分布的均值、方差以及混合系数就可以描述非常复杂的概率密度形式。
相关向量机是一种典型的稀疏贝叶斯学习模型,它具有与支持向量机模型类似的核函数思想,但是与传统的支持向量机模型相比,它更具稀疏性,提供更灵活的核函数选择(不用满足Mercer定理),同时还提供概率化的输出,可用来评估预测结果的置信度。由于传统的相关向量机模型一开始会将所有的基函数纳入训练,随着超参数的迭代更新,基函数才逐渐被淘汰。传统的相关向量机作为一种监督学习方法,仅使用已标记的数据作为训练集构建学习模型,容易造成样本规模小、预测性能差等问题。
发明内容
本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法。
本发明解决其技术问题所采用的技术方案是:一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法,包括以下步骤:
1)对包括已标记样本和未标记样本的所有样本,采用混合高斯模型训练所有样本得到各个高斯分量的混合系数、均值和协方差;
2)在未标注样本集XU中分别随机选取离各个簇聚类中心点最近的点进行标注后作为初始样本点,构建初始训练集XL,将初始训练集作为已标记样本集,并更新未标注样本集XU;
3)基于各个高斯分量及其对应协方差矩阵和混合系数构建混合高斯核函数,计算扩充的核矩阵,并构建初始的基于混合高斯核的直推式相关向量机模型GMM-FRVM;
4)基于GMM-FRVM模型计算各个未标记样本的后验概率,根据样本后验概率选择不确定性最大的样本,对其进行标注并加入训练集,然后更新已标记样本集和未标记样本集;
5)基于步骤4)中更新后的已标记样本集和未标记样本集重新训练GMM-FRVM模型,获得相关向量以及权重参数;如果满足终止条件,即得到最终的GMM-FRVM模型,否则,回到第4)步,重新计算;
6)采用最终的GMM-FRVM模型完成所有样本的分类标记。
按上述方案,所述步骤1)中,对于所有样本,设高斯分量的个数是K,即聚类簇的个数为K,混合高斯模型表示为:
Figure BDA0002055288860000041
其中,πk为每个分量的权重,也就是混合系数;x为样本,μk为每个高斯分量的均值,Σk为每个高斯分量的协方差,K为分量个数。
按上述方案,所述步骤1)中,通过混合高斯模型训练所有样本,使用期望最大化方法,将众多未知参数设置成隐变量,计算求解如下公式得到样本集各个高斯分量的混合系数πk、均值μk和协方差矩阵Σk,其中,K为分量个数;
Figure BDA0002055288860000042
按上述方案,所述步骤3)中构建初始的基于混合高斯核的直推式相关向量机模型GMM-FRVM,包括以下步骤:
3.1)利用上述步骤得出的混合系数、混合高斯分量及协方差矩阵来构建混合高斯核函数,并初始化核参数γ;
所述混合高斯核函数公式如下:
Figure BDA0002055288860000043
其中,γ是高斯核函数中的超参数,xi,xj为样本点,πk和Σk为对应高斯分量混合系数和协方差;
3.2)根据相关向量机的原理,其分类函数可以表示为:
y(x,w)=σ(wTφ(x))=σ(Φw) (4)
其中,Φ是核函数矩阵,对于分类模型未引入偏置的相关向量机,其核矩阵Φ表示为如下方式:
Figure BDA0002055288860000051
其中,K(xi,xj)表示关于xi和xj的核函数,即步骤3.1)中的混合高斯核函数;
对核矩阵进行了扩充,将未标记样本引入到模型的训练过程中,扩充后的核矩阵形式如下:
Figure BDA0002055288860000052
在上式中,N为样本规模,其中已标记样本数量为L(对应步骤2)中的初始训练集XL),未标记样本数量为S(对应步骤2)中更新后的XU),N=L+S,{XL,yL}为已标记样本集,{XS}为未标记样本集;通过扩充,该矩阵不仅包含了已标记样本的信息同时也包含了未标记样本的信息;
3.3)计算权重w的均值和方差ΣN,N,并估计超参数α;
首先,获得基于核矩阵扩充的直推式相关向量机FRVM模型,该模型采用以下公式表示,用于描述样本x属于该类别的概率:
Figure BDA0002055288860000061
其中,权重w为N维向量,w=(w0,w1,w2,...,wN)T;ΦL,L+S为步骤3.2)计算得出的扩充核矩阵,N=L+S;
对样本目标真实值t引入伯努利分布,其似然函数为:
Figure BDA0002055288860000062
式中,wi服从均值为0,方差为
Figure BDA0002055288860000063
的高斯条件概率分布,φ(xl)是以样本xl与其它样本的核函数值为元素的核向量,根据贝叶斯准则,得到权重w的对数后验概率为:
Figure BDA0002055288860000064
其中,A=diag(α012,...,αN);C1为常数;
通过最大化w的后验概率,求得目标函数H(w)如下:
Figure BDA0002055288860000071
其中,C2和C3为常数;
求解H(w)的梯度和Hessian矩阵,然后对其使用牛顿拉普森迭代,得到权重w的均值和方差如下:
Figure BDA0002055288860000072
Figure BDA0002055288860000073
其中,BL×L为L×L的对角阵,对角元素为bl=yl(1-yl);通过拉普拉斯近似和贝叶斯信息准则计算边缘似然概率p(t|α),最终得到对数边缘似然函数为:
Figure BDA0002055288860000074
其中,C=ΦL,NAN,NΦL,N T+BL,L
Figure BDA0002055288860000075
通过使用对上式第二类极大似然法最大化p(t|α)来进行计算更新超参数α;
3.4)从模型中删除对应αi为无穷大的基向量,并重新根据步骤3.3)的权重w的均值和方差公式计算权重w的均值和方差ΣN,N,并根据对数边缘似然函数重新估计超参数α,删除对应αi为无穷大的基向量,重复本步骤,直到达到收敛条件,收敛后的结果即为初始的GMM-FRVM模型。
按上述方案,所述步骤4)中根据样本后验概率选择不确定性最大的样本,具体如下:基于GMM-FRVM模型计算出各个未标记样本的不确定性,然后选择出不确定性最大的样本,选择公式如下所示:
Figure BDA0002055288860000081
其中,
Figure BDA0002055288860000082
是模型预测的样本x最可能的类,
Figure BDA0002055288860000083
是关于样本x的后验概率,后验概率最小,则样本的不确定性最大。
本发明产生的有益效果是:本发明方法能有效对样本进行分类,通过混合高斯模型和稀疏贝叶斯相结合的主动学习的手段,从大量未标记的样本中有策略地筛选信息量最大的样本进行标注,可以通过尽量少的人工标注获得较优的分类效果。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例的方法流程图;
图2是本发明实施例的GMM-FRVMAL方法关于TwoMoons数据集的迭代过程示意图;
图3是本发明实施例的不同主动学习方法关于各个主题数据集的F1评估结果示意图;
图4是本发明实施例的各主题数据集中随着查询样本数上升F1值的变化情况示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法,包括以下步骤:
S1、利用混合高斯模型训练所有样本得到各个高斯分量的混合系数、均值和协方差,选取m个离各自聚类中心最近的样本点进行标注,建立初始训练集;
步骤S1的具体方法为:
S11、对于所有样本(包括已标记样本和未标记样本),假设高斯分量的个数是K,即聚类簇的个数为K,则混合高斯模型可表示为:
Figure BDA0002055288860000091
其中,每个分量的权重为πk,也就是混合系数,x为样本,μk为每个高斯分量的均值,Σk为每个高斯分量的协方差。
每个分量都是一个独立的高斯分布,并且各个高斯分量都是归一化的,容易得到:
Figure BDA0002055288860000101
通过如下公式计算模型的边缘概率:
Figure BDA0002055288860000102
对比式(1),可得p(k)=πk,表示第k个高斯成分的先验概率,p(x|k)=N(x|μkk)是x关于第k个成分的概率分布。那么根据贝叶斯准则,可以得到k关于x的后验概率分布:
Figure BDA0002055288860000103
令π={π12,...,πK},μ={μ12,...μK},Σ={Σ12,...,ΣK},则高斯混合模型由参数π,μ,Σ控制。随机变量X={x1,x2,...,xN},关于π,μ,Σ的对数似然函数为:
Figure BDA0002055288860000104
通过公式(5),使用期望最大化方法,将众多未知参数设为隐变量,进行模型训练求解,得出混合高斯模型的参数π,μ,Σ;
S12、在未标注样本池XU中分别随机选取离簇聚类中心点最近的点进行标注后作为初始样本点,构建初始训练集XL,更新XU=XU-XL。样本点选择策略中的距离函数为马氏距离函数,初始样本点选择公式如下:
Figure BDA0002055288860000111
其中,Xc,initial表示簇c的初始样本点,xc,initial表示c的聚类中心,Σc表示簇c所在高斯分量的协方差矩阵。
S2、基于各个高斯分量及其对应协方差矩阵和混合系数构建混合高斯核函数,计算扩充的核矩阵,并构建初始的基于混合高斯核的直推式相关向量机(GMM-FRVM)模型;
步骤S2的具体方法为:
S21、初始化核参数γ和超参数α。利用上述步骤得出的混合系数、混合高斯分量及协方差矩阵来构建混合高斯核函数。本发明中构建的高斯核函数采用的是混合高斯距离,替代了原本高斯核中的欧式距离,新的混合高斯核函数公式如下:
Figure BDA0002055288860000112
其中γ是高斯核函数中的超参数,xi,xj为样本点,πk和Σk为对应高斯分量混合系数和协方差。
混合高斯核函数中的混合高斯距离相比于利用欧氏距离作为核距离,在相关向量机模型训练中将样本的分布特性融入到模型的学习过程中,提高了模型预测的精确度。
S22、根据相关向量机的原理,其分类函数可以表示为:
y(x,w)=σ(wTφ(x))=σ(Φw) (8)
其中Φ是核函数矩阵,对于分类模型未引入偏置的相关向量机,其核矩阵Φ表示为如下方式:
Figure BDA0002055288860000121
其中,K(xi,xj)表示关于xi和xj的核函数,即步骤S21中的混合高斯核函数,如公式(7)所示。
为了充分考虑未标记样本的信息,本发明对核矩阵进行了扩充,将未标记样本引入到模型的训练过程中,扩充后的核矩阵形式如下:
Figure BDA0002055288860000122
在上式中,N为样本规模,其中已标记样本数量为L(对应步骤S12中的XL),未标记样本数量为S(对应步骤S12中更新后的XU),N=L+S,{XL,yL}为已标记样本集,{XS}为未标记样本集。通过列上的扩充,该矩阵不仅包含了已标记样本的信息同时也包含了未标记样本的信息。
S23、本发明将核矩阵扩充的方法应用到相关向量机模型中,根据此前的参数通过一系列的推导计算权重w的均值和方差ΣN,N并估计超参数α。首先,可以推导出基于核矩阵扩充的直推式相关向量机(FRVM)模型,该模型可用公式(11)表示,用于描述样本x属于该类别的概率:
Figure BDA0002055288860000131
其中,权重w为N维向量,w=(w0,w1,w2,...,wN)T;ΦL,L+S为步骤S22计算得出的扩充核矩阵。对样本目标真实值t引入的是伯努利分布,其似然函数为:
Figure BDA0002055288860000132
这里的wi服从均值为0,方差为
Figure BDA0002055288860000133
的高斯条件概率分布,φ(xl)是以样本xl与其它样本的核函数值为元素的核向量,根据贝叶斯准则,可以得到权重w的对数后验概率为:
Figure BDA0002055288860000134
其中,A=diag(α012,...,αN)。
通过最大化w的后验概率,可以求得目标函数H(w)如下:
Figure BDA0002055288860000141
进一步求解H(w)的梯度和Hessian矩阵,然后对其使用牛顿拉普森迭代,可以得到权重w的均值和方差如下:
Figure BDA0002055288860000142
Figure BDA0002055288860000143
其中,BL×L为L×L的对角阵,对角元素为bl=yl(1-yl)。通过拉普拉斯近似和贝叶斯信息准则计算边缘似然概率p(t|α),最终得到对数边缘似然函数为:
Figure BDA0002055288860000144
其中,C=ΦL,NAN,NΦL,N T+BL,L
Figure BDA0002055288860000145
通过使用对式(17)第二类极大似然法最大化p(t|α)来进行计算更新超参数α;
S24、从模型中删除对应αi为无穷大的基向量。并重新根据步骤S23的公式(15)和(16)计算权重w的均值和方差ΣN,N,并根据式(17)重新估计超参数α,删除对应αi为无穷大的基向量。重复本步骤,直到达到收敛条件。收敛后的结果即为初始的GMM-FRVM模型。
S3、基于GMM-FRVM模型计算各个未标记样本的后验概率,根据样本后验概率选择不确定性最大的样本,提供给专家进行标注并加入训练集,然后更新已标记样本集和未标记样本集;
步骤S3的具体方法为:
S31、基于GMM-FRVM模型计算出各个未标记样本的不确定性,然后选择出不确定性最大的样本,选择公式如下所示:
Figure BDA0002055288860000151
其中,
Figure BDA0002055288860000152
是模型预测的样本x最可能的类,
Figure BDA0002055288860000153
是关于样本x的后验概率,后验概率最小,则样本的不确定性就越大。
S32、对S31所选择的样本进行标注,然后更新样本集,XU=XU-{(xj,labels(xj))},XL=XL∪{(xj,lables(xj))};
S4、基于更新后的已标记样本集和未标记样本集重新训练GMM-FRVM模型,获得相关向量以及权重等参数。如果不满足终止条件,回到第S3步,否则,方法终止,即得到最终的GMM-FRVM模型;
步骤S4中,同时使用XL和XU重新训练GMM-FRVM模型,获得相关向量RVs以及权重w。如果不满足预设定的终止条件,回到S31步继续迭代,直到达到终止条件,得到最终的GMM-FRVM模型。
S5、采用最终的GMM-FRVM模型完成分类标记。
图2描述了GMM-FRVMAL方法过程中随着查询样本数量的增多模型变化的情况,其中,未标记样本和相关向量分别用‘△’和‘◎’表示。在查询样本数L=0时,已标记样本集中只有10个初始样本,得到的模型性能欠佳,在循环查询阶段,每次迭代中选择一个信息量最大的样本进行标注加入训练集,总共进行了50次迭代,随着查询样本数的增多,模型的性能逐渐提升。GMM-FRVMAL方法充分捕捉了样本的整体特性,获得的决策边界较好地区分了不同种类的样本。图2中,(a)L=0,(b)L=10,(c)L=20,(d)L=30,(e)L=40,(f)L=50;从(a)至(f)中可以知道基于不确定性的样本筛选策略倾向于选择接近决策边界的样本点进行标注,通过对不确定的点进行标注来改善模型,提升模型性能。
本发明方法的一个具体实施例如下:
本发明的一个具体实施应用是将该发明方法应用到文本分类中,根据文档主题对文本进行分类。数据输入采用数据集的是文本分类数据集20Newgroup。该数据集包含来自不同新闻组的大约20000篇文章,每个新闻组都是关于一个不同的主题,一共有20个主题。在本实施应用中,抽取其中8个主题的数据作为实验数据,并将该实验数据分成两部分,一部分作为训练集(60%),另一部分作为测试集(40%)。对这8个主题的数据分别以各个主题为正类可构造8个不同的二分类数据集,每个主题训练集大约有600个样本,测试集大约有400个样本。
这8个数据集的主题分别是:sci.space,rec.motorcycles,misc.forsale,rec.sport.hockey,com.graphics,talk.politics.guns,talk.politics.mideast和sci.crypt。
该数据集是文本数据,首先使用TF-IDF算法对文本进行预处理,计算文本中各词的词频-逆向文件频率指数,将文本转化为可进行统计分析的数值向量,即样本特征向量。
实验开始时,数据集不带任何样本标签。利用混合高斯模型训练所有样本求得各高斯分量参数,取K=8。对各个聚类中心不断随机选取离其最近的样本进行标注,构成样本数为100的初始训练集,计算核扩充矩阵并构建初始的基于混合高斯核的直推式相关向量机(GMM-FRVMAL)模型。接下来循环查询100次训练集中不确定性最大的样本进行标注并重新训练GMM-FRVM模型,循环查询结束后得到最终的GMM-FRVM模型。最后用最终的学习模型对测试集样本进行预测分类。为了更好地体现方法的优势,本实验对比了两种传统主动学习方法RVMALrand和RVMALcluster在该数据集中的分类效果,以评估标准F1值为方法性能的指标。实验结果中,在sci.space数据集下,RVMALrand的F1值为72.15%,RVMALcluster的F1值为73.09%,本发明方法GMM-FRVMAL下的F1值为78.74%;在rec.motorcycles数据集下,RVMALrand的F1值为76.68%,RVMALcluster的F1值为83.85%,GMM-FRVMAL下的F1值为89.23%;在misc.forsale数据集下,RVMALrand的F1值为68.87%,RVMALcluster的F1值为74.26%,GMM-FRVMAL下的F1值为78.20%;在rec.sport.hockey数据集下,RVMALrand的F1值为87.44%,RVMALcluster的F1值为88.78%,GMM-FRVMAL下的F1值为91.47%;在com.graphics数据集下,RVMALrand的F1值为69.66%,RVMALcluster的F1值为72.92%,GMM-FRVMAL下的F1值为78.91%;在talk.politics.guns数据集下,RVMALrand的F1值为62.70%,RVMALcluster的F1值为67.77%,GMM-FRVMAL下的F1值为77.47%;在talk.politics.mideast数据集下,RVMALrand的F1值为77.76%,RVMALcluster的F1值为80.31%,GMM-FRVMAL下的F1值为88.85%;在sci.crypt数据集下,RVMALrand的F1值为70.89%,RVMALcluster的F1值为75.57%,GMM-FRVMAL下的F1值为81.52%;
图3用图表的形式对比了不同主动学习方法关于各个主题数据集的预测结果。图4描述了各方法关于4个主题数据集的F1值变化情况,其中,(a)为sci.space,(b)为rec.motorcycles,(c)为misc.forsale,(d)为rec.sport.hockey;随着查询样本数的上升,各方法的F1值呈现上升趋势,其中GMM-FRVMAL方法的F1值一直领先于RVMALrand和RVMALcluster方法,并且它的收敛速度也更快,能通过较少的样本标注获得更高的预测性能。另外,由于GMM-FRVMAL通过构造GMM-FRVM分类器进行模型预测和样本选择,得益于该分类模型抓取样本整体特征的能力,起始时GMM-FRVMAL方法就拥有了较高的F1值,体现了GMM-FRVMAL分类器在主动学习场景下较强的适应性。
由此可见,本发明方法训练出的GMM-FRVM模型的效果明显优于另外两种,本发明的方法能有效进行文本的分类预测,并从大量未标记的文档中有策略地筛选信息量大的文档进行标注,通过尽量少的标注获得较优的预测性能。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (5)

1.一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法,其特征在于,包括以下步骤:
1)根据文档主题对文本进行抽取,对抽取的数据分别以各个主题为正类构造各文档主题的二分类数据集,将数据集一部分作为训练集,另一部分作为测试集;
各文档主题的二分类数据集是文本数据,首先使用TF-IDF算法对文本进行预处理,计算文本中各词的词频-逆向文件频率指数,将文本转化为可进行统计分析的数值向量,即样本特征向量;
对包括已标记样本和未标记样本的所有样本,采用混合高斯模型训练所有样本得到各个高斯分量的混合系数、均值和协方差;
2)在未标注样本集XU中分别随机选取离各个簇聚类中心点最近的点进行标注后作为初始样本点,构建初始训练集XL,将初始训练集作为已标记样本集,并更新未标注样本集XU;
3)基于各个高斯分量及其对应协方差矩阵和混合系数构建混合高斯核函数,计算扩充的核矩阵,并构建初始的基于混合高斯核的直推式相关向量机模型GMM-FRVM;
4)基于GMM-FRVM模型计算各个未标记样本的后验概率,根据样本后验概率选择不确定性最大的样本,对其进行标注并加入训练集,然后更新已标记样本集和未标记样本集;
5)基于步骤4)中更新后的已标记样本集和未标记样本集重新训练GMM-FRVM模型,获得相关向量以及权重参数;如果满足终止条件,即得到最终的GMM-FRVM模型,否则,回到第4)步,重新计算;
6)采用最终的GMM-FRVM模型完成所有样本的分类标记。
2.根据权利要求1所述的基于混合高斯模型和稀疏贝叶斯的主动学习分类方法,其特征在于,所述步骤1)中,对于所有样本,设高斯分量的个数是K,即聚类簇的个数为K,混合高斯模型表示为:
Figure FDA0002833616520000021
其中,πk为每个分量的权重,也就是混合系数;x为样本,μk为每个高斯分量的均值,Σk为每个高斯分量的协方差,K为分量个数。
3.根据权利要求1或2所述的基于混合高斯模型和稀疏贝叶斯的主动学习分类方法,其特征在于,所述步骤1)中,所述采用混合高斯模型训练所有样本得到各个高斯分量的混合系数、均值和协方差,具体为:通过混合高斯模型训练所有样本,使用期望最大化方法,将众多未知参数设置成隐变量,计算求解如下公式得到样本集各个高斯分量的混合系数πk、均值μk和协方差矩阵Σk,其中,K为分量个数;
Figure FDA0002833616520000031
其中,N为样本规模。
4.根据权利要求1所述的基于混合高斯模型和稀疏贝叶斯的主动学习分类方法,其特征在于,所述步骤3)中构建初始的基于混合高斯核的直推式相关向量机模型GMM-FRVM,包括以下步骤:
3.1)利用上述步骤得出的混合系数、混合高斯分量及协方差矩阵来构建混合高斯核函数,并初始化核参数γ;
所述混合高斯核函数公式如下:
Figure FDA0002833616520000032
其中,γ是高斯核函数中的超参数,xi,xj为样本点,πk和Σk为对应高斯分量混合系数和协方差,K为高斯分量的个数;
3.2)根据相关向量机的原理,其分类函数可以表示为:
y(x,w)=σ(wTφ(x))=σ(Φw) (4)
其中,Φ是核函数矩阵,对于分类模型未引入偏置的相关向量机,其核矩阵Φ表示为如下方式:
Figure FDA0002833616520000041
其中,K(xi,xj)表示关于xi和xj的核函数,即步骤3.1)中的混合高斯核函数;
对核矩阵进行了扩充,将未标记样本引入到模型的训练过程中,扩充后的核矩阵形式如下:
Figure FDA0002833616520000042
在上式中,N为样本规模,其中已标记样本数量为L列,未标记样本数量为S列,N=L+S,{xL,yL}为已标记样本集,{xS}为未标记样本集;通过扩充,该矩阵不仅包含了已标记样本的信息同时也包含了未标记样本的信息;
3.3)计算权重w的均值和方差ΣN,N,并估计超参数α;
首先,获得基于核矩阵扩充的直推式相关向量机FRVM模型,该模型采用以下公式表示,用于描述样本x属于该样本所属的类别的概率:
Figure FDA0002833616520000043
其中,权重w为N维向量,w=(w0,w1,w2,...,wN)T;ΦL,L+S为步骤3.2)计算得出的扩充核矩阵,N=L+S;
对样本目标真实值t引入伯努利分布,其似然函数为:
Figure FDA0002833616520000051
式中,wi服从均值为0,方差为
Figure FDA0002833616520000052
的高斯条件概率分布,φ(xl)是以样本xl与其它样本的核函数值为元素的核向量,根据贝叶斯准则,得到权重w的对数后验概率为:
Figure FDA0002833616520000053
其中,A=diag(α012,...,αN);C1为常数;
通过最大化w的后验概率,求得目标函数H(w)如下:
Figure FDA0002833616520000054
其中,C2和C3为常数;
求解H(w)的梯度和Hessian矩阵,然后对其使用牛顿拉普森迭代,得到权重w的均值和方差如下:
Figure FDA0002833616520000061
Figure FDA0002833616520000062
其中,BL,L为L×L的对角阵,对角元素为bl=yl(1-yl);通过拉普拉斯近似和贝叶斯信息准则计算边缘似然概率p(t|α),最终得到对数边缘似然函数为:
Figure FDA0002833616520000063
其中,C=ΦL,NAN,NΦL,N T+BL,L
Figure FDA0002833616520000064
通过对上式使用第二类极大似然法最大化p(t|α)来进行计算更新超参数α;
3.4)从模型中删除对应αi为无穷大的基向量,并重新根据步骤3.3)的权重w的均值和方差公式计算权重w的均值和方差ΣN,N,并根据对数边缘似然函数重新估计超参数α,删除对应αi为无穷大的基向量,重复本步骤,直到达到收敛条件,收敛后的结果即为初始的GMM-FRVM模型。
5.根据权利要求1所述的基于混合高斯模型和稀疏贝叶斯的主动学习分类方法,其特征在于,所述步骤4)中根据样本后验概率选择不确定性最大的样本,具体如下:基于GMM-FRVM模型计算出各个未标记样本的不确定性,然后选择出不确定性最大的样本,选择公式如下所示:
Figure FDA0002833616520000065
其中,
Figure FDA0002833616520000071
是模型预测的样本x最可能的类,
Figure FDA0002833616520000072
是关于样本x的后验概率,后验概率最小,则样本的不确定性最大。
CN201910387355.3A 2019-05-10 2019-05-10 一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法 Active CN110197286B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910387355.3A CN110197286B (zh) 2019-05-10 2019-05-10 一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910387355.3A CN110197286B (zh) 2019-05-10 2019-05-10 一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法

Publications (2)

Publication Number Publication Date
CN110197286A CN110197286A (zh) 2019-09-03
CN110197286B true CN110197286B (zh) 2021-03-16

Family

ID=67752542

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910387355.3A Active CN110197286B (zh) 2019-05-10 2019-05-10 一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法

Country Status (1)

Country Link
CN (1) CN110197286B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110879971B (zh) * 2019-10-23 2023-06-13 上海宝信软件股份有限公司 工业生产设备运行异常情况预测方法及系统
CN110795841B (zh) * 2019-10-24 2021-10-22 北京交通大学 一种间歇性能源出力不确定性的数学建模方法
CN110918651B (zh) * 2019-12-06 2020-12-01 东北大学 基于多分类支持向量机的钢铁冷轧精整生产原料分配方法
CN111027453B (zh) * 2019-12-06 2022-05-17 西北工业大学 基于高斯混合模型的非合作水中目标自动识别方法
CN112149721B (zh) * 2020-09-10 2023-11-17 南京大学 一种基于主动学习降低标注需求的目标检测方法
CN112185484A (zh) * 2020-10-13 2021-01-05 华北科技学院 一种基于AdaBoost模型的水质特征矿泉水分类方法
CN112363465B (zh) * 2020-10-21 2022-04-01 北京工业大数据创新中心有限公司 一种专家规则集训练方法、训练器和工业设备预警系统
CN113221960B (zh) * 2021-04-20 2023-04-18 西北大学 一种高质量漏洞数据收集模型的构建方法及收集方法
CN113312851A (zh) * 2021-06-16 2021-08-27 华电山东新能源有限公司 一种风力发电机主轴承温度异常预警方法
CA3222713A1 (en) * 2021-06-16 2022-12-22 Mihaela VLASEA Method and system for active learning using adaptive weighted uncertainty sampling (awus)
CN113722961B (zh) * 2021-09-01 2024-02-13 浙江大学 一种基于广义协同高斯过程模型的结构不确定性量化解析方法
CN114092472B (zh) * 2022-01-19 2022-05-03 宁波海棠信息技术有限公司 一种缺陷检测中不确定样本的检测方法、装置及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250988A (zh) * 2016-07-28 2016-12-21 武汉理工大学 基于样本特性的相关向量回归增量学习算法及系统
CN106846321A (zh) * 2016-12-08 2017-06-13 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于贝叶斯概率与神经网络的图像分割方法
CN107358945A (zh) * 2017-07-26 2017-11-17 谢兵 一种基于机器学习的多人对话音频识别方法及系统
CN107437112A (zh) * 2017-04-19 2017-12-05 武汉理工大学 一种基于改进多尺度核函数的混合rvm模型预测方法
CN108804784A (zh) * 2018-05-25 2018-11-13 江南大学 一种基于贝叶斯高斯混合模型的即时学习软测量建模方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150228015A1 (en) * 2014-02-13 2015-08-13 Xerox Corporation Methods and systems for analyzing financial dataset

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250988A (zh) * 2016-07-28 2016-12-21 武汉理工大学 基于样本特性的相关向量回归增量学习算法及系统
CN106846321A (zh) * 2016-12-08 2017-06-13 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于贝叶斯概率与神经网络的图像分割方法
CN107437112A (zh) * 2017-04-19 2017-12-05 武汉理工大学 一种基于改进多尺度核函数的混合rvm模型预测方法
CN107358945A (zh) * 2017-07-26 2017-11-17 谢兵 一种基于机器学习的多人对话音频识别方法及系统
CN108804784A (zh) * 2018-05-25 2018-11-13 江南大学 一种基于贝叶斯高斯混合模型的即时学习软测量建模方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A Mixed Mahalanobis Kernel for Sparse Bayesian Classification;Mi Tong 等;《2018 5th International Conference on Information Science and Control Engineering》;20181231;全文 *
A Relevance Vector Machine Based on Gaussian Mixture Kernel;Tong M 等;《2018 International Conference on Mechanical, Electronic, Control and Automation Engineering》;20181231;全文 *
Sparse Bayesian Learning and the Relevance Vector Machine;Tipping M E;《Journal of Machine Learning Research》;20011231;全文 *
一种基于变分相关向量机的特征选择和分类结合方法;徐丹蕾 等;《自动化学报》;20111231;全文 *

Also Published As

Publication number Publication date
CN110197286A (zh) 2019-09-03

Similar Documents

Publication Publication Date Title
CN110197286B (zh) 一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法
Mishina et al. Boosted random forest
Sun et al. Local-learning-based feature selection for high-dimensional data analysis
Buehlmann Boosting for high-dimensional linear models
Li et al. Simple exponential family PCA
CN106971091B (zh) 一种基于确定性粒子群优化和支持向量机的肿瘤识别方法
Fan et al. Axially symmetric data clustering through Dirichlet process mixture models of Watson distributions
CN113380255B (zh) 一种基于迁移训练的声纹识别中毒样本生成方法
Asadi et al. Creating discriminative models for time series classification and clustering by HMM ensembles
Chen et al. SS-HCNN: Semi-supervised hierarchical convolutional neural network for image classification
CN112232395A (zh) 一种基于联合训练生成对抗网络的半监督图像分类方法
Gu et al. Robust semi-supervised classification for noisy labels based on self-paced learning
CN108549915B (zh) 基于二值权重的图像哈希码训练模型算法及分类学习方法
CN110619311A (zh) 一种基于eemd-ica-svm的数据分类方法
Thai et al. Inverse covariance estimation from data with missing values using the concave-convex procedure
CN107563287B (zh) 人脸识别方法和装置
CN113378910B (zh) 一种基于纯净标签的电磁信号调制类型识别的中毒攻击方法
Wei et al. Robust feature selection based on regularized brownboost loss
Lomakina et al. Text structures synthesis on the basis of their system-forming characteristics
CN111222570B (zh) 基于差分隐私的集成学习分类方法
CN114692746A (zh) 一种基于信息熵的模糊半监督支持向量机的分类方法
Mohammadpour et al. AdaBoost performance improvement using PSO algorithm
Fan et al. A Few-shot Learning algorithm based on attention adaptive mechanism
CN113806543A (zh) 一种基于残差跳跃连接的门控循环单元的文本分类方法
CN108304546B (zh) 一种基于内容相似度和Softmax分类器的医学图像检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant