CN110197286B

CN110197286B - 一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法

Info

Publication number: CN110197286B
Application number: CN201910387355.3A
Authority: CN
Inventors: 刘芳; 马登峰; 王洪海; 李政颖; 陈钢; 赵洋
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2019-05-10
Filing date: 2019-05-10
Publication date: 2021-03-16
Anticipated expiration: 2039-05-10
Also published as: CN110197286A

Abstract

本发明公开了一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法，该方法包括以下步骤：1)对包括已标记样本和未标记样本的所有样本，采用混合高斯模型训练所有样本得到各个高斯分量的混合系数、均值和协方差；2)构建初始训练集XL，将初始训练集作为已标记样本集，并更新未标注样本集XU；3)构建初始的基于混合高斯核的直推式相关向量机模型GMM‑FRVM；4)基于GMM‑FRVM模型更新已标记样本集和未标记样本集；5)基于更新后的已标记样本集和未标记样本集重新训练GMM‑FRVM模型；6)采用最终的GMM‑FRVM模型完成所有样本的分类标记。本发明方法通过混合高斯模型和稀疏贝叶斯相结合的主动学习的手段，通过尽量少的人工标注获得较优的分类效果。

Description

一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法

技术领域

本发明涉及机器学习领域，尤其涉及一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法。

背景技术

随着计算机相关技术的飞速发展，社会变得更加信息化，每天都会有大量的数据产生。在实际场景中，人们获得的大量数据都是未经标注标签的，传统监督学习方法在使用少部分有标签数据进行训练时因为样本规模小、信息少很难有较好的预测结果。人工标注样本需要消耗大量的时间和精力，甚至一些情况根本无法完成对大量样本的标注。基于这些问题，本发明提出了一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法。

主动学习通过不断从样本中筛选最具有价值的样本进行标注来扩充样本集，以此达到通过利用较少的样本训练出性能优良的分类器。本发明采用的主动学习方法是基于池的主动学习方法，其过程包含初始化和循环查询两个阶段。在初始化阶段中，从未标记样本集中筛选出部分样本，提供给专家进行标注，形成训练集建立初始模型。循环查询阶段中，根据某种选择策略，每次从未标记样本集中选取包含信息量最大的部分样本进行标注，然后更新已标记样本集，并重新训练模型。如此循环往复，直到达到停止标准为止。

混合高斯模型就是对多个高斯分布进行线性组合的一个混合模型，高斯分布具有很重要的分析性质，但是使用高斯分布来分析实际数据集会有很大的局限性。实际中的复杂数据使用简答的高斯分布并不能充分描述出其结构特征，但是如果使用足够多的高斯分布，调节不同高斯分布的均值、方差以及混合系数就可以描述非常复杂的概率密度形式。

相关向量机是一种典型的稀疏贝叶斯学习模型，它具有与支持向量机模型类似的核函数思想，但是与传统的支持向量机模型相比，它更具稀疏性，提供更灵活的核函数选择(不用满足Mercer定理)，同时还提供概率化的输出，可用来评估预测结果的置信度。由于传统的相关向量机模型一开始会将所有的基函数纳入训练，随着超参数的迭代更新，基函数才逐渐被淘汰。传统的相关向量机作为一种监督学习方法，仅使用已标记的数据作为训练集构建学习模型，容易造成样本规模小、预测性能差等问题。

发明内容

本发明要解决的技术问题在于针对现有技术中的缺陷，提供一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法。

本发明解决其技术问题所采用的技术方案是：一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法，包括以下步骤：

1)对包括已标记样本和未标记样本的所有样本，采用混合高斯模型训练所有样本得到各个高斯分量的混合系数、均值和协方差；

2)在未标注样本集XU中分别随机选取离各个簇聚类中心点最近的点进行标注后作为初始样本点，构建初始训练集XL，将初始训练集作为已标记样本集，并更新未标注样本集XU；

3)基于各个高斯分量及其对应协方差矩阵和混合系数构建混合高斯核函数，计算扩充的核矩阵，并构建初始的基于混合高斯核的直推式相关向量机模型GMM-FRVM；

4)基于GMM-FRVM模型计算各个未标记样本的后验概率，根据样本后验概率选择不确定性最大的样本，对其进行标注并加入训练集，然后更新已标记样本集和未标记样本集；

5)基于步骤4)中更新后的已标记样本集和未标记样本集重新训练GMM-FRVM模型，获得相关向量以及权重参数；如果满足终止条件，即得到最终的GMM-FRVM模型，否则，回到第4)步，重新计算；

6)采用最终的GMM-FRVM模型完成所有样本的分类标记。

按上述方案，所述步骤1)中，对于所有样本，设高斯分量的个数是K，即聚类簇的个数为K，混合高斯模型表示为：

其中，π_k为每个分量的权重，也就是混合系数；x为样本，μ_k为每个高斯分量的均值，Σ_k为每个高斯分量的协方差，K为分量个数。

按上述方案，所述步骤1)中，通过混合高斯模型训练所有样本，使用期望最大化方法，将众多未知参数设置成隐变量，计算求解如下公式得到样本集各个高斯分量的混合系数π_k、均值μ_k和协方差矩阵Σ_k，其中，K为分量个数；

按上述方案，所述步骤3)中构建初始的基于混合高斯核的直推式相关向量机模型GMM-FRVM，包括以下步骤：

3.1)利用上述步骤得出的混合系数、混合高斯分量及协方差矩阵来构建混合高斯核函数，并初始化核参数γ；

所述混合高斯核函数公式如下：

其中，γ是高斯核函数中的超参数，x_i,x_j为样本点，π_k和Σ_k为对应高斯分量混合系数和协方差；

3.2)根据相关向量机的原理，其分类函数可以表示为：

y(x,w)＝σ(w^Tφ(x))＝σ(Φw) (4)

其中，Φ是核函数矩阵，对于分类模型未引入偏置的相关向量机，其核矩阵Φ表示为如下方式：

其中，K(x_i,x_j)表示关于x_i和x_j的核函数，即步骤3.1)中的混合高斯核函数；

对核矩阵进行了扩充，将未标记样本引入到模型的训练过程中，扩充后的核矩阵形式如下：

在上式中，N为样本规模，其中已标记样本数量为L(对应步骤2)中的初始训练集XL)，未标记样本数量为S(对应步骤2)中更新后的XU)，N＝L+S，{X_L,y_L}为已标记样本集，{X_S}为未标记样本集；通过扩充，该矩阵不仅包含了已标记样本的信息同时也包含了未标记样本的信息；

3.3)计算权重w的均值和方差Σ_N,N，并估计超参数α；

首先，获得基于核矩阵扩充的直推式相关向量机FRVM模型，该模型采用以下公式表示，用于描述样本x属于该类别的概率：

其中，权重w为N维向量，w＝(w₀,w₁,w₂,...,w_N)^T；Φ_L,L+S为步骤3.2)计算得出的扩充核矩阵，N＝L+S；

对样本目标真实值t引入伯努利分布，其似然函数为：

式中，w_i服从均值为0，方差为

的高斯条件概率分布，φ(x_l)是以样本x_l与其它样本的核函数值为元素的核向量，根据贝叶斯准则，得到权重w的对数后验概率为：

其中，A＝diag(α₀,α₁,α₂,...,α_N)；C₁为常数；

通过最大化w的后验概率，求得目标函数H(w)如下：

其中，C₂和C₃为常数；

求解H(w)的梯度和Hessian矩阵，然后对其使用牛顿拉普森迭代，得到权重w的均值和方差如下：

其中，B_L×L为L×L的对角阵，对角元素为b_l＝y_l(1-y_l)；通过拉普拉斯近似和贝叶斯信息准则计算边缘似然概率p(t|α)，最终得到对数边缘似然函数为：

其中，C＝Φ_L,NA_N,NΦ_L,N ^T+B_L,L，

通过使用对上式第二类极大似然法最大化p(t|α)来进行计算更新超参数α；

3.4)从模型中删除对应α_i为无穷大的基向量，并重新根据步骤3.3)的权重w的均值和方差公式计算权重w的均值和方差Σ_N,N，并根据对数边缘似然函数重新估计超参数α，删除对应α_i为无穷大的基向量，重复本步骤，直到达到收敛条件，收敛后的结果即为初始的GMM-FRVM模型。

按上述方案，所述步骤4)中根据样本后验概率选择不确定性最大的样本，具体如下：基于GMM-FRVM模型计算出各个未标记样本的不确定性，然后选择出不确定性最大的样本，选择公式如下所示：

其中，

是模型预测的样本x最可能的类，

是关于样本x的后验概率，后验概率最小，则样本的不确定性最大。

本发明产生的有益效果是：本发明方法能有效对样本进行分类，通过混合高斯模型和稀疏贝叶斯相结合的主动学习的手段，从大量未标记的样本中有策略地筛选信息量最大的样本进行标注，可以通过尽量少的人工标注获得较优的分类效果。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例的方法流程图；

图2是本发明实施例的GMM-FRVMAL方法关于TwoMoons数据集的迭代过程示意图；

图3是本发明实施例的不同主动学习方法关于各个主题数据集的F1评估结果示意图；

图4是本发明实施例的各主题数据集中随着查询样本数上升F1值的变化情况示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法，包括以下步骤：

S1、利用混合高斯模型训练所有样本得到各个高斯分量的混合系数、均值和协方差，选取m个离各自聚类中心最近的样本点进行标注，建立初始训练集；

步骤S1的具体方法为：

S11、对于所有样本(包括已标记样本和未标记样本)，假设高斯分量的个数是K，即聚类簇的个数为K，则混合高斯模型可表示为：

其中，每个分量的权重为π_k，也就是混合系数，x为样本，μ_k为每个高斯分量的均值，Σ_k为每个高斯分量的协方差。

每个分量都是一个独立的高斯分布，并且各个高斯分量都是归一化的，容易得到：

通过如下公式计算模型的边缘概率：

对比式(1)，可得p(k)＝π_k，表示第k个高斯成分的先验概率，p(x|k)＝N(x|μ_k,Σ_k)是x关于第k个成分的概率分布。那么根据贝叶斯准则，可以得到k关于x的后验概率分布：

令π＝{π₁,π₂,...,π_K}，μ＝{μ₁,μ₂,...μ_K}，Σ＝{Σ₁,Σ₂,...,Σ_K}，则高斯混合模型由参数π,μ,Σ控制。随机变量X＝{x₁,x₂,...,x_N}，关于π,μ,Σ的对数似然函数为：

通过公式(5)，使用期望最大化方法，将众多未知参数设为隐变量，进行模型训练求解，得出混合高斯模型的参数π,μ,Σ；

S12、在未标注样本池XU中分别随机选取离簇聚类中心点最近的点进行标注后作为初始样本点，构建初始训练集XL，更新XU＝XU-XL。样本点选择策略中的距离函数为马氏距离函数，初始样本点选择公式如下：

其中,X_c,initial表示簇c的初始样本点，x_c,initial表示c的聚类中心，Σ_c表示簇c所在高斯分量的协方差矩阵。

S2、基于各个高斯分量及其对应协方差矩阵和混合系数构建混合高斯核函数，计算扩充的核矩阵，并构建初始的基于混合高斯核的直推式相关向量机(GMM-FRVM)模型；

步骤S2的具体方法为：

S21、初始化核参数γ和超参数α。利用上述步骤得出的混合系数、混合高斯分量及协方差矩阵来构建混合高斯核函数。本发明中构建的高斯核函数采用的是混合高斯距离，替代了原本高斯核中的欧式距离，新的混合高斯核函数公式如下：

其中γ是高斯核函数中的超参数，x_i,x_j为样本点，π_k和Σ_k为对应高斯分量混合系数和协方差。

混合高斯核函数中的混合高斯距离相比于利用欧氏距离作为核距离，在相关向量机模型训练中将样本的分布特性融入到模型的学习过程中，提高了模型预测的精确度。

S22、根据相关向量机的原理，其分类函数可以表示为：

y(x,w)＝σ(w^Tφ(x))＝σ(Φw) (8)

其中Φ是核函数矩阵，对于分类模型未引入偏置的相关向量机，其核矩阵Φ表示为如下方式：

其中，K(x_i,x_j)表示关于x_i和x_j的核函数，即步骤S21中的混合高斯核函数，如公式(7)所示。

为了充分考虑未标记样本的信息，本发明对核矩阵进行了扩充，将未标记样本引入到模型的训练过程中，扩充后的核矩阵形式如下：

在上式中，N为样本规模，其中已标记样本数量为L(对应步骤S12中的XL)，未标记样本数量为S(对应步骤S12中更新后的XU)，N＝L+S，{X_L,y_L}为已标记样本集，{X_S}为未标记样本集。通过列上的扩充，该矩阵不仅包含了已标记样本的信息同时也包含了未标记样本的信息。

S23、本发明将核矩阵扩充的方法应用到相关向量机模型中，根据此前的参数通过一系列的推导计算权重w的均值和方差Σ_N,N并估计超参数α。首先，可以推导出基于核矩阵扩充的直推式相关向量机(FRVM)模型，该模型可用公式(11)表示，用于描述样本x属于该类别的概率：

其中，权重w为N维向量，w＝(w₀,w₁,w₂,...,w_N)^T；Φ_L,L+S为步骤S22计算得出的扩充核矩阵。对样本目标真实值t引入的是伯努利分布，其似然函数为：

这里的w_i服从均值为0，方差为

的高斯条件概率分布，φ(x_l)是以样本x_l与其它样本的核函数值为元素的核向量，根据贝叶斯准则，可以得到权重w的对数后验概率为：

其中，A＝diag(α₀,α₁,α₂,...,α_N)。

通过最大化w的后验概率，可以求得目标函数H(w)如下：

进一步求解H(w)的梯度和Hessian矩阵，然后对其使用牛顿拉普森迭代，可以得到权重w的均值和方差如下：

其中，B_L×L为L×L的对角阵，对角元素为b_l＝y_l(1-y_l)。通过拉普拉斯近似和贝叶斯信息准则计算边缘似然概率p(t|α)，最终得到对数边缘似然函数为：

其中，C＝Φ_L,NA_N,NΦ_L,N ^T+B_L,L，

通过使用对式(17)第二类极大似然法最大化p(t|α)来进行计算更新超参数α；

S24、从模型中删除对应α_i为无穷大的基向量。并重新根据步骤S23的公式(15)和(16)计算权重w的均值和方差Σ_N,N，并根据式(17)重新估计超参数α，删除对应α_i为无穷大的基向量。重复本步骤，直到达到收敛条件。收敛后的结果即为初始的GMM-FRVM模型。

S3、基于GMM-FRVM模型计算各个未标记样本的后验概率，根据样本后验概率选择不确定性最大的样本，提供给专家进行标注并加入训练集，然后更新已标记样本集和未标记样本集；

步骤S3的具体方法为：

S31、基于GMM-FRVM模型计算出各个未标记样本的不确定性，然后选择出不确定性最大的样本，选择公式如下所示：

其中，

是模型预测的样本x最可能的类，

是关于样本x的后验概率，后验概率最小，则样本的不确定性就越大。

S32、对S31所选择的样本进行标注，然后更新样本集，XU＝XU-{(x_j,labels(x_j))}，XL＝XL∪{(x_j,lables(x_j))}；

S4、基于更新后的已标记样本集和未标记样本集重新训练GMM-FRVM模型，获得相关向量以及权重等参数。如果不满足终止条件，回到第S3步，否则，方法终止，即得到最终的GMM-FRVM模型；

步骤S4中，同时使用XL和XU重新训练GMM-FRVM模型，获得相关向量RVs以及权重w。如果不满足预设定的终止条件，回到S31步继续迭代，直到达到终止条件，得到最终的GMM-FRVM模型。

S5、采用最终的GMM-FRVM模型完成分类标记。

图2描述了GMM-FRVMAL方法过程中随着查询样本数量的增多模型变化的情况，其中，未标记样本和相关向量分别用‘△’和‘◎’表示。在查询样本数L＝0时，已标记样本集中只有10个初始样本，得到的模型性能欠佳，在循环查询阶段，每次迭代中选择一个信息量最大的样本进行标注加入训练集，总共进行了50次迭代，随着查询样本数的增多，模型的性能逐渐提升。GMM-FRVMAL方法充分捕捉了样本的整体特性，获得的决策边界较好地区分了不同种类的样本。图2中，(a)L＝0，(b)L＝10，(c)L＝20，(d)L＝30，(e)L＝40，(f)L＝50；从(a)至(f)中可以知道基于不确定性的样本筛选策略倾向于选择接近决策边界的样本点进行标注，通过对不确定的点进行标注来改善模型，提升模型性能。

本发明方法的一个具体实施例如下：

本发明的一个具体实施应用是将该发明方法应用到文本分类中，根据文档主题对文本进行分类。数据输入采用数据集的是文本分类数据集20Newgroup。该数据集包含来自不同新闻组的大约20000篇文章，每个新闻组都是关于一个不同的主题，一共有20个主题。在本实施应用中，抽取其中8个主题的数据作为实验数据，并将该实验数据分成两部分，一部分作为训练集(60％)，另一部分作为测试集(40％)。对这8个主题的数据分别以各个主题为正类可构造8个不同的二分类数据集，每个主题训练集大约有600个样本，测试集大约有400个样本。

这8个数据集的主题分别是：sci.space，rec.motorcycles，misc.forsale，rec.sport.hockey，com.graphics，talk.politics.guns，talk.politics.mideast和sci.crypt。

该数据集是文本数据，首先使用TF-IDF算法对文本进行预处理，计算文本中各词的词频-逆向文件频率指数，将文本转化为可进行统计分析的数值向量，即样本特征向量。

实验开始时，数据集不带任何样本标签。利用混合高斯模型训练所有样本求得各高斯分量参数，取K＝8。对各个聚类中心不断随机选取离其最近的样本进行标注，构成样本数为100的初始训练集，计算核扩充矩阵并构建初始的基于混合高斯核的直推式相关向量机(GMM-FRVMAL)模型。接下来循环查询100次训练集中不确定性最大的样本进行标注并重新训练GMM-FRVM模型，循环查询结束后得到最终的GMM-FRVM模型。最后用最终的学习模型对测试集样本进行预测分类。为了更好地体现方法的优势，本实验对比了两种传统主动学习方法RVMAL_rand和RVMAL_cluster在该数据集中的分类效果，以评估标准F₁值为方法性能的指标。实验结果中，在sci.space数据集下，RVMAL_rand的F₁值为72.15％，RVMAL_cluster的F₁值为73.09％，本发明方法GMM-FRVMAL下的F₁值为78.74％；在rec.motorcycles数据集下，RVMAL_rand的F₁值为76.68％，RVMAL_cluster的F₁值为83.85％，GMM-FRVMAL下的F₁值为89.23％；在misc.forsale数据集下，RVMAL_rand的F₁值为68.87％，RVMAL_cluster的F₁值为74.26％，GMM-FRVMAL下的F₁值为78.20％；在rec.sport.hockey数据集下，RVMAL_rand的F₁值为87.44％，RVMAL_cluster的F₁值为88.78％，GMM-FRVMAL下的F₁值为91.47％；在com.graphics数据集下，RVMAL_rand的F₁值为69.66％，RVMAL_cluster的F₁值为72.92％，GMM-FRVMAL下的F₁值为78.91％；在talk.politics.guns数据集下，RVMAL_rand的F₁值为62.70％，RVMAL_cluster的F₁值为67.77％，GMM-FRVMAL下的F₁值为77.47％；在talk.politics.mideast数据集下，RVMAL_rand的F₁值为77.76％，RVMAL_cluster的F₁值为80.31％，GMM-FRVMAL下的F₁值为88.85％；在sci.crypt数据集下，RVMAL_rand的F₁值为70.89％，RVMAL_cluster的F₁值为75.57％，GMM-FRVMAL下的F₁值为81.52％；

图3用图表的形式对比了不同主动学习方法关于各个主题数据集的预测结果。图4描述了各方法关于4个主题数据集的F1值变化情况，其中，(a)为sci.space，(b)为rec.motorcycles，(c)为misc.forsale，(d)为rec.sport.hockey；随着查询样本数的上升，各方法的F1值呈现上升趋势，其中GMM-FRVMAL方法的F1值一直领先于RVMAL_rand和RVMAL_cluster方法，并且它的收敛速度也更快，能通过较少的样本标注获得更高的预测性能。另外，由于GMM-FRVMAL通过构造GMM-FRVM分类器进行模型预测和样本选择，得益于该分类模型抓取样本整体特征的能力，起始时GMM-FRVMAL方法就拥有了较高的F1值，体现了GMM-FRVMAL分类器在主动学习场景下较强的适应性。

由此可见，本发明方法训练出的GMM-FRVM模型的效果明显优于另外两种，本发明的方法能有效进行文本的分类预测，并从大量未标记的文档中有策略地筛选信息量大的文档进行标注，通过尽量少的标注获得较优的预测性能。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法，其特征在于，包括以下步骤：

1)根据文档主题对文本进行抽取，对抽取的数据分别以各个主题为正类构造各文档主题的二分类数据集，将数据集一部分作为训练集，另一部分作为测试集；

各文档主题的二分类数据集是文本数据，首先使用TF-IDF算法对文本进行预处理，计算文本中各词的词频-逆向文件频率指数，将文本转化为可进行统计分析的数值向量，即样本特征向量；

对包括已标记样本和未标记样本的所有样本，采用混合高斯模型训练所有样本得到各个高斯分量的混合系数、均值和协方差；

6)采用最终的GMM-FRVM模型完成所有样本的分类标记。

2.根据权利要求1所述的基于混合高斯模型和稀疏贝叶斯的主动学习分类方法，其特征在于，所述步骤1)中，对于所有样本，设高斯分量的个数是K，即聚类簇的个数为K，混合高斯模型表示为：

3.根据权利要求1或2所述的基于混合高斯模型和稀疏贝叶斯的主动学习分类方法，其特征在于，所述步骤1)中，所述采用混合高斯模型训练所有样本得到各个高斯分量的混合系数、均值和协方差，具体为：通过混合高斯模型训练所有样本，使用期望最大化方法，将众多未知参数设置成隐变量，计算求解如下公式得到样本集各个高斯分量的混合系数π_k、均值μ_k和协方差矩阵Σ_k，其中，K为分量个数；