CN108268469A

CN108268469A - 一种基于混合多项分布的文本分类算法

Info

Publication number: CN108268469A
Application number: CN201611254483.3A
Authority: CN
Inventors: 许飞月; 陶波; 陈乐焱
Original assignee: Guangdong Fine Point Data Polytron Technologies Inc
Current assignee: Guangdong Fine Point Data Polytron Technologies Inc
Priority date: 2016-12-30
Filing date: 2016-12-30
Publication date: 2018-07-10
Anticipated expiration: 2036-12-30
Also published as: CN108268469B

Abstract

本发明提供一种基于混合多项分布的文本分类算法，包括以下步骤：S1：输入训练集文本；S2：计算并保存所有文本类别C的概率分布；S3：初始化混合多项分布的参数值θ、π_k以及分量个数K；S4：使用当前参数值θ、π_k,计算完整数据的对数似然函数关于隐藏变量后验概率分布的期望；S5：用EM算法训练混合多项分布的参数值θ、π_k；S6：对不同的所述分量个数K，分别画出模型对测试集和所述训练集的预测误差图线，选择预测误差最小的K值；S7：输出结果。本发明的有益效果在于，本发明将朴素贝叶斯算法结合混合多项分布，用EM算法对混合模型的参数进行估计，以提高模型的分类精度。

Description

一种基于混合多项分布的文本分类算法

技术领域

本发明涉及一种文本分类算法，尤其涉及一种基于混合多项分布的文本分类算法。

背景技术

随着网上在线文本的大量涌现和机器学习的兴起，大规模的文本分类和检索引起研究者的兴趣。大量的结果表明，基于统计学习的方法，文本分类精度高，能适用于任何领域的学习，使得它成为目前文本分类的主流方法。

传统的基于朴素贝叶斯的文本分类算法假定在给定的文本类别下，各个文本特征向量属性是独立同分布，由于假设简单，基于朴素贝叶斯的文本分类算法计算复杂度小，在某些情况下也能取得较好的分类效果，然而在实际任务中，这种条件独立性假设很难成立，局限性很大，需要考虑对属性条件独立性假设进行一定程度的放松。

鉴于上述缺陷，本发明创作者经过长时间的研究和实践终于获得了本发明。

发明内容

为解决上述问题，本发明采用的技术方案在于，提供一种基于混合多项分布的文本分类算法，包括以下步骤：

S1：输入训练集，其文本的类别集合为C＝{C₁,C₂,...,C_S}，所述文本的属性特征集合为x＝{x₁,x₂,...,x_d}；

S2：计算并保存所有文本类别为C_j的概率分布，j＝1,2……S；

S3：初始化混合多项分布的概率参数θ、权重π_k以及分量个数K；

S4：使用当前参数值θ、π_k,计算完整数据的对数似然函数关于隐藏变量后验概率分布的期望；

S5：用EM算法训练所述混合多项分布的参数值θ、π_k；

S6：对不同的所述分量个数K，分别画出模型对测试集和所述训练集的预测误差图线，选择预测误差最小的K值；

S7：输出文本类别C_j的概率分布p(C_j)，混合多项分布的分量个数K和参数值θ、π_k。

进一步，所述步骤S2中，根据朴素贝叶斯的规则，计算具有特征x文本的所属类别C_j的概率分布为：

式中：j＝1,2,3……S，p(C_j)表示训练集中文本类别为C_j的概率分布，p(x)表示训练集中具有特征x的文本的概率分布，p(x|C_j)表示某篇文本在属于类别C_j的条件下，其具有特征x的概率分布；

当具有特征x的文本属于所述类别C_j时，p(y＝C_j|x)＝1，否则p(y＝C_j|x)＝0，因此，所述类别C_j的概率分布为：

式中，|C|为文本中特征词的总个数，y是具有特征x的文本其所属的类别，N是训练集中文本的个数。

进一步，所述步骤S3中，假定所述p(x|C_j)服从混合多项分布，其形式为：

式中，D表示每篇文本中特征词的总个数；d表示训练集文本中特征词的个数；θ表示混合多项分布的概率参数；π_k表示多项分布混合的权重，且k表示分布p(x|C_j)其某个分量分布的序号；K表示分布p(x|C_j)的混合分量的个数且分布p(x|C_j)的每个分量中的θ_ki都需满足

进一步，所述步骤S3中：对于单个多项分布其期望值E[x]和方差cov[x]为：

μ＝E[x]＝Dθ,θ＝(θ₁,θ₂,...,θ_d)^T (5)

∑＝cov[x]＝DP (6)

式中，P是d×d的方阵，对角线上的元素为θ_i(1-θ_i),i＝1,2,...,d，非对角线第i行第j列的元素为-θ_iθ_j，E[x]表示在x满足条件概率分布p(x|θ,C_j)的情况下的期望值，cov[x]表示在x满足条件概率分布p(x|θ,C_j)的情况下的方差；

根据(5)(6)式，得到混合模型(3)式的期望值E[x]和方差cov[x]：

式中，P_k是d×d的方阵，对角线上的元素为θ_ki(1-θ_ki),i＝1,2,...,d，非对角线第i行第j列的元素为-θ_kiθ_kj。

进一步，所述步骤S4中，引入二值K维潜在变量z＝(z₁,z₂,...,z_K)^T，z只有一个元素等于1，其余元素等于0，因此给定潜在变量，得到x的条件概率分布：

式中，K表示的是潜在变量z的个数，此处的K值和概率分布p(x|θ,C_j)的分量个数K值相等，T指的是行向量(z₁,z₂,...,z_K)的转置；

潜在变量z的先验分布为：

根据式(9)(10)，计算得到完整数据的对数似然函数：

式中，

根据EM算法的步骤，计算(11)式关于隐藏变量后验概率分布的期望，得：

式中，

进一步，所述步骤S5，根据贝叶斯定理，对所述(12)式应用拉格朗日乘子法，得到参数的极大似然估计：

式中，

进一步，其特征在于，所述步骤S6中，对不同的分量个数K，将所述步骤S5得到的参数θ，π_k代入所述(3)式得到所有文本的预测类别，分别画出模型对测试集和所述训练集和的误分类率，选择误分类率最小的K值。

与现有技术比较本发明的有益效果在于：1.本发明将混合多项分布与朴素贝叶斯分类器组合起来，放松了朴素贝叶斯关于条件独立性假设，基于混合多项分布协方差矩阵非对角元素不为0的特点，考虑了文本属性特征之间的相关性，比朴素贝叶斯分类器更具有一般性；2.在估计混合多项分布参数的过程中，将p(x|θ,C_j)视作不完整数据的概率分布，用EM算法对其参数进行迭代训练，降低了参数估计的困难，可以得到最优的估计参数；3.混合多项分布在计算数据点关于给定类别的概率分布时考虑了文本中特征词出现的次数，相对伯努利模型仅考虑特征词是否出现而言，充分利用了样本中的信息，使得模型预测更精确。

附图说明

图1为本发明基于混合多项分布的文本分类算法的功能框图。

具体实施方式

以下结合附图，对本发明上述的和另外的技术特征和优点作更详细的说明。

请参阅图1，其为本发明基于混合多项分布的文本分类算法的功能框图。

如图1所示，一种基于混合多项分布的文本分类算法，包括以下步骤：

S2：计算并保存所有文本类别为C_j的概率分布，j＝1,2……S；

S5：用EM算法训练所述混合多项分布的参数值θ、π_k；

所述步骤S2中，根据朴素贝叶斯的规则，计算具有特征x文本的所属类别C_j的概率分布为：

式中：j＝1,2,3……S，p(C_j)表示训练集中文本类别为C_j的概率分布，p(x)表示训练集中具有特征x的文本的概率分布，p(x|C_j)表示某篇文本在属于类别C_j的条件下，其具有特征x的概率分布。

然后将文本x分到概率p(C_j|x)最大的那个类别中，由于对不同的类别C_j，先验概率是相同的，因此计算使p(C_j|x)最大的类别C_j等价于计算使得p(C_j)p(x|C_j)最大的类别。

所述步骤S3中，假定所述p(x|C_j)服从混合多项分布，其形式为：

对于单个多项分布(4)，其期望值E[x]和方差cov[x]为：

μ＝E[x]＝Dθ,θ＝(θ₁,θ₂,...,θ_d)^T (5)

∑＝cov[x]＝DP (6)

根据(5)(6)式，得到混合模型(3)式的期望值E[x]和方差cov[x]：

所述步骤S4中，引入二值K维潜在变量z＝(z₁,z₂,...,z_K)^T，z只有一个元素等于1，其余元素等于0，因此给定潜在变量，得到x的条件概率分布：

潜在变量z的先验分布为：

根据式(9)(10)，计算得到完整数据的对数似然函数：

式中，

所述步骤S5，根据贝叶斯定理，对所述(12)式应用拉格朗日乘子法，得到参数的极大似然估计：

式中，

所述步骤S6中，对不同的分量个数K，将所述步骤S5得到的参数θ，π_k代入所述(3)式得到所有文本的预测类别，分别画出模型对测试集和所述训练集和的误分类率，选择误分类率最小的K值。

本发明将混合多项分布与朴素贝叶斯分类器组合起来，放松了朴素贝叶斯关于条件独立性假设，基于混合多项分布协方差矩阵非对角元素不为0的特点，考虑了文本属性特征之间的相关性，比朴素贝叶斯分类器更具有一般性；在估计混合多项分布参数的过程中，将p(x|θ,C_j)视作不完整数据的概率分布，用EM算法对其参数进行迭代训练，降低了参数估计的困难，可以得到最优的估计参数；此外，混合多项分布在计算数据点关于给定类别的概率分布时考虑了文本中特征词出现的次数，相对伯努利模型仅考虑特征词是否出现而言，充分利用了样本中的信息，使得模型预测更精确。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员，在不脱离本发明方法的前提下，还可以做出若干改进和补充，这些改进和补充也应视为本发明的保护范围。

Claims

1.一种基于混合多项分布的文本分类算法，其特征在于，包括以下步骤：

S2：计算并保存所有文本类别为C_j的概率分布，j＝1,2……S；

S5：用EM算法训练所述混合多项分布的参数值θ、π_k；

2.根据权利要求1所述的基于混合多项分布的文本分类算法，其特征在于，所述步骤S2中，根据朴素贝叶斯的规则，计算具有特征x文本的所属类别C_j的概率分布为：

3.根据权利要求2所述的基于混合多项分布的文本分类算法，其特征在于，所述步骤S3中，假定所述p(x|C_j)服从混合多项分布，其形式为：

4.根据权利要求3所述的基于混合多项分布的文本分类算法，其特征在于，所述步骤S3中：

对于单个多项分布其期望值E[x]和方差cov[x]为：

μ＝E[x]＝Dθ,θ＝(θ₁,θ₂,...,θ_d)^T (5)

∑＝cov[x]＝DP (6)

根据(5)(6)式，得到混合模型(3)式的期望值E[x]和方差cov[x]：

式中，∑_k＝DP_k，P_k是d×d的方阵，对角线上的元素为θ_ki(1-θ_ki),i＝1,2,...,d，非对角线第i行第j列的元素为-θ_kiθ_kj。

5.根据权利要求4所述的基于混合多项分布的文本分类算法，其特征在于，所述步骤S4中，引入二值K维潜在变量z＝(z₁,z₂,...,z_K)^T，z只有一个元素等于1，其余元素等于0，因此给定潜在变量，得到x的条件概率分布：

式中，K表示的是潜在变量z的个数，此处的K值和概率分布p(x|θ,C_j)的分量个数K值相等，T指的是行向量(z₁,z₂,...,z_K)的转置；潜在变量z的先验分布为：

根据式(9)(10)，计算得到完整数据的对数似然函数：

式中，X＝{x_n},Z＝{z_n},n＝1,2,...,N，

式中，

6.根据权利要求5所述的基于混合多项分布的文本分类算法，其特征在于，所述步骤S5，根据贝叶斯定理，对所述(12)式应用拉格朗日乘子法，得到参数的极大似然估计：

式中，

7.根据权利要求6所述的基于混合多项分布的文本分类算法，其特征在于，所述步骤S6中，对不同的分量个数K，将所述步骤S5得到的参数θ，π_k代入所述(3)式得到所有文本的预测类别，分别画出模型对测试集和所述训练集和的误分类率，选择误分类率最小的K值。