CN108268469A - 一种基于混合多项分布的文本分类算法 - Google Patents

一种基于混合多项分布的文本分类算法 Download PDF

Info

Publication number
CN108268469A
CN108268469A CN201611254483.3A CN201611254483A CN108268469A CN 108268469 A CN108268469 A CN 108268469A CN 201611254483 A CN201611254483 A CN 201611254483A CN 108268469 A CN108268469 A CN 108268469A
Authority
CN
China
Prior art keywords
distribution
formula
text
mixing
probability distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611254483.3A
Other languages
English (en)
Other versions
CN108268469B (zh
Inventor
许飞月
陶波
陈乐焱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Fine Point Data Polytron Technologies Inc
Original Assignee
Guangdong Fine Point Data Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Fine Point Data Polytron Technologies Inc filed Critical Guangdong Fine Point Data Polytron Technologies Inc
Priority to CN201611254483.3A priority Critical patent/CN108268469B/zh
Publication of CN108268469A publication Critical patent/CN108268469A/zh
Application granted granted Critical
Publication of CN108268469B publication Critical patent/CN108268469B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于混合多项分布的文本分类算法,包括以下步骤:S1:输入训练集文本;S2:计算并保存所有文本类别C的概率分布;S3:初始化混合多项分布的参数值θ、πk以及分量个数K;S4:使用当前参数值θ、πk,计算完整数据的对数似然函数关于隐藏变量后验概率分布的期望;S5:用EM算法训练混合多项分布的参数值θ、πk;S6:对不同的所述分量个数K,分别画出模型对测试集和所述训练集的预测误差图线,选择预测误差最小的K值;S7:输出结果。本发明的有益效果在于,本发明将朴素贝叶斯算法结合混合多项分布,用EM算法对混合模型的参数进行估计,以提高模型的分类精度。

Description

一种基于混合多项分布的文本分类算法
技术领域
本发明涉及一种文本分类算法,尤其涉及一种基于混合多项分布的文本分类算法。
背景技术
随着网上在线文本的大量涌现和机器学习的兴起,大规模的文本分类和检索引起研究者的兴趣。大量的结果表明,基于统计学习的方法,文本分类精度高,能适用于任何领域的学习,使得它成为目前文本分类的主流方法。
传统的基于朴素贝叶斯的文本分类算法假定在给定的文本类别下,各个文本特征向量属性是独立同分布,由于假设简单,基于朴素贝叶斯的文本分类算法计算复杂度小,在某些情况下也能取得较好的分类效果,然而在实际任务中,这种条件独立性假设很难成立,局限性很大,需要考虑对属性条件独立性假设进行一定程度的放松。
鉴于上述缺陷,本发明创作者经过长时间的研究和实践终于获得了本发明。
发明内容
为解决上述问题,本发明采用的技术方案在于,提供一种基于混合多项分布的文本分类算法,包括以下步骤:
S1:输入训练集,其文本的类别集合为C={C1,C2,...,CS},所述文本的属性特征集合为x={x1,x2,...,xd};
S2:计算并保存所有文本类别为Cj的概率分布,j=1,2……S;
S3:初始化混合多项分布的概率参数θ、权重πk以及分量个数K;
S4:使用当前参数值θ、πk,计算完整数据的对数似然函数关于隐藏变量后验概率分布的期望;
S5:用EM算法训练所述混合多项分布的参数值θ、πk
S6:对不同的所述分量个数K,分别画出模型对测试集和所述训练集的预测误差图线,选择预测误差最小的K值;
S7:输出文本类别Cj的概率分布p(Cj),混合多项分布的分量个数K和参数值θ、πk
进一步,所述步骤S2中,根据朴素贝叶斯的规则,计算具有特征x文本的所属类别Cj的概率分布为:
式中:j=1,2,3……S,p(Cj)表示训练集中文本类别为Cj的概率分布,p(x)表示训练集中具有特征x的文本的概率分布,p(x|Cj)表示某篇文本在属于类别Cj的条件下,其具有特征x的概率分布;
当具有特征x的文本属于所述类别Cj时,p(y=Cj|x)=1,否则p(y=Cj|x)=0,因此,所述类别Cj的概率分布为:
式中,|C|为文本中特征词的总个数,y是具有特征x的文本其所属的类别,N是训练集中文本的个数。
进一步,所述步骤S3中,假定所述p(x|Cj)服从混合多项分布,其形式为:
式中,D表示每篇文本中特征词的总个数;d表示训练集文本中特征词的个数;θ表示混合多项分布的概率参数;πk表示多项分布混合的权重,且k表示分布p(x|Cj)其某个分量分布的序号;K表示分布p(x|Cj)的混合分量的个数且分布p(x|Cj)的每个分量中的θki都需满足
进一步,所述步骤S3中:对于单个多项分布其期望值E[x]和方差cov[x]为:
μ=E[x]=Dθ,θ=(θ12,...,θd)T (5)
∑=cov[x]=DP (6)
式中,P是d×d的方阵,对角线上的元素为θi(1-θi),i=1,2,...,d,非对角线第i行第j列的元素为-θiθj,E[x]表示在x满足条件概率分布p(x|θ,Cj)的情况下的期望值,cov[x]表示在x满足条件概率分布p(x|θ,Cj)的情况下的方差;
根据(5)(6)式,得到混合模型(3)式的期望值E[x]和方差cov[x]:
式中,Pk是d×d的方阵,对角线上的元素为θki(1-θki),i=1,2,...,d,非对角线第i行第j列的元素为-θkiθkj
进一步,所述步骤S4中,引入二值K维潜在变量z=(z1,z2,...,zK)T,z只有一个元素等于1,其余元素等于0,因此给定潜在变量,得到x的条件概率分布:
式中,K表示的是潜在变量z的个数,此处的K值和概率分布p(x|θ,Cj)的分量个数K值相等,T指的是行向量(z1,z2,...,zK)的转置;
潜在变量z的先验分布为:
根据式(9)(10),计算得到完整数据的对数似然函数:
式中,
根据EM算法的步骤,计算(11)式关于隐藏变量后验概率分布的期望,得:
式中,
进一步,所述步骤S5,根据贝叶斯定理,对所述(12)式应用拉格朗日乘子法,得到参数的极大似然估计:
式中,
进一步,其特征在于,所述步骤S6中,对不同的分量个数K,将所述步骤S5得到的参数θ,πk代入所述(3)式得到所有文本的预测类别,分别画出模型对测试集和所述训练集和的误分类率,选择误分类率最小的K值。
与现有技术比较本发明的有益效果在于:1.本发明将混合多项分布与朴素贝叶斯分类器组合起来,放松了朴素贝叶斯关于条件独立性假设,基于混合多项分布协方差矩阵非对角元素不为0的特点,考虑了文本属性特征之间的相关性,比朴素贝叶斯分类器更具有一般性;2.在估计混合多项分布参数的过程中,将p(x|θ,Cj)视作不完整数据的概率分布,用EM算法对其参数进行迭代训练,降低了参数估计的困难,可以得到最优的估计参数;3.混合多项分布在计算数据点关于给定类别的概率分布时考虑了文本中特征词出现的次数,相对伯努利模型仅考虑特征词是否出现而言,充分利用了样本中的信息,使得模型预测更精确。
附图说明
图1为本发明基于混合多项分布的文本分类算法的功能框图。
具体实施方式
以下结合附图,对本发明上述的和另外的技术特征和优点作更详细的说明。
请参阅图1,其为本发明基于混合多项分布的文本分类算法的功能框图。
如图1所示,一种基于混合多项分布的文本分类算法,包括以下步骤:
S1:输入训练集,其文本的类别集合为C={C1,C2,...,CS},所述文本的属性特征集合为x={x1,x2,...,xd};
S2:计算并保存所有文本类别为Cj的概率分布,j=1,2……S;
S3:初始化混合多项分布的概率参数θ、权重πk以及分量个数K;
S4:使用当前参数值θ、πk,计算完整数据的对数似然函数关于隐藏变量后验概率分布的期望;
S5:用EM算法训练所述混合多项分布的参数值θ、πk
S6:对不同的所述分量个数K,分别画出模型对测试集和所述训练集的预测误差图线,选择预测误差最小的K值;
S7:输出文本类别Cj的概率分布p(Cj),混合多项分布的分量个数K和参数值θ、πk
所述步骤S2中,根据朴素贝叶斯的规则,计算具有特征x文本的所属类别Cj的概率分布为:
式中:j=1,2,3……S,p(Cj)表示训练集中文本类别为Cj的概率分布,p(x)表示训练集中具有特征x的文本的概率分布,p(x|Cj)表示某篇文本在属于类别Cj的条件下,其具有特征x的概率分布。
然后将文本x分到概率p(Cj|x)最大的那个类别中,由于对不同的类别Cj,先验概率是相同的,因此计算使p(Cj|x)最大的类别Cj等价于计算使得p(Cj)p(x|Cj)最大的类别。
当具有特征x的文本属于所述类别Cj时,p(y=Cj|x)=1,否则p(y=Cj|x)=0,因此,所述类别Cj的概率分布为:
式中,|C|为文本中特征词的总个数,y是具有特征x的文本其所属的类别,N是训练集中文本的个数。
所述步骤S3中,假定所述p(x|Cj)服从混合多项分布,其形式为:
式中,D表示每篇文本中特征词的总个数;d表示训练集文本中特征词的个数;θ表示混合多项分布的概率参数;πk表示多项分布混合的权重,且k表示分布p(x|Cj)其某个分量分布的序号;K表示分布p(x|Cj)的混合分量的个数且分布p(x|Cj)的每个分量中的θki都需满足
对于单个多项分布(4),其期望值E[x]和方差cov[x]为:
μ=E[x]=Dθ,θ=(θ12,...,θd)T (5)
∑=cov[x]=DP (6)
式中,P是d×d的方阵,对角线上的元素为θi(1-θi),i=1,2,...,d,非对角线第i行第j列的元素为-θiθj,E[x]表示在x满足条件概率分布p(x|θ,Cj)的情况下的期望值,cov[x]表示在x满足条件概率分布p(x|θ,Cj)的情况下的方差;
根据(5)(6)式,得到混合模型(3)式的期望值E[x]和方差cov[x]:
式中,Pk是d×d的方阵,对角线上的元素为θki(1-θki),i=1,2,...,d,非对角线第i行第j列的元素为-θkiθkj
所述步骤S4中,引入二值K维潜在变量z=(z1,z2,...,zK)T,z只有一个元素等于1,其余元素等于0,因此给定潜在变量,得到x的条件概率分布:
式中,K表示的是潜在变量z的个数,此处的K值和概率分布p(x|θ,Cj)的分量个数K值相等,T指的是行向量(z1,z2,...,zK)的转置;
潜在变量z的先验分布为:
根据式(9)(10),计算得到完整数据的对数似然函数:
式中,
根据EM算法的步骤,计算(11)式关于隐藏变量后验概率分布的期望,得:
式中,
所述步骤S5,根据贝叶斯定理,对所述(12)式应用拉格朗日乘子法,得到参数的极大似然估计:
式中,
所述步骤S6中,对不同的分量个数K,将所述步骤S5得到的参数θ,πk代入所述(3)式得到所有文本的预测类别,分别画出模型对测试集和所述训练集和的误分类率,选择误分类率最小的K值。
本发明将混合多项分布与朴素贝叶斯分类器组合起来,放松了朴素贝叶斯关于条件独立性假设,基于混合多项分布协方差矩阵非对角元素不为0的特点,考虑了文本属性特征之间的相关性,比朴素贝叶斯分类器更具有一般性;在估计混合多项分布参数的过程中,将p(x|θ,Cj)视作不完整数据的概率分布,用EM算法对其参数进行迭代训练,降低了参数估计的困难,可以得到最优的估计参数;此外,混合多项分布在计算数据点关于给定类别的概率分布时考虑了文本中特征词出现的次数,相对伯努利模型仅考虑特征词是否出现而言,充分利用了样本中的信息,使得模型预测更精确。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明方法的前提下,还可以做出若干改进和补充,这些改进和补充也应视为本发明的保护范围。

Claims (7)

1.一种基于混合多项分布的文本分类算法,其特征在于,包括以下步骤:
S1:输入训练集,其文本的类别集合为C={C1,C2,...,CS},所述文本的属性特征集合为x={x1,x2,...,xd};
S2:计算并保存所有文本类别为Cj的概率分布,j=1,2……S;
S3:初始化混合多项分布的概率参数θ、权重πk以及分量个数K;
S4:使用当前参数值θ、πk,计算完整数据的对数似然函数关于隐藏变量后验概率分布的期望;
S5:用EM算法训练所述混合多项分布的参数值θ、πk
S6:对不同的所述分量个数K,分别画出模型对测试集和所述训练集的预测误差图线,选择预测误差最小的K值;
S7:输出文本类别Cj的概率分布p(Cj),混合多项分布的分量个数K和参数值θ、πk
2.根据权利要求1所述的基于混合多项分布的文本分类算法,其特征在于,所述步骤S2中,根据朴素贝叶斯的规则,计算具有特征x文本的所属类别Cj的概率分布为:
式中:j=1,2,3……S,p(Cj)表示训练集中文本类别为Cj的概率分布,p(x)表示训练集中具有特征x的文本的概率分布,p(x|Cj)表示某篇文本在属于类别Cj的条件下,其具有特征x的概率分布;
当具有特征x的文本属于所述类别Cj时,p(y=Cj|x)=1,否则p(y=Cj|x)=0,因此,所述类别Cj的概率分布为:
式中,|C|为文本中特征词的总个数,y是具有特征x的文本其所属的类别,N是训练集中文本的个数。
3.根据权利要求2所述的基于混合多项分布的文本分类算法,其特征在于,所述步骤S3中,假定所述p(x|Cj)服从混合多项分布,其形式为:
式中,D表示每篇文本中特征词的总个数;d表示训练集文本中特征词的个数;θ表示混合多项分布的概率参数;πk表示多项分布混合的权重,且k表示分布p(x|Cj)其某个分量分布的序号;K表示分布p(x|Cj)的混合分量的个数且分布p(x|Cj)的每个分量中的θki都需满足
4.根据权利要求3所述的基于混合多项分布的文本分类算法,其特征在于,所述步骤S3中:
对于单个多项分布其期望值E[x]和方差cov[x]为:
μ=E[x]=Dθ,θ=(θ12,...,θd)T (5)
∑=cov[x]=DP (6)
式中,P是d×d的方阵,对角线上的元素为θi(1-θi),i=1,2,...,d,非对角线第i行第j列的元素为-θiθj,E[x]表示在x满足条件概率分布p(x|θ,Cj)的情况下的期望值,cov[x]表示在x满足条件概率分布p(x|θ,Cj)的情况下的方差;
根据(5)(6)式,得到混合模型(3)式的期望值E[x]和方差cov[x]:
式中,∑k=DPk,Pk是d×d的方阵,对角线上的元素为θki(1-θki),i=1,2,...,d,非对角线第i行第j列的元素为-θkiθkj
5.根据权利要求4所述的基于混合多项分布的文本分类算法,其特征在于,所述步骤S4中,引入二值K维潜在变量z=(z1,z2,...,zK)T,z只有一个元素等于1,其余元素等于0,因此给定潜在变量,得到x的条件概率分布:
式中,K表示的是潜在变量z的个数,此处的K值和概率分布p(x|θ,Cj)的分量个数K值相等,T指的是行向量(z1,z2,...,zK)的转置;潜在变量z的先验分布为:
根据式(9)(10),计算得到完整数据的对数似然函数:
式中,X={xn},Z={zn},n=1,2,...,N,
根据EM算法的步骤,计算(11)式关于隐藏变量后验概率分布的期望,得:
式中,
6.根据权利要求5所述的基于混合多项分布的文本分类算法,其特征在于,所述步骤S5,根据贝叶斯定理,对所述(12)式应用拉格朗日乘子法,得到参数的极大似然估计:
式中,
7.根据权利要求6所述的基于混合多项分布的文本分类算法,其特征在于,所述步骤S6中,对不同的分量个数K,将所述步骤S5得到的参数θ,πk代入所述(3)式得到所有文本的预测类别,分别画出模型对测试集和所述训练集和的误分类率,选择误分类率最小的K值。
CN201611254483.3A 2016-12-30 2016-12-30 一种基于混合多项分布的文本分类算法 Active CN108268469B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611254483.3A CN108268469B (zh) 2016-12-30 2016-12-30 一种基于混合多项分布的文本分类算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611254483.3A CN108268469B (zh) 2016-12-30 2016-12-30 一种基于混合多项分布的文本分类算法

Publications (2)

Publication Number Publication Date
CN108268469A true CN108268469A (zh) 2018-07-10
CN108268469B CN108268469B (zh) 2021-05-14

Family

ID=62754406

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611254483.3A Active CN108268469B (zh) 2016-12-30 2016-12-30 一种基于混合多项分布的文本分类算法

Country Status (1)

Country Link
CN (1) CN108268469B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929894A (zh) * 2011-08-12 2013-02-13 中国人民解放军总参谋部第五十七研究所 一种文本在线聚类可视化方法
US20150254566A1 (en) * 2010-01-07 2015-09-10 The Trustees Of The Stevens Institute Of Technology Automated detection of deception in short and multilingual electronic messages
CN105045812A (zh) * 2015-06-18 2015-11-11 上海高欣计算机系统有限公司 文本主题的分类方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150254566A1 (en) * 2010-01-07 2015-09-10 The Trustees Of The Stevens Institute Of Technology Automated detection of deception in short and multilingual electronic messages
CN102929894A (zh) * 2011-08-12 2013-02-13 中国人民解放军总参谋部第五十七研究所 一种文本在线聚类可视化方法
CN105045812A (zh) * 2015-06-18 2015-11-11 上海高欣计算机系统有限公司 文本主题的分类方法及系统

Also Published As

Publication number Publication date
CN108268469B (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
Motiian et al. Information bottleneck learning using privileged information for visual recognition
Parvin et al. MKNN: Modified k-nearest neighbor
Konno et al. Choosing the best set of variables in regression analysis using integer programming
Nguyen et al. Bayesian nonparametric multilevel clustering with group-level contexts
CN103544486A (zh) 基于自适应标记分布的人类年龄估计方法
Lee et al. EMMIXcskew: An R package for the fitting of a mixture of canonical fundamental skew t-distributions
Gao et al. Multi-label active learning by model guided distribution matching
CN109800768A (zh) 半监督gan的散列特征表示学习方法
Wu et al. Combining machine learning and crowdsourcing for better understanding commodity reviews
Fan Features of big data and sparsest solution in high confidence set
Kim et al. Sparse tangent portfolio selection via semi-definite relaxation
Fraiman et al. Pattern recognition via projection-based kNN rules
CN114359298A (zh) 一种用于心脏mri的半监督动态自学习分割方法
Zhou et al. Attribute subspaces for zero-shot learning
CN109978051A (zh) 基于混合神经网络的监督分类方法
CN108268469A (zh) 一种基于混合多项分布的文本分类算法
Golosnoy et al. Flexible shrinkage in portfolio selection
Isobe et al. Inference with model uncertainty on indoor scene for semantic segmentation
Liu et al. Llp-gan: a gan-based algorithm for learning from label proportions
Chen et al. Learning to aggregate ordinal labels by maximizing separating width
Maurya A joint convex penalty for inverse covariance matrix estimation
Quinn et al. Classification for accuracy and insight: A weighted sum approach
Penagos-Londoño et al. Identifying dynamics in strategic groups
Rezaei et al. An extended MKNN: Modified k-nearest neighbor
Samuel Makinde On rank distribution classifiers for high-dimensional data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant