CN103473309A - 一种基于概率单词选择和监督主题模型的文本分类方法 - Google Patents
一种基于概率单词选择和监督主题模型的文本分类方法 Download PDFInfo
- Publication number
- CN103473309A CN103473309A CN2013104106570A CN201310410657A CN103473309A CN 103473309 A CN103473309 A CN 103473309A CN 2013104106570 A CN2013104106570 A CN 2013104106570A CN 201310410657 A CN201310410657 A CN 201310410657A CN 103473309 A CN103473309 A CN 103473309A
- Authority
- CN
- China
- Prior art keywords
- word
- text
- matrix
- training text
- theme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于概率单词选择和监督主题模型的文本分类方法。包括如下步骤:1)去除训练文本中的标点符号,统计词频信息及类别信息,并形成单词表和类别表;2)初始化主题比例矢量,主题单词矩阵,主题单词鉴别度矩阵和回归系数矩阵;3)根据训练文本的单词列表及其类别迭代更新主题比例矢量、主题单词矩阵、主题单词鉴别度矩阵和回归系数矩阵;4)对于测试文本,统计词频信息,然后利用主题比例矢量、主题单词矩阵、主题单词鉴别度矩阵和回归系数矩阵进行分类。本发明能够最大程度地减轻文本分类时繁杂的预处理过程,可以更加准确地对测试文本进行分类。本发明还能挖掘出主题中单词的鉴别度,以形象化展示文本中单词的重要性。
Description
技术领域
本发明涉及概率单词选择、监督主题模型,尤其涉及一种基于概率单词选择和监督主题模型的文本分类方法。
背景技术
互联网的出现使得人们获取信息越来越方便。然而,互联网的快速发展所产生的海量数据同样为人们对数据分析、利用带来了巨大的困难。因此,自动地组织,管理和挖掘数据变得越来越重要。因为主题模型的潜在结构的可解释性,如PLSA(Probabilistic Latent Semantic Analysis)、LDA(Latent DirichletAllocation)等,它们广泛地用于挖掘文本的低维表达。主题模型假设文本中所有的单词都是从一个叫做“主题”的多项分布中产生而来,而文本则是由这些主题混合而成。
传统的LDA是基于BOW(Bag Of Words)的无监督模型,不能很好地利用文本常常伴有的监督信息,如伴随新闻文本的类别信息、伴随电影文本的评分信息等。为了克服LDA在处理伴随有监督信息的文本时的不足,人们提出了LDA的扩展模型。例如,Blei等人将文本的监督信息看作文本单词的主题结构上的响应,并且以回归的方式将文本的监督信息和文本单词联系了起来。他们称之为监督LDA。监督LDA构造了一个分析伴随有监督信息的文本的框架模型,在分析伴随有评分信息的电影文本上取得了成功。之后,Wang等人将监督LDA扩展到了文本的分类上来。
和传统的LDA一样,监督LDA同样需要对文本进行大量的繁琐的预处理。不进行预处理或者不当的预处理,都会使得模型面对的文本数据包含冗余的数据,从而影响主题模型的性能。另一方面,忽视主题中单词相对于鉴别信息所体现出来的不一样的重要性(或可做成鉴别度)同样会对主题模型的性能造成影响。最后,直接基于单词而非主题结构的监督模型则不能利用广泛存在的单词多义性。
针对这些方法的不足,我们提出了一个基于概率单词选择和监督主题模型的文本分类方法,并将其运用在了从http://web.ist.utl.pt/~acardoso/datasets/下载的新闻文本20newsgroups上。该方法首先为主题中的单词构造了各自不同的鉴别度,这个鉴别度依赖与单词本身和其对应的主题;其次,当每篇文本的单词产生之后,该方法通过以文本单词鉴别度为参数的伯努利分布来对单词进行筛选,筛选后的单词将会以两种不同的权重中的一种参与到文本监督信息的生成;最后,通过在文本中单词新的权重上的回归产生了文本的类别。通过在训练文本上的学习过程,该方法能很好地学习到单词的鉴别度并用于分类测试文本。
发明内容
本发明的目的是克服现有推荐技术的不足,提供一种基于概率单词选择和监督主题模型的文本分类方法。
基于概率单词选择和监督主题模型的文本分类方法,包括如下步骤:
1)去除训练文本中的标点符号,统计词频信息及类别信息,并形成单词表和类别表;
2)初始化主题比例矢量,主题单词矩阵,主题单词鉴别度矩阵和回归系数矩阵;
3)根据训练文本的单词列表及其类别迭代更新主题比例矢量,主题单词矩阵,主题单词鉴别度矩阵和回归系数矩阵;
4)对于测试文本,统计词频信息,然后利用主题比例矢量,主题单词矩阵,主题单词鉴别度矩阵和回归系数矩阵进行分类。
所述的去除训练文本中的标点符号,统计词频信息及类别信息,并形成单词表和类别表的步骤包括:
2.1)去除训练文本中的标点符号,顺序扫描训练文本中的所有单词,每个不同的单词保留一个,最终形成一个大小为V的词汇表,顺序扫描每个训练文本的类别,每个不同的类别保留一个,最终形成一个大小为C的文本类别表;
2.2)统计训练文本的词频信息,加上训练文本所属的类别信息,得到训练文本TRAIN={((wd,fd,yd)),d=1,…,Dtr},其中Dtr表示训练文本的数目,wd={(wdm),m=1,…,Md,wdm∈{1,…,V}}表示训练文本d的所有不同的单词,Md表示训练文本d中不同的单词的个数;fd={(fdm),m=1,…,Md,fdm∈z+}表示训练文本d中每个不同的单词出现的频数,z+表示正整数;yd∈{1,…,C}表示训练文本d所属的类别。
所述的初始化主题比例矢量,主题单词矩阵,主题单词鉴别度矩阵和回归系数矩阵的步骤包括:
3.1)初始化主题比例矢量α={(αk),k=1,…,K},其中K表示主题的个数;
3.2)初始化主题单词矩阵β={(βkv),k=1,…,K,v=1,…,V};
3.3)初始化主题单词鉴别度矩阵ψ={(ψkv),k=1,…,K,v=1,…,V};
3.4)初始化回归系数矩阵η={(ηcv),c=1,…,C,v=1,…,V}。
所述的根据训练文本的单词列表及其类别迭代更新主题比例矢量,主题单词矩阵,主题单词鉴别度矩阵和回归系数矩阵的方法是:当算法没有满足终止条件时,反复迭代执行以下步骤:
4.1)置下述统计量的所有元素的值为0:
(4.1.1)主题中单词的个数矩阵N={(nkv),k=1,…,K,v=1,…,V};
(4.1.2)主题中显著性单词的数量矩阵S={(skv),k=1,…,K,v=1,…,V};
(4.1.3)主题比例累积量A={(ak),k=1,…,K};
(4.1.4)训练文本的统计期望E={(edm),d=1,…,Dtrain,m=1,…,Md};
(4.1.5)训练文本的统计方差Q={(qdm),d=1,…,Dtr,m=1,…,Md};
4.2)对于所有训练文本(wd,fd,yd),d=1,…,Dtr,进行变分推理,并更新有关统计变量Ntv,Stv,Ed和Qd;
4.3)用N,S来学习β和ψ;用A来学习α;用E和Q来学习η。
所述的步骤4.2)具体是:对于所有训练文本的(wd,fd,yd),d=1,…,Dtr,执行下述步骤:
(5.1)初始化主题比例变分参数γ={(γk),k=1,…,K};
(5.2)初始化主题分配变分参数φ={(φmk),m=1,…,Md,k=1,…,K};
(5.3)初始化单词鉴别值变分参数μ={(μm),m=1,…,Md};
(5.4)初始化已完成迭代次数iter=0;
(5.5)对训练文本d中所有不同的单词及其词频(wdm,fdm),m=1,…,Md,执行下述步骤:
(a)运用固定点迭代的方法学习μm:
其中,∈1和∈0分别表示峰鉴别值单词的权重和谷鉴别值单词的权重, 而gmc由以下方式计算:
(b)删除旧的φmk对γ的影响:
γk=γk-φmkfdm,k=1,…,K
(c)更新φmk:
其中,Ψ表示digamma函数;
(d)更新γ:
γk=γk+φmkfdm,k=1,…,K
(5.6)由训练文本d对应的γ,φ和μ计算训练文本d的似然概率,如果单文本似然概率的改变量大于给定变分推理似然变化阈值且已完成迭代次数iter小于变分推理最大迭代次数,则iter=iter+1,转到步骤(5.5)继续执行;
(5.7)更新N的每个元素:
其中,δ(a,b)表示Kronecker delta函数,当a=b时,δ(a,b)=1;而a≠b时,δ(a,b)=0;
(5.8)更新S的每个元素:
(5.9)更新A的每个元素:
(5.10)更新训练文本d的统计期望edm:
edm=fdm(μm∈l+(1-μm)∈0),m=1,…,Md
(5.11)更新训练文本d的统计方差qdm
所述的步骤4.3)具体是:
6.1)由式子 得到β的每个元素;
6.2)由式子ψkv=skv/nkv,k=1,…,K,v=1,…,V得到ψ的每个元素;
6.3)用Newton-Raphson算法最大化下式:
从而求出α,其中,Γ表示digamma函数;
6.4)求取η来最大化目标函数F(η):
其中,最大化F(η)采用共轭梯度下降或者梯度下降的方法。
所述的根据训练文本的单词列表及其类别迭代更新主题比例矢量,主题单词矩阵,主题单词鉴别度矩阵和回归系数矩阵所述的定义的终止条件是:所有文本的似然概率之和的改变量小于给定参数学习似然变化阈值或者已经达到了参数学习最大迭代次数;
所述的对于测试文本,统计词频信息,然后利用主题比例矢量,主题单词矩阵,主题单词鉴别度矩阵和回归系数矩阵进行分类的步骤是:
8.1)对于测试文本,去除标点符号,统计词频信息,得到测试文本TEST={((wt,ft)),t=1,…,Dte},其中Dte表示测试文本的数目,wt={(wtm),m=1,…,Mt,wtm∈{1,…,V}}表示测试文本t的所有不同的单词,Mt表示训练文本t中不同的单词的个数;ft={(ftm),m=1,…,Mt,ftm∈Z+)表示训练文本t中每个不同的单词出现的频数;
8.2)对于每篇测试文本(wt,ft),t=1,…,Dte,进行变分推理,并进行类别预测;
所述的步骤8.2)具体是:对于所有测试文本的(wt,ft),t=1,…,Dte,执行下述步骤:
(9.1)初始化主题比例变分参数γ={(γk),k=1,…,K};
(9.2)初始化主题分配变分参数φ={(φmk),m=1,…,Mt,k=1,…,K};
(9.3)初始化单词鉴别值变分参数μ={(μm),m=1,…,Mt};
(9.4)初始化已完成迭代次数iter=0;
(9.5)对训练文本t中所有不同的单词及其词频(Wtm,ftm),m=1,…,Mt,执行下述步骤:
(e)运用固定点迭代的方法学习单μm:
(f)删除旧的φmk对γ的影响:
γk=γk-φmkftm,k=1,…,K
(g)更新φmk:
其中,Ψ表示digamma函数;
(h)更新γ:
和现有技术相比,本发明能够最大程度地减轻文本分类时繁杂的预处理过程,可以更加准确地对测试文本进行分类。除此之外,本发明还能挖掘出主题中单词的鉴别度,以形象化展示文本中单词的重要性。
附图说明
图1是基于概率单词选择和监督主题模型的文本分类方法流程图;
图2是从20newsgroups学习到的4个主题中单词的鉴别度与单词实际分布的熵比较图。
具体实施方式
基于概率单词选择和监督主题模型的文本分类方法,包括如下步骤:
1)去除训练文本中的标点符号,统计词频信息及类别信息,并形成单词表和类别表;
2)初始化主题比例矢量,主题单词矩阵,主题单词鉴别度矩阵和回归系数矩阵;
3)根据训练文本的单词列表及其类别迭代更新主题比例矢量,主题单词矩阵,主题单词鉴别度矩阵和回归系数矩阵;
4)对于测试文本,统计词频信息,然后利用主题比例矢量,主题单词矩阵,主题单词鉴别度矩阵和回归系数矩阵进行分类。
所述的去除训练文本中的标点符号,统计词频信息及类别信息,并形成单词表和类别表的步骤包括:
2.1)去除训练文本中的标点符号,顺序扫描训练文本中的所有单词,每个不同的单词保留一个,最终形成一个大小为V的词汇表,顺序扫描每个训练文本的类别,每个不同的类别保留一个,最终形成一个大小为C的文本类别表;
2.2)统计训练文本的词频信息,加上训练文本所属的类别信息,得到训练文本TRAIN={((wd,fd,yd)),d=1,…,Dtr},其中Dtr表示训练文本的数目,wd={(wdm),m=1,…,Md,wdm∈{1,…,V}}表示训练文本d的所有不同的单词,Md表示训练文本d中不同的单词的个数;fd={(fdm),m=1,…,Md,fdm∈Z+}表示训练文本d中每个不同的单词出现的频数,Z+表示正整数;yd∈{1,…,C}表示训练文本d所属的类别。
所述的初始化主题比例矢量,主题单词矩阵,主题单词鉴别度矩阵和回归系数矩阵的步骤包括:
3.1)初始化主题比例矢量α={(αk),k=1,…,K},其中K表示主题的个数;
3.2)初始化主题单词矩阵β={(βkv),k=1,…,K,v=1,…,V};
3.3)初始化主题单词鉴别度矩阵ψ={(ψkv),k=1,…,K,v=1,…,V};
3.4)初始化回归系数矩阵η={(ηcv),c=1,…,C,v=1,…,V}。
所述的根据训练文本的单词列表及其类别迭代更新主题比例矢量,主题单词矩阵,主题单词鉴别度矩阵和回归系数矩阵的方法是:当算法没有满足终止条件时,反复迭代执行以下步骤:
4.1)置下述统计量的所有元素的值为0:
(4.1.1)主题中单词的个数矩阵N={(nkv),k=1,…,K,v=1,…,V};
(4.1.2)主题中显著性单词的数量矩阵S={(skv),k=1,…,K,v=1,…,V};
(4.1.3)主题比例累积量A={(ak),k=1,…,K};
(4.1.4)训练文本的统计期望E={(edm),d=1,…,Dtrain,m=1,…,Md};
(4.1.5)训练文本的统计方差Q={(qdm),d=1,…,Dtr,m=1,…,Md};
4.2)对于所有训练文本(wd,fd,yd),d=1,…,Dtr,进行变分推理,并更新有关统计变量Ntv,Stv,Ed和Qd;
4.3)用N,S来学习β和ψ;用A来学习α;用E和Q来学习η。
所述的步骤4.2)具体是:对于所有训练文本的(wd,fd,yd),d=1,…,Dtr,执行下述步骤:
(5.1)初始化主题比例变分参数γ={(γk),k=1,…,K};
(5.2)初始化主题分配变分参数φ={(φmk),m=1,…,Md,k=1,…,K};
(5.3)初始化单词鉴别值变分参数μ={(μm),m=1,…,Md};
(5.4)初始化已完成迭代次数iter=0;
(5.5)对训练文本d中所有不同的单词及其词频(wdm,fdm),m=1,…,Md,执行下述步骤:
(a)运用固定点迭代的方法学习μm:
其中,∈1和∈0分别表示峰鉴别值单词的权重和谷鉴别值单词的权重, 而gmc由以下方式计算:
(b)删除旧的φmk对γ的影响:
γk=γk-φmkfdm,k=1,…,K
(c)更新φmk:
其中,Ψ表示digamma函数;
(d)更新γ:
γk=γk+φmkfdm,k=1,…,K
(5.6)由训练文本d对应的γ,φ和μ计算训练文本d的似然概率,如果单文本似然概率的改变量大于给定变分推理似然变化阈值且已完成迭代次数iter小于变分推理最大迭代次数,则iter=iter+1,转到步骤(5.5)继续执行;
(5.7)更新N的每个元素:
其中,δ(a,b)表示Kronecker delta函数,当a=b时,δ(a,b)=1;而a≠b时,δ(a,b)=0;
(5.8)更新S的每个元素:
(5.9)更新A的每个元素:
(5.10)更新训练文本d的统计期望edm:
edm=fdm(μm∈l+(1-μm)∈0),m=1,…,Md
(5.11)更新训练文本d的统计方差qdm
所述的步骤4.3)具体是:
6.1)由式子 得到β的每个元素;
6.2)由式子 得到ψ的每个元素;
6.3)用Newton-Raphson算法最大化下式:
从而求出α,其中,Γ表示digamma函数;
6.4)求取η来最大化目标函数F(η):
其中,最大化F(η)采用共轭梯度下降或者梯度下降的方法。
所述的根据训练文本的单词列表及其类别迭代更新主题比例矢量,主题单词矩阵,主题单词鉴别度矩阵和回归系数矩阵所述的定义的终止条件是:所有文本的似然概率之和的改变量小于给定参数学习似然变化阈值或者已经达到了参数学习最大迭代次数;
所述的对于测试文本,统计词频信息,然后利用主题比例矢量,主题单词矩阵,主题单词鉴别度矩阵和回归系数矩阵进行分类的步骤是:
8.1)对于测试文本,去除标点符号,统计词频信息,得到测试文本TEST={((wt,ft)),t=1,…,Dte},其中Dte表示测试文本的数目,wt={(wtm),m=1,…,Mt,wtm∈{1,…,V}}表示测试文本t的所有不同的单词,Mt表示训练文本t中不同的单词的个数;ft={(ftm),m=1,…,Mt,ftm∈Z+}表示训练文本t中每个不同的单词出现的频数;
8.2)对于每篇测试文本(wt,ft),t=1,…,Dte,进行变分推理,并进行类别预测;
所述的步骤8.2)具体是:对于所有测试文本的(wt,ft),t=1,…,Dte,执行下述步骤:
(9.1)初始化主题比例变分参数γ={(γk),k=1,…,K};
(9.2)初始化主题分配变分参数φ={(φmk),m=1,…,Mt,k=1,…,K};
(9.3)初始化单词鉴别值变分参数μ={(μm),m=1,…,Mt};
(9.4)初始化已完成迭代次数iter=0;
(9.5)对训练文本t中所有不同的单词及其词频(wtm,ftm),m=1,…,Mt,执行下述步骤:
(e)运用固定点迭代的方法学习单μm:
(f)删除旧的φmk对γ的影响:
γk=γk-φmkftm,k=1,…,K
(g)更新φmk:
其中,Ψ表示digamma函数;
(h)更新γ:
实施例
从http://web.ist.utl.pt/~acardoso/datasets/下载的训练文本20ng-train-all-terms和测试文本20ng-test-all-terms,去掉出现不超过3个单词的文本,得到Dtr=11285篇训练文本和Dtr=8571篇测试文本。实验中,主题个数K设置为20,其他实验参数选取如表1:
表1
对于训练文本,执行下列步骤:
1)去除标点符号,统计词频信息及类别信息,并形成大小为73712的单词表和大小为20的类别表;
2)初始化主题比例矢量α,主题单词矩阵β,主题单词鉴别度矩阵ψ和回归系数矩阵η:
(2.1)对于α,ψ和η,αk=0.1,ψkv=0.5,ηcv=0,k=1,…,K,c=1,…,C,v=1,…,V;
3)根据训练文本的单词列表及其类别迭代更新α,β,ψ和η:当算法没有满足终止条件时,反复迭代执行以下步骤:
(3.1)置下述统计量的所有元素的值为0:
(a)主题中单词的个数矩阵N={(nkv),k=1,…,K,v=1,…,V};
(b)主题中显著性单词的数量矩阵S={(skv),k=1,…,K,v=1,…,V};
(c)主题比例累积量A={(ak),k=1,…,K};
(d)训练文本的统计期望E={(edm),d=1,…,Dtrain,m=1,…,Md};
(e)训练文本的统计方差Q={(qdm),d=1,…,Dtr,m=1,…,Md};
(3.2)对于每篇训练文本(wd,fd,yd),d=1,…,Dtr,进行变分推理,并更新有关统计变量Ntv,Stv,Ed和Qd,具体是执行下述步骤:
(a)初始化主题分配变分参数φ:
(b)初始化单词鉴别值变分参数μ:
μm=0.5,m=1,…,Md;
(c)初始化主题比例变分参数γ:
(d)初始化已完成迭代次数iter=0;
(e)对训练文本d中所有不同的单词及其词频(wdm,fdm),m=1,…,Md,执行下述步骤:
(e1)运用固定点迭代的方法学习单词wdm对应的鉴别值变分参数μm:
其中, 而gmc由以下方式计算:
(e2)删除旧的φmk对γ的影响:
γk=γk-φmkfdm,k=1,…,K
(e3)更新φmk,k=1,…,K:
其中,Ψ表示digamma函数;
(e4)更新γ:
γk=γk+φmkfdm,k=1,…,K
(f)由训练文本d对应的γ,φ和μ计算训练文本d的似然概率,如果单文本似然概率的改变量大于给定变分推理似然变化阈值且已完成迭代次数iter小于变分推理最大迭代次数,则iter=iter+1,转到步骤(e)继续执行;
(g)更新N的每个元素:
其中,δ(a,b)表示Kronecker delta函数,当a=b时,δ(a,b)=1;而a≠b时,δ(a,b)=0;
(h)更新S的每个元素:
(i)更新A的每个元素:
(j)更新训练文本d的统计期望edm:
edm=fdm(μm∈1+(1-μm)∈0),m=1,…,Md
(k)更新训练文本d的统计方差qdm
(3.3)用N,S来学习β和ψ;用A来学习α;用E和Q来学习η:
(a)由式 得到β的每个元素;
(b)由式ψkv=skv/nkv,k=1,…,K,v=1,…,V得到ψ的每个元素;
(c)用Newton-Raphson算法最大化下式:
从而求出α,其中,Γ表示digamma函数;
(d)求取η来最大化目标函数F(η):
其中,最大化F(η)采用共轭梯度下降或者梯度下降的方法。
通过对训练文本的学习,我们得到了主题比例矢量α,主题单词矩阵β,主题单词鉴别度矩阵ψ和回归系数矩阵η;然后,我们将对测试文本进行变分推理并进而预测测试文本的类别,达到对测试文本进行分类的目的。
对于测试文本,执行下述步骤:
1)去除标点符号,统计词频信息;
2)对于每篇测试文本(wt,ft),t=1,…,Dte,进行变分推理和类别预测:
(a)初始化主题比例变分参数γ={(γk),k=1,…,K};
(b)初始化主题分配变分参数φ={(φmk),m=1,…,Mt,k=1,…,K};
(c)初始化单词鉴别值变分参数μ={(μm),m=1,…,Mt};
(d)初始化已完成迭代次数iter=0;
(e)对训练文本t中所有不同的单词及其词频(wtm,ftm),m=1,…,Mt,执行下述步骤:
(e1)运用固定点迭代的方法学习μm:
(e2)删除旧的φmk对γ的影响:
γk=γk-φmkftm,k=1,…,K
(e3)更新φmk:
其中,Ψ表示digamma函数;
(e4)更新γ:
γk=γk+φmkftm,k=1,…,K
(f)由测试文本t对应的γ,φ和μ计算测试文本t的似然概率,如果单文本似然概率的改变量大于给定变分推理似然变化阈值且已完成迭代次数iter小于变分推理最大迭代次数,则iter=iter+1,转到步骤(e)继续执行;
(g)得到测试文本t的统计期望etm:
etm=ftm(μm∈1+(1-μm)∈0),m=1,…,Mt
(h)由式 预测测试文本t的类别yt。
在得到测试文本的预测类别之后,我们将预测结果与测试文本的真实类别用Accuracy,MacroAUC,MicroAUC,MacroF1,MicroF1等5个评价标准进行比对,结果如表2所示。结果表明了本发明良好的预测能力,在总共20个类的数据上,达到了80%的预测精确度。
表2
Accuracy | MacroAUC | MicroAUC | MacroF1 | MicroF1 |
0.8026 | 0.8882 | 0.8979 | 0.8819 | 0.8905 |
另外,我们也学习到了主题中单词的鉴别度。表3展示了学习到的4个主题中的前10个高鉴别度的单词。这里,高鉴别度是指鉴别度高于0.9。不难发现,虽然我们对文本数据只做过极其简单地预处理,本发明依然能很好的发现体现主题的高鉴别度的单词。例如,就“atheism”(无神论)而言,本发明挖掘除了能强烈关联这一意味的“jesus”(耶稣)“church”(教堂)“Christianity”(基督教),“hell”(地狱)等等。
表3
主题 | 前10个高鉴别度的单词 |
atheism | jesus,church,christianity,hell,atheism,atheists,gay,athos,jews, |
最后,我们将学习到的主题中单词的鉴别度(Discrimination)和单词在文本中的熵进行比对,如图2所示。这里,单词w在文本中的熵entropy(w)由式子计算得出,其中#(w,c)表示单词w在所属类别为c的训练文本中总共出现的次数,表示单词w在训练文本中总共出现的次数。图2中每个子图各自表示一个主题,每个子图中,横坐标对应主题的前20个流行的单词(按单词在主题中的权重由大到小排序),其中红色带方框的离散点的横纵坐标分别表示单词以及单词在主题中的鉴别度,蓝色带星号的离散点的横纵坐标分别表示单词以及单词在文本中的熵。图2恰如其分地反映出了这样一个事实:单词在文本中的熵较低时,单词在主题中的鉴别度较高;反之亦然。
Claims (9)
1.一种基于概率单词选择和监督主题模型的文本分类方法,其特征在于包括如下步骤:
1)去除训练文本中的标点符号,统计词频信息及类别信息,并形成单词表和类别表;
2)初始化主题比例矢量,主题单词矩阵,主题单词鉴别度矩阵和回归系数矩阵;
3)根据训练文本的单词列表及其类别迭代更新主题比例矢量,主题单词矩阵,主题单词鉴别度矩阵和回归系数矩阵;
4)对于测试文本,统计词频信息,然后利用主题比例矢量,主题单词矩阵,主题单词鉴别度矩阵和回归系数矩阵进行分类。
2.根据权利要求1所述的基于概率单词选择和监督主题模型的文本分类方法,其特征在于所述的去除训练文本中的标点符号,统计词频信息及类别信息,并形成单词表和类别表的步骤包括:
2.1)去除训练文本中的标点符号,顺序扫描训练文本中的所有单词,每个不同的单词保留一个,最终形成一个大小为V的词汇表,顺序扫描每个训练文本的类别,每个不同的类别保留一个,最终形成一个大小为C的文本类别表;
2.2)统计训练文本的词频信息,加上训练文本所属的类别信息,得到训练文本TRAIN={((wd,fd,yd)),d=1,…,Dtr},其中Dtr表示训练文本的数目,wd={(wdm),m=1,…,Md,wdm∈{1,…,V}}表示训练文本d的所有不同的单词,Md表示训练文本d中不同的单词的个数;fd={(fdm),m=1,…,Md,fdm∈Z+}表示训练文本d中每个不同的单词出现的频数,Z+表示正整数;yd∈{1,…,C}表示训练文本d所属的类别。
3.根据权利要求1所述的基于概率单词选择和监督主题模型的文本分类方法,其特征在于所述的初始化主题比例矢量,主题单词矩阵,主题单词鉴别度矩阵和回归系数矩阵的步骤包括:
3.1)初始化主题比例矢量α={(αk),k=1,…,K},其中K表示主题的个数;
3.2)初始化主题单词矩阵β={(βkv),k=1,…,K,v=1,…,V};
3.3)初始化主题单词鉴别度矩阵ψ={(ψkv),k=1,…,K,v=1,…,V};
3.4)初始化回归系数矩阵η={(ηcv),c=1,…,C,v=1,…,V}。
4.根据权利要求1所述的基于概率单词选择和监督主题模型的文本分类方法,其特征在于所述的根据训练文本的单词列表及其类别迭代更新主题比例矢量,主题单词矩阵,主题单词鉴别度矩阵和回归系数矩阵的方法是:当算法没有满足终止条件时,反复迭代执行以下步骤:
4.1)置下述统计量的所有元素的值为0:
(4.1.1)主题中单词的个数矩阵N={(nkv),k=1,…,K,v=1,…,V};
(4.1.2)主题中显著性单词的数量矩阵S={(skv),k=1,…,K,v=1,…,V};
(4.1.3)主题比例累积量A={(ak),k=1,…,K};
(4.1.4)训练文本的统计期望E={(edm),d=1,…,Dtrain,m=1,…,Md};
(4.1.5)训练文本的统计方差Q={(qdm),d=1,…,Dtr,m=1,…,Md};
4.2)对于所有训练文本(wd,fd,yd),d=1,…,Dtr,进行变分推理,并更新有关统计变量Ntv,Stv,Ed和Qd;
4.3)用N,S来学习β和ψ;用A来学习α;用E和Q来学习η。
5.根据权利要求4所述的基于概率单词选择和监督主题模型的文本分类方法,其特征在于所述的步骤4.2)具体是:对于所有训练文本的(wd,fd,yd),d=1,…,Dtr,执行下述步骤:
(5.1)初始化主题比例变分参数γ={(γk),k=1,…,K};
(5.2)初始化主题分配变分参数φ={(φmk),m=1,…,Md,k=1,…,K};
(5.3)初始化单词鉴别值变分参数μ={(μm),m=1,…,Md};
(5.4)初始化已完成迭代次数iter=0;
(5.5)对训练文本d中所有不同的单词及其词频(wdm,fdm),m=1,…,Md,执行下述步骤:
(a)运用固定点迭代的方法学习μm:
其中,∈1和∈0分别表示峰鉴别值单词的权重和谷鉴别值单词的权重, 而gmc由以下方式计算:
(b)删除旧的φmk对γ的影响:
γk=γk-φmkfdm,k=1,…,K
(c)更新φmk:
k=1,…,K
其中,Ψ表示digamma函数;
(d)更新γ:
γk=γk+φmkfdm,k=1,…,K
(5.6)由训练文本d对应的γ,φ和μ计算训练文本d的似然概率,如果单文本似然概率的改变量大于给定变分推理似然变化阈值且已完成迭代次数iter小于变分推理最大迭代次数,则iter=iter+1,转到步骤(5.5)继续执行;
(5.7)更新N的每个元素:
其中,δ(a,b)表示Kronecker delta函数,当a=b时,δ(a,b)=1;而a≠b时,δ(a,b)=0;
(5.8)更新S的每个元素:
(5.9)更新A的每个元素:
(5.10)更新训练文本d的统计期望edm:
edm=fdm(μm∈1+(1-μm)∈0),m=1,…,Md
(5.11)更新训练文本d的统计方差qdm
7.根据权利要求4所述的基于概率单词选择和监督主题模型的文本分类方法,其特征在于所述的根据训练文本的单词列表及其类别迭代更新主题比例矢量,主题单词矩阵,主题单词鉴别度矩阵和回归系数矩阵所述的定义的终止条件是:所有文本的似然概率之和的改变量小于给定参数学习似然变化阈值或者已经达到了参数学习最大迭代次数。
8.根据权利要求1所述的基于概率单词选择和监督主题模型的文本分类方法,其特征在于所述的对于测试文本,统计词频信息,然后利用主题比例矢量,主题单词矩阵,主题单词鉴别度矩阵和回归系数矩阵进行分类的步骤是:
8.1)对于测试文本,去除标点符号,统计词频信息,得到测试文本TEST={((wt,ft)),t=1,…,Dte},其中Dte表示测试文本的数目,wt={(wtm),m=1,…,Mt,wtm∈{1,…,V}}表示测试文本t的所有不同的单词,Mt表示训练文本t中不同的单词的个数;ft={(ftm),m=1,…,Mt,ftm∈Z+}表示训练文本t中每个不同的单词出现的频数;
8.2)对于每篇测试文本(wt,ft),t=1,…,Dte,进行变分推理,并进行类别预测。
9.根据权利要求8所述的基于概率单词选择和监督主题模型的文本分类方法,其特征在于所述的步骤8.2)具体是:对于所有测试文本的(wt,ft),t=1,…,Dte,执行下述步骤:
(9.1)初始化主题比例变分参数γ={(γk),k=1,…,K};
(9.2)初始化主题分配变分参数φ={(φmk),m=1,…,Mt,k=1,…,K};
(9.3)初始化单词鉴别值变分参数μ={(μm),m=1,…,Mt};
(9.4)初始化已完成迭代次数iter=0;
(9.5)对训练文本t中所有不同的单词及其词频(wtm,ftm),m=1,…,Mt,执行下述步骤:
(e)运用固定点迭代的方法学习单μm:
(f)删除旧的φmk对γ的影响:
γk=γk-φmkftm,k=1,…,K
(g)更新φmk:
其中,Ψ表示digamma函数;
(h)更新γ:
γk=γk+φmkftm,k=1,…,K
(9.6)由测试文本t对应的γ,φ和μ计算测试文本t的似然概率,如果单文本似然概率的改变量大于给定变分推理似然变化阈值且已完成迭代次数iter小于变分推理最大迭代次数,则iter=iter+1,转到步骤(9.5)继续执行;
(9.7)得到测试文本t的统计期望etm,m=1,…,Mt:
etm=ftm(μm∈1+(1-μm)∈0)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310410657.0A CN103473309B (zh) | 2013-09-10 | 2013-09-10 | 一种基于概率单词选择和监督主题模型的文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310410657.0A CN103473309B (zh) | 2013-09-10 | 2013-09-10 | 一种基于概率单词选择和监督主题模型的文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103473309A true CN103473309A (zh) | 2013-12-25 |
CN103473309B CN103473309B (zh) | 2017-01-25 |
Family
ID=49798157
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310410657.0A Active CN103473309B (zh) | 2013-09-10 | 2013-09-10 | 一种基于概率单词选择和监督主题模型的文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103473309B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250399A (zh) * | 2015-05-06 | 2016-12-21 | 大众汽车有限公司 | 对符号序列分配导航目标用的装置、方法和计算机程序 |
CN106970925A (zh) * | 2016-01-14 | 2017-07-21 | 阿里巴巴集团控股有限公司 | 用户观点的异常预警方法和装置 |
CN107797982A (zh) * | 2016-08-31 | 2018-03-13 | 百度在线网络技术(北京)有限公司 | 用于识别文本类型的方法、装置和设备 |
CN109145288A (zh) * | 2018-07-11 | 2019-01-04 | 西安电子科技大学 | 基于变分自编码模型的文本深度特征提取方法 |
CN109213975A (zh) * | 2018-08-23 | 2019-01-15 | 重庆邮电大学 | 一种基于字符层级卷积变分自编码的推特文本表示方法 |
CN109726286A (zh) * | 2018-12-24 | 2019-05-07 | 杭州东信北邮信息技术有限公司 | 一种基于lda主题模型的图书自动分类方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102110229A (zh) * | 2009-12-29 | 2011-06-29 | 欧姆龙株式会社 | 单词识别方法和信息处理装置 |
-
2013
- 2013-09-10 CN CN201310410657.0A patent/CN103473309B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102110229A (zh) * | 2009-12-29 | 2011-06-29 | 欧姆龙株式会社 | 单词识别方法和信息处理装置 |
Non-Patent Citations (6)
Title |
---|
DAVID M. BLEI等: "Latent Dirichlet Allocation", 《JOURNAL OF MACHINE LEARNING RESEARCH》 * |
DAVID M. BLEI等: "Supervised topic models", 《ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS》 * |
JUN ZHU等: "MedLDA: Maximum Margin Supervised Topic Models for Regression and Classification", 《JOURNAL OF MACHINE LEARNING RESEARCH》 * |
WANHONG XU: "Supervising Latent Topic Model for Maximum-Margin Text Classification and Regression", 《ADVANCES IN KNOWLEDGE DISCOVERY AND DATA MINING》 * |
初建崇等: "Web文档中词语权重计算方法的改进", 《计算机工程与应用》 * |
曹素青等: "一个中文文本自动分类数学模型", 《情报学报》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250399A (zh) * | 2015-05-06 | 2016-12-21 | 大众汽车有限公司 | 对符号序列分配导航目标用的装置、方法和计算机程序 |
CN106250399B (zh) * | 2015-05-06 | 2019-11-05 | 大众汽车有限公司 | 对符号序列分配导航目标用的装置、方法和计算机程序 |
CN106970925A (zh) * | 2016-01-14 | 2017-07-21 | 阿里巴巴集团控股有限公司 | 用户观点的异常预警方法和装置 |
CN107797982A (zh) * | 2016-08-31 | 2018-03-13 | 百度在线网络技术(北京)有限公司 | 用于识别文本类型的方法、装置和设备 |
CN107797982B (zh) * | 2016-08-31 | 2021-05-07 | 百度在线网络技术(北京)有限公司 | 用于识别文本类型的方法、装置和设备 |
US11281860B2 (en) | 2016-08-31 | 2022-03-22 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method, apparatus and device for recognizing text type |
CN109145288A (zh) * | 2018-07-11 | 2019-01-04 | 西安电子科技大学 | 基于变分自编码模型的文本深度特征提取方法 |
CN109213975A (zh) * | 2018-08-23 | 2019-01-15 | 重庆邮电大学 | 一种基于字符层级卷积变分自编码的推特文本表示方法 |
CN109213975B (zh) * | 2018-08-23 | 2022-04-12 | 重庆邮电大学 | 一种基于字符层级卷积变分自编码的推特文本表示方法 |
CN109726286A (zh) * | 2018-12-24 | 2019-05-07 | 杭州东信北邮信息技术有限公司 | 一种基于lda主题模型的图书自动分类方法 |
CN109726286B (zh) * | 2018-12-24 | 2020-10-16 | 杭州东信北邮信息技术有限公司 | 一种基于lda主题模型的图书自动分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103473309B (zh) | 2017-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103473309A (zh) | 一种基于概率单词选择和监督主题模型的文本分类方法 | |
Pane et al. | A multi-lable classification on topics of quranic verses in english translation using multinomial naive bayes | |
Zhang et al. | Learning from positive and unlabeled examples: A survey | |
CN109902159A (zh) | 一种基于自然语言处理的智能运维语句相似度匹配方法 | |
CN109886020A (zh) | 基于深度神经网络的软件漏洞自动分类方法 | |
CN104239554A (zh) | 跨领域跨类别的新闻评论情绪预测方法 | |
CN106844424A (zh) | 一种基于lda的文本分类方法 | |
Orman et al. | Towards realistic artificial benchmark for community detection algorithms evaluation | |
CN102436480B (zh) | 一种面向文本的知识单元关联关系挖掘方法 | |
CN101710333A (zh) | 基于遗传算法的网络文本分割方法 | |
CN109740655B (zh) | 基于矩阵分解及神经协同过滤的物品评分预测方法 | |
Lee | Unsupervised and supervised learning to evaluate event relatedness based on content mining from social-media streams | |
CN107066555A (zh) | 面向专业领域的在线主题检测方法 | |
Chen et al. | Progressive EM for latent tree models and hierarchical topic detection | |
CN104850617A (zh) | 短文本处理方法及装置 | |
CN103440352A (zh) | 基于深度学习的对象间的关联分析方法及其装置 | |
WO2023045725A1 (zh) | 用于数据集创建的方法、电子设备和计算机程序产品 | |
Prusa et al. | Using feature selection in combination with ensemble learning techniques to improve tweet sentiment classification performance | |
Li et al. | A review of machine learning algorithms for text classification | |
Kurniawan et al. | Hierarchical Sentence Sentiment Analysis Of Hotel Reviews Using The Naïve Bayes Classifier | |
Canning et al. | Predicting graph categories from structural properties | |
CN104572623A (zh) | 一种在线lda模型的高效数据总结分析方法 | |
Prusa et al. | Utilizing ensemble, data sampling and feature selection techniques for improving classification performance on tweet sentiment data | |
CN102375848B (zh) | 评价对象聚类方法和装置 | |
Kuhr et al. | Augmenting and automating corpus enrichment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20131225 Assignee: TONGDUN HOLDINGS Co.,Ltd. Assignor: ZHEJIANG University Contract record no.: X2021990000612 Denomination of invention: A text classification method based on probabilistic word selection and supervised topic model Granted publication date: 20170125 License type: Common License Record date: 20211012 |
|
EE01 | Entry into force of recordation of patent licensing contract |