CN105468713B - 一种多模型融合的短文本分类方法 - Google Patents

一种多模型融合的短文本分类方法 Download PDF

Info

Publication number
CN105468713B
CN105468713B CN201510808282.2A CN201510808282A CN105468713B CN 105468713 B CN105468713 B CN 105468713B CN 201510808282 A CN201510808282 A CN 201510808282A CN 105468713 B CN105468713 B CN 105468713B
Authority
CN
China
Prior art keywords
classification
text
model
cluster
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510808282.2A
Other languages
English (en)
Other versions
CN105468713A (zh
Inventor
鲍军鹏
蒋立华
袁瑞玉
骆玉忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201510808282.2A priority Critical patent/CN105468713B/zh
Publication of CN105468713A publication Critical patent/CN105468713A/zh
Application granted granted Critical
Publication of CN105468713B publication Critical patent/CN105468713B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification

Abstract

本发明公开了一种多模型融合的短文本分类方法,包括学习方法和分类方法两部分;学习方法的步骤包括:对短文本训练数据进行分词、过滤,得到单词集合;计算每个单词的IDF值;计算所有单词的TFIDF值,构建文本向量VSM;基于向量空间模型进行文本学习,构建出本体树模型、关键字重叠模型、朴素贝叶斯模型和支持向量机模型。分类方法的步骤包括:对待分类短文本进行分词、过滤;基于向量空间模型生成文本向量;分别应用本体树模型、关键字重叠模型、朴素贝叶斯模型和支持向量机模型进行分类,得到单一模型分类结果;对单一模型分类结果进行融合,得到最终分类结果。本发明方法融合了多种分类模型,提高了短文本分类准确率。

Description

一种多模型融合的短文本分类方法
【技术领域】
本发明属于智能信息处理和计算机技术领域,具体涉及一种短文本分类方法。
【背景技术】
随着互联网快速发展,各种网络应用深入到社会生活的方方面面。以微博、微信为代表的各种社交应用,以及各种网络评论、反馈机制已经成为现代社会发布和获取信息的重要渠道。在微博上,网民可以表达自己的心情、经历以及感悟,政府可以发布通告和各种信息,人们也可以自由地表达对某些事的观点和见解等等。
微博、微信、网络评论等数据都是字数有限的文本信息。这些数据都是典型的文本短文,即短文本。通过对微博类短文本数据进行挖掘,可以获取社会关注热点、群众呼声和意见反馈、突发事件传播、舆论倾向等等影响社会舆情的重要信息,可以为相关部门及时快速地收集传递公民意见和建议。
短文本挖掘的一个基本应用就是对短文本进行分类,根据文本内容对文本进行分门别类地汇总。自然语言文本包含着复杂的信息。一篇文本往往可以对应多个分类目标。也就是说,短文本分类是一个复杂的多标签分类问题。解决分类问题常用的方法包括朴素贝叶斯分类、决策树分类、支持向量机分类、神经网络分类等等。但是这些单一分类方法的适应性和分类效果在实践应用中还不能完全满足需求。
【发明内容】
本发明的目的在于提供一种多模型融合的短文本分类方法,能够对短文本进行比较准确的多标签分类。
为了实现上述目的,本发明采用如下技术方案:
一种多模型融合的短文本分类方法,包括学习方法和分类方法两部分;
1)、学习方法包括以下步骤:
(11)对短文本训练数据进行分词、过滤,得到单词集合;
(12)计算单词集合中每个单词的IDF值;
(13)每一个训练文本求取该文本内所有单词的TFIDF值,然后构建成文本向量,即得到VSM文本向量;
(14)基于VSM文本向量进行文本聚类,并由聚类结果构建出本体树模型,然后在本体树基础上构建出关键字重叠模型;基于VSM文本向量构建出朴素贝叶斯模型;基于VSM文本向量构建出支持向量机模型;
2)、分类方法包括以下步骤:
(21)对待分类文本进行分词、过滤;
(22)每一个待分类文本求取其所有单词的TFIDF值,然后构建成文本向量,即得到VSM文本向量;
(23)应用学习方法所获得的本体树模型进行文本分类得到其分类结果;应用学习方法所获得的关键字重叠模型进行文本分类得到其分类结果;应用学习方法所获得的朴素贝叶斯模型进行文本分类得到其分类结果;应用学习方法所获得的支持向量机模型进行文本分类得到其分类结果;
(24)对上述4种单一模型分类结果进行融合,得到最终分类结果。
进一步的,学习方法第(11)步对文本进行分词、过滤具体包括以下步骤:
(111)对文本数据,用中文分词工具进行分词,将每一个句子分割成一系列单词及其词性;
(112)对每个单词按照其词性进行过滤,滤除不需要的单词,共有两种过滤机制。第一种过滤机制不需要的单词包括:停用词,长度为1的单词,纯数字以及以数字开头的单词。保留的单词包括:名词、机构团体名、其它专名、名词性惯用语、名词性语素、动词、名动词、趋向动词、形式动词、不及物动词(内动词)、动词性惯用语、动词性语素。第二种过滤机制不需要的单词包括:代词、量词、介词、连词、助词、叹词、语气词、拟声词、标点符号;
(113)由所有文本数据过滤后的单词生成单词集合。
进一步的,构建关键字重叠模型具体包括以下步骤:
(141)对同一类别的文本训练数据用TBC方法进行聚类;
(142)合并聚类结果中的小簇,合并后的簇心向量为被合并训练短文本向量的平均值;
(143)重复(141)和(142),直到所有类别都完成;
(144)由聚类结果生成本体树模型;一个类别的聚类结果,对应着一个子树;在该子树中,父节点是类别名称,下一层是簇标签节点,与聚类得到的簇一一对应,簇标签节点由簇心向量前m(m默认值为50)个权重最大的词语及其权重组成,叶子节点则对应该簇中原始的训练短文本;构建本体树的抽象根节点root,所有类别的子树作为root的子节点;得到并保存本体树模型;
(145)由本体树生成关键字重叠模型;统计一个类别中所有簇标签中单词的出现次数,并从大到小进行排序;按照下式计算类别ci中关键词tj的局部权重w(ci,tj):
其中,f(ci,tj)表示关键词tj在类别ci中的排位次序;类别ci中出现最多的关键词排位为0,出现次多的关键词排位为1,依次类推;ni表示类别ci的中不同单词的数目,b(b默认值为0.2)为用户设置的系统参数;
然后统计关键词tj在所有类别中的次数,根据下式计算关键词tj的全局权重w(tj)
其中,f(tj)表示关键词tj在多少个类别中出现过,N表示所有不同单词的数目;记录每个关键词在每个类别中的局部权重,及其全局权重,保存为关键字重叠模型;
构建朴素贝叶斯模型具体包括以下步骤:
(151)对于所有训练文本统计分别每个类别的出现概率P(ci),其中ci表示一个类别;
(152)对单词集中的每一个单词,统计该单词在每个类别出现概率P(tj|ci),其中ci表示一个类别,tj表示一个单词;
(153)将上述类别和单词所对应的概率值保存到文件中,构成朴素贝叶斯模型;
构建支持向量机模型具体包括以下步骤:
(161)把训练数据转换成支持向量机软件包LibLinear所需数据格式;
(162)利用LibLinear训练支持向量机模型;
(163)将训练结果保存为支持向量机模型。
进一步的,TBC方法具体包括以下步骤:
(1411)取第一条数据单独为一个簇,并作为簇中心;
(1412)依次取后续数据并计算该数据与当前所有簇中心的余弦相似性;如果该相似度大于给定阈值(默认值为0.09)则将该数据放入与其相似度最大的簇中,并调整该簇中心;如果该相似度小于给定阈值则将该数据单独生成一个簇,并作为簇中心;
(1413)按照上述过程把所有数据处理完之后,再次遍历所有数据,依次取一条数据,计算该数据与当前所有簇中心的余弦相似度,然后将该数据放入与其最相似的簇中;如此处理完一遍所有数据并调整当前所有的簇中心;
(1414)如果簇中心有变化,则重复过程(1413)直至簇中心不再变化为止;当簇中心不再变化时,聚类结束。
进一步的,应用学习方法所获得的本体树模型进行文本分类得到其分类结果,具体包括以下步骤:
(231)计算待分类文本向量与本体树中簇标签的余弦相似度;
(232)按照相似度从大到小进行排序;
(233)选择相似度最大的前k(k默认值为20)个簇标签;这些簇标签父节点所标记类别即为待分类文本类别;
(234)相似度最大者所对应类别强度值记为20,次大者对应类别强度值减小1,后续者依次减1;
应用学习方法所获得的关键字重叠模型进行文本分类得到其分类结果;具体包括以下步骤:
(241)在关键词重叠模型中,按照下式计算待分类文本T属于类别ci的权重v(T,ci):
其中,T=[t1,t2,……,tn],表示待分类文本的VSM向量;w(ci,tj)表示关键词重叠模型中关键词tj对类别ci的局部权重;w(tj)表示关键词重叠模型中关键词tj的全局权重;
(242)重复(241),计算待分类文本对所有类别的权重;
(243)按照权重从大到小进行排序;
(244)选择权重最大的前k(k默认值为20)个类别,这些类别即为待分类文本类别;
(245)权重最大者所对应类别强度值记为20,次大者对应类别强度值减小1,后续者依次减1;
应用学习方法所获得的朴素贝叶斯模型进行文本分类得到其分类结果;具体包括以下步骤:
(251)按照下式计算待分类文本T属于类别ci的可能性Q(ci|T);
如果类别ci中不包含关键词tj(tj∈T),则P(tj|ci)=ε,ε是
(252)重复(251),计算待分类文本对所有类别的可能性;
(253)按照可能性从大到小进行排序;
(254)选择可能性最大的前k(k默认值为20)个类别;这些类别即为待分类文本类别;
(255)可能性最大者所对应类别强度值记为20,次大者对应类别强度值减小1,后续者依次减1;
应用学习方法所获得的支持向量机模型进行文本分类得到其分类结果;具体包括以下步骤:
(261)对待分类文本向量分别用支持向量机模型中的所有分类器进行一次分类,得到每个类别的决策值;
(262)按照决策值从大到小进行排序;
(263)选择决策值最大的前k(k默认值为20)个类别;这些类别即为待分类文本类别;
(264)权重最大者所对应类别强度值记为20,次大者对应类别强度值减小1,后续者依次减1。
进一步的,按照以下公式对4种单一模型分类结果进行融合:
其中,R(ci|t)表示待分类文本t属于类别ci的最终类别强度值,α为调节因子,0≤α≤1,SVM(ci|t)表示支持向量机模型判定文本t属于类别ci的类别强度值,Onto1(ci|t)表示本体树模型判定文本t属于类别ci的类别强度值,Onto2(ci|t)表示关键字重叠模型判定文本t属于类别ci的类别强度值,Bayes(ci|t)表示朴素贝叶斯模型判定文本t属于类别ci的类别强度值。
进一步的,所述训练数据和待分类数据都是自然语言短文本,并且一个待分类文本会有多个不同强度的类别结果。
相对于现有技术,本发明具有以下有益效果:
自然语言文本包含着复杂的信息。一篇文本往往可以对应多个分类目标。也就是说,短文本分类是一个复杂的多标签分类问题。现有的常用方法包括朴素贝叶斯分类、决策树分类、支持向量机分类、神经网络分类等等都是应用单一模型进行文本分类。但是这些单一模型分类方法的适应性和分类效果在实践应用中还不能完全满足需求。
本发明提供了一种多模型融合的短文本分类方法,能够对短文本进行比较准确的多标签分类。相对于对单一模型分类方法而言,本发明所述方法融合了多种分类模型,提高了短文本分类准确率,增强了方法适应性。
【附图说明】
图1是本发明训练方法的流程图;
图2是本发明所述构建本体树模型的流程图;
图3是本发明所述构建的本体树示意图;
图4是本发明所述构建朴素贝叶斯模型的流程图;
图5是本发明分类方法的流程图;
图6是本发明所述TBC聚类方法流程图。
【具体实施方式】
本发明一种多模型融合的短文本分类方法,包括学习方法和分类方法两部分。学习方法和分类方法分别实现不同的功能。
(1)、学习方法包括以下步骤:
(11)对短文本训练数据进行分词、过滤,得到单词集合;
(12)计算单词集合中每个单词的IDF值;
(13)求取步骤1)中每一个训练短文本内所有单词的TFIDF值,然后构建成文本向量,即得到VSM文本向量;
(14)基于VSM文本向量进行文本聚类,并由聚类结果构建出本体树模型,然后在本体树基础上构建出关键字重叠模型;
(15)基于VSM文本向量构建出朴素贝叶斯模型;
(16)基于VSM文本向量构建出支持向量机模型。
上述(14)、(15)、(16)步可以并行执行或者以任意顺序执行。
(2)、分类方法包括以下步骤:
(21)对待分类文本进行分词、过滤;
(22)求取每一个待分类文本的所有单词的TFIDF值,然后构建成文本向量,即得到VSM文本向量;
(23)应用学习方法所获得的本体树模型进行待分类文本分类得到其分类结果;
(24)应用学习方法所获得的关键字重叠模型进行待分类文本分类得到其分类结果;
(25)应用学习方法所获得的朴素贝叶斯模型进行待分类文本分类得到其分类结果;
(26)应用学习方法所获得的支持向量机模型进行待分类文本分类得到其分类结果;
(27)对步骤(23)-(26)应用上述4种单一模型的分类结果进行融合,得到最终分类结果。
上述(23)、(24)、(25)、(26)步可以并行执行或者以任意顺序执行。
学习方法第(11)步具体包括以下步骤:
(111)对文本数据(训练数据),用中科院的中文分词工具ICTCLAS2015进行分词,将每一个句子分割成一系列单词及其词性;
(112)对每个单词按照其词性进行过滤,滤除不需要的单词,共有两种过滤机制。第一种过滤机制不需要的单词包括:停用词,长度为1的单词,纯数字以及以数字开头的单词。保留的单词包括:名词、机构团体名、其它专名、名词性惯用语、名词性语素、动词、名动词、趋向动词、形式动词、不及物动词(内动词)、动词性惯用语、动词性语素。第二种过滤机制不需要的单词包括:代词、量词、介词、连词、助词、叹词、语气词、拟声词、标点符号。单词过滤机制可以缩小数据量,达到降维效果;
(113)由所有文本数据过滤后的单词生成单词集合。
学习方法第(14)步具体包括以下步骤:
(141)对属于同一类别的文本训练数据用TBC(Threshold Based Clustering)方法进行聚类;
(142)合并聚类结果中的小簇,即所含数据数目小于指定阈值(阈值的默认值为3)的簇被合并为一个簇,合并后的簇心向量为被合并训练短文本向量的平均值;
(143)重复(141)和(142),直到所有类别都完成;
(144)由聚类结果生成本体树模型;一个类别的聚类结果,对应着一个子树。在该子树中,父节点是类别名称,下一层是簇标签节点,与聚类得到的簇一一对应,簇标签节点由簇心向量前m(m默认值为50)个权重最大的词语及其权重组成,叶子节点则对应该簇中原始的训练短文本。构建本体树的抽象根节点root,所有类别的子树作为root的子节点。得到并保存本体树模型;
(145)由本体树模型生成关键字重叠模型。一个类别中可能有多个簇标签,统计一个类别中所有簇标签中单词的出现次数,并从大到小进行排序。按照下式计算类别ci中关键词tj的局部权重w(ci,tj)。
其中,f(ci,tj)表示关键词tj在类别ci中的排位次序,即类别ci中出现最多的关键词排位为0,出现次多的关键词排位为1,依次类推。ni表示类别ci的中不同单词的数目,b(b默认值为0.2)为用户设置的系统参数。
然后统计关键词tj在所有类别中的次数,根据下式计算关键词tj的全局权重w(tj)
其中,f(tj)表示关键词tj在多少个类别中出现过,N表示所有不同单词的数目,b为用户设置的系统参数;记录每个关键词在每个类别中的局部权重,及其全局权重,保存为关键字重叠模型。
学习方法的第(141)步中的TBC方法(Threshold Based Clustering)具体包括以下步骤:
(1411)取第一条数据单独为一个簇,并作为簇中心;
(1412)依次取后续数据并计算该数据与当前所有簇中心的余弦相似性;如果该相似度大于给定阈值(默认值为0.09)则将该数据放入与其相似度最大的簇中,并调整该簇中心;如果该相似度小于给定阈值则将该数据单独生成一个簇,并作为簇中心;
(1413)按照上述过程把所有数据处理完之后,再次遍历所有数据,依次取一条数据,计算该数据与当前所有簇中心的余弦相似度,然后将该数据放入与其最相似的簇中;如此处理完一遍所有数据并调整当前所有的簇中心;
(1414)如果簇中心有变化,则重复过程(1413)直至簇中心不再变化为止;当簇中心不再变化时,聚类结束。
学习方法第(15)步具体包括以下步骤:
(151)对于所有训练文本统计分别每个类别的出现概率P(ci),其中ci表示一个类别;
(152)对单词集中的每一个单词,统计该单词在每个类别出现概率P(wj|ci),其中ci表示一个类别,wj表示一个单词;
(153)将上述类别和单词所对应的概率值保存到文件中,构成朴素贝叶斯模型。
学习方法第(16)步具体包括以下步骤:
(161)把训练数据转换成支持向量机软件包LibLinear(v1.95)所需数据格式;
(162)利用LibLinear训练支持向量机模型;
(163)将训练结果保存为支持向量机模型。
分类方法第(23)步具体包括以下步骤:
(231)计算待分类文本向量与本体树中簇标签的余弦相似度;
(232)按照相似度从大到小进行排序;
(233)选择相似度最大的前k(k默认值为20)个簇标签;这些簇标签父节点所标记类别即为待分类文本类别;
(234)相似度最大者所对应类别强度值记为20,次大者对应类别强度值减小1(即为19),后续者依次减1。
分类方法第(24)步具体包括以下步骤:
(241)在关键词重叠模型中,按照下式计算待分类文本T属于类别ci的权重v(T,ci):
其中,T=[t1,t2,……,tn],表示待分类文本的VSM向量。w(ci,tj)表示关键词重叠模型中关键词tj对类别ci的局部权重。W(tj)表示关键词重叠模型中关键词tj的全局权重。
(242)重复(241),计算待分类文本对所有类别的权重;
(243)按照权重从大到小进行排序;
(244)选择权重最大的前k(k默认值为20)个类别,这些类别即为待分类文本类别;
(245)权重最大者所对应类别强度值记为20,次大者对应类别强度值减小1(即为19),后续者依次减1。
分类方法第(25)步具体包括以下步骤:
(251)按照下式计算待分类文本T属于类别ci的可能性Q(ci|T);
如果类别ci中不包含关键词tj(tj∈T),则P(tj|ci)=ε,ε是
(252)重复(251),计算待分类文本对所有类别的可能性;
(253)按照可能性从大到小进行排序;
(254)选择可能性最大的前k(k默认值为20)个类别;这些类别即为待分类文本类别;
(255)可能性最大者所对应类别强度值记为20,次大者对应类别强度值减小1(即为19),后续者依次减1。
分类方法第(26)步具体包括以下步骤:
(261)对待分类文本向量分别用支持向量机模型中的所有分类器进行一次分类,得到每个类别的决策值;
(262)按照决策值从大到小进行排序;
(263)选择决策值最大的前k(k默认值为20)个类别;这些类别即为待分类文本类别;
(264)权重最大者所对应类别强度值记为20,次大者对应类别强度值减小1(即为19),后续者依次减1。
分类方法第(27)步按照以下公式对4种单一模型分类结果进行融合:
其中,R(ci|t)表示待分类文本t属于类别ci的最终类别强度值,α(0≤α≤1)为调节因子,SVM(ci|t)表示支持向量机模型判定文本t属于类别ci的类别强度值,Onto1(ci|t)表示本体树模型判定文本t属于类别ci的类别强度值,Onto2(ci|t)表示关键字重叠模型判定文本t属于类别ci的类别强度值,Bayes(ci|t)表示朴素贝叶斯模型判定文本t属于类别ci的类别强度值。
本发明中训练数据和待分类数据都是自然语言短文本,并且一个待分类文本会有多个不同强度的类别结果。
以下是发明人给出的较佳示例。
参照图1,图1是本发明训练方法的流程图。
首先进行步骤101,读入训练文本数据,然后步骤102利用分词工具ICTCLAS2015对训练短文本数据进行分词。接着进行步骤103,利用按照不同过滤机制对单词进行过滤,共有两种过滤机制。第一种过滤机制不需要的单词包括:停用词,长度为1的单词,纯数字以及以数字开头的单词。保留的单词包括:名词、机构团体名、其它专名、名词性惯用语、名词性语素、动词、名动词、趋向动词、形式动词、不及物动词(内动词)、动词性惯用语、动词性语素。第二种过滤机制不需要的单词包括:代词、量词、介词、连词、助词、叹词、语气词、拟声词、标点符号。然后进行步骤104,基于过滤得到的单词集合,生成IDF。接着步骤105计算TFIDF向量,构建文本向量VSM。基于步骤105生成的IDF以及VSM向量,步骤106构建本体树模型,步骤110得到并保存本体树模型。基于步骤106构建的本体树模型,步骤109构建关键字重叠模型,步骤111得到并保存关键字重叠模型。基于步骤105生成的IDF以及VSM向量,步骤107训练朴素贝叶斯模型,步骤112得到并保存贝叶斯模型。接下来进行步骤108,基于步骤105生成的IDF以及VSM向量,训练支持向量机SVM模型。步骤113得到并保存支持向量机模型。得到并保存四个训练模型后,训练过程结束。步骤106,107,108可以并行执行或者以任意顺序执行。
参照图2,图2是本发明构建本体树模型的流程图。
首先进行步骤201,对于已知类别的训练短文本,按照类别进行统计。然后进行步骤202,以类别为单位,获取未聚类的类别C。接着进行步骤203,对属于类别C的所有训练数据按照TBC方法进行聚类。在步骤204中,合并聚类结果中簇中元素数目小于阈值的簇,作为一个新的簇,簇心为该簇中所有数据的向量平均值。步骤205用于判断是否存在未聚类的类别,如果存在,则继续进行步骤202,否则聚类结束。接下来进行步骤206,获取为构建子树的类别C。步骤207用于构建类别C对应的子树,父节点是类别名称,下一层是簇标签节点,与聚类得到的簇一一对应,簇标签节点由簇心向量前m个权重最大的词语及其权重组成,叶子节点则对应该簇中原始的训练短文本。步骤208判断是否存在未构建子树的类别,如果存在,则继续进行步骤206,否则进行步骤209,用于构建完整的本体树,生成本体树的抽象根节点root,所有类别的子树作为root的子节点。最后步骤210得到并保存本体树模型。至此,构建本体树模型的过程结束。
参照图3,图3是本发明构建的本体树示意图。
在构建的本体树的示意图中,301所示部分是本体树的第一层,即抽象根节点。302所示部分是本体树的第二层,表示最高层的概念,即大类别,例如:“行政体制改革”、“能源管理”、“科技”、“保险证券期货”等等。303所示部分是本体树的第三层,即次一级的概念,表示较小类别,例如“行政体制改革”类别下面包括“机构改革”、“政务公开”、“简政放权”、“其他”等小类别。304所示部分是本体树的第四层簇标签,每个小类下包含多个簇,簇标签用于标识其子节点中短文本的主题。而305所示部分是本体树的第五层叶子节点,对应着原始短文本的VSM向量。
参照图4,图4是本发明构建朴素贝叶斯模型的流程图。
首先进行步骤401,统计训练短文本的数目。然后在步骤402中,获取尚未考虑的类别C。接着步骤403统计训练短文本中属于类别C的短文本数目。步骤404计算训练文本中类别C的出现概率P(C)。然后步骤405统计类别C中所有单词的次数之和。步骤406统计类别C中每个单词t出现的次数。步骤407计算每个单词t在类别C中的出现概率P(t|C)。接着进行步骤408,判断是否存在未统计的类别,如果是,则继续执行步骤402,否则执行步骤409,保存朴素贝叶斯模型。
参照图5,图5是本发明分类方法的流程图。
首先进行步骤501,读入待分类文本数据,然后步骤502利用分词工具ICTCLAS2015对训练短文本数据进行分词。接着进行步骤503,利用按照不同过滤机制对单词进行过滤。然后步骤504计算TFIDF向量,构建文本向量VSM。接着步骤505基于本体树模型进行分类,得到本体树分类结果,步骤506基于关键字重叠模型进行分类,得到关键字重叠模型分类结果,步骤507基于朴素贝叶斯模型进行分类,得到朴素贝叶斯分类结果,步骤508基于支持向量机SVM模型进行分类,得到支持向量机分类结果。在步骤509中,对上述四种模型的分类结果进行融合,步骤510输出最终的分类结果。步骤505,506,507,508可以并行执行或者以任意顺序执行。
参照图6,图6是本发明TBC聚类方法流程图。
首先进行步骤601,取第一条数据单独为一个簇,并作为簇中心。然后进行步骤602,判断数据是否处理完。如果未处理完所有数据,则执行步骤603,取下一条数据。接着执行步骤604,计算该数据与当前所有簇中心的余弦相似度。然后执行步骤605,判断该数据是否与某个簇中心的距离大于指定阈值。如果大于指定阈值,则执行步骤606,将该数据放入与其距离最小的簇中,并调整该簇中心,然后转至步骤602。否则,执行步骤607,将该数据单独生成一个簇,并作为簇中心,然后转至步骤602。如果所有数据已经处理完,则执行步骤608,取第一条数据。然后执行步骤609,判断数据是否处理完。如果未处理完所有数据,则执行步骤610,计算该数据与当前所有簇中心的余弦相似度。接着执行步骤611,将该数据放入与其距离最近的簇中。然后执行步骤612,取下一条数据。然后转至步骤609。如果所有数据已经处理完,则执行步骤613,判断聚类结果是否发生变化。如果聚类结果发生了变化,则执行步骤614,调整变化簇的簇中心,然后转至步骤608。如果聚类结果无变化,则TBC聚类过程结束。

Claims (6)

1.一种多模型融合的短文本分类方法,其特征在于,包括学习方法和分类方法两部分;
1)、学习方法包括以下步骤:
(11)对短文本训练数据进行分词、过滤,得到单词集合;
(12)计算单词集合中每个单词的IDF值;
(13)每一个训练文本求取该文本内所有单词的TFIDF值,然后构建成文本向量,即得到VSM文本向量;
(14)基于VSM文本向量进行文本聚类,并由聚类结果构建出本体树模型,然后在本体树基础上构建出关键字重叠模型;基于VSM文本向量构建出朴素贝叶斯模型;基于VSM文本向量构建出支持向量机模型;
2)、分类方法包括以下步骤:
(21)对待分类文本进行分词、过滤;
(22)每一个待分类文本求取该文本内所有单词的TFIDF值,然后构建成文本向量,即得到VSM文本向量;
(23)应用学习方法所获得的本体树模型进行文本分类得到其分类结果;应用学习方法所获得的关键字重叠模型进行文本分类得到其分类结果;应用学习方法所获得的朴素贝叶斯模型进行文本分类得到其分类结果;应用学习方法所获得的支持向量机模型进行文本分类得到其分类结果;
(24)对上述4种单一模型分类结果进行融合,得到最终分类结果;
构建关键字重叠模型具体包括以下步骤:
(141)对同一类别的文本训练数据用TBC方法进行聚类;
(142)合并聚类结果中的小簇,合并后的簇心向量为被合并训练短文本向量的平均值;
(143)重复(141)和(142),直到所有类别都完成;
(144)由聚类结果生成本体树模型;一个类别的聚类结果,对应着一个子树;在该子树中,父节点是类别名称,下一层是簇标签节点,与聚类得到的簇一一对应,簇标签节点由簇心向量前m个权重最大的词语及其权重组成,叶子节点则对应该簇中原始的训练短文本;m=50;构建本体树的抽象根节点root,所有类别的子树作为root的子节点;得到并保存本体树模型;
(145)由本体树生成关键字重叠模型;统计一个类别中所有簇标签中单词的出现次数,并从大到小进行排序;按照下式计算类别ci中关键词tj的局部权重w(ci,tj):
其中,f(ci,tj)表示关键词tj在类别ci中的排位次序;类别ci中出现最多的关键词排位为0,出现次多的关键词排位为1,依次类推;ni表示类别ci中不同单词的数目,b为用户设置的系统参数,b=0.2;
然后统计关键词tj在所有类别中的次数,根据下式计算关键词tj的全局权重w(tj)
其中,f(tj)表示关键词tj在多少个类别中出现过,N表示所有不同单词的数目;记录每个关键词在每个类别中的局部权重,及其全局权重,保存为关键字重叠模型;
构建朴素贝叶斯模型具体包括以下步骤:
(151)对于所有训练文本统计分别每个类别的出现概率P(ci),其中ci表示一个类别;
(152)对单词集中的每一个单词,统计该单词在每个类别出现概率P(tj|ci),其中ci表示一个类别,tj表示一个单词;
(153)将上述类别和单词所对应的概率值保存到文件中,构成朴素贝叶斯模型;
构建支持向量机模型具体包括以下步骤:
(161)把训练数据转换成支持向量机软件包LibLinear所需数据格式;
(162)利用LibLinear训练支持向量机模型;
(163)将训练结果保存为支持向量机模型;
TBC方法具体包括以下步骤:
(1411)取第一条数据单独为一个簇,并作为簇中心;
(1412)依次取后续数据并计算该数据与当前所有簇中心的余弦相似性,获得相似度;如果该相似度大于给定阈值0.09则将该数据放入与其相似度最大的簇中,并调整该簇中心;如果该相似度小于给定阈值则将该数据单独生成一个簇,并作为簇中心;
(1413)按照上述过程把所有数据处理完之后,再次遍历所有数据,依次取一条数据,计算该数据与当前所有簇中心的余弦相似度,然后将该数据放入与其最相似的簇中;如此处理完一遍所有数据并调整当前所有的簇中心;
(1414)如果簇中心有变化,则重复过程(1413)直至簇中心不再变化为止;当簇中心不再变化时,聚类结束。
2.根据权利要求1所述多模型融合的短文本分类方法,其特征在于,学习方法第(11)步对文本进行分词、过滤具体包括以下步骤:
(111)对文本数据,用中文分词工具进行分词,将每一个句子分割成一系列单词及其词性;
(112)对每个单词按照其词性进行过滤,滤除不需要的单词;
(113)由所有文本数据过滤后的单词生成单词集合。
3.根据权利要求2所述多模型融合的短文本分类方法,其特征在于,步骤(112)中采用以下两种过滤机制中一种:
第一种过滤机制中不需要的单词包括:停用词,长度为1的单词,纯数字以及以数字开头的单词;
第二种过滤机制中不需要的单词包括:代词、量词、介词、连词、助词、叹词、语气词、拟声词、标点符号。
4.根据权利要求1所述多模型融合的短文本分类方法,其特征在于,
应用学习方法所获得的本体树模型进行文本分类得到其分类结果,具体包括以下步骤:
(231)计算待分类文本向量与本体树中簇标签的余弦相似度;
(232)按照相似度从大到小进行排序;
(233)选择相似度最大的前k个簇标签,k=20;这些簇标签父节点所标记类别即为待分类文本类别;
(234)相似度最大者所对应类别强度值记为20,次大者对应类别强度值减小1,后续者依次减1;
应用学习方法所获得的关键字重叠模型进行文本分类得到其分类结果;具体包括以下步骤:
(241)在关键词重叠模型中,按照下式计算待分类文本T属于类别ci的权重v(T,ci):
其中,T=[t1,t2,……,tn],表示待分类文本的VSM向量;w(ci,tj)表示关键词重叠模型中关键词tj对类别ci的局部权重;w(tj)表示关键词重叠模型中关键词tj的全局权重;
(242)重复(241),计算待分类文本对所有类别的权重;
(243)按照权重从大到小进行排序;
(244)选择权重最大的前k个类别,这些类别即为待分类文本类别;
(245)权重最大者所对应类别强度值记为20,次大者对应类别强度值减小1,后续者依次减1;
应用学习方法所获得的朴素贝叶斯模型进行文本分类得到其分类结果;具体包括以下步骤:
(251)按照下式计算待分类文本T属于类别ci的可能性Q(ci|T);
如果类别ci中不包含关键词tj,tj∈T,则P(tj|ci)=ε,ε是
(252)重复(251),计算待分类文本对所有类别的可能性;
(253)按照可能性从大到小进行排序;
(254)选择可能性最大的前k个类别;这些类别即为待分类文本类别;
(255)可能性最大者所对应类别强度值记为20,次大者对应类别强度值减小1,后续者依次减1;
应用学习方法所获得的支持向量机模型进行文本分类得到其分类结果;具体包括以下步骤:
(261)对待分类文本向量分别用支持向量机模型中的所有分类器进行一次分类,得到每个类别的决策值;
(262)按照决策值从大到小进行排序;
(263)选择决策值最大的前k个类别;这些类别即为待分类文本类别;
(264)权重最大者所对应类别强度值记为20,次大者对应类别强度值减小1,后续者依次减1。
5.根据权利要求1所述多模型融合的短文本分类方法,其特征在于,按照以下公式对4种单一模型分类结果进行融合:
其中,R(ci|t)表示待分类文本t属于类别ci的最终类别强度值,α为调节因子,0≤α≤1,SVM(ci|t)表示支持向量机模型判定文本t属于类别ci的类别强度值,Onto1(ci|t)表示本体树模型判定文本t属于类别ci的类别强度值,Onto2(ci|t)表示关键字重叠模型判定文本t属于类别ci的类别强度值,Bayes(ci|t)表示朴素贝叶斯模型判定文本t属于类别ci的类别强度值。
6.根据权利要求1所述多模型融合的短文本分类方法,其特征在于,所述训练数据和待分类数据都是自然语言短文本,并且一个待分类文本会有多个不同强度的类别结果。
CN201510808282.2A 2015-11-19 2015-11-19 一种多模型融合的短文本分类方法 Active CN105468713B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510808282.2A CN105468713B (zh) 2015-11-19 2015-11-19 一种多模型融合的短文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510808282.2A CN105468713B (zh) 2015-11-19 2015-11-19 一种多模型融合的短文本分类方法

Publications (2)

Publication Number Publication Date
CN105468713A CN105468713A (zh) 2016-04-06
CN105468713B true CN105468713B (zh) 2018-07-17

Family

ID=55606414

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510808282.2A Active CN105468713B (zh) 2015-11-19 2015-11-19 一种多模型融合的短文本分类方法

Country Status (1)

Country Link
CN (1) CN105468713B (zh)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096662B (zh) * 2016-06-24 2019-06-28 深圳市颐通科技有限公司 基于加速度传感器的人体运动状态识别
CN106383814B (zh) * 2016-09-13 2020-05-19 电子科技大学 一种英文社交媒体短文本分词方法
CN106528642B (zh) * 2016-10-13 2018-05-25 广东广业开元科技有限公司 一种基于tf-idf特征提取的短文本分类方法
CN106569989A (zh) * 2016-10-20 2017-04-19 北京智能管家科技有限公司 一种用于短文本的去重方法及装置
CN108984071B (zh) * 2017-06-01 2022-09-30 腾讯科技(深圳)有限公司 文本重组方法、装置、终端设备及计算机可读存储介质
CN107357776B (zh) * 2017-06-16 2020-09-25 北京奇艺世纪科技有限公司 一种相关词挖掘方法及装置
CN107194617B (zh) * 2017-07-06 2020-11-24 北京航空航天大学 一种app软件工程师软技能分类系统及方法
CN107562814A (zh) * 2017-08-14 2018-01-09 中国农业大学 一种地震应急和灾情信息获取分类方法及系统
CN107679084B (zh) * 2017-08-31 2021-09-28 平安科技(深圳)有限公司 聚类标签生成方法、电子设备及计算机可读存储介质
CN107562728A (zh) * 2017-09-12 2018-01-09 电子科技大学 基于结构和文本信息的社交媒体短文本过滤方法
CN110069623B (zh) * 2017-12-06 2022-09-23 腾讯科技(深圳)有限公司 摘要文本生成方法、装置、存储介质和计算机设备
CN108228845B (zh) * 2018-01-09 2020-10-27 华南理工大学 一种手机游戏分类方法
CN108364006B (zh) * 2018-01-17 2022-03-08 超凡影像科技股份有限公司 基于多模式深度学习的医学图像分类装置及其构建方法
CN108959529A (zh) * 2018-06-29 2018-12-07 北京百度网讯科技有限公司 问题答案类型的确定方法、装置、设备及存储介质
CN109635289B (zh) * 2018-11-30 2023-07-07 上海智臻智能网络科技股份有限公司 词条分类方法及审计信息抽取方法
CN111339290A (zh) * 2018-11-30 2020-06-26 北京嘀嘀无限科技发展有限公司 一种文本分类方法和系统
CN109635254A (zh) * 2018-12-03 2019-04-16 重庆大学 基于朴素贝叶斯、决策树和svm混合模型的论文查重方法
CN109783636B (zh) * 2018-12-12 2023-03-28 重庆邮电大学 一种基于分类器链的汽车评论主题提取方法
CN109815988B (zh) * 2018-12-27 2021-08-20 北京奇艺世纪科技有限公司 模型生成方法、分类方法、装置及计算机可读存储介质
CN109815400A (zh) * 2019-01-23 2019-05-28 四川易诚智讯科技有限公司 基于长文本的人物兴趣提取方法
CN109905385B (zh) * 2019-02-19 2021-08-20 中国银行股份有限公司 一种webshell检测方法、装置及系统
CN110188197B (zh) * 2019-05-13 2021-09-28 北京一览群智数据科技有限责任公司 一种用于标注平台的主动学习方法及装置
CN110222179B (zh) * 2019-05-28 2022-10-25 深圳市小赢信息技术有限责任公司 一种通讯录文本分类方法、装置及电子设备
CN110263166A (zh) * 2019-06-18 2019-09-20 北京海致星图科技有限公司 基于深度学习的舆情文本分类方法
CN110505144A (zh) * 2019-08-09 2019-11-26 世纪龙信息网络有限责任公司 邮件分类方法、装置、设备及存储介质
CN112579730A (zh) * 2019-09-11 2021-03-30 慧科讯业有限公司 高扩展性、多标签的文本分类方法和装置
CN110781297B (zh) * 2019-09-18 2022-06-21 国家计算机网络与信息安全管理中心 基于层次判别树的多标签科研论文的分类方法
CN110781675A (zh) * 2019-09-25 2020-02-11 苏宁云计算有限公司 文本分类方法和装置
CN112711940A (zh) * 2019-10-08 2021-04-27 台达电子工业股份有限公司 信息处理系统、信息处理法及非暂态电脑可读取记录媒体
TWI725568B (zh) * 2019-10-08 2021-04-21 台達電子工業股份有限公司 資訊處理系統、資訊處理方法及非暫態電腦可讀取記錄媒體
CN111078874B (zh) * 2019-11-29 2023-04-07 华中师范大学 基于随机子空间的决策树分类的对外汉语难度评估方法
CN111078876A (zh) * 2019-12-04 2020-04-28 国家计算机网络与信息安全管理中心 一种基于多模型集成的短文本分类方法和系统
CN111143560B (zh) * 2019-12-26 2022-07-01 厦门市美亚柏科信息股份有限公司 一种短文本分类方法、终端设备及存储介质
CN111259154B (zh) * 2020-02-07 2021-04-13 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机设备及存储介质
CN111475648B (zh) * 2020-03-30 2023-11-14 东软集团股份有限公司 一种文本分类模型生成方法、文本分类方法及装置、设备
CN112231471B (zh) * 2020-09-04 2022-06-07 大箴(杭州)科技有限公司 文本处理方法及装置、计算机设备、存储介质
CN112561530A (zh) * 2020-12-25 2021-03-26 民生科技有限责任公司 一种基于多模型融合的交易流水处理方法及系统
CN112463972B (zh) * 2021-01-28 2021-05-18 成都数联铭品科技有限公司 一种基于类别不均衡的文本样本分类方法
CN112966104B (zh) * 2021-03-04 2022-07-12 网易(杭州)网络有限公司 文本聚类方法、装置、处理设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102955856A (zh) * 2012-11-09 2013-03-06 北京航空航天大学 一种基于特征扩展的中文短文本分类方法
US8572087B1 (en) * 2007-10-17 2013-10-29 Google Inc. Content identification
CN104778240A (zh) * 2015-04-08 2015-07-15 重庆理工大学 基于多特征融合的微博文本数据分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102141978A (zh) * 2010-02-02 2011-08-03 阿里巴巴集团控股有限公司 一种文本分类的方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8572087B1 (en) * 2007-10-17 2013-10-29 Google Inc. Content identification
CN102955856A (zh) * 2012-11-09 2013-03-06 北京航空航天大学 一种基于特征扩展的中文短文本分类方法
CN104778240A (zh) * 2015-04-08 2015-07-15 重庆理工大学 基于多特征融合的微博文本数据分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Short text classification improved by learning multi-granularity topics;Mengen Chen et al;《Proceedings of the Twenty-Second International Joint Conference on Artificial Intelligence》;20111231;第1776-1781页 *
基于向量空间模型的贝叶斯文本分类方法;胡于进 等;《计算机与数字工程》;20041231;第32卷(第6期);第28-30,77页 *
基于概念网络的短文本分类方法;林小俊 等;《计算机工程》;20101130;第36卷(第21期);第4-6页 *

Also Published As

Publication number Publication date
CN105468713A (zh) 2016-04-06

Similar Documents

Publication Publication Date Title
CN105468713B (zh) 一种多模型融合的短文本分类方法
Neelakandan et al. A gradient boosted decision tree-based sentiment classification of twitter data
CN108287922B (zh) 一种融合话题属性和情感信息的文本数据观点摘要挖掘方法
CN108052593B (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
CN109684646A (zh) 一种基于话题影响力的微博话题情感分析方法
Dewdney et al. The form is the substance: Classification of genres in text
Xu et al. Hierarchical emotion classification and emotion component analysis on Chinese micro-blog posts
CN109523988B (zh) 一种文本演绎方法及装置
CN111950273A (zh) 基于情感信息抽取分析的网络舆情突发事件自动识别方法
CN107025299A (zh) 一种基于加权lda主题模型的金融舆情感知方法
CN107688576B (zh) 一种cnn-svm模型的构建及倾向性分类方法
CN106202584A (zh) 一种基于标准词典和语义规则的微博情感分析方法
CN111460158B (zh) 一种基于情感分析的微博话题公众情感预测方法
CN107463703A (zh) 基于信息增益的英文社交媒体账号分类方法
CN109214454A (zh) 一种面向微博的情感社区分类方法
Gao et al. Scope: The south carolina psycholinguistic metabase
Gupta et al. Sentiment analysis using support vector machine
Wijayanti et al. Ensemble approach for sentiment polarity analysis in user-generated Indonesian text
Ardanuy et al. Clustering of novels represented as social networks
CN110851733A (zh) 基于网络拓扑和文档内容的社团发现和情感解释方法
Tungthamthiti et al. Recognition of sarcasm in microblogging based on sentiment analysis and coherence identification
Tizhoosh et al. Poetic features for poem recognition: A comparative study
Obasa et al. Hybridization of bag-of-words and forum metadata for web forum question post detection
CN108804524B (zh) 基于层次化分类体系的情感判别和重要性划分方法
KR101503265B1 (ko) 한국뉴스 요약 시스템 및 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant