CN113032573B - 一种结合主题语义与tf*idf算法的大规模文本分类方法及系统 - Google Patents

一种结合主题语义与tf*idf算法的大规模文本分类方法及系统 Download PDF

Info

Publication number
CN113032573B
CN113032573B CN202110481459.8A CN202110481459A CN113032573B CN 113032573 B CN113032573 B CN 113032573B CN 202110481459 A CN202110481459 A CN 202110481459A CN 113032573 B CN113032573 B CN 113032573B
Authority
CN
China
Prior art keywords
text
topic
classification
document
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110481459.8A
Other languages
English (en)
Other versions
CN113032573A (zh
Inventor
任伟
吴晨
缪建明
张全
韦向峰
袁毅
徐永潜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Academic Journals Electronic Publishing House Co ltd
Tongfang Knowledge Network Digital Publishing Technology Co ltd
Original Assignee
China Academic Journals Electronic Publishing House Co ltd
Tongfang Knowledge Network Digital Publishing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Academic Journals Electronic Publishing House Co ltd, Tongfang Knowledge Network Digital Publishing Technology Co ltd filed Critical China Academic Journals Electronic Publishing House Co ltd
Priority to CN202110481459.8A priority Critical patent/CN113032573B/zh
Publication of CN113032573A publication Critical patent/CN113032573A/zh
Application granted granted Critical
Publication of CN113032573B publication Critical patent/CN113032573B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种语种无关的结合主题语义与TF*IDF算法的大规模文本分类方法及系统,本方法以TF*IDF算法为基础,在特征向量选择和权重计算过程中利用LDA计算的主题语义,通过LDA建模分析得到文档‑主题分布和主题‑词语分布,以此为基础计算主题语义因子TSF,并将TSF作为新的量化维度引入特征选择和特征向量权重计算中。本方法有效利用了特征项之间内在的关联性信息。也避免了直接根据LDA浅层主题语义进行文本分类而造成的实时增量分类处理能力弱,计算结果不稳定的问题。采用数据驱动的处理模式,与语种无关,无需额外的语言知识支撑,适合大规模、多语种文本数据的快速高效分类处理。

Description

一种结合主题语义与TF*IDF算法的大规模文本分类方法及 系统
技术领域
本发明涉及人工智能语言信息处理技术领域,尤其涉及一种结合主题语义与TF*IDF算法的大规模文本分类方法及系统。
背景技术
信息技术带来了新的技术革命,文档电子化数字化已经成为发展的趋势。互联网的普及加剧了这一趋势的演进。面对海量大规模的电子文本内容,为了快速获得人们关注的内容,进行文本分类是一种重要手段。而如何对大规模文本数据资源进行自动分类,就成为重要的基础技术。对大规模海量文本数据资源进行文本分类具有重要的应用价值。首先,文本分类技术为进一步挖掘文本内容中的要点和概况提供了快速便捷的技术工具。其次,文本分类技术可以大大节省人工审读分类的成本,特别是在大规模海量文本的数据集中,具有重要的现实意义。因此,文本分类技术可以帮助人们更好的组织、管理文本信息,文本分类技术也因此成为计算机科学与技术、人工智能中智能语言信息处理领域中的热点技术。
自上世纪中叶,计算机诞生不久,研究者就开始探索文本分类方法。早期文本分类技术采用的是专家制定分类规则的方法,这种方法不但工作量大,而且效率低,需要相关具备一定专业知识的专家来制定规则。随着大规模文本数据时代的到来,这种模式难以适应发展的需要。到上世纪末,随着电子文本的大量出现,研究者开始引入多种统计及机器学习分析算法实现文本分类,取得了较好的实用效果,成为文本分类技术的主流。这些方法主要包括:朴素贝叶斯分类法( Bayesian Classifier)、支持向量机方法(SupportVector Machines,SVM)、k-最近邻法(k-Nearest Neighbor,kNN)、神经网络法(NeuralNetwork,NNet)、决策树分类法(Decision Tree)、模糊分类法(Fuzzy Classifier)、Rocchio分类法和Boosting方法等。在这些方法中,大都需要对文本的特征进行向量化表示,形成文本表示的向量空间。其中特征向量的权重计算是重要的影响因素。有分析认为特征向量建立和权重计算的最常用方法是TF*IDF(TF:Term Frequency,IDF:InverseDocument Frequency)以及在此基础上的改进方法。向量空间的文本表示模型采用数值量化的向量描述文本内容之间的关联关系,通过计算向量之间的相似度来确定文本内容的相似程度,大大降低了早期统计方法中的数据稀疏问题,但是向量空间模型把向量中的各个分量视为独立的特征项,忽略了特征之间的语义关联关系,这使得利用TF*IDF方法性能上还存在缺陷。有研究者已经开始为TF*IDF方法引入语义分析和概念网络,在性能方面改进了TF*IDF方法。然而由于融入语义知识和概念知识,这些知识往往需要专家人工构建,大大抬升了技术成本,影响了这些方法的应用范围和跨语种适应性。
近年来随着研究的深入,在文本语义处理方面面向语言数据的浅层语义分析发展很快。这一研究方向以统计分布为基础,形成了利用语言数据研究语义内容的新模式,为获取文本语义内容提供了新手段。其中基于潜在狄利克雷分配(Latent DirichletAllocation,LDA)分布的主题分析模型在研究中得到广泛应用,取得较好的效果和广泛应用。这一方法也成为主题语义分析中常用的方法,已经引入文本分类中。利用LDA进行文本分类,往往需要整理形成完整的文本集合再进行分类。对于增量式文本分类,即根据输入一篇文章的内容进行实时分类,适应性不好。由于这个原因,LDA更多应用于与文本分类相近的文本聚类处理中。另外,LDA是一种统计计算的方法,由于初始条件的不同,或者计算预设值的不同,分析得到的主题相差较大,处理结果的稳定性有待改进。
针对上述问题,本发明将综合利用TF*IDF在统计学意义上获取特征的良好性能,同时融入LDA带来的浅层语义信息。根据LDA分析结果,计算主题语义因子(Topic SemanticFactor,TSF),并将TSF作为新的量化维度引入特征选择和特征向量权重计算中。从而有效融合二者的优点,实现一种语种无关的结合主题语义与TF*IDF算法的大规模文本分类系统与方法。
发明内容
为解决上述技术问题,本发明的目的是提供一种结合主题语义与TF*IDF算法的大规模文本分类方法及系统。所述方法与系统提高文本分类处理的效能,同时立足于大规模文本的数据驱动分析处理模式,与语种无关,可以跨语种和混合语种使用,避免TF*IDF算法缺乏词语之间内在关联信息,以及LDA方法在文本分类处理中对增量处理能力弱和主题计算不稳定等问题。
本发明的目的通过以下的技术方案来实现:
一种结合主题语义与TF*IDF算法的大规模文本分类方法,包括:
步骤A收集文本语料,并将收集得到的文本集进行预处理;
步骤B对预处理后的文本集根据业务需要进行分类,分成训练语料和测试语料;
步骤C对训练语料进行LDA分析处理,得到文本-主题分布和主题-词语分布;
步骤D计算词语对文本分类的主题语义因子TSF;
步骤E对测试语料进行特征词语的选取,形成数量不同的特征向量;
步骤F采用特征词分类权重计算方法计算选取的特征词对应各分类的权重;
步骤G构造文本分类器,利用分类器对测试文本集合进行计算,得到文本分类结果;
步骤H采用评价函数评估分类器的性能参数,并根据评价参数结果确定特征向量;
步骤I将新增加的文本进行预处理后送入文本分类器进行分类处理,得到分类结果。
一种结合主题语义与TF*IDF算法的大规模文本分类系统,包括:
语料收集和预处理模块、主题语义分析及主题语义因子计算模块、特征选择与权重计算模块、文本分类模块、评估与参数优选模块和结果输出模块;
所述语料收集和预处理模块,去除文本中无关的显示标记和内容,仅保留文本内容信息,对文本涉及的字符集编码进行规整,对文本进行分词处理;
所述主题语义分析及主题语义因子计算模块,实现LDA分析处理,得到文本-主题分布和主题-词语分布,在此基础上计算给出词语对文本分类的主题语义因子TSF;
所述特征选择与权重计算模块,根据信息增益和TSF进行特征选择,选择一定数量的词语作为特征向量的特征项,依据TF、IDF和TSF计算特征向量的权重;
所述文本分类模块,对输入的以特征向量表示的文档进行分类处理;
所述评估与参数优选模块,实现对文本分类效果的评估并依据最优效果确定分类的特征词数量;
所述结果输出模块,用于实现对文本分类结果的呈现和输出。
与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
对TF*IDF算法引入了主题语义,调整特征向量中特征词语的选择和特征项权重的计算,有效强化了特征词语之间内在关联信息的利用,弥补了TF*IDF算法的不足。实验表明,本发明采用的处理方法,较通用的TF*IDF算法,分类准确率提高7个百分点。同时主题语义通过文本数据驱动的方式获得,无需引入额外的语言知识,降低了技术实施的成本,特别适合大规模、多语种文本的分类处理。
附图说明
图1是结合主题语义与TF*IDF算法的大规模文本分类方法流程图;
图2是结合主题语义与TF*IDF算法的大规模文本分类系统模块构成图;
图3是LDA分析处理模型构成图;
图4是混乱度随主题数目变化图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。
本发明为TF*IDF算法的向量空间文本方法上引入主题语义,提供了优化选择特征词语和计算特征向量权重的新方法。该方法通过对训练文本计算进行LDA分析,计算得到词语在主题限制下对于分类的作用,将这一作用引入到特征选择和权重计算,改进了已有的方法,形成语种无关的结合主题语义与TF*IDF算法的大规模文本分类方法。实验表明,该方法可以有效提高文本分类的正确率、召回率和F1测度等性能。
图1所示为结合主题语义与TF*IDF算法的大规模文本分类方法流程,包括以下步骤:
步骤1,根据业务需要收集整理文本语料,规范文本的内码表示,形成文本集合,并根据业务需求对文本进行分类。
步骤2,对收集得到的文本集按篇进行分词处理,得到文档的词语序列串。对文本进行分类。分成4个类别,各类文本数量分别为:市政市容管理类(4021篇)、灾难事件类(4835篇)、军事新闻类(4452篇)和其他类(6692篇);其中一半作为训练语料(10000篇),另一半作为测试语料(10000篇)。
步骤3对训练语料进行LDA分析,得到文档-主题分布θ,主题-词语分布φ。
对训练语料进行LDA分析处理包括:
构建文本集合的LDA模型,以单个文档为处理单位,利用潜在狄利克雷分配模型为文档集合建立主题模型;
使用Gibbs算法求解获得文档-主题分布和主题-词汇分布;
对LDA模型参数设置,其中,对超参数α和β的各个分量统一取值,即采用对称的Dirichlet参数,并根据主题数目取α=5/K,所有的β取固定的经验值β=0.01;其中K值表示对语料集合设置的主题数;根据语料文本集合,主题数K采用模型混乱度分析方法进行估计,在得到混乱度随主题数变化曲线的基础上,选择混乱度较低的主题数作为候选,进一步利用待处理的真实语料进行实验和人工分析,选择生成的主题具有比较好解释对应的主题数。
步骤4计算各个类别的类别-主题分布,计算得到词语w对文本分类C的主题语义因子TSF;
主题语义因子TSF计算公式为:
词语w对文本分类C的主题语义因子TSF具体计算如下:
式中TSF(w|C)为主题语义因子,表示词语w对C类文档分类的重要性,K表示LDA分析处理时确定的主题总数,φ为LDA分析得到的词语-主题分布,式中P(zj|C)依据文档-主题分布θ计算,采用算术平均的方法直接计算,具体计算公式为:
其中,T表示属于分类C的文档总数,zj是分类C中各文档中隐含的主题;
词语w对文本分类C的主题语义因子TSF具体计算如下:
式中K表示LDA分析处理时确定的主题总数。
步骤5计算词语对文本类别的信息增益,结合主题语义因子TSF计算词语w的分类重要值,设定不同阈值,得到不同数目的特征词语(特征词语的总数分别为2000、4000、6000、8000、10000、12000)。
特征词语的具体选取方法包括:
对分词处理后的训练文本中的每个词语计算作为特征词语的信息增益;在信息增益的基础上,考虑主题语义因子的影响;信息增益的值为不考虑任何特征时文档的熵和考虑了该特征后文档熵的差值,具体计算公式为:
G(w)=E(S)-E(Sw)
式中P(C)表示C类文档在语料中的出现概率,P(w)表示语料中包含特征项w的文档概率,P(C|w)表示文档包含特征项w时属于C类的条件概率,表示语料中不包含特征项w的文档概率,/>表示文档不包含特征项w时属于C类的条件概率,M表示对文本集合分类的总数;
在计算信息增益的基础上,结合主题语义因子TSF计算词语的分类重要值,具体公式如下:
根据词语的分类重要值大小,选取不同数目的词语作为特征向量。
步骤6使用特征词分类权重计算方法(TF*IDF*TSF)计算选取的特征词对应各分类的权重;具体计算公式如下:
式中TSF(w|C)为计算得到的主题语义因子,表示词语w对C类文档分类的重要性;
步骤7构造本文分类器,利用分类器对测试文本集合进行计算,得到文本分类结果。构造文本分类器中采用k-最近邻方法实现。
步骤8采用评价函数评估不同特征词语数量下的分类器的性能;采用micro-F1测度函数进行文本分类性能评价。
步骤9根据分类器的评价参数结果,确定特征词语数量,形成特征向量。
步骤10将新增加的文本进行预处理后送入文本分类器进行分类处理,得到分类结果。
所述步骤1和步骤9中预处理包括:去除文本中无关的显示标记和内容,仅保留文本内容信息;对文本涉及的字符集编码进行规整;对文本进行分词处理。
本实施例还提供了一种结合主题语义与TF*IDF算法的大规模文本分类系统,包括:
语料收集和预处理模块、主题语义分析及主题语义因子计算模块、特征选择与权重计算模块、文本分类模块、评估与参数优选模块和结果输出模块;
所述语料收集和预处理模块,去除文本中无关的显示标记和内容,仅保留文本内容信息,对文本涉及的字符集编码进行规整,对文本进行分词处理;
所述主题语义分析及主题语义因子计算模块,实现LDA分析处理,得到文本-主题分布和主题-词语分布,在此基础上计算给出词语对文本分类的主题语义因子TSF;
所述特征选择与权重计算模块,根据信息增益和TSF进行特征选择,选择一定数量的词语作为特征向量的特征项,依据TF、IDF和TSF计算特征向量的权重;
所述文本分类模块,对输入的以特征向量表示的文档进行分类处理;
所述评估与参数优选模块,实现对文本分类效果的评估并依据最优效果确定分类的特征词数量;
所述结果输出模块,用于实现对文本分类结果的呈现和输出。
上述实施例提供的方案涉及的各个环节:
1、语料选择:
可以从各种网站上下载、收集需要分类的内容,也可以利用自有信息系统中存在的各类文档、电子文件等;对文本涉及的字符集编码进行规整;对文本进行分词处理。
进一步需要根据用户的需求对收集得到的电子文本进行分类。同时尽量保持各个分类的文本数量基本均衡。
将预处理和分类的语料分成测试语料和训练语料两部分。
2、训练语料LDA分析和主题语义因子TSF计算:
2-1、LDA建模
将语料集合表示为由M个文档构成,记作D={d1,…,dM},其中文档dm是长度为(N)的词语序列,可以写成w=(w1,…,w(N)),其中wn表示序列中的第n个词语。
LDA模型的出发点是将各文档表示为K个潜在主题的混合。这里外层的框表示一个文本,内层的框表示主题和词语的混合选择:α和β是模型的预设的超参数;K表示形成的主题个数(如图3所示)。
主题本身是在文档中显式出现,用词汇上的概率分布来捕捉,它的生成过程如下:
(1)从Dirichlet分布先验β中为每个主题抽取多项式分布φk,共抽取K个分布。
(2)从Dirichlet分布先验α中为每个文档抽取多项式分布θm,共抽取M个分布。
(3)对语句集合中的每个文本和文本中的词汇:
a)从多项式分布θm中抽取主题zm
b)从多项式分布φk中抽取词语wn
Dirichlet分布为一族连续的多元概率分布,以数学家Lejeune Dirichlet的名字命名,表示为:
其中α=(α1…αK)T为Dirichlet的分布参数。Γ(x)为伽玛函数,定义为
模型中最重要的变量是主题-词语分布φk和文档-主题分布θm。对于这两个参数可以直接使用极大似然法估计,但是这样存在局部极值问题,一般采用Gibbs方法求取。
2-2使用Gibbs算法求解获得文档-主题分布和主题-词汇分布
具体为在文档m中,对于给定的词语wn,首先利用Gibbs抽样取得词语在主题z上的后验概率P(wn|z)估计值;在其他词语上的主题分配(z-n)确定的情况下,估计该当前词语wn分配主题j的概率p(zn=j);然后边缘化φk和θm,间接求得φk和θm的值。下式是具体的说明。
其中CVK和CMK分别为维数为V×K和M×K的数量矩阵,V为词语个数。为词语w分配给主题j的频次,其中不包含当前记号实例n;/>为文档dm中分配给主题j的词语个数,其中不包含当前实例n。wn表示一个特征词语。一旦词语特征分配给了主题j,就增加了给任何特定的特征分配主题j的概率;同样,若主题j在一个文本中使用了多次,则该文本的任意词语分配主题j的概率也将增加。
利用Gibbs抽样方法估计LDA模型中的参数,首先为词语特征在[1…K]主题中随机分配一个主题,构成初始的Markov链,然后对于文本中的所有词语特征根据上面的公式分配主题,获取Markov链的下一个状态,经过多次迭代,Markov链就可以达到稳定状态。
抽样算法估计每个词语与主题z的φ和θ的值,公式如下:
式中值为从主题j中抽取新词记号wn的概率估计,而/>为在文档wm从主题j抽取新词的概率估计。/>和/>即为文本-主题分布和主题-词语分布的估计值,用于后继计算。
2-3、LDA模型参数设定。
对于LDA模型,选择超参数α=5/K,所有的β取固定的经验值β=0.01。为了确定适合的主题数K值,计算得到混乱度随K变化的情况,确定适当的主题K数。
混乱度的计算方法是计算文档集中所包含的各句群的似然值(Likelihood),进而取它的几何均值的倒数。LDA处理模型混乱度随着句群似然值的增加而单调递减。具体计算公式如下:
上式中N为文档集中文档个数,Ns为文档S中词项的个数,p(S)为文档S中的似然值。这里采用的LDA模型,因而文档的似然值由文档的主题分布和主题的词汇分布给出,具体计算如下:
式中n(w,S)为文档S中词w出现的次数。
如图4给出本例中混乱度随K值变化的曲线。从图中可以看出,当主题数K值取大于160的值,混乱度都有较低的表现。这里需要说明的是,随着主题数增加混乱度也会降低。同时随着主题数的增加,混乱度可以很低,但是相应的也失去了模型的归纳处理能力。因此这里选择主题数K值并非要选择对应混乱度最低的K值,而是选择一个混乱度相对较低,同时产生出来的主题模型容易解释。综合这些因素,在本例中主题数K值选择200。
2-4计算分类的类别-主题分布。
给出的是文档-主题分布,需要转换为类别-主题分布。采用算术平均的方法直接计算。具体计算的公式为:
其中,T表示属于分类C的文档总数,zj是分类C中各文档中隐含的主题。
2-5、词语w对文本分类C的主题语义因子TSF具体计算如下:
式中K表示LDA分析处理时确定的主题总数。
3、特征选取:
本实施例基本处理框架是向量空间模型,选择词语作为特征项组成特征向量,利用计算向量空间的距离来进行文本分类处理。本发明中利用信息增益结合主题语义因子TSF,对候选词语进行重要程度评估,并按照不同门限选择数量不等的词语作为特征词。
结合主题语义因子TSF计算词语w的分类重要值,具体公式如下:
式中G(w)为词语w的信息增益,M表示对文本集合分类的总数,TSF(w|C)为计算得到的主题语义因子,表示词语w对C类文档分类的重要性。
信息增益的值为不考虑任何特征词语时文档的熵和考虑了该特征词语后文档熵的差值,具体计算的公式为:
式中P(C)表示C类文档在语料中的出现概率,P(w)表示语料中包含特征项w的文档概率,P(C|w)表示文档包含特征项w时属于C类的条件概率,表示语料中不包含特征项w的文档概率,/>表示文档不包含特征项w时属于C类的条件概率,M表示对文本集合分类的总数。
在上述计算的基础上,根据词语的分类重要值,分别选择总数为2000、4000、6000、8000、10000、12000的词语作为特征词语。
4、特征向量的权重计算:
这里特征向量权重计算公式为:
式中W(w|C)表示词语w在类别C中所占的权重,tfw表示词语w在训练文本集合中C类别中出现的频次,N表示训练文本集合中的文本总数,nw表示训练文本集合中出现词语w的文本数量,TSF(w|C)为计算得到的主题语义因子,表示词语w对C类文档分类的重要性。
上面计算公式中为标准的TF*IDF方法。
TF*IDF是特征向量建立和权重计算的最常用方法。向量空间的文本表示模型采用数值量化的向量描述文本内容之间的关联关系,通过计算向量之间的相似度来确定文本内容的相似程度,大大降低了早期统计方法中的数据稀疏问题,但是向量空间模型把向量中的各个分量视为独立的特征项,忽略了特征之间的语义关联关系,这使得利用TF*IDF方法性能上还存在缺陷。这里融入LDA带来的浅层语义信息。根据LDA分析结果,计算主题语义因子TSF,并将TSF作为新的量化维度引入特征选择和特征向量权重计算中,强化了特征项之间内在关联性的量化计算,优化了文本分类的性能。
5、构造分类器:
采用k-最近邻法,分类规则为:
式中y(dx,Cj)取值为0或1,取值为1时表示dx属于Cj,取值为0时表示dx不属于Cj;sim(dx,di)中为输入测试文档dx与训练文档di之间利用向量空间距离衡量的相似度;bj为二元决策的门限值。
6、评价函数:
在文本分类处理中已经存在了多种性能评估的函数,包括召回率、正确率、F-测度等。目前业内较多使用micro-F1测度和macro-F1测度,比较而言micro-F1测度更常用一些,这里也采用micro-F1测度评估文本分类的性能,具体公式如下:
式中,r表示总召回率,p表示总正确率;Ncr表示正确分类的文本数,Nc表示分类器分类的文本总数,Ns表示测试集中存在的正确分类文本数。
对于不同总数的特征词语,使用F1评估可能最优的特征词语数量,作为分类器使用的特征向量。
7、实验结果
这里收集整理文本语料20000篇,分成4个类别,各类文本数量分别为:市政市容管理类(4021篇)、灾难事件类(4835篇)、军事新闻类(4452篇)和其他类(6692篇);其中一半作为训练语料(10000篇),另一半作为测试语料(10000篇)。
下表为实验结果:
从实验结果可以看出,在各种不同特征词数目下本发明形成的TF*IDF*TSF方法的分类效果都要好于TF*IDF算法,当N=10000时,文本分类的F1达到最优,提升值较TF*IDF算法的值提高7%以上,充分说明了该方法的有效性。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (6)

1.一种结合主题语义与TF*IDF算法的大规模文本分类方法,其特征在于,所述方法包括以下步骤:
步骤A收集文本语料,并将收集得到的文本集进行预处理;
步骤B对预处理后的文本集根据业务需要进行分类,分成训练语料和测试语料;
步骤C对训练语料进行LDA分析处理,得到文档-主题分布和主题-词语分布;
步骤D计算词语对文本分类的主题语义因子TSF;
步骤E对测试语料进行特征词语的选取,形成数量不同的特征向量;
步骤F采用特征词分类权重计算方法计算选取的特征词对应各分类的权重;
步骤G构造文本分类器,利用分类器对测试文本集合进行计算,得到文本分类结果;
步骤H采用评价函数评估分类器的性能参数,并根据评价参数结果确定特征向量;
步骤I将新增加的文本进行预处理后送入文本分类器进行分类处理,得到分类结果;
所述步骤D包括以下步骤:
步骤D1计算分类的类别-主题分布;
给出的是文档-主题分布,需要转换为类别-主题分布;采用算术平均的方法直接计算,计算公式为:
其中,T表示属于分类C的文档总数,zj是分类C中各文档中隐含的主题;
步骤D2词语w对文本分类C的主题语义因子TSF计算如下:
式中K表示LDA分析处理时确定的主题总数,φ为LDA分析得到的词语-主题分布;
所述步骤E中特征词语的选取方法包括:
对分词处理后的训练文本中的每个词语计算作为特征词语的信息增益;在信息增益的基础上,考虑主题语义因子的影响;信息增益的值为不考虑任何特征时文档的熵和考虑了上述主题语义因子后文档熵的差值,计算公式为:
式中P(C)表示C类文档在语料中的出现概率,P(w)表示语料中包含特征项w的文档概率,P(C|w)表示文档包含特征项w时属于C类的条件概率,表示语料中不包含特征项w的文档概率,/>表示文档不包含特征项w时属于C类的条件概率,M表示对文本集合分类的总数;
在计算信息增益的基础上,结合主题语义因子TSF计算词语的分类重要值,公式如下:
根据词语的分类重要值大小,选取不同数目的词语作为特征向量;
所述步骤F中选取的特征词对应各分类的权重的计算公式为:
式中tfw表示词语w在训练文本集合中C类别中出现的频次,N表示训练文本集合中的文本总数,nw表示训练文本集合中出现词语w的文本数量,TSF(w|C)为计算得到的主题语义因子,表示词语w对C类文档分类的重要性。
2.如权利要求1所述的结合主题语义与TF*IDF算法的大规模文本分类方法,其特征在于,所述步骤A和步骤I中预处理包括:去除文本中无关的显示标记和内容,仅保留文本内容信息;对文本涉及的字符集编码进行规整;对文本进行分词处理。
3.如权利要求1所述的结合主题语义与TF*IDF算法的大规模文本分类方法,其特征在于,对训练语料进行LDA分析处理包括:
构建文本集合的LDA模型,以单个文档为处理单位,利用潜在狄利克雷分配模型为文档集合建立主题模型;
使用Gibbs算法求解获得文档-主题分布和主题-词汇分布;
对LDA模型参数设置,其中,对超参数α和β的各个分量统一取值,即采用对称的Dirichlet参数,并根据主题数目取α=5/K,所有的β取固定的经验值β=0.01;其中K值表示对语料集合设置的主题数;根据语料文本集合,主题数K采用模型混乱度分析方法进行估计,在得到混乱度随主题数变化曲线的基础上,选择混乱度较低的主题数作为候选,进一步利用待处理的真实语料进行实验和人工分析,选择生成的主题具有比较好解释对应的主题数。
4.如权利要求1所述的结合主题语义与TF*IDF算法的大规模文本分类方法,其特征在于,所述步骤G构造文本分类器中采用k-最近邻方法实现。
5.如权利要求1所述的结合主题语义与TF*IDF算法的大规模文本分类方法,其特征在于,所述步骤H中采用micro-F1测度函数进行文本分类性能评价。
6.一种结合主题语义与TF*IDF算法的大规模文本分类系统,其特征在于,所述系统包括:语料收集和预处理模块、主题语义分析及主题语义因子计算模块、特征选择与权重计算模块、文本分类模块、评估与参数优选模块和结果输出模块;
所述语料收集和预处理模块,去除文本中无关的显示标记和内容,仅保留文本内容信息,对文本涉及的字符集编码进行规整,对文本进行分词处理;
所述主题语义分析及主题语义因子计算模块,实现LDA分析处理,得到文本-主题分布和主题-词语分布,在此基础上计算词语对文本分类的主题语义因子TSF;
所述特征选择与权重计算模块,根据信息增益和TSF进行特征选择,选择一定数量的词语作为特征向量的特征项,依据TF*IDF和TSF计算特征向量的权重;
所述文本分类模块,对输入的以特征向量表示的文档进行分类处理;
所述评估与参数优选模块,实现对文本分类效果的评估并依据最优效果确定分类的特征词数量;
所述结果输出模块,用于实现对文本分类结果的呈现和输出;
所述计算词语对文本分类的主题语义因子TSF包括:
计算分类的类别-主题分布;
给出的是文档-主题分布,需要转换为类别-主题分布;采用算术平均的方法直接计算,计算公式为:
其中,T表示属于分类C的文档总数,zj是分类C中各文档中隐含的主题;
词语w对文本分类C的主题语义因子TSF计算如下:
式中K表示LDA分析处理时确定的主题总数,φ为LDA分析得到的词语-主题分布;
特征词语的选取方法包括:
对分词处理后的训练文本中的每个词语计算作为特征词语的信息增益;在信息增益的基础上,考虑主题语义因子的影响;信息增益的值为不考虑任何特征时文档的熵和考虑了上述主题语义因子后文档熵的差值,计算公式为:
式中P(C)表示C类文档在语料中的出现概率,P(w)表示语料中包含特征项w的文档概率,P(C|w)表示文档包含特征项w时属于C类的条件概率,表示语料中不包含特征项w的文档概率,/>表示文档不包含特征项w时属于C类的条件概率,M表示对文本集合分类的总数;
在计算信息增益的基础上,结合主题语义因子TSF计算词语的分类重要值,公式如下:
根据词语的分类重要值大小,选取不同数目的词语作为特征向量;
选取的特征词对应各分类的权重的计算公式为:
式中tfw表示词语w在训练文本集合中C类别中出现的频次,N表示训练文本集合中的文本总数,nw表示训练文本集合中出现词语w的文本数量,TSF(w|C)为计算得到的主题语义因子,表示词语w对C类文档分类的重要性。
CN202110481459.8A 2021-04-30 2021-04-30 一种结合主题语义与tf*idf算法的大规模文本分类方法及系统 Active CN113032573B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110481459.8A CN113032573B (zh) 2021-04-30 2021-04-30 一种结合主题语义与tf*idf算法的大规模文本分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110481459.8A CN113032573B (zh) 2021-04-30 2021-04-30 一种结合主题语义与tf*idf算法的大规模文本分类方法及系统

Publications (2)

Publication Number Publication Date
CN113032573A CN113032573A (zh) 2021-06-25
CN113032573B true CN113032573B (zh) 2024-01-23

Family

ID=76454814

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110481459.8A Active CN113032573B (zh) 2021-04-30 2021-04-30 一种结合主题语义与tf*idf算法的大规模文本分类方法及系统

Country Status (1)

Country Link
CN (1) CN113032573B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113360658A (zh) * 2021-07-14 2021-09-07 福建亿榕信息技术有限公司 一种用于审计业务的文本自动分类方法
CN116701812B (zh) * 2023-08-03 2023-11-28 中国测绘科学研究院 基于区块单元的地理信息网页文本主题分类方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622373A (zh) * 2011-01-31 2012-08-01 中国科学院声学研究所 一种基于tf*idf算法的统计学文本分类系统及方法
CN103914445A (zh) * 2014-03-05 2014-07-09 中国人民解放军装甲兵工程学院 数据语义处理方法
CN108090231A (zh) * 2018-01-12 2018-05-29 北京理工大学 一种基于信息熵的主题模型优化方法
CN109408641A (zh) * 2018-11-22 2019-03-01 山东工商学院 一种基于有监督主题模型的文本分类方法及系统
WO2019200806A1 (zh) * 2018-04-20 2019-10-24 平安科技(深圳)有限公司 文本分类模型的生成装置、方法及计算机可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622373A (zh) * 2011-01-31 2012-08-01 中国科学院声学研究所 一种基于tf*idf算法的统计学文本分类系统及方法
CN103914445A (zh) * 2014-03-05 2014-07-09 中国人民解放军装甲兵工程学院 数据语义处理方法
CN108090231A (zh) * 2018-01-12 2018-05-29 北京理工大学 一种基于信息熵的主题模型优化方法
WO2019200806A1 (zh) * 2018-04-20 2019-10-24 平安科技(深圳)有限公司 文本分类模型的生成装置、方法及计算机可读存储介质
CN109408641A (zh) * 2018-11-22 2019-03-01 山东工商学院 一种基于有监督主题模型的文本分类方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LDA 模型在专利文本分类中的应用;廖列法,勒孚刚,朱亚兰;现代情报(第03期);1-5 *

Also Published As

Publication number Publication date
CN113032573A (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
US6868411B2 (en) Fuzzy text categorizer
CN108519971B (zh) 一种基于平行语料库的跨语种新闻主题相似性对比方法
CN110543564B (zh) 基于主题模型的领域标签获取方法
CN112632228A (zh) 一种基于文本挖掘的辅助评标方法及系统
CN111061939B (zh) 基于深度学习的科研学术新闻关键字匹配推荐方法
CN113032573B (zh) 一种结合主题语义与tf*idf算法的大规模文本分类方法及系统
CN107463616B (zh) 一种企业信息分析方法及系统
Bhutada et al. Semantic latent dirichlet allocation for automatic topic extraction
CN114266256A (zh) 一种领域新词的提取方法及系统
CN110347977A (zh) 一种基于lda模型的新闻自动标签方法
CN114265935A (zh) 一种基于文本挖掘的科技项目立项管理辅助决策方法及系统
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN116304020A (zh) 一种基于义原分析和跨度特征的工业文本实体抽取方法
CN117349406A (zh) 基于大数据的专利信息检索系统及方法
CN115952292A (zh) 多标签分类方法、装置及计算机可读介质
CN109284392B (zh) 一种文本分类方法、装置、终端及存储介质
CN111563361A (zh) 文本标签的提取方法及装置、存储介质
CN113705217B (zh) 一种面向电力领域知识学习的文献推荐方法及装置
CN113641788B (zh) 一种基于无监督的长短影评细粒度观点挖掘方法
CN113139061B (zh) 一种基于词向量聚类的案件特征提取方法
CN113516202A (zh) Cbl特征提取与去噪的网页精准分类方法
CN113792147A (zh) 基于用户需求预测产品设计参数的方法、装置及设备
CN113239277A (zh) 一种基于用户评论的概率矩阵分解推荐方法
CN111241846A (zh) 一种主题挖掘模型中主题维度自适应确定方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230815

Address after: Rooms B201, B202, B203, B205, B206, B207, B208, B209, B210, 2nd Floor, Building B-2, Zhongguancun Dongsheng Science and Technology Park, No. 66 Xixiaokou Road, Haidian District, Beijing, 100084 (Dongsheng District)

Applicant after: TONGFANG KNOWLEDGE NETWORK DIGITAL PUBLISHING TECHNOLOGY CO.,LTD.

Applicant after: CHINA ACADEMIC JOURNALS ELECTRONIC PUBLISHING HOUSE CO.,LTD.

Address before: 100084 Qinghua garden, Haidian District, Beijing

Applicant before: CHINA ACADEMIC JOURNALS ELECTRONIC PUBLISHING HOUSE CO.,LTD.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant