CN108153899B

CN108153899B - 一种智能化文本分类方法

Info

Publication number: CN108153899B
Application number: CN201810029393.7A
Authority: CN
Inventors: 张燕平; 乔嘉琪; 陈洁
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2018-01-12
Filing date: 2018-01-12
Publication date: 2021-11-02
Anticipated expiration: 2038-01-12
Also published as: CN108153899A

Abstract

本发明公开了一种智能化文本分类方法，包括：根据预设的训练语料建立语料库，每个训练语料对应一个文本类别；根据训练语料库中的训练语料进行训练，生成词类别贡献度特征表示向量；结合最大化差异算法和TF‑IDF算法对预测文本进行特征词选择，得到文本特征词；结合文本特征词和词类别贡献度特征表示向量，生成文本类别贡献度表示向量；根据文本特征向量对预测文本进行分类，得到预测文本的类别。

Description

一种智能化文本分类方法

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种智能化文本分类方法。

背景技术

随着互联网技术的快速发展，通过计算机和网络来获取资料和信息已经成为人们获取信息的主要方式之一。面对海量、高增速的互联网信息，如何使用户尽快找到想要的信息、如何对这些海量电子信息进行有效的组织和分类是当下迫切需要解决的问题之一。文本分类(Text Categorization)是针对该问题提出的解决方案，TC技术依据文本的内容，把文本判定为预先定义好的类别，是信息处理的关键技术。

影响特征选择的主要因素为特征词的频率和与类别之间的关系。通常特征选择方法都是基于词频或词本身的含义进行特征选择，这些方法尽管考虑到词在文本中的重要性，但没有考虑特征词的类别代表性和在类别之间的分布情况从而影响到分类的效果。

发明内容

基于背景技术存在的技术问题，本发明提出了一种智能化文本分类方法；

本发明提出的一种智能化文本分类方法，包括：

S1、根据预设的训练语料建立语料库，每个训练语料对应一个文本类别；

S2、根据训练语料库中的训练语料进行训练，生成词类别贡献度特征表示向量；

S3、结合最大化差异算法和TF-IDF算法对预测文本进行特征词选择，得到文本特征词；

S4、结合文本特征词和词类别贡献度特征表示向量，生成文本类别贡献度表示向量；

S5、根据文本特征向量对预测文本进行分类，得到预测文本的类别。

优选地，步骤S2中，在根据训练语料库中的训练语料进行训练之前，还包括：

对语料库中训练语料进行分词；

对语料库中训练语料进行去停用词。

优选地，步骤S2中，所述词类别贡献度特征表示向量，具体包括：

其中，m为语料库中的文本类别数，

为词t_j的类别贡献度特征向量，

为词t_j在文本类别m下的权重,其中

为文本类别m中包含t_j的文本数，n_m为该文本类别下的文本总数。

优选地，步骤S3，具体包括：

S31、计算待预测文本中各词的TF-IDF值；

S32、计算待预测文本中各词的最大化差异值；

S33、将最大化差异值和TF-IDF值相乘计算各词的权值，将各词的权值降序排序，选择降序排序后前N个词作为文本特征词。

优选地，步骤S33，具体包括：

w_j其中，w_j词的权值，MD_j为词t_j的最大化差异值，其中a、b为M个类别中的任意2个类别，Z_asj为类别b中词j出现s次的文本和该类别中包含词j的文本总数的比例，tf_j为文本频率，idf_j为逆文本频率。

优选地，步骤S4，具体包括：

将预测文本的文本特征词对应的词类别贡献度特征向量进行累加归一化，生成文本类别贡献度表示向量。

优选地，步骤S5，具体包括：根据文本特征向量的最大维特征对预测文本进行文本类别判断，得到预测文本的类别。

本发明根据预设的训练语料建立语料库，每个训练语料对应一个文本类别，根据训练语料库中的训练语料进行训练，生成词类别贡献度特征表示向量，结合最大化差异算法和TF-IDF算法对预测文本进行特征词选择，得到文本特征词，结合文本特征词和词类别贡献度特征表示向量，生成文本类别贡献度表示向量，根据文本特征向量对预测文本进行分类，得到预测文本的类别。如此，在特征选择过程中根据最大化差异选择文档中最重要且最具类别特征的词作为特征项，在文本特征表示过程中根据词在不同类别中的贡献度分布的不同计算特征词的类别贡献度向量，最后将文本中的特征词的特征向量进行计算，得出文本特征向量进行分类，本发明在分类性能上有显著的提高。

附图说明

图1为本发明提出的一种智能化文本分类方法的流程示意图。

具体实施方式

参照图1，本发明提出的一种智能化文本分类方法，包括：

步骤S1，根据预设的训练语料建立语料库，每个训练语料对应一个文本类别。

在具体方案中，在进行分类器训练之前，需要建立训练语料库，其中训练语料库中包含训练语料，训练语料即为已知文本类别的文本。

步骤S2，根据训练语料库中的训练语料进行训练，生成词类别贡献度特征表示向量，在根据训练语料库中的训练语料进行训练之前，还包括：对语料库中训练语料进行分词；对语料库中训练语料进行去停用词，其中，所述词类别贡献度特征表示向量，包括：

其中，m为语料库中的文本类别数，

为词t_j的类别贡献度特征向量，

为词t_j在文本类别m下的权重，其中

在具体方案中，首先对对语料库中训练语料进行分词和去停用词处理。然后计算词在不同类别下的文档频率，再计算词在文本类别的权重，生成词类别贡献度特征向量，该向量以类别作为特征向量的各维特征，计算词在不同类别下的文档频率(DF)作为各维特征的权重值，将203步骤计算出词t_j在各个类别m下的文档频率

作为对应特征向量各维的权重值，再归一化操作。权重是一个相对的概念，针对某一指标而言。某一指标的权重是指该指标在整体评价中的相对重要程度。权重是要从若干评价指标中分出轻重来，一组评价指标体系相对应的权重组成了权重体系。

步骤S3，结合最大化差异算法和TF-IDF算法对预测文本进行特征词选择，得到文本特征词，步骤S3，具体包括：

S31、计算待预测文本中各词的TF-IDF值；

S32、计算待预测文本中各词的最大化差异值；

S33、将最大化差异值和TF-IDF值相乘计算各词的权值，将各词的权值降序排序，选择降序排序后前N个词作为文本特征词，具体包括：

w_j其中，w_j词的权值，MD_j为词t_j的最大化差异值,其中a、b为M个类别中的任意2个类别，Z_asj为类别b中词j出现s次的文本和该类别中包含词j的文本总数的比例，tf_j为文本频率，idf_j为逆文本频率。

在具体方案中，计算待预测文本中各词项的TF-IDF值，TF-IDF是一种统计方法，用以评估字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。IDF的主要思想是：语料库中包含词条的文档越少，IDF越大，则说明词条具有很好的区分能力。某一特定文件内的高词语频率，以及该词语在整个文件集合中的文档频率，可以产生出高权重的TF-IDF。因此，TF-IDF倾向于过滤掉常见的词语，保留重要的词语。

步骤S33中，将最大化差异值和TF-IDF值相乘，将得出的结果降序排序，选择TOP-N个词作为该文本的特征词。该步骤结合最大化差异和TF-IDF各自的优点，选择待预测文本中最能代表文本信息且最具类别区分度的词作为文本特征词。

步骤S4，结合文本特征词和词类别贡献度特征表示向量，生成文本类别贡献度表示向量，具体包括：

在具体方案中，将预测文本的文本特征词对应的词类别贡献度特征向量进行累加归一化，即可得到本类别贡献度特征向量。

步骤S5，根据文本特征向量对预测文本进行分类，得到预测文本的类别，具体包括：

根据文本特征向量的最大维特征对预测文本进行文本类别判断，得到预测文本的类别。

在具体方案中，根据文本特征向量的最大维特征所对应的类别特征即可判断文本类别。

例如：

特征词	娱乐	政治	体育	财经	军事
						双十一	0.3	0.2	0.1	0.4	0.1
阿里巴巴	0.2	0.2	0.2	0.3	0.1
						支付宝	0.1	0.3	0.1	0.4	0.1
股票	0	0.05	0	0.95	0
						文本特征	0.14	0.18	0.11	0.5	0.07

设待预测文本特征词为：“双十一”,“支付宝”，“天猫”,“马云”，根据205步骤得出特征词类别贡献度特征向量为:“双十一”(0.3,0.2,0.1,0.4,0.1)、“阿里巴巴”(0.2,0.2,0.2,0.3,0.1)、“支付宝”(0.1,0.3,0.1,0.4,0.1)、“股票”(0,0.05,0,0.95,0)，执行208步骤，计算出文本类别贡献度特征向量(0.14,0.18,0.11,0.5,0.07)。

通过步骤S4和步骤S5，得出的文本类别贡献度特征向量的最大值对应的类别特征，即判断该文本为财经新闻。

本实施方式根据预设的训练语料建立语料库，每个训练语料对应一个文本类别，根据训练语料库中的训练语料进行训练，生成词类别贡献度特征表示向量，结合最大化差异算法和TF-IDF算法对预测文本进行特征词选择，得到文本特征词，结合文本特征词和词类别贡献度特征表示向量，生成文本类别贡献度表示向量，根据文本特征向量对预测文本进行分类，得到预测文本的类别。如此，在特征选择过程中根据最大化差异选择文档中最重要且最具类别特征的词作为特征项，在文本特征表示过程中根据词在不同类别中的贡献度分布的不同计算特征词的类别贡献度向量，最后将文本中的特征词的特征向量进行计算，得出文本特征向量进行分类，本发明在分类性能上有显著的提高。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。