CN105045913A

CN105045913A - 基于WordNet以及潜在语义分析的文本分类方法

Info

Publication number: CN105045913A
Application number: CN201510502389.4A
Authority: CN
Inventors: 赵旭; 李建强; 刘璐; 许泽文; 莫豪文
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2015-08-14
Filing date: 2015-08-14
Publication date: 2015-11-11
Anticipated expiration: 2035-08-14
Also published as: CN105045913B

Abstract

基于WordNet以及潜在语义分析的文本分类方法涉及计算机领域。本发明考虑文本中单词的同义词及上下位词，同义词及上下位词根据相似度增加各自词频，从而减少多词同义对分类的影响。不同于一般方法中对一个特征矩阵以单一方法做特征提取，我们通过对WordNet调用参数的调整获得多个特征矩阵，使用遗传算法(GA)辅助潜在语义分析(LSA)共同完成特征提取，得到更好的特征矩阵，从而提高了分类效果。

Description

基于WordNet以及潜在语义分析的文本分类方法

技术领域

本发明涉及计算机领域，更具体地涉及基于WordNet及潜在语义分析的文本分类方法。

背景技术

文本分类(Textcategorization)是指在给定分类体系下，根据文本内容自动确定文本类别的过程，按预先指定的标准对文档进行归类这样用户不仅可以方便地浏览文档而且可以通过类别来查询所需的文档，20世纪90年代以前，占主导地位的文本分类方法一直是基于知识工程的分类方法，即由专业人员手工进行分类。人工分类非常费时，效率非常低。90年代以来，众多的统计方法和机器学习方法应用于自动文本分类，文本分类技术的研究引起了研究人员的极大兴趣。目前在国内也已经开始对中文文本分类进行研究，并在信息检索、Web文档自动分类、数字图书馆、自动文摘、分类新闻组、文本过滤、单词语义辨析以及文档的组织和管理等多个领域得到了初步的应用。

文本分类的研究可以追溯到上世纪六十年代，早期的文本分类主要是基于知识工程(KnowledgeEngineering)，通过手工定义一些规则来对文本进行分类，这种方法费时费力，且必须对某一领域有足够的了解，才能写出合适的规则。到上世纪九十年代，随着网上在线文本的大量涌现和机器学习的兴起，大规模的文本(包括网页)分类和检索重新引起研究者的兴趣。文本分类系统首先通过在预先分类好的文本集上训练，建立一个判别规则或分类器，从而对未知类别的新样本进行自动归类。大量的结果表明它的分类精度比得上专家手工分类的结果，并且它的学习不需要专家干预，能适用于任何领域的学习，使得它成为目前文本分类的主流方法。

在文本分类的实验研究中，多词同义和一词多义问题的存在导致许多类别不能完全划分出来，现有的研究更多的集中于在特征提取阶段对特征词之间做相似度的计算来降低多词同义问题对分类效果的影响。而在特征提取阶段，普遍采用一种方法处理，更多的研究集中在对分类器的优化上。

在《KnowledgeBasedSystems》2008年版上一篇由BoYu,Zong-benXu,Cheng-huaLi所著的论文“Latentsemanticanalysisfortextcategorizationusingneuralnetwork；”中提出了以LSA进行特征提取，通过调整维度K来寻找分类效果最佳的特征矩阵。文章先将1000个文本集分成2部分，600个为训练集，400个为测试集，预处理后以TF-IDF值为每个单词分配权重，将特征矩阵降维至1200，而后使用LSA方法将特征矩阵降维至K(K为实验所需值，K<400)，之后选择神经网络方法训练分类器。

文中的实验是在传统的文本分类流程中(图1)，试图寻找效果更好的特征矩阵。具体地，他在训练分类器阶段增加了一个循环，通过改变特征矩阵的维度来寻找分类效果最佳的特征矩阵。(图2)。

上述方法虽然试图寻找最佳的特征矩阵，但从一开始并没有考虑语义，以及同义词及上下位词对特征矩阵的影响，而且在特征提取上只采用LSA方法，但目前的研究表明两种方法共同进行特征提取的效果要优于一种方法。

发明内容

本发明是鉴于以上所述的一个或多个问题做出的。

基于WordNet以及潜在语义分析的文本分类方法包括：

文本预处理；

特征提取；

训练SVM分类器。

其特征在于：

在文本预处理阶段，调用WordNet对文本中单词消除歧义，并依层数参数H，如H＝2，在上下距离2层以内限制WordNet取上下位词和同义词，以相似度作为权重，增加文本中单词的同义词和上下位词的词频，得到考虑同义词和上下位词的词频矩阵；

在特征提取阶段，首先过滤掉词频矩阵中词频低的单词，剩下的单词组成子集，子集维度为500-1000之间，而后采用潜在语义分析对子集矩阵进行降维，得到特征矩阵，之后通过遗传算法根据分类结果F1-measure的值对特征矩阵进行调整，得到分类效果最佳的特征矩阵。

训练SVM分类器与预处理和特征提取构成一个整体循环，通过调整参数H和特征矩阵，得到分类效果最佳的分类器。

F1-measure用于评价分类器效果，是查准率和查全率的一个综合衡量，为F1-measure＝2rp/(r+p)，其中r为查全率，p为查准率；

具体说明如下：

类别ci的分类结果中，正确分为该类的样本数目是a，错误划归为该类的样本数目是b，将该类错误划归为它类的样本数目是c，总共包含C类。

召回率r：recall＝a/(a+c)，衡量的是类别的查全率。

准确率p：precision＝a/(a+b)，衡量的是类别的查准率。

F1-measure：衡量的是查全率和查准率的综合，以及对它们的偏向程度。

以相似度作为权重，增加文本中单词的即同义词和上下位词的词频，考虑了单词的语义，降低了多词同义的影响。(例如：单词A出现在文本，通过WordNet，发现单词B是A的同义词，相似度为0.6，那么计算词频时，A的词频+1，B的词频+0.6。)

根据本发明一个实施例的基于WordNet及潜在语义分析的文本分类方法包括：文本预处理，通过WordNet对文本中单词消歧义；取同义词及上下位词，通过WordNet选取单词的同义词和上下位次，以参数H限制选取的层数范围；以相似度为权重，调整单词的同义词和上下位词的词频，得到考虑语义的词频矩阵；训练、测试SVM分类器并以遗传算法(GA)调整特征矩阵，得到分类效果最佳的特征矩阵。本发明相对于现有的文本分类方法，考虑了单词在文本中的语义，通过相似度调整并得到词频矩阵，在特征选择阶段，不同于一般方法，我们采用了潜在语义分析(LSA)和遗传算法(GA)两种方法共同选择出分类效果最佳的特征矩阵。

附图说明

结合附图，从下面对本发明实施例的详细描述，将更好地理解本发明，其中：

图1传统文本分类器训练方法

图2本发明分类器训练方法示意图

图3示出了根据本发明一个实施例的基于WordNet以及潜在语义分析(LSA)的文本分类方法的简要输入输出框图；

图4示出了根据本发明一个实施例的基于WordNet以及潜在语义分析(LSA)的文本分类方法的简要流程图；

图5(a)示出了根据本发明实施例的基于WordNet以及潜在语义分析(LSA)的文本分类方法的一详细例图之一。

图5(b)示出了根据本发明实施例的基于WordNet以及潜在语义分析(LSA)的文本分类方法的一详细例图之二。

具体实施方式

下面将详细描述本发明各个方面的特征和示例性实施例。下面的描述涵盖了许多具体细节，以便提供对本发明的全面理解。但是，对于本领域技术人员来说显而易见的是，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更清楚的理解。本发明绝不限于下面所提出的任何具体配置和算法，而是在不脱离本发明的精神的前提下覆盖了相关元素、部件和算法的任何修改、替换和改进。

鉴于以上所述的传统文本分类方法对于多词同义问题不能很好的解决，本发明提出了基于WordNet以及潜在语义分析(LSA)的文本分类方法。下面结合图3，说明根据本发明一个实施例的基于WordNet以及潜在语义分析(LSA)的文本分类方法示例。

图3示出了根据本发明一个实施例的基于WordNet以及潜在语义分析(LSA)的文本分类方法的输入输出框图。图4示出了根据本发明一个实施例的基于WordNet以及潜在语义分析(LSA)的文本分类方法的简要流程图。图5(a)(b)示出了根据本发明一个实施例的基于WordNet以及潜在语义分析(LSA)的文本分类方法的一个简单样例。

如图3所示，根据本发明一个实施例的基于WordNet以及潜在语义分析(LSA)的文本分类方法包括文本预处理、特征提取、以及遗传算法(GA)三个部分，它们的功能如下：

文本预处理，将文本数据集初步处理，一般为分词，去停用词两个基本处理，本方法引入WordNet对文本中单词进行消歧义处理以及以上位概念词代替原词。(D表示文档)。

特征提取，先过滤掉词频太低的单词构成子集，然后采用潜在语义分析(LSA)的方法对处理后的文本集做特征提取，在文本集的所有概念词中，根据差异，选取前100个单词作为结果。(D₁...D_m表示文档，W₁...W_n表示单词，D_iW_j表示单词W_j在文档D_i中的词频，1≤i≤m，1≤j≤n)。多处用

遗传算法(GA)，这部分通过对分类器效果的检验，调整特征矩阵中的单词项，训练分类器并检测，逐步获得效果最佳的分类器。

具体地，通过给出由根据本发明一个实施例的基于WordNet以及潜在语义分析(LSA)的文本分类方法的示例，详细解释每一步工作及结果：

如图4所示，在文本预处理和特征提取完成后，依图中序号，依次进行训练SVM分类器、测试分类效果并调整特征矩阵、调整WordNet参数，完成这3步循环，找到效果最佳的特征矩阵，最后训练出分类效果最佳的分类器。

基于WordNet及潜在语义分析的文本分类方法的算法伪码：

输入:文本集，未分类的文本,H值(层数)

输出:分类结果

Init:

1.预处理(消歧义，分词，去停用词)

2.for(H＝1,H<L,H++){//L为设定值

3.生成特征矩阵M1(*)；

4.以LSA处理特征矩阵得到特征矩阵M2；

5.训练SVM分类器；

6.测试分类器效果，得到F1-measure值；

7.GA算法调整特征矩阵M2，回到步骤5；}

8.经过步骤2的循环后，得到效果最佳的特征矩阵Mn；

9.以Mn训练SVM分类器；

10.对未分类的文本进行分类，得到分类结果；

其中第三步生成特征矩阵M1的算法伪码如下：

输入:预处理后的文本集，H值(层数)，没有体现权利要求书的内容

输出:特征矩阵M

Init:

1.读取文本T1中的单词，通过WordNet对文本集中单词W取其同义词S和上位词(a..)下位词(b..)，层数差小于等于H；

2.计算S，a，b与W的相似度(s1,s2,s3)；

3.对应T1，W的词频+1，S的词频+s1，a的词频+s2，b的词频+s3；

4.回到步骤1，读取下一个单词，若为空，则读取T2；

5.所有文本处理完后，生成单词X文本的词频矩阵；

6.将词频少于K的单词过滤掉，得到子矩阵Ms；(K可设定，将子矩阵Ms的维度降低到1000或者500)

7.以LSA算法对Ms降维，得到特征矩阵M；

8.输出特征矩阵M；

图5(a)和图5(b)对本发明实施例的基于WordNet以及潜在语义分析(LSA)的文本分类方法的一个简单举例。使用简单的数据表格举例。首先相对于一般的文本分类方法获得初始的单词-文档的词频矩阵，本发明考虑了单词的同义词和上下位词后，以相似度为权重，增加词频，如图5(a)的下图(为了方便对比，以一般的单词-文档的词频矩阵为基础)，然后，如图5(b)所示，先过滤掉词频较低的单词项，剩余的组成子集S1，而后以LSA方法对S1做降维处理，得到维度为100的特征矩阵。

我们以此特征矩阵训练SVM分类器并检验分类器的效果，之后回到子集S1，选择其中的向量替换之前的特征矩阵中的向量，重新训练SVM分类器，重复这一步，之后可得到效果最佳的特征矩阵。我们还对选取同义词和上下位词的范围做了限制，即参数H(同义词及上下位词距文档中单词的层数≤H)，同样以遗传算法对H及对应的词频矩阵做寻优处理，最终获得不同H下的分类效果最佳的特征矩阵，从而训练得到分类效果最佳的SVM分类器。

上面已经参考附图对根据本发明实施例的基于WordNet以及潜在语义分析(LSA)的文本分类方法进行了详细描述。如前所述，本发明考虑文本中单词的同义词及上下位词，同义词及上下位词根据相似度增加各自词频，从而减少多词同义对分类的影响。不同于一般方法中对一个特征矩阵以单一方法做特征提取，我们通过对WordNet调用参数的调整获得多个特征矩阵，使用遗传算法(GA)辅助潜在语义分析(LSA)共同完成特征提取，得到更好的特征矩阵，从而提高了分类效果。

但是，需要明确，本发明并不局限于上文所描述并在图中示出的特定配置和处理。并且，为了简明起见，这里省略对已知方法技术的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神之后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

本发明可以以其他的具体形式实现，而不脱离其精神和本质特征。例如，特定实施例中所描述的算法可以被修改，而系统体系结构并不脱离本发明的基本精神。因此，当前的实施例在所有方面都被看作是示例性的而非限定性的，本发明的范围由所附权利要求而非上述描述定义，并且，落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。

Claims

1.基于WordNet以及潜在语义分析的文本分类方法，包括：

文本预处理；

特征提取；

训练SVM分类器。

其特征在于：

在文本预处理阶段，调用WordNet对文本中单词消除歧义，并依层数参数H在上下距离2层以内限制WordNet取上下位词和同义词，以相似度作为权重，增加文本中单词的同义词和上下位词的词频，得到考虑同义词和上下位词的词频矩阵；

在特征提取阶段，首先过滤掉词频矩阵中词频低的单词，剩下的单词组成子集，子集维度为500-1000之间，而后采用潜在语义分析对子集矩阵进行降维，得到特征矩阵，之后通过遗传算法根据分类结果F1-measure的值对特征矩阵进行调整，得到分类效果最佳的特征矩阵；

F1-measure用于评价分类器效果，F1-measure＝2rp/(r+p)，其中r为查全率，p为查准率；