CN105045913A - 基于WordNet以及潜在语义分析的文本分类方法 - Google Patents

基于WordNet以及潜在语义分析的文本分类方法 Download PDF

Info

Publication number
CN105045913A
CN105045913A CN201510502389.4A CN201510502389A CN105045913A CN 105045913 A CN105045913 A CN 105045913A CN 201510502389 A CN201510502389 A CN 201510502389A CN 105045913 A CN105045913 A CN 105045913A
Authority
CN
China
Prior art keywords
text
word
wordnet
semantic analysis
eigenmatrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510502389.4A
Other languages
English (en)
Other versions
CN105045913B (zh
Inventor
赵旭
李建强
刘璐
许泽文
莫豪文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201510502389.4A priority Critical patent/CN105045913B/zh
Publication of CN105045913A publication Critical patent/CN105045913A/zh
Application granted granted Critical
Publication of CN105045913B publication Critical patent/CN105045913B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

基于WordNet以及潜在语义分析的文本分类方法涉及计算机领域。本发明考虑文本中单词的同义词及上下位词,同义词及上下位词根据相似度增加各自词频,从而减少多词同义对分类的影响。不同于一般方法中对一个特征矩阵以单一方法做特征提取,我们通过对WordNet调用参数的调整获得多个特征矩阵,使用遗传算法(GA)辅助潜在语义分析(LSA)共同完成特征提取,得到更好的特征矩阵,从而提高了分类效果。

Description

基于WordNet以及潜在语义分析的文本分类方法
技术领域
本发明涉及计算机领域,更具体地涉及基于WordNet及潜在语义分析的文本分类方法。
背景技术
文本分类(Textcategorization)是指在给定分类体系下,根据文本内容自动确定文本类别的过程,按预先指定的标准对文档进行归类这样用户不仅可以方便地浏览文档而且可以通过类别来查询所需的文档,20世纪90年代以前,占主导地位的文本分类方法一直是基于知识工程的分类方法,即由专业人员手工进行分类。人工分类非常费时,效率非常低。90年代以来,众多的统计方法和机器学习方法应用于自动文本分类,文本分类技术的研究引起了研究人员的极大兴趣。目前在国内也已经开始对中文文本分类进行研究,并在信息检索、Web文档自动分类、数字图书馆、自动文摘、分类新闻组、文本过滤、单词语义辨析以及文档的组织和管理等多个领域得到了初步的应用。
文本分类的研究可以追溯到上世纪六十年代,早期的文本分类主要是基于知识工程(KnowledgeEngineering),通过手工定义一些规则来对文本进行分类,这种方法费时费力,且必须对某一领域有足够的了解,才能写出合适的规则。到上世纪九十年代,随着网上在线文本的大量涌现和机器学习的兴起,大规模的文本(包括网页)分类和检索重新引起研究者的兴趣。文本分类系统首先通过在预先分类好的文本集上训练,建立一个判别规则或分类器,从而对未知类别的新样本进行自动归类。大量的结果表明它的分类精度比得上专家手工分类的结果,并且它的学习不需要专家干预,能适用于任何领域的学习,使得它成为目前文本分类的主流方法。
在文本分类的实验研究中,多词同义和一词多义问题的存在导致许多类别不能完全划分出来,现有的研究更多的集中于在特征提取阶段对特征词之间做相似度的计算来降低多词同义问题对分类效果的影响。而在特征提取阶段,普遍采用一种方法处理,更多的研究集中在对分类器的优化上。
在《KnowledgeBasedSystems》2008年版上一篇由BoYu,Zong-benXu,Cheng-huaLi所著的论文“Latentsemanticanalysisfortextcategorizationusingneuralnetwork;”中提出了以LSA进行特征提取,通过调整维度K来寻找分类效果最佳的特征矩阵。文章先将1000个文本集分成2部分,600个为训练集,400个为测试集,预处理后以TF-IDF值为每个单词分配权重,将特征矩阵降维至1200,而后使用LSA方法将特征矩阵降维至K(K为实验所需值,K<400),之后选择神经网络方法训练分类器。
文中的实验是在传统的文本分类流程中(图1),试图寻找效果更好的特征矩阵。具体地,他在训练分类器阶段增加了一个循环,通过改变特征矩阵的维度来寻找分类效果最佳的特征矩阵。(图2)。
上述方法虽然试图寻找最佳的特征矩阵,但从一开始并没有考虑语义,以及同义词及上下位词对特征矩阵的影响,而且在特征提取上只采用LSA方法,但目前的研究表明两种方法共同进行特征提取的效果要优于一种方法。
发明内容
本发明是鉴于以上所述的一个或多个问题做出的。
基于WordNet以及潜在语义分析的文本分类方法包括:
文本预处理;
特征提取;
训练SVM分类器。
其特征在于:
在文本预处理阶段,调用WordNet对文本中单词消除歧义,并依层数参数H,如H=2,在上下距离2层以内限制WordNet取上下位词和同义词,以相似度作为权重,增加文本中单词的同义词和上下位词的词频,得到考虑同义词和上下位词的词频矩阵;
在特征提取阶段,首先过滤掉词频矩阵中词频低的单词,剩下的单词组成子集,子集维度为500-1000之间,而后采用潜在语义分析对子集矩阵进行降维,得到特征矩阵,之后通过遗传算法根据分类结果F1-measure的值对特征矩阵进行调整,得到分类效果最佳的特征矩阵。
训练SVM分类器与预处理和特征提取构成一个整体循环,通过调整参数H和特征矩阵,得到分类效果最佳的分类器。
F1-measure用于评价分类器效果,是查准率和查全率的一个综合衡量,为F1-measure=2rp/(r+p),其中r为查全率,p为查准率;
具体说明如下:
类别ci的分类结果中,正确分为该类的样本数目是a,错误划归为该类的样本数目是b,将该类错误划归为它类的样本数目是c,总共包含C类。
召回率r:recall=a/(a+c),衡量的是类别的查全率。
准确率p:precision=a/(a+b),衡量的是类别的查准率。
F1-measure:衡量的是查全率和查准率的综合,以及对它们的偏向程度。
训练SVM分类器与预处理和特征提取构成一个整体循环,通过调整参数H和特征矩阵,得到分类效果最佳的分类器。
以相似度作为权重,增加文本中单词的即同义词和上下位词的词频,考虑了单词的语义,降低了多词同义的影响。(例如:单词A出现在文本,通过WordNet,发现单词B是A的同义词,相似度为0.6,那么计算词频时,A的词频+1,B的词频+0.6。)
以相似度作为权重,增加文本中单词的即同义词和上下位词的词频,考虑了单词的语义,降低了多词同义的影响。(例如:单词A出现在文本,通过WordNet,发现单词B是A的同义词,相似度为0.6,那么计算词频时,A的词频+1,B的词频+0.6。)
根据本发明一个实施例的基于WordNet及潜在语义分析的文本分类方法包括:文本预处理,通过WordNet对文本中单词消歧义;取同义词及上下位词,通过WordNet选取单词的同义词和上下位次,以参数H限制选取的层数范围;以相似度为权重,调整单词的同义词和上下位词的词频,得到考虑语义的词频矩阵;训练、测试SVM分类器并以遗传算法(GA)调整特征矩阵,得到分类效果最佳的特征矩阵。本发明相对于现有的文本分类方法,考虑了单词在文本中的语义,通过相似度调整并得到词频矩阵,在特征选择阶段,不同于一般方法,我们采用了潜在语义分析(LSA)和遗传算法(GA)两种方法共同选择出分类效果最佳的特征矩阵。
附图说明
结合附图,从下面对本发明实施例的详细描述,将更好地理解本发明,其中:
图1传统文本分类器训练方法
图2本发明分类器训练方法示意图
图3示出了根据本发明一个实施例的基于WordNet以及潜在语义分析(LSA)的文本分类方法的简要输入输出框图;
图4示出了根据本发明一个实施例的基于WordNet以及潜在语义分析(LSA)的文本分类方法的简要流程图;
图5(a)示出了根据本发明实施例的基于WordNet以及潜在语义分析(LSA)的文本分类方法的一详细例图之一。
图5(b)示出了根据本发明实施例的基于WordNet以及潜在语义分析(LSA)的文本分类方法的一详细例图之二。
具体实施方式
下面将详细描述本发明各个方面的特征和示例性实施例。下面的描述涵盖了许多具体细节,以便提供对本发明的全面理解。但是,对于本领域技术人员来说显而易见的是,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更清楚的理解。本发明绝不限于下面所提出的任何具体配置和算法,而是在不脱离本发明的精神的前提下覆盖了相关元素、部件和算法的任何修改、替换和改进。
鉴于以上所述的传统文本分类方法对于多词同义问题不能很好的解决,本发明提出了基于WordNet以及潜在语义分析(LSA)的文本分类方法。下面结合图3,说明根据本发明一个实施例的基于WordNet以及潜在语义分析(LSA)的文本分类方法示例。
图3示出了根据本发明一个实施例的基于WordNet以及潜在语义分析(LSA)的文本分类方法的输入输出框图。图4示出了根据本发明一个实施例的基于WordNet以及潜在语义分析(LSA)的文本分类方法的简要流程图。图5(a)(b)示出了根据本发明一个实施例的基于WordNet以及潜在语义分析(LSA)的文本分类方法的一个简单样例。
如图3所示,根据本发明一个实施例的基于WordNet以及潜在语义分析(LSA)的文本分类方法包括文本预处理、特征提取、以及遗传算法(GA)三个部分,它们的功能如下:
文本预处理,将文本数据集初步处理,一般为分词,去停用词两个基本处理,本方法引入WordNet对文本中单词进行消歧义处理以及以上位概念词代替原词。(D表示文档)。
特征提取,先过滤掉词频太低的单词构成子集,然后采用潜在语义分析(LSA)的方法对处理后的文本集做特征提取,在文本集的所有概念词中,根据差异,选取前100个单词作为结果。(D1...Dm表示文档,W1...Wn表示单词,DiWj表示单词Wj在文档Di中的词频,1≤i≤m,1≤j≤n)。多处用
遗传算法(GA),这部分通过对分类器效果的检验,调整特征矩阵中的单词项,训练分类器并检测,逐步获得效果最佳的分类器。
具体地,通过给出由根据本发明一个实施例的基于WordNet以及潜在语义分析(LSA)的文本分类方法的示例,详细解释每一步工作及结果:
如图4所示,在文本预处理和特征提取完成后,依图中序号,依次进行训练SVM分类器、测试分类效果并调整特征矩阵、调整WordNet参数,完成这3步循环,找到效果最佳的特征矩阵,最后训练出分类效果最佳的分类器。
基于WordNet及潜在语义分析的文本分类方法的算法伪码:
输入:文本集,未分类的文本,H值(层数)
输出:分类结果
Init:
1.预处理(消歧义,分词,去停用词)
2.for(H=1,H<L,H++){//L为设定值
3.生成特征矩阵M1(*);
4.以LSA处理特征矩阵得到特征矩阵M2;
5.训练SVM分类器;
6.测试分类器效果,得到F1-measure值;
7.GA算法调整特征矩阵M2,回到步骤5;}
8.经过步骤2的循环后,得到效果最佳的特征矩阵Mn;
9.以Mn训练SVM分类器;
10.对未分类的文本进行分类,得到分类结果;
其中第三步生成特征矩阵M1的算法伪码如下:
输入:预处理后的文本集,H值(层数),没有体现权利要求书的内容
输出:特征矩阵M
Init:
1.读取文本T1中的单词,通过WordNet对文本集中单词W取其同义词S和上位词(a..)下位词(b..),层数差小于等于H;
2.计算S,a,b与W的相似度(s1,s2,s3);
3.对应T1,W的词频+1,S的词频+s1,a的词频+s2,b的词频+s3;
4.回到步骤1,读取下一个单词,若为空,则读取T2;
5.所有文本处理完后,生成单词X文本的词频矩阵;
6.将词频少于K的单词过滤掉,得到子矩阵Ms;(K可设定,将子矩阵Ms的维度降低到1000或者500)
7.以LSA算法对Ms降维,得到特征矩阵M;
8.输出特征矩阵M;
图5(a)和图5(b)对本发明实施例的基于WordNet以及潜在语义分析(LSA)的文本分类方法的一个简单举例。使用简单的数据表格举例。首先相对于一般的文本分类方法获得初始的单词-文档的词频矩阵,本发明考虑了单词的同义词和上下位词后,以相似度为权重,增加词频,如图5(a)的下图(为了方便对比,以一般的单词-文档的词频矩阵为基础),然后,如图5(b)所示,先过滤掉词频较低的单词项,剩余的组成子集S1,而后以LSA方法对S1做降维处理,得到维度为100的特征矩阵。
我们以此特征矩阵训练SVM分类器并检验分类器的效果,之后回到子集S1,选择其中的向量替换之前的特征矩阵中的向量,重新训练SVM分类器,重复这一步,之后可得到效果最佳的特征矩阵。我们还对选取同义词和上下位词的范围做了限制,即参数H(同义词及上下位词距文档中单词的层数≤H),同样以遗传算法对H及对应的词频矩阵做寻优处理,最终获得不同H下的分类效果最佳的特征矩阵,从而训练得到分类效果最佳的SVM分类器。
上面已经参考附图对根据本发明实施例的基于WordNet以及潜在语义分析(LSA)的文本分类方法进行了详细描述。如前所述,本发明考虑文本中单词的同义词及上下位词,同义词及上下位词根据相似度增加各自词频,从而减少多词同义对分类的影响。不同于一般方法中对一个特征矩阵以单一方法做特征提取,我们通过对WordNet调用参数的调整获得多个特征矩阵,使用遗传算法(GA)辅助潜在语义分析(LSA)共同完成特征提取,得到更好的特征矩阵,从而提高了分类效果。
但是,需要明确,本发明并不局限于上文所描述并在图中示出的特定配置和处理。并且,为了简明起见,这里省略对已知方法技术的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神之后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
本发明可以以其他的具体形式实现,而不脱离其精神和本质特征。例如,特定实施例中所描述的算法可以被修改,而系统体系结构并不脱离本发明的基本精神。因此,当前的实施例在所有方面都被看作是示例性的而非限定性的,本发明的范围由所附权利要求而非上述描述定义,并且,落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。

Claims (1)

1.基于WordNet以及潜在语义分析的文本分类方法,包括:
文本预处理;
特征提取;
训练SVM分类器。
其特征在于:
在文本预处理阶段,调用WordNet对文本中单词消除歧义,并依层数参数H在上下距离2层以内限制WordNet取上下位词和同义词,以相似度作为权重,增加文本中单词的同义词和上下位词的词频,得到考虑同义词和上下位词的词频矩阵;
在特征提取阶段,首先过滤掉词频矩阵中词频低的单词,剩下的单词组成子集,子集维度为500-1000之间,而后采用潜在语义分析对子集矩阵进行降维,得到特征矩阵,之后通过遗传算法根据分类结果F1-measure的值对特征矩阵进行调整,得到分类效果最佳的特征矩阵;
F1-measure用于评价分类器效果,F1-measure=2rp/(r+p),其中r为查全率,p为查准率;
训练SVM分类器与预处理和特征提取构成一个整体循环,通过调整参数H和特征矩阵,得到分类效果最佳的分类器。
CN201510502389.4A 2015-08-14 2015-08-14 基于WordNet以及潜在语义分析的文本分类方法 Active CN105045913B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510502389.4A CN105045913B (zh) 2015-08-14 2015-08-14 基于WordNet以及潜在语义分析的文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510502389.4A CN105045913B (zh) 2015-08-14 2015-08-14 基于WordNet以及潜在语义分析的文本分类方法

Publications (2)

Publication Number Publication Date
CN105045913A true CN105045913A (zh) 2015-11-11
CN105045913B CN105045913B (zh) 2018-08-28

Family

ID=54452460

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510502389.4A Active CN105045913B (zh) 2015-08-14 2015-08-14 基于WordNet以及潜在语义分析的文本分类方法

Country Status (1)

Country Link
CN (1) CN105045913B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105760363A (zh) * 2016-02-17 2016-07-13 腾讯科技(深圳)有限公司 文本文件的词义消歧方法及装置
CN106372640A (zh) * 2016-08-19 2017-02-01 中山大学 一种字频文本分类方法
CN107203570A (zh) * 2016-03-18 2017-09-26 北京京东尚科信息技术有限公司 搜索关键字频度解析方法和装置
CN108268457A (zh) * 2016-12-30 2018-07-10 广东精点数据科技股份有限公司 一种基于svm的文本分类方法及装置
CN108304890A (zh) * 2018-03-16 2018-07-20 科大讯飞股份有限公司 一种分类模型的生成方法及装置
CN110263178A (zh) * 2019-06-03 2019-09-20 南京航空航天大学 一种WordNet到Neo4J的映射方法、语义检测方法及语义计算扩展接口生成方法
CN110321434A (zh) * 2019-06-27 2019-10-11 厦门美域中央信息科技有限公司 一种基于词义消歧卷积神经网络的文本分类方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070143101A1 (en) * 2005-12-20 2007-06-21 Xerox Corporation Class description generation for clustering and categorization
CN101290626A (zh) * 2008-06-12 2008-10-22 昆明理工大学 基于领域知识的文本分类特征选择及权重计算方法
CN102314417A (zh) * 2011-09-22 2012-01-11 西安电子科技大学 基于统计模型的Web命名实体识别方法
CN104182463A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种基于语义的文本分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070143101A1 (en) * 2005-12-20 2007-06-21 Xerox Corporation Class description generation for clustering and categorization
CN101290626A (zh) * 2008-06-12 2008-10-22 昆明理工大学 基于领域知识的文本分类特征选择及权重计算方法
CN102314417A (zh) * 2011-09-22 2012-01-11 西安电子科技大学 基于统计模型的Web命名实体识别方法
CN104182463A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种基于语义的文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宋志理: "基于LDA模型的文本分类研究", 《中国优秀硕士学位论文全文数据库·信息科技辑》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105760363A (zh) * 2016-02-17 2016-07-13 腾讯科技(深圳)有限公司 文本文件的词义消歧方法及装置
CN107203570A (zh) * 2016-03-18 2017-09-26 北京京东尚科信息技术有限公司 搜索关键字频度解析方法和装置
CN107203570B (zh) * 2016-03-18 2020-02-07 北京京东尚科信息技术有限公司 搜索关键字频度解析方法、装置、电子设备及介质
CN106372640A (zh) * 2016-08-19 2017-02-01 中山大学 一种字频文本分类方法
CN108268457A (zh) * 2016-12-30 2018-07-10 广东精点数据科技股份有限公司 一种基于svm的文本分类方法及装置
CN108304890A (zh) * 2018-03-16 2018-07-20 科大讯飞股份有限公司 一种分类模型的生成方法及装置
CN110263178A (zh) * 2019-06-03 2019-09-20 南京航空航天大学 一种WordNet到Neo4J的映射方法、语义检测方法及语义计算扩展接口生成方法
CN110263178B (zh) * 2019-06-03 2023-05-12 南京航空航天大学 一种WordNet到Neo4J的映射方法、语义检测方法及语义计算扩展接口生成方法
CN110321434A (zh) * 2019-06-27 2019-10-11 厦门美域中央信息科技有限公司 一种基于词义消歧卷积神经网络的文本分类方法

Also Published As

Publication number Publication date
CN105045913B (zh) 2018-08-28

Similar Documents

Publication Publication Date Title
CN105045913B (zh) 基于WordNet以及潜在语义分析的文本分类方法
CN111126386B (zh) 场景文本识别中基于对抗学习的序列领域适应方法
Al Qadi et al. Arabic text classification of news articles using classical supervised classifiers
CN106445919A (zh) 一种情感分类方法及装置
CN105138653B (zh) 一种基于典型度和难度的题目推荐方法及其推荐装置
CN104750844A (zh) 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
CN101587493A (zh) 文本分类方法
CN105975518B (zh) 基于信息熵的期望交叉熵特征选择文本分类系统及方法
CN104598586B (zh) 大规模文本分类的方法
Adeleke et al. Comparative analysis of text classification algorithms for automated labelling of Quranic verses
CN101876987A (zh) 一种面向类间交叠的两类文本分类方法
Li et al. Local dense mixed region cutting+ global rebalancing: a method for imbalanced text sentiment classification
CN107463703A (zh) 基于信息增益的英文社交媒体账号分类方法
Rasheed et al. Urdu text classification: a comparative study using machine learning techniques
CN106570170A (zh) 基于深度循环神经网络的文本分类和命名实体识别一体化方法及系统
CN110097096A (zh) 一种基于tf-idf矩阵和胶囊网络的文本分类方法
CN108153899B (zh) 一种智能化文本分类方法
CN103246686A (zh) 文本分类方法和装置及文本分类的特征处理方法和装置
CN103268346A (zh) 半监督分类方法及系统
Chong et al. Comparison of naive bayes and SVM classification in grid-search hyperparameter tuned and non-hyperparameter tuned healthcare stock market sentiment analysis
CN108268461A (zh) 一种基于混合分类器的文本分类装置
Yana et al. Sentiment analysis of facebook comments on indonesian presidential candidates using the naïve bayes method
Cui et al. Sentiment analysis of tweets by CNN utilizing tweets with emoji as training data
CN103345525A (zh) 文本分类方法、装置及处理器
Xu et al. An improved TFIDF algorithm in text classification

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant