CN108763402B - 基于依存关系、词性和语义词典的类中心向量文本分类法 - Google Patents

基于依存关系、词性和语义词典的类中心向量文本分类法 Download PDF

Info

Publication number
CN108763402B
CN108763402B CN201810496803.9A CN201810496803A CN108763402B CN 108763402 B CN108763402 B CN 108763402B CN 201810496803 A CN201810496803 A CN 201810496803A CN 108763402 B CN108763402 B CN 108763402B
Authority
CN
China
Prior art keywords
feature
text
class
vector
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810496803.9A
Other languages
English (en)
Other versions
CN108763402A (zh
Inventor
朱新华
徐庆婷
吴田俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou Qilian Information Consulting Co ltd
Original Assignee
Guangxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi Normal University filed Critical Guangxi Normal University
Priority to CN201810496803.9A priority Critical patent/CN108763402B/zh
Publication of CN108763402A publication Critical patent/CN108763402A/zh
Application granted granted Critical
Publication of CN108763402B publication Critical patent/CN108763402B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及自然语言处理中的文本分类,具体是一种基于依存关系、词性和语义词典的类中心向量文本分类法。针对基于统计学的特征选择算法的语义缺陷,本发明引入依存关系、语义词典、词性对文本特征进行优化与聚类,提出了改进的权重计算公式,进而提出了改进的类中心向量文本分类方法。本发明的文本分类法同时兼顾了传统类中心向量法的高分类效率与K最近邻算法的高分类精度二方面的优点,可广泛应用于各类分类系统中。

Description

基于依存关系、词性和语义词典的类中心向量文本分类法
技术领域
本发明涉及自然语言处理中的文本分类,具体是一种基于依存关系、词性和语义词典的类中心向量文本分类法。
背景技术
随着计算机技术的飞速发展,特别是在“互联网+”的时代背景下,诸如文档、图片、音频和视频等网络信息以指数形式爆炸性增长,日常生活中每天都会产生大量的以电子文件形式存在的数据,人们如何从海量数据中获取想要的信息是当前研究的热点和难点,文本分类是其中的一个重要研究方向。
文本分类是文本处理技术里的一个重要研究方向,始于20世纪50年代,它是集语言学、数学、计算机科学和认知科学等于一体的综合性技术。20世纪50年代末,美国IBM公司的技术员H.P.Luhn将词频概念引入自动文本分类领域,主要思想是利用词语在文本中出现的频率来决定词语对于该文本区别于其他文本的重要程度,标志着自动文本分类阶段的开始。
常见的文本分类算法有贝叶斯分类算法、K最近邻算法(KNN)、支持向量机(SVM)、类中心向量算法。贝叶斯算法虽原理简单、易于实现,但它是基于一个假设,只有当文本数据集是相互独立的,分类准确率才会高,因而被用于文本分类有一定局限性;K最近邻算法分类准确率很高,但分类效率非常低,面对小规模语料集有比较好的分类效果,但遇到大规模语料集就会出现分类时间较长的问题;支持向量机由于其泛化能力很强,广泛适用于小样本语料集,而在大规模语料集的分类实验上,支持向量机的分类效果并不太好;类中心向量法主要优势是在分类实验之前就对语料集进行了大幅度的削减,因而分类实验计算量较小,分类效率很高,但其向量的维数过大,且向量权重过于稀疏,从而造成分类精度不高。本发明首先通过依存关系、词性和语义词典对特征选择进行语义层面的改进,并将语义信息进行量化融入文本特征权重计算中,然后通过语义词典分类结点的编码,对类中心向量进行聚类,从而达到对类中心向量降维与减少向量权重的稀疏,最终实现了一种基于依存关系、词性和语义词典的类中心向量文本分类法,该文本分类法同时兼顾了传统类中心向量法的高分类效率与KNN的高分类精度二方面的优点。
发明内容
为了提高文本分类精度、效率和性能,本发明引入依存关系、语义词典、词性对文本特征进行优化与聚类,提出了改进的权重计算公式,本发明提出了一种基于依存关系、词性和语义词典的类中心向量文本分类法。本发明充分利用句子依存关系不受成分的物理位置影响,依存关系分析准确率高的特点,使用国际上最为流行的Stanford Parser语法解析工具对文本进行句法分析,得出句子语法成分之间的依存关系。针对基于统计学的特征选择算法的语义缺陷,引入依存关系、语义词典、词性对文本特征进行优化,提出了改进的权重计算公式;然后通过语义词典分类结点的编码,对类中心向量进行聚类,从而达到对类中心向量降维与减少向量权重的稀疏,最终实现了一种基于依存关系、词性和语义词典的类中心向量文本分类法。本发明的文本分类法同时兼顾了传统类中心向量法的高分类效率与K最近邻算法的高分类精度二方面的优点,可广泛应用于各类分类系统中。
本发明的方法为:
首先对数据集进行预处理并按照9:1的比例分割训练集和测试集,利用美国斯坦福大学开发的Stanford Parser句法分析软件,对经过预处理的训练集进行词性标注与依存关系分析;根据本发明提出的基于依存关系、词性与语义词典的IT-IDF计算公式计算相应特征的权重;然后采用本发明提出的基于语义词典的类中心向量聚类方法,在每个类别的训练集中筛选出合适的TOP-K作为该类别的类中心向量;最后按照以下步骤对测试集中待分类文本进行分类。
具体包括:
Step1:首先对文本数据集进行预处理并按照9:1的比例分割训练集和测试集,利用句法分析软件,对经过预处理的数据集进行词性标注与依存关系分析,分别得到其词性标注与依存关系;
Step2:分别根据依存等级表和词性等级表确定数据集中文本特征的句子成分等级与词性等级,利用语义词典对文本特征进行同义词替换,按照改进的TF-IDF方法计算特征权重值;
Step3:求取训练集中各类别基于语义词典聚类的类中心向量;
Step4:为测试集中待分类文本选择前TOP-K作为该文本的特征向量;
Step5:将待分类文本的特征向量与各类别的类中心向量进行比对,并计算待分类文本特征向量与各类别的类中心向量之间的向量相似度;
Step6:将待分类文本分入向量相似度值最大的类别;
Step7:转Step4,直到测试集中所有文本分类完毕。
所述句法分析软件选自:美国斯坦福大学开发的Stanford Parser或哈尔滨工业大学的《语言云》。
所述语义词典为现有的可计算同义词与常识词典。
本发明详述如下。
1.对数据集进行预处理
要进行文本分类实验,首先要做的工作是将文本转化为适用于表示和分类的干净的词序列,这个工作通过预处理来完成。本发明在Step1所述的预处理包括对中文语料的分词或对英文语料的词根还原、删除停用词、去除低频词三个环节。
2.基于依存关系、词性的特征选择方法
基于依存关系的句法分析可以反映出句子中各成分的语义关系,不受成分的物理位置影响,如今被广泛应用于分析句子结构之中。首先,本发明根据词语在句子中与谓词的依存关系的不同,决定词语对句子、文本甚至类别的重要程度,也即根据词语所代表的句子成分决定词语对文本的重要程度。本发明在Step2,根据词语与谓词的依存关系决定其在句子中的成分,并根据句子成分对于句子的重要程度将句子成分及其对应的依存关系划分成8大等级,得到依存等级表如表1。
表1
Figure BDA0001669402270000031
在一个句子中,主语作为谓语的施事,是最为重要的成分,因而本发明将所有主语成分的特征都归为第1等级特征;宾语作为谓语的受事,为次重要成分,所有宾语成分的特征都归为第2等级特征;所有名词性修饰成分都归为第2等级特征;谓语是一个句子的核心,但一般是动词,在依存句法中是核心关系,动词有普遍适用性,故对文本分类的重要性不如名词,所有谓词成分的词语归为第4等级特征;定中关系和状中关系一般是形容词、副词,作为句子成分是定语、补语、状语三大类,分别归为第5等级、第6等级和第7等级特征;除此之外,还有诸如Mod(修饰语)、Pass(被动修饰)、Tmod(时间修饰)、Amod(形容词修饰)与Advmod(副词修饰)的词语统统归为第8等级特征。
反映在中文复旦大学语料文本C19-Computer1841中:“计算机”在全文一共出现3次,但3次都是作为第一等级特征;“工商”和“企业”分别有3次和5次作为第一等级特征,分别有2次和11次作为第二等级特征,其余全部归为第三等级特征。反映在搜狗语料代号为22的文本中:“美元”在文本中虽然出现过27次,但均在句子中充当第二等级特征,也即是以次重要句子成分出现,权重应该适当降低,“利润率”明显不能很好表征互联网类别,但在文本中出现过6次,3次是作为第6等级特征,另外3次是作为第2等级特征;“流量”、“网站”等具有很好类别区分能力的特征,虽然在文本中出现的次数很少,传统TF-IDF权重值很低,但都是作为第一等级特征出现,其特征权重应当适当提升才更合理,如其共现的句子依存关系:[nsubj(业务,网站),cop(业务,是),nummod(利润率,一项),amod(利润率,高),assmod(业务,利润率),case(利润率,的),root(ROOT,业务)],在这个依存关系中,nsubj(业务,网站)表示“网站”是作为主语,也即是第一等级特征,assmod(业务,利润率)表示关联修饰,也即是“利润率”是用来修饰“业务”的,也即是“利润率”在文本中是作为第六等级特征。
反映在英文20Newsgroups语料集“rec.sport.baseball”类别的101666号文本中:“science”总共出现10次,其中有3次作为第二等级特征,4次作为第三等级特征,其余作为第五等级特征;“computer”、“contribution”分别都出现8次、6次,也都有分别5次和3次是作为第二等级特征;而“player”都是作为第一等级特征出现,“basketball”也是如此。而且在复旦大学语料文本中,“工商”与“企业”通过名词组合依存关系nn(企业,工商)共同组成名词短语“工商企业”,且共同作为短语性主语和短语性宾语,又如:[nn(系统,工商),nn(系统,企业),nn(系统,IC),nn(系统,卡),nsubj(核心,系统)],在依存关系分析中,仅“系统”是主语,实际上短语“工商企业IC卡系统”都是句子的主语;依存分析[nn(工商,企业),dobj(发行,工商)]表示“工商”是宾语,实际上短语“工商企业”是句子的宾语。因此,本发明将类似于[nn(C,C1),nn(C,C2),...,nn(C,Cn),nsubj(root,C)]或[nn(R,R1),nn(R,R1),...,nn(R,Rn),dobj(root,R)]形式的词语链条进行处理,将“C1C2...CnC”作为主语,也即是将词语“C”、“C1”、“C2”、...、“Cn”都作为第1等级特征处理,将“R1R2...RnR”作为宾语,也即是将词语“R”、“R1”、“R2”、...、“Rn”都作为第2等级特征,以完善依存关系的不足。
所述语料是指分类所使用的文本数据集。
此外,本发明在对特征词性的统计中,发现了这一现象:文本是由实词(名词、动词、形容词、数量词、代词)和虚词(副词、介词、连词、助词、叹词、拟声词)构成,不同词性的词语在文本中所占比例不同。相关的研究也表明,最能表征文本含义的主要是文本中的实词。而在论文型文本中,我们观察到实词中的名词(普通名词n、方位名词nd、机构名词ni、处所名词nl、地名ns、其他专有名词nz)与动词(动词v、副动词vd、名动词vn、动词性语素vg)对文本分类起着决定性作用。为验证这个观察,我们分别对中英文语料集做了如下的统计与实验。对两种语料集中所有文本TF-IDF权重值TOP-1500(TOP-1500表示权重值前1500个特征,基本包括了文本所有的实词)共计1500×17910(搜狗语料集)、1500×17367(复旦语料集)、1500×19997(20Newsgroups语料集)个词语按照类别进行划分、统计,我们发现:在复旦语料集中,不同类别词性为名词与动词的特征所占比例分别是历史类67%、能源类73%、政治类77%、计算机类79%、农业类80%、体育类80%、环境类81%、航空类83%,平均每个类别高权值的特征中有77.5%是由名词和动词构成;在搜狗语料集中,不同类别词性为名词与动词的特征所占比例分别是财经类75%、互联网81%、健康74%、教育79%、军事77%、旅游73%、体育68%、文化74%、招聘80%,平均每个类别高权值的特征中有75.7%是由名词和动词构成;而在英文20Newsgroups语料集中,由于文本经过Porter stemming算法进行词根还原操作之后,每个类别几乎100%都是由名词和动词构成。本发明在实践中发现,无论是用复旦语料集还是用搜狗语料集进行分类实验,F1值与类别里面所含名词动词所占比例基本都是呈线性增加,而英文20Newsgroups语料集几乎都是由名词和动词组成。因此,本发明认为文本的特征向量主要是由具有名词和动词词性的特征来表征,而其他词性的特征相对于名词、动词的重要程度要小一些,并依据此,在Step2,将实词和虚词分成了四个等级,得到词性等级表如表2。
表2特征词性等级表
Figure BDA0001669402270000051
Figure BDA0001669402270000061
在表2中,名词和动词被分为第一等级词性,形容词、数量词和代词都被认定为第二等级词性;副词、介词、连词和助词、叹词、拟声词分别被分入第三、第四等级词性。
3.基于依存关系、词性与语义词典的TF-IDF权重计算方法
在将数据集中的文本特征分别依据依存关系和词性划分等级之后,本发明提出了如下的基于依存关系、词性与语义词典的改进的TF-IDF权重计算方法,即改进的TF-IDF方法,并由改进的TF-IDF方法计算特征权重值的具体步骤如下:
具体步骤如下:
Step2-1依据语义词典分别对数据集中文本的文本特征进行同义词与近义词合并,其中,同义词组使用语义词典中该组的第一个词作为特征代表,而近义词组使用在语义词典中最先搜索到的近义词作为特征代表;
Step2-2根据依存关系的结果,统计文档q中的特征ti在文本中属于表1第k1等级句子成分的次数m1;为以完善依存关系的不足,对名词组合依存关系Ann形成的依存关系链[Ann(C,C1),Ann(C,C2),...,Ann(C,Cn),nsubj(root,C)]进行处理,将“C1C2...CnC”处理为主语,同时将词语“C”、“C1”、“C2”...“Cn”都处理为第1等级的主语特征处理,并对依存关系链[Ann(R,R1),Ann(R,R1),...,Ann(R,Rn),dobj(root,R)]进行处理,将“R1R2...RnR”处理为宾语,同时将词语“R”、“R1”、“R2”...“Rn”都处理为第2等级的宾语特征。
然后,按照本发明提出的如下基于句子成分的词频公式(1),计算出文档q中的特征ti在文本中基于句子成分的权重词频
Figure BDA0001669402270000062
Figure BDA0001669402270000063
其中,λ是一个参数,用于调节句子成分等级间的权重差距,取值范围是[0,1];
Step2-3按照本发明提出的如下基于句子成分的TF-IDF权重公式(2),计算出文档q中的特征ti在语料中基于句子成分的权重
Figure BDA0001669402270000071
Figure BDA0001669402270000072
其中,s表示特征ti所在文本总词数,D表示数据集文本总数,pi表示包含特征ti的文本数;
Step2-4根据词性标注的结果,统计特征ti在文本中属于表2第k2等级词性的次数m2,按照本发明提出的如下基于词性的词频公式(3),计算出文档q中的特征ti在文本中基于词性的权重词频
Figure BDA0001669402270000073
Figure BDA0001669402270000074
其中,β是一个参数,用于调节词性等级间的权重差距,取值范围是[0,1];
Step2-5按照本发明提出的如下基于词性的TF-IDF权重公式(4),计算出文档q中的特征ti在语料中基于词性的权重
Figure BDA0001669402270000075
Figure BDA0001669402270000076
其中,s、D、pi的含义与公式(2)相同;
Step2-6按照本发明提出的如下的加权平均公式(5),计算出文档q中的特征ti在语料中最终的基于TF_IDFq,i的权重wq,i
Figure BDA0001669402270000077
4.基于语义词典的类中心向量聚类法
传统的类中心向量形成的基本过程是首先通过对某一类别训练集中每一个文档的文本向量的特征进行并运算(∪),求出该类别的类中心向量的特征集合,然后对该类别每一个特征在所有文档中的权重进行算术平均,确定该类别类中心向量每一个特征的权重,最后形成该类别的类中心向量。传统的类中心向量的最大缺点就是向量的维数过大,且向量权重过于稀疏,从而造成分类精度不高。本发明通过语义词典分类结点的编码,对类中心向量进行聚类,从而达到对类中心向量降维与减少向量权重的稀疏。
本发明Step3求取基于语义词典的类中心向量具体步骤如下:
Step3-1利用特征在所有文档中的权重的算术平均公式(6),确定类中心向量的初始值,其公式为:
Figure BDA0001669402270000081
其中,
Figure BDA0001669402270000082
表示第k个类别的初始类中心向量,m为初始类中心向量的维度,
Figure BDA0001669402270000083
表示第k类别的初始类中心向量中的第j个特征,
Figure BDA0001669402270000084
为第k类别的初始类中心向量中的第j个特征的初始权重值,Sk为训练集中第k个类别文本总数,
Figure BDA0001669402270000085
表示第k类别中第i文本的第j个特征的权重值;
Step3-2对于使用规则同义词词典进行聚类,且规定第k类别中任意初始特征,若其在同义词词典中为同义词组,则以其直接上位的编号,作为它的聚类特征,若其在同义词词典中为同类词组,则直接以其编码作为它的聚类特征;
对于使用非规则语义词典进行聚类,且规定第k类别中任意初始特征,若其在语义词典中的层次小于或等于6,则以其在语义词典中的同义词组的编码作为其聚类特征,否则以它与其所在类别的初始向量的其余特征在语义词典中的处于第6~9层之间的最大公共上位同义词组的编码作为它的聚类特征,其中,最大公共上位是指位于语义词典第6~9层之间、包含指定初始向量中最多特征词的最近公共上位同义词组;
所述规则同义词词典是指层次小于6、等高且无多重继承的同义词语义词典;典型的如哈尔滨工业大学的《同义词词林(扩展版)》;
所述非规则语义词典是指层次大于9、不等高且具有多重继承的语义词典;典型的如《WordNet》。
Step3-3按照Step3-2对第k个类别的初始类中心向量的所有特征进行聚类,然后按照以下公式(7),得出聚类后的第k个类别的类中心向量
Figure BDA0001669402270000086
Figure BDA0001669402270000087
其中,
Figure BDA0001669402270000088
表示聚类后的第k个类别的类中心向量,n为聚类后的类中心向量的维度且n小于或等于该类别的类中心向量的初始维度m,Tk,j表示聚类后的第k个类别的第j个特征,Wk,j表示聚类后的第k个类别的特征Tk,j的权重,
Figure BDA0001669402270000091
表示对所有参与Tk,j特征聚类的初始特征的权重求和,
Figure BDA0001669402270000092
采用公式(1)~(5)计算。
5.待分类文本特征向量与类中心向量相似度计算
本发明Step4:为测试集中待分类文本选择前TOP-K作为该文本的特征向量。
本发明Step5:将待分类文本的特征向量与各类别的类中心向量进行比对,并计算待分类文本特征向量与各类别的类中心向量之间的向量相似度。
在经过基于依存关系、词性和语义词典的改进的特征选择确定类中心向量和文本特征向量之后,需要对测试集与类中心向量进行相似度计算,由于传统的余弦相似度灵活性较差,本发明提出了新的向量相似度公式。类中心向量是针对整个类别筛选出最具代表性的特征及其权重值来代表该类别,因此类中心向量的维度通常小于文本特征向量,本发明以类中心向量为基准,将待分类文本特征向量中的特征项与类中心向量中的特征项一一作比对,用匹配上的特征权重之和与类中心向量所有权重之和的比值表示该待分类文本与该类的相似度值,
Step5的具体计算过程如下:
Step5-1按照本发明提出的基于依存关系、词性和语义词典的特征选择方法与特征权重的TF-IDF计算方法,确定每一个类别的类中心向量
Figure BDA0001669402270000093
和任意待分类文本的特征向量
Figure BDA0001669402270000094
Step5-2将
Figure BDA0001669402270000095
按权重进行逆排序,并取前θ个权重作为它们的TOP-K向量,其计算公式如下:
Figure BDA0001669402270000096
Figure BDA0001669402270000097
其中,θ表示向量的维度阈值,其取值范围是0≤θ≤3000,
Figure BDA0001669402270000098
表示在θ维度下的第k类的类中心向量,
Figure BDA0001669402270000099
表示在θ维度下待分类文本dx的特征向量,min表示最小值函数,n为聚类后的类中心向量
Figure BDA00016694022700000910
的维度且n小于或等于该类别的类中心向量的初始维度m,n1表示待分类文本dx特征向量
Figure BDA00016694022700000911
的维度,wx,j,wx,j+1分别表示待分类文本dx中特征tx,j和tx,j+1的权重,wx,j,wx,j+1分别采用公式(1)~(5)计算;
Step5-3按照如下的本发明提出的向量相似度公式(10),计算待分类文本dx的特征向量
Figure BDA0001669402270000101
与第K类别的类中心向量
Figure BDA0001669402270000102
的相似度
Figure BDA0001669402270000103
Figure BDA0001669402270000104
其中,
Figure BDA0001669402270000105
表示第k类的类中心向量
Figure BDA0001669402270000106
中特征ti的权重,Stem(CK)表示向量
Figure BDA0001669402270000107
中的特征集合,Stem(dx→CK)表示第k类的类中心向量VCθk中能够被待分类文本dx的特征比对成功的特征集合,对于待分类文本dx中的任意特征tx,i,其与任意的Tk,j∈Stem(CK)的比对规则为:当tx,i与Tk,j在指定的语义词典中的编码相同,或在语义词典中tx,i属于Tk,j的下位词,则称tx,i与Tk,j比对成功,否则它们比对不成功。
本发明作为优选,公式(8)、(9)中的θ为1500-2000。
作为一种具体实施方式,公式(1)、(2)中的λ、(3)、(4)中的β取值,对复旦大学语料集和搜狗语料集而言,取λ=0.8、β=0.6;对20Newsgroups语料集而言,取λ=0.7、β=0.5;公式(8)、(9)中的θ为:在复旦大学中文语料集中取θ=1500,在搜狗中文语料集中取θ=1500,在20Newsgroups英文语料集中取θ=2000。
本发明针对传统TF-IDF方法的语义缺失,提出了基于依存关系、词性和语义词典的TF-IDF特征优化方法;其次,针对类中心向量法的高效率、低精度问题,本发明提出了基于依存关系、词性和语义词典的类中心向量文本分类法。本发明的优点包括:
(1)通过依存关系、词性和语义词典对特征选择进行语义层面的改进,并将语义信息进行量化融入文本特征权重计算中,弥补了基于统计学方法的语义不足,在经过特征选择之后的文本特征向量更能表征文本、反映类别;
(2)本发明通过语义词典分类结点的编码,对类中心向量进行聚类,从而达到对类中心向量降维与减少向量权重的稀疏;
(3)提出了新的文本向量相似度公式,弥补了传统的余弦相似度算法的不足,更大程度地提高了分类效果;
(4)在相似度计算的特征比对过程中引入语义词典,解决了特征流失问题,提高了分类精度。
特征选择算法分别在复旦语料集、搜狗语料集和20Newsgroups语料集上都做了特征选择实验,体现在贝叶斯、KNN、SVM和类中心向量法上的效果都优于基于传统统计的特征选择方法。本发明的基于依存关系、词性和语义词典的类中心向量文本分类法与基于贝叶斯算法、基于KNN算法和基于SVM算法在三个语料集上进行了实验对比,本发明方法分类效果都优于其他方法。
附图说明
图1是本发明的文本分类流程图。
图2是实施例分类系统框架图。
具体实施方式
下面通过具体的实施例进一步详述本发明。
在文本分类的实验过程中,语料集的选择会关系到分类的结果和准确率。因此,为了验证本发明所提出的特征选择方法和改进的分类算法的有效性,本发明的实施例选用了搜狗中文语料集、复旦大学中文语料集、20Newsgroups英文语料集三个语料集。本发明实例选用美国斯坦福大学开发的Stanford Parser句法分析软件进行词性标注与依存关系分析。对于中文语料使用哈工大《同义词词林(扩展版)》语义词典进行类中心向量聚类,对于英文语料库使用美国普林斯顿大学的《WordNet》语义词典进行类中心向量聚类。在本发明的实施例中,公式(8)、(9)中的TOP-K维度阈值θ在1500-2000之间分类效果F1值达到最佳,体现在复旦大学中文语料集中取θ=1500维,在搜狗中文语料集中取θ=1500维,在20Newsgroups英文语料集中取θ=2000维。在本发明的实施例中,对于公式(2)、(4)中的λ、β取值,对于复旦大学语料集和搜狗语料集而言,取λ=0.8、β=0.6;对20Newsgroups语料集而言,取λ=0.7、β=0.5。本发明实施例的机器配置为:Intel(R)Core(TM)i7-6700CPU@3.40GHz+内存8GB。
实施例1
特征选择的实验对比
本实例分别结合依存关系、语义词典和词性的三层特征选择,得出如表3所示的F1值提升幅度的对比结果。
表3特征选择对F1值提升幅度
Figure BDA0001669402270000111
Figure BDA0001669402270000121
由表3可知,当特征选择只基于依存关系时,在复旦语料集、搜狗语料集和20Newsgroups语料集上分别进行贝叶斯、KNN和本发明的文本分类方法的分类实验都表明基于依存关系的特征选择方法具有非常好的分类效果;在基于依存关系特征选择方法引入语义词典之后,相较于传统特征选择提升幅度在1.52%-7.91%之间,语义词典对特征选择的贡献率在0.46%-1.86%之间;当结合词性选择,其分类效果又在以上基础上,F1值提升度在1.26%-4.57%之间。因此,本发明基于依存关系的特征选择方法对提高分类效果起着决定性作用,其次则是词性选择,最后是引入语义词典。综合来说,这些实验比对充分证明了本发明提出的基于依存关系、词性和语义词典的特征选择改进方法的有效性。
实施例2
类中心向量法改进实验对比
根据本发明提出的基于依存关系、词性和语义词典的类中心向量文本分类法,本发明在三个语料集上分别进行了实验,针对本发明方法的三个创新点,与原始的类中心向量法做了实验对比,如表4所示。
表4本发明改进方法与传统类中心向量法对比结果
Figure BDA0001669402270000122
由表4可知,本发明改进方法与类中心向量法进行了三个阶段的对比实验。三个阶段的F1值均有不同程度的提高,且用时越来越短,这主要得益于本发明通过语义词典分类结点的编码,对类中心向量进行聚类,从而达到对类中心向量降维与减少向量权重的稀疏。因此,本发明的基于依存关系、词性和语义词典的类中心向量文本分类法在保证类中心向量快速分类的同时,在分类效果上也得到了一定提高。
实施例3
类中心向量法的分类效率实验对比
文本分类算法有很多,比如贝叶斯算法、KNN算法和类中心向量法等。分别使用贝叶斯、KNN和类中心向量法对经过预处理的三个语料集进行十次交叉验证的分类实验,并统计分类时间以及用F1值评估实验结果,如表5所示。
表5分类算法效率和精度对比
Figure BDA0001669402270000131
由表5可知,在复旦语料集、搜狗语料集和20Newsgroups语料集的分类实验上,本发明的类中心向量法是用时最短的分类方法,其他分类算法均耗时比较长。
实施例4
改进的类中心向量法与其他分类方法的分类精度实验对比
本发明方法也与在相同语料集的其他分类方法进行了分类精度的实验对比。这些对比分类方法主要分为三大方向:基于贝叶斯的分类方法、基于KNN的分类方法和基于SVM的分类方法,将这些方法与本发明方法进行实验对比,得到表6所示的结果。
表6分类算法实验对比
Figure BDA0001669402270000132
Figure BDA0001669402270000141
由表6可知,在不同数据集中,本发明的基于依存关系、词性和语义词典的类中心向量文本分类法的分类效果都优于基于贝叶斯、KNN、SVM的分类算法。

Claims (8)

1.一种基于依存关系、词性和语义词典的类中心向量文本分类方法,包括:
Step1:首先对文本数据集进行预处理并按照9:1的比例分割训练集和测试集,利用句法分析软件,对经过预处理的数据集进行词性标注与依存关系分析,分别得到其词性标注与依存关系;
Step2:分别根据依存等级表和词性等级表确定数据集中文本特征的句子成分等级与词性等级,利用语义词典对文本特征进行同义词替换,按照改进的TF-IDF方法计算特征权重值;
Step3:求取训练集中各类别基于语义词典聚类的类中心向量;
Step4:为测试集中待分类文本选择前TOP-K作为该文本的特征向量;
Step5:将待分类文本的特征向量与各类别的类中心向量进行比对,并计算待分类文本特征向量与各类别的类中心向量之间的向量相似度;
Step6:将待分类文本分入向量相似度值最大的类别;
Step7:转Step4,直到测试集中所有文本分类完毕;
在Step2,依存等级表如表1,词性等级表如表2;
表1
Figure FDA0003158906160000011
Figure FDA0003158906160000021
表2
Figure FDA0003158906160000022
所述改进的TF-IDF方法,是基于依存关系、词性与语义词典的改进的TF-IDF权重计算方法,改进的TF-IDF方法和特征权重值计算过程为:
Step2-1依据语义词典分别对数据集中文本的文本特征进行同义词与近义词合并,其中,同义词组使用语义词典中该组的第一个词作为特征代表,而近义词组使用在语义词典中最先搜索到的近义词作为特征代表;
Step2-2根据依存关系的结果,统计文档q中的特征ti在文本中属于表1第k1等级句子成分的次数m1,按照公式(1)计算出文档q中的特征ti在文本中基于句子成分的权重词频
Figure FDA0003158906160000031
Figure FDA0003158906160000032
其中,λ是一个参数,用于调节句子成分等级间的权重差距,取值范围是[0,1];
Step2-3按照公式(2)计算出文档q中的特征ti在语料中基于句子成分的权重
Figure FDA0003158906160000033
Figure FDA0003158906160000034
其中,s表示特征ti所在文本总词数,D表示数据集文本总数,pi表示包含特征ti的文本数;
Step2-4根据词性标注的结果,统计特征ti在文本中属于表2第k2等级词性的次数m2,按照公式(3)计算出文档q中的特征ti在文本中基于词性的权重词频
Figure FDA0003158906160000035
Figure FDA0003158906160000036
其中,β是一个参数,用于调节词性等级间的权重差距,取值范围是[0,1];
Step2-5按照公式(4)计算出文档q中的特征ti在语料中基于词性的权重
Figure FDA0003158906160000037
Figure FDA0003158906160000038
其中,s、D、pi的含义与公式(2)相同;
Step2-6按照公式(5)计算出文档q中的特征ti在语料中最终的基于TF_IDFq,i的权重wq,i
Figure FDA0003158906160000041
所述句法分析软件选自:美国斯坦福大学开发的Stanford Parser或哈尔滨工业大学的《语言云》;
所述语义词典为现有的可计算同义词与常识词典;
所述语料是指分类所使用的文本数据集,选自复旦大学语料集、搜狗中文语料集或20Newsgroups英文语料集。
2.根据权利要求1所述的文本分类方法,其特征在于:在Step1,所述预处理包括对中文语料的分词或对英文语料的词根还原、删除停用词、去除低频词三个环节。
3.根据权利要求1所述的文本分类方法,其特征在于:在Step2-2,对名词组合依存关系Ann形成的依存关系链[Ann(C,C1),Ann(C,C2),...,Ann(C,Cn),nsubj(root,C)]进行处理,将“C1C2...CnC”处理为主语,同时将词语“C”、“C1”、“C2”...“Cn”都处理为第1等级的主语特征处理,并对依存关系链[Ann(R,R1),Ann(R,R1),...,Ann(R,Rn),dobj(root,R)]进行处理,将“R1R2...RnR”处理为宾语,同时将词语“R”、“R1”、“R2”...“Rn”都处理为第2等级的宾语特征,其中nsubj(root,C)表示名词主语,dobj(root,R)表示直接宾语,root表示中心词。
4.根据权利要求1所述的文本分类方法,其特征在于:在Step3,具体步骤如下:
Step3-1利用公式(6),确定类中心向量的初始值,其公式为:
Figure FDA0003158906160000042
其中,
Figure FDA0003158906160000051
表示第k个类别的类中心向量的初始值,m为初始类中心向量的维度,
Figure FDA0003158906160000052
表示第k类别的初始类中心向量中的第j个特征,
Figure FDA0003158906160000053
为第k类别的初始类中心向量中的第j个特征的初始权重值,Sk为训练集中第k个类别文本总数,
Figure FDA0003158906160000054
表示第k类别中第i文本的第j个特征的权重值;
Step3-2对于使用规则同义词词典进行聚类,且规定第k类别中任意初始特征,若其在同义词词典中为同义词组,则以其直接上位的编号,作为它的聚类特征,若其在同义词词典中为同类词组,则直接以其编码作为它的聚类特征;
对于使用非规则语义词典进行聚类,且规定第k类别中任意初始特征,若其在语义词典中的层次小于或等于6,则以其在语义词典中的同义词组的编码作为其聚类特征,否则以它与其所在类别的初始向量的其余特征在语义词典中的处于第6~9层之间的最大公共上位同义词组的编码作为它的聚类特征,其中,最大公共上位是指位于语义词典第6~9层之间、包含指定初始向量中最多特征词的最近公共上位同义词组;
所述规则同义词词典是指层次小于6、等高且无多重继承的同义词语义词典;
所述非规则语义词典是指层次大于9、不等高且具有多重继承的语义词典;
Step3-3按照Step3-2对第k个类别的初始类中心向量的所有特征进行聚类,然后按照以下公式(7),得出聚类后的第k个类别的类中心向量
Figure FDA0003158906160000055
Figure FDA0003158906160000056
其中,
Figure FDA0003158906160000057
表示聚类后的第k个类别的类中心向量,n为聚类后的类中心向量的维度且n小于或等于该类别的类中心向量的初始维度m,Tk,j表示聚类后的第k个类别的第j个特征,Wk,j表示聚类后的第k个类别的特征Tk,j的权重,
Figure FDA0003158906160000058
表示对所有参与Tk,j特征聚类的初始特征的权重求和,
Figure FDA0003158906160000061
采用公式(1)~(5)计算。
5.根据权利要求1所述的文本分类方法,其特征在于:Step5的具体计算过程如下:
Step5-1确定每一个类别的类中心向量
Figure FDA0003158906160000062
和任意待分类文本的特征向量
Figure FDA0003158906160000063
Step5-2将
Figure FDA0003158906160000064
按权重进行逆排序,并取前θ个权重作为它们的TOP-K向量,其计算公式如下:
Figure FDA0003158906160000065
Figure FDA0003158906160000066
其中,θ表示向量的维度阈值,其取值范围是0≤θ≤3000,
Figure FDA0003158906160000067
表示在θ维度下的第k类的类中心向量,
Figure FDA0003158906160000068
表示在θ维度下待分类文本dx的特征向量,min表示最小值函数,n为聚类后的类中心向量
Figure FDA0003158906160000069
的维度且n小于或等于该类别的类中心向量的初始维度m,n1表示待分类文本dx特征向量
Figure FDA00031589061600000610
的维度,wx,j,wx,j+1分别表示待分类文本dx中特征tx,j和tx,j+1的权重,wx,j,wx,j+1分别采用公式(1)~(5)计算;
Step5-3按照公式(10),计算待分类文本dx的特征向量
Figure FDA00031589061600000611
与第k类别的类中心向量
Figure FDA00031589061600000612
的相似度
Figure FDA00031589061600000613
Figure FDA00031589061600000614
其中,
Figure FDA00031589061600000615
表示第k类的类中心向量
Figure FDA00031589061600000616
中特征ti的权重,Stem(CK)表示向量
Figure FDA00031589061600000617
中的特征集合,Stem(dx→CK)表示第k类的类中心向量
Figure FDA00031589061600000618
中能够被待分类文本dx的特征比对成功的特征集合,对于待分类文本dx中的任意特征tx,i,其与任意的Tk,j∈Stem(CK)的比对规则为:当tx,i与Tk,j在指定的语义词典中的编码相同,或在语义词典中tx,i属于Tk,j的下位词,则称tx,i与Tk,j比对成功,否则它们比对不成功。
6.根据权利要求5所述的文本分类方法,其特征在于:公式(8)、(9)中的θ为1500-2000。
7.根据权利要求5或6所述的文本分类方法,其特征在于:公式(8)、(9)中的θ为:在复旦大学中文语料集中取θ=1500,在搜狗中文语料集中取θ=1500,在20Newsgroups英文语料集中取θ=2000。
8.根据权利要求1所述的文本分类方法,其特征在于:公式(1)、(2)中的λ、(3)、(4)中的β取值,对复旦大学语料集和搜狗语料集而言,取λ=0.8、β=0.6;对20Newsgroups英文语料集而言,取λ=0.7、β=0.5。
CN201810496803.9A 2018-05-22 2018-05-22 基于依存关系、词性和语义词典的类中心向量文本分类法 Active CN108763402B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810496803.9A CN108763402B (zh) 2018-05-22 2018-05-22 基于依存关系、词性和语义词典的类中心向量文本分类法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810496803.9A CN108763402B (zh) 2018-05-22 2018-05-22 基于依存关系、词性和语义词典的类中心向量文本分类法

Publications (2)

Publication Number Publication Date
CN108763402A CN108763402A (zh) 2018-11-06
CN108763402B true CN108763402B (zh) 2021-08-27

Family

ID=64007659

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810496803.9A Active CN108763402B (zh) 2018-05-22 2018-05-22 基于依存关系、词性和语义词典的类中心向量文本分类法

Country Status (1)

Country Link
CN (1) CN108763402B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766424B (zh) * 2018-12-29 2021-11-19 安徽省泰岳祥升软件有限公司 一种阅读理解模型训练数据的过滤方法及装置
CN109815396B (zh) * 2019-01-16 2021-09-21 北京搜狗科技发展有限公司 搜索词权重确定方法及装置
CN109977418B (zh) * 2019-04-09 2023-03-31 南瑞集团有限公司 一种基于语义向量的短文本相似性度量方法
CN110097096B (zh) * 2019-04-16 2023-04-25 天津大学 一种基于tf-idf矩阵和胶囊网络的文本分类方法
CN110059318B (zh) * 2019-04-18 2023-08-25 海道(深圳)教育科技有限责任公司 基于维基百科与WordNet的论述题自动评卷方法
CN110929529B (zh) * 2019-11-29 2023-04-18 长沙理工大学 一种基于同义词词林语义相似度的文本聚类方法
CN111177371B (zh) * 2019-12-05 2023-03-21 腾讯科技(深圳)有限公司 一种分类方法和相关装置
CN111984789B (zh) * 2020-08-26 2024-01-30 普信恒业科技发展(北京)有限公司 一种语料分类方法、装置及服务器
CN112528001B (zh) * 2020-12-23 2023-07-25 北京百度网讯科技有限公司 一种信息查询方法、装置及电子设备
CN112818661B (zh) * 2021-01-28 2021-10-08 中国科学院科技战略咨询研究院 一种专利技术关键词非监督提取方法
CN114707489B (zh) * 2022-03-29 2023-08-18 马上消费金融股份有限公司 标注数据集获取方法、装置、电子设备及存储介质
CN115221871B (zh) * 2022-06-24 2024-02-20 毕开龙 多特征融合的英文科技文献关键词提取方法
CN116894427B (zh) * 2023-09-08 2024-02-27 联通在线信息科技有限公司 一种中英文信息融合的数据分级方法、服务器及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572892A (zh) * 2014-12-24 2015-04-29 中国科学院自动化研究所 一种基于循环卷积网络的文本分类方法
CN106202395A (zh) * 2016-07-11 2016-12-07 上海智臻智能网络科技股份有限公司 文本聚类方法和装置
CN106294845A (zh) * 2016-08-19 2017-01-04 清华大学 基于权重学习和多特征抽取的多情绪分类方法及装置
EP3012746A4 (en) * 2013-06-19 2017-02-15 National Institute of Information and Communications Technology Text matching device and method, and text classification device and method
US9633007B1 (en) * 2016-03-24 2017-04-25 Xerox Corporation Loose term-centric representation for term classification in aspect-based sentiment analysis
CN107066441A (zh) * 2016-12-09 2017-08-18 北京锐安科技有限公司 一种计算词性相关性的方法及装置
CN107180023A (zh) * 2016-03-11 2017-09-19 科大讯飞股份有限公司 一种文本分类方法及系统
CN107193959A (zh) * 2017-05-24 2017-09-22 南京大学 一种面向纯文本的企业实体分类方法
WO2018077401A1 (en) * 2016-10-26 2018-05-03 Swiss Reinsurance Company Ltd. Data extraction engine for structured, semi-structured and unstructured data with automated labeling and classification of data patterns or data elements therein, and corresponding method thereof

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080249764A1 (en) * 2007-03-01 2008-10-09 Microsoft Corporation Smart Sentiment Classifier for Product Reviews

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3012746A4 (en) * 2013-06-19 2017-02-15 National Institute of Information and Communications Technology Text matching device and method, and text classification device and method
CN104572892A (zh) * 2014-12-24 2015-04-29 中国科学院自动化研究所 一种基于循环卷积网络的文本分类方法
CN107180023A (zh) * 2016-03-11 2017-09-19 科大讯飞股份有限公司 一种文本分类方法及系统
US9633007B1 (en) * 2016-03-24 2017-04-25 Xerox Corporation Loose term-centric representation for term classification in aspect-based sentiment analysis
CN106202395A (zh) * 2016-07-11 2016-12-07 上海智臻智能网络科技股份有限公司 文本聚类方法和装置
CN106294845A (zh) * 2016-08-19 2017-01-04 清华大学 基于权重学习和多特征抽取的多情绪分类方法及装置
WO2018077401A1 (en) * 2016-10-26 2018-05-03 Swiss Reinsurance Company Ltd. Data extraction engine for structured, semi-structured and unstructured data with automated labeling and classification of data patterns or data elements therein, and corresponding method thereof
CN107066441A (zh) * 2016-12-09 2017-08-18 北京锐安科技有限公司 一种计算词性相关性的方法及装置
CN107193959A (zh) * 2017-05-24 2017-09-22 南京大学 一种面向纯文本的企业实体分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Improvement and Application of TF•IDF Method Based on Text Classification;Qiaoyan Kuang 等;《2010 International Conference on Internet Technology and Applications》;20100909;1-4 *
中文文本分类中利用依存关系的实验研究;王鹏 等;《计算机工程与应用》;20100121;第46卷(第3期);131-133 *
基于改进TF-IDF特征提取的文本分类模型研究;周源 等;《情报科学》;20170505;第35卷(第5期);111-118 *

Also Published As

Publication number Publication date
CN108763402A (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
CN108763402B (zh) 基于依存关系、词性和语义词典的类中心向量文本分类法
Siddiqi et al. Keyword and keyphrase extraction techniques: a literature review
Wartena et al. Topic detection by clustering keywords
Zhao et al. Incorporating linguistic constraints into keyphrase generation
Xiong et al. Towards better text understanding and retrieval through kernel entity salience modeling
Athar Sentiment analysis of scientific citations
CN101634983A (zh) 一种文本分类方法和装置
Sabuna et al. Summarizing Indonesian text automatically by using sentence scoring and decision tree
Haralambous et al. Text classification using association rules, dependency pruning and hyperonymization
Bhatia et al. Trends in extractive and abstractive techniques in text summarization
Ma et al. NJUST@ CLSciSumm-18.
Peng et al. Document Classifications based on Word Semantic Hierarchies.
Zhu et al. Improved information gain feature selection method for Chinese text classification based on word embedding
Gao et al. Sentiment classification for stock news
Tasharofi et al. Evaluation of statistical part of speech tagging of Persian text
Manojkumar et al. An experimental investigation on unsupervised text summarization for customer reviews
Silvia et al. Summarizing text for indonesian language by using latent dirichlet allocation and genetic algorithm
Bahloul et al. ArA* summarizer: An Arabic text summarization system based on subtopic segmentation and using an A* algorithm for reduction
Mullick et al. A graphical framework to detect and categorize diverse opinions from online news
El-Barbary Arabic news classification using field association words
Maylawati et al. Feature-based approach and sequential pattern mining to enhance quality of Indonesian automatic text summarization
Austin et al. Community topic: topic model inference by consecutive word community discovery
Keyan et al. Multi-document and multi-lingual summarization using neural networks
Nagaraj et al. A novel semantic level text classification by combining NLP and Thesaurus concepts
Li et al. Keyphrase extraction and grouping based on association rules

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220901

Address after: Room 1111, Building 1, Wanting Building, Labor Community, Xixiang Street, Bao'an District, Shenzhen City, Guangdong Province, 518101

Patentee after: Shenzhen Occupy Information Technology Co.,Ltd.

Patentee after: Fuzhou Qilian Information Consulting Co.,Ltd.

Address before: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Patentee before: Yami Technology (Guangzhou) Co.,Ltd.

Effective date of registration: 20220901

Address after: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Patentee after: Yami Technology (Guangzhou) Co.,Ltd.

Address before: 541004 No. 15 Yucai Road, Qixing District, Guilin, the Guangxi Zhuang Autonomous Region

Patentee before: Guangxi Normal University

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240419

Address after: Room 05-5, 8th Floor, Hesheng Industrial and Commercial Building, No. 89 Fuxin Middle Road, Wangzhuang Street, Jin'an District, Fuzhou City, Fujian Province, 350011

Patentee after: Fuzhou Qilian Information Consulting Co.,Ltd.

Country or region after: China

Address before: Room 1111, Building 1, Wanting Building, Labor Community, Xixiang Street, Bao'an District, Shenzhen City, Guangdong Province, 518101

Patentee before: Shenzhen Occupy Information Technology Co.,Ltd.

Country or region before: China

Patentee before: Fuzhou Qilian Information Consulting Co.,Ltd.

TR01 Transfer of patent right