CN108763402B

CN108763402B - 基于依存关系、词性和语义词典的类中心向量文本分类法

Info

Publication number: CN108763402B
Application number: CN201810496803.9A
Authority: CN
Inventors: 朱新华; 徐庆婷; 吴田俊
Original assignee: Guangxi Normal University
Current assignee: Fuzhou Qilian Information Consulting Co ltd
Priority date: 2018-05-22
Filing date: 2018-05-22
Publication date: 2021-08-27
Anticipated expiration: 2038-05-22
Also published as: CN108763402A

Abstract

本发明涉及自然语言处理中的文本分类，具体是一种基于依存关系、词性和语义词典的类中心向量文本分类法。针对基于统计学的特征选择算法的语义缺陷，本发明引入依存关系、语义词典、词性对文本特征进行优化与聚类，提出了改进的权重计算公式，进而提出了改进的类中心向量文本分类方法。本发明的文本分类法同时兼顾了传统类中心向量法的高分类效率与K最近邻算法的高分类精度二方面的优点，可广泛应用于各类分类系统中。

Description

基于依存关系、词性和语义词典的类中心向量文本分类法

技术领域

本发明涉及自然语言处理中的文本分类，具体是一种基于依存关系、词性和语义词典的类中心向量文本分类法。

背景技术

随着计算机技术的飞速发展，特别是在“互联网+”的时代背景下，诸如文档、图片、音频和视频等网络信息以指数形式爆炸性增长，日常生活中每天都会产生大量的以电子文件形式存在的数据，人们如何从海量数据中获取想要的信息是当前研究的热点和难点，文本分类是其中的一个重要研究方向。

文本分类是文本处理技术里的一个重要研究方向，始于20世纪50年代，它是集语言学、数学、计算机科学和认知科学等于一体的综合性技术。20世纪50年代末，美国IBM公司的技术员H.P.Luhn将词频概念引入自动文本分类领域，主要思想是利用词语在文本中出现的频率来决定词语对于该文本区别于其他文本的重要程度，标志着自动文本分类阶段的开始。

常见的文本分类算法有贝叶斯分类算法、K最近邻算法(KNN)、支持向量机(SVM)、类中心向量算法。贝叶斯算法虽原理简单、易于实现，但它是基于一个假设，只有当文本数据集是相互独立的，分类准确率才会高，因而被用于文本分类有一定局限性；K最近邻算法分类准确率很高，但分类效率非常低，面对小规模语料集有比较好的分类效果，但遇到大规模语料集就会出现分类时间较长的问题；支持向量机由于其泛化能力很强，广泛适用于小样本语料集，而在大规模语料集的分类实验上，支持向量机的分类效果并不太好；类中心向量法主要优势是在分类实验之前就对语料集进行了大幅度的削减，因而分类实验计算量较小，分类效率很高，但其向量的维数过大，且向量权重过于稀疏，从而造成分类精度不高。本发明首先通过依存关系、词性和语义词典对特征选择进行语义层面的改进，并将语义信息进行量化融入文本特征权重计算中，然后通过语义词典分类结点的编码，对类中心向量进行聚类，从而达到对类中心向量降维与减少向量权重的稀疏，最终实现了一种基于依存关系、词性和语义词典的类中心向量文本分类法，该文本分类法同时兼顾了传统类中心向量法的高分类效率与KNN的高分类精度二方面的优点。

发明内容

为了提高文本分类精度、效率和性能，本发明引入依存关系、语义词典、词性对文本特征进行优化与聚类，提出了改进的权重计算公式，本发明提出了一种基于依存关系、词性和语义词典的类中心向量文本分类法。本发明充分利用句子依存关系不受成分的物理位置影响，依存关系分析准确率高的特点，使用国际上最为流行的Stanford Parser语法解析工具对文本进行句法分析，得出句子语法成分之间的依存关系。针对基于统计学的特征选择算法的语义缺陷，引入依存关系、语义词典、词性对文本特征进行优化，提出了改进的权重计算公式；然后通过语义词典分类结点的编码，对类中心向量进行聚类，从而达到对类中心向量降维与减少向量权重的稀疏，最终实现了一种基于依存关系、词性和语义词典的类中心向量文本分类法。本发明的文本分类法同时兼顾了传统类中心向量法的高分类效率与K最近邻算法的高分类精度二方面的优点，可广泛应用于各类分类系统中。

本发明的方法为：

首先对数据集进行预处理并按照9:1的比例分割训练集和测试集，利用美国斯坦福大学开发的Stanford Parser句法分析软件，对经过预处理的训练集进行词性标注与依存关系分析；根据本发明提出的基于依存关系、词性与语义词典的IT-IDF计算公式计算相应特征的权重；然后采用本发明提出的基于语义词典的类中心向量聚类方法，在每个类别的训练集中筛选出合适的TOP-K作为该类别的类中心向量；最后按照以下步骤对测试集中待分类文本进行分类。

具体包括：

Step1：首先对文本数据集进行预处理并按照9:1的比例分割训练集和测试集，利用句法分析软件，对经过预处理的数据集进行词性标注与依存关系分析，分别得到其词性标注与依存关系；

Step2：分别根据依存等级表和词性等级表确定数据集中文本特征的句子成分等级与词性等级，利用语义词典对文本特征进行同义词替换，按照改进的TF-IDF方法计算特征权重值；

Step3：求取训练集中各类别基于语义词典聚类的类中心向量；

Step4：为测试集中待分类文本选择前TOP-K作为该文本的特征向量；

Step5：将待分类文本的特征向量与各类别的类中心向量进行比对，并计算待分类文本特征向量与各类别的类中心向量之间的向量相似度；

Step6：将待分类文本分入向量相似度值最大的类别；

Step7：转Step4，直到测试集中所有文本分类完毕。

所述句法分析软件选自：美国斯坦福大学开发的Stanford Parser或哈尔滨工业大学的《语言云》。

所述语义词典为现有的可计算同义词与常识词典。

本发明详述如下。

1.对数据集进行预处理

要进行文本分类实验，首先要做的工作是将文本转化为适用于表示和分类的干净的词序列，这个工作通过预处理来完成。本发明在Step1所述的预处理包括对中文语料的分词或对英文语料的词根还原、删除停用词、去除低频词三个环节。

2.基于依存关系、词性的特征选择方法

基于依存关系的句法分析可以反映出句子中各成分的语义关系，不受成分的物理位置影响，如今被广泛应用于分析句子结构之中。首先，本发明根据词语在句子中与谓词的依存关系的不同，决定词语对句子、文本甚至类别的重要程度，也即根据词语所代表的句子成分决定词语对文本的重要程度。本发明在Step2，根据词语与谓词的依存关系决定其在句子中的成分，并根据句子成分对于句子的重要程度将句子成分及其对应的依存关系划分成8大等级，得到依存等级表如表1。

表1

在一个句子中，主语作为谓语的施事，是最为重要的成分，因而本发明将所有主语成分的特征都归为第1等级特征；宾语作为谓语的受事，为次重要成分，所有宾语成分的特征都归为第2等级特征；所有名词性修饰成分都归为第2等级特征；谓语是一个句子的核心，但一般是动词，在依存句法中是核心关系，动词有普遍适用性，故对文本分类的重要性不如名词，所有谓词成分的词语归为第4等级特征；定中关系和状中关系一般是形容词、副词，作为句子成分是定语、补语、状语三大类，分别归为第5等级、第6等级和第7等级特征；除此之外，还有诸如Mod(修饰语)、Pass(被动修饰)、Tmod(时间修饰)、Amod(形容词修饰)与Advmod(副词修饰)的词语统统归为第8等级特征。

反映在中文复旦大学语料文本C19-Computer1841中：“计算机”在全文一共出现3次，但3次都是作为第一等级特征；“工商”和“企业”分别有3次和5次作为第一等级特征，分别有2次和11次作为第二等级特征，其余全部归为第三等级特征。反映在搜狗语料代号为22的文本中：“美元”在文本中虽然出现过27次，但均在句子中充当第二等级特征，也即是以次重要句子成分出现，权重应该适当降低，“利润率”明显不能很好表征互联网类别，但在文本中出现过6次，3次是作为第6等级特征，另外3次是作为第2等级特征；“流量”、“网站”等具有很好类别区分能力的特征，虽然在文本中出现的次数很少，传统TF-IDF权重值很低，但都是作为第一等级特征出现，其特征权重应当适当提升才更合理，如其共现的句子依存关系：[nsubj(业务，网站)，cop(业务，是)，nummod(利润率，一项)，amod(利润率，高)，assmod(业务，利润率)，case(利润率，的)，root(ROOT，业务)]，在这个依存关系中，nsubj(业务，网站)表示“网站”是作为主语，也即是第一等级特征，assmod(业务，利润率)表示关联修饰，也即是“利润率”是用来修饰“业务”的，也即是“利润率”在文本中是作为第六等级特征。

反映在英文20Newsgroups语料集“rec.sport.baseball”类别的101666号文本中：“science”总共出现10次，其中有3次作为第二等级特征，4次作为第三等级特征，其余作为第五等级特征；“computer”、“contribution”分别都出现8次、6次，也都有分别5次和3次是作为第二等级特征；而“player”都是作为第一等级特征出现，“basketball”也是如此。而且在复旦大学语料文本中，“工商”与“企业”通过名词组合依存关系nn(企业，工商)共同组成名词短语“工商企业”，且共同作为短语性主语和短语性宾语，又如：[nn(系统，工商)，nn(系统，企业)，nn(系统，IC)，nn(系统，卡)，nsubj(核心，系统)]，在依存关系分析中，仅“系统”是主语，实际上短语“工商企业IC卡系统”都是句子的主语；依存分析[nn(工商，企业)，dobj(发行，工商)]表示“工商”是宾语，实际上短语“工商企业”是句子的宾语。因此，本发明将类似于[nn(C,C₁)，nn(C,C₂)，...，nn(C,C_n)，nsubj(root,C)]或[nn(R,R₁)，nn(R,R₁)，...，nn(R,R_n)，dobj(root,R)]形式的词语链条进行处理，将“C₁C₂...C_nC”作为主语，也即是将词语“C”、“C₁”、“C₂”、...、“C_n”都作为第1等级特征处理，将“R₁R₂...R_nR”作为宾语，也即是将词语“R”、“R₁”、“R₂”、...、“R_n”都作为第2等级特征，以完善依存关系的不足。

所述语料是指分类所使用的文本数据集。

此外，本发明在对特征词性的统计中，发现了这一现象：文本是由实词(名词、动词、形容词、数量词、代词)和虚词(副词、介词、连词、助词、叹词、拟声词)构成，不同词性的词语在文本中所占比例不同。相关的研究也表明，最能表征文本含义的主要是文本中的实词。而在论文型文本中，我们观察到实词中的名词(普通名词n、方位名词nd、机构名词ni、处所名词nl、地名ns、其他专有名词nz)与动词(动词v、副动词vd、名动词vn、动词性语素vg)对文本分类起着决定性作用。为验证这个观察，我们分别对中英文语料集做了如下的统计与实验。对两种语料集中所有文本TF-IDF权重值TOP-1500(TOP-1500表示权重值前1500个特征，基本包括了文本所有的实词)共计1500×17910(搜狗语料集)、1500×17367(复旦语料集)、1500×19997(20Newsgroups语料集)个词语按照类别进行划分、统计，我们发现：在复旦语料集中，不同类别词性为名词与动词的特征所占比例分别是历史类67％、能源类73％、政治类77％、计算机类79％、农业类80％、体育类80％、环境类81％、航空类83％，平均每个类别高权值的特征中有77.5％是由名词和动词构成；在搜狗语料集中，不同类别词性为名词与动词的特征所占比例分别是财经类75％、互联网81％、健康74％、教育79％、军事77％、旅游73％、体育68％、文化74％、招聘80％，平均每个类别高权值的特征中有75.7％是由名词和动词构成；而在英文20Newsgroups语料集中，由于文本经过Porter stemming算法进行词根还原操作之后，每个类别几乎100％都是由名词和动词构成。本发明在实践中发现，无论是用复旦语料集还是用搜狗语料集进行分类实验，F₁值与类别里面所含名词动词所占比例基本都是呈线性增加，而英文20Newsgroups语料集几乎都是由名词和动词组成。因此，本发明认为文本的特征向量主要是由具有名词和动词词性的特征来表征，而其他词性的特征相对于名词、动词的重要程度要小一些，并依据此，在Step2，将实词和虚词分成了四个等级，得到词性等级表如表2。

表2特征词性等级表

在表2中，名词和动词被分为第一等级词性，形容词、数量词和代词都被认定为第二等级词性；副词、介词、连词和助词、叹词、拟声词分别被分入第三、第四等级词性。

3.基于依存关系、词性与语义词典的TF-IDF权重计算方法

在将数据集中的文本特征分别依据依存关系和词性划分等级之后，本发明提出了如下的基于依存关系、词性与语义词典的改进的TF-IDF权重计算方法，即改进的TF-IDF方法，并由改进的TF-IDF方法计算特征权重值的具体步骤如下：

具体步骤如下：

Step2-1依据语义词典分别对数据集中文本的文本特征进行同义词与近义词合并，其中，同义词组使用语义词典中该组的第一个词作为特征代表，而近义词组使用在语义词典中最先搜索到的近义词作为特征代表；

Step2-2根据依存关系的结果，统计文档q中的特征t_i在文本中属于表1第k₁等级句子成分的次数m₁；为以完善依存关系的不足，对名词组合依存关系Ann形成的依存关系链[Ann(C,C1)，Ann(C,C2)，...，Ann(C,Cn)，nsubj(root,C)]进行处理，将“C1C2...CnC”处理为主语，同时将词语“C”、“C1”、“C2”...“Cn”都处理为第1等级的主语特征处理，并对依存关系链[Ann(R,R1)，Ann(R,R1)，...，Ann(R,Rn)，dobj(root,R)]进行处理，将“R1R2...RnR”处理为宾语，同时将词语“R”、“R1”、“R2”...“Rn”都处理为第2等级的宾语特征。

然后，按照本发明提出的如下基于句子成分的词频公式(1)，计算出文档q中的特征t_i在文本中基于句子成分的权重词频

其中，λ是一个参数，用于调节句子成分等级间的权重差距，取值范围是[0,1]；

Step2-3按照本发明提出的如下基于句子成分的TF-IDF权重公式(2)，计算出文档q中的特征t_i在语料中基于句子成分的权重

其中，s表示特征ti所在文本总词数，D表示数据集文本总数，p_i表示包含特征t_i的文本数；

Step2-4根据词性标注的结果，统计特征t_i在文本中属于表2第k₂等级词性的次数m₂，按照本发明提出的如下基于词性的词频公式(3)，计算出文档q中的特征t_i在文本中基于词性的权重词频

其中，β是一个参数，用于调节词性等级间的权重差距，取值范围是[0,1]；

Step2-5按照本发明提出的如下基于词性的TF-IDF权重公式(4)，计算出文档q中的特征t_i在语料中基于词性的权重

其中，s、D、p_i的含义与公式(2)相同；

Step2-6按照本发明提出的如下的加权平均公式(5)，计算出文档q中的特征t_i在语料中最终的基于TF_IDF_q,i的权重w_q,i：

4.基于语义词典的类中心向量聚类法

传统的类中心向量形成的基本过程是首先通过对某一类别训练集中每一个文档的文本向量的特征进行并运算(∪)，求出该类别的类中心向量的特征集合，然后对该类别每一个特征在所有文档中的权重进行算术平均，确定该类别类中心向量每一个特征的权重，最后形成该类别的类中心向量。传统的类中心向量的最大缺点就是向量的维数过大，且向量权重过于稀疏，从而造成分类精度不高。本发明通过语义词典分类结点的编码，对类中心向量进行聚类，从而达到对类中心向量降维与减少向量权重的稀疏。

本发明Step3求取基于语义词典的类中心向量具体步骤如下：

Step3-1利用特征在所有文档中的权重的算术平均公式(6)，确定类中心向量的初始值，其公式为：

其中，

表示第k个类别的初始类中心向量，m为初始类中心向量的维度，

表示第k类别的初始类中心向量中的第j个特征，

为第k类别的初始类中心向量中的第j个特征的初始权重值，S_k为训练集中第k个类别文本总数，

表示第k类别中第i文本的第j个特征的权重值；

Step3-2对于使用规则同义词词典进行聚类，且规定第k类别中任意初始特征，若其在同义词词典中为同义词组，则以其直接上位的编号，作为它的聚类特征，若其在同义词词典中为同类词组，则直接以其编码作为它的聚类特征；

对于使用非规则语义词典进行聚类，且规定第k类别中任意初始特征，若其在语义词典中的层次小于或等于6，则以其在语义词典中的同义词组的编码作为其聚类特征，否则以它与其所在类别的初始向量的其余特征在语义词典中的处于第6～9层之间的最大公共上位同义词组的编码作为它的聚类特征，其中，最大公共上位是指位于语义词典第6～9层之间、包含指定初始向量中最多特征词的最近公共上位同义词组；

所述规则同义词词典是指层次小于6、等高且无多重继承的同义词语义词典；典型的如哈尔滨工业大学的《同义词词林(扩展版)》；

所述非规则语义词典是指层次大于9、不等高且具有多重继承的语义词典；典型的如《WordNet》。

Step3-3按照Step3-2对第k个类别的初始类中心向量的所有特征进行聚类，然后按照以下公式(7)，得出聚类后的第k个类别的类中心向量

其中，

表示聚类后的第k个类别的类中心向量，n为聚类后的类中心向量的维度且n小于或等于该类别的类中心向量的初始维度m，T_k,j表示聚类后的第k个类别的第j个特征，W_k,_j表示聚类后的第k个类别的特征T_k,j的权重，

表示对所有参与T_k,j特征聚类的初始特征的权重求和，

采用公式(1)～(5)计算。

5.待分类文本特征向量与类中心向量相似度计算

本发明Step4：为测试集中待分类文本选择前TOP-K作为该文本的特征向量。

本发明Step5：将待分类文本的特征向量与各类别的类中心向量进行比对，并计算待分类文本特征向量与各类别的类中心向量之间的向量相似度。

在经过基于依存关系、词性和语义词典的改进的特征选择确定类中心向量和文本特征向量之后，需要对测试集与类中心向量进行相似度计算，由于传统的余弦相似度灵活性较差，本发明提出了新的向量相似度公式。类中心向量是针对整个类别筛选出最具代表性的特征及其权重值来代表该类别，因此类中心向量的维度通常小于文本特征向量，本发明以类中心向量为基准，将待分类文本特征向量中的特征项与类中心向量中的特征项一一作比对，用匹配上的特征权重之和与类中心向量所有权重之和的比值表示该待分类文本与该类的相似度值，

Step5的具体计算过程如下：

Step5-1按照本发明提出的基于依存关系、词性和语义词典的特征选择方法与特征权重的TF-IDF计算方法，确定每一个类别的类中心向量

和任意待分类文本的特征向量

Step5-2将

按权重进行逆排序，并取前θ个权重作为它们的TOP-K向量，其计算公式如下：

其中，θ表示向量的维度阈值，其取值范围是0≤θ≤3000，

表示在θ维度下的第k类的类中心向量，

表示在θ维度下待分类文本d_x的特征向量，min表示最小值函数，n为聚类后的类中心向量

的维度且n小于或等于该类别的类中心向量的初始维度m，n1表示待分类文本d_x特征向量

的维度，w_x,j，w_x,j+1分别表示待分类文本d_x中特征t_x,j和t_x,j+1的权重，w_x,j，w_x,j+1分别采用公式(1)～(5)计算；

Step5-3按照如下的本发明提出的向量相似度公式(10)，计算待分类文本d_x的特征向量

与第K类别的类中心向量

的相似度

其中，

表示第k类的类中心向量

中特征t_i的权重，Stem(C_K)表示向量

中的特征集合，Stem(d_x→C_K)表示第k类的类中心向量V_Cθ_k中能够被待分类文本d_x的特征比对成功的特征集合，对于待分类文本d_x中的任意特征t_x,i，其与任意的T_k,j∈Stem(C_K)的比对规则为：当t_x,i与T_k,j在指定的语义词典中的编码相同，或在语义词典中t_x,i属于T_k,j的下位词，则称t_x,i与T_k,j比对成功，否则它们比对不成功。

本发明作为优选，公式(8)、(9)中的θ为1500-2000。

作为一种具体实施方式，公式(1)、(2)中的λ、(3)、(4)中的β取值，对复旦大学语料集和搜狗语料集而言，取λ＝0.8、β＝0.6；对20Newsgroups语料集而言，取λ＝0.7、β＝0.5；公式(8)、(9)中的θ为：在复旦大学中文语料集中取θ＝1500，在搜狗中文语料集中取θ＝1500，在20Newsgroups英文语料集中取θ＝2000。

本发明针对传统TF-IDF方法的语义缺失，提出了基于依存关系、词性和语义词典的TF-IDF特征优化方法；其次，针对类中心向量法的高效率、低精度问题，本发明提出了基于依存关系、词性和语义词典的类中心向量文本分类法。本发明的优点包括：

(1)通过依存关系、词性和语义词典对特征选择进行语义层面的改进，并将语义信息进行量化融入文本特征权重计算中，弥补了基于统计学方法的语义不足，在经过特征选择之后的文本特征向量更能表征文本、反映类别；

(2)本发明通过语义词典分类结点的编码，对类中心向量进行聚类，从而达到对类中心向量降维与减少向量权重的稀疏；

(3)提出了新的文本向量相似度公式，弥补了传统的余弦相似度算法的不足，更大程度地提高了分类效果；

(4)在相似度计算的特征比对过程中引入语义词典，解决了特征流失问题，提高了分类精度。

特征选择算法分别在复旦语料集、搜狗语料集和20Newsgroups语料集上都做了特征选择实验，体现在贝叶斯、KNN、SVM和类中心向量法上的效果都优于基于传统统计的特征选择方法。本发明的基于依存关系、词性和语义词典的类中心向量文本分类法与基于贝叶斯算法、基于KNN算法和基于SVM算法在三个语料集上进行了实验对比，本发明方法分类效果都优于其他方法。

附图说明

图1是本发明的文本分类流程图。

图2是实施例分类系统框架图。

具体实施方式

下面通过具体的实施例进一步详述本发明。

在文本分类的实验过程中，语料集的选择会关系到分类的结果和准确率。因此，为了验证本发明所提出的特征选择方法和改进的分类算法的有效性，本发明的实施例选用了搜狗中文语料集、复旦大学中文语料集、20Newsgroups英文语料集三个语料集。本发明实例选用美国斯坦福大学开发的Stanford Parser句法分析软件进行词性标注与依存关系分析。对于中文语料使用哈工大《同义词词林(扩展版)》语义词典进行类中心向量聚类，对于英文语料库使用美国普林斯顿大学的《WordNet》语义词典进行类中心向量聚类。在本发明的实施例中，公式(8)、(9)中的TOP-K维度阈值θ在1500-2000之间分类效果F1值达到最佳，体现在复旦大学中文语料集中取θ＝1500维，在搜狗中文语料集中取θ＝1500维，在20Newsgroups英文语料集中取θ＝2000维。在本发明的实施例中，对于公式(2)、(4)中的λ、β取值，对于复旦大学语料集和搜狗语料集而言，取λ＝0.8、β＝0.6；对20Newsgroups语料集而言，取λ＝0.7、β＝0.5。本发明实施例的机器配置为：Intel(R)Core(TM)i7-6700CPU@3.40GHz+内存8GB。

实施例1

特征选择的实验对比

本实例分别结合依存关系、语义词典和词性的三层特征选择，得出如表3所示的F₁值提升幅度的对比结果。

表3特征选择对F₁值提升幅度

由表3可知，当特征选择只基于依存关系时，在复旦语料集、搜狗语料集和20Newsgroups语料集上分别进行贝叶斯、KNN和本发明的文本分类方法的分类实验都表明基于依存关系的特征选择方法具有非常好的分类效果；在基于依存关系特征选择方法引入语义词典之后，相较于传统特征选择提升幅度在1.52％-7.91％之间，语义词典对特征选择的贡献率在0.46％-1.86％之间；当结合词性选择，其分类效果又在以上基础上，F₁值提升度在1.26％-4.57％之间。因此，本发明基于依存关系的特征选择方法对提高分类效果起着决定性作用，其次则是词性选择，最后是引入语义词典。综合来说，这些实验比对充分证明了本发明提出的基于依存关系、词性和语义词典的特征选择改进方法的有效性。

实施例2

类中心向量法改进实验对比

根据本发明提出的基于依存关系、词性和语义词典的类中心向量文本分类法，本发明在三个语料集上分别进行了实验，针对本发明方法的三个创新点，与原始的类中心向量法做了实验对比，如表4所示。

表4本发明改进方法与传统类中心向量法对比结果

由表4可知，本发明改进方法与类中心向量法进行了三个阶段的对比实验。三个阶段的F1值均有不同程度的提高，且用时越来越短，这主要得益于本发明通过语义词典分类结点的编码，对类中心向量进行聚类，从而达到对类中心向量降维与减少向量权重的稀疏。因此，本发明的基于依存关系、词性和语义词典的类中心向量文本分类法在保证类中心向量快速分类的同时，在分类效果上也得到了一定提高。

实施例3

类中心向量法的分类效率实验对比

文本分类算法有很多，比如贝叶斯算法、KNN算法和类中心向量法等。分别使用贝叶斯、KNN和类中心向量法对经过预处理的三个语料集进行十次交叉验证的分类实验，并统计分类时间以及用F₁值评估实验结果，如表5所示。

表5分类算法效率和精度对比

由表5可知，在复旦语料集、搜狗语料集和20Newsgroups语料集的分类实验上，本发明的类中心向量法是用时最短的分类方法，其他分类算法均耗时比较长。

实施例4

改进的类中心向量法与其他分类方法的分类精度实验对比

本发明方法也与在相同语料集的其他分类方法进行了分类精度的实验对比。这些对比分类方法主要分为三大方向：基于贝叶斯的分类方法、基于KNN的分类方法和基于SVM的分类方法，将这些方法与本发明方法进行实验对比，得到表6所示的结果。

表6分类算法实验对比

由表6可知，在不同数据集中，本发明的基于依存关系、词性和语义词典的类中心向量文本分类法的分类效果都优于基于贝叶斯、KNN、SVM的分类算法。

Claims

1.一种基于依存关系、词性和语义词典的类中心向量文本分类方法，包括：

Step6：将待分类文本分入向量相似度值最大的类别；

Step7：转Step4，直到测试集中所有文本分类完毕；

在Step2，依存等级表如表1，词性等级表如表2；

表1

表2

所述改进的TF-IDF方法，是基于依存关系、词性与语义词典的改进的TF-IDF权重计算方法，改进的TF-IDF方法和特征权重值计算过程为：

Step2-2根据依存关系的结果，统计文档q中的特征t_i在文本中属于表1第k₁等级句子成分的次数m₁，按照公式(1)计算出文档q中的特征t_i在文本中基于句子成分的权重词频

Step2-3按照公式(2)计算出文档q中的特征t_i在语料中基于句子成分的权重

Step2-4根据词性标注的结果，统计特征t_i在文本中属于表2第k₂等级词性的次数m₂，按照公式(3)计算出文档q中的特征t_i在文本中基于词性的权重词频

Step2-5按照公式(4)计算出文档q中的特征t_i在语料中基于词性的权重

其中，s、D、p_i的含义与公式(2)相同；

Step2-6按照公式(5)计算出文档q中的特征t_i在语料中最终的基于TF_IDF_q,i的权重w_q,i：

所述句法分析软件选自：美国斯坦福大学开发的Stanford Parser或哈尔滨工业大学的《语言云》；

所述语义词典为现有的可计算同义词与常识词典；

所述语料是指分类所使用的文本数据集，选自复旦大学语料集、搜狗中文语料集或20Newsgroups英文语料集。

2.根据权利要求1所述的文本分类方法，其特征在于：在Step1，所述预处理包括对中文语料的分词或对英文语料的词根还原、删除停用词、去除低频词三个环节。

3.根据权利要求1所述的文本分类方法，其特征在于：在Step2-2，对名词组合依存关系Ann形成的依存关系链[Ann(C,C1)，Ann(C,C2)，...，Ann(C,Cn)，nsubj(root,C)]进行处理，将“C1C2...CnC”处理为主语，同时将词语“C”、“C1”、“C2”...“Cn”都处理为第1等级的主语特征处理，并对依存关系链[Ann(R,R1)，Ann(R,R1)，...，Ann(R,Rn)，dobj(root,R)]进行处理，将“R1R2...RnR”处理为宾语，同时将词语“R”、“R1”、“R2”...“Rn”都处理为第2等级的宾语特征，其中nsubj(root,C)表示名词主语，dobj(root,R)表示直接宾语，root表示中心词。

4.根据权利要求1所述的文本分类方法，其特征在于：在Step3，具体步骤如下：

Step3-1利用公式(6)，确定类中心向量的初始值，其公式为：

其中，

表示第k个类别的类中心向量的初始值，m为初始类中心向量的维度，

表示第k类别的初始类中心向量中的第j个特征，

表示第k类别中第i文本的第j个特征的权重值；

所述规则同义词词典是指层次小于6、等高且无多重继承的同义词语义词典；

所述非规则语义词典是指层次大于9、不等高且具有多重继承的语义词典；

其中，

表示聚类后的第k个类别的类中心向量，n为聚类后的类中心向量的维度且n小于或等于该类别的类中心向量的初始维度m，T_k,j表示聚类后的第k个类别的第j个特征，W_k,j表示聚类后的第k个类别的特征T_k,j的权重，

表示对所有参与T_k,j特征聚类的初始特征的权重求和，

采用公式(1)～(5)计算。

5.根据权利要求1所述的文本分类方法，其特征在于：Step5的具体计算过程如下：

Step5-1确定每一个类别的类中心向量

和任意待分类文本的特征向量

Step5-2将

其中，θ表示向量的维度阈值，其取值范围是0≤θ≤3000，

表示在θ维度下的第k类的类中心向量，

Step5-3按照公式(10)，计算待分类文本d_x的特征向量

与第k类别的类中心向量

的相似度

其中，

表示第k类的类中心向量

中特征t_i的权重，Stem(C_K)表示向量

中的特征集合，Stem(d_x→C_K)表示第k类的类中心向量

中能够被待分类文本d_x的特征比对成功的特征集合，对于待分类文本d_x中的任意特征t_x,i，其与任意的T_k,j∈Stem(C_K)的比对规则为：当t_x,i与T_k,j在指定的语义词典中的编码相同，或在语义词典中t_x,i属于T_k,j的下位词，则称t_x,i与T_k,j比对成功，否则它们比对不成功。

6.根据权利要求5所述的文本分类方法，其特征在于：公式(8)、(9)中的θ为1500-2000。

7.根据权利要求5或6所述的文本分类方法，其特征在于：公式(8)、(9)中的θ为：在复旦大学中文语料集中取θ＝1500，在搜狗中文语料集中取θ＝1500，在20Newsgroups英文语料集中取θ＝2000。

8.根据权利要求1所述的文本分类方法，其特征在于：公式(1)、(2)中的λ、(3)、(4)中的β取值，对复旦大学语料集和搜狗语料集而言，取λ＝0.8、β＝0.6；对20Newsgroups英文语料集而言，取λ＝0.7、β＝0.5。