CN114610884A

CN114610884A - 一种基于pca组合特征提取和近似支持向量机的分类方法

Info

Publication number: CN114610884A
Application number: CN202210222677.4A
Authority: CN
Inventors: 吴桐; 熊杰; 葛启东; 林欢; 钱苏敏; 江良剑; 杨昱
Original assignee: Unit 63893 Of Pla
Current assignee: Unit 63893 Of Pla
Priority date: 2022-03-07
Filing date: 2022-03-07
Publication date: 2022-06-10

Abstract

本发明涉及计算机科学技术领域，公开的一种基于PCA组合特征提取和近似支持向量机的分类方法，是搜集预料信息，从训练集合中提取出词表，从训练集合中提取总词表，建立词语特征文档矩阵A，求协方差矩阵，PCA将特征向量降维，特征词提取，重新对剩下的T个特征词重新求权重，得到的特征项及相应数据送入一种近似支持向量机分类模型进行分类训练与测试，将生成新的文本向量输入到文本分类模块中进行分类,得到最终分类结果。本发明通过近似支持向量机将分类问题归结成仅含线性等式约束的二次规划问题,有效降低了时间复杂度和空间复杂度。能够获得更好的文本分类准确率和更快的执行效率，可以较快速准确的完成文本分类，具有一定的实用意义。

Description

一种基于PCA组合特征提取和近似支持向量机的分类方法

技术领域

本发明涉及计算机科学技术领域，特别是一种基于PCA组合特征提取和近似支持向量机的分类方法。

背景技术

在知识管理中的知识获取、存储和检索及共享等关键处理过程中都需要使用到分词和文本分类技术。中文分词是机器翻译、分类、主题词提取以及信息检索的重要基础。面向知识管理的中文分词主要考察其是否有助于提高知识文本信息检索的准确度。难点主要表现在对新词的识别和歧义的解决,这对行业知识新词的识别尤为重要。传统的字典匹配分词其分词性能受限于词典的完备性,从而无法适应现实日益发展的领域知识管理需求。

分类时，通常用向量空间模型表示文本，即以一组词条作为属性向量构成的特征向量空间，传统的支持向量机算法在时间复杂度和空间复杂度上都有一定瓶颈。文本的原始特征向量空间包含全部的词条属性，具有高维性、稀疏性的特点，但并不是所有属性对分类决策都有贡献，冗余的属性不但对决策的结果无任何贡献，反而会降低决策的执行效率。

目前，文本特征提取主要是在特征文档矩阵的基础上采用某种特征评估函数对每个特征词进行评估，通过设定阈值保留一定数量的特征来完成。现有的特征选择函数主要有文档频率DF、互信息MI和χ2统计CHI等。但这些特征提取方法都是在假设特征项之间是独立的前提下进行的，并且每种方法关注的重点不同。DF强调高频词汇对文本分类的影响，其本体构建的成熟程度，关联度计算式中的参数选取以及阈值的设定都会对本体关联词集合的构建造成影响，进而影响到文本分类的准确率；MI的特征选择倾向于罕见词对文本分类的影响，但对于低维数据的处理却不尽如人意；CHI是假设词条与类别之间符合χ2分布，χ2统计量的值越高，词条和文本类别之间的相关性越强，对文本类别的贡献越大，这些应用前提假设势必会造成部分信息的丢失，影响后面文本分类的结果。

发明内容

为了避免信息的丢失，获得更好的分类准确率和更快的执行效率，本发明的目的在于提出一种基于PCA组合特征提取和近似支持向量机的分类方法。

为实现上述发明目的，本发明采用如下方法，

一种基于PCA组合特征提取和近似支持向量机的分类方法，其步骤如下：

步骤1搜集预料信息，对训练集合进行分类及预料选择处理，包括训练集合、测试集合；

步骤2从训练集合中提取出词表，对训练集合进行类别划分，对正文文本进行分词处理，获取文档的词语串序列，提取出词表；

步骤3从训练集合中取出每个文档，取出其中的词语，形成总词表；

步骤4选取文档特征，建立一个词语特征文档矩阵A；

将语料库分为训练集合和测试集合，当训练集合的文档数为N篇，设为x₁，x₂，…，x_N，选取n个关键词a₁，a₂，…，a_n作为文档特征，则建立一个词语特征文档矩阵A：

其中:矩阵的一行代表一个文档的特征向量，矩阵的一列代表一个关键词在文档中出现的频率；

步骤5求协方差矩阵R_A＝A^TA的特征向量e¹，e²，…，eⁿ；即求协方差矩阵R_A＝A^TA(n×n维)的特征值λ₁≥λ₂≥…≥λ_n≥0以及相对应的特征向量e¹，e²，…，eⁿ；

选择R_A的m个最大特征值对应的正交特征向量e₁，e2，…，e_m，组成最佳转换矩阵W_KL＝[e1，e2，…，em]^T，W_KL为m×n维矩阵；

步骤6利用PCA将其特征向量降维，得到最佳转换矩阵W_KL；选择PCA转换后的正交空间的维度m(m≤n)，式中

T为阈值，选择0.85，通过加大阈值T保留更多的原始信息，获得更高的文本分类准确率，需更长的计算时间；

步骤7将n维原始词语文档空间转换为m维正交特征空间，是利用转换矩阵W_KL将n维原始词语—文档空间转换为m维正交特征空间，Y＝(WA^T)^T＝AW^T，Y是n×m维矩阵，矩阵Y维数更低m≤n；取矩阵A的稀疏性，m＜＜＜n，且Y是正交矩阵，能保留较多的特征信息；

步骤8特征词提取，分别使用MI、TF-IDF、CHI、IG方法计算降维后正交矩阵Y中各词的权重；将各方法计算出来的权重词按权重的大小排序成一数组，得到四个数组；

步骤9使用改进的TF-IDF方法重新对剩下的T个特征词重新求权重，以此权重值作为此特征词的最终权重组成的训练样本的词语特征—文档矩阵N×T矩阵；

步骤10以此权重值作为此特征词的最终权重组成的训练样本的词语特征—文档矩阵(N×T矩阵)；

步骤11将由上述组合特征提取算法得到的特征项及相应数据送入一种近似支持向量机分类模型进行分类训练与测试；

步骤12将生成新的文本向量输入到文本分类模块中进行分类,得到最终分类结果。

由于采用如上所述的技术方案，本发明具有如下优越性：

本发明一种基于PCA组合特征取值和近似支持向量机的分类方法，通过对文档频率DF、互信息MI和χ2统计CHI算法的研究，利用其各自的优势互补，提出一种基于主成分分析(PCA)的多重组合特征提取算法，并通过近似支持向量机将分类问题归结成仅含线性等式约束的二次规划问题,有效降低了时间复杂度和空间复杂度。本发明能够获得更好的文本分类准确率和更快的执行效率，可以应用于文本管理中的本文分类，可以较快速准确的完成文本分类，具有一定的实用意义。

附图说明

图1是基于PCA组合特征提取和近似支持向量机分类方法的流程图。

具体实施方法

下面结合附图及具体实施对本发明进一步的描述。

如图1所示，一种基于PCA组合特征取值和近似支持向量机的分类方法，是通过对文档频率DF、互信息(MI)和χ2统计CHI算法的综合使用，引入基于主成分分析PCA的多重组合特征提取算法，并通过近似支持向量机将分类问题归结成仅含线性等式约束的二次规划问题,有效降低了时间复杂度和空间复杂度。其步骤如下：

1)收集预料。对训练集合进行分类与预处理；

2)从训练集合中提取出词表；

3)将语料库分为训练集合和测试集合，假设训练集合的文档数为N篇，设为x₁，x₂，…，x_N，选取n个关键词a₁，a₂，…，a_n作为文档特征，则可建立一个词语特征文档矩阵A：

4)求协方差矩阵R_A＝A^TA(n×n维)的特征值λ₁≥λ₂≥…≥λ_n≥0以及相对应的特征向量e¹，e²，…，eⁿ；

5)选择PCA转换后的正交空间的维度m(m≤n)。一般来说

T为阈值，这里一般选择0.85，可以通过加大阈值T保留更多的原始信息，获得更高的文本分类准确率，但需要更长的计算时间；

6)选择R_A的m个最大特征值对应的正交特征向量e₁，e2，…，e_m，组成最佳转换矩阵W_KL＝[e1，e2，…，em]^T，W_KL为m×n维矩阵；

7)利用转换矩阵W_KL可以将n维原始词语—文档空间转换为m维正交特征空间，Y＝(WA^T)^T＝AW^T，Y是n×m维矩阵，矩阵Y维数更低(m≤n)。由于矩阵A的稀疏性，一般情况下m＜＜＜n，而且Y是正交矩阵，能保留较多的特征信息。

8)特征词提取。分别使用MI、TF-IDF、CHI方法计算降维后正交矩阵Y中各词的权重；将各方法计算出来的权重词按权重的大小排序成一数组，得到四个数组。

9)使用一种改进的TF-IDF方法重新对剩下的T个特征词重新求权重，以此权重值作为此特征词的最终权重组成的训练样本的词语特征—文档矩阵(N×T矩阵)。

10)将由上述组合特征提取算法得到的特征项及相应数据送入一种近似支持向量机分类模型进行分类训练与测试，为了降低训练时间，并提高训练进度，本方法采用了一种基于降维的近似支持向量机学习模型；

11)将生成的新的文本向量输入到分类模块中进行分类,得到最终分类结果。

如图1所示，该图为基于PCA组合特征提取和近似支持向量机文本分类方法的步骤流程图，具体步骤如下：

步骤1搜集语料信息，其中部分作为训练集合，另一部分作为测试集合；

步骤2从训练集合进行类别划分，对正文文本进行分词处理，获取文档的词语串序列，提取出词表；

步骤4选取文档特征，建立一个词语特征文档矩阵A；

步骤5求协方差矩阵R_A＝A^TA的特征向量e¹，e²，…，eⁿ；

步骤6利用PCA将其特征向量降维，得到最佳转换矩阵W_KL；

步骤7将n维原始词语文档空间转换为m维正交特征空间；

步骤8分别使用MI、TF-IDF、CHI、IG方法计算降维后正交矩阵Y中各词的权重；将各方法计算出来的权重词按权重的大小排序成一数组，得到四个数组；

步骤9使用一种改进的TF-IDF方法重新对剩下的T个特征词重新求权重；

步骤12将生成的新的文本向量输入到分类模块中进行分类,得到最终分类结果。

上述步骤所涉及的各个细节如下：

1、预料选择，指需要足够的语料作为训练集合，将类别进行分类。预料类别的划分将可能合理，各类别预料数据尽可能均衡。

2、特征词提取，特征词权重计算分别使用MI、TF-IDF、CHI方法计算降维后正交矩阵Y中各词的权重；将各方法计算出来的权重词按权重的大小排序成一数组，得到四个数组，其步骤如下：

(1)在各权重数组中取前T+t项(假定取T个特征词)，并求出这四个数组中的交集，交集的个数为K。

(2)若K＝T，转(c)；若K＜T，t＝t+1转(a)；若K＞T，t＝t－1转(a)。

(3)结束。

3、改进的TF-IDF方法，即TF-IDF方法结合TF和IDF，从词语在一篇文本中的频率和在文本集中的分布状况两个方面来衡量该词语在文本表示中的重要程度。其中TF(termfrequency)是对一个词语局部重要性的度量，用该词语在某一文本中出现的频率表示，频率越大，则该词语对于这篇文本的表示贡献越大；IDF(inverse document frequency)为反文本频率，表示词语t在整个文本集中的分布情况，文本集中含有词语t的文本数量越少，则词语t表示文本时越重要。

改进的TF-IDF方法对TF-IDF公式进行了适当加权处理，在计算特征频率的时候用特征频率再除以文本总的特征词数，即用

代替TF，其中L代表文档所包含的词数。

把各个类间的平均偏差平方D_e加入TF-IDF公式中，如下：

其中：tf_i(t)代表词条在类中出现的频率；tf(t)代表词条在各个类的平均词频。

将TF-IDF改进为：

4、基于降维的近似支持向量机学习模型，近似支持向量机使用一个超平面w·x+b＝0来分割正类和负类,其参数w和b是通过求解如下优化问题决定的：

其中

A₃＝E_m，E_m表示m阶单位矩阵，e表示m+n+1维列向量，C为式中权系数。

记A＝(A₁,A₂,A₃)，x＝(w^T，b^T，ξ^T)^T，那么求参数w和b问题可以转换为对应的线性等式约束的二次规划问题，故可以利用将为的二次规划算法，求解其对应的最优解x。

由于传统的近似支持向量机采用基于K-T条件进行求解，计算复杂度为O(m+n)³，其中m表示训练样本的个数，n表示训练数据集的属性的维数。本文中的新的训练方法计算时间包括：降维处理和n个n变量的方程组求解时间，因此计算复杂度为O(m³+n³)。

空间复杂度相应地由传统近似支持向量机算法所需的O(m+n)³降为O(m²+n²)。因此在m和n近似时,计算复杂度可以降低为原来的1/4左右，空间复杂度减少一半。对于文本分类问题具有高维(通常大于1000维)，但是训练样本数又较少的情况，本分类算法则对传统的近似支持向量机有优势。

4、二次规划算法，其二次规划算法步骤如下：

(1)方程A_x＝b的增广矩阵利用Gauss列主元进行变换，得到形式为

的方程，并记录下

所在的列号S＝{j₁,j₂,…,j_p}和系数矩阵A中其余的列号集S＝{j₁,j₂,…,j_p}和系数矩阵A中其余的列号集R＝{i₁,i₂,…,i_m}；

(2)根据R和S得到

(3)

最优解为

Claims

1.一种基于PCA组合特征提取和近似支持向量机的分类方法，其特征是：其步骤如下：

步骤4选取文档特征，建立一个词语特征文档矩阵A；

2.根据权利要求1所述的一种基于PCA组合特征提取和近似支持向量机的分类方法，其特征是：所述预料选择为需要足够的语料作为训练集合，将类别进行分类，使预料类别的划分合理、均衡。

3.根据权利要求1所述的一种基于PCA组合特征提取和近似支持向量机的分类方法，其特征是：所述特征词提取为特征词权重计算，分别使用MI、TF-IDF、CHI方法计算降维后正交矩阵Y中各词的权重；将各方法计算出来的权重词按权重的大小排序成一数组，得到四个数组，其实施步骤如下：

(1)在各权重数组中取前T+t项，取T个特征词，并求出这四个数组中的交集，交集的个数为K；

(2)若K＝T，转(c)；若K＜T，t＝t+1转(a)；若K＞T，t＝t－1转(a)；

(3)结束。

4.根据权利要求1所述的一种基于PCA组合特征提取和近似支持向量机的分类方法，其特征是：所述改进的TF-IDF方法为TF-IDF方法结合TF和IDF组成的，用于词语在文本中的频率和在文本集中的分布状况两个方面来衡量该词语在文本表示中的重要程度；其中TFtermfrequency是对一个词语局部重要性的度量，用该词语在文本中出现的频率表示，频率越大，则该词语对于文本的表示贡献越大；IDFinverse document frequency为反文本频率，表示词语t在整个文本集中的分布情况，文本集中含有词语t的文本数量越少，则词语t表示文本时越重要；

对TF-IDF公式进行适当加权处理，在计算特征频率的时候用特征频率再除以文本总的特征词数，即用