CN112200259A

CN112200259A - 一种基于分类与筛选的信息增益文本特征选择方法及分类装置

Info

Publication number: CN112200259A
Application number: CN202011116057.XA
Authority: CN
Inventors: 孙冬璞; 袁梦
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2020-10-19
Filing date: 2020-10-19
Publication date: 2021-01-08

Abstract

本发明提供了一种基于分类与筛选的信息增益文本特征选择方法及分类装置，属于自然语言处理领域，该方法针对信息增益方法不适用于不均衡数据集、选择后特征冗余的问题，提出一种可应用于不均衡数据集的分类筛选信息增益方法。该方法通过计算各类文本数占总文本数的比例分配各个类别可选择的特征数目，保证了对小数据集特征的选择，以实现对不均衡数据集的特征选择；通过计算各特征在不同类别中单位文本数目词频的离散程度来实现特征筛选，减少对文本分类具有较小影响的冗余特征，降低特征子集的维度并提高分类的性能。实验结果显示无论是平均查准率、平均召回率还是平均F1值，分类筛选信息增益方法均有更好的性能。

Description

一种基于分类与筛选的信息增益文本特征选择方法及分类装置

技术领域

本发明属于自然语言处理领域，具体涉及一种基于分类与筛选的信息增益文本特征选择方法及分类装置。

背景技术

在自然语言处理领域，大部分文本均通过向量空间的形式来表示，把文本中所有的字、词作为文本的特征，形成特征向量空间，然而即使经过文本预处理之后形成的高维度的特征向量空间仍然极大地增加了文本分类的难度，使文本分类的时间复杂度和空间复杂度大幅度提高，同时并不能保证分类的精度，故在进行文本分类之前，需要对文本进行降维，最常用的降维方法就是对文本进行特征选择，通过特征选择可以降低特征向量空间的维度、提升分类的准确性和精确度。

在众多特征提取方法中，基于信息增益的方法具有优越的表现，但存在不适用于不均衡数据集、未考虑特征相关性的缺点，为了将该方法应用于不均衡数据集、减少对文本分类贡献较小的冗余特征，本发明提出新的特征选择方法，根据文本的数目进行特征数目的分配以确保对小数据集的特征选择，并通过计算特征在类间出现次数的方差进行特征筛选，进一步减小特征的维度提高文本分类的性能。

发明内容

为解决上述问题，本发明提出了一种基于分类与筛选的信息增益文本特征选择方法，所述方法包括步骤：

步骤1：定义分词规则和停用词词典，对语料库中文本预处理，把文本分解为一系列词汇，并将文本中的词汇存入哈希集，得到无重复的原始特征集。

步骤2：对每个文本进行词频统计，将文本转化为一系列<特征，词频>键值对。

步骤3：依据参考词频统计结果，计算原始特征集中特征的信息增益值。

步骤4：依据信息增益值由大到小的顺序，对原始特征集进行排序。

步骤5：定义一个分类选择规则，依据各类所含的文本数占总文本数的比例，确定应从各类中选择出的特征数目。

步骤6：定义一个特征类别计算函数，统计特征在所有文本中出现的次数，将特征出现的次数最多的文本所属的类别，作为该特征所属的类别。

步骤7：依据步骤5、6中得到的各类特征数目和词汇所属类别对排序后原始特征集进行分类特征选择，得到特征子集。

步骤8：计算词汇在各类别中出现次数除以文本数的方差，并将方差小于阈值的特征存入带删除特征集。

步骤9：将特征子集与待删除特征集进行比对，进行特征子集筛选，不存在于待删除特征集中的特征组成最终特征集合。

步骤10：使用最终特征集合进行文本分类，计算分类的性能以反映特征选择出的最终特征子集的优劣。

优选地，信息增益值计算公式为：

其中，H(C)为分类系统的信息熵，H(C|T)为当特征t的值固定时的条件熵，P(C_i)为文本出现在各类别中的概率，P(t)为语料库中包含特征t的文本的概率，P(C_i|t)为文本包含特征t时属于C_i的条件概率，

为语料库中不包含特征t的文本的概率，

为文本不包含特征t时属于C_i的条件概率。

优选地，计算各类所应选择的特征数目的公式为：

其中，

表示某类应选择的特征数，

表示某类包含的文本数，n_total表示预定义的待提取特征总数，s_total表示所有类别的总文本数，N表示总类别数。

优选地，特征所属类别计算公式为：

其中，C_t为特征t单位文本长度出现次数最多的文本，m_t为文本text_i中特征t出现的次数，l_i为文本text_i的文本内容长度，s_total为所有文本的总数。

优选地，分类特征选择的具体步骤为：

(1)设置已选择特征数目k并计算

即每一类计算得出的应选择数目总和。

(2)对于排序后的原始特征集中的所有特征，若k≥n_total或k≥n_count，则停止特征选择。

(3)若一个特征所属类别已选择的特征未满，则将该特征选择至特征子集，并将该特征所属的类别计数器加一。

优选地，计算特征的类间方差的公式为：

其中，

为特征在各类别中出现的次数，

为各类别包含的文本总数，N为类别总数，std为特征的类间方差。

优选地，分类的性能具体包括：

(1)计算分类准确率

(2)计算各类查准率、召回率、F1值

(3)计算总加权平均查准率、召回率、F1值

本发明还提供了一种基于分类与筛选的信息增益文本特征选择方法的分类装置，所述装置包括：

预处理单元，用于对文本进行分词、去停用词等操作，生成不含重复特征的原始特征集。

词频统计单元，用于对文本进行词频统计，得到包含<特征，词频>的哈希映射。

信息增益值计算单元，用于计算原始特征集中所有特征的信息增益值。

特征集排序单元，依据特征的信息增益值对原始特征集进行排序得到，按信息增益值降序排列的原始特征集。

特征比例计算单元，按比例计算各类所占的特征比重。

特征类别计算单元，计算各特征对应的类。

特征选择单元，依据特征比例和特征类别对特征进行分类筛选，形成特征子集。

分类别词频计算单元，计算特征词在各类出现的词频。

词频方差计算及特征筛选单元，按文本数比例计算各类别词频的方差，筛选出并删除方差小于阈值的特征，得到最终特征子集。

分类及性能计算单元，使用最终特征子集进行文本分类，并对分类性能进行计算。

本发明提供的一种基于分类与筛选的信息增益文本特征选择方法及分类装置，相较于现有的方法，具有以下优势：

(1)采用计算信息增益的方法进行特征权重的计算，信息增益方法计算出的信息熵衡量了一个特征所包含的信息量的多少，一个特征所包含的信息量越多，其对文本分类所做出的贡献越大，因此使用基于信息增益的特征选择方法可以更好地选择用于文本分类的特征。

(2)定义了分类选择规则，各类别选择的特征数目由各类别的文本数目决定，保证了对小样本类别的特征选择，使其更加适用于不均衡是样本集。

(3)计算特征子集在类间出现次数的方差，筛选出方差较小，即在各类之间差距较小的特征，实现了特征筛选以进一步降低特征的维度。

(4)所述装置的特征类别计算单元，在统计特征在所有文本中出现的次数时，结合文本内容的长度，选择在单位长度文本中出现次数最多的文本所属的类别作为特征所属的类别，消除了不同文本长度带来的消极影响。

(5)所述装置的词频方差计算及特征筛选单元，在计算特征在各类别中的词频时,同时考虑各类别包含的文本数量，计算单位文本数量的词频，在进行特征筛选的同时令方法更加适用于不均衡数据集。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种基于分类与筛选的信息增益文本特征选择方法的流程图。

图2为本发明提供的一种基于分类与筛选的信息增益文本特征选择方法的分类装置示意图。

图3为本发明与其他特征选择方法采用复旦大学中文文本分类数据集，在不同参数下的分类准确率对比。

图4为本发明与其他特征选择方法采用复旦大学中文文本分类数据集，总加权查准率、召回率、F1值对比。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明，应该理解，这些描述只是示例性的，而并非要限制本发明的范围，此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

如图1，本发明提供了一种基于分类与筛选的信息增益文本特征选择方法，所述方法步骤如下：

步骤S1：对文本进行分词、去停用词等预处理。

步骤S2：对文本进行词频统计。

步骤S3：通过公式(1)计算原始特征集中所有特征的信息增益值。

为语料库中不包含特征t的文本的概率，

为文本不包含特征t时属于C_i的条件概率。

步骤S4：按信息增益值对原始特征集进行排序。

步骤S5：通过公式(2)计算各类别应选择的特征数目。

其中，

表示某类应选择的特征数，

步骤S6：通过公式(3)计算特征所属的类别。

其中，C_t为特征t单位文本长度出现次数最多的文本，m_t为文本text_i中特征t出现的次数，l_i为文本tex_i的文本内容长度，s_total为所有文本的总数。

步骤S7：根据S5、S6的结果进行分类特征选择，具体如下：

步骤S701：设置已选择特征数目k并计算

即每一类计算得出的应选择数目总和。

步骤S702：对于排序后的原始特征集中的所有特征，若k≥n_total或k≥n_count，则停止特征选择。

步骤S703：若一个特征所属类别已选择的特征未满，则将该特征选择至特征子集，并将该特征所属的类别计数器加一。

步骤S8：通过公式(4)计算特征在类间的方差。

其中，

为特征在各类别中出现的次数，

步骤S9：通过比较方差与阈值，进行特征筛选，得到最终特征子集。

步骤S10：使用最终特征子集进行文本分类，并测试分类性能，具体步骤如下：

步骤S1001：通过公式(5)计算分类结果的查准率。

步骤S1002：通过公式(6)计算分类结果的召回率。

步骤S1003：通过公式(7)计算分类结果的F测量值。

其中，True Positives(TP)为实际为正例且实验时被划分为正例的测试样本数目，False Positives(FP)为实际为负例但实验时被划分为正例的测试样本数目，FalseNegatives(FN)为实际为正例但实验时被划分为负例的测试样本数目，True Negatives(TN)为实际为负例且实验时被划分为负例的测试样本数目。

通过本实施方式首先计算每个特征的信息增益值，得到按信息增益值降序排列的原始特征集，然后计算各类别应选择的特征数目，计算特征所属的类别，对原始特征集进行分类特征选择，之后计算特征的类间方差，对特征进行筛选得到最终特征子集，最后使用最终特征子集进行文本分类，计算分类性能。

进一步说明，已知有一系列已知类别的文本集合，经过本方法进行特征选择，可以得到文本的低维度特征表示，将其应用于文本分类，在合适的参数选择下，相较于原方法，分类的各项性能指标均有了显著的增长。

如图2所示，在本申请实施例中，本申请还提供了一种基于分类与筛选的信息增益文本特征选择方法的分类装置，所属装置包括：

预处理单元10，用于对文本进行分词、去停用词等操作，生成不含重复特征的原始特征集。

词频统计单元20，用于对文本进行词频统计，得到包含<特征，词频>的哈希映射。

信息增益值计算单元30，用于计算原始特征集中所有特征的信息增益值。

特征集排序单元40，依据特征的信息增益值对原始特征集进行排序得到，按信息增益值降序排列的原始特征集。

特征比例计算单元50，按比例计算各类所占的特征比重。

特征类别计算单元60，计算各特征对应的类。

特征选择单元70，依据特征比例和特征类别对特征进行分类选择，形成特征子集。

分类别词频计算单元80，计算特征词在各类出现的词频。

词频方差计算及特征筛选单元90，按文本数比例计算各类别词频的方差，筛选出并删除方差小于阈值的特征，得到最终特征子集。

分类及性能计算单元100，使用最终特征子集进行文本分类，并对分类性能进行计算。

本申请提供的一种基于分类与筛选的信息增益文本特征选择方法的分类装置，可以结合本申请提供的一种基于分类与筛选的信息增益文本特征选择方法进行运行，再此不再赘述。

具体实施方式结果

本实施方式采用复旦大学发布的中文文本分类数据集中的一部分，为了验证在不平衡数据集上的使用效果，使用其中Art、History、Space和Electronics四个类别进行模拟实验，各类别包含的文本数如下表所示。

为了验证本实施方式的优越性，将本实施方式(IGCS方法)与原信息增益方法(IG方法)和仅进行分类特征选择未进行特征筛选的方法(no-screen方法)进行对比，对比的性能包括文本分类的准确率、查准率、召回率、和F1值等，下表为在不同参数下的三种方法分类准确率，对比如图3所示。

由上表数据可知，选择总特征数目未定时，IG算法的最高准确率67.3251％，方差阈值取10^-3的IGCS算法的最高准确率为76.1345％，方差阈值取10^-4的IGCS算法的最高准确率为75.8676％，方差阈值取10^-5的IGCS算法的最高准确率为76.1179％，no-screen算法最高准确率为75.2803％，IGCS算法具有最高的准确率，no-screen算法次之，IG算法的准确率最低且与前两者具有约为8％的差距，不同方差阈值的IGCS算法中，当阈值取10^-3时具有最高的准确率，略高于阈值取10^-4和10^-5时的准确率0.2669％和0.0166％。

当特征选择总数目为3000时，分类筛选IG方法的分类准确率为76.1345％、75.8676％和76.1879％，在不同阈值下均达到了最高，no-screen方法为75.2803％，同样高于1000和2000时的准确率，IG方法在特征选择总数目为1000时达到最高准确率67.3251％，但仍低于分类筛选IG方法

设置特征选择总数目为3000，方差阈值为10^-3，对IG算法，IGCS算法和no-screen算法进行实验，观察三种算法分类后的分类性能评价指标，三种选择算法的混淆矩阵如下表所示。

三种选择算法的各类查准率、召回率、F1值对比如下表所示。

总加权平均查准率、召回率、F1值对比如下表，对比如图4所示。

由混淆矩阵可知使用IG算法进行特征选择后，没有文本被分类至C16类中，C16类中被预测为正例的样本数为0，即TP+FP＝0，查准率的计算公式为TP/(TP+FP)，故使用IG算法，C16类的查准率不存在，如各类对比表所示，同理，由于TP＝0，C16类的召回率为0，因此F1值也不存在，如总加权对比表所示。

从各类对比表中可以直观地看出，IGCS算法中小样本集C16类的查准率、召回率和F1值分别为0.400、0.296和0.340，均优于IG算法和no-screen算法，这使IGCS算法比IG算法更加适用于不均衡数据集。由总加权对比表也可看出，IGCS方法的查准率、召回率和F1值分别为0.756、0.761和0.757，均优于no-screen方法和IG方法。

本实施方式提出了一种基于分类与筛选的信息增益文本特征选择方法及分类装置，用于对不均衡数据集的文本特征提取和文本分类，提出了一种新的基于信息增益的特征选择规则，和一种面向特征选择后的特征子集筛选规则，在复旦大学的中文文本分类数据集上实验结果表明，本实施方式相较于其他方法具有更好的分类准确度、更高的查准率、召回率和F1值，具有更好的性能。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制，因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内，此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。