CN113657106A

CN113657106A - 基于归一化词频权重的特征选择方法

Info

Publication number: CN113657106A
Application number: CN202110758265.8A
Authority: CN
Inventors: 周红芳; 李想; 王晨光
Original assignee: Xian University of Technology
Current assignee: It's Also A Pleasure For Youpeng Beijing Technology Co ltd
Priority date: 2021-07-05
Filing date: 2021-07-05
Publication date: 2021-11-16
Anticipated expiration: 2041-07-05
Also published as: CN113657106B

Abstract

本发明公开一种基于归一化词频权重的特征选择方法，提取特征词在每篇文档中的词频并使用对率函数对其进行归一化处理，实现文档频率层面的词频加权。与此同时，本发明使用反正切归一化方法对MMR算法中最大最小比率部分进行处理，避免出现全局得分过大、与特征词的实际类别分辨能力不符的问题。实验结果显示本发明性能良好，提高了学习算法的执行效率以及分类结果的正确率，是可靠的特征选择算法。

Description

基于归一化词频权重的特征选择方法

技术领域

本发明属于应用自然语言处理技术领域，涉及基于归一化词频权重的特征选择方法。

背景技术

随着信息化技术的不断更新，大量非结构化文本数据在网络上涌现。如何在混杂的数据中提取有价值的信息成为人们关注的焦点。仅仅依赖传统的人工方法处理海量数据不仅效率低下，同时耗费大量的人力、物力和财力，造成资源的浪费。自动文本分类技术的应用很好地解决了上述问题，它将数据集中的每一篇文档进行类别的划分，使人们从中获取有价值的信息，筛选掉无用信息，提高了信息处理的效率。

由于文本类型数据的特征空间维数常常达到几千甚至上万数量级，其中含有大量不相关以及冗余特征，严重影响着分类的效率与准确率，因此在分类前完成特征选择是必要的。特征选择根据一定的判别准则，通过选取与类别高度相关且具有较低冗余性的特征，加快数据挖掘算法的执行效率，提高了分类算法的性能。特征选择通常分为四种类型：过滤式、包装式、嵌入式以及混合式。过滤式特征选择算法使用独立的评价函数，由于其完全独立于机器学习算法，具有低成本、高效率的计算特点，常常应用于自动文本分类中。

大部分过滤式特征选择算法基于文档频率来评估特征词所携带的分类信息量的大小，却忽略了词频(即特征词在一篇文档中具体出现的次数)的影响。基于最大最小比率度量的特征选择算法(MMR)是经典的基于文档频率的算法，尽管拥有较好的对具有高相关性的特征词的筛选能力，却忽略了词频所带来的微观层面的影响。

发明内容

本发明的目的是提供一种基于归一化词频权重的特征选择方法，具有不仅考虑特征词在对应类别中出现的文档数量，同时考虑其在一篇文档内出现的具体次数即词频所带来的影响，最终选择出与类别相关性更大的特征词的特点。

本发明所采用的技术方案是，基于归一化词频权重的特征选择方法，具体按照以下步骤实施：

步骤1、选取拥有不同文档数量、类别数量以及包含不同特征词个数的文本类型数据集，对数据集进行预处理并划分训练集和测试集；

步骤2、设置最终选择出的特征子集的元素个数为C，首先使用特征排序函数计算训练集中所有出现的特征词的得分，根据得分情况对特征词进行降序排列，选择排名为前C的特征词作为最优特征子集的元素，根据最优特征子集分别对训练集和测试集数据进行降维处理；

步骤3、利用步骤2得到的训练集分别对朴素贝叶斯分类器和支持向量机分类器进行训练，使用训练出的分类模型对经步骤2处理后的测试集文档的类别进行预测，完成分类操作；

步骤4、利用Macro-F1和Micro-F1评估指标对分类器的分类效果进行评估。

本发明的特点还在于：

步骤1中预处理为剪枝处理，具体为，将数据集中出现的文档数多于总数的25％或少于3篇的特征词删除；划分数据集采用十折交叉验证法。

步骤2具体按照以下步骤实施：

步骤2.1、计算训练集数据特征词的加权真正率wtpr以及加权假正率wfpr；

步骤2.2、计算训练集数据特征词的反正切归一化因子atanfac以及正类影响因子pos_ki；

步骤2.3、计算特征词t_i的全局得分NTWFS(t_i)，得到带有权值的特征词集合；

步骤2.4、根据每个特征词的全局得分对训练集的所有特征进行降序排序，选择排名为前C的特征词构成最优特征子集；

步骤2.5、根据步骤2.4得到的最优特征子集分别对训练集文档和测试集文档进行处理，完成对训练集和测试集数据的降维操作。

步骤2.1具体按照以下步骤实施：

步骤2.1.1、使用对率函数将特征词t_i在文档d_j中出现的频率tf_ij进行归一化处理，得到归一化词频权重Logistic(tf_ij)，如公式1所示，

其中，tf_ij表示特征词t_i在文档d_j中出现的次数；

步骤2.1.2、根据公式2和3计算特征词t_i在C_k类中的加权真正率wtpr，

其中，N为数据集的文档总数，N_k为类C_k中的文档总数，k表示类别序号，I_pos(d_j，C_k)用来判断文档d_j是否属于类C_k，当文档d_j属于类C_k时I_pos(d_j，C_k)为1，反之为0；

步骤2.1.3、根据公式4和5计算特征词t_i在

类中的加权假正率wfpr，

其中，

用来判断文档d_j是否属于非C_k类，当文档d_j属于非C_k类时

为1，反之为0。

步骤2.2具体按照以下步骤实施：

步骤2.2.1、利用反正切函数对最大最小比率因子进行归一化，得到反正切归一化因子atanfac，如公式6所示，

步骤2.2.2、根据公式7计算特征词t_i的正类影响因子pos_ki，

其中，tp表示在类c_k中特征词t_i出现的文档数量，fn表示在类c_k中特征词t_i没有出现的文档数量，fp表示非c_k类中特征词t_i出现的文档数量，tn表示在非c_k类中特征词t_i没有出现的文档数量。

步骤2.3具体为，根据公式8计算特征词t_i的全局得分NTWFS(t_i)，得到带有权值的特征集合：

其中，k表示类别编号，P(C_k)表示属于类C_k的文档数量在整个数据集中所占的比例；当min(wtpr，wfpr)为0时，atanfac值为1。

步骤2.5中对训练集文档和测试集文档进行处理，具体为，删去最优特征子集中不包含的特征词，保留最优特征子集中存在的特征词。

本发明的有益效果是：本发明基于归一化词频权重的特征选择方法在计算特征词的重要性时将特征词在每篇文档中出现的次数考虑在内，使用对率函数对特征词在每篇文档中的词频进行归一化处理，避免出现数值过大影响全局得分的情况。除此之外，由于本发明是基于MMR算法进行改进的，本发明使用反正切归一化方法对最大最小比率部分进行处理，解决了当min(wtpr，wfpr)无限接近0时造成整个比值过大，进而导致全局得分过大，与特征词的实际类别辨别能力不符的问题。本发明可以准确地评估特征词的类别分辨能力，与原有算法相比较性能有一定程度的提高。

附图说明

图1是本发明基于归一化词频权重的特征选择方法的流程图；

图2a-图2d是本发明基于归一化词频权重的特征选择方法与现有技术在K1a数据集上，在不同特征词维数下依次使用朴素贝叶斯分类器、支持向量机分类器进行分类时得到的Macro-F1、Micro-F1对比结果；

图3a-图3d是本发明与现有技术在R8数据集上，在不同特征词维数下依次使用朴素贝叶斯分类器、支持向量机分类器进行分类时得到的Macro-F1、Micro-F1对比结果；

图4a-图4d是本发明与现有技术在RE1数据集上，在不同特征词维数下依次使用朴素贝叶斯分类器、支持向量机分类器进行分类时得到的Macro-F1、Micro-F1对比结果；

图5a-图5d是本发明与现有技术在RE0数据集上，在不同特征词维数下依次使用朴素贝叶斯分类器、支持向量机分类器进行分类时得到的Macro-F1、Micro-F1对比结果；

图6a-图6d是本发明与现有技术在WAP数据集上，在不同特征词维数下依次使用朴素贝叶斯分类器、支持向量机分类器进行分类时得到的Macro-F1、Micro-F1对比结果

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明基于归一化词频权重的特征选择方法，如图1所示，具体按照以下步骤实施：

步骤1、选取拥有不同文档数量、类别数量以及包含不同特征词个数的文本类型数据集，对数据集进行剪枝处理，具体为，将数据集中出现的文档数多于总数的25％或少于3篇的特征词删除，并采用十折交叉验证法处理未划分训练集和测试集的数据集；

步骤2、设置最终选择出的特征子集的元素个数为C，首先使用特征排序函数计算训练集中所有出现的特征词的得分，根据得分情况对特征词进行降序排列，选择排名为前C的特征词作为最优特征子集的元素，根据最优特征子集分别对训练集和测试集数据进行降维处理；具体按照以下步骤实施：

步骤2.1、计算训练集数据特征词的加权真正率wtpr以及加权假正率wfpr；具体按照以下步骤实施：

其中，tf_ij表示特征词t_i在文档d_j中出现的次数；

步骤2.1.3、根据公式4和5计算特征词t_i在

类中的加权假正率wfpr，

其中，

用来判断文档d_j是否属于非C_k类，当文档d_j属于非C_k类时

为1，反之为0；

步骤2.2、计算训练集数据特征词的反正切归一化因子atanfac以及正类影响因子pos_ki；具体按照以下步骤实施：

步骤2.2.2、根据公式7计算特征词t_i的正类影响因子pos_ki，

其中，tp表示在类c_k中特征词t_i出现的文档数量，fn表示在类c_k中特征词t_i没有出现的文档数量，fp表示非c_k类中特征词t_i出现的文档数量，tn表示在非c_k类中特征词t_i没有出现的文档数量；

步骤2.3、计算特征词t_i的全局得分NTWFS(t_i)，得到带有权值的特征词集合；具体为，根据公式8计算特征词t_i的全局得分NTWFS(t_i)，得到带有权值的特征集合：

其中，k表示类别编号，P(C_k)表示属于类C_k的文档数量在整个数据集中所占的比例；当min(wtpr，wfpr)为0时，AtanfAc值为1；

步骤2.5、根据步骤2.4得到的最优特征子集分别对训练集文档和测试集文档进行处理，删去最优特征子集中不包含的特征词，保留最优特征子集中存在的特征词，完成对训练集和测试集数据的降维操作；

步骤4、利用Macro-F1和Micro-F1评估指标对分类器的分类效果进行评估，Macro-F1和Micro-F1分数越高，则证明分类的效果越好，进而证明特征选择算法性能越好。

在对比实验中，使用K1a、R8、RE1、RE0、WAP五种数据集进行测试。其中，K1a，RE1，RE0，WAP是从明尼苏达大学Karypis实验室获取的文本类型数据集，R8由经典的文本类型数据集Reuters21578经过处理后获得，其中包含大量的经济新闻。

为了验证基于归一化词频权重的特征选择算法的性能，将本发明与最大最小比率(MMR)、卡方检验(CHI)、基尼系数(GINI)、泊松偏离度测量(DP)、信息增益(IG)、词频逆文档频率(TFIDF)六种算法进行对比。从图2a-图2d可以看到，在K1a数据集上，本发明的性能表现在超过半数的对比点处均优于对比算法，取得较好的Macro-F1、Micro-F1得分。从图3a-图3d可以看到在R8数据集上，当使用Macro-F1指标进行度量时，本发明在较低维度范围取得最高值，在高维度范围内性能不如其它算法。当使用Micro-F1指标进行度量时，本发明在多个对比点处表现较差，仅在4个对比点处取得最高得分。从图4a-图4d可以看出对于RE1数据集，本发明在低维度范围取得最高的Macro-F1得分，而在高维度点上表现不如其他算法，对于Micro-F1而言，本发明均在50到200维度范围内取得最高值。从图5a-图5d可以看到在RE0数据集上，本发明在大部分对比点处均取得最大值，当使用NB分类器时，本发明的Micro-F1得分不如其它算法。从图6a-图6d可以看到对于WAP数据集，本发明的整体性能稳定，在多数对比点处性能均优于其它对比算法。