CN113657106B - 基于归一化词频权重的特征选择方法 - Google Patents

基于归一化词频权重的特征选择方法 Download PDF

Info

Publication number
CN113657106B
CN113657106B CN202110758265.8A CN202110758265A CN113657106B CN 113657106 B CN113657106 B CN 113657106B CN 202110758265 A CN202110758265 A CN 202110758265A CN 113657106 B CN113657106 B CN 113657106B
Authority
CN
China
Prior art keywords
feature
class
document
word
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110758265.8A
Other languages
English (en)
Other versions
CN113657106A (zh
Inventor
周红芳
李想
王晨光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
It's Also A Pleasure For Youpeng Beijing Technology Co ltd
Original Assignee
It's Also A Pleasure For Youpeng Beijing Technology Co ltd
Filing date
Publication date
Application filed by It's Also A Pleasure For Youpeng Beijing Technology Co ltd filed Critical It's Also A Pleasure For Youpeng Beijing Technology Co ltd
Priority to CN202110758265.8A priority Critical patent/CN113657106B/zh
Publication of CN113657106A publication Critical patent/CN113657106A/zh
Application granted granted Critical
Publication of CN113657106B publication Critical patent/CN113657106B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开一种基于归一化词频权重的特征选择方法,提取特征词在每篇文档中的词频并使用对率函数对其进行归一化处理,实现文档频率层面的词频加权。与此同时,本发明使用反正切归一化方法对MMR算法中最大最小比率部分进行处理,避免出现全局得分过大、与特征词的实际类别分辨能力不符的问题。实验结果显示本发明性能良好,提高了学习算法的执行效率以及分类结果的正确率,是可靠的特征选择算法。

Description

基于归一化词频权重的特征选择方法
技术领域
本发明属于应用自然语言处理技术领域,涉及基于归一化词频权重的特征选择方法。
背景技术
随着信息化技术的不断更新,大量非结构化文本数据在网络上涌现。如何在混杂的数据中提取有价值的信息成为人们关注的焦点。仅仅依赖传统的人工方法处理海量数据不仅效率低下,同时耗费大量的人力、物力和财力,造成资源的浪费。自动文本分类技术的应用很好地解决了上述问题,它将数据集中的每一篇文档进行类别的划分,使人们从中获取有价值的信息,筛选掉无用信息,提高了信息处理的效率。
由于文本类型数据的特征空间维数常常达到几千甚至上万数量级,其中含有大量不相关以及冗余特征,严重影响着分类的效率与准确率,因此在分类前完成特征选择是必要的。特征选择根据一定的判别准则,通过选取与类别高度相关且具有较低冗余性的特征,加快数据挖掘算法的执行效率,提高了分类算法的性能。特征选择通常分为四种类型:过滤式、包装式、嵌入式以及混合式。过滤式特征选择算法使用独立的评价函数,由于其完全独立于机器学习算法,具有低成本、高效率的计算特点,常常应用于自动文本分类中。
大部分过滤式特征选择算法基于文档频率来评估特征词所携带的分类信息量的大小,却忽略了词频(即特征词在一篇文档中具体出现的次数)的影响。基于最大最小比率度量的特征选择算法(MMR)是经典的基于文档频率的算法,尽管拥有较好的对具有高相关性的特征词的筛选能力,却忽略了词频所带来的微观层面的影响。
发明内容
本发明的目的是提供一种基于归一化词频权重的特征选择方法,具有不仅考虑特征词在对应类别中出现的文档数量,同时考虑其在一篇文档内出现的具体次数即词频所带来的影响,最终选择出与类别相关性更大的特征词的特点。
本发明所采用的技术方案是,基于归一化词频权重的特征选择方法,具体按照以下步骤实施:
步骤1、选取拥有不同文档数量、类别数量以及包含不同特征词个数的文本类型数据集,对数据集进行预处理并划分训练集和测试集;
步骤2、设置最终选择出的特征子集的元素个数为C,首先使用特征排序函数计算训练集中所有出现的特征词的得分,根据得分情况对特征词进行降序排列,选择排名为前C的特征词作为最优特征子集的元素,根据最优特征子集分别对训练集和测试集数据进行降维处理;
步骤3、利用步骤2得到的训练集分别对朴素贝叶斯分类器和支持向量机分类器进行训练,使用训练出的分类模型对经步骤2处理后的测试集文档的类别进行预测,完成分类操作;
步骤4、利用Macro-F1和Micro-F1评估指标对分类器的分类效果进行评估。
本发明的特点还在于:
步骤1中预处理为剪枝处理,具体为,将数据集中出现的文档数多于总数的25%或少于3篇的特征词删除;划分数据集采用十折交叉验证法。
步骤2具体按照以下步骤实施:
步骤2.1、计算训练集数据特征词的加权真正率wtpr以及加权假正率wfpr;
步骤2.2、计算训练集数据特征词的反正切归一化因子atanfac以及正类影响因子poski
步骤2.3、计算特征词ti的全局得分NTWFS(ti),得到带有权值的特征词集合;
步骤2.4、根据每个特征词的全局得分对训练集的所有特征进行降序排序,选择排名为前C的特征词构成最优特征子集;
步骤2.5、根据步骤2.4得到的最优特征子集分别对训练集文档和测试集文档进行处理,完成对训练集和测试集数据的降维操作。
步骤2.1具体按照以下步骤实施:
步骤2.1.1、使用对率函数将特征词ti在文档dj中出现的频率tfij进行归一化处理,得到归一化词频权重Logistic(tfij),如公式1所示,
其中,tfij表示特征词ti在文档dj中出现的次数;
步骤2.1.2、根据公式2和3计算特征词ti在Ck类中的加权真正率wtpr,
其中,N为数据集的文档总数,Nk为类Ck中的文档总数,k表示类别序号,Ipos(dj,Ck)用来判断文档dj是否属于类Ck,当文档dj属于类Ck时Ipos(dj,Ck)为1,反之为0;
步骤2.1.3、根据公式4和5计算特征词ti类中的加权假正率wfpr,
其中,用来判断文档dj是否属于非Ck类,当文档dj属于非Ck类时为1,反之为0。
步骤2.2具体按照以下步骤实施:
步骤2.2.1、利用反正切函数对最大最小比率因子进行归一化,得到反正切归一化因子atanfac,如公式6所示,
步骤2.2.2、根据公式7计算特征词ti的正类影响因子poski
其中,tp表示在类ck中特征词ti出现的文档数量,fn表示在类ck中特征词ti没有出现的文档数量,fp表示非ck类中特征词ti出现的文档数量,tn表示在非ck类中特征词ti没有出现的文档数量。
步骤2.3具体为,根据公式8计算特征词ti的全局得分NTWFS(ti),得到带有权值的特征集合:
其中,k表示类别编号,P(Ck)表示属于类Ck的文档数量在整个数据集中所占的比例;当min(wtpr,wfpr)为0时,atanfac值为1。
步骤2.5中对训练集文档和测试集文档进行处理,具体为,删去最优特征子集中不包含的特征词,保留最优特征子集中存在的特征词。
本发明的有益效果是:本发明基于归一化词频权重的特征选择方法在计算特征词的重要性时将特征词在每篇文档中出现的次数考虑在内,使用对率函数对特征词在每篇文档中的词频进行归一化处理,避免出现数值过大影响全局得分的情况。除此之外,由于本发明是基于MMR算法进行改进的,本发明使用反正切归一化方法对最大最小比率部分进行处理,解决了当min(wtpr,wfpr)无限接近0时造成整个比值过大,进而导致全局得分过大,与特征词的实际类别辨别能力不符的问题。本发明可以准确地评估特征词的类别分辨能力,与原有算法相比较性能有一定程度的提高。
附图说明
图1是本发明基于归一化词频权重的特征选择方法的流程图;
图2a-图2d是本发明基于归一化词频权重的特征选择方法与现有技术在K1a数据集上,在不同特征词维数下依次使用朴素贝叶斯分类器、支持向量机分类器进行分类时得到的Macro-F1、Micro-F1对比结果;
图3a-图3d是本发明与现有技术在R8数据集上,在不同特征词维数下依次使用朴素贝叶斯分类器、支持向量机分类器进行分类时得到的Macro-F1、Micro-F1对比结果;
图4a-图4d是本发明与现有技术在RE1数据集上,在不同特征词维数下依次使用朴素贝叶斯分类器、支持向量机分类器进行分类时得到的Macro-F1、Micro-F1对比结果;
图5a-图5d是本发明与现有技术在RE0数据集上,在不同特征词维数下依次使用朴素贝叶斯分类器、支持向量机分类器进行分类时得到的Macro-F1、Micro-F1对比结果;
图6a-图6d是本发明与现有技术在WAP数据集上,在不同特征词维数下依次使用朴素贝叶斯分类器、支持向量机分类器进行分类时得到的Macro-F1、Micro-F1对比结果
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明基于归一化词频权重的特征选择方法,如图1所示,具体按照以下步骤实施:
步骤1、选取拥有不同文档数量、类别数量以及包含不同特征词个数的文本类型数据集,对数据集进行剪枝处理,具体为,将数据集中出现的文档数多于总数的25%或少于3篇的特征词删除,并采用十折交叉验证法处理未划分训练集和测试集的数据集;
步骤2、设置最终选择出的特征子集的元素个数为C,首先使用特征排序函数计算训练集中所有出现的特征词的得分,根据得分情况对特征词进行降序排列,选择排名为前C的特征词作为最优特征子集的元素,根据最优特征子集分别对训练集和测试集数据进行降维处理;具体按照以下步骤实施:
步骤2.1、计算训练集数据特征词的加权真正率wtpr以及加权假正率wfpr;具体按照以下步骤实施:
步骤2.1.1、使用对率函数将特征词ti在文档dj中出现的频率tfij进行归一化处理,得到归一化词频权重Logistic(tfij),如公式1所示,
其中,tfij表示特征词ti在文档dj中出现的次数;
步骤2.1.2、根据公式2和3计算特征词ti在Ck类中的加权真正率wtpr,
其中,N为数据集的文档总数,Nk为类Ck中的文档总数,k表示类别序号,Ipos(dj,Ck)用来判断文档dj是否属于类Ck,当文档dj属于类Ck时Ipos(dj,Ck)为1,反之为0;
步骤2.1.3、根据公式4和5计算特征词ti类中的加权假正率wfpr,
其中,用来判断文档dj是否属于非Ck类,当文档dj属于非Ck类时为1,反之为0;
步骤2.2、计算训练集数据特征词的反正切归一化因子atanfac以及正类影响因子poski;具体按照以下步骤实施:
步骤2.2.1、利用反正切函数对最大最小比率因子进行归一化,得到反正切归一化因子atanfac,如公式6所示,
步骤2.2.2、根据公式7计算特征词ti的正类影响因子poski
其中,tp表示在类ck中特征词ti出现的文档数量,fn表示在类ck中特征词ti没有出现的文档数量,fp表示非ck类中特征词ti出现的文档数量,tn表示在非ck类中特征词ti没有出现的文档数量;
步骤2.3、计算特征词ti的全局得分NTWFS(ti),得到带有权值的特征词集合;具体为,根据公式8计算特征词ti的全局得分NTWFS(ti),得到带有权值的特征集合:
其中,k表示类别编号,P(Ck)表示属于类Ck的文档数量在整个数据集中所占的比例;当min(wtpr,wfpr)为0时,AtanfAc值为1;
步骤2.4、根据每个特征词的全局得分对训练集的所有特征进行降序排序,选择排名为前C的特征词构成最优特征子集;
步骤2.5、根据步骤2.4得到的最优特征子集分别对训练集文档和测试集文档进行处理,删去最优特征子集中不包含的特征词,保留最优特征子集中存在的特征词,完成对训练集和测试集数据的降维操作;
步骤3、利用步骤2得到的训练集分别对朴素贝叶斯分类器和支持向量机分类器进行训练,使用训练出的分类模型对经步骤2处理后的测试集文档的类别进行预测,完成分类操作;
步骤4、利用Macro-F1和Micro-F1评估指标对分类器的分类效果进行评估,Macro-F1和Micro-F1分数越高,则证明分类的效果越好,进而证明特征选择算法性能越好。
在对比实验中,使用K1a、R8、RE1、RE0、WAP五种数据集进行测试。其中,K1a,RE1,RE0,WAP是从明尼苏达大学Karypis实验室获取的文本类型数据集,R8由经典的文本类型数据集Reuters21578经过处理后获得,其中包含大量的经济新闻。
为了验证基于归一化词频权重的特征选择算法的性能,将本发明与最大最小比率(MMR)、卡方检验(CHI)、基尼系数(GINI)、泊松偏离度测量(DP)、信息增益(IG)、词频逆文档频率(TFIDF)六种算法进行对比。从图2a-图2d可以看到,在K1a数据集上,本发明的性能表现在超过半数的对比点处均优于对比算法,取得较好的Macro-F1、Micro-F1得分。从图3a-图3d可以看到在R8数据集上,当使用Macro-F1指标进行度量时,本发明在较低维度范围取得最高值,在高维度范围内性能不如其它算法。当使用Micro-F1指标进行度量时,本发明在多个对比点处表现较差,仅在4个对比点处取得最高得分。从图4a-图4d可以看出对于RE1数据集,本发明在低维度范围取得最高的Macro-F1得分,而在高维度点上表现不如其他算法,对于Micro-F1而言,本发明均在50到200维度范围内取得最高值。从图5a-图5d可以看到在RE0数据集上,本发明在大部分对比点处均取得最大值,当使用NB分类器时,本发明的Micro-F1得分不如其它算法。从图6a-图6d可以看到对于WAP数据集,本发明的整体性能稳定,在多数对比点处性能均优于其它对比算法。

Claims (3)

1.基于归一化词频权重的特征选择方法,其特征在于,具体按照以下步骤实施:
步骤1、选取拥有不同文档数量、类别数量以及包含不同特征词个数的文本类型数据集,对数据集进行预处理并划分出训练集和测试集;
步骤2、设置最终选择出的特征子集的元素个数为C,首先使用特征排序函数计算训练集中所有出现的特征词的得分,根据得分情况对特征词进行降序排列,选择排名为前C的特征词作为最优特征子集的元素,根据最优特征子集分别对训练集和测试集数据进行降维处理;
所述步骤2具体按照以下步骤实施:
步骤2.1、计算训练集数据特征词的加权真正率wtpr以及加权假正率wfpr;
步骤2.2、计算训练集数据特征词的反正切归一化因子atanfac以及正类影响因子poski
步骤2.3、计算特征词ti的全局得分NTWFS(ti),得到带有权值的特征词集合;
步骤2.4、根据每个特征词的全局得分对训练集的所有特征进行降序排序,选择排名为前C的特征词构成最优特征子集;
步骤2.5、根据步骤2.4得到的最优特征子集分别对训练集文档和测试集文档进行处理,完成对训练集和测试集数据的降维操作;
所述步骤2.1具体按照以下步骤实施:
步骤2.1.1、使用对率函数将特征词ti在文档dj中出现的频率tfij进行归一化处理,得到归一化词频权重Logistic(tfij),如公式1所示,
其中,tfij表示特征词ti在文档dj中出现的次数;
步骤2.1.2、根据公式2和3计算特征词ti在Ck类中的加权真正率wtpr,
其中,N为数据集的文档总数,Nk为类Ck中的文档总数,k表示类别序号,Ipos(dj,Ck)用来判断文档dj是否属于类Ck,当文档dj属于类Ck时Ipos(dj,Ck)为1,反之为0;
步骤2.1.3、根据公式4和5计算特征词ti类中的加权假正率wfpr,
其中,用来判断文档dj是否属于非Ck类,当文档dj属于非Ck类时为1,反之为0;
所述步骤2.2具体按照以下步骤实施:
步骤2.2.1、利用反正切函数对最大最小比率因子进行归一化,得到反正切归一化因子atanfac,如公式6所示,
步骤2.2.2、根据公式7计算特征词ti的正类影响因子poski
其中,tp表示在类ck中特征词ti出现的文档数量,fn表示在类ck中特征词ti没有出现的文档数量,fp表示非ck类中特征词ti出现的文档数量,tn表示在非ck类中特征词ti没有出现的文档数量;
所述步骤2.3具体为,根据公式8计算特征词ti的全局得分NTWFS(ti),得到带有权值的特征集合:
其中,k表示类别编号,P(Ck)表示属于类Ck的文档数量在整个数据集中所占的比例;当min(wtpr,wfpr)为0时,atanfac值为1;
步骤3、利用步骤2得到的训练集分别对朴素贝叶斯分类器和支持向量机分类器进行训练,使用训练出的分类模型对经步骤2处理后的测试集文档的类别进行预测,完成分类操作;
步骤4、利用Macro-F1和Micro-F1评估指标对分类器的分类效果进行评估。
2.根据权利要求1所述的基于归一化词频权重的特征选择方法,其特征在于,所述步骤1中预处理为剪枝处理,具体为,将数据集中出现的文档数多于总数的25%或少于3篇的特征词删除;划分数据集采用十折交叉验证法。
3.根据权利要求1所述的基于归一化词频权重的特征选择方法,其特征在于,所述步骤2.5中对训练集文档和测试集文档进行处理,具体为,删去最优特征子集中不包含的特征词,保留最优特征子集中存在的特征词。
CN202110758265.8A 2021-07-05 基于归一化词频权重的特征选择方法 Active CN113657106B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110758265.8A CN113657106B (zh) 2021-07-05 基于归一化词频权重的特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110758265.8A CN113657106B (zh) 2021-07-05 基于归一化词频权重的特征选择方法

Publications (2)

Publication Number Publication Date
CN113657106A CN113657106A (zh) 2021-11-16
CN113657106B true CN113657106B (zh) 2024-06-21

Family

ID=

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224695A (zh) * 2015-11-12 2016-01-06 中南大学 一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置
CN108108462A (zh) * 2017-12-29 2018-06-01 河南科技大学 一种基于特征分类的文本情感分析方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224695A (zh) * 2015-11-12 2016-01-06 中南大学 一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置
CN108108462A (zh) * 2017-12-29 2018-06-01 河南科技大学 一种基于特征分类的文本情感分析方法

Similar Documents

Publication Publication Date Title
CN107193959B (zh) 一种面向纯文本的企业实体分类方法
CN108363810B (zh) 一种文本分类方法及装置
CN108898479B (zh) 信用评价模型的构建方法及装置
CN104750844B (zh) 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
CN107391772B (zh) 一种基于朴素贝叶斯的文本分类方法
WO2022126810A1 (zh) 文本聚类方法
CN103995876A (zh) 一种基于卡方统计和smo算法的文本分类方法
CN105975518B (zh) 基于信息熵的期望交叉熵特征选择文本分类系统及方法
CN109271517B (zh) Ig tf-idf文本特征向量生成及文本分类方法
CN104834940A (zh) 一种基于支持向量机的医疗影像检查疾病分类方法
CN102622373A (zh) 一种基于tf*idf算法的统计学文本分类系统及方法
CN111143842A (zh) 一种恶意代码检测方法及系统
CN111144106B (zh) 一种不平衡数据集下的两阶段文本特征选择方法
CN111709439B (zh) 基于词频偏差率因子的特征选择方法
CN109522544A (zh) 基于卡方检验的句向量计算方法、文本分类方法及系统
CN106570076A (zh) 一种计算机文本分类系统
CN111539451A (zh) 样本数据优化方法、装置、设备及存储介质
CN111309577A (zh) 一种面向Spark的批处理应用执行时间预测模型构建方法
CN109376235B (zh) 基于文档层词频重排序的特征选择方法
CN113626604A (zh) 基于最大间隔准则的网页文本分类系统
CN113657106B (zh) 基于归一化词频权重的特征选择方法
CN106991171A (zh) 基于智慧校园信息服务平台的话题发现方法
CN116204647A (zh) 一种目标比对学习模型的建立、文本聚类方法及装置
CN113792141A (zh) 基于协方差度量因子的特征选择方法
CN113657106A (zh) 基于归一化词频权重的特征选择方法

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20240409

Address after: 518000 1002, Building A, Zhiyun Industrial Park, No. 13, Huaxing Road, Henglang Community, Longhua District, Shenzhen, Guangdong Province

Applicant after: Shenzhen Wanzhida Technology Co.,Ltd.

Country or region after: China

Address before: 710048 Shaanxi province Xi'an Beilin District Jinhua Road No. 5

Applicant before: XI'AN University OF TECHNOLOGY

Country or region before: China

TA01 Transfer of patent application right

Effective date of registration: 20240524

Address after: Room 304, 3rd Floor, Building 21, Zone 2, Tiantong Zhongyuan, Dongxiaokou Town, Changping District, Beijing, 100000

Applicant after: It's Also A Pleasure For Youpeng (Beijing) Technology Co.,Ltd.

Country or region after: China

Address before: 518000 1002, Building A, Zhiyun Industrial Park, No. 13, Huaxing Road, Henglang Community, Longhua District, Shenzhen, Guangdong Province

Applicant before: Shenzhen Wanzhida Technology Co.,Ltd.

Country or region before: China

GR01 Patent grant