CN113792141B - 基于协方差度量因子的特征选择方法 - Google Patents

基于协方差度量因子的特征选择方法 Download PDF

Info

Publication number
CN113792141B
CN113792141B CN202110965070.0A CN202110965070A CN113792141B CN 113792141 B CN113792141 B CN 113792141B CN 202110965070 A CN202110965070 A CN 202110965070A CN 113792141 B CN113792141 B CN 113792141B
Authority
CN
China
Prior art keywords
feature
class
data
training set
formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110965070.0A
Other languages
English (en)
Other versions
CN113792141A (zh
Inventor
周红芳
李想
王晨光
连延彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Yunxi Technology Co ltd
Original Assignee
Guangdong Yunxi Technology Co ltd
Filing date
Publication date
Application filed by Guangdong Yunxi Technology Co ltd filed Critical Guangdong Yunxi Technology Co ltd
Priority to CN202110965070.0A priority Critical patent/CN113792141B/zh
Publication of CN113792141A publication Critical patent/CN113792141A/zh
Application granted granted Critical
Publication of CN113792141B publication Critical patent/CN113792141B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开的基于协方差度量因子的特征选择方法,在原有的三角比较度量算法(TCM)的基础上,引入协方差度量因子的概念,通过计算特征词与类别的协方差值,在文档频率层面进一步衡量特征与类别之间的相关性。验证本发明的性能时使用朴素贝叶斯算法进行分类操作,并使用宏F1和微F1对分类效果进行评估。本发明可以更好地筛选出与类别高度相关的特征词,是一种可靠的特征选择算法,提高了分类的准确率与效率。

Description

基于协方差度量因子的特征选择方法
技术领域
本发明属于文本分类方法技术领域,具体涉及一种基于协方差度量因子的特征选择方法。
背景技术
随着大数据技术的广泛应用,非结构化文本信息在万维网上大量涌现,并被计算机存储和处理,例如音乐、视频软件上的用户评论;电商平台的用户反馈、采购记录;社交平台的随文、评论等。处理庞大的非结构化文本数据必须利用数据挖掘以及自然语言处理等技术,其中文本分类被广泛应用,通过模型的学习将文本数据划分为不同的类别,方便了数据的进一步处理。文本类型数据常常由数以万计的特征词组成,其中包含大量不相关的以及冗余的特征,它们对分类性能产生消极的影响。特征空间维数过大反而降低了分类器的分类性能,出现Hughes现象。因此在数据预处理阶段进行特征降维操作是必不可少的。
特征选择是常用的降维技术,依据一定的判别准则来衡量特征所包含的分类信息的大小,从特征空间中选择出最优特征子集,减少了特征空间的维度,避免了“过拟合”现象的发生,提高了分类的效率和准确率。特征选择算法通常可以分为三种类型:过滤式、包装式以及嵌入式。
由于过滤式特征选择独立于学习算法,具有高计算效率、低成本的特点,被广泛应用于文本类型数据的处理上。许多基于文档频率的过滤式特征选择方法被提出。JiemingYang等人提出类内和类间的综合度量方法(CMFS),同时考虑特征词在一个类中以及整个数据集中的分布情况;Alper Kursat U ysal等人提出一种基于概率的过滤式特征选择器(DFS),可以对特征词在整个数据集上的全局类别分辨能力进行有效的评估;Hiroshi等人提出基于泊松偏离度度量的特征选择算法,利用特征词在每个类中的实际概率分布与标准泊松分布之间的偏差程度来衡量特征词所携带的类别相关信息量。最大最小比率算法(MMR)用来处理具有高度稀疏性且类别高度倾斜的文本数据。三角比较度量算法(TCM)考虑类和类之间特征词的文档频率的相对大小,对只在一个类中频繁出现、其他类中几乎不出现的特征词赋予更高的分数。本发明在三角比较度量算法的基础上引入协方差的概念,提出基于协方差度量因子的特征选择方法,通过计算特征词与对应类别的协方差值,在文档频率层面进一步衡量两者的相关性大小。
发明内容
本发明的目的在于提供一种基于协方差度量因子的特征选择方法,在三角比较度量算法的基础上进一步计算特征词与对应类别的协方差值,最终选择出与类别高度相关的词语,实现降维的目的。
本发明所采用的技术方案是:基于协方差度量因子的特征选择方法,包括以下步骤:
步骤1、选取不同的文本类型数据集进行预处理操作,利用向量空间模型对文本数据进行表示,将数据中出现的文档数多于总数的25%或少于3篇的特征词去掉,之后将数据集划分为训练集和测试集;
步骤2、设置最优特征子集的大小为C,使用特征排序函数计算训练集数据每个特征词的得分,按照分数对特征词进行降序排列,选择排名为前C的特征词作为最优特征子集的元素,根据得到的最优特征子集分别完成对训练集和测试集数据的降维处理;
步骤3、利用步骤2得到的训练集数据Dtrain对朴素贝叶斯分类器进行训练,并将训练好的模型对测试集数据Dtest中的每一个样本x预测其对应的类别完成对降维后的测试集样本的分类操作。
本发明的特点还在于,
步骤1中的预处理操作包括分词操作,并去除文本中的停用词。
步骤1中将数据集划分为训练集和测试集具体为:随机选取数据集中90%的样本作为训练集数据,将剩下的10%的样本作为测试集数据。
步骤2具体包括以下步骤:
步骤2.1、根据公式(1)计算训练集特征词ti与类别ck的协方差度量因子cov(ti,ck);
式(1)中,tp表示类ck中特征词ti出现的文档数量,fn表示类ck中特征词ti没有出现的文档数量,fp表示非ck类中特征词ti出现的文档数量,N表示数据集的文档总数;
步骤2.2、根据公式(2)计算训练集特征词ti的三角比较度量因子TCM(ti,ck)得分;
TCM(ti,ck)=(2 max(sin2θ,cos2θ)-1)m|tpr-fpr| (2)
式(2)中,tpr和fpr分别表示特征词ti在类ck中的真正率和假正率θ表示特征词ti对应的向量(tpr,fpr)与距离最近的坐标轴之间的夹角,参数m控制着TCM算法中三角度量因子对特征词整体分数的影响;
步骤2.3、根据公式(3)计算特征词ti的全局得分COV-TCM(ti),得到带有权值的特征集合;
式(3)中,k表示类别编号,P(ck)表示属于类ck的文档数量在整个数据集中所占的比例;
步骤2.4、根据训练集中每个特征词的COV-TCM得分对特征进行降序排序,选择排名前C的特征词作为最优特征;
步骤2.5、分别对训练集和测试集数据进行处理,删去文档中最优特征子集不包含的特征词,保留最优特征子集包含的特征词,得到降维处理的训练集数据Dtrain和测试集数据Dtest
步骤3具体包括以下步骤:
步骤3.1、根据公式(4)计算训练集中类别ck的先验概率
式(4)中,Nk表示类ck中所包含的文档总数,N表示数据集的文档总数;
步骤3.2、根据公式(5)计算训练集中类别ck的样本均值
式(5)中,Dk表示类别为ck的文档的集合,Dk={xj|yj=ck},xj表示Dk中第j个文档,yj表示样本xj对应的标签;
步骤3.3、根据公式(6)计算训练集中类别ck的居中数据矩阵Zk
步骤3.4、根据公式(7)计算训练集中类别ck针对特征ti,i=1,2,...,C的方差;
式(7)中,Zki表示类别ck中特征ti的居中数据,C表示降维后的训练集样本特征维度大小;
步骤3.5、根据公式(8)和(9)对测试集数据中样本x,x={t1,t2,...,tC}进行类别的预测,返回具有最大后验概率的类,即样本对应的类别完成对测试集样本的分类操作;
本发明的有益效果是:本发明基于协方差度量因子的特征选择方法,在原有的TCM算法基础上,引入协方差度量因子的概念,通过计算特征词与类别的协方差值,在文档频率层面进一步衡量特征与类别之间的相关性。本发明更好地筛选出与类别高度相关的特征词,是可靠的特征选择算法。
附图说明
图1是本发明基于协方差度量因子的特征选择方法的流程图;
图2(a)-图2(b)是在RE1数据集上,使用朴素贝叶斯分类器进行分类时,本发明基于协方差度量因子的特征选择方法与现有技术在不同特征维数下的Macro-F1、Micro-F1对比结果;
图3(a)-图3(b)是在K1b数据集上,使用朴素贝叶斯分类器进行分类时,本发明与现有技术在不同特征维数下的Macro-F1、Micro-F1对比结果;
图4(a)-图4(b)是在R52数据集上,使用朴素贝叶斯分类器进行分类时,本发明与现有技术在不同特征维数下的Macro-F1、Micro-F1对比结果;
图5(a)-图5(b)是在R8数据集上,使用朴素贝叶斯分类器进行分类时,本发明与现有技术在不同特征维数下的Macro-F1、Micro-F1对比结果;
图6(a)-图6(b)是在20Newsgroups数据集上,使用朴素贝叶斯分类器进行分类时,本发明与现有技术在不同特征维数下的Macro-F1、Micro-F1对比结果。
具体实施方式
下面结合附图以及具体实施方式对本发明进行详细说明。
本发明提供了一种基于协方差度量因子的特征选择方法,如图1所示,具体按照以下步骤实施:
步骤1、选取不同的文本类型数据集,并进行预处理操作,即进行分词操作,并去除文本中的停用词。利用向量空间模型对文本数据进行表示,将数据中出现的文档数多于总数的25%或少于3篇的特征词去掉。对数据集按照9:1的比例进行划分,即随机选取数据集中90%的样本作为训练集数据,将剩下的10%的样本作为测试集数据。
步骤2、设置最优特征子集的大小为C,使用特征排序函数计算训练集数据每个特征词的得分,按照分数对特征词进行降序排列,选择排名为前C的特征词作为最优特征子集的元素,根据得到的最优特征子集分别完成对训练集和测试集数据的降维处理;具体如下:
步骤2.1、根据公式(1)计算训练集特征词ti与类别ck的协方差度量因子cov(ti,ck);
其中,tp表示类ck中特征词ti出现的文档数量,fn表示类ck中特征词ti没有出现的文档数量,fp表示非ck类中特征词ti出现的文档数量,N表示数据集的文档总数;
步骤2.2、根据公式(2)计算训练集特征词ti的三角比较度量因子TCM(ti,ck)得分;
TCM(ti,ck)=(2 max(sin2θ,cos2θ)-1)m|tpr-fpr| (2)
其中,tpr和fpr分别表示特征词ti在类ck中的真正率和假正率θ表示特征词ti对应的向量(tpr,fpr)与距离最近的坐标轴之间的夹角,参数m控制着TCM算法中三角度量因子对特征词整体分数的影响,m取100时算法效果最优。
步骤2.3、根据公式(3)计算特征词ti的全局得分COV-TCM(ti),得到带有权值的特征集合;
其中,k表示类别编号,P(ck)表示属于类ck的文档数量在整个数据集中所占的比例。
步骤2.4、根据训练集中每个特征词的COV-TCM得分对特征进行降序排序,选择排名前C的特征词作为最优特征;
步骤2.5、分别对训练集和测试集数据进行处理,删去文档中最优特征子集不包含的特征词,保留最优特征子集包含的特征词,得到降维处理的训练集数据Dtrain和测试集数据Dtest
步骤3、利用步骤2得到的训练集数据Dtrain对朴素贝叶斯分类器进行训练,并将训练好的模型对测试集数据Dtest中的每一个样本x预测其对应的类别完成对降维后的测试集样本的分类操作;具体包括以下步骤:
步骤3.1、根据公式(4)计算训练集中类别ck的先验概率
式(4)中,Nk表示类ck中所包含的文档总数,N表示数据集的文档总数;
步骤3.2、根据公式(5)计算训练集中类别ck的样本均值
式(5)中,Dk表示类别为ck的文档的集合,Dk={xj|yj=ck},xj表示Dk中第j个文档,yj表示样本xj对应的标签;
步骤3.3、根据公式(6)计算训练集中类别ck的居中数据矩阵Zk
步骤3.4、根据公式(7)计算训练集中类别ck针对特征ti,i=1,2,...,C的方差;
式(7)中,Zki表示类别ck中特征ti的居中数据,C表示降维后的训练集样本特征维度大小;
步骤3.5、根据公式(8)和(9)对测试集数据中样本x,x={t1,t2,...,tC}进行类别的预测,返回具有最大后验概率的类,即样本对应的类别完成对测试集样本的分类操作;
结果分析
利用Macro-F1以及Micro-F1评估指标对分类结果进行评估,Macro-F1和Micro-F1分数越高,则证明分类的效果越好,进而证明特征选择算法性能越好,具体如下:
在对比实验中,使用RE1、K1b、R8、R52、20 Newsgroups数据集进行测试。它们是机器学习领域常用的文本分类测试集。为了验证基于协方差度量因子的特征选择算法的性能,将本发明与优势率(odds)、最大最小比率(MMR)、互信息(MI)、卡方检验(CHI)、类内和类间的综合度量方法(CMFS)、基尼系数(GINI)、信息增益(IG)七种已有的特征选择算法进行对比。从图2(a)-图2(b)可以看到,在RE1数据集上,当使用朴素贝叶斯分类器时,除了在10维度对比点处本发明的Micro-F1得分略低于IG算法,取得第二的位次,在其它所有对比点处,本发明的Macro-F1与Micro-F1评估结果均取得最优值。从图3(a)-图3(b)可以看到,在K1b数据集上,本发明的性能在大部分对比点处均优于其他对比算法,最优情况占比75%。从图4(a)-图4(b)可以看出,在R52数据集上,当使用朴素贝叶斯分类器时,本发明的Macro-F1结果在所有对比点处均为最高值,而Micro-F1得分在较高维度范围内达到最高。从图5(a)-图5(b)可以看到,在R8数据集上,本发明整体性能表现较好,且在多个对比点处取得最高的分数。从图6(a)-图6(b)可以看到,在20Newsgroups数据集上,本发明在所有的对比点处性能均优于所有对比算法。本发明性能表现较好,是可靠的特征选择算法。

Claims (3)

1.基于协方差度量因子的特征选择方法,其特征在于,包括以下步骤:
步骤1、选取不同的文本类型数据集进行预处理操作,利用向量空间模型对文本数据进行表示,将数据中出现的文档数多于总数的25%或少于3篇的特征词去掉,之后将数据集划分为训练集和测试集;
步骤2、设置最优特征子集的大小为C,使用特征排序函数计算训练集数据每个特征词的得分,按照分数对特征词进行降序排列,选择排名为前C的特征词作为最优特征子集的元素,根据得到的最优特征子集分别完成对训练集和测试集数据的降维处理;具体包括以下步骤:
步骤2.1、根据公式(1)计算训练集特征词ti与类别ck的协方差度量因子cov(ti,ck);
式(1)中,tp表示类ck中特征词ti出现的文档数量,fn表示类ck中特征词ti没有出现的文档数量,fp表示非ck类中特征词ti出现的文档数量,表示数据集的文档总数;
步骤2.2、根据公式(2)计算训练集特征词ti的三角比较度量因子TCM(ti,ck)得分;
TCM(ti,ck)=(2max(sin2θ,cos2θ)-1)m|tpr-fpr| (2)
式(2)中,tpr和fpr分别表示特征词ti在类ck中的真正率和假正率θ表示特征词ti对应的向量(tpr,fpr)与距离最近的坐标轴之间的夹角,参数m控制着TCM算法中三角度量因子对特征词整体分数的影响;
步骤2.3、根据公式(3)计算特征词ti的全局得分COV-TCM(ti),得到带有权值的特征集合;
式(3)中,k表示类别编号,P(ck)表示属于类ck的文档数量在整个数据集中所占的比例;
步骤2.4、根据训练集中每个特征词的COV-TCM得分对特征进行降序排序,选择排名前C的特征词作为最优特征;
步骤2.5、分别对训练集和测试集数据进行处理,删去文档中最优特征子集不包含的特征词,保留最优特征子集包含的特征词,得到降维处理的训练集数据Dtrain和测试集数据Dtest
步骤3、利用步骤2得到的训练集数据Dtrain对朴素贝叶斯分类器进行训练,并将训练好的模型对测试集数据Dtest中的每一个样本x预测其对应的类别完成对降维后的测试集样本的分类操作;具体包括以下步骤:
步骤3.1、根据公式(4)计算训练集中类别ck的先验概率
式(4)中,Nk表示类ck中所包含的文档总数,N表示数据集的文档总数;
步骤3.2、根据公式(5)计算训练集中类别ck的样本均值
式(5)中,Dk表示类别为ck的文档的集合,Dk={xj|yj=ck},xj表示Dk中第j个文档,yj表示样本xj对应的标签;
步骤3.3、根据公式(6)计算训练集中类别ck的居中数据矩阵Zk
步骤3.4、根据公式(7)计算训练集中类别ck针对特征ti,i=1,2,…,C的方差;
式(7)中,Zki表示类别ck中特征ti的居中数据,C表示降维后的训练集样本特征维度大小;
步骤3.5、根据公式(8)和(9)对测试集数据中样本x,x={t1,t2,…,tC}进行类别的预测,返回具有最大后验概率的类,即样本对应的类别完成对测试集样本的分类操作;
2.如权利要求1所述的基于协方差度量因子的特征选择方法其特征在于,所述步骤1中的预处理操作包括分词操作,并去除文本中的停用词。
3.如权利要求1所述的基于协方差度量因子的特征选择方法其特征在于,所述步骤1中将数据集划分为训练集和测试集具体为:随机选取数据集中90%的样本作为训练集数据,将剩下的10%的样本作为测试集数据。
CN202110965070.0A 2021-08-20 基于协方差度量因子的特征选择方法 Active CN113792141B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110965070.0A CN113792141B (zh) 2021-08-20 基于协方差度量因子的特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110965070.0A CN113792141B (zh) 2021-08-20 基于协方差度量因子的特征选择方法

Publications (2)

Publication Number Publication Date
CN113792141A CN113792141A (zh) 2021-12-14
CN113792141B true CN113792141B (zh) 2024-07-05

Family

ID=

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709463A (zh) * 2020-05-29 2020-09-25 西安理工大学 基于指数协同度量的特征选择方法
CN111709439A (zh) * 2020-05-06 2020-09-25 西安理工大学 基于词频偏差率因子的特征选择方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709439A (zh) * 2020-05-06 2020-09-25 西安理工大学 基于词频偏差率因子的特征选择方法
CN111709463A (zh) * 2020-05-29 2020-09-25 西安理工大学 基于指数协同度量的特征选择方法

Similar Documents

Publication Publication Date Title
CN110928764B (zh) 移动应用众包测试报告自动化评估方法及计算机存储介质
CN111695626A (zh) 基于混合采样与特征选择的高维度不平衡数据分类方法
CN110188047B (zh) 一种基于双通道卷积神经网络的重复缺陷报告检测方法
CN110826618A (zh) 一种基于随机森林的个人信用风险评估方法
CN112633337A (zh) 一种基于聚类和边界点的不平衡数据处理方法
CN111343147A (zh) 一种基于深度学习的网络攻击检测装置及方法
CN111275127B (zh) 基于条件互信息的动态特征选择方法
CN113674862A (zh) 一种基于机器学习的急性肾功能损伤发病预测方法
CN109376235B (zh) 基于文档层词频重排序的特征选择方法
CN111863135B (zh) 一种假阳性结构变异过滤方法、存储介质及计算设备
CN114139634A (zh) 一种基于成对标签权重的多标签特征选择方法
CN113792141B (zh) 基于协方差度量因子的特征选择方法
CN113657106B (zh) 基于归一化词频权重的特征选择方法
CN109783586B (zh) 基于聚类重采样的水军评论检测方法
CN106529585A (zh) 一种基于大间隔投影空间学习的钢琴乐谱难度识别方法
CN113610148B (zh) 一种基于偏置加权AdaBoost的故障诊断方法
CN104778478A (zh) 一种手写数字识别方法
CN115271442A (zh) 基于自然语言评估企业成长性的建模方法及系统
CN113792141A (zh) 基于协方差度量因子的特征选择方法
CN113657441A (zh) 基于加权皮尔逊相关系数并结合特征筛选的分类算法
CN113010673A (zh) 一种基于熵优化支持向量机的漏洞自动分类方法
CN113515623B (zh) 基于词频差值因子的特征选择方法
KR20200113397A (ko) 데이터 불균형 해결을 위한 언더샘플링 기반 앙상블 방법
AlSaif Large scale data mining for banking credit risk prediction
CN112465009B (zh) 一种软件崩溃故障位置定位方法

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20240228

Address after: 518000 1002, Building A, Zhiyun Industrial Park, No. 13, Huaxing Road, Henglang Community, Longhua District, Shenzhen, Guangdong Province

Applicant after: Shenzhen Wanzhida Technology Co.,Ltd.

Country or region after: China

Address before: 710048 Shaanxi province Xi'an Beilin District Jinhua Road No. 5

Applicant before: XI'AN University OF TECHNOLOGY

Country or region before: China

TA01 Transfer of patent application right

Effective date of registration: 20240529

Address after: 512000, Room 208, No. 164 Jinjiang Avenue, Nancun Town, Panyu District, Guangzhou City, Guangdong Province

Applicant after: Guangdong Yunxi Technology Co.,Ltd.

Country or region after: China

Address before: 518000 1002, Building A, Zhiyun Industrial Park, No. 13, Huaxing Road, Henglang Community, Longhua District, Shenzhen, Guangdong Province

Applicant before: Shenzhen Wanzhida Technology Co.,Ltd.

Country or region before: China

GR01 Patent grant