CN111709463B - 基于指数协同度量的特征选择方法 - Google Patents

基于指数协同度量的特征选择方法 Download PDF

Info

Publication number
CN111709463B
CN111709463B CN202010474513.1A CN202010474513A CN111709463B CN 111709463 B CN111709463 B CN 111709463B CN 202010474513 A CN202010474513 A CN 202010474513A CN 111709463 B CN111709463 B CN 111709463B
Authority
CN
China
Prior art keywords
documents
category
data set
term
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010474513.1A
Other languages
English (en)
Other versions
CN111709463A (zh
Inventor
周红芳
马一鸣
李想
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Che Chengwei
Wang Yang
Original Assignee
Shenzhen Wanzhida Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Wanzhida Technology Co ltd filed Critical Shenzhen Wanzhida Technology Co ltd
Priority to CN202010474513.1A priority Critical patent/CN111709463B/zh
Publication of CN111709463A publication Critical patent/CN111709463A/zh
Application granted granted Critical
Publication of CN111709463B publication Critical patent/CN111709463B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于指数协同度量的特征选择方法,具体按照以下步骤实施:步骤1、获取数据集并进行预处理;步骤2、设置最优特征子集的大小为C,并对获取的数据集进行降维处理;步骤3、采用5折交叉验证的方法将降维后的数据集划分为测试集和训练集,并对测试集进行分类;步骤4、使用Macro‑F1和Micro‑F1评价准则对分类器的分类结果进行评估。解决了实际应用中数据集类别大小不平衡的问题,更加强调术语ti出现在正类中的文档频率的重要性。ECM算法弥补了MMR的不足之处,提高了特征选择的准确率以及分类的效率。

Description

基于指数协同度量的特征选择方法
技术领域
本发明应用于数据挖掘中文本分类技术领域,涉及一种基于指数协同度量的特征选择方法。
背景技术
随着移动网络和信息技术的不断普及,全球范围内产生的数据量正呈指数级速度增长。不同以往,现如今数据中非结构化类型数据的比重增大,其中以文本类型居多。对文本进行分类,可以大大提高计算机检索信息的速度。文本分类问题是自然语言领域的一个非常典型的问题,现已广泛应用到情感分析、舆情分析和邮件过滤等方面。
文本分类指的是将待分类文档标记为一个或者多个预定义类别的任务,例如在邮件检测中,把邮件分类为垃圾邮件和非垃圾邮件;在社交媒体上,把用户发表的文本进行分类,分析用户的情感;在新闻平台,根据文本的内容,将文本划分到不同的新闻类别中。文本分类在其他方面也有应用,可以使运营商更好地服务用户,促进企业的发展。
文本分类主要包括预处理、特征选择、构造分类模型、对待分类文档进行分类等过程。预处理是对训练集进行分词、去除停用词的操作。由于文本是由自然语言表示的,经过预处理,可以提取文本的特征,将其转换成计算机可以理解的方式。同时需要设置阈值,删除出现次数太多或者在各类中分布太广的特征项。文本中存在的大量冗余特征对分类结果有很大的影响,因此对经过预处理的数据集进行特征选择是必要的。选择相对重要的特征,去除不相关以及冗余的特征能够提高分类的正确性和效率。之后使用分类器构造分类模型,对待分类文档进行分类操作。最终可以通过查准率、查全率以及F1等度量方法验证特征选择算法的性能以及分类模型的好坏。
特征选择算法分为过滤式、包裹式和嵌入式三种类型,其中过滤式方法简单、易于运行,并且计算开销要小的多,所以在文本分类中运用最为广泛。过滤式算法为每一个特征项打分并排序,最终选择分数高的一系列特征作为输出的特征子集。经典的算法有信息增益(IG),优势率(OR),卡方检验(CHI),基尼系数(GINI)等。
通过对经典的特征选择算法的研究,我们发现这些算法最终输出的特征项更偏向于与所含文档数量较大的类别有关的术语,它们获得了更高的排名。由于一些类别的文档数量少,就不太考虑对该类别的文档具有高区分能力的特征词。在实际应用中,需要处理的数据集大多是不平衡的,因此,需要提出一种基于指数协同度量的特征选择方法。
发明内容
本发明的目的是提供一种基于指数协同度量的特征选择方法,解决大部分算法在进行特征降维时忽略类别的相对大小导致算法精度下降的问题。
本发明所采用的技术方案是,一种基于指数协同度量的特征选择方法,具体按照以下步骤实施:
步骤1、获取数据集并进行预处理;
步骤2、设置最优特征子集的大小为C,并对获取的数据集进行降维处理;
步骤3、采用5折交叉验证的方法将降维后的数据集划分为测试集和训练集,并对测试集进行分类;
步骤4、使用Macro-F1和Micro-F1评价准则对分类器的分类结果进行评估。
步骤1中数据集包括RE0、RE1、R52、R8、20 News-groups。
步骤1中预处理具体为,删除在文档中出现次数小于等于3篇和超过总文档数25%比例的术语。
本发明的特点还在于:
步骤2具体为:
步骤2.1:根据公式(1-2)计算每一个术语ti对应于类别ck的真阳性率tpr和假阳性率fpr;
其中,tp表示属于类别ck并且包含术语ti的文档数量,fn表示属于类别ck并且不包含术语ti的文档数量,fp表示不属于类别ck并且包含术语ti的文档数量,tn表示不属于类别ck并且不包含术语ti的文档数量;
步骤2.2:根据公式(3)计算术语ti对应于类别ck的最大最小比率λi,k
步骤2.3:根据公式(4)计算术语ti的权重值ECM(ti),并根据权重值对特征进行排序,输出最优特征子集;
其中,M代表数据集中类别的总数,p(ck)表示属于类别ck的文档数在整个数据集中所占的比例,k表示类别编号,p(ti)表示在整个数据集中包含特征词ti的文档数占总文档数的比例,α控制最大最小比率λi,k对整个算法的影响权重,通过将α分别置为1,10,50,100和500进行测试发现α值为50时算法性能达到最大;
步骤3采用朴素贝叶斯和支持向量机算法进行分类器训练进行分类。
步骤4中Macro-F1计算过程如下:
其中,Pk表示类别ck的查准率,Rk表示类别ck的查全率,k表示类别编号;
Micro-F1计算过程如下:
其中,TP表示实际属于正例且分类结果也为正例的文档数量,FP表示实际为反例、分类结果为正例的文档数量,FN代表的是实际为正例、分类结果为反例的文档数量,TN代表的是实际属于反例、分类结果也为反例的文档数量。
本发明的有益效果是:
本发明的有益效果是解决了实际应用中数据集类别大小不平衡的问题,更加强调术语ti出现在正类中的文档频率的重要性。ECM算法弥补了MMR的不足之处,提高了特征选择的准确率以及分类的效率。
附图说明
图1是本发明基于指数协同度量的特征选择方法的流程图;
图2是本发明基于指数协同度量的特征选择方法在RE0数据集上与Odds、MI、GINI、CHI、MMR、CMFS以及IG算法Micro-F1值、Macro-F1值的对比图;
图3是本发明基于指数协同度量的特征选择方法在RE1数据集上与Odds、MI、GINI、CHI、MMR、CMFS以及IG算法Micro-F1值、Macro-F1值的对比图;
图4是本发明基于指数协同度量的特征选择方法在R52数据集上与Odds、MI、GINI、CHI、MMR、CMFS以及IG算法Micro-F1值、Macro-F1值的对比图;
图5是本发明基于指数协同度量的特征选择方法在R8数据集上与Odds、MI、GINI、CHI、MMR、CMFS以及IG算法Micro-F1值、Macro-F1值的对比图;
图6是本发明基于指数协同度量的特征选择方法在20 News-groups数据集上与Odds、MI、GINI、CHI、MMR、CMFS以及IG算法Micro-F1值、Macro-F1值的对比图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
如图1所示,一种基于指数协同度量的特征选择方法,具体按照以下步骤实施:
步骤1、获取数据集并进行预处理;
步骤2、设置最优特征子集的大小为C,并对获取的数据集进行降维处理;
步骤3、采用5折交叉验证的方法将降维后的数据集划分为测试集和训练集,并对测试集进行分类;
步骤4、使用Macro-F1和Micro-F1评价准则对分类器的分类结果进行评估。
步骤1中数据集包括RE0、RE1、R52、R8、20News-groups。
步骤1中预处理具体为,删除在文档中出现次数小于等于3篇和超过总文档数25%比例的术语。
本发明引入指数协同方法,将MMR算法中的最大最小比率放在自然指数幂的位置,避免分母为0时出现数值不连续,在计算术语ti的权值时,除以包含术语ti的文档在整个数据集中所占比例来解决正类文档频率和负类文档频率被等同对待的问题。
步骤2具体为:
步骤2.1:根据公式(1-2)计算每一个术语ti对应于类别ck的真阳性率tpr和假阳性率fpr;
其中,tp表示属于类别ck并且包含术语ti的文档数量,fn表示属于类别ck并且不包含术语ti的文档数量,fp表示不属于类别ck并且包含术语ti的文档数量,tn表示不属于类别ck并且不包含术语ti的文档数量;
步骤2.2:根据公式(3)计算术语ti对应于类别ck的最大最小比率λi,k
步骤2.3:根据公式(4)计算术语ti的权重值ECM(ti),并根据权重值对特征进行排序,输出最优特征子集;
其中,M代表数据集中类别的总数,p(ck)表示属于类别ck的文档数在整个数据集中所占的比例,k表示类别编号,p(ti)表示在整个数据集中包含特征词ti的文档数占总文档数的比例,α控制最大最小比率λi,k对整个算法的影响权重,通过将α分别置为1,10,50,100和500进行测试发现α值为50时算法性能达到最大;
步骤3采用朴素贝叶斯和支持向量机算法进行分类器训练进行分类。
步骤4中Macro-F1计算过程如下:
其中,Pk表示类别ck的查准率,Rk表示类别ck的查全率,k表示类别编号;
Micro-F1计算过程如下:
其中,TP表示实际属于正例且分类结果也为正例的文档数量,FP表示实际为反例、分类结果为正例的文档数量,FN代表的是实际为正例、分类结果为反例的文档数量,TN代表的是实际属于反例、分类结果也为反例的文档数量。
由于文本数据的高维度特性,即使经过预处理依然无法直接用于分类操作,必须利用特征选择对特征空间进行降维。根据数据集不同的规模,对于RE0、RE1、R52和R8,特征维度分别设置为10、20、50、100、200、500、1000、1500进行实验,由于20 New-groups数据集的术语和文本数量比较大,特征维度选择为500、1000、1500、2000、2500、3000、4000、5000。通过计算特征词的权值对特征进行排序,选择分数较高的一组术语作为算法输出的特征子集。本发明ECM将真阳性率和假阳性率的最大最小值比率作为自然指数的幂,解决了MMR算法中由于分母可能为0导致数值不连续的问题,即在ECM中当真阳性率tpr或者假阳性率fpr为0时,指数值将为1。通过除以包含特征词的文档数在整个数据集中所占比例的方法,正负类文档频
率价值相似问题得到了解决。
本发明使用朴素贝叶斯(Naive Bayes)、支持向量机(Support Vector Machines)分类算法训练分类模型并进行分类操作。朴素贝叶斯是一种概率分类器,通过设定属性之间条件独立的前提来估计后验概率,分类效果显著并且易于实现,使用较广泛;支持向量机算法是以统计理论作为分类依据,本发明使用的LibSVM用于默认线性核设置的SVM分类器。
如图2-6所示,本发明与Odds、MI、GINI、CHI、MMR、CMFS以及IG算法进行对比结果如下:
使用朴素贝叶斯作为分类器时,对于Macro-F1测量结果,本发明得分最高的情况所占比例为82.5%,对于Micro-F1测量结果,该比例为55%,本发明平均得分最高情况所占比例为68.75%。当使用支持向量机作为分类器时,对于Macro-F1测量结果,本发明得分最高的情况占比67.5%,对于Micro-F1测量结果,该占比为50%,平均占比为58.75%;在所有实验结果下本发明得分最高的情况占比为63.75%。由以上结果可以知晓,本发明具是可靠的特征选择算法。

Claims (3)

1.一种基于指数协同度量的特征选择方法,其特征在于,具体按照以下步骤实施:
步骤1、获取数据集并进行预处理;
预处理具体为,删除在文档中出现次数小于等于3篇和超过总文档数25%比例的术语;
步骤2、设置最优特征子集的大小为C,并对获取的数据集进行降维处理;具体为:
步骤2.1:根据公式(1-2)计算每一个术语ti对应于类别ck的真阳性率tpr和假阳性率fpr;
其中,tp表示属于类别ck并且包含术语ti的文档数量,fn表示属于类别ck并且不包含术语ti的文档数量,fp表示不属于类别ck并且包含术语ti的文档数量,tn表示不属于类别ck并且不包含术语ti的文档数量;
步骤2.2:根据公式(3)计算术语ti对应于类别ck的最大最小比率λi,k
步骤2.3:根据公式(4)计算术语ti的权重值ECM(ti),并根据权重值对特征进行排序,输出最优特征子集;
其中,M代表数据集中类别的总数,p(ck)表示属于类别ck的文档数在整个数据集中所占的比例,k表示类别编号,p(ti)表示在整个数据集中包含特征词ti的文档数占总文档数的比例,α控制最大最小比率λi,k对整个算法的影响权重,通过将α分别置为1,10,50,100和500进行测试发现α值为50时算法性能达到最大;
步骤3、采用5折交叉验证的方法将降维后的数据集划分为测试集和训练集,并对测试集进行分类;
步骤4、使用Macro-F1和Micro-F1评价准则对分类器的分类结果进行评估;
Macro-F1计算过程如下:
其中,Pk表示类别ck的查准率,Rk表示类别ck的查全率,k表示类别编号;
Micro-F1计算过程如下:
其中,TP表示实际属于正例且分类结果也为正例的文档数量,FP表示实际为反例、分类结果为正例的文档数量,FN代表的是实际为正例、分类结果为反例的文档数量,TN代表的是实际属于反例、分类结果也为反例的文档数量。
2.根据权利要求1所述的一种基于指数协同度量的特征选择方法,其特征在于,所述步骤1中数据集包括RE0、RE1、R52、R8、20News-groups。
3.根据权利要求1所述的一种基于指数协同度量的特征选择方法,其特征在于,所述步骤3采用朴素贝叶斯和支持向量机算法进行分类器训练进行分类。
CN202010474513.1A 2020-05-29 2020-05-29 基于指数协同度量的特征选择方法 Active CN111709463B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010474513.1A CN111709463B (zh) 2020-05-29 2020-05-29 基于指数协同度量的特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010474513.1A CN111709463B (zh) 2020-05-29 2020-05-29 基于指数协同度量的特征选择方法

Publications (2)

Publication Number Publication Date
CN111709463A CN111709463A (zh) 2020-09-25
CN111709463B true CN111709463B (zh) 2024-02-02

Family

ID=72538867

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010474513.1A Active CN111709463B (zh) 2020-05-29 2020-05-29 基于指数协同度量的特征选择方法

Country Status (1)

Country Link
CN (1) CN111709463B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792141A (zh) * 2021-08-20 2021-12-14 西安理工大学 基于协方差度量因子的特征选择方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7415445B2 (en) * 2002-09-24 2008-08-19 Hewlett-Packard Development Company, L.P. Feature selection for two-class classification systems
US8145677B2 (en) * 2007-03-27 2012-03-27 Faleh Jassem Al-Shameri Automated generation of metadata for mining image and text data
CN111144106B (zh) * 2019-12-20 2023-05-02 山东科技大学 一种不平衡数据集下的两阶段文本特征选择方法

Also Published As

Publication number Publication date
CN111709463A (zh) 2020-09-25

Similar Documents

Publication Publication Date Title
CN107391772B (zh) 一种基于朴素贝叶斯的文本分类方法
CN110287328B (zh) 一种文本分类方法、装置、设备及计算机可读存储介质
CN103886108B (zh) 一种不均衡文本集的特征选择和权重计算方法
CN111709439B (zh) 基于词频偏差率因子的特征选择方法
CN103425777B (zh) 一种基于改进贝叶斯分类的短信智能分类及搜索方法
CN109271517B (zh) Ig tf-idf文本特征向量生成及文本分类方法
CN103995876A (zh) 一种基于卡方统计和smo算法的文本分类方法
CN108304371B (zh) 热点内容挖掘的方法、装置、计算机设备及存储介质
CN109145114B (zh) 基于Kleinberg在线状态机的社交网络事件检测方法
CN107729520B (zh) 文件分类方法、装置、计算机设备及计算机可读介质
CN107294834A (zh) 一种识别垃圾邮件的方法和装置
CN106156163B (zh) 文本分类方法以及装置
BaygIn Classification of text documents based on Naive Bayes using N-Gram features
CN110826618A (zh) 一种基于随机森林的个人信用风险评估方法
CN109325125B (zh) 一种基于cnn优化的社交网络谣言检测方法
CN109376235B (zh) 基于文档层词频重排序的特征选择方法
CN102945246A (zh) 网络信息数据的处理方法及装置
CN103914551A (zh) 一种微博语义信息扩充和特征选取方法
CN111709463B (zh) 基于指数协同度量的特征选择方法
CN108462624B (zh) 一种垃圾邮件的识别方法、装置以及电子设备
CN111079427A (zh) 一种垃圾邮件识别方法及系统
KR101585644B1 (ko) 단어 연관성 분석을 이용한 문서 분류 장치, 방법 및 이를 위한 컴퓨터 프로그램
CN113468538A (zh) 一种基于相似性度量的漏洞攻击数据库构建方法
JP5929532B2 (ja) イベント検出装置、イベント検出方法およびイベント検出プログラム
US20230214415A1 (en) Text classification system based on feature selection and method thereof

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20231107

Address after: 518000 1002, Building A, Zhiyun Industrial Park, No. 13, Huaxing Road, Henglang Community, Longhua District, Shenzhen, Guangdong Province

Applicant after: Shenzhen Wanzhida Technology Co.,Ltd.

Address before: 710048 Shaanxi province Xi'an Beilin District Jinhua Road No. 5

Applicant before: XI'AN University OF TECHNOLOGY

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240429

Address after: No. 125, 2nd Floor, Unit 7, Building 62, Huangang Road, Tiexi District, Anshan City, Liaoning Province, 114000

Patentee after: Wang Yang

Country or region after: China

Patentee after: Che Chengwei

Address before: 518000 1002, Building A, Zhiyun Industrial Park, No. 13, Huaxing Road, Henglang Community, Longhua District, Shenzhen, Guangdong Province

Patentee before: Shenzhen Wanzhida Technology Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right