CN111382273B - 一种基于吸引因子的特征选择的文本分类方法 - Google Patents

一种基于吸引因子的特征选择的文本分类方法 Download PDF

Info

Publication number
CN111382273B
CN111382273B CN202010158078.1A CN202010158078A CN111382273B CN 111382273 B CN111382273 B CN 111382273B CN 202010158078 A CN202010158078 A CN 202010158078A CN 111382273 B CN111382273 B CN 111382273B
Authority
CN
China
Prior art keywords
texts
attraction
average
category
method based
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010158078.1A
Other languages
English (en)
Other versions
CN111382273A (zh
Inventor
周红芳
韩霜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Zhiying Wanshi Market Management Co ltd
Xi'an Huaqi Zhongxin Technology Development Co ltd
Original Assignee
Guangzhou Zhiying Wanshi Market Management Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Zhiying Wanshi Market Management Co ltd filed Critical Guangzhou Zhiying Wanshi Market Management Co ltd
Priority to CN202010158078.1A priority Critical patent/CN111382273B/zh
Publication of CN111382273A publication Critical patent/CN111382273A/zh
Application granted granted Critical
Publication of CN111382273B publication Critical patent/CN111382273B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于吸引因子的特征选择的文本分类方法,使用朴素贝叶斯分类器和支持向量机分类器进行数据集预处理,获取数据集,消除数据集中词条在文档中出现的频率超过25%的词条及词条出现的文档少于3篇的词条,采用交叉验证法划分测试集和训练集;使用基于吸引因子的特征选择方法,设置测试集和训练集特征词数量,生成最优特征子集;使用朴素贝叶斯分类器和支持向量机分类器对训练集的最优特征子集依次进行训练和分类,训练出分类器模型,将测试集的最优特征子集输入分类器模型得到分类结果;使用微平均‑F1与宏平均‑F1两个评价指标对分类结果进行评估,验证该方法的性能。

Description

一种基于吸引因子的特征选择的文本分类方法
技术领域
本发明属于数据挖掘方法技术领域,涉及一种基于吸引因子的特征选择的文本分类方法。
背景技术
文本分类是为文档分配预定义类别的任务,传统上分类任务是由领域专家手动执行的,但是随着互联网上可用的数字文档数量的显著增长,不可能手动处理如此大量的信息,分类算法随着IT技术的发展应运而生。在信息科学和计算机科学中研究的文本分类已在许多领域中找到了许多应用,例如信息检索,体裁分类,垃圾邮件过滤,语言识别等。文本分类是文本信息挖掘的基本功能,也是处理和组织文本数据的核心技术,能够有效地辅助人们组织和分类信息数据,使信息杂乱的问题在较大程度上得到解决,对于信息的高效管理及有效利用都具有很强的现实的意义,因此文本分类技术成为了数据挖掘领域的重要研究方向之一。
文本分类技术是一个复杂的系统工程,特征选择又是文本分类的关键技术之一。特征选择是文本分类中的一个重要问题,能够不牺牲分类性能的情况下缩减特征空间大小,同时避免过度拟合现象的产生。其主要思想是按照一定规则从原本的高维特征集合空间中将对文本分类没有多大贡献的特征词删除,选取出一部分最为有效的、最具有代表性的特征词构成新的特征子集。通过特征选择这一步骤,一些和需求无关的特征词会被剔除,使文本特征集合空间的维数得到大幅度降低,进而提高文本分类的效率和精度。
文本分类的主要特征是,即使对于中等大小的数据集,特征空间中的特征数量也可以轻松达到数万个数量级,因此在高维情况下存在以下两个问题:
一个是某些复杂的算法无法在文本分类中最佳使用;另一个问题是,当大多数算法在训练集中训练时,过度分类在文本分类中是不可避免的,导致分类精准度低。因此,降维一直是主要的研究领域。与此同时,文本分类技术的飞速发展也带来了前所未遇的困难和挑战,在理论和实践上文本分类技术的研究仍存在很大的发展空间。
发明内容
本发明的目的是提供一种基于吸引因子的特征选择的文本分类方法,解决了现有技术中存在的分类精准度低的问题。
本发明所采用的技术方案是,一种基于吸引因子的特征选择的文本分类方法,具体包括如下步骤:
步骤1:使用朴素贝叶斯分类器NB和支持向量机分类器SVM进行数据集预处理,获取已经进行了词干提取和去停用词处理的若干数据集,消除数据集中词条在文档中出现的频率超过25%的词条及词条出现的文档少于3篇的词条,采用交叉验证法划分测试集和训练集;
步骤2:使用基于吸引因子的特征选择方法,设置步骤1中得到的测试集和训练集特征词数量,生成最优特征子集;
步骤3:使用朴素贝叶斯分类器NB和支持向量机分类器SVM对步骤2中得到的训练集的最优特征子集依次进行训练和分类,训练出分类器模型,将步骤2中得到的测试集的最优特征子集输入分类器模型得到分类结果;
步骤4:使用微平均-F1与宏平均-F1两个评价指标对步骤3中得到的分类结果进行评估,验证基于吸引因子的特征选择方法的性能。
本发明的特点还在于:
步骤1中的数据集为20Newsgroups、WebKB、K1a、K1b这四种数据集。
步骤2具体步骤为:
步骤2.1:计算吸引因子T(ti),其中吸引因子代表的是术语在类别中的每个文本中出现的平均频率;
步骤2.2:计算最大术语正率MT,即取真正率和假正率中的最大值来权衡术语的真实相关性;
步骤2.3:根据步骤2.2中计算的真正率tpr和假正率fpr,再计算归一化差异测量因子NDM;
步骤2.4:按照下列公式计算每个词条的权重值MTFS(ti),然后进行排序,根据词条个数选择出最优特征子集,
MTFS(ti)=MT·T(ti)·NDM
其中MT代表步骤2.2中的最大术语正率,T(ti)为步骤2.1中的吸引因子,NDM代表步骤2.3中的归一化差异测量因子。
步骤2的具体步骤为:
步骤2.1:计算吸引因子T(ti),其中吸引因子代表的是术语在类别中的每个文本中出现的平均频率
Figure BDA0002404802440000031
其中,其中,tfij是术语在类别Ci中的文本dj中出现的次数,N为类别Ci中的总文本数;
步骤2.2:计算最大术语正率MT,即取真正率tpr和假正率fpr中的最大值来权衡术语的真实相关性;
其中真正率tpr和假正率fpr的计算公式为:
Figure BDA0002404802440000041
Figure BDA0002404802440000042
Figure BDA0002404802440000043
其中,tp表示包含词条ti并且属于类别Ck的文本数;fn表示不包含词条ti并且属于类别Ck的文本数;fp表示包含词条ti并且不属于类别Ck的文本数;tn表示不包含词条ti并且不属于类别Ck的文本数;
步骤2.3:根据步骤2.2中公式(2)、(3)计算的真正率tpr和假正率fpr,再按照如下公式计算归一化差异测量因子,
Figure BDA0002404802440000044
步骤2.4:按照如下公式计算每个词条的权重值MTFS(ti),然后进行排序,根据词条个数选择出最优特征子集,
Figure BDA0002404802440000045
其中MT代表步骤2.2中得到的最大术语正率,T(ti)为步骤2.1中得到的吸引因子,NDM代表步骤2.3中得到的归一化差异测量因子。
步骤4中微平均-F1计算公式如下:
Figure BDA0002404802440000046
其中,
Figure BDA0002404802440000051
为平均查准率,
Figure BDA0002404802440000052
为平均查全率,查准率
Figure BDA0002404802440000053
查全率
Figure BDA0002404802440000054
tp表示包含词条ti并且属于类别Ck的文本数;fn表示不包含词条ti并且属于类别Ck的文本数;fp表示包含词条ti并且不属于类别Ck的文本数;
宏平均-F1计算公式如下:
Figure BDA0002404802440000055
式中F1(k)表示第k个测试类别的微平均-F1的值,K表示测试类别的总个数。
本发明的有益效果是:
1.本发明综合地考虑了文档频率和术语在类中及类间的分布问题对分类的贡献,因此在分类准确率上相比于传统的CHI算法、GINI算法、NDM算法、OR算法,本发明在数据集20Newsgroups、WebKB、K1a、K1b上具有明显的优势结果,实验证明该基于吸引因子的特征选择方法应用于文本分类时可以提高分类精度,是一种有效的特征选择算法。
2.在与不同的分类器配合上,将本发明和其他传统的CHI算法、GINI算法、NDM算法、OR算法四种算法选择的特征子集分别在NB和SVM这两种分类器上运行,最终结果表明本发明结果具有好的效果,分类准确率高。
附图说明
图1是本发明一种基于吸引因子的特征选择的文本分类方法的流程图;
图2是本发明一种基于吸引因子的特征选择的文本分类方法与现有技术在不同数据集上、不同词条维数下使用朴素贝叶斯分类器时微平均-F1值的折线对比图;
图3是本发明一种基于吸引因子的特征选择的文本分类方法与现有技术在不同数据集上、不同词条维数下使用朴素贝叶斯分类器时宏平均-F1值的折线对比图;
图4是本发明一种基于吸引因子的特征选择的文本分类方法与现有技术在不同数据集上、不同词条维数下使用支持向量机分类器时微平均-F1值的折线对比图;
图5是本发明一种基于吸引因子的特征选择的文本分类方法与现有技术在不同数据集上、不同词条维数下使用支持向量机分类器时宏平均-F1值的折线对比图;
图6是本发明一种基于吸引因子的特征选择的文本分类方法与现有技术在不同数据集上、不同词条维数下使用朴素贝叶斯分类器时微平均-F1值的柱状对比图;
图7是本发明一种基于吸引因子的特征选择的文本分类方法与现有技术在不同数据集上、不同词条维数下使用朴素贝叶斯分类器时宏平均-F1值的柱状对比图;
图8是本发明一种基于吸引因子的特征选择的文本分类方法与现有技术在不同数据集上、不同词条维数下使用支持向量机分类器时微平均-F1值的柱状对比图;
图9是本发明一种基于吸引因子的特征选择的文本分类方法与现有技术在不同数据集上、不同词条维数下使用支持向量机分类器时宏平均-F1值的柱状对比图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明一种基于吸引因子的特征选择的文本分类方法,如图1所示,具体包括如下步骤:
步骤1:使用朴素贝叶斯分类器NB和支持向量机分类器SVM进行数据集预处理,获取已经进行了词干提取和去停用词处理的若干数据集,消除数据集中词条在文档中出现的频率超过25%的词条及词条出现的文档少于3篇的词条,采用交叉验证法划分测试集和训练集;
步骤2:使用基于吸引因子的特征选择方法,设置步骤1中得到的测试集和训练集特征词数量,生成最优特征子集;
步骤3:使用朴素贝叶斯分类器NB和支持向量机分类器SVM对步骤2中得到的训练集的最优特征子集依次进行训练和分类,训练出分类器模型,将步骤2中得到的测试集的最优特征子集输入分类器模型得到分类结果;
步骤4:使用微平均-F1与宏平均-F1两个评价指标对步骤3中得到的分类结果进行评估,验证基于吸引因子的特征选择方法的性能。
本发明使用朴素贝叶斯(Naive Bayes,NB)、支持向量机(SupportVectorMachines,SVM)分类算法来进行分类。朴素贝叶斯算法是一种基于概率的算法,它广泛应用于机器学习领域,主要关注的是文本属于某个类别的概率,该方法在实际应用中表现出了很好的高效性和健壮性。支持向量机算法在挖掘数据内在特征方面有很好的效果,并且与其他分类算法相比具有较高的准确性,在高维向量空间中,分类的核函数可以将向量空间的运算从高维降到低维。
步骤1中的数据集为20Newsgroups、WebKB、K1a、K1b这四种数据集。
步骤2具体步骤为:
步骤2.1:计算吸引因子T(ti),其中吸引因子代表的是术语在类别中的每个文本中出现的平均频率,吸引因子越大,说明术语越能代表此类;
步骤2.2:计算最大术语正率MT,即取真正率和假正率中的最大值来权衡术语的真实相关性;
步骤2.3:根据步骤2.2中计算的真正率tpr和假正率fpr,再计算归一化差异测量因子NDM;
步骤2.4:按照下列公式计算每个词条的权重值MTFS(ti),然后进行排序,根据词条个数选择出最优特征子集,
MTFS(ti)=MT·T(ti)·NDM
其中MT代表步骤2.2中的最大术语正率,T(ti)为步骤2.1中的吸引因子,NDM代表步骤2.3中的归一化差异测量因子。
步骤2的具体步骤为:
步骤2.1:计算吸引因子T(ti),其中吸引因子代表的是术语在类别中的每个文本中出现的平均频率
Figure BDA0002404802440000081
其中,其中,tfij是术语在类别Ci中的文本dj中出现的次数,N为类别Ci中的总文本数;
步骤2.2:计算最大术语正率MT,即取真正率tpr和假正率fpr中的最大值来权衡术语的真实相关性;
其中真正率tpr和假正率fpr的计算公式为:
Figure BDA0002404802440000082
Figure BDA0002404802440000091
Figure BDA0002404802440000092
其中,tp表示包含词条ti并且属于类别Ck的文本数;fn表示不包含词条ti并且属于类别Ck的文本数;fp表示包含词条ti并且不属于类别Ck的文本数;tn表示不包含词条ti并且不属于类别Ck的文本数;
步骤2.3:根据步骤2.2中公式(2)、(3)计算的真正率tpr和假正率fpr,再按照如下公式计算归一化差异测量因子,
Figure BDA0002404802440000093
步骤2.4:按照如下公式计算每个词条的权重值MTFS(ti),然后进行排序,根据词条个数选择出最优特征子集,
Figure BDA0002404802440000094
其中MT代表步骤2.2中得到的最大术语正率,T(ti)为步骤2.1中得到的吸引因子,NDM代表步骤2.3中得到的归一化差异测量因子。
步骤4中微平均-F1计算公式如下:
Figure BDA0002404802440000095
其中,
Figure BDA0002404802440000096
为平均查准率,
Figure BDA0002404802440000097
为平均查全率,查准率
Figure BDA0002404802440000098
查全率
Figure BDA0002404802440000099
tp表示包含词条ti并且属于类别Ck的文本数;fn表示不包含词条ti并且属于类别Ck的文本数;fp表示包含词条ti并且不属于类别Ck的文本数;
宏平均-F1计算公式如下:
Figure BDA0002404802440000101
式中F1(k)表示第k个测试类别的微平均-F1的值,K表示测试类别的总个数。
实验中得到的Micro-F1值和Macro-F1值越高越稳定,分类的效果越好,精准度越高。
实验中经过对数据集的分析,本发明考虑了术语在类内的分布情况,同时还考虑了在类间存在高度稀疏的术语时如何解决的问题,目的是指从原始特征空间中选择出具有较强的类别区分能力的特征项,依据某一种或某些评价标准对特征全集进行降维处理,生成较低维度的特征子集。
为了验证基于文档层词频重排序的特征选择方法的能力,将该方法与已知的归一化卡方检验(CHI)、基尼系数(GINI)方法、差值测量方法(NDM)、和优势率(OR)进行对比。从图2、3、6和7中可以看出,在朴素贝叶斯分类器的实验结果中,本发明比现有方法具有更高的F1值,更加稳定且平均最优。从图4、5、8和9中可以看出,在支持向量机分类器的实验结果中,本发明在大部分数据集中都表现出了比较好的结果。实验证明本发明是一种有效的特征选择算法。
本发明的算法的伪代码如下所示:
Figure BDA0002404802440000102
Figure BDA0002404802440000111
本发明一种基于吸引因子的特征选择的文本分类方法,其有益效果在于:本发明综合地考虑了文档频率和术语在类中及类间的分布问题对分类的贡献,因此在分类准确率上相比于传统的CHI算法、GINI算法、NDM算法、OR算法,本发明在数据集20Newsgroups、WebKB、K1a、K1b上具有明显的优势结果,实验证明该基于吸引因子的特征选择方法应用于文本分类时可以提高分类精度,是一种有效的特征选择算法。

Claims (2)

1.一种基于吸引因子的特征选择的文本分类方法,其特征在于,具体包括如下步骤:
步骤1:使用朴素贝叶斯分类器NB和支持向量机分类器SVM进行数据集预处理,获取已经进行了词干提取和去停用词处理的若干数据集,消除所述数据集中词条在文档中出现的频率超过25%的词条及词条出现的文档少于3篇的词条,采用交叉验证法划分测试集和训练集;
步骤2:使用基于吸引因子的特征选择方法,设置所述步骤1 中得到的测试集和训练集特征词数量,生成最优特征子集;
所述步骤2的具体步骤为:
步骤2.1:计算吸引因子
Figure 745620DEST_PATH_IMAGE001
,其中吸引因子代表的是术语在类别中的每个文本中出现的平均频率
Figure 131209DEST_PATH_IMAGE002
(1)
其中,
Figure 781633DEST_PATH_IMAGE003
是术语在类别
Figure 705727DEST_PATH_IMAGE004
中的文本
Figure 464604DEST_PATH_IMAGE005
中出现的次数,N为类别
Figure 499556DEST_PATH_IMAGE004
中的总文本数;
步骤2.2:计算最大术语正率MT,即取真正率tpr和假正率fpr中的最大值来权衡术语的真实相关性;
其中真正率tpr和假正率fpr的计算公式为:
Figure 535645DEST_PATH_IMAGE006
(2)
Figure 755274DEST_PATH_IMAGE007
(3)
Figure 611234DEST_PATH_IMAGE008
(4)
其中,tp表示包含词条
Figure 715457DEST_PATH_IMAGE009
并且属于类别
Figure 465107DEST_PATH_IMAGE010
的文本数;fn表示不包含词条
Figure 996582DEST_PATH_IMAGE009
并且属于类别
Figure 74260DEST_PATH_IMAGE010
的文本数;fp表示包含词条
Figure 608272DEST_PATH_IMAGE009
并且不属于类别
Figure 353374DEST_PATH_IMAGE010
的文本数;tn表示不包含词条
Figure 790171DEST_PATH_IMAGE009
并且不属于类别
Figure 745358DEST_PATH_IMAGE010
的文本数;
步骤2.3:根据所述步骤2.2中公式(2)、(3)计算的真正率tpr和假正率fpr,再按照如下公式计算归一化差异测量因子,
Figure 191383DEST_PATH_IMAGE011
(5);
步骤2.4:按照如下公式计算每个词条的权重值
Figure 525412DEST_PATH_IMAGE012
,然后进行排序,根据词条个数选择出最优特征子集,
Figure 523324DEST_PATH_IMAGE013
(6)
其中MT代表所述步骤2.2中得到的最大术语正率,
Figure 841173DEST_PATH_IMAGE001
为所述步骤2.1中得到的吸引因子,NDM代表所述步骤2.3中得到的归一化差异测量因子;
步骤3:使用朴素贝叶斯分类器NB和支持向量机分类器SVM对所述步骤2 中得到的训练集的最优特征子集依次进行训练和分类,训练出分类器模型,将所述步骤2 中得到的测试集的最优特征子集输入所述分类器模型得到分类结果;
步骤4:使用微平均-F1与宏平均-F1两个评价指标对所述步骤3 中得到的分类结果进行评估,验证基于吸引因子的特征选择方法的性能;
所述步骤4中微平均-F1计算公式如下:
Figure 559730DEST_PATH_IMAGE014
(7)
其中,
Figure 404058DEST_PATH_IMAGE015
为平均查准率,
Figure 448238DEST_PATH_IMAGE016
为平均查全率,查准率
Figure 253383DEST_PATH_IMAGE017
,查全率
Figure 398800DEST_PATH_IMAGE018
tp表示包含词条
Figure 973000DEST_PATH_IMAGE009
并且属于类别
Figure 188081DEST_PATH_IMAGE010
的文本数;fn表示不包含词条
Figure 73998DEST_PATH_IMAGE009
并且属于类别
Figure 665516DEST_PATH_IMAGE010
的文本数;fp表示包含词条
Figure 94223DEST_PATH_IMAGE009
并且不属于类别
Figure 480205DEST_PATH_IMAGE010
的文本数;
宏平均-F1计算公式如下:
Figure 118997DEST_PATH_IMAGE019
(8)
式中
Figure 248627DEST_PATH_IMAGE020
表示第k个测试类别的微平均-F1的值,K表示测试类别的总个数;
步骤5:基于吸引因子的特征选择方法进行文本分类。
2.根据权利要求1所述的一种基于吸引因子的特征选择的文本分类方法,其特征在于,所述步骤1中的数据集为20Newsgroups、WebKB、K1a、K1b这四种数据集。
CN202010158078.1A 2020-03-09 2020-03-09 一种基于吸引因子的特征选择的文本分类方法 Active CN111382273B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010158078.1A CN111382273B (zh) 2020-03-09 2020-03-09 一种基于吸引因子的特征选择的文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010158078.1A CN111382273B (zh) 2020-03-09 2020-03-09 一种基于吸引因子的特征选择的文本分类方法

Publications (2)

Publication Number Publication Date
CN111382273A CN111382273A (zh) 2020-07-07
CN111382273B true CN111382273B (zh) 2023-04-14

Family

ID=71217271

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010158078.1A Active CN111382273B (zh) 2020-03-09 2020-03-09 一种基于吸引因子的特征选择的文本分类方法

Country Status (1)

Country Link
CN (1) CN111382273B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657106B (zh) * 2021-07-05 2024-06-21 不亦乐乎有朋(北京)科技有限公司 基于归一化词频权重的特征选择方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810264A (zh) * 2014-01-27 2014-05-21 西安理工大学 基于特征选择的网页文本分类方法
CN105260437A (zh) * 2015-09-30 2016-01-20 陈一飞 文本分类特征选择方法及其在生物医药文本分类中的应用
CN106383853A (zh) * 2016-08-30 2017-02-08 刘勇 一种电子病历后结构化以及辅助诊断的实现方法及其系统
CN107273387A (zh) * 2016-04-08 2017-10-20 上海市玻森数据科技有限公司 面向高维和不平衡数据分类的集成
WO2018218706A1 (zh) * 2017-05-27 2018-12-06 中国矿业大学 一种基于神经网络的新闻事件抽取的方法及系统
CN109376235A (zh) * 2018-07-24 2019-02-22 西安理工大学 基于文档层词频重排序的特征选择方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810264A (zh) * 2014-01-27 2014-05-21 西安理工大学 基于特征选择的网页文本分类方法
CN105260437A (zh) * 2015-09-30 2016-01-20 陈一飞 文本分类特征选择方法及其在生物医药文本分类中的应用
CN107273387A (zh) * 2016-04-08 2017-10-20 上海市玻森数据科技有限公司 面向高维和不平衡数据分类的集成
CN106383853A (zh) * 2016-08-30 2017-02-08 刘勇 一种电子病历后结构化以及辅助诊断的实现方法及其系统
WO2018218706A1 (zh) * 2017-05-27 2018-12-06 中国矿业大学 一种基于神经网络的新闻事件抽取的方法及系统
CN109376235A (zh) * 2018-07-24 2019-02-22 西安理工大学 基于文档层词频重排序的特征选择方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Feature selection algorithm for hierarchical text classification using Kullback-Leibler divergence";Yao Lifang et al.;《IEEE International Conference on Cloud Computing and Big Data Analysis》;20170619;全文 *
"维吾尔文论坛中基于术语选择和Rocchio分类器的文本过滤方法";如先姑力·阿布都热西提 等;《万方数据知识服务平台》;20190612;全文 *

Also Published As

Publication number Publication date
CN111382273A (zh) 2020-07-07

Similar Documents

Publication Publication Date Title
Georgakopoulos et al. Convolutional neural networks for toxic comment classification
CN107944273B (zh) 一种基于tf-idf算法和svdd算法的恶意pdf文档检测方法
CN111709439B (zh) 基于词频偏差率因子的特征选择方法
CN109376235B (zh) 基于文档层词频重排序的特征选择方法
CN112579783B (zh) 基于拉普拉斯图谱的短文本聚类方法
WO2020063071A1 (zh) 基于卡方检验的句向量计算方法、文本分类方法及系统
CN104881399B (zh) 基于概率软逻辑psl的事件识别方法和系统
Sarwar et al. An effective and scalable framework for authorship attribution query processing
Zhang et al. Compact representation of high-dimensional feature vectors for large-scale image recognition and retrieval
CN113626604B (zh) 基于最大间隔准则的网页文本分类系统
CN111382273B (zh) 一种基于吸引因子的特征选择的文本分类方法
CN106844596A (zh) 一种基于改进的svm中文文本分类方法
CN110348497B (zh) 一种基于WT-GloVe词向量构建的文本表示方法
Shoryu et al. A deep neural network approach using convolutional network and long short term memory for text sentiment classification
CN105760471B (zh) 基于组合凸线性感知器的两类文本分类方法
CN117271701A (zh) 一种基于tggat和cnn的系统运行异常事件关系抽取方法及系统
CN114996446B (zh) 一种文本分类方法、装置及存储介质
Wang et al. Learning based neural similarity metrics for multimedia data mining
Zhang et al. Research on classification of scientific and technological documents based on Naive Bayes
Selot Comparative Performance of Random Forest and Support Vector Machine on Sentiment Analysis of Reviews of Indian Tourism
Desai et al. Analysis of Health Care Data Using Natural Language Processing
Alamin et al. Improving Performance Sentiment Movie Review Classification Using Hybrid Feature TFIDF, N-Gram, Information Gain and Support Vector Machine.
CN116304058B (zh) 企业负面信息的识别方法、装置、电子设备及存储介质
Vijayarani et al. Efficient machine learning classifiers for automatic information classification
CN113486176B (zh) 一种基于二次特征放大的新闻分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230313

Address after: Room 501, No. 18, Haizhou Road, Haizhu District, Guangzhou City, Guangdong Province, 510000 (Location: Self made 01) (Office only)

Applicant after: Guangzhou Zhiying Wanshi Market Management Co.,Ltd.

Address before: 710000 No. B49, Xinda Zhongchuang space, 26th Street, block C, No. 2 Trading Plaza, South China City, international port district, Xi'an, Shaanxi Province

Applicant before: Xi'an Huaqi Zhongxin Technology Development Co.,Ltd.

Effective date of registration: 20230313

Address after: 710000 No. B49, Xinda Zhongchuang space, 26th Street, block C, No. 2 Trading Plaza, South China City, international port district, Xi'an, Shaanxi Province

Applicant after: Xi'an Huaqi Zhongxin Technology Development Co.,Ltd.

Address before: 710048 Shaanxi province Xi'an Beilin District Jinhua Road No. 5

Applicant before: XI'AN University OF TECHNOLOGY

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant