CN110069630B - 一种改进的互信息特征选择方法 - Google Patents

一种改进的互信息特征选择方法 Download PDF

Info

Publication number
CN110069630B
CN110069630B CN201910212325.9A CN201910212325A CN110069630B CN 110069630 B CN110069630 B CN 110069630B CN 201910212325 A CN201910212325 A CN 201910212325A CN 110069630 B CN110069630 B CN 110069630B
Authority
CN
China
Prior art keywords
feature
word
mutual information
category
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910212325.9A
Other languages
English (en)
Other versions
CN110069630A (zh
Inventor
文武
李培强
刘颖
解如风
范荣妹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Institute Of Quality And Standardization
Chongqing Information Technology Designing Co ltd
Original Assignee
Chongqing Institute Of Quality And Standardization
Chongqing Information Technology Designing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Institute Of Quality And Standardization, Chongqing Information Technology Designing Co ltd filed Critical Chongqing Institute Of Quality And Standardization
Priority to CN201910212325.9A priority Critical patent/CN110069630B/zh
Publication of CN110069630A publication Critical patent/CN110069630A/zh
Application granted granted Critical
Publication of CN110069630B publication Critical patent/CN110069630B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明请求保护一种改进的互信息特征选择方法。包括步骤:首先,对文本数据分为测试集和训练集并分别做分词、去停用词处理,在特征选择时分别引入类内特征频度和特征词覆盖率,并结合特征词的词性系数,与改进的互信息模型相结合,构造出新的特征权重评估函数;其次,利用改进的互信息模型进行特征选择并设置最大最小互信息值,筛选出满足条件的特征词集合并使用空间向量模型对特征词集合向量化;最后,使用K近邻(KNN)分类算法对特征词集合进行分类,使用查准率,查全率和F1值评估分类结果。本发明减少了数据处理的时间消耗,提升了分类的准确率,通过对引入的参数调节来适应多样的分类模型,实现文本分类系统的最优设计。

Description

一种改进的互信息特征选择方法
技术领域
本发明属于机器学习领域,尤其涉及一种基于统计的文本分类方法。文本分类主要是通过提取未分类文本的一些信息,然后再根据提取到的信息,自动将其分到预先设定的一个或几个类别中,从而使得人们能够快速准确地寻找到所需的信息。
背景技术
目前在文本分类的过程中,首先需要利用分词系统对待分类文本进行分词,然后根据事先建立好的停用词表将分得的词进行去停用词处理,最后得到待分类文本的初始特征词集。若直接使用初始特征词集作为文本的特征向量,对文本进行分类,必定会因为特征向量空间的维数过大,导致分类的准确率和效率低下。因此,需要采用合适的方法对初始特征集进行筛选,选出一些最具有代表性的特征来表征文本,从而来降低特征维度。如何从文本的初始特征集中筛选出最具有代表性的特征来表征文本,这是文本特征选择技术需要解决的主要问题。文本特征选择技术作为主要的特征降维手段,与文本分类的准确率和效率密切相关。
传统的特征选择算法依然存在一定的不足,例如在文本分布不均匀的语料中采用传统算法对文本进行特征选择,分类的效率和准确率都会明显降低。文本分类效率和准确率的降低,使得人们难以在杂乱的文本中快速准确地找到自己所需的信息。因此,为了提高文本分类效率,就需要我们对传统特征选择算法做进一步的研究和改进。
目前传统的互信息特征选择方法在文本分类过程中没有考虑词频信息、类内的特征词的分布情况、特征词的词性导致文本分类的效率和准确率低下。通过引入特征词覆盖率、类内特征频度和词性系数,可以有效的解决这些问题。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种减少了数据处理的时间消耗,提升了分类的准确率的改进的互信息特征选择方法。本发明的技术方案如下:
一种改进的互信息特征选择方法,其包括以下步骤:
步骤1:将文本数据分为测试集和训练集,并采用包括分词、去停用词在内的预处理步骤,即从句子中划分出每个有独立意义的词,并将其中对分类结果没有贡献的特征词根据提前建立的停用词表进行剔除;
步骤2:构建互信息特征评估函数:对传统的互信息评估函数进行改进,在传统的互信息评估函数基础上分别引入类内特征频度、特征词覆盖率及词性系数进行特征提取;
步骤3:筛选特征集合,对已经通过改进的互信息模型提取的特征词,筛选出互信息值在指定区间内的特征词,筛选过程中通过设定特征词的最大最小互信息值来确定,并组成特征词集合;
步骤4:KNN分类,对已经选出的特征词集合利用K近邻分类模型对其进行分类,用查准率,查全率和F1值评估分类结果;
进一步的,所述步骤2的传统的互信息特征评估函数为:
其中,x,y分别指的是文本集合中的特征词与类别。MI(X,Y)指的是特征词的互信息值,P(x,y)表示特征词和类别的相关概率,p(x)表示特征词在其所属类别文档中出现的概率,即该特征词与其所属类别文档中出现的特征词频率之比。p(y)表示类别y的文档数量与文本集合中所有文档的数量之比。
在文本分类中,x,y分别对应特征词t和类别c,互信息计算公式近似为:
其中,p(t|ci)表示特征词t在类别ci中的概率,p(t)表示特征词在整个文本集合中的概率,MI(t,ci)越大,表示特征词t对文本类别ci具有越高的辨识度。
进一步的,所述步骤2对传统的互信息模型引入类内特征频度,计算公式为:
其中,m表示类别cj中的文本总数,FR(t,cj)表示的是特征词t在类别cj中的特征频度,n表示文本集合中的总的类别数,tfjk表示的是特征词t在第j个类别cj中的第k篇文档中出现的频率,由公式可知FR(t,cj)值越大,表明特征词t在类别cj中出现的次数越多,特征词t越能代表类别cj
进一步的,所述步骤2对传统的互信息模型引入特征词覆盖率,计算公式为:
其中,m表示类别cj中的文本总数,tfjk表示特征词t在类别cj中的文本djk(1≤k≤m)中出现的次数,从公式可以看出,ρ越大,说明特征词t对类别cj的覆盖率越大,特征词挣在类别cj中分布的越均匀。
进一步的,所述步骤2对传统的互信息模型引入词性系数,公式如下:
由公式可知,特征词不同的词性会影响其词性系数的取值,其中0<η<ξ<1,η,ξ分别表示特征词t在不同词性下的取值,该取值的大小由多次试验确定。
改进的互信息特征函数为:
进一步的,所述步骤3利用空间向量模型对筛选的特征数据集进行向量化,空间向量模型计算公式如下所示:
其中,D=<t1,w1;t2,w2;t3,w3.......;ti,wi;tn,wn>,wn表示特征词集合中第n个特征词tn的权重值。Wi表示在待测文本D中特征词ti的权重值,特征词ti在文档中出现的频率用tfi表示,训练集中所有文档的数目用N表示,包含特征词ti的文档出现的频率用dfti表示。
进一步的,所述步骤4利用KNN分类模型对文本数据进行分类,KNN是分类算法中的一种,是基于空间向量模型VSM的分类算法之一,KNN通过计算待测样本数据与训练样本数据中不同类别数据点间的相似度,然后根据相似度大小对待测样本进行分类,相似度公式如下:
其中,xj表示文本集合中已知类别文档中的特征词向量,xij表示未知类别文档Di相比于已知文档xj的特征词向量,n表示数据集的类别中文本的个数,利用该公式计算文本数据的相似度并选出与待测文本D相似度最大的K个文本组成样本集。
进一步的,所述KNN分类模型用空间向量模型对文本数据向量化,计算文本数据D属于每个每个类别cm的权重W,计算公式如下:
其中,W(D,cm)表示将待测文本D分到类别cm中的权重值,类别属性函数δ(Di,cm)如公式所示;
进一步的,所述步骤4使用查准率、查全率、F1值对分类结果进行评估,具体包括:
查准率:
查全率:
F1值:
其中,TP表示分类时将正类预测为正类的数目,FN表示将正类预测为负类数,FP将负类预测为正类数,TN为将分类预测为负类数。精确率衡量的是类别的查准率,召回率衡量的是类别的查全率,F1值对查准率、召回率进行综合考察,以及对它们的偏向程度,且F1值综合了P和R的结果,所以当F1越高则越能说明试验方法比较有效,和分类器具有较强的分类能力。
本发明的优点及有益效果如下:
本发明通过一种改进的互信息特征选择方法,利用传统的互信息特征评估函数没有考虑特征词频率、特征词的分布均衡程度和特征词的词性信息,为提高文本分类的准确率提供了可行的方案,此外,改进的算法不仅考虑了传统算法存在的不足,同时也设置了最大最小互信息值,使互信息值在这个范围内的特征词才能继续进行分类处理,一定程度了减少了对无用特征词的处理分类,减少了数据处理的时间消耗。
附图说明
图1是本发明提供优选实施例在文本分类中的流程示意图。
图2为本发明的获取特征词集合互信息值的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
如图1所示:本发明主要分为两个阶段,训练阶段和测试阶段,将数据集对应分为训练集和测试集,整体流程如下:
(1)采用中科院分词系统ICTCLAS对文本测试集数据进行预处理:分词、去停用词。然后利用本文提出的互信息特征选择方法对文本数据进行特征选择。
(2)基于图1的系统模型,经过预处理之后需要对文本数据进行特征选择。如图2所示,本文提出的互信息特征选择方法具体实施可以包含如下几个步骤:
输入:类别集合C={c1,c2,c3,...,cn};类别中的文本集合ci={di1,di2,di3,...,dim},每篇文本的特征词集合dj={t1,t2,t3,...,tk},用于存放初始特征词集合InitialFeatureSet和经过互信息模型处理过的特征词集合MutualInformationValueSet;
输出:前N个特征词组成的特征词集FinalMutualInformationCollection。算法的具体流程如下:
步骤一:对文本数据集预处理,即分词、去停用词,并将经过预处理后的特征词放入集合InitialFeatureSet中;
步骤二:遍历特征词集合InitialFeatureSet中每个特征词ti
步骤三:计算特征词在文本集合中每个类别的文档频率DF_Avg,并设定最小最大阈值min,max;
步骤四:判断InitialFeatureSet集合中每个特征词的文档频DF_Avg是否在min和max之间,如果在则继续下一步,如果不在则将该特征词从InitialFeatureSet集合中剔除;
步骤五:计算特征词ti的特征频度FR(ti,cj)、特征词覆盖率ρ及词性系数u;
步骤六:根据改进的互信息特征评估函数计算特征词与各类别的互信息值,并把特征词ti互信息值MI(ti,cj)放入MutualInformationValueSet中;
步骤七:判断特征集合InitialFeatureSet是否为空,不为空,则转步骤二,否则转步骤八;
步骤八:对数组MutualInformationValueSet中的互信息值进行大小排序,并选取前N项作为互信息选择的结果,放入最终的互信息集合FinalMutualInformationCollection中。
(3)利用空间向量模型对筛选出的特征词集合向量化。
其中,D=<t1,w1;t2,w2;t3,w3.......;ti,wi;tn,wn>,Wi表示在待测文本D中,特征词ti的权重值。特征词ti在文档中出现的频率用tfi表示,训练集中所有文档的数目用N表示,包含特征词ti的文档出现的频率用dfti表示。
(4)对经过向量化的特征词集合利用KNN分类模型分类。利用余弦相似度公式计算待测文本与训练文本的相似度。
选出与待测文本D相似度最大的K个文本组成样本集。根据得到的K个最近邻样本集,计算测试样本D属于每个类别cm的权重W,并将待测样本D归入到权重最大的类别cm中。计算过程如公式所示。
其中,W(D,cm)表示将待测文本D分到类别cm中。类别属性函数δ(Di,cm)如公式所示。
(5)结果评估。使用查准率、查全率、F1值对分类结果进行评估。
查准率:
查全率:
F1值:
其中,TP表示分类时将正类预测为正类的数目,FN表示将正类预测为负类数,FP将负类预测为正类数,TN为将分类预测为负类数。精确率衡量的是类别的查准率,召回率衡量的是类别的查全率,F1值对查准率、召回率进行综合考察,以及对它们的偏向程度,且F1值综合了P和R的结果,所以当F1越高则越能说明试验方法比较有效,和分类器具有较强的分类能力。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (5)

1.一种改进的互信息特征选择方法,其特征在于,包括以下步骤:
步骤1:将文本数据分为测试集和训练集,并采用包括分词、去停用词在内的预处理步骤,即从句子中划分出每个有独立意义的词,并将其中对分类结果没有贡献的特征词根据提前建立的停用词表进行剔除;
步骤2:构建互信息特征评估函数:对传统的互信息评估函数进行改进,在传统的互信息评估函数基础上分别引入类内特征频度、特征词覆盖率及词性系数进行特征提取;
步骤3:筛选特征集合,对已经通过改进的互信息模型提取的特征词,筛选出互信息值在指定区间内的特征词,筛选过程中通过设定特征词的最大最小互信息值来确定,并组成特征词集合;
步骤4:KNN分类,对已经选出的特征词集合利用K近邻分类模型对其进行分类,用查准率,查全率和F1值评估分类结果;
所述步骤2的传统的互信息特征评估函数为:
其中,x、y分别指的是文本集合中的特征词与类别,MI(X,Y)指的是特征词的互信息值,P(x,y)表示特征词和类别的相关概率,p(x)表示特征词在其所属类别文档中出现的概率,即该特征词与其所属类别文档中出现的特征词频率之比,p(y)表示类别y的文档数量与文本集合中所有文档的数量之比;
在文本分类中,x,y分别对应特征词t和类别c,互信息计算公式近似为:
其中,p(t|ci)表示特征词t在类别ci中的概率,p(t)表示特征词在整个文本集合中的概率,MI(t,ci)越大,表示特征词t对文本类别ci具有越高的辨识度;
所述步骤2对传统的互信息模型引入类内特征频度,计算公式为:
其中,m表示类别cj中的文本总数,FR(t,cj)表示的是特征词t在类别cj中的特征频度,n表示文本集合中的总的类别数,tfjk表示的是特征词t在第j个类别cj中的第k篇文档中出现的频率,由公式可知FR(t,cj)值越大,表明特征词t在类别cj中出现的次数越多,特征词t越能代表类别cj
所述步骤2对传统的互信息模型引入特征词覆盖率,计算公式为:
其中,m表示类别cj中的文本总数,tfjk表示特征词t在类别cj中的文本djk(1≤k≤m)中出现的次数;从公式可以看出,ρ越大,说明特征词t对类别cj的覆盖率越大,特征词挣在类别cj中分布的越均匀;
所述步骤2对传统的互信息模型引入词性系数,公式如下:
由公式可知,特征词不同的词性会影响其词性系数的取值,其中0<η<ξ<1,η,ξ分别表示特征词t在不同词性下的取值,该取值的大小由多次试验确定,改进的互信息特征函数为:
2.根据权利要求1所述的一种改进的互信息特征选择方法,其特征在于,所述步骤3利用空间向量模型对筛选的特征数据集进行向量化,空间向量模型计算公式如下所示:
其中,D=<t1,w1;t2,w2;t3,w3.......;ti,wi;tn,wn>,tn表示特征词集合中第n个特征词,wn表示特征词集合中第n个特征词tn的权重值,Wi表示在待测文本D中特征词ti的权重值,特征词ti在文档中出现的频率用tfi表示,训练集中所有文档的数目用N表示,包含特征词ti的文档出现的频率用表示。
3.根据权利要求2所述的一种改进的互信息特征选择方法,其特征在于,所述步骤4利用KNN分类模型对文本数据进行分类,KNN是分类算法中的一种,是基于空间向量模型VSM的分类算法之一,KNN通过计算待测样本数据与训练样本数据中不同类别数据点间的相似度,然后根据相似度大小对待测样本进行分类,相似度公式如下:
其中,xj表示文本集合中已知类别文档中的特征词向量,xij表示未知类别文档Di相比于已知文档xj的特征词向量,n表示数据集的类别中文本的个数,利用该公式计算文本数据的相似度并选出与待测文本D相似度最大的K个文本组成样本集。
4.根据权利要求3所述的一种改进的互信息特征选择方法,其特征在于,所述KNN分类模型用空间向量模型对文本数据向量化,计算文本数据D属于每个每个类别cm的权重W,计算公式如下:
其中,W(D,cm)表示将待测文本D分到类别cm中的权重值,类别属性函数δ(Di,cm)如公式所示;
5.根据权利要求4所述的一种改进的互信息特征选择方法,其特征在于,所述步骤4使用查准率、查全率、F1值对分类结果进行评估,具体包括:
查准率:
查全率:
F1值:
其中,TP表示分类时将正类预测为正类的数目,FN表示将正类预测为负类数,FP将负类预测为正类数,TN为将分类预测为负类数;精确率衡量的是类别的查准率,召回率衡量的是类别的查全率,F1值对查准率、召回率进行综合考察,以及对它们的偏向程度,且F1值综合了P和R的结果,所以当F1越高则越能说明试验方法比较有效,和分类器具有较强的分类能力。
CN201910212325.9A 2019-03-20 2019-03-20 一种改进的互信息特征选择方法 Active CN110069630B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910212325.9A CN110069630B (zh) 2019-03-20 2019-03-20 一种改进的互信息特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910212325.9A CN110069630B (zh) 2019-03-20 2019-03-20 一种改进的互信息特征选择方法

Publications (2)

Publication Number Publication Date
CN110069630A CN110069630A (zh) 2019-07-30
CN110069630B true CN110069630B (zh) 2023-07-21

Family

ID=67366403

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910212325.9A Active CN110069630B (zh) 2019-03-20 2019-03-20 一种改进的互信息特征选择方法

Country Status (1)

Country Link
CN (1) CN110069630B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110502750B (zh) * 2019-08-06 2023-08-11 山东师范大学 中医文本分词过程中的消歧方法、系统、设备及介质
CN110781303A (zh) * 2019-10-28 2020-02-11 佰聆数据股份有限公司 一种短文本分类方法及系统
CN112328790A (zh) * 2020-11-06 2021-02-05 渤海大学 语料库的快速文本分类方法
CN112364629A (zh) * 2020-11-27 2021-02-12 苏州大学 基于去冗余互信息特征选择的文本分类系统及方法
CN113515623B (zh) * 2021-04-28 2022-12-06 西安理工大学 基于词频差值因子的特征选择方法
CN116361671B (zh) * 2023-06-01 2023-08-22 浪潮通用软件有限公司 一种基于后校正的高熵knn聚类方法、设备及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376235A (zh) * 2018-07-24 2019-02-22 西安理工大学 基于文档层词频重排序的特征选择方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8103671B2 (en) * 2007-10-11 2012-01-24 Honda Motor Co., Ltd. Text categorization with knowledge transfer from heterogeneous datasets
CN103279478B (zh) * 2013-04-19 2016-08-10 国家电网公司 一种基于分布式互信息文档特征提取方法
CN104063472B (zh) * 2014-06-30 2017-02-15 电子科技大学 一种优化训练样本集的knn文本分类方法
CN104391835B (zh) * 2014-09-30 2017-09-29 中南大学 文本中特征词选择方法及装置
CN105512311B (zh) * 2015-12-14 2019-02-26 北京工业大学 一种基于卡方统计的自适应特征选择方法
CN105701084A (zh) * 2015-12-28 2016-06-22 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于互信息的文本分类的特征提取方法
CN105975518B (zh) * 2016-04-28 2019-01-29 吴国华 基于信息熵的期望交叉熵特征选择文本分类系统及方法
CN106294736A (zh) * 2016-08-10 2017-01-04 成都轻车快马网络科技有限公司 基于关键词频率的文本特征提取方法
CN108491429A (zh) * 2018-02-09 2018-09-04 湖北工业大学 一种基于类内类间文档频和词频统计的特征选择方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376235A (zh) * 2018-07-24 2019-02-22 西安理工大学 基于文档层词频重排序的特征选择方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Mutual information based feature selection for multivariate time series forecasting;Tianhong Liu;《IEEEXplore》;全文 *

Also Published As

Publication number Publication date
CN110069630A (zh) 2019-07-30

Similar Documents

Publication Publication Date Title
CN110069630B (zh) 一种改进的互信息特征选择方法
CN111181939B (zh) 一种基于集成学习的网络入侵检测方法及装置
CN109299741B (zh) 一种基于多层检测的网络攻击类型识别方法
CN110633725B (zh) 训练分类模型的方法和装置以及分类方法和装置
CN111915437B (zh) 基于rnn的反洗钱模型的训练方法、装置、设备及介质
CN111914090B (zh) 一种企业行业分类识别及其特征污染物识别的方法及装置
Paul et al. Regenerative random forest with automatic feature selection to detect mitosis in histopathological breast cancer images
CN109271517B (zh) Ig tf-idf文本特征向量生成及文本分类方法
CN104834940A (zh) 一种基于支持向量机的医疗影像检查疾病分类方法
CN107273500A (zh) 文本分类器生成方法、文本分类方法、装置及计算机设备
CN101876987A (zh) 一种面向类间交叠的两类文本分类方法
Stafylakis et al. Deep word embeddings for visual speech recognition
Marini et al. Visual and acoustic identification of bird species
CN109145108A (zh) 文本层叠分类器训练方法、分类方法、装置及计算机设备
CN110442842A (zh) 合同内容的提取方法及装置、计算机设备、存储介质
CN111079427A (zh) 一种垃圾邮件识别方法及系统
CN108109612A (zh) 一种基于自适应降维的语音识别分类方法
Wiharto et al. Cells identification of acute myeloid leukemia AML M0 and AML M1 using K-nearest neighbour based on morphological images
Sahlol et al. Elephant herd optimization with neural networks: a case study on acute lymphoblastic leukemia diagnosis
CN107729877B (zh) 一种基于级联分类器的人脸检测方法及装置
CN113781483A (zh) 工业产品外观缺陷检测方法和装置
CN113626604A (zh) 基于最大间隔准则的网页文本分类系统
Markiewicz et al. Data mining techniques for feature selection in blood cell recognition.
CN115357718A (zh) 主题集成服务重复材料发现方法、系统、设备和存储介质
Yang et al. Microstructure identification based on vessel pores feature extraction of high-value hardwood species

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant