CN112200259A - 一种基于分类与筛选的信息增益文本特征选择方法及分类装置 - Google Patents

一种基于分类与筛选的信息增益文本特征选择方法及分类装置 Download PDF

Info

Publication number
CN112200259A
CN112200259A CN202011116057.XA CN202011116057A CN112200259A CN 112200259 A CN112200259 A CN 112200259A CN 202011116057 A CN202011116057 A CN 202011116057A CN 112200259 A CN112200259 A CN 112200259A
Authority
CN
China
Prior art keywords
feature
text
classification
features
screening
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011116057.XA
Other languages
English (en)
Inventor
孙冬璞
袁梦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN202011116057.XA priority Critical patent/CN112200259A/zh
Publication of CN112200259A publication Critical patent/CN112200259A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

本发明提供了一种基于分类与筛选的信息增益文本特征选择方法及分类装置,属于自然语言处理领域,该方法针对信息增益方法不适用于不均衡数据集、选择后特征冗余的问题,提出一种可应用于不均衡数据集的分类筛选信息增益方法。该方法通过计算各类文本数占总文本数的比例分配各个类别可选择的特征数目,保证了对小数据集特征的选择,以实现对不均衡数据集的特征选择;通过计算各特征在不同类别中单位文本数目词频的离散程度来实现特征筛选,减少对文本分类具有较小影响的冗余特征,降低特征子集的维度并提高分类的性能。实验结果显示无论是平均查准率、平均召回率还是平均F1值,分类筛选信息增益方法均有更好的性能。

Description

一种基于分类与筛选的信息增益文本特征选择方法及分类 装置
技术领域
本发明属于自然语言处理领域,具体涉及一种基于分类与筛选的信息增益文本特征选择方法及分类装置。
背景技术
在自然语言处理领域,大部分文本均通过向量空间的形式来表示,把文本中所有的字、词作为文本的特征,形成特征向量空间,然而即使经过文本预处理之后形成的高维度的特征向量空间仍然极大地增加了文本分类的难度,使文本分类的时间复杂度和空间复杂度大幅度提高,同时并不能保证分类的精度,故在进行文本分类之前,需要对文本进行降维,最常用的降维方法就是对文本进行特征选择,通过特征选择可以降低特征向量空间的维度、提升分类的准确性和精确度。
在众多特征提取方法中,基于信息增益的方法具有优越的表现,但存在不适用于不均衡数据集、未考虑特征相关性的缺点,为了将该方法应用于不均衡数据集、减少对文本分类贡献较小的冗余特征,本发明提出新的特征选择方法,根据文本的数目进行特征数目的分配以确保对小数据集的特征选择,并通过计算特征在类间出现次数的方差进行特征筛选,进一步减小特征的维度提高文本分类的性能。
发明内容
为解决上述问题,本发明提出了一种基于分类与筛选的信息增益文本特征选择方法,所述方法包括步骤:
步骤1:定义分词规则和停用词词典,对语料库中文本预处理,把文本分解为一系列词汇,并将文本中的词汇存入哈希集,得到无重复的原始特征集。
步骤2:对每个文本进行词频统计,将文本转化为一系列<特征,词频>键值对。
步骤3:依据参考词频统计结果,计算原始特征集中特征的信息增益值。
步骤4:依据信息增益值由大到小的顺序,对原始特征集进行排序。
步骤5:定义一个分类选择规则,依据各类所含的文本数占总文本数的比例,确定应从各类中选择出的特征数目。
步骤6:定义一个特征类别计算函数,统计特征在所有文本中出现的次数,将特征出现的次数最多的文本所属的类别,作为该特征所属的类别。
步骤7:依据步骤5、6中得到的各类特征数目和词汇所属类别对排序后原始特征集进行分类特征选择,得到特征子集。
步骤8:计算词汇在各类别中出现次数除以文本数的方差,并将方差小于阈值的特征存入带删除特征集。
步骤9:将特征子集与待删除特征集进行比对,进行特征子集筛选,不存在于待删除特征集中的特征组成最终特征集合。
步骤10:使用最终特征集合进行文本分类,计算分类的性能以反映特征选择出的最终特征子集的优劣。
优选地,信息增益值计算公式为:
Figure BDA0002730285080000031
其中,H(C)为分类系统的信息熵,H(C|T)为当特征t的值固定时的条件熵,P(Ci)为文本出现在各类别中的概率,P(t)为语料库中包含特征t的文本的概率,P(Ci|t)为文本包含特征t时属于Ci的条件概率,
Figure BDA0002730285080000032
为语料库中不包含特征t的文本的概率,
Figure BDA0002730285080000033
为文本不包含特征t时属于Ci的条件概率。
优选地,计算各类所应选择的特征数目的公式为:
Figure BDA0002730285080000034
其中,
Figure BDA0002730285080000035
表示某类应选择的特征数,
Figure BDA0002730285080000036
表示某类包含的文本数,ntotal表示预定义的待提取特征总数,stotal表示所有类别的总文本数,N表示总类别数。
优选地,特征所属类别计算公式为:
Figure BDA0002730285080000037
其中,Ct为特征t单位文本长度出现次数最多的文本,mt为文本texti中特征t出现的次数,li为文本texti的文本内容长度,stotal为所有文本的总数。
优选地,分类特征选择的具体步骤为:
(1)设置已选择特征数目k并计算
Figure BDA0002730285080000041
即每一类计算得出的应选择数目总和。
(2)对于排序后的原始特征集中的所有特征,若k≥ntotal或k≥ncount,则停止特征选择。
(3)若一个特征所属类别已选择的特征未满,则将该特征选择至特征子集,并将该特征所属的类别计数器加一。
优选地,计算特征的类间方差的公式为:
Figure BDA0002730285080000042
其中,
Figure BDA0002730285080000043
为特征在各类别中出现的次数,
Figure BDA0002730285080000044
为各类别包含的文本总数,N为类别总数,std为特征的类间方差。
优选地,分类的性能具体包括:
(1)计算分类准确率
(2)计算各类查准率、召回率、F1值
(3)计算总加权平均查准率、召回率、F1值
本发明还提供了一种基于分类与筛选的信息增益文本特征选择方法的分类装置,所述装置包括:
预处理单元,用于对文本进行分词、去停用词等操作,生成不含重复特征的原始特征集。
词频统计单元,用于对文本进行词频统计,得到包含<特征,词频>的哈希映射。
信息增益值计算单元,用于计算原始特征集中所有特征的信息增益值。
特征集排序单元,依据特征的信息增益值对原始特征集进行排序得到,按信息增益值降序排列的原始特征集。
特征比例计算单元,按比例计算各类所占的特征比重。
特征类别计算单元,计算各特征对应的类。
特征选择单元,依据特征比例和特征类别对特征进行分类筛选,形成特征子集。
分类别词频计算单元,计算特征词在各类出现的词频。
词频方差计算及特征筛选单元,按文本数比例计算各类别词频的方差,筛选出并删除方差小于阈值的特征,得到最终特征子集。
分类及性能计算单元,使用最终特征子集进行文本分类,并对分类性能进行计算。
本发明提供的一种基于分类与筛选的信息增益文本特征选择方法及分类装置,相较于现有的方法,具有以下优势:
(1)采用计算信息增益的方法进行特征权重的计算,信息增益方法计算出的信息熵衡量了一个特征所包含的信息量的多少,一个特征所包含的信息量越多,其对文本分类所做出的贡献越大,因此使用基于信息增益的特征选择方法可以更好地选择用于文本分类的特征。
(2)定义了分类选择规则,各类别选择的特征数目由各类别的文本数目决定,保证了对小样本类别的特征选择,使其更加适用于不均衡是样本集。
(3)计算特征子集在类间出现次数的方差,筛选出方差较小,即在各类之间差距较小的特征,实现了特征筛选以进一步降低特征的维度。
(4)所述装置的特征类别计算单元,在统计特征在所有文本中出现的次数时,结合文本内容的长度,选择在单位长度文本中出现次数最多的文本所属的类别作为特征所属的类别,消除了不同文本长度带来的消极影响。
(5)所述装置的词频方差计算及特征筛选单元,在计算特征在各类别中的词频时,同时考虑各类别包含的文本数量,计算单位文本数量的词频,在进行特征筛选的同时令方法更加适用于不均衡数据集。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种基于分类与筛选的信息增益文本特征选择方法的流程图。
图2为本发明提供的一种基于分类与筛选的信息增益文本特征选择方法的分类装置示意图。
图3为本发明与其他特征选择方法采用复旦大学中文文本分类数据集,在不同参数下的分类准确率对比。
图4为本发明与其他特征选择方法采用复旦大学中文文本分类数据集,总加权查准率、召回率、F1值对比。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明,应该理解,这些描述只是示例性的,而并非要限制本发明的范围,此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
如图1,本发明提供了一种基于分类与筛选的信息增益文本特征选择方法,所述方法步骤如下:
步骤S1:对文本进行分词、去停用词等预处理。
步骤S2:对文本进行词频统计。
步骤S3:通过公式(1)计算原始特征集中所有特征的信息增益值。
Figure BDA0002730285080000071
其中,H(C)为分类系统的信息熵,H(C|T)为当特征t的值固定时的条件熵,P(Ci)为文本出现在各类别中的概率,P(t)为语料库中包含特征t的文本的概率,P(Ci|t)为文本包含特征t时属于Ci的条件概率,
Figure BDA0002730285080000072
为语料库中不包含特征t的文本的概率,
Figure BDA0002730285080000073
为文本不包含特征t时属于Ci的条件概率。
步骤S4:按信息增益值对原始特征集进行排序。
步骤S5:通过公式(2)计算各类别应选择的特征数目。
Figure BDA0002730285080000081
其中,
Figure BDA0002730285080000082
表示某类应选择的特征数,
Figure BDA0002730285080000083
表示某类包含的文本数,ntotal表示预定义的待提取特征总数,stotal表示所有类别的总文本数,N表示总类别数。
步骤S6:通过公式(3)计算特征所属的类别。
Figure BDA0002730285080000084
其中,Ct为特征t单位文本长度出现次数最多的文本,mt为文本texti中特征t出现的次数,li为文本texi的文本内容长度,stotal为所有文本的总数。
步骤S7:根据S5、S6的结果进行分类特征选择,具体如下:
步骤S701:设置已选择特征数目k并计算
Figure BDA0002730285080000085
Figure BDA0002730285080000086
即每一类计算得出的应选择数目总和。
步骤S702:对于排序后的原始特征集中的所有特征,若k≥ntotal或k≥ncount,则停止特征选择。
步骤S703:若一个特征所属类别已选择的特征未满,则将该特征选择至特征子集,并将该特征所属的类别计数器加一。
步骤S8:通过公式(4)计算特征在类间的方差。
Figure BDA0002730285080000087
其中,
Figure BDA0002730285080000088
为特征在各类别中出现的次数,
Figure BDA0002730285080000089
为各类别包含的文本总数,N为类别总数,std为特征的类间方差。
步骤S9:通过比较方差与阈值,进行特征筛选,得到最终特征子集。
步骤S10:使用最终特征子集进行文本分类,并测试分类性能,具体步骤如下:
步骤S1001:通过公式(5)计算分类结果的查准率。
Figure BDA0002730285080000091
步骤S1002:通过公式(6)计算分类结果的召回率。
Figure BDA0002730285080000092
步骤S1003:通过公式(7)计算分类结果的F测量值。
Figure BDA0002730285080000093
其中,True Positives(TP)为实际为正例且实验时被划分为正例的测试样本数目,False Positives(FP)为实际为负例但实验时被划分为正例的测试样本数目,FalseNegatives(FN)为实际为正例但实验时被划分为负例的测试样本数目,True Negatives(TN)为实际为负例且实验时被划分为负例的测试样本数目。
通过本实施方式首先计算每个特征的信息增益值,得到按信息增益值降序排列的原始特征集,然后计算各类别应选择的特征数目,计算特征所属的类别,对原始特征集进行分类特征选择,之后计算特征的类间方差,对特征进行筛选得到最终特征子集,最后使用最终特征子集进行文本分类,计算分类性能。
进一步说明,已知有一系列已知类别的文本集合,经过本方法进行特征选择,可以得到文本的低维度特征表示,将其应用于文本分类,在合适的参数选择下,相较于原方法,分类的各项性能指标均有了显著的增长。
如图2所示,在本申请实施例中,本申请还提供了一种基于分类与筛选的信息增益文本特征选择方法的分类装置,所属装置包括:
预处理单元10,用于对文本进行分词、去停用词等操作,生成不含重复特征的原始特征集。
词频统计单元20,用于对文本进行词频统计,得到包含<特征,词频>的哈希映射。
信息增益值计算单元30,用于计算原始特征集中所有特征的信息增益值。
特征集排序单元40,依据特征的信息增益值对原始特征集进行排序得到,按信息增益值降序排列的原始特征集。
特征比例计算单元50,按比例计算各类所占的特征比重。
特征类别计算单元60,计算各特征对应的类。
特征选择单元70,依据特征比例和特征类别对特征进行分类选择,形成特征子集。
分类别词频计算单元80,计算特征词在各类出现的词频。
词频方差计算及特征筛选单元90,按文本数比例计算各类别词频的方差,筛选出并删除方差小于阈值的特征,得到最终特征子集。
分类及性能计算单元100,使用最终特征子集进行文本分类,并对分类性能进行计算。
本申请提供的一种基于分类与筛选的信息增益文本特征选择方法的分类装置,可以结合本申请提供的一种基于分类与筛选的信息增益文本特征选择方法进行运行,再此不再赘述。
具体实施方式结果
本实施方式采用复旦大学发布的中文文本分类数据集中的一部分,为了验证在不平衡数据集上的使用效果,使用其中Art、History、Space和Electronics四个类别进行模拟实验,各类别包含的文本数如下表所示。
Figure BDA0002730285080000111
为了验证本实施方式的优越性,将本实施方式(IGCS方法)与原信息增益方法(IG方法)和仅进行分类特征选择未进行特征筛选的方法(no-screen方法)进行对比,对比的性能包括文本分类的准确率、查准率、召回率、和F1值等,下表为在不同参数下的三种方法分类准确率,对比如图3所示。
Figure BDA0002730285080000112
由上表数据可知,选择总特征数目未定时,IG算法的最高准确率67.3251%,方差阈值取10-3的IGCS算法的最高准确率为76.1345%,方差阈值取10-4的IGCS算法的最高准确率为75.8676%,方差阈值取10-5的IGCS算法的最高准确率为76.1179%,no-screen算法最高准确率为75.2803%,IGCS算法具有最高的准确率,no-screen算法次之,IG算法的准确率最低且与前两者具有约为8%的差距,不同方差阈值的IGCS算法中,当阈值取10-3时具有最高的准确率,略高于阈值取10-4和10-5时的准确率0.2669%和0.0166%。
当特征选择总数目为3000时,分类筛选IG方法的分类准确率为76.1345%、75.8676%和76.1879%,在不同阈值下均达到了最高,no-screen方法为75.2803%,同样高于1000和2000时的准确率,IG方法在特征选择总数目为1000时达到最高准确率67.3251%,但仍低于分类筛选IG方法
设置特征选择总数目为3000,方差阈值为10-3,对IG算法,IGCS算法和no-screen算法进行实验,观察三种算法分类后的分类性能评价指标,三种选择算法的混淆矩阵如下表所示。
Figure BDA0002730285080000121
三种选择算法的各类查准率、召回率、F1值对比如下表所示。
Figure BDA0002730285080000122
总加权平均查准率、召回率、F1值对比如下表,对比如图4所示。
Figure BDA0002730285080000131
由混淆矩阵可知使用IG算法进行特征选择后,没有文本被分类至C16类中,C16类中被预测为正例的样本数为0,即TP+FP=0,查准率的计算公式为TP/(TP+FP),故使用IG算法,C16类的查准率不存在,如各类对比表所示,同理,由于TP=0,C16类的召回率为0,因此F1值也不存在,如总加权对比表所示。
从各类对比表中可以直观地看出,IGCS算法中小样本集C16类的查准率、召回率和F1值分别为0.400、0.296和0.340,均优于IG算法和no-screen算法,这使IGCS算法比IG算法更加适用于不均衡数据集。由总加权对比表也可看出,IGCS方法的查准率、召回率和F1值分别为0.756、0.761和0.757,均优于no-screen方法和IG方法。
本实施方式提出了一种基于分类与筛选的信息增益文本特征选择方法及分类装置,用于对不均衡数据集的文本特征提取和文本分类,提出了一种新的基于信息增益的特征选择规则,和一种面向特征选择后的特征子集筛选规则,在复旦大学的中文文本分类数据集上实验结果表明,本实施方式相较于其他方法具有更好的分类准确度、更高的查准率、召回率和F1值,具有更好的性能。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制,因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内,此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (8)

1.一种基于分类与筛选的信息增益文本特征选择方法,其特征在于,所述方法包括步骤:
步骤1:定义分词规则和停用词词典,对语料库中文本预处理,把文本分解为一系列特征,并将文本中的特征存入哈希集,得到无重复的原始特征集;
步骤2:对每个文本进行词频统计,将文本转化为一系列<特征,词频>键值对;
步骤3:依据参考词频统计结果,计算原始特征集中特征的信息增益值;
步骤4:依据信息增益值由大到小的顺序,对原始特征集进行排序;
步骤5:定义一个分类选择规则,依据各类所含的文本数占总文本数的比例,确定应从各类中选择出的特征数目;
步骤6:定义一个特征类别计算函数,统计特征在所有文本中出现的次数,将特征出现的次数最多的文本所属的类别,作为该特征所属的类别;
步骤7:依据步骤5、6中得到的各类特征数目和特征所属类别对排序后原始特征集进行分类特征选择,得到特征子集;
步骤8:计算特征在各类别中出现次数除以文本数的方差,并将方差小于阈值的特征存入带删除特征集;
步骤9:将特征子集与待删除特征集进行比对,进行特征子集筛选,不存在于待删除特征集中的特征组成最终特征集合;
步骤10:使用最终特征集合进行文本分类,计算分类的性能以反映特征选择出的最终特征子集的优劣。
2.根据权利要求1所述的基于分类与筛选的信息增益文本特征选择分类方法,其特征在于,所述步骤3中信息增益值计算公式为:
Figure FDA0002730285070000011
其中,H(C)为分类系统的信息熵,H(C|T)为当特征t的值固定时的条件熵,P(Ci)为文本出现在各类别中的概率,P(t)为语料库中包含特征t的文本的概率,P(Ci|t)为文本包含特征t时属于Ci的条件概率,
Figure FDA0002730285070000014
为语料库中不包含特征t的文本的概率,
Figure FDA0002730285070000015
为文本不包含特征t时属于Ci的条件概率。
3.根据权利要求1所述的基于分类与筛选的信息增益文本特征选择分类方法,其特征在于,所述步骤5中计算各类所应选择的特征数目的公式为:
Figure FDA0002730285070000021
其中,
Figure FDA0002730285070000022
表示某类应选择的特征数,
Figure FDA0002730285070000023
表示某类包含的文本数,ntotal表示预定义的待提取特征总数,stotal表示所有类别的总文本数,N表示总类别数。
4.根据权利要求1所述的基于分类与筛选的信息增益文本特征选择分类方法,其特征在于,所述步骤6中特征所属类别计算公式为:
Figure FDA0002730285070000024
其中,Ct为特征t单位文本长度出现次数最多的文本,mt为文本texti中特征t出现的次数,li为文本texti的文本内容长度,stotal为所有文本的总数。
5.根据权利要求1所述的基于分类与筛选的信息增益文本特征选择分类方法,其特征在于,所述步骤7中分类特征选择的具体步骤为:
步骤7-1:设置已选择特征数目k并计算
Figure FDA0002730285070000025
即每一类计算得出的应选择数目总和;
步骤7-2:对于排序后的原始特征集中的所有特征,若k≥ntotal或k≥ncount,则停止特征选择;
步骤7-3:若一个特征所属类别已选择的特征未满,则将该特征选择至特征子集,并将该特征所属的类别计数器加一。
6.根据权利要求1所述的基于分类与筛选的信息增益文本特征选择分类方法,其特征在于,所述步骤8中特征在类间的方差计算公式为:
Figure FDA0002730285070000026
其中,
Figure FDA0002730285070000027
为特征在各类别中出现的次数,
Figure FDA0002730285070000028
为各类别包含的文本总数,N为类别总数,std为特征的类间方差。
7.根据权利要求1所述的基于分类与筛选的信息增益文本特征选择分类方法,其特征在于,所述步骤10中分类的性能具体包括:
步骤10-1:计算分类准确率
步骤10-2:计算各类查准率、召回率、F1值
步骤10-3:计算总加权平均查准率、召回率、F1值
一种基于分类与筛选的信息增益文本特征选择方法的分类装置,其特征在于,所述装置包括:
预处理单元,用于对文本进行分词、去停用词等操作,生成不含重复特征的原始特征集。
8.词频统计单元,用于对文本进行词频统计,得到包含<特征,词频>的哈希映射;
信息增益值计算单元,用于计算原始特征集中所有特征的信息增益值;
特征集排序单元,依据特征的信息增益值对原始特征集进行排序得到,按信息增益值降序排列的原始特征集;
特征比例计算单元,按比例计算各类所占的特征比重;
特征类别计算单元,计算各特征对应的类;
特征选择单元,依据特征比例和特征类别对特征进行分类选择,形成特征子集;
分类别词频计算单元,计算特征词在各类出现的词频;
词频方差计算及特征筛选单元,按文本数比例计算各类别词频的方差,筛选出并删除方差小于阈值的特征,得到最终特征子集;
分类及性能计算单元,使用最终特征子集进行文本分类,并对分类性能进行计算。
CN202011116057.XA 2020-10-19 2020-10-19 一种基于分类与筛选的信息增益文本特征选择方法及分类装置 Pending CN112200259A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011116057.XA CN112200259A (zh) 2020-10-19 2020-10-19 一种基于分类与筛选的信息增益文本特征选择方法及分类装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011116057.XA CN112200259A (zh) 2020-10-19 2020-10-19 一种基于分类与筛选的信息增益文本特征选择方法及分类装置

Publications (1)

Publication Number Publication Date
CN112200259A true CN112200259A (zh) 2021-01-08

Family

ID=74010197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011116057.XA Pending CN112200259A (zh) 2020-10-19 2020-10-19 一种基于分类与筛选的信息增益文本特征选择方法及分类装置

Country Status (1)

Country Link
CN (1) CN112200259A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112948589A (zh) * 2021-05-13 2021-06-11 腾讯科技(深圳)有限公司 文本分类方法、装置和计算机可读存储介质
CN116361345A (zh) * 2023-06-01 2023-06-30 新华三人工智能科技有限公司 一种数据流的特征筛选、分类方法、装置、设备及介质
CN117118749A (zh) * 2023-10-20 2023-11-24 天津奥特拉网络科技有限公司 一种基于个人通信网络的身份验证系统

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021838A (zh) * 2007-03-02 2007-08-22 华为技术有限公司 文本处理方法和系统
WO2012139072A1 (en) * 2011-04-06 2012-10-11 Headwater Partners I Llc Distributing content and service launch objects to mobile devices
EP2525295A1 (en) * 2011-05-18 2012-11-21 Sony Corporation Information processing apparatus, information processing method, and program for providing information associated with a search keyword
CN105512311A (zh) * 2015-12-14 2016-04-20 北京工业大学 一种基于卡方统计的自适应特征选择方法
WO2017167067A1 (zh) * 2016-03-30 2017-10-05 阿里巴巴集团控股有限公司 网页文本分类的方法和装置,网页文本识别的方法和装置
CN108073567A (zh) * 2016-11-16 2018-05-25 北京嘀嘀无限科技发展有限公司 一种特征词提取处理方法、系统及服务器
US20190034823A1 (en) * 2017-07-27 2019-01-31 Getgo, Inc. Real time learning of text classification models for fast and efficient labeling of training data and customization
CN109934278A (zh) * 2019-03-06 2019-06-25 宁夏医科大学 一种信息增益混合邻域粗糙集的高维度特征选择方法
CN110580286A (zh) * 2019-08-09 2019-12-17 中山大学 一种基于类间信息熵的文本特征选择方法
CN111062212A (zh) * 2020-03-18 2020-04-24 北京热云科技有限公司 一种基于优化tfidf的特征提取方法及系统
CN111144106A (zh) * 2019-12-20 2020-05-12 山东科技大学 一种不平衡数据集下的两阶段文本特征选择方法
EP3695783A1 (en) * 2019-02-15 2020-08-19 Origin Wireless, Inc. Method, apparatus, and system for wireless gait recognition

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021838A (zh) * 2007-03-02 2007-08-22 华为技术有限公司 文本处理方法和系统
WO2012139072A1 (en) * 2011-04-06 2012-10-11 Headwater Partners I Llc Distributing content and service launch objects to mobile devices
EP2525295A1 (en) * 2011-05-18 2012-11-21 Sony Corporation Information processing apparatus, information processing method, and program for providing information associated with a search keyword
CN105512311A (zh) * 2015-12-14 2016-04-20 北京工业大学 一种基于卡方统计的自适应特征选择方法
WO2017167067A1 (zh) * 2016-03-30 2017-10-05 阿里巴巴集团控股有限公司 网页文本分类的方法和装置,网页文本识别的方法和装置
CN108073567A (zh) * 2016-11-16 2018-05-25 北京嘀嘀无限科技发展有限公司 一种特征词提取处理方法、系统及服务器
US20190034823A1 (en) * 2017-07-27 2019-01-31 Getgo, Inc. Real time learning of text classification models for fast and efficient labeling of training data and customization
EP3695783A1 (en) * 2019-02-15 2020-08-19 Origin Wireless, Inc. Method, apparatus, and system for wireless gait recognition
CN109934278A (zh) * 2019-03-06 2019-06-25 宁夏医科大学 一种信息增益混合邻域粗糙集的高维度特征选择方法
CN110580286A (zh) * 2019-08-09 2019-12-17 中山大学 一种基于类间信息熵的文本特征选择方法
CN111144106A (zh) * 2019-12-20 2020-05-12 山东科技大学 一种不平衡数据集下的两阶段文本特征选择方法
CN111062212A (zh) * 2020-03-18 2020-04-24 北京热云科技有限公司 一种基于优化tfidf的特征提取方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
姜芳: ""基于语义的文档特征提取研究方法"", 《计算机科学》 *
孙冬璞: ""时间序列特征表示与相似性度量研究综述"", 《计算机科学与探索》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112948589A (zh) * 2021-05-13 2021-06-11 腾讯科技(深圳)有限公司 文本分类方法、装置和计算机可读存储介质
CN116361345A (zh) * 2023-06-01 2023-06-30 新华三人工智能科技有限公司 一种数据流的特征筛选、分类方法、装置、设备及介质
CN116361345B (zh) * 2023-06-01 2023-09-22 新华三人工智能科技有限公司 一种数据流的特征筛选、分类方法、装置、设备及介质
CN117118749A (zh) * 2023-10-20 2023-11-24 天津奥特拉网络科技有限公司 一种基于个人通信网络的身份验证系统

Similar Documents

Publication Publication Date Title
CN112200259A (zh) 一种基于分类与筛选的信息增益文本特征选择方法及分类装置
CN110321925B (zh) 一种基于语义聚合指纹的文本多粒度相似度比对方法
CN107391772B (zh) 一种基于朴素贝叶斯的文本分类方法
CN109271517B (zh) Ig tf-idf文本特征向量生成及文本分类方法
CN110633725A (zh) 训练分类模型的方法和装置以及分类方法和装置
CN109376235B (zh) 基于文档层词频重排序的特征选择方法
CN109657011A (zh) 一种筛选恐怖袭击事件犯罪团伙的数据挖掘方法及系统
CN109165529B (zh) 一种暗链篡改检测方法、装置和计算机可读存储介质
CN112784031B (zh) 一种基于小样本学习的客服对话文本的分类方法和系统
CN109508374A (zh) 基于遗传算法的文本数据半监督聚类方法
US5553163A (en) Polytomous segmentation process
CN112036476A (zh) 基于二分类业务的数据特征选择方法、装置及计算机设备
CN111680506A (zh) 数据库表的外键映射方法、装置、电子设备和存储介质
CN107562928B (zh) 一种ccmi文本特征选择方法
JP4143234B2 (ja) 文書分類装置、文書分類方法及び記憶媒体
CN116629258B (zh) 基于复杂信息项数据的司法文书的结构化分析方法及系统
CN110348497B (zh) 一种基于WT-GloVe词向量构建的文本表示方法
CN115408527B (zh) 文本分类方法、装置、电子设备及存储介质
CN108172304B (zh) 一种基于用户医疗反馈的医疗信息可视化处理方法及系统
CN115510331A (zh) 一种基于闲置量聚合的共享资源匹配方法
CN112579783B (zh) 基于拉普拉斯图谱的短文本聚类方法
CN112989052B (zh) 一种基于组合-卷积神经网络的中文新闻长文本分类方法
CN114416977A (zh) 文本难度分级评估方法及装置、设备和存储介质
CN111383716B (zh) 基因对的筛选方法、装置、计算机设备和存储介质
CN114117057A (zh) 产品反馈信息的关键词提取方法及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210108