CN104063472B - 一种优化训练样本集的knn文本分类方法 - Google Patents

一种优化训练样本集的knn文本分类方法 Download PDF

Info

Publication number
CN104063472B
CN104063472B CN201410305607.0A CN201410305607A CN104063472B CN 104063472 B CN104063472 B CN 104063472B CN 201410305607 A CN201410305607 A CN 201410305607A CN 104063472 B CN104063472 B CN 104063472B
Authority
CN
China
Prior art keywords
text data
text
training
sample
sorted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410305607.0A
Other languages
English (en)
Other versions
CN104063472A (zh
Inventor
屈鸿
谌语
绍领
解修蕊
黄利伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201410305607.0A priority Critical patent/CN104063472B/zh
Publication of CN104063472A publication Critical patent/CN104063472A/zh
Application granted granted Critical
Publication of CN104063472B publication Critical patent/CN104063472B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种优化训练样本集的KNN文本分类方法,属于文本挖掘,自然语言处理等领域,解决传统KNN文本分类方法的效率和准确率低的问题。本发明在于对训练用文本数据和待分类文本数据进行文本预处理;将预处理后的训练用文本数据和待分类文本数据分别进行文本表示;对文本表示的训练用文本数据和待分类文本数据分别利用遗传算法进行特征提取;对提取的训练用文本数据特征进行分类训练,使用经过优化样本集的KNN算法进行训练分类,构造文本分类器;将文本分类器作用于特征提取后的待分类文本数据,得到待分类文本数据的分类结果。本发明能够更好的应用于文本信息挖掘系统。

Description

一种优化训练样本集的KNN文本分类方法
技术领域
一种优化训练样本集的KNN文本分类方法,基于裁剪优化训练集的K最近邻结点算法对文本进行分类,属于文本挖掘,自然语言处理等领域。
背景技术
随着互联网络上大量信息不断的涌现出来,给信息的查询以及检索带来了很大的不便,而人们对获得信息的快捷性以及信息的简洁性的需求与日俱增。面对这个问题,文本分类技术就被提出了出来。它能够对海量信息进行有序整理组织,能够在隐藏的、未知的大量文本信息中帮助用户发现有用的、潜在的知识。
文本分类技术的出现立即获得了人们广泛的关注,同时也成为了研究的热点。文本分类是指在给定分类体系下,根据文本内容自动确定文本类别的过程。20世纪90年代以前,占主导地位的文本分类方法一直是基于知识工程的分类方法,即由专业人员手工进行分类。分类非常费时,效率过低。90年代以来,众多的统计方法和机器学习方法应用于自动文本分类。
爆炸式增长的文本信息给文本分类的精度与速度提出了新的标准和挑战。随着分类技术在各个领域的广泛应用,毫无疑问,对文本分类技术研究的重要意义越来越明确的显现。
国外对于文本自动分类的研究开展较早,20世纪50年代末,H.P.Luhn对文本自动分类进行了开创性的研究,将词频统计思想应用于文本自动分类。1960年,Maro发表了关于自动分类的第一篇论文,随后,K.Spark、G.Salton、R.M.Needham、M.E.Lesk以及K.S.Jones等学者在这一领域进行了很成功的研究,到目前为止,国外基本经历了以下四个文本分类的主要阶段,分别为:
第一阶段(1958-1964):针对文本自动分类的可行性研究;
第二阶段(1965-1974):文本自动分类的实验阶段;
第三阶段(1975-1998):文本自动分类的实际应用阶段;
第四阶段(1990至今):因特网文本自动分类研究阶段。
目前比较主要的文本分类方法有以下三个类别:基于规则的文本分类方法,基于统计的文本分类方法,以及基于连接的文本分类方法。
常见的基于规则的分类方法有决策树、关联规则等;基于统计的分类方法有朴素贝叶斯、KNN方法等;基于连接的分类方法有神经网络等。
对于每一个文档与其类别的二元组<di,ci>∈D×C,判断其结果,如果结果为1,这表示文档di属于类别ci;如果结果为0,则表示文档di不属于类别ci。其中,di代指文档集合D中的一个文档,C={c1,c2,...,cn}是预先定义好的类别集合。文本分类的目的就是找出将文本进行分类的函数Φ:D×C→{1,0},这个函数就是文本分类器。
在文本分类的特征提取阶段,传统的互信息MI特征提取方法虽然有着对类别和特征之间的连接性能够增强的特点,但是对低频词的处理效果并不好,在处理单个特征的时候容易陷入局部最优。
在文本分类的分类阶段,传统KNN分类算法的基本思想是:先计算待分类样本与已知类别的训练样本之间的距离或相似度,找到距离或相似度与待分类样本数据最近的K个邻居;再根据这些邻居所属的类别来判断待分类样本数据的类别。如果待分类样本数据的K个邻居都属于一个类别,那么待分类样本也属于这个类别。
KNN是空间向量模型中最好的算法之一,KNN算法最大的优点在于简单,不需要训练学习,但是KNN一种惰性的分类方法,只有需要分类时才建立分类器,需要将样本集中的每个样本都要遍历一次,计算量大(比如要建立一个文本分类器,若有上万个类别,即使每个类别只有30个训练样本数据,要判断出一个新的待分类样本的类别,也需要至少做30万次的比较),并且KNN易受样本空间密度的影响,分类效率较低。
发明内容
本发明针对现有技术的不足之处提供一种优化训练样本集的KNN文本分类方法,解决传统KNN文本分类方法的效率和准确率低的问题,并且在特征提取步骤将互信息值引入到遗传算法之中,能够结合两种提取方法的优点,使得特征提取结果更为可靠,使整个文本分类能够更好的应用于文本信息挖掘系统。
为了解决上述技术问题,本发明采用如下技术方案:
一种优化训练样本集的KNN文本分类方法,其特征在于,如下步骤:
(1)对训练用文本数据和待分类文本数据进行文本预处理;
(2)将预处理后的训练用文本数据和待分类文本数据分别进行文本表示;
(3)对文本表示的训练用文本数据和待分类文本数据分别利用遗传算法进行特征提取;
(4)对提取的训练用文本数据特征进行分类训练,使用经过优化样本集的KNN算法进行训练分类,构造文本分类器;
(5)将文本分类器作用于特征提取后的待分类文本数据,得到待分类文本数据的分类结果。
作为优选,所述步骤(2)中,文本表示是指将预处理后的结构化文本数据转化为向量空间模型表示,具体步骤如下:
(21)使用TF_IDF法分别计算训练用文本数据和待分类文本数据中每个特征词的权重,计算公式为:
其中,tfij表示的是第i个文本特征词在文本(训练用文本数据或待分类文本数据)dj中出现的频率数目,N是文档(训练用文本数据或待分类文本数据)的总数目,Ni是指文档(训练用文本数据或待分类文本数据)集合中出现第i个文本特征词的文本数目,n为文本特征抽取时所选用的文本特征词数目,k为求和公式起点到终点的取值,从1开始计算到n,tfkj表示的是第k个文本特征词在文本dj中出现的频率数目;
(22)将计算出的训练用文本数据和待分类文本数据特征词权值分别表示为向量,具体表示为,
v(di)=(w1(di),w2(di),...,wn(di)),
其中,n表示文本特征提取所用的文本特征词数目,wj(di)表示第j个文本特征词在文档(训练用文本数据或待分类文本数据)di中的权值,j为1到n的任意值;
(23)计算训练用文本数据特征的平均互信息值MIavg(w),计算公式为:
其中,P(w∧ci)表示训练样本集中既属于特征词w又属于类别ci的概率,P(w)表示包含特征词w在训练用文本数据中出现的概率,P(ci)表示训练用文本数据中属于类别ci的文本数据的概率,MI(w,ci)表示单个类别下的互信息值,MIavg(w)为平均互信息值;
(24)将训练用文本数据的特征平均互信息值加入到步骤(22)训练用文本数据向量表示的最后一维度,具体表示为,
v(di)=(w1(di),w2(di),...,wn(di),MIn+1(di)),
其中,n表示文本特征提取所用的特征词数目,wj(di)表示第j个文本特征词在文档di中的权值,MIn+1(di)表示特征的平均互信息值,j为1到n的任意值。
作为优选,所述步骤(3)中,对文本表示的训练用文本数据和待分类文本数据分别利用遗传算法进行特征提取,具体步骤如下:
(31)采用浮点数编码方式分别对文本表示的训练用文本数据和待分类文本数据进行染色体编码;
(32)将编码后的训练用文本数据和待分类文本数据的文本特征词进行初始化,包括设置迭代次数,随机生成部分个体作为初始种群;
(33)计算初始种群中的每一条染色体的适应度;
(34)判断染色体适应度是否稳定或者是否已经达到遗传算法迭代的最终次数,如果是,则输出最优解,否则,执行步骤(35);
(35)使用比例法进行选择,将选择算子作用于种群;
(36)使用单点交叉和多点交叉相结合的方式,将交叉算子作用于种群;
(37)随机从未选中过的特征词权值中选择一个特征词权值,替换每条染色体中特征词权值最小的值,并将变异算子作用于种群,生成新一代的种群,并转到步骤(33)。
作为优选,所述步骤(35)中,比例法的公式为:
其中,Fit(si)为每一条染色体si的适应度,P(si)为最终si被选择的概率,j为从j=1开始直到n,n为遗传算法染色体总数。
作为优选,所述步骤(4)中,使用经过优化样本集的KNN算法进行训练分类的步骤如下:
(41)对训练用文本数据进行裁剪,得到裁剪样本文本数据训练集;
(42)采用余弦定理计算待分类文本数据和裁剪后样本文本数据训练集中已知类别样本文本数据之间的相似度;
(43)选取与待分类文本数据之间相似度最高的K个已知类别样本文本数据;
(44)根据K个已知类别样本文本数据判断待分类文本数据的类别。
作为优选,所述步骤(42)中,相似度的计算公式为:
其中,Sim(di,dj)表示文本di和dj之间的相似程度,n表示文本的特征词数目,wki和wkj分别表示文本di和dj的第k个特征词的权值,Sim(di,dj)值越大表示两个文本之间的相似度越高,反之,两个文本之间的区别越大。
作为优选,所述步骤(41)中,得到裁剪样本文本数据训练集的步骤如下:
(411)将训练用文本数据分为类内样本文本数据和边界样本文本数据;
(412)裁剪类内样本文本数据;
(413)裁剪边界样本文本数据。
作为优选,所述步骤(412)中,类内样本文本数据裁剪的步骤如下:
(4121)计算出训练用文本数据中的每一个已知类别样本文本数据类别的中心向量距离类中心向量最远的向量和训练用文本数据中的每一个已知类别样本文本数据的平均密度
(4122)计算出每次的增量n为初始设置同类别下文本数据分割增量区间个数;
(4123)如果计算类间增量小区域内的训练用文本数据中的每一个已知类别样本文本数据下增量内的样本文本数据的平均密度ρi和标准密度 其中Ψ是代表一个初始设置裁剪样本空间比例值的参数,当离类中心越近时取值越大;
(4124)判断是否成立,成立则裁剪小区域内邻域最多的样本,并转到步骤(4125),否则计算下一个增量空间并转到步骤(4123);
(4125)依次遍历完所有增量空间。
作为优选,所述步骤(413)中,边界样本裁剪文本数据的步骤如下:
(4131)计算出所有边界样本文本数据ε邻域范围的平均样本个数AVG;
(4132)计算单个边界样本文本数据的邻域内样本个数|Nε(X)|,如果|Nε(X)|>AVG,则对边界样本文本数据进行裁剪并转到步骤(4133),否则直接转到步骤(4133);
(4133)依次遍历完所有边界样本文本数据。
与现有技术相比,本发明的优点在于:
一、利用遗传算法进行文本特征提取,展示了算法的全局优化能力,不容易陷入局部最优解,是传统的特征提取算法不易做到的。
二、在训练文本进行向量空间模型表示的时候,在传统的特征向量的最后一维加入了特征的平均互信息值,能够为后续特征提取结果增强有效性。
三、针对处理对象是文本,分析文本的特点,对遗传算法的适应度函数以及遗传算子的工作都进行了细节优化,增强了特征选择的准确度。
四、对特征选择结果使用K最近邻结点算法进行文本分类,在过程中对样本训练集进行了优化,提高算法的效率;
五、在裁剪样本文本数据训练集的时候分为类内样本文本数据以及边界样本文本数据并行裁剪,节省算法的运行时间。
附图说明
图1为本发明的文本挖掘的整体流程图;
图2为本发明的文本分类的整体流程图;
图3为本发明的文本预处理流程图;
图4为本发明的遗传算法文本特征提取流程图;
图5为本发明的KNN算法流程图;
图6为本发明的类内样本文本数据裁剪流程图;
图7为本发明的边界样本文本数据裁剪流程图。
具体实施方式
下面将结合附图及具体实施方式对本发明作进一步的描述。
参见图1和图2,一种基于优化样本集KNN算法的文本分类方法,首先对训练集文本进行预处理,然后对预处理后的文本进行向量空间模型表示,接着对表示结果进行特征提取,进而可以进行文本分类模型计算,将待分类文本数据集同样进行文本预处理、文本表示以及特征提取后,将模型运用到待分类文本数据集中,最终得到结果。
一种优化训练样本集的KNN文本分类方法,具体的步骤如下:
(1)预定义文本总类别数目为n,n代表已知类别样本的类别数,即训练用文本数据的类别数,C={c1,c2,...,cn}是类别集合,对训练用文本数据和待分类文本数据进行文本预处理;训练用文本数据和待分类文本数据可以为网络上采集或者自然语言处理相关语料库等非结构化数据。其中,如图3所示,首先去除文本数据(训练用文本数据和待分类数据)中无用的低频词,如某一些词或短语在文本中出现的次数很少,对最后的结果影响不大,就可将其去除;通过去除掉无用的低频词后再去除文本数据中的标记,比如HTML的一些标记语言;然后去除文本数据中的停用词,停用词一般是指那些对于全文的意思内容没有任何能够起到表现作用的词语,比如“的”、“了”这些词;最后对文本数据进行中文分词得到特征词语,因为中文比较特殊,如果断句错误,经常会很引起很大的歧义,原因就在于中文中的词语和词语之间不像英文那样有空格隔开,中文之间是没有隔离符号的,而中文博大精深,很多词语连在一起代表的意思是不同的,所以在中文分词时使用ICTCLAS分词系统。
(2)将预处理后的训练用文本数据和待分类文本数据分别进行文本表示,文本表示是指将预处理后的结构化文本数据转化为向量空间模型表示,具体步骤如下:
(21)使用TF_IDF法分别计算训练用文本数据和待分类文本数据中每个特征词的权重,计算公式为:
其中,tfij表示的是第i个文本特征词在文本(训练用文本数据或待分类文本数据)dj中出现的频率数目,N是文档(训练用文本数据或待分类文本数据)的总数目,Ni是指文档(训练用文本数据或待分类文本数据)集合中出现第i个文本特征词的文本数目,n为文本特征抽取时所选用的文本特征词数目,k为求和公式起点到终点的取值,从1开始计算到n,tfkj表示的是第k个文本特征词在文本dj中出现的频率数目;
(22)将计算出的训练用文本数据和待分类文本数据特征词权值分别表示为向量,具体表示为,
v(di)=(w1(di),w2(di),...,wn(di)),
其中,n表示文本特征提取所用的文本特征词数目,wj(di)表示第j个文本特征词在文档(训练用文本数据或待分类文本数据)di中的权值,j为1到n的任意值;
(23)计算训练用文本数据特征的平均互信息值MIavg(w),计算公式为:
其中,P(w∧ci)表示训练样本集中既属于特征词w又属于类别ci的概率,P(w)表示包含特征词w在训练用文本数据中出现的概率,P(ci)表示训练用文本数据中属于类别ci的文本数据的概率,MI(w,ci)表示单个类别下的互信息值,MIavg(w)为平均互信息值;
(24)将训练用文本数据的特征平均互信息值加入到步骤(22)训练用文本数据向量表示的最后一维度,具体表示为,
v(di)=(w1(di),w2(di),...,wn(di),MIn+1(di)),
其中,n表示文本特征提取所用的特征词数目,wj(di)表示第j个文本特征词在文档di中的权值,MIn+1(di)表示特征的平均互信息值,j为1到n的任意值。
(3)对文本表示的训练用文本数据和待分类文本数据分别利用遗传算法进行特征提取,如图4所示遗传算法进行特征提取流程,具体步骤如下:
(31)采用浮点数编码方式分别对文本表示的训练用文本数据和待分类文本数据进行染色体编码;
(32)将编码后的训练用文本数据和待分类文本数据的文本特征词进行初始化,包括设置迭代次数,随机生成部分个体作为初始种群;
(33)计算初始种群中的每一条染色体的适应度;
(34)判断染色体适应度是否稳定或者是否已经达到遗传算法迭代的最终次数,如果是,则输出最优解,否则,执行步骤(35);
(35)使用比例法进行选择,将选择算子作用于种群,比例法的公式为:其中,Fit(si)为每一条染色体si的适应度,P(si)为最终si被选择的概率,j为从j=1开始直到n,n为遗传算法染色体总数;
(36)使用单点交叉和多点交叉相结合的方式,将交叉算子作用于种群;
(37)随机从未选中过的特征词权值中选择一个特征词权值,替换每条染色体中特征词权值最小的值,并将变异算子作用于种群,生成新一代的种群,并转到步骤(33)。
(4)对提取的训练用文本数据特征进行分类训练,使用经过优化样本集的KNN算法进行训练分类,构造文本分类器,文本分类器的实质为一个代表分类过程的函数;如图5所示,使用经过优化样本集的KNN算法进行训练分类的步骤如下:
(41)对训练用文本数据进行裁剪,得到裁剪样本文本数据训练集,得到裁剪样本文本数据训练集的步骤如下:
(411)将训练用文本数据分为类内样本文本数据和边界样本文本数据;
(412)裁剪类内样本文本数据,类内样本文本数据裁剪的步骤如下:
(4121)计算出训练用文本数据中的每一个已知类别样本文本数据类别的中心向量距离类中心向量最远的向量和训练用文本数据中的每一个已知类别样本文本数据的平均密度其中距离用相似度公式计算,此步骤中向量指代的是文本特征词,相似度越大距离越小,每一类的样本可以根据距离公式,抽象铺展成一个二维平面图,类的中心向量也就是最中间区域的那个向量,这是可以通过整体距离计算得到的,而密度是指代区域内样本个数;
(4122)计算出每次的增量n为初始设置同类别下文本数据分割增量区间个数;
(4123)如果计算类间增量小区域内的训练用文本数据中的每一个已知类别样本文本数据下增量内的样本文本数据的平均密度ρi和标准密度 其中Ψ是代表一个初始设置裁剪样本空间比例值的参数,当离类中心越近时取值越大;
(4124)判断是否成立,成立则裁剪小区域内邻域最多的样本,并转到步骤(4125),否则计算下一个增量空间并转到步骤(4123);
(4125)依次遍历完所有增量空间。
(413)裁剪边界样本文本数据,边界样本裁剪文本数据的步骤如下:
(4131)计算出所有边界样本文本数据ε邻域范围的平均样本个数AVG,ε为自己设置的初始值,不是类内的裁剪范围,针对边界样本设置的一个初始值范围,尽量将两个类或者多个类的边界圈进去,将多个类的边界密度修剪来相似;
(4132)计算单个边界样本文本数据的邻域内样本个数|Nε(X)|,如果|Nε(X)|>AVG,则对边界样本文本数据进行裁剪并转到步骤(4133),否则直接转到步骤(4133);
(4133)依次遍历完所有边界样本文本数据。
(42)采用余弦定理计算待分类文本数据和裁剪后样本文本数据训练集中已知类别样本文本数据之间的相似度,相似度的计算公式为:
其中,Sim(di,dj)表示文本di和dj之间的相似程度,n表示文本的特征词数目,wki和wkj分别表示文本di和dj的第k个特征词的权值,Sim(di,dj)值越大表示两个文本之间的相似度越高,反之,两个文本之间的区别越大;
(43)选取与待分类文本数据之间相似度最高的K个已知类别样本文本数据;
(44)根据K个已知类别样本文本数据判断待分类文本数据的类别。
(5)将文本分类器作用于特征提取后的待分类文本数据,得到待分类文本数据的分类结果。
本发明已经通过上述实施例进行了说明,但应当理解的是,上述实施例只是用于举例和说明的目的,而非意在将本发明限制于所描述的实施例范围内。此外本领域技术人员可以理解的是,本发明并不局限于上述实施例,根据本发明的教导还可以做出更多种的变型和修改,这些变型和修改均落在本发明所要求保护的范围以内。本发明的保护范围由附属的权利要求书及其等效范围所界定。

Claims (6)

1.一种优化训练样本集的KNN文本分类方法,其特征在于,如下步骤:
(1)对训练用文本数据和待分类文本数据进行文本预处理;
(2)将预处理后的训练用文本数据和待分类文本数据分别进行文本表示;
(3)对文本表示的训练用文本数据和待分类文本数据分别利用遗传算法进行特征提取;
(4)对提取的训练用文本数据特征进行分类训练,使用经过优化样本集的KNN算法进行训练分类,构造文本分类器;使用经过优化样本集的KNN算法进行训练分类的步骤如下:
(41)对训练用文本数据进行裁剪,得到裁剪样本文本数据训练集;得到裁剪样本文本数据训练集的步骤如下:
(411)将训练用文本数据分为类内样本文本数据和边界样本文本数据;
(412)裁剪类内样本文本数据;类内样本文本数据裁剪的步骤如下:
(4121)计算出训练用文本数据中的每一个已知类别样本文本数据类别的中心向量距离类中心向量最远的向量和训练用文本数据中的每一个已知类别样本文本数据的平均密度
(4122)计算出每次的增量n为初始设置同类别下文本数据分割增量区间个数;
(4123)如果计算类间增量小区域内的训练用文本数据中的每一个已知类别样本文本数据下增量内的样本文本数据的平均密度ρi和标准密度 其中Ψ是代表一个初始设置裁剪样本空间比例值的参数,当离类中心越近时取值越大;
(4124)判断是否成立,成立则裁剪小区域内邻域最多的样本,并转到步骤(4125),否则计算下一个增量空间并转到步骤(4123);
(4125)依次遍历完所有增量空间;
(413)裁剪边界样本文本数据;
(42)采用余弦定理计算待分类文本数据和裁剪后样本文本数据训练集中已知类别样本文本数据之间的相似度;
(43)选取与待分类文本数据之间相似度最高的K个已知类别样本文本数据;
(44)根据K个已知类别样本文本数据判断待分类文本数据的类别;
(5)将文本分类器作用于特征提取后的待分类文本数据,得到待分类文本数据的分类结果。
2.根据权利要求1所述的一种优化训练样本集的KNN文本分类方法,其特征在于,所述步骤(2)中,文本表示是指将预处理后的结构化文本数据转化为向量空间模型表示,具体步骤如下:
(21)使用TF_IDF法分别计算训练用文本数据和待分类文本数据中每个特征词的权重,计算公式为:
w i ( d j ) = tf i j &times; log 2 ( N N i + 0.01 ) &Sigma; k = 1 n ( tf k j ) 2 * &lsqb; log 2 ( N N k + 0.01 ) &rsqb; 2 ;
其中,tfij表示的是第i个文本特征词在文本(训练用文本数据或待分类文本数据)dj中出现的频率数目,N是文档(训练用文本数据或待分类文本数据)的总数目,Ni是指文档(训练用文本数据或待分类文本数据)集合中出现第i个文本特征词的文本数目,n为文本特征抽取时所选用的文本特征词数目,k为求和公式起点到终点的取值,从1开始计算到n,tfkj表示的是第k个文本特征词在文本dj中出现的频率数目;
(22)将计算出的训练用文本数据和待分类文本数据特征词权值分别表示为向量,具体表示为:
v(di)=(w1(di),w2(di),...,wn(di)),
其中,n表示文本特征提取所用的文本特征词数目,wj(di)表示第j个文本特征词在文档(训练用文本数据或待分类文本数据)di中的权值,j为1到n的任意值;
(23)计算训练用文本数据特征的平均互信息值MIavg(w),计算公式为:
MI a v g ( w ) = &Sigma; i = 1 m P ( c i ) M I ( w , c i ) ,
其中,P(w∧ci)表示训练样本集中既属于特征词w又属于类别ci的概率,P(w)表示包含特征词w在训练用文本数据中出现的概率,P(ci)表示训练用文本数据中属于类别ci的文本数据的概率,MI(w,ci)表示单个类别下的互信息值,MIavg(w)为平均互信息值;
(24)将训练用文本数据的特征平均互信息值加入到步骤(22)训练用文本数据向量表示的最后一维度,具体表示为,
v(di)=(w1(di),w2(di),...,wn(di),MIn+1(di)),
其中,n表示文本特征提取所用的特征词数目,wj(di)表示第j个文本特征词在文档di中的权值,MIn+1(di)表示特征的平均互信息值,j为1到n的任意值。
3.根据权利要求1所述的一种优化训练样本集的KNN文本分类方法,其特征在于,所述步骤(3)中,对文本表示的训练用文本数据和待分类文本数据分别利用遗传算法进行特征提取,具体步骤如下:
(31)采用浮点数编码方式分别对文本表示的训练用文本数据和待分类文本数据进行染色体编码;
(32)将编码后的训练用文本数据和待分类文本数据的文本特征词进行初始化,包括设置迭代次数,随机生成部分个体作为初始种群;
(33)计算初始种群中的每一条染色体的适应度;
(34)判断染色体适应度是否稳定或者是否已经达到遗传算法迭代的最终次数,如果是,则输出最优解,否则,执行步骤(35);
(35)使用比例法进行选择,将选择算子作用于种群;
(36)使用单点交叉和多点交叉相结合的方式,将交叉算子作用于种群;
(37)随机从未选中过的特征词权值中选择一个特征词权值,替换每条染色体中特征词权值最小的值,并将变异算子作用于种群,生成新一代的种群,并转到步骤(33)。
4.根据权利要求3所述的一种优化训练样本集的KNN文本分类方法,其特征在于,所述步骤(35)中,比例法的公式为:
其中,Fit(si)为每一条染色体si的适应度,P(si)为最终si被选择的概率,j为从j=1开始直到n,n为遗传算法染色体总数。
5.根据权利要求1所述的一种优化训练样本集的KNN文本分类方法,其特征在于,所述步骤(42)中,相似度的计算公式为:
S i m ( d i , d j ) = cos ( d i , d j ) = &Sigma; k = 1 n w k i &times; w k j ( &Sigma; k = 1 n w k i 2 ) ( &Sigma; k = 1 n w k j 2 ) ,
其中,Sim(di,dj)表示文本di和dj之间的相似程度,n表示文本的特征词数目,wki和wkj分别表示文本di和dj的第k个特征词的权值,Sim(di,dj)值越大表示两个文本之间的相似度越高,反之,两个文本之间的区别越大。
6.根据权利要求1所述的一种基于KNN算法的文本分类方法,其特征在于,所述步骤(413)中,边界样本裁剪文本数据的步骤如下:
(4131)计算出所有边界样本文本数据ε邻域范围的平均样本个数AVG;
(4132)计算单个边界样本文本数据的邻域内样本个数|Nε(X)|,如果|Nε(X)|>AVG,则对边界样本文本数据进行裁剪并转到步骤(4133),否则直接转到步骤(4133);
(4133)依次遍历完所有边界样本文本数据。
CN201410305607.0A 2014-06-30 2014-06-30 一种优化训练样本集的knn文本分类方法 Active CN104063472B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410305607.0A CN104063472B (zh) 2014-06-30 2014-06-30 一种优化训练样本集的knn文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410305607.0A CN104063472B (zh) 2014-06-30 2014-06-30 一种优化训练样本集的knn文本分类方法

Publications (2)

Publication Number Publication Date
CN104063472A CN104063472A (zh) 2014-09-24
CN104063472B true CN104063472B (zh) 2017-02-15

Family

ID=51551186

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410305607.0A Active CN104063472B (zh) 2014-06-30 2014-06-30 一种优化训练样本集的knn文本分类方法

Country Status (1)

Country Link
CN (1) CN104063472B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104504148A (zh) * 2015-01-05 2015-04-08 浪潮(北京)电子信息产业有限公司 一种自动构建分类模板方法及系统
CN105843818A (zh) * 2015-01-15 2016-08-10 富士通株式会社 训练设备和训练方法、判断设备、以及推荐设备
CN104778388A (zh) * 2015-05-04 2015-07-15 苏州大学 一种两个不同平台下同一用户识别方法及系统
CN104820703A (zh) * 2015-05-12 2015-08-05 武汉数为科技有限公司 一种文本精细分类方法
CN105005792A (zh) * 2015-07-13 2015-10-28 河南科技大学 一种基于knn算法的稿件翻译优化方法
CN105426426B (zh) * 2015-11-04 2018-11-02 北京工业大学 一种基于改进的K-Medoids的KNN文本分类方法
CN106250910B (zh) * 2016-01-28 2021-01-05 西北工业大学 基于标签序列和nGrams的半结构化数据分类方法
CN105787088B (zh) * 2016-03-14 2018-12-07 南京理工大学 一种基于分段编码遗传算法的文本信息分类方法
CN106897776A (zh) * 2017-01-17 2017-06-27 华南理工大学 一种基于名义属性的连续型特征构造方法
CN106776580A (zh) * 2017-01-20 2017-05-31 中山大学 混合的深度神经网络cnn和rnn的主题句识别方法
CN106815369B (zh) * 2017-01-24 2019-09-20 中山大学 一种基于Xgboost分类算法的文本分类方法
CN107590195A (zh) * 2017-08-14 2018-01-16 百度在线网络技术(北京)有限公司 文本分类模型训练方法、文本分类方法及其装置
CN109145116A (zh) * 2018-09-03 2019-01-04 武汉斗鱼网络科技有限公司 一种文本分类方法、装置、电子设备及存储介质
CN109284377A (zh) * 2018-09-13 2019-01-29 云南电网有限责任公司 一种基于向量空间的文本分类方法和装置
CN109637607A (zh) * 2018-12-24 2019-04-16 广州天鹏计算机科技有限公司 医疗数据归类方法、装置、计算机设备和存储介质
CN109993216B (zh) * 2019-03-11 2021-05-11 深兰科技(上海)有限公司 一种基于k最近邻knn的文本分类方法及其设备
CN109977227B (zh) * 2019-03-19 2021-06-22 中国科学院自动化研究所 基于特征编码的文本特征提取方法、系统、装置
CN110069630B (zh) * 2019-03-20 2023-07-21 重庆信科设计有限公司 一种改进的互信息特征选择方法
CN110597996B (zh) * 2019-09-21 2023-04-14 陕西师范大学 一种基于头脑风暴优化算法的中文网页分类方法
CN111639181A (zh) * 2020-04-30 2020-09-08 深圳壹账通智能科技有限公司 基于分类模型的论文分类方法、装置、电子设备及介质
TWI778442B (zh) * 2020-11-03 2022-09-21 財團法人資訊工業策進會 偵測文章目的之裝置及方法
TWI748749B (zh) * 2020-11-16 2021-12-01 威聯通科技股份有限公司 短文自動化萃取分類及關鍵字方法及採用該方法之裝置
CN117349243B (zh) * 2023-10-19 2024-10-11 中国标准化研究院 一种标准文件档案一体化管理的编码与展示方法
CN118335337A (zh) * 2024-04-18 2024-07-12 中日友好医院(中日友好临床医学研究所) 一种中医辅助问诊模型的构建方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930063A (zh) * 2012-12-05 2013-02-13 电子科技大学 一种基于特征项选择与权重计算的文本分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4453687B2 (ja) * 2006-08-03 2010-04-21 日本電気株式会社 テキストマイニング装置、テキストマイニング方法、およびテキストマイニング用プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930063A (zh) * 2012-12-05 2013-02-13 电子科技大学 一种基于特征项选择与权重计算的文本分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"KNN文本分类中基于遗传算法的特征提取算法技术研究";刘亚南;《万方企业知识服务平台》;20110824;第539-544页 *
"不均衡数据集中KNN 分类器样本裁剪算法";景永霞 等,;《科学技术与工程》;20130812;第13卷(第16期);第4720-4723页 *
"基于密度的KNN文本分类器训练样本裁剪方法";李荣陆 等,;《计算机研究与发展》;20040604;第41卷(第4期);第2.1-5.3节 *

Also Published As

Publication number Publication date
CN104063472A (zh) 2014-09-24

Similar Documents

Publication Publication Date Title
CN104063472B (zh) 一种优化训练样本集的knn文本分类方法
CN101794311B (zh) 基于模糊数据挖掘的中文网页自动分类方法
CN102289522B (zh) 一种对于文本智能分类的方法
CN102622373B (zh) 一种基于tf*idf算法的统计学文本分类系统及方法
CN101751438B (zh) 自适应语义驱动的主题网页过滤系统
CN103729402B (zh) 一种基于图书目录的知识图谱的构建方法
CN107193801A (zh) 一种基于深度信念网络的短文本特征优化及情感分析方法
CN109739986A (zh) 一种基于深度集成学习的投诉短文本分类方法
CN107844559A (zh) 一种文件分类方法、装置及电子设备
CN108984530A (zh) 一种网络敏感内容的检测方法及检测系统
CN107169001A (zh) 一种基于众包反馈和主动学习的文本分类模型优化方法
CN105654144B (zh) 一种基于机器学习的社交网络本体构建方法
CN106202211A (zh) 一种基于微博类型的集成微博谣言识别方法
CN107229668A (zh) 一种基于关键词匹配的正文抽取方法
CN106021442B (zh) 一种网络新闻概要提取方法
CN109948668A (zh) 一种多模型融合方法
CN104778209A (zh) 一种针对千万级规模新闻评论的观点挖掘方法
CN104281653A (zh) 一种针对千万级规模微博文本的观点挖掘方法
CN104008090A (zh) 一种基于概念向量模型的多主题提取方法
CN106156372A (zh) 一种互联网网站的分类方法及装置
CN101763431A (zh) 基于海量网络舆情信息的pl聚类处理方法
CN109670014A (zh) 一种基于规则匹配和机器学习的论文作者名消歧方法
CN105787121B (zh) 一种基于多故事线的微博事件摘要提取方法
CN108763348A (zh) 一种扩展短文本词特征向量的分类改进方法
CN106126502A (zh) 一种基于支持向量机的情感分类系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant