CN103345528A - 一种基于关联分析和knn的文本分类方法 - Google Patents

一种基于关联分析和knn的文本分类方法 Download PDF

Info

Publication number
CN103345528A
CN103345528A CN2013103120180A CN201310312018A CN103345528A CN 103345528 A CN103345528 A CN 103345528A CN 2013103120180 A CN2013103120180 A CN 2013103120180A CN 201310312018 A CN201310312018 A CN 201310312018A CN 103345528 A CN103345528 A CN 103345528A
Authority
CN
China
Prior art keywords
text
classification
training
feature
sorted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013103120180A
Other languages
English (en)
Other versions
CN103345528B (zh
Inventor
成卫青
范恒亮
杨庚
黄卫东
梁胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201310312018.0A priority Critical patent/CN103345528B/zh
Publication of CN103345528A publication Critical patent/CN103345528A/zh
Application granted granted Critical
Publication of CN103345528B publication Critical patent/CN103345528B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于关联分析和KNN的文本分类方法,用于解决基于传统KNN的文本分类方法存在的效率和准确率有待进一步提高的问题;本发明是一种策略性方法考虑到被测文档与近邻文档向量的特征属性会重合较多,本发明提出一种基于关联分析和KNN的文本分类方法该方法基于对各个类别文本进行关联分析的结果,快速确定未知类别文本合适的近邻数k,并在已知类别的文本中选取k个近邻,进而根据近邻类别确定未知文本的类别,改进了基于传统KNN的文本分类方法k值难以确定及时间复杂度高的不足,提高了文本分类的效率和准确率。

Description

一种基于关联分析和KNN的文本分类方法
技术领域
本发明涉及文本挖掘技术领域,特别涉及一种基于关联分析和KNN的文本分类方法。
背景技术
随着计算机技术的发展以及网络的普及,网络文本的数量在急剧增长,以前人工方法筛选文本进行分类的方法已经不适合了,迫切地需要一种快速高效的收集资料并整理所需信息的技术,这样就产生了文本分类技术。文本分类是指在给定分类体系下,根据文本的内容将其分到相应预定义类别中的过程。文本分类过程实际上是对文本的模式特征进行识别,其中的关键技术包括文本预处理、特征提取、分类模型等。
目前比较常用的文本分类算法有:朴素贝叶斯、支持向量机、神经网络、决策数、k-最近邻(K-Nearest Neighbor)等方法。其中,基于经典KNN的文本分类方法简单有效,是分类效果最好的方法之一,但也有一些明显的缺点:第一,确定待分类文本的类别时,需要计算其与训练样本集合中全部样本的相似度,之后从中选出与其相似度最高的前k个样本,一般情况,文本分类时的训练样本常常规模很大,由于在成千上万训练样本上计算与待分类文本的相似度,随着训练样本数目的增加,分类性能就会很快下降。第二,它是一种懒惰的文本分类学习方法,在对测试样本分类时计算量大,消耗的时间较多,随着训练样本规模的增加,分类耗时急剧上升,造成分类时间是非线性的;第三,在选取待分类文本的近邻数目k时,没有一种较好的广泛适应的方法,k的选取对待分类文本的类别判定起到很重要的作用,k取得过大或过小都会降低文本分类的准确性。
基于传统KNN方法的文本分类主要包括如下过程:
(1)文本的预处理,主要包括分词、去除停用词等;
(2)特征选择,即从经预处理得到的数量仍然较大的特征词中进行筛选,选取对分类较重要的特征词。特征词选取可以分为全局选取(不分类别,将所有的词权重进行排序,选取前若干个,如1000个)和基于各个类别的选取(一般每个类别选取同样数量的特征词,如每个类别选取100个)两种。特征选择主要方法有:互信息、交叉熵、信息增益、χ2统计方法、文本证据权等;
(3)扫描并统计每一篇训练文本在所有特征空间中的向量,采用TF-IDF的方法确定向量中每一维的权重;
(4)对于一篇待分类的文本,也称测试文本,提取特征词并计算文本向量的各维权重,之后计算该文本与每一篇训练文本的相似度,一般采用余弦距离的方法:
sim ( d i , d j ) = Σ k = 1 M w ik * w jk ( Σ k = 1 M w ik 2 ) * ( Σ k = 1 M w jk 2 ) - - - ( 1 )
其中wik为文本向量di的第k维属性权重,M是文本特征向量的维度;
(5)将所有文本相似度按降序排列,选出与测试文本最相邻的k个训练文本;
(6)基于测试文本与其k个近邻的相似度,以及k个近邻的类别,计算测试文本属于每一个类别的权重:
μ j ( X ) = Σ i = 1 k μ j ( X i ) sim ( X , X i ) - - - ( 2 )
其中,μj(Xi)∈{0,1}含义为文本Xi是否属于Cj;sim(X,Xi)表示测试文本X与训练文本Xi的相似度。决策方法为:如果μl(X)=maxμj(X),则决策X∈Cl,即类别权重最大的作为测试文本的所属类别。
发明内容
本发明目的在于提供一种基于关联分析和KNN的文本分类方法,用于解决基于传统KNN的文本分类存在的效率和准确率有待进一步提高的问题。
本发明解决其技术问题所采用的技术方案是:本发明是一种策略性方法。考虑到通常情况下,基于KNN的文本分类为了获取与待分类文本的k个最近邻,一般必须将待分类文本与训练集中的每个文本进行相似度计算,之后通过排序获得待分类文本的k个最近邻,这样会严重影响方法的执行速度。本发明针对基于经典KNN的文本分类方法的不足,提出利用关联分析对基于KNN的文本分类方法进行改进,能够降低方法的时间复杂度和提高分类的准确性。
方法流程:
本发明提出一种基于关联分析和KNN的文本分类方法,包括两大步骤(1)基于关联分析提取频繁特征词集合及其关联的训练文本;(2)利用关联分析结果,确定待分类文本的初始近邻并确定最终的近邻数K,再利用KNN进行文本分类,如图1和图2所示,具体步骤包括:
步骤I.基于关联分析提取频繁特征词集合及其关联的训练文本
步骤(1)设文本类别总数为m,类别为c1,c2,...,cm,对训练集中的文本进行预处理,利用χ2统计方法,对训练集中各类别文本分别选取一定数量,记为Nf,的特征词(例如每个类别取50个特征);
步骤(2)扫描所有训练文本,将每个文本表示为由所有类别的特征词构成的m·Nf维文本向量,利用TF-IDF和基于χ2统计方法的特征评价函数计算特征权重,将权重设为:TF-IDF*特征评价值;
步骤(3)提取每个类别的频繁特征集及其关联的文本;本步仅考虑每个训练文本所属类别的特征,其余的暂且忽略;对每个类别分别处理,包括如下步骤:
步骤(31)将该类别的每个文本看作是单个事务,将其包含的本类别的特征词看作是事务的数据项,设置最小支持度,利用Apriori算法得到该文本类别满足最小支持度阈值的所有项集,即所有频繁项集;
步骤(32)对每一个频繁项集保存其关联的训练文本,包含某频繁项集中所有特征的训练文本即为该频繁项集关联的训练文本;
步骤II.利用关联分析结果,确定待分类文本的初始近邻并确定最终的近邻数K,再利用KNN进行文本分类
步骤(1)对于待分类文本,先进行预处理,再利用已提取出的各类别的特征词表示该文本,得到m·Nf维文本向量,再利用TF-IDF和基于χ2统计方法的特征评价函数计算特征权重,将权重设为:TF-IDF*特征评价值;
步骤(2)对待分类文本的文本向量中属于各个类别的特征词的权重分别求和并降序排列,选取排列在前3的类别,记为cx,cy,cz,及特征;
步骤(3)根据步骤(2)获取的待分类文本的文本向量中属于前3个类别的特征词,分别在其对应的类别中查找最大频繁项集,并获取相关联的训练文本,这些训练文本都作为待分类文本的初始近邻;设相关联的训练文本集合分别为Ix,Iy,Iz,文本数目分别为nx,ny,nz,设定k=min(2.5*nx,nx+ny+nz);
步骤(4)计算待分类文本与每个初始近邻文本的余弦相似度;
步骤(5)将相似度降序排列,选取前k个训练文本,统计属于3个类别的文档数目,分类别累加相似度,进而得到待分类文本与每个类别近邻文本相似度的平均值,平均值最大的类别判定为待分类文本的类别。
本发明有益效果:
本发明将关联分析用于基于KNN的文本分类,解决了基于传统KNN的文本分类存在的近邻数量k难以确定以及查找近邻时间复杂度高的问题,提高了文本分类的效率和准确率。
附图说明
图1基于关联分析提取频繁特征词集合及其关联的训练文本的流程图
图2基于关联分析结果的KNN文本分类流程图
具体实施方式
为了方便描述,我们假定有如下应用实例:从网络上搜集新闻并分类保存供数据分析用。确定文档的类别可以应用本发明提出的基于关联分析和KNN的文本分类方法。
本发明的具体实施方案为:
(1)利用网络爬虫或相关网络信息抓取工具从互联网上抓取一定数目的各个领域有代表性的文章作为文本分类系统的训练样本集。
(2)对这些文本进行预处理,分词后去掉停用词,得到特征词,统计词的频度和反文档频率,并根据χ2特征评价方法分别计算出一个特征词相对于每个类别的权重并求和得到特征评价值。将每个特征词的最终权重设为:TF-IDF*特征评价值。对训练集中文本按类别分别选取一定数量(记为Nf)特征词。利用所有这些特征词将每篇文章表示为文本向量的形式。
(3)利用本发明提出的关联分析方法对每个类别进行关联分析,得到每个类别的频繁特征集及其与之相关联的文本的集合:将一个类别的每个文本看作是单个事务,将其包含的本类别的特征词看作是事务的数据项,设置最小支持度,利用Apriori算法得到该文本类别满足最小支持度阈值的所有项集,即所有频繁项集;对每一个频繁项集保存其关联的训练文本,包含某频繁项集中所有特征的训练文本即为该频繁项集关联的训练文本;
(4)对于一个待分类文本,利用所有类别全部的特征词对其进行特征词扫描,并将每一维的特征权重设为TF-IDF*特征评价值,从而得到待分类文本的文本向量。
(5)对待分类文本的文本向量中属于各个类别的特征词的权重分别求和,并按降序排列,选取前3个类别(记为cx,cy,cz),获取待分类文本的文本向量中属于这3个类别的特征词,分别在其相对应的类别中查找最大频繁项集,从而得到与该项集关联的训练文本(设相关联的训练文本集合分别为Ix,Iy,Iz,文本数目分别为nx,ny,nz),得到的这些文本都被作为待分类文本的初始近邻;设定最终近邻数值k=min(2.5*nx,nx+ny+nz);
(6)计算待分类文本与每个初始近邻文本的余弦相似度;
(7)将相似度按降序排列,选取前k个训练文本,分别统计属于这3个类别的文本数目,分类别累加相似度,进而得到待分类文本与每个类别近邻文本相似度的平均值,平均值较大的类别判定为待分类文本的类别。

Claims (1)

1.一种基于关联分析和KNN的文本分类方法,其特征在于,包含如下步骤:
步骤I.基于关联分析提取频繁特征词集合及其关联的训练文本
步骤(1)设文本类别总数为m,类别为c1,c2,...,cm,对训练集中的文本进行预处理,利用χ2统计方法,对训练集中各类别文本分别选取一定数量,记为Nf,的特征词;
步骤(2)扫描所有训练文本,将每个文本表示为由所有类别的特征词构成的m·Nf维文本向量,利用TF-IDF和基于χ2统计方法的特征评价函数计算特征权重,将权重设为:TF-IDF*特征评价值;
步骤(3)提取每个类别的频繁特征集及其关联的文本;本步仅考虑每个训练文本所属类别的特征,其余的暂且忽略;对每个类别分别处理,包括如下步骤:
步骤(31)将该类别的每个文本看作是单个事务,将其包含的本类别的特征词看作是事务的数据项,设置最小支持度,利用Apriori算法得到该文本类别满足最小支持度阈值的所有项集,即所有频繁项集;
步骤(32)对每一个频繁项集保存其关联的训练文本,包含某频繁项集中所有特征的训练文本即为该频繁项集关联的训练文本;
步骤II.利用关联分析结果,确定待分类文本的初始近邻并确定最终的近邻数K,再利用KNN进行文本分类
步骤(1)对于待分类文本,先进行预处理,再利用已提取出的各类别的特征词表示该文本,得到m·Nf维文本向量,再利用TF-IDF和基于χ2统计方法的特征评价函数计算特征权重,将权重设为:TF-IDF*特征评价值;
步骤(2)对待分类文本的文本向量中属于各个类别的特征词的权重分别求和并降序排列,选取排列在前3的类别,记为cx,cy,cz,及特征;
步骤(3)根据步骤(2)获取的待分类文本的文本向量中属于前3个类别的特征词,分别在其对应的类别中查找最大频繁项集,并获取相关联的训练文本,这些训练文本都作为待分类文本的初始近邻;设相关联的训练文本集合分别为Ix,Iy,Iz,文本数目分别为nx,ny,nz,设定k=min(2.5*nx,nx+ny+nz);
步骤(4)计算待分类文本与每个初始近邻文本的余弦相似度;
步骤(5)将相似度降序排列,选取前k个训练文本,统计属于3个类别的文档数目,分类别累加相似度,进而得到待分类文本与每个类别近邻文本相似度的平均值,平均值最大的类别判定为待分类文本的类别。
CN201310312018.0A 2013-07-24 2013-07-24 一种基于关联分析和knn的文本分类方法 Expired - Fee Related CN103345528B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310312018.0A CN103345528B (zh) 2013-07-24 2013-07-24 一种基于关联分析和knn的文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310312018.0A CN103345528B (zh) 2013-07-24 2013-07-24 一种基于关联分析和knn的文本分类方法

Publications (2)

Publication Number Publication Date
CN103345528A true CN103345528A (zh) 2013-10-09
CN103345528B CN103345528B (zh) 2016-08-24

Family

ID=49280323

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310312018.0A Expired - Fee Related CN103345528B (zh) 2013-07-24 2013-07-24 一种基于关联分析和knn的文本分类方法

Country Status (1)

Country Link
CN (1) CN103345528B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744954A (zh) * 2014-01-06 2014-04-23 同济大学 一种词关联网模型的构建方法及其构建器
CN104239436A (zh) * 2014-08-27 2014-12-24 南京邮电大学 一种基于文本分类和聚类分析的网络热点事件发现方法
CN104580234A (zh) * 2015-01-19 2015-04-29 合肥工业大学 一种社交网络中行为特征的保护方法
CN105426426A (zh) * 2015-11-04 2016-03-23 北京工业大学 一种基于改进的K-Medoids的KNN文本分类方法
CN106021578A (zh) * 2016-06-01 2016-10-12 南京邮电大学 一种基于聚类和隶属度融合的改进型文本分类算法
CN106326246A (zh) * 2015-06-19 2017-01-11 阿里巴巴集团控股有限公司 一种基于数据支持的应用系统构建方法及装置
CN106650776A (zh) * 2016-10-14 2017-05-10 浙江大学 一种基于动态滑动窗口的目标种子搜索方法
CN106779403A (zh) * 2016-12-13 2017-05-31 郑州云海信息技术有限公司 一种电子政务系统的绩效评估方法及系统
CN109299263A (zh) * 2018-10-10 2019-02-01 上海观安信息技术股份有限公司 文本分类方法、电子设备及计算机程序产品
CN109522408A (zh) * 2018-10-30 2019-03-26 广东原昇信息科技有限公司 信息流素材创意文本的分类方法
CN109886020A (zh) * 2019-01-24 2019-06-14 燕山大学 基于深度神经网络的软件漏洞自动分类方法
CN110377735A (zh) * 2019-07-02 2019-10-25 厦门耐特源码信息科技有限公司 一种基于knn技术的语料库文本分类方法
CN110825839A (zh) * 2019-11-07 2020-02-21 成都国腾实业集团有限公司 一种对文本信息中目标的关联关系分析方法
CN110969172A (zh) * 2018-09-28 2020-04-07 武汉斗鱼网络科技有限公司 一种文本的分类方法以及相关设备
CN112214598A (zh) * 2020-09-27 2021-01-12 中润普达(十堰)大数据中心有限公司 一种基于头发状况的认知系统
US10956469B2 (en) 2017-01-06 2021-03-23 International Business Machines Corporation System and method for metadata correlation using natural language processing
CN114328934A (zh) * 2022-01-18 2022-04-12 重庆邮电大学 一种基于注意力机制的多标签文本分类方法及系统
CN114417962A (zh) * 2021-12-08 2022-04-29 航天科工网络信息发展有限公司 基于k近邻算法的异常数据检测方法、系统、设备、介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070294223A1 (en) * 2006-06-16 2007-12-20 Technion Research And Development Foundation Ltd. Text Categorization Using External Knowledge
CN101853277A (zh) * 2010-05-14 2010-10-06 南京信息工程大学 一种基于分类和关联分析的漏洞数据挖掘方法
CN102033949A (zh) * 2010-12-23 2011-04-27 南京财经大学 基于修正的k近邻文本分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070294223A1 (en) * 2006-06-16 2007-12-20 Technion Research And Development Foundation Ltd. Text Categorization Using External Knowledge
CN101853277A (zh) * 2010-05-14 2010-10-06 南京信息工程大学 一种基于分类和关联分析的漏洞数据挖掘方法
CN102033949A (zh) * 2010-12-23 2011-04-27 南京财经大学 基于修正的k近邻文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈晓云等: "基于分类规则树的频繁模式文本分类", 《软件学报》, vol. 17, no. 5, 31 May 2006 (2006-05-31), pages 1017 - 1025 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744954B (zh) * 2014-01-06 2017-02-01 同济大学 一种词关联网模型的构建方法及其构建器
CN103744954A (zh) * 2014-01-06 2014-04-23 同济大学 一种词关联网模型的构建方法及其构建器
CN104239436B (zh) * 2014-08-27 2018-01-02 南京邮电大学 一种基于文本分类和聚类分析的网络热点事件发现方法
CN104239436A (zh) * 2014-08-27 2014-12-24 南京邮电大学 一种基于文本分类和聚类分析的网络热点事件发现方法
CN104580234A (zh) * 2015-01-19 2015-04-29 合肥工业大学 一种社交网络中行为特征的保护方法
CN104580234B (zh) * 2015-01-19 2017-08-11 合肥工业大学 一种社交网络中行为特征的保护方法
CN106326246B (zh) * 2015-06-19 2019-11-12 阿里巴巴集团控股有限公司 一种基于数据支持的应用系统构建方法及装置
CN106326246A (zh) * 2015-06-19 2017-01-11 阿里巴巴集团控股有限公司 一种基于数据支持的应用系统构建方法及装置
CN105426426A (zh) * 2015-11-04 2016-03-23 北京工业大学 一种基于改进的K-Medoids的KNN文本分类方法
CN105426426B (zh) * 2015-11-04 2018-11-02 北京工业大学 一种基于改进的K-Medoids的KNN文本分类方法
CN106021578A (zh) * 2016-06-01 2016-10-12 南京邮电大学 一种基于聚类和隶属度融合的改进型文本分类算法
CN106021578B (zh) * 2016-06-01 2019-07-23 南京邮电大学 一种基于聚类和隶属度融合的改进型文本分类算法
CN106650776A (zh) * 2016-10-14 2017-05-10 浙江大学 一种基于动态滑动窗口的目标种子搜索方法
CN106779403A (zh) * 2016-12-13 2017-05-31 郑州云海信息技术有限公司 一种电子政务系统的绩效评估方法及系统
US10956469B2 (en) 2017-01-06 2021-03-23 International Business Machines Corporation System and method for metadata correlation using natural language processing
CN110969172A (zh) * 2018-09-28 2020-04-07 武汉斗鱼网络科技有限公司 一种文本的分类方法以及相关设备
CN109299263A (zh) * 2018-10-10 2019-02-01 上海观安信息技术股份有限公司 文本分类方法、电子设备及计算机程序产品
CN109299263B (zh) * 2018-10-10 2021-01-05 上海观安信息技术股份有限公司 文本分类方法、电子设备
CN109522408A (zh) * 2018-10-30 2019-03-26 广东原昇信息科技有限公司 信息流素材创意文本的分类方法
CN109886020B (zh) * 2019-01-24 2020-02-04 燕山大学 基于深度神经网络的软件漏洞自动分类方法
CN109886020A (zh) * 2019-01-24 2019-06-14 燕山大学 基于深度神经网络的软件漏洞自动分类方法
CN110377735A (zh) * 2019-07-02 2019-10-25 厦门耐特源码信息科技有限公司 一种基于knn技术的语料库文本分类方法
CN110825839A (zh) * 2019-11-07 2020-02-21 成都国腾实业集团有限公司 一种对文本信息中目标的关联关系分析方法
CN112214598A (zh) * 2020-09-27 2021-01-12 中润普达(十堰)大数据中心有限公司 一种基于头发状况的认知系统
CN114417962A (zh) * 2021-12-08 2022-04-29 航天科工网络信息发展有限公司 基于k近邻算法的异常数据检测方法、系统、设备、介质
CN114328934A (zh) * 2022-01-18 2022-04-12 重庆邮电大学 一种基于注意力机制的多标签文本分类方法及系统
CN114328934B (zh) * 2022-01-18 2024-05-28 重庆邮电大学 一种基于注意力机制的多标签文本分类方法及系统

Also Published As

Publication number Publication date
CN103345528B (zh) 2016-08-24

Similar Documents

Publication Publication Date Title
CN103345528A (zh) 一种基于关联分析和knn的文本分类方法
CN104239436B (zh) 一种基于文本分类和聚类分析的网络热点事件发现方法
CN106201465B (zh) 面向开源社区的软件项目个性化推荐方法
CN104750844A (zh) 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
CN104834940A (zh) 一种基于支持向量机的医疗影像检查疾病分类方法
CN103995876A (zh) 一种基于卡方统计和smo算法的文本分类方法
CN104391860A (zh) 内容类别检测方法及装置
CN107871144A (zh) 发票商品名分类方法、系统、设备及计算机可读存储介质
CN105975518B (zh) 基于信息熵的期望交叉熵特征选择文本分类系统及方法
CN103699523A (zh) 产品分类方法和装置
CN106021578A (zh) 一种基于聚类和隶属度融合的改进型文本分类算法
Abdelaal et al. Improve the automatic classification accuracy for Arabic tweets using ensemble methods
CN101876987A (zh) 一种面向类间交叠的两类文本分类方法
CN101540017A (zh) 基于字节级n元文法的特征提取方法及垃圾邮件过滤器
BaygIn Classification of text documents based on Naive Bayes using N-Gram features
CN103886077B (zh) 短文本的聚类方法和系统
CN104392006A (zh) 一种事件查询处理方法及装置
CN101763431A (zh) 基于海量网络舆情信息的pl聚类处理方法
CN104142960A (zh) 互联网数据分析系统
CN102298646A (zh) 一种主观文本和客观文本分类方法及装置
CN103886108A (zh) 一种不均衡文本集的特征选择和权重计算方法
CN103218405A (zh) 基于维数约简的集成迁移文本分类方法
CN105045913A (zh) 基于WordNet以及潜在语义分析的文本分类方法
CN106934055A (zh) 一种基于不充分模态信息的半监督网页自动分类方法
CN102004796B (zh) 一种网页文本的无阻滞层次分类方法与装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20131009

Assignee: Jiangsu Nanyou IOT Technology Park Ltd.

Assignor: NANJING University OF POSTS AND TELECOMMUNICATIONS

Contract record no.: 2016320000214

Denomination of invention: Text classification method based on correlation analysis and KNN

Granted publication date: 20160824

License type: Common License

Record date: 20161117

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model
EC01 Cancellation of recordation of patent licensing contract
EC01 Cancellation of recordation of patent licensing contract

Assignee: Jiangsu Nanyou IOT Technology Park Ltd.

Assignor: NANJING University OF POSTS AND TELECOMMUNICATIONS

Contract record no.: 2016320000214

Date of cancellation: 20180116

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160824