CN106021578A - 一种基于聚类和隶属度融合的改进型文本分类算法 - Google Patents

一种基于聚类和隶属度融合的改进型文本分类算法 Download PDF

Info

Publication number
CN106021578A
CN106021578A CN201610380813.7A CN201610380813A CN106021578A CN 106021578 A CN106021578 A CN 106021578A CN 201610380813 A CN201610380813 A CN 201610380813A CN 106021578 A CN106021578 A CN 106021578A
Authority
CN
China
Prior art keywords
text
classification
vector
sorted
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610380813.7A
Other languages
English (en)
Other versions
CN106021578B (zh
Inventor
徐小龙
彭玉霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shang Mi Network Technology Co., Ltd.
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201610380813.7A priority Critical patent/CN106021578B/zh
Publication of CN106021578A publication Critical patent/CN106021578A/zh
Application granted granted Critical
Publication of CN106021578B publication Critical patent/CN106021578B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于聚类和隶属度融合的改进型文本分类算法,该算法将待分类文本和训练文本集中的训练文本用向量空间表示,通过聚类算法将各个类别中的训练文本聚类,并合并同一个簇内的训练文本,形成新的文本向量,利用新的文本向量与待分类文本向量进行计算,从而得到待分类文本与各个类别的相似度以及待分类文本隶属各个类别的程度,将两者相加,最大值对应的类别即为待分类文本的类别。聚类算法在不裁剪原始样本数量的基础上减少文本分类算法执行的时间复杂度,隶属度改进了待分类文本的分类判定方式,考虑训练文本密度对分类判定的影响,提高文本分类的准确率,本发明有效解决了文本分类的算法时间复杂度和分类准确率问题。

Description

一种基于聚类和隶属度融合的改进型文本分类算法
技术领域
本发明涉及一种适用于类域的交叉或重叠较多的文本分类算法,具体涉及一种基于聚类和隶属度融合的改进型文本分类算法,属于文本分类技术领域。
背景技术
随着文本数据信息的指数增长,文本分类技术在现代信息处理领域得到广泛发展,涉及的领域包括垃圾邮件过滤、新闻分类、电子商务、网络舆情监控等。文本分类方法根据其内容所包含的知识、特点、模式将自然语言描述的文本进行特征提取,表示成机器可识别的语言,并为文本建立描述模型。目前的文本描述模型主要包括布尔逻辑模型(BooleanModel)、向量空间模型(Vector Space Model,VSM)、概率模型(Probabilistic Model)、概念模型(Conceptual Model)等。通过各种文本分类算法,可根据文本特征自动划分文档所属类别。
目前的文本分类算法有朴素贝叶斯(Native Bayes)、K邻近算法(K NearestNeighbor,KNN)、支持向量机(Support Vector Machine,SVM)、人工神经网络(ArtificialNeural Network,ANN)等。其中大多数方法采用向量空间模型(VSM)将文本向量化为向量空间的点,采用向量夹角距离,向量内积或者欧几里得几何距离判定文本相似度。
朴素贝叶斯是基于统计的文本分类方法,对文本数据和数值数据的分类效果较好,但是只有在各个属性之间相互独立的条件成立时才能实现较高准确度分类,否则准确度可能较低;支持向量机是基于统计的机器学习方法,准确率高,对高维数据和稀疏数据不敏感,且能很好获得文本的内在特征,但是对于非线性问题,核函数选择很困难;人工神经网络是基于连接的方法,模拟人脑神经系统的组织特点构成信息处理系统,具有很强的鲁棒性和容错性,适应性好,运行速度快,但是算法复杂度高,构造复杂,规模庞大;KNN算法是基于统计的分类方法和经典的统计模式识别方法,在向量空间模型下有最好的分类效果,思路简单,容易实现,但是在计算相似度时特征向量维数高,影响计算时间且各维权值和维数密度影响分类精度。
近年来许多学者提出对文本分类算法的诸多改进,一般是针对训练文本集的规模进行缩减以降低文本分类算法的时间复杂度。例如利用基于密度的样本裁剪方法以降低文本分类的计算量;利用基于隐含语义的改进算法使得词与文档的语义关系加强,向量空间大幅度缩减,提高文本分类的准确率;选择样本基准点,根据样本距离建立索引表以缩小查找范围,提高分类速度;使用基于特征词缩减的文本分类改进方法提高分类效率和性能。这些改进的文本分类算法直接降低样本维数以减少计算量或者减少样本数量,从而提高分类效率。特征维数的减少或样本裁剪过多都会引起分类的准确率严重下降。
此外,对于文本分类算法本身,在进行分类时训练样本分布密度的影响,单纯利用个训练样本的相似度相加或者计算待分类文本与每个类别中心向量的相似度并不足以大幅度减少分类判定时造成的误差。目前,还没有在训练集样本数量以及样本分布密度方面综合考虑的文本分类算法。
发明内容
本发明所要解决的技术问题是:提供一种基于聚类和隶属度融合的改进型文本分类算法,将聚类算法和文本隶属度相结合,从而改进了文本分类算法的时间复杂度和准确率。
本发明为解决上述技术问题采用以下技术方案:
一种基于聚类和隶属度融合的改进型文本分类算法,包括如下步骤:
步骤1,获取多个类别的训练文本,组成训练文本集;对待分类文本以及训练文本集中各训练文本进行分词,并对词进行预处理,预处理后提取文本特征词组成多维度空间向量,将待分类文本以及训练文本集中各训练文本用向量表示;
步骤2,在步骤1的基础上,利用聚类算法对每个类别中的训练文本向量进行聚类,设定每个类别聚类形成的簇的数目相同;
步骤3,将每个类别中同一个簇内的所有训练文本向量进行合并,得到新的文本向量,从而每个类别中新的文本向量的个数与步骤2设定的簇的数目相同;
步骤4,计算待分类文本向量与步骤3得到的新的文本向量的相似度,并按相似度由大到小进行排序,选出相似度最大的前M个新的文本向量;将前M个新的文本向量中属于同一类别的文本向量的相似度相加,各个类别相加后的结果除以对应类别中新的文本向量的总个数,得到待分类文本与对应类别的相似度;
步骤5,计算步骤3合并后每个类别的中心向量,以及每个类别中新的文本向量到中心向量的平均距离;计算待分类文本向量与每个类别的中心向量的距离,用上述平均距离除以该距离,得到待分类文本隶属各个类别的程度;
步骤6,将步骤4得到的待分类文本与对应类别的相似度与步骤5得到的待分类文本隶属各个类别的程度相加,选出最大值,该最大值对应的类别即为待分类文本的类别。
作为本发明的一种优选方案,步骤1所述预处理包括停用词过滤、非法字符过滤、稀有词处理和近义词处理。
作为本发明的一种优选方案,步骤1所述提取文本特征词的方法为CHI概率统计法。
作为本发明的一种优选方案,步骤2所述每个类别聚类形成的簇数满足以下条件:该簇数小于训练文本数最少的类别中训练文本的个数,且该簇数大于M。
作为本发明的一种优选方案,步骤4所述相似度sim的计算公式为:
s i m ( O , T ) = 1 d ( O , T ) = 1 Σ i = 1 i = n ( x i - y i ) 2 ,
其中,O=(x1,x2,…,xn)表示待分类文本向量,T=(y1,y2,…,yn)表示新的文本向量,n表示维数,d(O,T)表示O与T的欧氏距离。
作为本发明的一种优选方案,步骤5所述中心向量S和平均距离Dis的计算公式为:
S j = Σ t = 1 t = p d t j p
D i s ( d j , S j ) = Σ t = 1 t = p ( d t j - S j ) 2 p ,
其中,dtj表示类别Cj的第t个新的文本向量,p表示每个类别中新的文本向量的个数。
作为本发明的一种优选方案,步骤5所述待分类文本向量与每个类别的中心向量的距离的计算公式为:
d ( O , S j ) = Σ i = 1 i = n ( x i - z i ) 2 ,
其中,O=(x1,x2,…,xn)表示待分类文本向量,Sj=(z1,z2,…,zn)表示类别Cj的中心向量,n表示维数。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
1、计算待分类文本与每个训练集文本的相似度时,时间复杂度与训练集中的文本数成正比。当训练集过大时,文本分类算法执行速度将大幅度下降,失去实用性。但是,采取直接删减样本数或大量降低特征维数的方法以减少文本分类算法的计算量会严重影响分类的准确率。本发明采用聚类算法将相似度较高的文本归为同一簇中,并确保同一簇中文本相似度高而不同的簇之间文本相似度低,该方法有效减少原始样本的个数,可以提高算法执行效率,缩减时间复杂度,削弱了待分类文本的分类判定受到单个训练样本的影响。
2、本发明中对于每个类别中相似文本聚成的簇的改进并不是裁剪文本,而是将文本进行串接合并,这样可以最大限度保证原始样本不发生大幅度改变,削弱了待分类文本的分类判定受到单个训练样本的影响,从而在降低计算量的基础上不影响分类的准确率。
3、本发明中隶属度是对文本分类算法原理进行改进,训练文本分布的密度会对待分类文本的判定造成误差,训练文本密度越大,待分类文本与之计算的相似度之和也越大,导致本该属于其他类别的待分类文本属于该类别,产生误判。隶属度添加了类别平均距离与待分类文本到中心向量的距离的比值,该比值反应待分类文本属于某类别的程度,比值越大,说明待分类文本隶属该类别的程度越深,就越可能属于该类别。因此本发明的隶属度能提高分类准确率。
附图说明
图1是本发明基于聚类和隶属度融合的改进型文本分类算法的流程图。
图2是使用聚类算法将同一类别中的文档形成新的文本向量的过程图。
图3是类别中心向量图。
图4是训练文本密度对待分类文本的影响图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本发明要解决的问题是减少文本分类算法执行的时间复杂度,提高待分类文本被划分类别的准确度。现有的提高分类速度的改进算法是直接裁剪原始样本数或者降低特征维数,而且这些算法并没有考虑待分类文本进行分类判定时的误差,即隶属度的深浅问题,因此分类准确率会严重下降。本发明提供一种基于聚类和隶属度融合的改进型文本分类方法,将聚类和隶属度进行结合,聚类算法在不裁剪原始样本数量的基础上减少文本分类算法执行的时间复杂度,隶属度改进了待分类文本的分类判定方式,考虑训练文本密度对分类判定的影响,提高文本分类的准确率。这两种方法充分考虑了样本规模与分类速度成负相关性,与分类准确率成正相关性的情况,并考虑样本密度。因此无论在算法的时间效率还是在准确率上都取得更好的效果。
如图1所示,为本发明基于聚类和隶属度融合的改进型文本分类算法的流程图。在算法执行时,聚类各个类别中的样本,并将形成的簇中的样本进行简单连接形成新的文本向量,以缩减原始样本的个数提高执行效率并削弱待分类文本的分类判定受到单个训练样本的影响;在分类判定过程中不仅计算文本相似度,还考虑训练文本密度对隶属度深浅的影响,从而提高算法的准确率。
本发明首先是将训练文本进行分词,再进行预处理并将训练文本用空间向量表示,同样的方法处理待分类文本。之后用聚类算法降低原始样本规模,再计算待分类文本与可能所属类别的隶属度,结合隶属度与文本相似度进行判定分类。本发明使用的聚类算法不仅对原始样本的特征无太大影响而且在此基础之上缩减了训练集规模,削弱了待分类文本的分类判定受到单个训练样本的影响。训练文本的分布情况对待分类文本的分类判定造成一定偏差,隶属度是待分类文本属于某一类别的程度,计算隶属度可在一定程度上缩小误差,使分类准确率挺高。本发明算法的具体流程为:
1、将训练文本集进行分词,并进行预处理:停用词过滤、非法字符过滤、稀有词处理、近义词处理;预处理后提取训练文本集中的特征词汇组成相应的多维度空间,每个训练文本用空间向量表示。
首先将文本进行分词,分词预处理后提取文本特征词,目前主要有7种方法:互信息、信息增益、期望交叉熵、几率比、文本证据权、词频法以及CHI概率统计。实验表明CHI性能较好,充分考虑了提取的特征词对文本的贡献,可采用CHI进行特征词提取;最后利用提取的特征词构造空间向量表示文本。待分类文本以相同的方式处理。
2、使用聚类算法将每个类别中相似度较高的文本归为同一簇,规定每个类别中的所有样本聚类成p个簇。处理步骤如下:
Step1.对于训练样本集中的每个类别,选择p个文本向量作为初始的簇中心向量;
Step2.在每个类别中计算剩余文本向量与Step1中选择簇中心向量的文本相似度,并归类到相似度最高的簇中形成聚类;
Step3.计算每个簇中包含的文本的平均相似度,计算结果作为新的簇中心向量;
Step4.将每个类中的所有训练文本按照新的簇中心向量重新聚类;
Step5.重复Step4,直到聚类结果不再改变。
假设某一类别中有N个训练文本,则p≤N。通常情况下p的理想数值介于M和训练文本数最少的类别中的文本数之间,M是与待分类文本相似度最高的训练文本的个数。
3、将同一个簇内的所有文本进行合并,形成中心文本,即新的文本向量,从而每个类别的样本数减少到p份,如图2所示。
同一簇内的文本向量具有较大的相似度,因此有绝大部分的维度是重合的,这使得簇内向量空间出现冗余现象。可以通过简单的文本合并将多余重复的维度去掉,即相同或意义相近的特征词只保留一份,进而将同一簇内所有样本合并成一个新的文本向量空间。该方法在减少样本数的同时最大限度保证有效特征词数目不变,从而对分类判定的准确率影响降到最小。这样,同一簇内的文本数量降低到p,总体看来原始训练文本集规模大幅度缩减,但总体特征与裁剪文本相比变化很小。因此聚类算法在缩小训练文本集规模的同时对文本分类算法进行分类判定时的影响很小。
4、计算待分类文本向量与所有新的文本向量的相似度,按照计算结果的大小顺序对相应的训练文本进行排序,选出相似度最大的M个新的文本向量,并根据M个新的文本向量所属类别确定可能划分的所有类别。
计算文本相似度的方法通常有向量内积、夹角余弦、欧式距离。本发明采用欧式距离计算文本之间的相似度。设待分类文本的空间向量表示成O=(x1,x2,…,xn),新的文本向量的空间向量表示成T=(y1,y2,…,yn),O与T的欧氏距离为:
d ( O , T ) = Σ i = 1 i = n ( x i - y i ) 2 - - - ( 1 )
用式(1)的倒数代表待分类文本与新的文本向量的相似度,即:
s i m ( O , T ) = 1 d ( O , T ) = 1 Σ i = 1 i = n ( x i - y i ) 2 - - - ( 2 )
式(2)按计算结果由大到小排列,根据结果最大的前M个新的文本向量确定待分类文本可能隶属的类别。
5、对于M个新的文本向量,将属于相同类别的新的文本向量的相似度相加,计算结果比上该类文本对应类别中的所有新的文本向量的个数,即p,得到待分类文本与对应类别的相似度。
根据式(2)计算结果计算待分类文本与类别的相似度。设待分类文本O的M个邻近训练文本中,属于类别Cj的新的文本向量有g个,则O与Cj的相似度为:
s i m c l a s s ( O , C j ) = Σ a = 1 a = g s i m ( O , T ) p - - - ( 3 )
6、计算每个类别的中心向量和该类别各个文本到中心向量的平均距离,类别中心向量如图3所示。
中心向量求法:设Cj是训练文本集中的一个类别,dtj是类别Cj的一个新的文本向量,则类别Cj的中心向量Sj为:
S j = Σ t = 1 t = p d t j p - - - ( 4 )
同一类别中各个文本向量到对应中心向量的平均距离反应该类别中文本的分布情况,设平均距离为Dis(dj,Sj),其中,dj是Cj中以Sj为中心向量的文本向量,Dis(dj,Sj)求法:
D i s ( d j , S j ) = Σ t = 1 t = p ( d t j - S j ) 2 p - - - ( 5 )
7、计算待分类文本到步骤6中求出的所有类别的中心向量的距离,用上述步骤6中计算的类别平均距离比上该距离。
待分类文本O的空间向量表示为O=(x1,x2,…,xn),类别Cj的中心向量Sj表示为Sj=(z1,z2,…,zn),O与Sj的距离:
d ( O , S j ) = Σ i = 1 i = n ( x i - z i ) 2 - - - ( 6 )
各类文本到中心向量的平均距离比上O到Sj的距离:
Q ( O , S j ) = D i s ( d j , S j ) d ( O , S j ) = Σ t = 1 t = p ( d t j - S j ) 2 p Σ i = 1 i = n ( x i - z i ) 2 - - - ( 7 )
该结果表明了待分类文本对类别的隶属度,值越大,表明隶属度越深,就越可能属于该类。如图4所示,因为多边形的密度大,五星本该隶属三角形,但被判定为多边形。隶属度添加了类别平均距离与待分类文本到中心向量的距离的比值,该比值反应待分类文本属于某类别的程度,比值越大,说明待分类文本隶属该类别的程度越深,就越可能属于该类别。因此,隶属度提高了分类准确率。
8、将式(3)和式(7)对应类别的计算结果相加,选出最大值,最大值对应的类别即为待分类文本的类别。
最终的比较结果是待分类文本与类别相似度加上平均距离与其到中心向量的距离进行比较:
φ=simclass(O,Cj)+Q(O,Sj) (8)
待分类文本的类别是φ值最大者对应的类别。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (7)

1.一种基于聚类和隶属度融合的改进型文本分类算法,其特征在于,包括如下步骤:
步骤1,获取多个类别的训练文本,组成训练文本集;对待分类文本以及训练文本集中各训练文本进行分词,并对词进行预处理,预处理后提取文本特征词组成多维度空间向量,将待分类文本以及训练文本集中各训练文本用向量表示;
步骤2,在步骤1的基础上,利用聚类算法对每个类别中的训练文本向量进行聚类,设定每个类别聚类形成的簇的数目相同;
步骤3,将每个类别中同一个簇内的所有训练文本向量进行合并,得到新的文本向量,从而每个类别中新的文本向量的个数与步骤2设定的簇的数目相同;
步骤4,计算待分类文本向量与步骤3得到的新的文本向量的相似度,并按相似度由大到小进行排序,选出相似度最大的前M个新的文本向量;将前M个新的文本向量中属于同一类别的文本向量的相似度相加,各个类别相加后的结果除以对应类别中新的文本向量的总个数,得到待分类文本与对应类别的相似度;
步骤5,计算步骤3合并后每个类别的中心向量,以及每个类别中新的文本向量到中心向量的平均距离;计算待分类文本向量与每个类别的中心向量的距离,用上述平均距离除以该距离,得到待分类文本隶属各个类别的程度;
步骤6,将步骤4得到的待分类文本与对应类别的相似度与步骤5得到的待分类文本隶属各个类别的程度相加,选出最大值,该最大值对应的类别即为待分类文本的类别。
2.根据权利要求1所述基于聚类和隶属度融合的改进型文本分类算法,其特征在于,步骤1所述预处理包括停用词过滤、非法字符过滤、稀有词处理和近义词处理。
3.根据权利要求1所述基于聚类和隶属度融合的改进型文本分类算法,其特征在于,步骤1所述提取文本特征词的方法为CHI概率统计法。
4.根据权利要求1所述基于聚类和隶属度融合的改进型文本分类算法,其特征在于,步骤2所述每个类别聚类形成的簇数满足以下条件:该簇数小于训练文本数最少的类别中训练文本的个数,且该簇数大于M。
5.根据权利要求1所述基于聚类和隶属度融合的改进型文本分类算法,其特征在于,步骤4所述相似度sim的计算公式为:
s i m ( O , T ) = 1 d ( O , T ) = 1 Σ i = 1 i = n ( x i - y i ) 2 ,
其中,O=(x1,x2,…,xn)表示待分类文本向量,T=(y1,y2,…,yn)表示新的文本向量,n表示维数,d(O,T)表示O与T的欧氏距离。
6.根据权利要求1所述基于聚类和隶属度融合的改进型文本分类算法,其特征在于,步骤5所述中心向量S和平均距离Dis的计算公式为:
S j = Σ t = 1 t = p d t j p
D i s ( d j , S j ) = Σ t = 1 t = p ( d t j - S j ) 2 p ,
其中,dtj表示类别Cj的第t个新的文本向量,p表示每个类别中新的文本向量的个数。
7.根据权利要求1所述基于聚类和隶属度融合的改进型文本分类算法,其特征在于,步骤5所述待分类文本向量与每个类别的中心向量的距离的计算公式为:
d ( O , S j ) = Σ i = 1 i = n ( x i - z i ) 2 ,
其中,O=(x1,x2,…,xn)表示待分类文本向量,Sj=(z1,z2,…,zn)表示类别Cj的中心向量,n表示维数。
CN201610380813.7A 2016-06-01 2016-06-01 一种基于聚类和隶属度融合的改进型文本分类算法 Active CN106021578B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610380813.7A CN106021578B (zh) 2016-06-01 2016-06-01 一种基于聚类和隶属度融合的改进型文本分类算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610380813.7A CN106021578B (zh) 2016-06-01 2016-06-01 一种基于聚类和隶属度融合的改进型文本分类算法

Publications (2)

Publication Number Publication Date
CN106021578A true CN106021578A (zh) 2016-10-12
CN106021578B CN106021578B (zh) 2019-07-23

Family

ID=57092960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610380813.7A Active CN106021578B (zh) 2016-06-01 2016-06-01 一种基于聚类和隶属度融合的改进型文本分类算法

Country Status (1)

Country Link
CN (1) CN106021578B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650113A (zh) * 2016-12-26 2017-05-10 招商局重庆交通科研设计院有限公司 一种基于模糊聚类的桥梁监测数据异常情况识别方法
CN108021609A (zh) * 2017-11-01 2018-05-11 深圳市牛鼎丰科技有限公司 文本情感分类方法、装置、计算机设备和存储介质
CN109190009A (zh) * 2018-09-12 2019-01-11 北京邮电大学 一种网络社区话题整合方法及系统
CN109947858A (zh) * 2017-07-26 2019-06-28 腾讯科技(深圳)有限公司 一种数据处理的方法及装置
CN110222180A (zh) * 2019-06-04 2019-09-10 江南大学 一种文本数据分类与信息挖掘方法
CN110390013A (zh) * 2019-06-25 2019-10-29 厦门美域中央信息科技有限公司 一种基于聚类与ann融合应用的文本分类方法
CN110969172A (zh) * 2018-09-28 2020-04-07 武汉斗鱼网络科技有限公司 一种文本的分类方法以及相关设备
CN112085040A (zh) * 2019-06-12 2020-12-15 腾讯科技(深圳)有限公司 对象标签确定方法、装置和计算机设备
CN115994527A (zh) * 2023-03-23 2023-04-21 广东聚智诚科技有限公司 一种基于机器学习的ppt自动生成系统
CN116881828A (zh) * 2023-07-19 2023-10-13 西华师范大学 一种基于子空间相似度的knn算法的异常检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345528A (zh) * 2013-07-24 2013-10-09 南京邮电大学 一种基于关联分析和knn的文本分类方法
CN104239436A (zh) * 2014-08-27 2014-12-24 南京邮电大学 一种基于文本分类和聚类分析的网络热点事件发现方法
CN105005589A (zh) * 2015-06-26 2015-10-28 腾讯科技(深圳)有限公司 一种文本分类的方法和装置
CN105426426A (zh) * 2015-11-04 2016-03-23 北京工业大学 一种基于改进的K-Medoids的KNN文本分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345528A (zh) * 2013-07-24 2013-10-09 南京邮电大学 一种基于关联分析和knn的文本分类方法
CN104239436A (zh) * 2014-08-27 2014-12-24 南京邮电大学 一种基于文本分类和聚类分析的网络热点事件发现方法
CN105005589A (zh) * 2015-06-26 2015-10-28 腾讯科技(深圳)有限公司 一种文本分类的方法和装置
CN105426426A (zh) * 2015-11-04 2016-03-23 北京工业大学 一种基于改进的K-Medoids的KNN文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王渊等: "基于粗糙KNN算法的文本分类方法", 《合肥工业大学学报(自然科学版)》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650113A (zh) * 2016-12-26 2017-05-10 招商局重庆交通科研设计院有限公司 一种基于模糊聚类的桥梁监测数据异常情况识别方法
CN109947858A (zh) * 2017-07-26 2019-06-28 腾讯科技(深圳)有限公司 一种数据处理的方法及装置
CN108021609A (zh) * 2017-11-01 2018-05-11 深圳市牛鼎丰科技有限公司 文本情感分类方法、装置、计算机设备和存储介质
CN108021609B (zh) * 2017-11-01 2020-08-18 深圳市牛鼎丰科技有限公司 文本情感分类方法、装置、计算机设备和存储介质
CN109190009A (zh) * 2018-09-12 2019-01-11 北京邮电大学 一种网络社区话题整合方法及系统
CN110969172A (zh) * 2018-09-28 2020-04-07 武汉斗鱼网络科技有限公司 一种文本的分类方法以及相关设备
CN110222180A (zh) * 2019-06-04 2019-09-10 江南大学 一种文本数据分类与信息挖掘方法
CN110222180B (zh) * 2019-06-04 2021-05-28 江南大学 一种文本数据分类与信息挖掘方法
CN112085040A (zh) * 2019-06-12 2020-12-15 腾讯科技(深圳)有限公司 对象标签确定方法、装置和计算机设备
CN112085040B (zh) * 2019-06-12 2024-09-06 腾讯科技(深圳)有限公司 对象标签确定方法、装置和计算机设备
CN110390013A (zh) * 2019-06-25 2019-10-29 厦门美域中央信息科技有限公司 一种基于聚类与ann融合应用的文本分类方法
CN115994527A (zh) * 2023-03-23 2023-04-21 广东聚智诚科技有限公司 一种基于机器学习的ppt自动生成系统
CN116881828A (zh) * 2023-07-19 2023-10-13 西华师范大学 一种基于子空间相似度的knn算法的异常检测方法
CN116881828B (zh) * 2023-07-19 2024-05-17 西华师范大学 一种基于子空间相似度的knn算法的异常检测方法

Also Published As

Publication number Publication date
CN106021578B (zh) 2019-07-23

Similar Documents

Publication Publication Date Title
CN106021578A (zh) 一种基于聚类和隶属度融合的改进型文本分类算法
CN100583101C (zh) 基于领域知识的文本分类特征选择及权重计算方法
CN104750844B (zh) 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
CN105389379A (zh) 一种基于文本分布式特征表示的垃圾稿件分类方法
CN105045812B (zh) 文本主题的分类方法及系统
CN110287328B (zh) 一种文本分类方法、装置、设备及计算机可读存储介质
CN103345528B (zh) 一种基于关联分析和knn的文本分类方法
CN104834940A (zh) 一种基于支持向量机的医疗影像检查疾病分类方法
CN104391835B (zh) 文本中特征词选择方法及装置
CN101540017B (zh) 基于字节级n元文法的特征提取方法及垃圾邮件过滤器
Wang et al. Radical-based Chinese character recognition via multi-labeled learning of deep residual networks
CN105808524A (zh) 一种基于专利文献摘要的专利自动分类方法
CN103886077B (zh) 短文本的聚类方法和系统
CN103886108B (zh) 一种不均衡文本集的特征选择和权重计算方法
Liliana et al. Indonesian news classification using support vector machine
CN101763431A (zh) 基于海量网络舆情信息的pl聚类处理方法
CN101794303A (zh) 采用特征扩展分类文本及构造文本分类器的方法和装置
CN102156871A (zh) 基于类别相关的码本和分类器投票策略的图像分类方法
CN109858518A (zh) 一种基于MapReduce的大型数据集聚类方法
CN107145560A (zh) 一种文本分类方法及装置
CN102298646A (zh) 一种主观文本和客观文本分类方法及装置
CN104142960A (zh) 互联网数据分析系统
CN103914551A (zh) 一种微博语义信息扩充和特征选取方法
CN103490974A (zh) 一种垃圾邮件检测方法及装置
Dahiya et al. Refining of image using self-organizing map with clustering

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200106

Address after: 518000 Room 202, building 1, Tingwei Industrial Park, No. 6, Liufang Road, Xingdong community, Xin'an street, Bao'an District, Shenzhen City, Guangdong Province

Patentee after: Shenzhen Shang Mi Network Technology Co., Ltd.

Address before: Yuen Road Qixia District of Nanjing City, Jiangsu Province, No. 9 210023

Patentee before: Nanjing Post & Telecommunication Univ.

TR01 Transfer of patent right