CN106844748A - 文本聚类方法、装置及电子设备 - Google Patents
文本聚类方法、装置及电子设备 Download PDFInfo
- Publication number
- CN106844748A CN106844748A CN201710083729.3A CN201710083729A CN106844748A CN 106844748 A CN106844748 A CN 106844748A CN 201710083729 A CN201710083729 A CN 201710083729A CN 106844748 A CN106844748 A CN 106844748A
- Authority
- CN
- China
- Prior art keywords
- document
- similarity
- ascending order
- threshold
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种文本聚类方法、装置及电子设备。该文本聚类方法,包括:将多个不同主题的原始文档集合并为一个文档并集。将文档并集中的文档进行升序排列,得到升序文档并集。依次计算升序文档并集中的第一个文档与其之后的所有文档的相似度,若相似度大于或等于第一阈值,将该文档与该第一个文档归属于一类,若小于第一阈值,则将该文档记为未归类文档。依次执行升序文档并集中未归类文档中第一个文档与它之后的所有未归类文档的相似度计算及分类。该文本聚类方法、装置及电子设备避免了分词、特征提取等操作,步骤简单,准确率高,具备语言无关性,适用于各种语言的文本聚类。并且,聚类速度和精度可灵活调整,以满足不同的实际需求。
Description
技术领域
本发明涉及文本挖掘技术领域,具体而言,涉及一种文本聚类方法、装置及电子设备。
背景技术
顾名思义,聚类即按照某些特征和规则将整个数据集分成若干组的过程,各个组内元素在某些特征方面具有较高的相似性,而组间元素则在这些特征方面具有较大的差异性,所得到的各个组即为一个聚类,也常称之为“簇”。目前,文本聚类方法有划分聚类、层次聚类、基于密度的聚类、基于语义的聚类以及基于各种模型理论的聚类。
上述聚类方法大多需要分词或特征项支撑,因而决定了特征选择或降维是一项重要的研究内容。对中文、维吾尔文等语言而言,往往离不开分词的支持,相应的分词准确性和速度问题也随之而来,最终也将影响聚类的速度、准确率和召回率。
发明内容
有鉴于此,本发明的目的在于提供一种文本聚类方法、装置及电子设备,以解决上述问题。
为实现上述目的,本发明提供如下技术方案:
本发明较佳实施例提供一种文本聚类方法,所述方法包括:
将多个不同主题的原始文档集合并为一个文档并集;
将所述文档并集中的文档进行升序排列,得到升序文档并集;
依次计算所述升序文档并集中的第一个文档与所述第一个文档之后的所有文档的相似度,若计算出的相似度大于或等于第一阈值,将该文档与所述第一个文档归属于一类,若计算出的相似度小于所述第一阈值,则将该文档记为未归类文档;
依次计算所述升序文档并集中未归类文档中第一个文档与该第一个文档之后的所有未归类文档的相似度,若计算出的相似度大于或等于所述第一阈值,将该未归类文档与所述未归类文档中第一个文档归属于一类,若计算出的相似度小于所述第一阈值,则跳过该未归类文档,直到完成所述升序文档并集中最后两个未归类文档的相似度计算及分类,从而得到多个初始聚类。
优选地,所述方法还包括:
过滤掉所有文档数小于第二阈值的初始聚类,得到多个过滤聚类。
优选地,所述方法还包括:
对所述过滤聚类进行聚类合并,得到多个最终聚类,其中,所述最终聚类与所述原始文档集相对应,即所述最终聚类的个数与原始文档集的个数相同,所述最终聚类的主题与原始文档集的主题相同。
优选地,所述对所述过滤聚类进行聚类合并,得到多个最终聚类的步骤包括:
获取每个过滤聚类的标志文档;
将每个过滤聚类的标志文档进行聚类分析,若两个标志文档归属于一类,则合并这两个标志文档所在的过滤聚类,得到多个最终聚类。
优选地,所述方法还包括:
采用正确覆盖率评价各个最终聚类的准确率,其中,最终聚类的正确覆盖率的计算公式为其中,Pk表示与Dk原始文档集对应的最终聚类的正确覆盖率,nk表示Dk原始文档集内文档的个数,q表示与Dk原始文档集对应的最终聚类中正确文档的个数。
优选地,所述方法还包括:
采用F值综合评价各个最终聚类,其中,最终聚类的F值的计算公式为其中,R表示最终聚类的召回率,a表示最终聚类的召回率的权系数。
优选地,所述相似度的计算公式为其中W(ek)是元素ek的权重评价函数,di和dj表示升序文档并集中两个待进行相似度计算的文档。
本发明另一较佳实施例提供一种文本聚类装置,包括:
合并模块,用于将多个不同主题的原始文档集合并为一个文档并集;
升序模块,用于将所述文档并集中的文档进行升序排列,得到升序文档并集;
聚类模块,用于依次计算所述升序文档并集中的第一个文档与所述第一个文档之后的所有文档的相似度,若计算出的相似度大于或等于第一阈值,将该文档与所述第一个文档归属于一类,若计算出的相似度小于所述第一阈值,则将该文档记为未归类文档;以及
依次计算所述升序文档并集中未归类文档中第一个文档与该第一个文档之后的所有未归类文档的相似度,若计算出的相似度大于或等于第一阈值,将该未归类文档与所述未归类文档中第一个文档归属于一类,若计算出的相似度小于所述第一阈值,则跳过该未归类文档,直到完成所述升序文档并集中最后两个未归类文档的相似度计算及分类,从而得到多个初始聚类。
本发明另一较佳实施例提供一种电子设备,包括处理器和存储器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
将多个不同主题的原始文档集合并为一个文档并集;
将所述文档并集中的文档进行升序排列,得到升序文档并集;
依次计算所述升序文档并集中的第一个文档与所述第一个文档之后的所有文档的相似度,若计算出的相似度大于或等于第一阈值,将该文档与所述第一个文档归属于一类,若计算出的相似度小于所述第一阈值,则将该文档记为未归类文档;
依次计算所述升序文档并集中未归类文档中第一个文档与该第一个文档之后的所有未归类文档的相似度,若计算出的相似度大于或等于第一阈值,将该未归类文档与所述未归类文档中第一个文档归属于一类,若计算出的相似度小于所述第一阈值,则跳过该未归类文档,直到完成所述升序文档并集中最后两个未归类文档的相似度计算及分类,从而得到多个初始聚类。
本发明另一较佳实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实上述的文本聚类方法的步骤。
本发明提供的文本聚类方法、装置及电子设备,避免了很多聚类方法中的分词、特征提取等操作,步骤简单,速度快,准确率和召回率高。同时,具备语言无关性,适用于各种语言的文本聚类。并且,聚类速度和精度可通过调整相似度计算中元素的长度、数目及第一阈值的大小实现灵活调整,以满足不同的实际需求。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍。应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的一种电子设备的方框示意图。
图2为本发明实施例提供的一种文本聚类方法的流程图。
图3为本发明实施例提供的另一种文本聚类方法的流程图。
图4一实施方式中图3所示步骤S219包括的子步骤的示意图。
图5为本发明实施例提供的另一种文本聚类方法的流程图。
图6为采用本方法计算的各个最终聚类的正确覆盖率与第一阈值的关系图。
图7为采用本方法计算的各个最终聚类的召回率与第一阈值的关系图。
图8为采用本方法计算的各个最终聚类的F值与第一阈值的关系图。
图9为本发明较佳实施例提供的一种文本聚类装置的功能模块框图
图标:100-电子设备;110-存储器;120-处理器;130-网络模块;200-文本聚类装置;210-合并模块;220-升序模块;230-聚类模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。在本发明的描述中,术语“第一”、“第二”、“第三”、“第四”等仅用于区分描述,而不能理解为只是或暗示相对重要性。
请参阅图1,是本发明较佳实施例提供的电子设备100的方框示意图。本发明实施例中的电子设备100可以为服务器、计算机等具备数据处理能力的设备。如图1所示,电子设备100包括:存储器110、处理器120及网络模块130。
所述存储器110、处理器120以及网络模块130相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器110包括至少一个可以软件或固件(firmware)的形式存储于所述存储器110中的软件功能模块,所述处理器120通过运行存储在存储器110内的软件程序以及模块,如本发明实施例中的文本聚类装置,从而执行各种功能应用以及数据处理,即实现本发明实施例中的文本聚类方法。
其中,所述存储器110可以是,但不限于,随机存取存储器(Random AccessMemory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(ProgrammableRead-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory,EEPROM)等。其中,存储器110用于存储程序,所述处理器120在接收到执行指令后,执行所述程序。
所述处理器120可能是一种集成电路芯片,具有信号的处理能力。上述的处理器120可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等。还可以是数字信号处理器(DSP))、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规处理器等。
网络模块130用于通过网络建立电子设备100与外部通信终端之间的通信连接,实现网络信号及数据的收发操作。上述网络信号可包括无线信号或者有线信号。
可以理解,图1所示的结构仅为示意,电子设备100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
请参阅图2,是本发明较佳实施例提供的一种文本聚类方法的流程图。所述方法有关的流程所定义的方法步骤可以由所述处理器120实现。下面将对图2所示的具体流程进行详细阐述。
步骤S210,将多个不同主题的原始文档集合并为一个文档并集。
设有k个主题的原始文档集分别记为 其中,Di(i=1,2,3…k)表示第i个主题的原始文档集,表示Di原始文档集内的第j个文档,n1表示D1原始文档集内有个n1文档,n2表示D2原始文档集内有n2个文档,nk表示Dk原始文档集内有nk个文档。将k个主题的原始文档集合并后的文档并集记为D,故D可以表示为:
例如,在本实施例中,采用爬虫程序抓取数据并提取其中的正文文本生成5个原始文档集。其中,主题为“企业跑路”的原始文档集包括180篇文档,主题为“超女某某”的原始文档集包括165篇文档,主题为“转基因”的原始文档集包括165篇文档,主题为“以房养老”的原始文档集包括165篇文档,以及主题为“染色馒头”的原始文档集包括200篇文档。那么将这5个主题的原始文档集合并成的文档并集包括875篇文档。
步骤S211,将所述文档并集中的文档进行升序排列,得到升序文档并集。
统计文档并集D内所有文档的字数或字符数,按字数或字符数对文档进行升序排列,即字数或字符数越少的文档越靠前,将排列后的升序文档并集记为D′={d1,d2,d3…dn}。在本实施例中,即将这875篇文档按字数或字符数进行升序排列。
发明人深入研究后发现,基于降序排列的聚类,存在可能将毫不相干的内容聚到同一类中的弊端,准确性较低。例如,设文档集D={d1,d2,d3},各个文档di视为字符集合,且满足如下限定关系,d2∩d3=φ,Len(d1)>Len(d2)>Len(d3),Len表示文档长度。必须说明的是,上述前提条件d2∩d3=φ并非严格的。若在降序排列的下,由于d1将被优先用作聚类的标志文档,因而d1、d2、d3都将聚到一个类下,但事实上,d2、d3没有任何关系。而若采用本发明提供的基于升序排列的文本聚类方法,聚类标志文档是d3,因而d3、d1将被聚为一类,由于d3与d2交集为空,因而d2不会被纳入该类中,从而避免了将毫不相干的内容聚到同一类中,明显提高了准确性。
步骤S212,依次计算所述升序文档并集中的第一个文档与所述第一个文档之后的所有文档的相似度,并将计算出的相似度与第一阈值进行比较。
任何文本文档可视为一个集合,该集合的元素可以为字、词、句子、标点符号、段落等。设升序文档并集D′内的文档di的字数或字符数为n,将di视为一个由字或字符构成的集合,则该集合应该含有n个长度为1的元素,含有(n-1)个长度为2的元素,……含有1个长度为n的元素。即该集合含有(n-m+1)个长度为m的元素(1≤m≤n),故di可以表示为:
其中,表示长度为1的元素,表示长度为2的元素,表示长度为m的元素,表示长度为n的元素,则可以用表示长度为m的第k个元素。n1、n2、nm分别表示长度为1、2、m的元素的个数。考虑到集合的特性,需要剔除相同的元素,所以长度为m的元素组成的集合的元素数目的上限为(n-m+1),文档di的元素数目的上限为在不考虑元素长度的情况下,为了表述方便,可以将上述集合表述为:设文档di和dj里有m个元素,则相似度的计算公式为:
W(ek)是元素ek的权重评价函数。权重评价函数的选择原则是:在相似度计算时贡献大的元素应该赋予较大的权值,反之则应该赋予较小的值。例如,W(ek)可以等于x,W(ek)还可以等于x等于元素的长度,以保证长度较长的元素的权重大于长度较短的元素的权重。
在本实施例中,每篇文档均随机分别取长度为2、3、4、5、6的元素各20个,W(ek)=x,依次分别计算文档d1与d2,d3…dn的相似度。
若计算出的相似度大于或等于第一阈值,则执行步骤S213。若计算出的相似度小于所述第一阈值,则执行步骤S214。
聚类的过程中,第一阈值是相似度阈值,第一阈值的设置对聚类结果起着决定性作用,决定两个文档是否归为一类。第一阈值较小时,辨识度较小,容易将本不该隶属于一类的文档聚到一起,从而最终获得的聚类较少,准确率也相对较低。第一阈值逐渐增大时,辨识度逐渐增大,各文档更容易被归属到其应该的聚类中,因而聚类相对更为准确,聚类数也就更多。当阈值增大到一定范围时,此时可以较为准确的划分各个文档的类别归属,准确率基本维持在100%,聚类数存在一段相对稳定区间,适于用作网络热点分析等相关研究。随着阈值的继续增大,只有几乎完全相同的文档才会被聚到一个类当中,此时获得的聚类数将开始逐渐降低。第一阈值的大小可以根据实际情况灵活调整。在本实施例中,第一阈值取3,5,7,9,11,13,15,17,19,21,23。
步骤S213,将该文档与所述第一个文档归属于一类。
步骤S214,将该文档记为未归类文档。
在步骤S212、步骤S213和步骤S214中,将升序文档并集中的第一个文档默认为标志文档,将所述第一个文档之后的所有文档依次与所述第一个文档进行相似度计算及分类。在步骤S212、步骤S213和步骤S214后,剩下的第一个未归类文档成为下一轮的标志文档,其他未归类文档逐一与之进行相似度计算并完成分类,具体步骤如下。
步骤S215,依次计算所述升序文档并集中未归类文档中第一个文档与该第一个文档之后的所有未归类文档的相似度,并将计算出的相似度与第一阈值进行比较。
若计算出的相似度大于或等于所述第一阈值,则执行步骤S216。若计算出的相似度小于所述第一阈值,则执行步骤S217
步骤S216,将该未归类文档与所述未归类文档中第一个文档归属于一类。
步骤S217,则跳过该未归类文档。
重复步骤S215、步骤S216和步骤S217,直到完成所述升序文档并集中最后两个未归类文档的相似度计算及分类,从而得到多个初始聚类。各个初始聚类具有准确率高,召回率低的特点,可以用于网络舆情热点分析与发现之类的应用场景。步骤212、步骤213、步骤214、步骤215、步骤216、步骤217可以通过计算机编程实现,所述程序的伪代码为:
其中,T表示第一阈值。聚类完毕,根据flag值即可知所获得初始聚类的个数,且每个初始聚类中最少元素个数为2。请参阅图3,可选地,在本实施例中,所述方法还可以包括:步骤S218和步骤S219。
步骤S218,过滤掉所有文档数小于第二阈值的初始聚类,得到多个过滤聚类。
采用步骤S218即可过滤那些文档数过少的聚类。第二阈值是聚类大小阈值,是决定初始聚类是否为有效聚类的重要参数,第二阈值的大小可以根据实际情况灵活选取。
步骤S219,对所述过滤聚类进行聚类合并,得到多个最终聚类。
最终聚类相较于初始聚类,具有召回率较高、准确率较低的特点,接近于采用传统方法获得的聚类结果。在本实施例中,所述最终聚类与所述原始文档集相对应,即所述最终聚类的个数与原始文档集的个数相同,所述最终聚类的主题与原始文档集的主题相同。例如,在本实施例中,所述最终聚类有五个,主题分别为“企业跑路”、“超女某某”、“转基因”、“以房养老”和“染色馒头”。
请参阅图4,可选地,步骤S219包括子步骤S2191和子步骤S2192。
子步骤S2191,获取每个过滤聚类的标志文档。
所述标志文档可以是每个过滤聚类中的第一个文档,也可以是采用其它方法确定的每个过滤聚类中最具代表性的文档。
子步骤S2192,对每个过滤聚类的标志文档进行聚类分析,若两个标志文档归属于一类,则合并这两个标志文档所在的过滤聚类,得到多个最终聚类。
对所述标志文档进行聚类分析的方法可以是本发明实施例提供的文本聚类方法,也可以是划分聚类、层次聚类、基于密度的聚类、基于语义的聚类以及基于各种模型理论的聚类等常规的聚类方法。
请参阅图5,可选地,在本实施例中,所述方法还包括:步骤S220和步骤S221。
步骤S220,采用正确覆盖率评价各个最终聚类的准确率,所述各个最终聚类的正确覆盖率的计算公式为其中,Pk表示与Dk原始文档集对应的最终聚类的正确覆盖率,nk表示Dk原始文档集内文档的个数,q表示与Dk原始文档集对应的最终聚类中正确文档的个数。
现有的评价聚类结果的准确率P的计算公式为:P=提取出的正确信息条数/提取出的信息条数。在实际进行文本聚类时,一般会同时进行多个主题的聚类,若采用现有的准确率公式计算聚类结果的准确率,则会出现准确率计算错误,计算结果不可信等问题。例如,若有两个主题的原始文档集A和B,原始文档集A中有100篇文档,原始文档集B中有10000篇文档。聚类后,得到与原始文档集A和B分别对应的最终聚类A’和B’,A’中有90篇正确文档,B’中有2000篇正确文档。采用现有公式计算出两个主题的聚类的准确率分别为和从计算结果来看,前者的准确率远远小于后者,且受后者正确文档数目影响很大,几乎不与它实际正确的文档数目有关,明显与实际情况不符。而采用本发明提供的正确覆盖率计算公式计算出两个主题的聚类的准确率分别为和前者的准确率大于后者,两个聚类结果互不影响,与实际情况相符。因而,与现有技术相比,本发明提供的正确覆盖率更适合同时进行多个主题聚类的情况。
请参阅图6,图6为采用本方法计算的各个最终聚类的正确覆盖率与第一阈值的关系图。其中,E曲线表示的主题为“企业跑路”,F曲线表示的主题为“超女某某”、G曲线表示的主题为“转基因”、H曲线表示的主题为“以房养老”和I曲线表示的主题为“染色馒头”。从图中可以看出,本发明提供的文本聚类方法具有很高的准确率,在第一阈值T=11时,正确覆盖率已经接近100%,当第一阈值T≥15时,正确覆盖率几乎已为100%。并且,在T≤9的较低阈值区域,正确覆盖率大多都在70%以上。
步骤S221,采用F值综合评价各个最终聚类,其中,最终聚类的F值的计算公式为其中,R表示最终聚类的召回率,a表示最终聚类的召回率的权系数。
其中,召回率R的计算公式采用本领域技术人员已知的公式。权系数a可以根据实际情况灵活选择,在本实施例中,a=1。
请参阅图7和图8,图7为采用本方法计算的各个最终聚类的召回率与第一阈值的关系图,图8为采用本方法计算的各个最终聚类的F值与第一阈值的关系图。其中,E曲线表示的主题为“企业跑路”,F曲线表示的主题为“超女某某”、G曲线表示的主题为“转基因”、H曲线表示的主题为“以房养老”和I曲线表示的主题为“染色馒头”。从图7中可以看出,随着第一阈值的增大,召回率呈现先增后降的态势,最佳第一阈值范围为[9,11],召回率大于80%。并且,在T≤9的较低阈值区域,召回率大多都在60%以上。因此,本发明提供的文本聚类方法具有较高的召回率。从图8中可以看出,F值曲线的升降趋势与召回率一致,最佳第一阈值范围为[9,11],F值大于85%。并且,在T≤9的较低阈值区域,F值大多都在70%以上。故本发明提供的文本聚类方法聚类效果较好。
在上述基础上,如图9所示,本发明实施例提供了一种文本聚类装置200,包括合并模块210、升序模块220以及聚类模块230。
合并模块210,用于将多个不同主题的原始文档集合并为一个文档并集。由于合并模块210和图2中步骤S210的实现原理类似,因此在此不作更多说明。
升序模块220,用于将所述文档并集中的文档进行升序排列,得到升序文档并集。由于升序模块220和图2中步骤S211的实现原理类似,因此在此不作更多说明。
聚类模块230,用于依次计算所述升序文档并集中的第一个文档与所述第一个文档之后的所有文档的相似度。若计算出的相似度大于或等于第一阈值,将该文档与所述第一个文档归属于一类。若计算出的相似度小于所述第一阈值,则将该文档记为未归类文档。依次计算所述升序文档并集中未归类文档中第一个文档与该第一个文档之后的所有未归类文档的相似度。若计算出的相似度大于或等于第一阈值,将该未归类文档与所述未归类文档中第一个文档归属于一类。若计算出的相似度小于所述第一阈值,则跳过该未归类文档。直到完成所述升序文档并集中最后两个未归类文档的相似度计算及分类,从而得到多个初始聚类。由于聚类模块230和图2中步骤S212、步骤S213、步骤S214、步骤S215、步骤S216和步骤S217的实现原理类似,因此在此不作更多说明。
本发明实施例中的文本聚类方法、装置及电子设备100,避免了很多聚类方法中的分词、特征提取等操作,步骤简单,速度快,准确率和召回率高。同时,具备语言无关性,适用于各种语言的文本聚类。并且,聚类速度和精度可通过调整相似度计算中元素的长度、数目及第一阈值的大小实现灵活调整,以满足不同的实际需求。由于该方法可以获取多个准确率高的聚类,通过其中的较大聚类即可完成类似网络热点发现之类的应用需求。
在本发明实施例所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,各种电子设备,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种文本聚类方法,其特征在于,所述方法包括:
将多个不同主题的原始文档集合并为一个文档并集;
将所述文档并集中的文档进行升序排列,得到升序文档并集;
依次计算所述升序文档并集中的第一个文档与所述第一个文档之后的所有文档的相似度,若计算出的相似度大于或等于第一阈值,将该文档与所述第一个文档归属于一类,若计算出的相似度小于所述第一阈值,则将该文档记为未归类文档;
依次计算所述升序文档并集中未归类文档中第一个文档与该第一个文档之后的所有未归类文档的相似度,若计算出的相似度大于或等于所述第一阈值,将该未归类文档与所述未归类文档中第一个文档归属于一类,若计算出的相似度小于所述第一阈值,则跳过该未归类文档,直到完成所述升序文档并集中最后两个未归类文档的相似度计算及分类,从而得到多个初始聚类。
2.根据权利要求1所述的文本聚类方法,其特征在于,所述方法还包括:
过滤掉所有文档数小于第二阈值的初始聚类,得到多个过滤聚类。
3.根据权利要求2所述的文本聚类方法,其特征在于,所述方法还包括:
对所述过滤聚类进行聚类合并,得到多个最终聚类,其中,所述最终聚类与所述原始文档集相对应,即所述最终聚类的个数与原始文档集的个数相同,所述最终聚类的主题与原始文档集的主题相同。
4.根据权利要求3所述的文本聚类方法,其特征在于,所述对所述过滤聚类进行聚类合并,得到多个最终聚类的步骤包括:
获取每个过滤聚类的标志文档;
将每个过滤聚类的标志文档进行聚类分析,若两个标志文档归属于一类,则合并这两个标志文档所在的过滤聚类,得到多个最终聚类。
5.根据权利要求3所述的文本聚类方法,其特征在于,所述方法还包括:
采用正确覆盖率评价各个最终聚类的准确率,其中,最终聚类的正确覆盖率的计算公式为其中,Pk表示与Dk原始文档集对应的最终聚类的正确覆盖率,nk表示Dk原始文档集内文档的个数,q表示与Dk原始文档集对应的最终聚类中正确文档的个数。
6.根据权利要求5所述的文本聚类方法,其特征在于,所述方法还包括:
采用F值综合评价各个最终聚类,其中,最终聚类的F值的计算公式为其中,R表示最终聚类的召回率,a表示最终聚类的召回率的权系数。
7.根据权利要求1所述的文本聚类方法,其特征在于,所述相似度的计算公式为其中W(ek)是元素ek的权重评价函数,di和dj表示升序文档并集中两个待进行相似度计算的文档,m表示文档di和dj里的元素的数目。
8.一种文本聚类装置,其特征在于,包括:
合并模块,用于将多个不同主题的原始文档集合并为一个文档并集;
升序模块,用于将所述文档并集中的文档进行升序排列,得到升序文档并集;
聚类模块,用于依次计算所述升序文档并集中的第一个文档与所述第一个文档之后的所有文档的相似度,若计算出的相似度大于或等于第一阈值,将该文档与所述第一个文档归属于一类,若计算出的相似度小于所述第一阈值,则将该文档记为未归类文档;以及
依次计算所述升序文档并集中未归类文档中第一个文档与该第一个文档之后的所有未归类文档的相似度,若计算出的相似度大于或等于第一阈值,将该未归类文档与所述未归类文档中第一个文档归属于一类,若计算出的相似度小于所述第一阈值,则跳过该未归类文档,直到完成所述升序文档并集中最后两个未归类文档的相似度计算及分类,从而得到多个初始聚类。
9.一种电子设备,其特征在于,包括处理器和存储器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
将多个不同主题的原始文档集合并为一个文档并集;
将所述文档并集中的文档进行升序排列,得到升序文档并集;
依次计算所述升序文档并集中的第一个文档与所述第一个文档之后的所有文档的相似度,若计算出的相似度大于或等于第一阈值,将该文档与所述第一个文档归属于一类,若计算出的相似度小于所述第一阈值,则将该文档记为未归类文档;
依次计算所述升序文档并集中未归类文档中第一个文档与该第一个文档之后的所有未归类文档的相似度,若计算出的相似度大于或等于第一阈值,将该未归类文档与所述未归类文档中第一个文档归属于一类,若计算出的相似度小于所述第一阈值,则跳过该未归类文档,直到完成所述升序文档并集中最后两个未归类文档的相似度计算及分类,从而得到多个初始聚类。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-7任意一项所述的文本聚类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710083729.3A CN106844748A (zh) | 2017-02-16 | 2017-02-16 | 文本聚类方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710083729.3A CN106844748A (zh) | 2017-02-16 | 2017-02-16 | 文本聚类方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106844748A true CN106844748A (zh) | 2017-06-13 |
Family
ID=59129026
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710083729.3A Pending CN106844748A (zh) | 2017-02-16 | 2017-02-16 | 文本聚类方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106844748A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108062576A (zh) * | 2018-01-05 | 2018-05-22 | 百度在线网络技术(北京)有限公司 | 用于输出数据的方法和装置 |
WO2019041524A1 (zh) * | 2017-08-31 | 2019-03-07 | 平安科技(深圳)有限公司 | 聚类标签生成方法、电子设备及计算机可读存储介质 |
CN111400498A (zh) * | 2020-03-20 | 2020-07-10 | 广州需你计算机服务有限公司 | 一种基于降维的短信聚类方法 |
CN114238634A (zh) * | 2021-12-13 | 2022-03-25 | 北京智齿众服技术咨询有限公司 | 正则表达式的生成方法及应用、装置、设备和存储介质 |
CN117573875A (zh) * | 2023-12-05 | 2024-02-20 | 安芯网盾(北京)科技有限公司 | 一种同名文件聚类算法优化方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060242147A1 (en) * | 2005-04-22 | 2006-10-26 | David Gehrking | Categorizing objects, such as documents and/or clusters, with respect to a taxonomy and data structures derived from such categorization |
CN101694670A (zh) * | 2009-10-20 | 2010-04-14 | 北京航空航天大学 | 一种基于公共子串的中文Web文档在线聚类方法 |
CN102799680A (zh) * | 2012-07-24 | 2012-11-28 | 华北电力大学(保定) | 一种基于近邻传播的xml文档谱聚类方法 |
CN102831116A (zh) * | 2011-06-14 | 2012-12-19 | 国际商业机器公司 | 用于文档聚类的方法及系统 |
CN104657472A (zh) * | 2015-02-13 | 2015-05-27 | 南京邮电大学 | 一种基于进化算法的英文文本聚类方法 |
-
2017
- 2017-02-16 CN CN201710083729.3A patent/CN106844748A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060242147A1 (en) * | 2005-04-22 | 2006-10-26 | David Gehrking | Categorizing objects, such as documents and/or clusters, with respect to a taxonomy and data structures derived from such categorization |
CN101694670A (zh) * | 2009-10-20 | 2010-04-14 | 北京航空航天大学 | 一种基于公共子串的中文Web文档在线聚类方法 |
CN102831116A (zh) * | 2011-06-14 | 2012-12-19 | 国际商业机器公司 | 用于文档聚类的方法及系统 |
CN102799680A (zh) * | 2012-07-24 | 2012-11-28 | 华北电力大学(保定) | 一种基于近邻传播的xml文档谱聚类方法 |
CN104657472A (zh) * | 2015-02-13 | 2015-05-27 | 南京邮电大学 | 一种基于进化算法的英文文本聚类方法 |
Non-Patent Citations (1)
Title |
---|
王贤明等: "基于R-Grams的文本聚类方法", 《计算机应用》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019041524A1 (zh) * | 2017-08-31 | 2019-03-07 | 平安科技(深圳)有限公司 | 聚类标签生成方法、电子设备及计算机可读存储介质 |
CN108062576A (zh) * | 2018-01-05 | 2018-05-22 | 百度在线网络技术(北京)有限公司 | 用于输出数据的方法和装置 |
CN108062576B (zh) * | 2018-01-05 | 2019-05-03 | 百度在线网络技术(北京)有限公司 | 用于输出数据的方法和装置 |
CN111400498A (zh) * | 2020-03-20 | 2020-07-10 | 广州需你计算机服务有限公司 | 一种基于降维的短信聚类方法 |
CN114238634A (zh) * | 2021-12-13 | 2022-03-25 | 北京智齿众服技术咨询有限公司 | 正则表达式的生成方法及应用、装置、设备和存储介质 |
CN114238634B (zh) * | 2021-12-13 | 2022-08-02 | 北京智齿众服技术咨询有限公司 | 正则表达式的生成方法及应用、装置、设备和存储介质 |
CN117573875A (zh) * | 2023-12-05 | 2024-02-20 | 安芯网盾(北京)科技有限公司 | 一种同名文件聚类算法优化方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106844748A (zh) | 文本聚类方法、装置及电子设备 | |
CN107844559A (zh) | 一种文件分类方法、装置及电子设备 | |
CN104331498B (zh) | 一种对互联网用户访问的网页内容自动分类的方法 | |
CN103914478B (zh) | 网页训练方法及系统、网页预测方法及系统 | |
WO2019218514A1 (zh) | 网页目标信息的提取方法、装置及存储介质 | |
CN109033200B (zh) | 事件抽取的方法、装置、设备及计算机可读介质 | |
CN111797239B (zh) | 应用程序的分类方法、装置及终端设备 | |
CN106960040B (zh) | 一种url的类别确定方法及装置 | |
CN106778685A (zh) | 心电图图像识别方法、装置及服务终端 | |
CN110019794A (zh) | 文本资源的分类方法、装置、存储介质及电子装置 | |
CN105989266A (zh) | 基于心电信号的认证方法、装置及系统 | |
CN108536595A (zh) | 测试用例智能化匹配方法、装置、计算机设备及存储介质 | |
CN103810162A (zh) | 推荐网络信息的方法和系统 | |
CN105956083A (zh) | 应用软件分类系统、应用软件分类方法及服务器 | |
WO2022121163A1 (zh) | 用户行为倾向识别方法、装置、设备及存储介质 | |
CN106294882A (zh) | 数据挖掘方法以及装置 | |
CN102880648A (zh) | 一种对歌曲进行分析的方法及装置 | |
CN102207961A (zh) | 一种网页自动分类方法及装置 | |
CN107657030A (zh) | 收集用户阅读数据的方法、装置、终端设备及存储介质 | |
CN110796171A (zh) | 机器学习模型的未分类样本处理方法、装置及电子设备 | |
CN108876452A (zh) | 用电客户需求信息获取方法、装置以及电子设备 | |
CN108090178A (zh) | 一种文本数据分析方法、装置、服务器和存储介质 | |
CN105045913A (zh) | 基于WordNet以及潜在语义分析的文本分类方法 | |
CN116881429B (zh) | 一种基于多租户的对话模型交互方法、装置及存储介质 | |
CN103488707B (zh) | 一种基于贪心策略和启发式算法搜索候选类别的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170613 |