一种文本聚类的方法、装置、服务器及存储介质
技术领域
本发明实施例涉及文本检索技术,尤其涉及一种文本聚类的方法、装置、服务器及存储介质。
背景技术
随着互联网和信息技术的快速发展,各类网络资源逐渐呈指数级的方式快速增加,其中存在大量的文本信息,此时需要从大量文本中检索出目标文本时,通常会预先对全部文本进行聚类,以按照不同文本之间的相似度,将全部文本区分为不同主题下的文本聚类集合,后续仅需要在某个特定主题下的文本聚类集合中检索目标文本即可,极大降低了文本检索难度。
目前,通常会为各个文本的关键词进行特征加权,后续采用不同文本之间的关键词权重来计算不同文本之间的相似度,进而得到相应的文本聚类结果,此时常用的加权方案是词频-逆文档频率(Term Frequency–Inverse Document Frequency,简称TF-IDF)算法,如果关键词在某个文本中的出现频率越高,说明在该文本中越重要,则将其权重设置较高,而如果其他文本中都存在该关键词,说明该关键词无法将该文本与其他文本进行区分,则将其权重设置较低,因此现有方案中通常会通过分析某个文本中各个关键词出现的频率和所有文本中存在该关键词的其它文本比例,来计算该文本中各个关键词的权重。
现有的TF-IDF算法倾向于过滤掉各个文本中的常见关键词,而保留一些低频生僻词,但是常见关键词对于文本来说,可能会代表该文本中的部分特征信息,并不是无意义词,如公众人物或热点事件等,同时将某些低频生僻词作为高权重关键词,会放大生僻词在文本中的重要性,因此TF-IDF算法无法准确的计算各个文本的关键词权重,从而极大降低了文本聚类的准确性。
发明内容
本发明实施例提供一种文本聚类的方法、装置、服务器及存储介质,以实现待聚类文本库内各个待聚类文本的关键词权重的准确计算,提高了文本聚类的准确性。
第一方面,本发明实施例提供了一种文本聚类的方法,该方法包括:
基于待聚类文本库内每一待聚类文本中的关键词数量对所述待聚类文本库的反向聚类影响,以及所述待聚类文本库中的每一关键词在所述待聚类文本库中包含该关键词的文本数量对所述待聚类文本库的正向聚类影响,计算每一关键词在该待聚类文本中的参考权重;
通过所述待聚类文本库中的每一关键词在该待聚类文本中的词频和在所述待聚类文本库中的逆文本频次,以及该待聚类文本中的最大词频,调节每一关键词在该待聚类文本中的参考权重,得到每一关键词在该待聚类文本中达到最优聚类时的实际权重;
采用每一关键词在各个待聚类文本中的实际权重,对所述待聚类文本库内的待聚类文本进行聚类,得到对应的文本聚类结果。
第二方面,本发明实施例还提供了一种文本聚类的装置,该装置包括:
参考权重计算模块,用于基于待聚类文本库内每一待聚类文本中的关键词数量对所述待聚类文本库的反向聚类影响,以及所述待聚类文本库中的每一关键词在所述待聚类文本库中包含该关键词的文本数量对所述待聚类文本库的正向聚类影响,计算每一关键词在该待聚类文本中的参考权重;
实际权重确定模块,用于通过所述待聚类文本库中的每一关键词在该待聚类文本中的词频和在所述待聚类文本库中的逆文本频次,以及该待聚类文本中的最大词频,调节每一关键词在该待聚类文本中的参考权重,得到每一关键词在该待聚类文本中达到最优聚类时的实际权重;
文本聚类模块,用于采用每一关键词在各个待聚类文本中的实际权重,对所述待聚类文本库内的待聚类文本进行聚类,得到对应的文本聚类结果。
第三方面,本发明实施例还提供了一种服务器,该服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所述的文本聚类的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所述的文本聚类的方法。
本发明实施例提供了一种文本聚类的方法、装置、服务器及存储介质,首先根据待聚类文本库内每一待聚类文本中的关键词数量和待聚类文本库中的每一关键词在待聚类文本库中包含该关键词的文本数量对待聚类文本库的不同聚类影响,计算每一关键词在该待聚类文本中的参考权重,接着通过待聚类文本库中的每一关键词在该待聚类文本中的词频和在待聚类文本库中的逆文本频次,以及该待聚类文本中的最大词频,调节每一关键词在该待聚类文本中的参考权重,得到每一关键词在该待聚类文本中达到最优聚类时的实际权重,使得每一关键词在各个待聚类文本中的实际权重能够准确的表示待聚类文本库中每一关键词在该待聚类文本中的重要性,最后采用每一关键词在各个待聚类文本中的实际权重,对待聚类文本库内的待聚类文本进行聚类,得到对应的文本聚类结果,从而解决了现有的TF-IDF算法无法准确的计算待聚类文本库内各个待聚类文本的关键词权重的问题,提高了文本聚类的准确性。
附图说明
图1为本发明实施例一提供的一种文本聚类的方法的流程图;
图2为本发明实施例二提供的一种文本聚类的方法的流程图;
图3为本发明实施例三提供的一种文本聚类的方法的流程图;
图4为本发明实施例四提供的一种文本聚类的装置的结构示意图;
图5为本发明实施例五提供的一种服务器的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种文本聚类的方法的流程图,本实施例可适用于对任一文本集进行聚类的情况,本实施例提供的一种文本聚类的方法可以由本发明实施例提供的一种文本聚类的装置来执行,该装置可以通过软件和/或硬件的方式实现,并集成在执行本方法的服务器中。
具体的,参考图1,该方法具体包括如下步骤:
S110,基于待聚类文本库内每一待聚类文本中的关键词数量对所述待聚类文本库的反向聚类影响,以及所述待聚类文本库中的每一关键词在所述待聚类文本库中包含该关键词的文本数量对所述待聚类文本库的正向聚类影响,计算每一关键词在该待聚类文本中的参考权重。
其中,待聚类文本库可以为包含大量文本信息的文本集合,当需要从大量文本信息中检索出目标文本时,通常会预先对全部文本进行聚类,便于后续仅通过在某个特定主题下的文本聚类集合中检索目标文本即可,极大降低了文本检索的难度。此时,由于待聚类文本库内的各个待聚类文本可能属于不同的内容主题下,使得不同待聚类文本中能够代表该待聚类文本的实际内容的关键词也各不相同,因此本实施例中待聚类文本库中的关键词可以是由该待聚类文本库内的每一待聚类文本下实际包含的多个关键字统一组成,此时待聚类文本库内的某个关键词也可能不存在于某个待聚类文本中。
因此,待聚类文本库内每一待聚类文本中的关键词数量可以为该待聚类文本中实际包含的全部关键词的数量,此时不同待聚类文本中的关键词数量各不相同。由于每一个待聚类文本中所包含的全部关键词的数量越多,而不同关键词代表不同的内容特征,那么通过该待聚类文本中实际包含的各个关键词无法准确的推断出该待聚类文本所属的内容主题,也就是通过该待聚类文本中实际包含的各个关键词无法在大量文本中准确检索出该待聚类文本,使得该待聚类文本中实际包含的各个关键词对该待聚类文本的重要性较低,使得待聚类文本库内的每一关键词在该待聚类文本中的参考权重也相应减小,因此,待聚类文本库内每一待聚类文本中的关键词数量对待聚类文本库的文本聚合过程呈现反向聚类影响。
同时,由于本实施例中待聚类文本库中的各个关键词是由该待聚类文本库内的每一待聚类文本下实际包含的多个关键字统一组成,此时待聚类文本库内的某个关键词也可能不存在于某个待聚类文本中,因此针对待聚类文本库中的每一关键词,在待聚类文本库中包含该关键词的文本数量可以为在待聚类文本库中,实际包含该关键词的全部待聚类文本的数量。当待聚类文本库内包含某个关键词的文本数量越多时,说明该关键词能够大致代表待聚类文本库的主要信息,进而能够为该待聚类文本库提供一个统一的权重参考标准,后续根据该待聚类文本库中各个待聚类文本实际包含的关键词情况,来具体调整该参考标准,此时待聚类文本库内包含某个关键词的文本数量越多时,该关键词在该待聚类文本库内各个待聚类文本中的参考权重也就较大,因此,待聚类文本库中的每一关键词在待聚类文本库中包含该关键词的文本数量对待聚类文本库的文本聚合过程呈现正向聚类影响。
具体的,基于待聚类文本库内每一待聚类文本中的关键词数量以及待聚类文本库中的每一关键词在待聚类文本库中包含该关键词的文本数量对待聚类文本库的不同的聚类影响,首先计算待聚类文本库内每一待聚类文本中的关键词数量对待聚类文本库的文本聚合过程的反向聚类影响值和待聚类文本库中的每一关键词在待聚类文本库中包含该关键词的文本数量对待聚类文本库的文本聚合过程的正向聚类影响值,然后根据反向聚类影响值和正向聚类影响值可以计算出每一关键词在该待聚类文本中的参考权重。该参考权重是衡量每一关键词在该待聚类文本中重要性的主要因素,得到参考权重后,便于后续对该参考权重进行调节,从而得到每一关键词在该待聚类文本中达到最优聚类时的实际权重。
S120,通过所述待聚类文本库中的每一关键词在该待聚类文本中的词频和在所述待聚类文本库中的逆文本频次,以及该待聚类文本中的最大词频,调节每一关键词在该待聚类文本中的参考权重,得到每一关键词在该待聚类文本中达到最优聚类时的实际权重。
其中,待聚类文本库中的每一关键词在该待聚类文本中的词频可以为每一关键词在该待聚类文本中出现的频率,例如某关键词在某篇文档中的词频就是该文档中该关键词出现的次数/该文档中所有关键词出现的次数总和。如果一个关键词在该待聚类文本中的词频越大,说明这个关键词越重要,则这个关键词更能表征该待聚类文本的特征。由于一个关键词出现在许多文本时,在待聚类文本库中无法通过该关键词来区分不同的待聚类文本,因此会将该关键词的权重设置的较低,本实施例中可以通过每一关键词在待聚类文本库中的逆文本频次来对应设置该关键词的权重,此时待聚类文本库中的逆文本频次,可以由总文本数目除以包含该关键词的文本的数目,再将得到的商取对数得到。也就是说如果包含某关键词的文本越少,待聚类文本库中的逆文本频次越大,则说明该关键词具有很好的类别区分能力。该待聚类文本中的最大词频在分配一个更好的关键词权重时起着重要的作用,通常待聚类文本中的最大词频是具有最大词频的这个关键词在该待聚类文本中出现的次数最多,,如果待聚类文本中都有某一关键词并且该关键词的频率很高时,该关键词对待聚类文本库的文本聚类过程所起的作用就很小了。
具体的,通过待聚类文本库中的每一关键词在该待聚类文本中的词频和在待聚类文本库中的逆文本频次,以及该待聚类文本中的最大词频这三个因素对待聚类文本库进行聚类的不同影响,可以对每一关键词在该待聚类文本中的参考权重进行调节,从而得到每一关键词在该待聚类文本中达到最优聚类时的实际权重。例如,待聚类文本库中的某一关键词在该待聚类文本中的词频较大,就把对应的参考权重调大;如果在待聚类文本库中的逆文本频次较大,就把对应的参考权重调大;如果某篇文本中的最大词频较大,就把对应的参考权重调小。每一关键词在该待聚类文本中达到最优聚类时的实际权重,也就是说该关键词的实际权重能够使得文本聚类的结果变得最优,便于后续根据文本聚类的结果进行文本的检索,降低文本检索难度。
示例性的,可以用下面这个公式对每一关键词在该待聚类文本中达到最优聚类时的实际权重的计算过程进行说明。
其中,LFWi,j是关键词j在待聚类文本i中的实际权重值,tf(i,j)是关键词j在待聚类文本i中的词频,df(j)是在待聚类文本库中包含关键词j的待聚类文本的数量,ai是待聚类文本i中的关键词数量,maxtf(i)是待聚类文本i中的最大词频,n是待聚类文本库中所有待聚类文本的数量。
S130,采用每一关键词在各个待聚类文本中的实际权重,对所述待聚类文本库内的待聚类文本进行聚类,得到对应的文本聚类结果。
具体的,在得到每一关键词在各个待聚类文本中的实际权重后,根据每一关键词在各个待聚类文本中的实际权重,生成所述待聚类文本的权重向量;在所述待聚类文本库内,根据不同待聚类文本的权重向量计算对应的文本相似度,并根据不同待聚类文本之间的文本相似度对待聚类文本进行聚类,得到对应的文本聚类结果。
可选的,得到每一关键词在各个待聚类文本中的实际权重后,需要进一步转换成权重向量。先将所有待聚类文本中的关键词构建成一个关键词列表,然后对待聚类文本中的各个待聚类文本构建权重向量,权重向量的维度与关键词列表的维度相同,权重向量的值是关键词列表中每个关键词在每个文本中的实际权重值。
示例性的,当构建好待聚类文本的权重向量之后,可以利用欧氏距离计算不同待聚类文本的文本相似度,也可以根据待聚类文本的权重向量中两个权重向量夹角的余弦值作为衡量两个待聚类文本差异的大小。
具体的,本实施例按照不同待聚类文本之间的文本相似度,将全部待聚类文本区分为不同主题下的文本聚类集合,同一主题下的文本聚类集合的文本间的文本相似度高,不同主题下的文本聚类集合的文本间的文本相似度低。后续仅需要在某个特定主题下的文本聚类集合中检索目标文本即可,极大降低了文本检索难度。
本实施例提供的技术方案,首先根据待聚类文本库内每一待聚类文本中的关键词数量和待聚类文本库中的每一关键词在待聚类文本库中包含该关键词的文本数量对待聚类文本库的不同聚类影响,计算每一关键词在该待聚类文本中的参考权重,接着通过待聚类文本库中的每一关键词在该待聚类文本中的词频和在待聚类文本库中的逆文本频次,以及该待聚类文本中的最大词频,调节每一关键词在该待聚类文本中的参考权重,得到每一关键词在该待聚类文本中达到最优聚类时的实际权重,使得每一关键词在各个待聚类文本中的实际权重能够准确的表示待聚类文本库中每一关键词在该待聚类文本中的重要性,最后采用每一关键词在各个待聚类文本中的实际权重,对待聚类文本库内的待聚类文本进行聚类,得到对应的文本聚类结果,从而解决了现有的TF-IDF算法无法准确的计算待聚类文本库内各个待聚类文本的关键词权重的问题,提高了文本聚类的准确性。
实施例二
图2为本发明实施例二提供的一种文本聚类的方法的流程图,本发明实施例是在上述实施例的基础上进行优化。可选的,本实施例对待聚类文本库的关键词确定过程和待聚类文本进行聚类的过程进行详细的解释说明。
具体的,参见图2,本实施例的方法具体可以包括:
S210,提取所述待聚类文本库内每一待聚类文本中的子关键词,并对各个待聚类文本中的子关键词进行去重组合,得到所述待聚类文本库的关键词。
其中,待聚类文本库内每一待聚类文本中的子关键词可以为在每一待聚类文本中能够表示该待聚类文本的主要特征的词语。
具体的,由于待聚类文本库内每一待聚类文本中提取到的子关键词可能会有重复的情况,例如多篇待聚类文本中可能都提取到了某一个子关键词,那么这个子关键词就重复了,因此要对各个待聚类文本中的子关键词进行去除重复的子关键词的操作,最终组合得到的关键词才是能表征整个待聚类文本库特征的关键词。
可选的,本实施例中提取所述待聚类文本库内每一待聚类文本中的子关键词,可以具体包括:对所述待聚类文本库内每一待聚类文本进行分词,得到每一待聚类文本的分词序列;对每一待聚类文本的分词序列进行停用词消除和词形还原,得到该待聚类文本中的子关键词。
具体的,要对文本聚类,首先要对待聚类文本做分词处理,也就是说将一篇待聚类长文本划分为若干个词语。示例性的,为了提高分词的准确率,可以考虑英文字母大小写的影响,为此将英文字母统一转换为大写。在对待聚类文本做分词处理后,得到了每一待聚类文本的分词序列,分词序列就是将一篇待聚类长文本划分为若干个词语后这些词语组合在一起,就得到了分词序列。由于通用词语以及标点符号等会对分词的结果造成影响,所以将这些通用词语以及标点符号作为停用词,将其从分词序列中消除掉,可以得到有效的词语组合。由于词形还原主要是采用“转变”的方法,将词语转变为其原形,例如将“drove”处理为“drive”,将“driving”处理为“drive”,词形还原需要对词形进行分析,不仅要进行词缀的转化,还要进行词性识别,区分相同词形但原形不同的词的差别,通过对分词序列进行词形还原,可以得到更为准确的待聚类文本中的子关键词,从而更为准确的对待聚类文本进行分析和表达。
S220,基于待聚类文本库内每一待聚类文本中的关键词数量对所述待聚类文本库的反向聚类影响,以及所述待聚类文本库中的每一关键词在所述待聚类文本库中包含该关键词的文本数量对所述待聚类文本库的正向聚类影响,计算每一关键词在该待聚类文本中的参考权重。
S230,通过所述待聚类文本库中的每一关键词在该待聚类文本中的词频和在所述待聚类文本库中的逆文本频次,以及该待聚类文本中的最大词频,调节每一关键词在该待聚类文本中的参考权重,得到每一关键词在该待聚类文本中达到最优聚类时的实际权重。
S240,将每一关键词在各个待聚类文本中的实际权重作为预设聚类算法的聚类参数,采用所述预设聚类算法对所述待聚类文本库内的待聚类文本进行聚类,得到对应的文本聚类结果。
具体的,在得到每一关键词在该待聚类文本中达到最优聚类时的实际权重后,将每一关键词在各个待聚类文本中的实际权重作为预设聚类算法的聚类参数,通过运行预设的聚类算法,最终可以将待聚类文本划分为多个类或簇,使得在同一个簇中的文本内容具有较高的相似度,而不同簇中的文本内容差别较大,后续仅需要在某个特定主题下的文本聚类集合中检索目标文本即可,极大降低了文本检索难度。
示例性的,可以通过将改进后的磷虾群算法和k均值k-means算法相结合的算法作为预设聚类算法,首先磷虾群算法结构简单、需要控制的参数少和收敛速度快,但是随着迭代次数的不断增加,所有磷虾个体都朝同一方向运动,使得磷虾群趋同性变得严重,而k-means算法易受初始聚类中心选择的影响,因此首先对磷虾群算法进行改进,改善磷虾群算法的性能,再用改进后的磷虾群算法优化k-means算法的聚类中心,降低初始聚类中心的影响,避免陷入局部最优,提升算法的稳定性。
对磷虾群算法进行改进包括以下步骤:
1)混沌初始化,利用混沌映射生成新的混沌序列;
2)动态分群,首先定义适应度值劣于当前磷虾群的平均适应度值的为劣势磷虾群,适应度值优于当前磷虾群的平均适应度值的为优势磷虾群,适应度值劣于劣势磷虾群的平均适应度值的为退化磷虾,适应度值在劣势磷虾群的平均适应度值和优势磷虾群的平均适应度值之间的为常规磷虾,适应度值优于优势磷虾群的平均适应度值的为精英磷虾;然后依据磷虾群个体适应度值将每次迭代的种群分为退化磷虾、常规磷虾和精英磷虾,;
3)精英引领与随机变异,首先在迭代过程中引入精英引领机制:在更新当前磷虾个体位置前,对比各磷虾个体的适应度值,取适应度最优的磷虾个体为精英并记录,在迭代更新当前磷虾个体位置后,再将当前磷虾个体与精英对比,选择适应度更优的作为新的精英并记录;其次,对磷虾本身的随机扩散运动添加一种随机变异因子进行改进。
改进后的磷虾群算法和k-means算法相结合的算法的步骤如下所示:
1)规定聚类数的取值范围,令初始聚类数k为2;
2)根据当前聚类数对样本数据进行混沌初始化,再计算聚类目标函数,获得并记录当前最优解;
3)循环迭代改进磷虾群算法的三个运动,循环迭代结束得到本次操作的最优聚类结果;
4)令k=k+1,当
时,跳转执行步骤2),否则,执行步骤5);
5)按照聚类综合有效性评价函数计算最佳聚类数,然后获得对应的聚类结果。
需要说明的是:在步骤2)中计算目标函数即为计算各样本数据与各聚类中心的距离,根据欧氏距离最小准则把各样本数据划分入相应的聚类;在步骤4)中,m是待聚类文本的总文本个数。
本实施例提供的技术方案,首先提取所述待聚类文本库内每一待聚类文本中的子关键词,并对各个待聚类文本中的子关键词进行去重组合,得到所述待聚类文本库的关键词,接着基于待聚类文本库内每一待聚类文本中的关键词数量和待聚类文本库中的每一关键词在待聚类文本库中包含该关键词的文本数量对待聚类文本库的不同聚类影响,计算每一关键词在该待聚类文本中的参考权重,然后通过所述待聚类文本库中的每一关键词在该待聚类文本中的词频和在所述待聚类文本库中的逆文本频次,以及该待聚类文本中的最大词频,调节每一关键词在该待聚类文本中的参考权重,得到每一关键词在该待聚类文本中达到最优聚类时的实际权重,使得每一关键词在各个待聚类文本中的实际权重能够准确的表示待聚类文本库中每一关键词在该待聚类文本中的重要性,最后将每一关键词在各个待聚类文本中的实际权重作为预设聚类算法的聚类参数,采用所述预设聚类算法对所述待聚类文本库内的待聚类文本进行聚类,得到对应的文本聚类结果,从而解决了现有的TF-IDF算法无法准确的计算待聚类文本库内各个待聚类文本的关键词权重的问题,提高了文本聚类的准确性。
实施例三
图3为本发明实施例三提供的一种文本聚类的方法的流程图,本发明实施例是在上述实施例的基础上进行优化。可选的,本实施例对降维关键词提取过程进行详细的解释说明。
具体的,参见图3,本实施例的方法具体可以包括:
S310,基于待聚类文本库内每一待聚类文本中的关键词数量对所述待聚类文本库的反向聚类影响,以及所述待聚类文本库中的每一关键词在所述待聚类文本库中包含该关键词的文本数量对所述待聚类文本库的正向聚类影响,计算每一关键词在该待聚类文本中的参考权重。
S320,通过所述待聚类文本库中的每一关键词在该待聚类文本中的词频和在所述待聚类文本库中的逆文本频次,以及该待聚类文本中的最大词频,调节每一关键词在该待聚类文本中的参考权重,得到每一关键词在该待聚类文本中达到最优聚类时的实际权重。
S330,根据每一关键词在该待聚类文本中达到最优聚类时的实际权重,提取出符合预设降维指标的降维关键词。
可选的,在得到每一关键词在该待聚类文本中达到最优聚类时的实际权重后,由于此时根据实际权重得到的权重向量的维度较高,计算量较大,相应的计算时间也会增加。而提取出符合预设降维指标的降维关键词可以为从得到的关键词中剔除不符合预设降维指标的关键词,保留符合预设降维指标的关键词,从而创建出一个维数少且包含更多待聚类文本的特征的新子集。
示例性的,可以通过自适应遗传算法、和声搜索和粒子群优化算法来进行降维关键词提取。例如:对某一关键次在各个待聚类文本中的实际权重求取平均权重值,当该平均权重值大于预设降维指标时,说明该关键词比较重要,保留该符合预设降维指标的关键词;当该平均权重值小于预设降维指标时,说明该关键词重要性低,除去该不符合预设降维指标的关键词。其中预设降维指标可以为人为设定的目标权重值,也可以为根据经验设定的权重值。
S340,采用每一降维关键词在各个待聚类文本中的实际权重,对所述待聚类文本库内的待聚类文本进行聚类,得到对应的文本聚类结果。
相应的,当提取出符合预设降维指标的降维关键词后,采用每一降维关键词在各个待聚类文本中的实际权重,对所述待聚类文本库内的待聚类文本进行聚类,得到对应的文本聚类结果。这样做可以减少计算量,提高得到对应的文本聚类结果的效率。
本实施例提供的技术方案,首先根据待聚类文本库内每一待聚类文本中的关键词数量和待聚类文本库中的每一关键词在待聚类文本库中包含该关键词的文本数量对待聚类文本库的不同聚类影响,计算每一关键词在该待聚类文本中的参考权重,接着通过待聚类文本库中的每一关键词在该待聚类文本中的词频和在待聚类文本库中的逆文本频次,以及该待聚类文本中的最大词频,调节每一关键词在该待聚类文本中的参考权重,得到每一关键词在该待聚类文本中达到最优聚类时的实际权重,使得每一关键词在各个待聚类文本中的实际权重能够准确的表示待聚类文本库中每一关键词在该待聚类文本中的重要性,然后根据每一关键词在该待聚类文本中达到最优聚类时的实际权重,提取出符合预设降维指标的降维关键词,最后采用每一降维关键词在各个待聚类文本中的能准确的表示每一关键词在待聚类文本库中的重要性的实际权重,对所述待聚类文本库内的待聚类文本进行聚类,得到对应的文本聚类结果,从而解决了现有的TF-IDF算法无法准确的计算待聚类文本库内各个待聚类文本的关键词权重的问题,提高了文本聚类的准确性。
实施例四
图4为本发明实施例四提供的一种文本聚类的装置的结构示意图,如图4所示,该装置可以包括:
参考权重计算模块410,用于基于待聚类文本库内每一待聚类文本中的关键词数量对所述待聚类文本库的反向聚类影响,以及所述待聚类文本库中的每一关键词在所述待聚类文本库中包含该关键词的文本数量对所述待聚类文本库的正向聚类影响,计算每一关键词在该待聚类文本中的参考权重;
实际权重确定模块420,用于通过所述待聚类文本库中的每一关键词在该待聚类文本中的词频和在所述待聚类文本库中的逆文本频次,以及该待聚类文本中的最大词频,调节每一关键词在该待聚类文本中的参考权重,得到每一关键词在该待聚类文本中达到最优聚类时的实际权重;
文本聚类模块430,用于采用每一关键词在各个待聚类文本中的实际权重,对所述待聚类文本库内的待聚类文本进行聚类,得到对应的文本聚类结果。
本实施例提供的技术方案,首先基于待聚类文本库内每一待聚类文本中的关键词数量对待聚类文本库的反向聚类影响和待聚类文本库中的每一关键词在待聚类文本库中包含该关键词的文本数量对待聚类文本库的正向聚类影响,计算每一关键词在该待聚类文本中的参考权重,接着通过待聚类文本库中的每一关键词在该待聚类文本中的词频和在待聚类文本库中的逆文本频次,以及该待聚类文本中的最大词频,调节每一关键词在该待聚类文本中的参考权重,得到每一关键词在该待聚类文本中达到最优聚类时的实际权重,使得每一关键词在各个待聚类文本中的实际权重能够准确的表示待聚类文本库中每一关键词在该待聚类文本中的重要性,最后采用每一关键词在各个待聚类文本中的实际权重,对待聚类文本库内的待聚类文本进行聚类,得到对应的文本聚类结果,从而解决了现有的TF-IDF算法无法准确的计算待聚类文本库内各个待聚类文本的关键词权重的问题,提高了文本聚类的准确性。
进一步的,上述文本聚类模块430,可以具体用于:
根据每一关键词在各个待聚类文本中的实际权重,生成所述待聚类文本的权重向量;
在所述待聚类文本库内,根据不同待聚类文本的权重向量计算对应的文本相似度,并根据不同待聚类文本之间的文本相似度对待聚类文本进行聚类,得到对应的文本聚类结果。
进一步的,上述文本聚类的装置,还可以包括:
关键词确定模块,用于提取所述待聚类文本库内每一待聚类文本中的子关键词,并对各个待聚类文本中的子关键词进行去重组合,得到所述待聚类文本库的关键词。
进一步的,上述关键词确定模块,可以具体用于:
对所述待聚类文本库内每一待聚类文本进行分词,得到每一待聚类文本的分词序列;
对每一待聚类文本的分词序列进行停用词消除和词形还原,得到该待聚类文本中的子关键词。
进一步的,上述文本聚类的装置,还可以包括:
降维关键词提取模块,用于根据每一关键词在该待聚类文本中达到最优聚类时的实际权重,提取出符合预设降维指标的降维关键词;
相应的,采用每一关键词在各个待聚类文本中的实际权重,对所述待聚类文本库内的待聚类文本进行聚类,得到对应的文本聚类结果,包括:
采用每一降维关键词在各个待聚类文本中的实际权重,对所述待聚类文本库内的待聚类文本进行聚类,得到对应的文本聚类结果。
进一步的,上述文本聚类模块430,可以具体用于:
将每一关键词在各个待聚类文本中的实际权重作为预设聚类算法的聚类参数,采用所述预设聚类算法对所述待聚类文本库内的待聚类文本进行聚类,得到对应的文本聚类结果。
本实施例提供的文本聚类的装置可适用于上述任意实施例提供的文本聚类的方法,具备相应的功能和有益效果。
实施例五
图5为本发明实施例五提供的一种服务器的结构示意图,如图5所示,该服务器包括处理器510、存储装置520和通信装置530;服务器中处理器510的数量可以是一个或多个,图5中以一个处理器510为例;服务器中的处理器510、存储装置520和通信装置530可以通过总线或其他方式连接,图5中以通过总线连接为例。
存储装置520作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的文本聚类的方法对应的模块(例如,参考权重计算模块410、实际权重确定模块420和文本聚类模块430)。处理器510通过运行存储在存储装置520中的软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述的文本聚类的方法。
存储装置520可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储装置520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储装置520可进一步包括相对于处理器510远程设置的存储器,这些远程存储器可以通过网络连接至服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
通信装置530,用于实现服务器之间的网络连接或者移动数据连接。
本实施例提供的一种服务器可用于执行上述任意实施例提供的文本聚类的方法,具备相应的功能和有益效果。
实施例六
本发明实施例六还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种文本聚类的方法,该方法包括:
基于待聚类文本库内每一待聚类文本中的关键词数量对所述待聚类文本库的反向聚类影响,以及所述待聚类文本库中的每一关键词在所述待聚类文本库中包含该关键词的文本数量对所述待聚类文本库的正向聚类影响,计算每一关键词在该待聚类文本中的参考权重;
通过所述待聚类文本库中的每一关键词在该待聚类文本中的词频和在所述待聚类文本库中的逆文本频次,以及该待聚类文本中的最大词频,调节每一关键词在该待聚类文本中的参考权重,得到每一关键词在该待聚类文本中达到最优聚类时的实际权重;
采用每一关键词在各个待聚类文本中的实际权重,对所述待聚类文本库内的待聚类文本进行聚类,得到对应的文本聚类结果。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的文本聚类的方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述文本聚类的装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。