CN106339495A

CN106339495A - 一种基于层次增量聚类的话题检测方法及系统

Info

Publication number: CN106339495A
Application number: CN201610797846.1A
Authority: CN
Inventors: 李本栋; 吴文杰
Original assignee: Guangzhou Chile Mdt Infotech Ltd
Current assignee: Guangzhou Chile Mdt Infotech Ltd
Priority date: 2016-08-31
Filing date: 2016-08-31
Publication date: 2017-01-18

Abstract

本发明公开了一种基于层次增量聚类的话题检测方法及系统，属于自然语言处理领域，该方法首先通过分词器对文本信息进行分词，然后将分词根据切分顺序组成词序列，通过词语的词频—反转文件频率和哈希整数值构建文本词向量，然后计算文本词向量与每个类中心向量的相似度，通过比较相似度与预设的归类阀值，确定文本信息的归类，最后根据预设时间周期性的对每个类别的类中心向量进行聚类计算。本发明通过高阈值的增量聚类获得文本的共性特征，提高了话题聚类的精度，同时降低了程序的时间复杂度。

Description

一种基于层次增量聚类的话题检测方法及系统

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种基于层次增量聚类的话题检测方法及系统。

背景技术

随着互联网进行了web 2.0时代，以微博、博客等为主体的社交网络的兴起带来了大量的非正式的文本，截止2015年10月为止，微博的月活跃人数已经达到了2.12亿人，发送的推文数以亿记。微博已经成为中文互联网世界里产生数据最多的平台，如何通过如此庞大数量的数据来获知人们目前正在关注的话题，是当前研究的重点。

在现有技术中，使用基于聚类的话题检测技术是解决该问题的常用解决方案，但是由于新增文本信息数据量巨大，且文本信息中存在较多的表情和非规范化的语言，传统的聚类方法在面对大量网络符号和网络词汇时，会极大降低话题检测的准确率。

发明内容

有鉴于此，本发明提供一种基于层次增量聚类的话题检测方法及系统，本发明通过高阈值的增量聚类获得文本的共性特征，提高了话题聚类的精度，同时降低了程序的时间复杂度。

本发明通过以下技术手段解决上述问题：

一种基于层次增量聚类的话题检测方法，包括以下步骤：

获取文本信息，并采用分词器将所述文本信息划分为至少一个词语；将每个所述词语根据切分顺序组成词序列；分别确定每个所述词语的词频—反转文件频率和哈希整数值；根据每个词语的所述词频—反转文件频率和哈希整数值构建文本词向量；确定是否预先存储有类别的类中心向量；在确定预先存储有类别的类中心向量时，计算所述文本词向量与每个类中心向量的相似度；将每个所述相似度与预设的归类阈值进行比较，若确定存在有大于所述归类阈值的相似度时，则将大于所述归类阈值的相似度对应的类别确定为候选类集；确定出所述候选类集中最大相似度对应的类别，并将所述文本信息归类为所述最大相似度对应的类别中。

进一步，若确定每个所述相似度均小于等于所述归类阈值，则将所述文本信息确定为新增类别。

进一步，在确定没有预先存储的类中心向量时，将所述文本信息确定为新增类别。

进一步，所述采用分词器将所述文本信息划分为至少一个词语包括：

所述分词器采用正向最大匹配法将所述文本信息划分为至少一个词语。

进一步，所述确定所述词序列中每个所述词语的词频—反转文件频率包括：根据公式确定所述词序列中每个词语的词频，其中，tf_i为第i个词语的词频，n_i为第i个词语在所述文本信息中出现的次数，∑_kn_k为文本信息中所有词语出现次数的总和，i为正整数，k为正整数；确定第i个词语是否在系统语料库中；在确定第i个词语在系统语料库中时，根据公式确定所述词序列中每个词语的反转文件频率，其中，idf_i为第i个词语的反转文件频率，d为所述文本信息，t_i为所述词序列中的第i个词语；在确定第i个词语不在系统语料库中时，根据公式确定所述词序列中每个词语的反转文件频率；根据公式tf_idf_i＝idf_i×tf_i确定所述词序列中每个词语的词频—反转文件频率，其中，tf_idf_i为第i个词语的词频—反转文件频率。

进一步，所述根据每个词语的所述词频—反转文件频率和哈希整数值构建文本词向量包括：根据公式构建文本词向量，其中，为所述文本词向量，h_i为第i个词语的哈希整数值。

进一步，所述计算所述文本词向量与每个类中心向量的相似度包括：根据公式计算所述文本词向量与每个类中心向量的相似度，其中，S为文本词向量与每个类中心向量的相似度，为所述类中心向量，为所述文本词向量的模，||C||为所述类中心向量的模。

进一步，在所述确定出所述候选类集中最大相似度对应的类别，并将所述文本信息归类为所述最大相似度对应的类别中之后，还包括：根据公式更新所述最大相似度对应的类别的类中心向量，其中，m为所述类中心向量被更新的次数，为第j个类中心向量，为更新后的第j个类中心向量。

进一步，在所述根据公式更新所述最大相似度对应的类别的类中心向量之后，还包括：根据预设时间周期性的对每个所述类别的类中心向量进行聚类计算。

本发明的一种基于层次增量聚类的话题检测方法具有以下有益效果：

本发明提供了一种基于层次增量聚类的话题检测方法，首先通过分词器对文本信息进行分词，然后将分词根据预设顺序组成词序列，通过词语的词频—反转文件频率和哈希整数值构建文本词向量，同时计算文本词向量与每个类中心向量的相似度，通过比较相似度与预设的归类阀值，确定文本信息的归类，最后根据预设时间周期性的对每个所述类别的类中心向量进行聚类计算；综上所示，本发明通过高阈值的增量聚类获得文本的共性特征，提高了话题聚类的精度，同时降低了程序的时间复杂度。

一种基于层次增量聚类的话题检测系统，包括：获取单元，用于获取文本信息，并采用分词器将所述文本信息划分为至少一个词语；处理单元，用于将每个所述词语根据切分顺序组成词序列；确定单元，用于分别确定所述词序列中每个所述词语的词频—反转文件频率和哈希整数值；所述处理单元，还用于根据每个词语的所述词频—反转文件频率和哈希整数值构建文本词向量；所述确定单元，还用于确定是否预先存储有类别的类中心向量；所述处理单元，还用于在所述确定单元确定预先存储有类别的类中心向量时，计算所述文本词向量与每个类中心向量的相似度；所述确定单元，还用于将每个所述相似度与预设的归类阈值进行比较，若确定存在有大于所述归类阈值的相似度时，则将大于所述归类阈值的相似度对应的类别确定为候选类集；所述确定单元，还用于确定出所述候选类集中最大相似度对应的类别，并将所述文本信息归类为所述最大相似度对应的类别中。

本发明的一种基于层次增量聚类的话题检测系统具有以下有益效果：

本发明提供了一种基于层次增量聚类的话题检测系统，首先通过分词器对文本信息进行分词，然后将分词根据预设顺序组成词序列，通过词语的词频—反转文件频率和哈希整数值构建文本词向量，同时计算文本词向量与每个类中心向量的相似度，通过比较相似度与预设的归类阀值，确定文本信息的归类，最后根据预设时间周期性的对每个所述类别的类中心向量进行聚类计算；综上所示，本发明通过高阈值的增量聚类获得文本的共性特征，提高了话题聚类的精度，同时降低了程序的时间复杂度。

附图说明

图1是本发明提供的一种基于层次增量聚类的话题检测方法的流程示意图；

图2是本发明提供的一种基于层次增量聚类的话题检测系统的功能示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，是本发明提供的一种基于层次增量聚类的话题检测方法的流程示意图，具体包括以下步骤：

S1：获取文本信息，并采用分词器将所述文本信息划分为至少一个词语。

具体的，分词器采用正向最大匹配法将所述文本信息划分为至少一个词语。

需要说明的是，本发明还也可以采用逆向最大匹配算法、双向匹配算法等最大匹配算法，将文本信息划分为至少一个词语，对此不做限制。

示例性的，假设获取到的文本信息为“生活就像海洋只有意志坚定的人才能到达彼岸”，那么采用正向最大匹配法可将“生活就像海洋只有意志坚定的人才能到达彼岸”按照文本中出现的顺序划分为五个词语，分别为生活，海洋，意志坚定，到达，彼岸。

S2：将每个所述词语根据切分顺序组成词序列。

示例性的，将上述示例中的五个词语根据切分顺序组成的词序列为：{生活,海洋,意志坚定,到达,彼岸}。

S3：分别确定每个所述词语的词频—反转文件频率和哈希整数值。

具体的，首先根据公式确定所述词序列中词语的词频。

其中，tf_i为第i个词语的词频，n_i为第i个词语在所述文本信息中出现的次数，∑_kn_k为文本信息中所有词语出现次数的总和，i、n_i和n_k均为正整数。

其次，确定第i个词语是否在系统语料库，在确定第i个词语在系统语料库时，根据公式确定所述词序列中词语的反转文件频率。

其中，idf_i为第i个词语的反转文件频率，d为所述文本信息，t_i为所述词序列中第i个词语，|{j:t_i∈d}|为系统语料库中包含第i个词语的文件数量，|D|为系统语料库中文件的总数量，|D|和|{j:t_i∈d}|为正整数。

在确定第i个词语不在系统语料库时，根据公式确定所述词序列中词语的反转文件频率。

需要说明的是，公式是使用拉普拉斯平滑处理方法，在第i个词语不在语料库时，避免分母为0的情况。

再次，根据公式tf_idf_i＝idf_i×tf_i确定所述词序列中词语的词频—反转文件频率。

其中，tf_idf_i为第i个词语的词频—反转文件频率。

以上述词序列{生活,海洋,意志坚强,到达,彼岸}为例，计算出的具体数值如表1所示：

表1

S4：根据每个词语的所述词频—反转文件频率和哈希整数值构建文本词向量。

具体的，根据公式构建文本词向量。

其中，为所述文本词向量，h_i为第i个词语的哈希整数值。

示例性的，由表1可知当哈希整数值为1时，词频—反转文件频率为0.00015；当哈希整数值为1时，词频—反转文件频率为0.00015；当哈希整数值为2时，词频—反转文件频率为0.00062；当哈希整数值为3时，词频—反转文件频率为0.0012；当哈希整数值为4时，词频—反转文件频率为0.00046；当哈希整数值为5时，词频—反转文件频率为0.00069，得出举例文本信息的文本词向量为：

\overset{&RightArrow;}{V} = {(1 : 0.00015), (2 : 0.00062), (3 : 0.0012), (4 : 0.00046), (5 : 0.00069)}

S5：确定是否预先存储有类别的类中心向量。

需要说明的是，根据确定是否预先存储有类别的类中心向量的结果不同，下述执行的步骤也不同，在确定没有预先存储的类中心向量时，则执行步骤S6；在确定预先存储有类别的类中心向量时，则执行步骤S7-S13。

S6：在确定没有预先存储的类中心向量时，将所述文本信息确定为新增类别。

具体的，将输入的第一个文本信息确定为新增类别，设置新增类别的类编号为1，并将文本词向量设置为新增类别的类中心向量，。

S7：在确定预先存储有类别的类中心向量时，计算所述文本词向量与每个类中心向量的相似度。

具体的，采用公式计算所述文本词向量与每个类中心向量的相似度。

S8：将每个所述相似度与预设的归类阈值进行比较。

其中，归类阈值为0.9。

需要说明的是，根据每个所述相似度与预设的归类阈值进行比较的结果不同，下述执行的步骤也不同，在确定每个所述相似度均小于等于所述归类阈值时，则执行步骤S9；在确定存在有大于所述归类阈值的相似度时，则执行步骤S10-S13。

S9：若确定每个所述相似度均小于等于所述归类阈值，则将所述文本信息确定为新增类别。

具体的，在确定文本信息与所有类别都不相似时，将文本信息确定为新增类别，新增类别的类中心向量为文本词向量新增类别的类编号为原最大类编号加1，示例性的，假设系统一共存储了200个类别，则系统的最大类编号为200，新增类别的类编号应设置为201。

S10：若确定存在有大于所述归类阈值的相似度时，则将大于所述归类阈值的相似度对应的类别确定为候选类集。

S11：确定出所述候选类集中最大相似度对应的类别，并将所述文本信息归类为所述最大相似度对应的类别中。

进一步的，在执行完步骤S11之后，还包括步骤S12和S13。

S12、根据公式更新所述最大相似度对应的类别的类中心向量，其中，m为所述类中心向量被更新的次数，为所述文本词向量，为原类中心向量，为更新后的类中心向量。

S13：根据预设时间周期性的对每个所述类别的类中心向量进行聚类计算。

本实施例中预设时间为7天，每隔7天时间，所有的类中心向量会进行再一次聚类，以提高聚类划分的精度。

本发明提供了一种基于层次增量聚类的话题检测方法，该方法首先通过分词器对文本信息进行分词，然后将分词根据预设顺序组成词序列，通过词语的词频—反转文件频率和哈希整数值构建文本词向量，同时计算文本词向量与每个类中心向量的相似度，通过比较相似度与预设的归类阀值，确定文本信息的归类，最后根据预设时间周期性的对每个所述类别的类中心向量进行聚类计算；综上所示，本发明使用了两层聚类模式，不仅提高了话题聚类的精度，而且降低了程序的时空复杂度；同时，构建的文本词向量为稀疏向量，使用了基于稀疏矩阵的向量相乘方法，极大降低了程序的时间复杂度。

参见图2，是本发明提供的一种基于层次增量聚类的话题检测系统的功能示意图，包括获取单元201、处理单元202和确定单元203，具体如下：

获取单元201，用于获取文本信息，并采用分词器将所述文本信息划分为至少一个词语。

处理单元202，用于将每个所述词语根据切分顺序组成词序列。

确定单元203，用于分别确定所述词序列中每个所述词语的词频—反转文件频率和哈希整数值。

所述处理单元202，还用于根据每个词语的所述词频—反转文件频率和哈希整数值构建文本词向量。

所述确定单元203，还用于确定是否预先存储有类别的类中心向量。

所述处理单元202，还用于在所述确定单元202确定预先存储有类别的类中心向量时，计算所述文本词向量与每个类中心向量的相似度。

所述确定单元203，还用于将每个所述相似度与预设的归类阈值进行比较，若确定存在有大于所述归类阈值的相似度时，则将大于所述归类阈值的相似度对应的类别确定为候选类集。

所述确定单元203，还用于确定出所述候选类集中最大相似度对应的类别，并将所述文本信息归类为所述最大相似度对应的类别中。

本发明提供了一种基于层次增量聚类的话题检测系统，首先通过分词器对文本信息进行分词，然后将分词根据预设顺序组成词序列，通过词语的词频—反转文件频率和哈希整数值构建文本词向量，同时计算文本词向量与每个类中心向量的相似度，通过比较相似度与预设的归类阀值，确定文本信息的归类，最后根据预设时间周期性的对每个所述类别的类中心向量进行聚类计算；综上所示，本发明使用了两层聚类模式，不仅提高了话题聚类的精度，而且降低了程序的时空复杂度；同时，构建的文本词向量为稀疏向量，使用了基于稀疏矩阵的向量相乘方法，极大降低了程序的时间复杂度。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于层次增量聚类的话题检测方法，其特征在于，包括以下步骤：

获取文本信息，并采用分词器将所述文本信息划分为至少一个词语；

将每个所述词语根据切分顺序组成词序列；

分别确定所述词序列中每个所述词语的词频—反转文件频率和哈希整数值；

根据每个词语的所述词频—反转文件频率和哈希整数值构建文本词向量；

确定是否预先存储有类别的类中心向量；在确定预先存储有类别的类中心向量时，计算所述文本词向量与每个类中心向量的相似度；

将每个所述相似度与预设的归类阈值进行比较，若确定存在有大于所述归类阈值的相似度时，则将大于所述归类阈值的相似度对应的类别确定为候选类集；

确定出所述候选类集中最大相似度对应的类别，并将所述文本信息归类为所述最大相似度对应的类别中。

2.如权利要求1所述的话题检测方法，其特征在于，若确定每个所述相似度均小于等于所述归类阈值，则将所述文本信息确定为新增类别。

3.如权利要求1所述的话题检测方法，其特征在于，在确定没有预先存储的类中心向量时，将所述文本信息确定为新增类别。

4.如权利要求1所述的话题检测方法，其特征在于，所述采用分词器将所述文本信息划分为至少一个词语包括：

5.如权利要求1所述的话题检测方法，其特征在于，所述确定所述词序列中每个所述词语的词频—反转文件频率包括：

根据公式确定所述词序列中每个词语的词频，其中，tf_i为第i个词语的词频，n_i为第i个词语在所述文本信息中出现的次数，∑_kn_k为文本信息中所有词语出现次数的总和，i为正整数，k为正整数；

确定第i个词语是否在系统语料库中；

在确定第i个词语在系统语料库中时，根据公式确定所述词序列中每个词语的反转文件频率，其中，idf_i为第i个词语的反转文件频率，d为所述文本信息，t_i为所述词序列中的第i个词语，|{j:t_i∈d}|为系统语料库中包含第i个词语的文件数量，|D|为系统语料库中文件的总数量；

在确定第i个词语不在系统语料库中时，根据公式确定所述词序列中每个词语的反转文件频率；

根据公式tf_idf_i＝idf_i×tf_i确定所述词序列中每个词语的词频—反转文件频率，其中，tf_idf_i为第i个词语的词频—反转文件频率。

6.如权利要求5所述的话题检测方法，其特征在于，所述根据每个词语的所述词频—反转文件频率和哈希整数值构建文本词向量包括：

根据公式构建文本词向量，其中，为所述文本词向量，h_i为第i个词语的哈希整数值。

7.如权利要求6所述的话题检测方法，其特征在于，所述计算所述文本词向量与每个类中心向量的相似度包括：

根据公式计算所述文本词向量与每个类中心向量的相似度，其中，S为文本词向量与每个类中心向量的相似度，为所述类中心向量，为所述文本词向量的模，||C||为所述类中心向量的模。

8.如权利要求7所述的话题检测方法，其特征在于，在所述确定出所述候选类集中最大相似度对应的类别，并将所述文本信息归类为所述最大相似度对应的类别中之后，还包括：

根据公式更新所述最大相似度对应的类别的类中心向量，其中，m为所述类中心向量被更新的次数，为第j个类中心向量，为更新后的第j个类中心向量。

9.如权利要求8所述的话题检测方法，其特征在于，在所述根据公式更新所述最大相似度对应的类别的类中心向量之后，还包括：

根据预设时间周期性的对每个所述类别的类中心向量进行聚类计算。

10.一种基于层次增量聚类的话题检测系统，其特征在于，包括：

获取单元，用于获取文本信息，并采用分词器将所述文本信息划分为至少一个词语；

处理单元，用于将每个所述词语根据切分顺序组成词序列；

确定单元，用于分别确定所述词序列中每个所述词语的词频—反转文件频率和哈希整数值；

所述处理单元，还用于根据每个词语的所述词频—反转文件频率和哈希整数值构建文本词向量；

所述确定单元，还用于确定是否预先存储有类别的类中心向量；

所述处理单元，还用于在所述确定单元确定预先存储有类别的类中心向量时，计算所述文本词向量与每个类中心向量的相似度；

所述确定单元，还用于将每个所述相似度与预设的归类阈值进行比较，若确定存在有大于所述归类阈值的相似度时，则将大于所述归类阈值的相似度对应的类别确定为候选类集；

所述确定单元，还用于确定出所述候选类集中最大相似度对应的类别，并将所述文本信息归类为所述最大相似度对应的类别中。