CN110941961B

CN110941961B - 一种信息聚类方法、装置、电子设备及存储介质

Info

Publication number: CN110941961B
Application number: CN201911204539.8A
Authority: CN
Inventors: 王千; 梁新敏; 陈羲
Original assignee: Miaozhen Information Technology Co Ltd
Current assignee: Miaozhen Information Technology Co Ltd
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2023-08-25
Anticipated expiration: 2039-11-29
Also published as: CN110941961A

Abstract

本申请提供了一种信息聚类方法、装置、电子设备及存储介质，其中，该方法包括：根据多个待处理文本中每一个待处理文本对应的至少一个分词，确定每一个待处理文本属于多个不同类别主题的概率；根据每一个待处理文本对应的至少一个分词特征，确定每一个待处理文本对应的文本特征；根据多个待处理文本中每两个待处理文本对应的文本特征和该两个待处理文本属于每个类别主题的概率，确定该两个待处理文本之间的相似度；根据每两个待处理文本之间的相似度以及类别主题的个数，确定对应同一类别主题的待处理文本，并将对应同一类别主题的待处理文本进行聚类。本申请基于每两个待处理文本之间的相似度，对多个待处理文本聚类，提高了聚类的准确性。

Description

一种信息聚类方法、装置、电子设备及存储介质

技术领域

本申请涉及互联网信息技术领域，具体而言，涉及一种信息聚类方法、装置、电子设备及存储介质。

背景技术

在大数据时代，通过互联网平台可以获取大量的文本，为了提高文本的处理效率，通常对获取的文本进行聚类，得到多种类别的文本，其中，同一类别的文本相似度较高，不同类别的文本相似度较低。针对同一类别的文本，可以采取相同的处理方式进行处理。

现阶段，通常基于隐含狄利克雷(Latent Dirichlet Allocation，LDA)主题模型对多个文本进行聚类。针对每一个文本，LDA主题模型将该文本中多个分词分别对应的多个类别主题进行迭代抽样处理，当类别主题收敛时，得到该文本与预设个数的类别主题的对应关系，并基于上述对应关系确定文本间的相似度，将相似度满足预设条件的文本确定为同一类别的文本。

LDA主题模型根据文本中多个分词的共现频率，确定文本与预设个数的类别主题的对应关系，当使用LDA主题模型确定短文本的类别主题时，由于短文本中分词个数较少，基于分词的共现频率确定短文本类别主题的准确性较差，进而降低短文本聚类的准确性，降低短文本聚类的效率。

发明内容

有鉴于此，本申请实施例的目的在于提供一种信息聚类方法、装置、电子设备及存储介质，基于待处理文本的文本特征和属于多个不同类别主题的概率，确定每两个待处理文本之间的相似度，并基于上述相似度对多个待处理文本进行聚类，提高了聚类的准确性，进而提高了聚类的效率。

第一方面，本申请实施例提供了一种信息聚类方法，所述信息聚类方法包括：

根据多个待处理文本中每一个待处理文本对应的至少一个分词，确定每一个待处理文本属于多个不同类别主题的概率；

根据每一个待处理文本对应的至少一个分词特征，确定每一个待处理文本对应的文本特征；

根据多个待处理文本中每两个待处理文本对应的文本特征和该两个待处理文本属于每个类别主题的概率，确定该两个待处理文本之间的相似度；

根据每两个待处理文本之间的相似度以及所述类别主题的个数，确定对应同一类别主题的所述待处理文本，并将对应同一类别主题的待处理文本进行聚类。

在一种可能的实施方式中，所述根据每一个待处理文本对应的至少一个分词特征，确定每一个待处理文本对应的文本特征，包括：

确定多个待处理文本分别对应的各个分词；

针对每一个分词，根据该分词在每一个待处理文本中的个数以及所述待处理文本的总个数，确定该分词在多个待处理文本中的第一权重；

针对每一个待处理文本，根据该分词在该待处理文本中的个数以及该分词在多个待处理文本中的第一权重，确定该分词对于该待处理文本的第二权重；

基于该待处理文本中每一个分词对应的第二权重和该分词的分词特征，确定该待处理文本的文本特征。

在一种可能的实施方式中，所述根据多个待处理文本中每两个待处理文本对应的文本特征和该两个待处理文本属于每个类别主题的概率，确定该两个待处理文本之间的相似度，包括：

根据多个待处理文本中每两个待处理文本对应的文本特征，确定该两个待处理文本之间的文本相似度；

根据该两个待处理文本属于每个类别主题的概率，确定该两个待处理文本之间的主题相似度；

根据该两个待处理文本之间的文本相似度和主题相似度以及所述文本相似度对应的第一权重值和所述主题相似度对应的第二权重值，确定该两个待处理文本之间的相似度。

在一种可能的实施方式中，通过如下方法确定所述类别主题的个数：

根据多个待处理文本中每一个待处理文本对应的至少一个分词，确定每一个待处理文本属于多个不同初始类别主题的第一概率，以及每一个分词属于多个不同初始类别主题的第二概率；

对所述第一概率和所述第二概率进行相应处理，得到与所述初始类别主题对应的主题特征值；

若所述主题特征值符合预设条件，则将该主题特征值对应的初始类别主题的个数确定为所述类别主题的个数。

在一种可能的实施方式中，所述根据该分词在每一个待处理文本中的个数以及所述待处理文本的总个数，确定该分词在多个待处理文本中的第一权重，包括：

针对每一个分词，计算该分词在每两个待处理文本中个数的差值，并计算该分词对应的多个所述差值的平方和，将所述平方和的算术平方根确定为该分词对应的频次特征值；

将所述待处理文本的总个数与预设常数的加和确定为第一基准值；

计算每一个分词对应的所述频次特征值与所述第一基准值的比值，得到该分词对应的所述第一权重。

在一种可能的实施方式中，所述根据该分词在该待处理文本中的个数以及该分词在多个待处理文本中的第一权重，确定该分词对于该待处理文本的第二权重，包括：

针对每一个待处理文本，计算该待处理文本中每一个分词的个数的平方和，将所述平方和的算术平方根确定为该待处理文本对应的第二基准值；

针对该待处理文本中的每一个分词，计算该分词在该待处理文本中的个数与所述第二基准值的比值，将所述比值与该分词对应的第一权重的乘积，确定为该分词对应的所述第二权重。

第二方面，本申请实施例提供了一种信息聚类装置，所述信息聚类装置包括：

第一确定模块，用于根据多个待处理文本中每一个待处理文本对应的至少一个分词，确定每一个待处理文本属于多个不同类别主题的概率；

第二确定模块，用于根据每一个待处理文本对应的至少一个分词特征，确定每一个待处理文本对应的文本特征；

第三确定模块，用于根据多个待处理文本中每两个待处理文本对应的文本特征和该两个待处理文本属于每个类别主题的概率，确定该两个待处理文本之间的相似度；

第四确定模块，用于根据每两个待处理文本之间的相似度以及所述类别主题的个数，确定对应同一类别主题的所述待处理文本；

聚类模块，用于将对应同一类别主题的待处理文本进行聚类。

在一种可能的实施方式中，所述第二确定模块，在根据每一个待处理文本对应的至少一个分词特征，确定每一个待处理文本对应的文本特征时，包括：

确定多个待处理文本分别对应的各个分词；

第三方面，本申请实施例提供了一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述处理器执行所述机器可读指令，以执行第一方面任一项所述的信息聚类方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行第一方面任一项所述的信息聚类方法的步骤。

本申请实施例提供的信息聚类方法、装置、电子设备及存储介质，根据待处理文本中多个分词的分词特征确定待处理文本的文本特征，根据待处理文本包括的多个分词确定待处理文本属于多个不同类别主题的概率，基于待处理文本的文本特征和属于多个不同类别主题的概率，确定每两个待处理文本之间的相似度，并基于上述相似度对多个待处理文本进行聚类，提高了聚类的准确性，进而提高了聚类的效率。

进一步，本申请实施例提供的信息聚类方法、装置、电子设备及存储介质，根据每一个待处理文本中多个分词的个数，确定该待处理文本中每一个分词的权重，根据该待处理文本中每一个分词的权重和分词特征，确定该待处理文本的文本特征，提高了确定的文本特征的准确性，进一步提高了待处理文本聚类的准确性，提高了聚类效率。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例提供的一种信息聚类方法的流程图；

图2示出了本申请实施例提供的信息聚类方法中，确定待处理文本的文本特征的方法的流程图；

图3示出了本申请实施例提供的信息聚类方法中，确定每两个待处理文本之间的相似度的方法的流程图；

图4示出了本申请实施例提供的信息聚类方法中，确定类别主题的个数的方法的流程图；

图5示出了本申请实施例提供的信息聚类方法中，确定分词第一权重的方法的流程图；

图6示出了本申请实施例提供的信息聚类方法中，确定分词第二权重的方法的流程图；

图7示出了本申请实施例提供的一种信息聚类装置的示意图；

图8示出了本申请实施例提供的一种电子设备的示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，通常使用LDA主题模型确定待处理文本与预设个数的类别主题的对应关系，并基于上述对应关系确定多个待处理文本之间的相似度，将相似度满足预设条件的待处理文本确定为同一类别的待处理文本。

但是，针对包括分词个数较少的待处理文本，存在文本语义稀疏的问题，导致LDA主题模型确定的待处理文本与预设个数的类别主题的对应关系不准确，进而降低待处理文本聚类的准确性，降低聚类的效率。

基于上述问题，本申请实施例提供了一种信息聚类方法、装置、电子设备及存储介质。基于待处理文本的文本特征和待处理文本属于多个不同类别主题的概率，确定每两个待处理文本之间的相似度，并根据相似度对多个待处理文本进行聚类，提高了聚类的准确性，进而提高了聚类的效率。

针对以上方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本申请针对上述问题所提出的解决方案，都应该是发明人在本申请过程中对本申请做出的贡献。

下面将结合本申请中附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

为便于对本实施例进行理解，首先对本申请实施例所公开的一种信息聚类方法进行详细介绍。

参见图1所示，为本申请一实施例提供的信息聚类方法的流程图，所述信息聚类方法包括以下步骤：

S101、根据多个待处理文本中每一个待处理文本对应的至少一个分词，确定每一个待处理文本属于多个不同类别主题的概率。

本申请实施例中，通过多种互联网平台获取待处理文本，并对每一个待处理文本进行分词处理，得到每一个待处理文本对应的多个分词，将多个待处理文本分别对应的多个分词输入到预先训练好的主题模型中，得到多个待处理文本分别属于多个不同类别主题的概率分布矩阵，该概率分布矩阵的每一行对应一个待处理文本，每一列对应一个类别主题，每一个元素为该行对应的待处理文本属于该列对应的类别主题的概率。

其中，上述主题模型可以为BTM主题模型(Biterm Topic Model)，BTM主题模型通过分词共现模式来加强主题模型的学习，利用整个语料库(多个待处理文本)包括的多个分词抽样类别主题，推断整个语料库全局的类别主题分布，不仅保持了分词之间的相关性，同时因为每一个待处理文本中不同分词共现模式相互独立，也可以推断任一个待处理文本对应不同类别主题的概率。BTM主题模型直接对共现分词建模作为类别主题的语义传输单元，比单个分词能更好的揭示类别主题。这里，分词共现模式为一个待处理文本中的无序共现分词对。

举例来讲，待处理文本一为：“今天天气晴朗”，将待处理文本一进行分词处理，得到“今天”、“天气”、“晴朗”三个分词，将“今天”、“天气”、“晴朗”输入到主题模型中，假定该主题模型对应topic0、topic1、topic2、topic3四个类别主题，主题模型输出待处理文本一分别属于多个类别主题的概率分布为(0.1、0.4、0.2、0.3)，即待处理文本一属于类别主题topic0、topic1、topic2、topic3的概率分别为0.1、0.4、0.2、0.3。

可选的，获取最新的中文词库、常用英文词库、网络常用语、各个领域中的专有名词，作为自定义词库，基于上述自定义词库对多个待处理文本进行分词处理，可以提高分词处理的准确性。

可选的，在将多个待处理文本进行分词处理之前，可以先对多个待处理文本进行预处理，上述预处理包括以下一种或多种处理方式：对繁体字和简体字进行字体统一、对全角字符和半角字符进行字符统一、去除特殊字符、去除昵称、统一多个互联网平台的表情特征。

S102、根据每一个待处理文本对应的至少一个分词特征，确定每一个待处理文本对应的文本特征。

本申请实施例中，针对多个待处理文本中包括的每一个分词，基于预存的分词与分词特征的映射关系，查找每一个分词对应的分词特征。具体的，预存有分词与分词向量的映射关系，查找每一个分词对应的分词向量，其中，分词向量表征对应分词的语义特征。

针对每一个待处理文本，该待处理文本中包括至少一个分词，根据每一个分词的分词特征和分词权重，确定该待处理文本的文本特征，其中，每一个分词的分词权重是根据该分词在多个待处理文本中的个数确定的。

可选的，将上述自定义词库中包括的多个分词输入到预先训练好的词向量训练模型中，得到分词向量矩阵，该分词向量矩阵中每一行对应一个分词的分词向量。优选的，将上述词向量训练模型的词向量维数参数设置为300，得到的分词向量表征的语义特征更加准确。

S103、根据多个待处理文本中每两个待处理文本对应的文本特征和该两个待处理文本属于每个类别主题的概率，确定该两个待处理文本之间的相似度。

本申请实施例中，待处理文本对应的文本特征与分词出现的次数相关，待处理文本属于每个类别主题的概率与待处理文本的潜在语义特征相关。针对每两个待处理文本，根据该两个待处理文本对应的文本特征，确定该两个待处理文本在分词层面的相似度；根据该两个待处理文本属于每个类别主题的概率，确定该两个待处理文本在潜在语义特征层面的相似度，综合待处理文本的文本特征和待处理文本属于每个类别主题的概率，在分词层面和潜在语义特征层面确定每两个待处理文本的相似度。

S104、根据每两个待处理文本之间的相似度以及所述类别主题的个数，确定对应同一类别主题的所述待处理文本，并将对应同一类别主题的待处理文本进行聚类。

本申请实施例中，根据每两个待处理文本之间的相似度，将多个待处理文本进行聚类，上述主题模型对应的类别主题的个数等于待处理文本聚类的类别数。

可选的，将每两个待处理文本之间的相似度输入到预先训练好的聚类模型中，得到多簇待处理文本，每一簇内的待处理文本相似度较高，归属于同一类别。其中，上述主题模型对应的类别主题的个数等于该聚类模型的聚类参数。

本申请实施例提供的信息聚类方法，基于待处理文本的文本特征和待处理文本属于多个不同类别主题的概率，确定每两个待处理文本之间的相似度，并根据相似度对多个待处理文本进行聚类，提高了聚类的准确性，进而提高了聚类的效率。

进一步的，如图2所示，本申请实施例提供的信息聚类方法中，所述根据每一个待处理文本对应的至少一个分词特征，确定每一个待处理文本对应的文本特征，包括：

S201、确定多个待处理文本分别对应的各个分词。

本申请实施例中，对多个待处理文本分别进行分词处理，确定每一个待处理文本包括的多个分词。

S202、针对每一个分词，根据该分词在每一个待处理文本中的个数以及所述待处理文本的总个数，确定该分词在多个待处理文本中的第一权重。

本申请实施例中，将获取的多个待处理文本统称为待处理文本语料库，待处理文本语料库中包括多个分词，每一个分词的第一权重用于衡量该分词在上述待处理文本语料库中的重要程度，第一权重越大，该分词对于该待处理文本语料库越重要。

确定每一个分词在每一个待处理文本中的个数，该分词在多个待处理文本中的个数的差别越大，该分词对应的第一权重越大。比如，该分词在多个待处理文本中的个数相同，则第一权重为零，即该分词在上述待处理文本语料库中不重要。并且，待处理文本的总个数与分词对应的第一权重成反比。

S203、针对每一个待处理文本，根据该分词在该待处理文本中的个数以及该分词在多个待处理文本中的第一权重，确定该分词对于该待处理文本的第二权重。

本申请实施例中，针对每一个待处理文本，该待处理文本中包括多个分词，每一个分词的第二权重用于衡量该分词在该待处理文本中的重要程度。每一个分词在该待处理文本中的个数越多，该分词的第二权重越大。并且，第二权重与分词对应的第一权重成正比。

S204、基于该待处理文本中每一个分词对应的第二权重和该分词的分词特征，确定该待处理文本的文本特征。

本申请实施例中，针对每一个待处理文本，将该待处理文本包括的每一个分词的分词特征与该分词对应的第二权重的乘积进行加和计算，得到该待处理文本对应的文本特征。通过如下公式对确定待处理文本的文本特征的过程进行详细说明：

其中，d为任一个待处理文本，待处理文本d中共有M个分词，μ(t,d)表示待处理文本d中的第t个分词的第二权重，w_emd为待处理文本d中的第t个分词的分词特征，repr-words-d为待处理文本d的文本特征。

进一步的，如图3所示，本申请实施例提供的信息聚类方法中，所述根据多个待处理文本中每两个待处理文本对应的文本特征和该两个待处理文本属于每个类别主题的概率，确定该两个待处理文本之间的相似度，包括：

S301、根据多个待处理文本中每两个待处理文本对应的文本特征，确定该两个待处理文本之间的文本相似度。

本申请实施例中，待处理文本对应的文本特征是一个向量，通过每两个待处理文本对应的两个向量之间的余弦相似性，计算该两个待处理文本之间的余弦相似度，即文本相似度。其中，余弦相似度为1，表示这两个待处理文本相同；余弦相似度为0，表示这两个待处理文本完全不同；余弦相似度介于0和1之间，表示这两个待处理文本中度相似，并且，余弦相似度越接近1，这两个待处理文本越相似。

通过如下公式对确定每两个待处理文本之间的文本相似度的过程进行详细说明：

dis_-words(d₁,d₂)＝cos(repr_-words-d₁,repr_-words-d₂)

其中，d₁、d₂分别表示两个互异的待处理文本，向量repr-words-d₁表示待处理文本d₁的文本特征，向量repr-words-d₂表示待处理文本d₂的文本特征，cos(repr_words_d₁,repr_words_d₂)表示向量repr_words_d₁和向量repr_words_d₂的余弦值，dis_words(d₁,d₂)表示待处理文本d₁和待处理文本d₂的文本相似度。

S302、根据该两个待处理文本属于每个类别主题的概率，确定该两个待处理文本之间的主题相似度。

本申请实施例中，将多个经过分词处理的待处理文本输入到预先训练好的主题模型中，得到多个待处理文本分别属于多种类别主题的概率分布矩阵，上述概率分布矩阵的行与待处理文本相对应，即每一个待处理文本对应一个概率分布向量，该概率分布向量内的每一个元素为该行对应的待处理文本属于某一类别主题的概率。根据每两个待处理文本对应的两个概率分布向量，确定该两个待处理文本之间的主题相似度，计算上述两个概率分布向量的JS(Jensen-Shannon)距离，JS距离为0，表示这两个待处理文本相同；JS距离为1，表示这两个待处理文本完全不同；JS距离介于0和1之间，表示这两个待处理文本中度相似，并且，JS距离越接近0，这两个待处理文本越相似。

通过如下公式对确定每两个待处理文本之间的主题相似度的过程进行详细说明：

其中，k₁表示待处理文本一d₁对应的概率分布向量，k₂表示待处理文本二d₂对应的概率分布向量，dis_topics(d₁,d₂)为概率分布向量k₁和概率分布向量k₂的JS距离，也即待处理文本一d₁和待处理文本二d₂之间的主题相似度。

S303、根据该两个待处理文本之间的文本相似度和主题相似度以及所述文本相似度对应的第一权重值和所述主题相似度对应的第二权重值，确定该两个待处理文本之间的相似度。

本申请实施例中，每两个待处理文本之间的相似度，由该两个待处理文本之间的文本相似度和主题相似度共同确定。使用随机森林算法对待处理文本的文本相似度和主题相似度的重要性进行评估，经过评估，确定文本相似度的重要性为0.67，主题相似度的重要性为0.33，即文本相似度对应的第一权重值为0.67，主题相似度对应的第二权重值为0.33。

通过如下公式对确定每两个待处理文本之间的相似度的过程进行详细说明：

sim(d₁,d₂)＝α×dis_words(d₁,d₂)+(1-α)×[1-dis_topics(d₁,d₂)]

其中，sim(d₁,d₂)为待处理文本一d₁和待处理文本二d₂之间的相似度，α为文本相似度对应的第一权重值，(1-α)为主题相似度对应的第二权重值。

进一步的，如图4所示，本申请实施例提供的信息聚类方法中，通过如下方法确定所述类别主题的个数：

S401、根据多个待处理文本中每一个待处理文本对应的至少一个分词，确定每一个待处理文本属于多个不同初始类别主题的第一概率，以及每一个分词属于多个不同初始类别主题的第二概率。

本申请实施例中，将多个经过分词处理的待处理文本输入到预先训练好的主题模型中，得到多个待处理文本分别属于多个初始类别主题的第一概率分布矩阵，和多个分词分别属于多个初始类别主题的第二概率分布矩阵。其中，第一概率分布矩阵的每一行对应一个待处理文本，每一列对应一个初始类别主题，每一个元素为该行对应的待处理文本属于该列对应的初始类别主题的第一概率；第二概率分布矩阵的每一行对应一个分词，每一列对应一个初始类别主题，每一个元素为该行对应的分词属于该列对应的初始类别主题的第二概率。

S402、对所述第一概率和所述第二概率进行相应处理，得到与所述初始类别主题对应的主题特征值。

本申请实施例中，通过如下公式对确定与所述初始类别主题对应的主题特征值的过程进行详细说明：

C_zw＝svd(Z_w)；

C_zd＝norm(L×Z_d)；

measure(C_zw,C_zd)＝D_KL(C_zw,C_zd)+D_KL(C_zd,C_zw)

其中，Z_w为多个分词分别属于多个初始类别主题的第二概率分布矩阵，Z_d为多个待处理文本分别属于多个初始类别主题的第一概率分布矩阵，L中的每一个元素为每一个待处理文本中分词的个数，C_zw为对Z_w进行奇异值分解的处理结果，C_zd为对(L×Z_d)进行向量归一化处理的处理结果，D_KL(C_zw,C_zd)为C_zw与C_zd的KL距离(Kullback-Leibler Divergence)，D_KL(C_zd,C_zw)为C_zd与C_zw的KL距离，measure(C_zw,C_zd)为与初始类别主题对应的主题特征值。不同个数的初始类别主题对应不同的主题特征值。

S403、若所述主题特征值符合预设条件，则将该主题特征值对应的初始类别主题的个数确定为所述类别主题的个数。

本申请实施例中，不同个数的初始类别主题，分别对应不同的主题特征值，预设初始类别主题个数的范围，优选的，初始类别主题个数的范围为[2，20]，基于多种个数的初始类别主题得到多个主题特征值。主题特征值越小，该主题特征值对应的初始类别主题的个数作为聚类模型的聚类参数的聚类效果越好。将最小的主题特征值对应的初始类别主题的个数确定为类别主题的个数。

进一步的，如图5所示，本申请实施例提供的信息聚类方法中，所述根据该分词在每一个待处理文本中的个数以及所述待处理文本的总个数，确定该分词在多个待处理文本中的第一权重，包括：

S501、针对每一个分词，计算该分词在每两个待处理文本中个数的差值，并计算该分词对应的多个所述差值的平方和，将所述平方和的算术平方根确定为该分词对应的频次特征值；

S502、将所述待处理文本的总个数与预设常数的加和确定为第一基准值；

S503、计算每一个分词对应的所述频次特征值与所述第一基准值的比值，得到该分词对应的所述第一权重。

本申请实施例中，通过如下公式对确定第一权重的过程进行详细说明：

其中，TF(w_d)表示在待处理文本d中分词w的个数，TF(w_d+1)表示在待处理文本d+1中分词w的个数，d与d+1是两个互异的待处理文本，N为待处理文本的总个数，τ为分词w对应的第一权重。

可选的，分词w对应的第一权重τ通常是一个很小的数值，第一权重τ过小，会影响基于τ得到的待处理文本的文本特征的准确性，为了避免这种影响，将第一权重τ加上一个平滑值ε，即τ₁＝τ+ε，这里，ε优选为1.73。

进一步的，如图6所示，本申请实施例提供的信息聚类方法中，所述根据该分词在该待处理文本中的个数以及该分词在多个待处理文本中的第一权重，确定该分词对于该待处理文本的第二权重，包括：

S601、针对每一个待处理文本，计算该待处理文本中每一个分词的个数的平方和，将所述平方和的算术平方根确定为该待处理文本对应的第二基准值。

S602、针对该待处理文本中的每一个分词，计算该分词在该待处理文本中的个数与所述第二基准值的比值，将所述比值与该分词对应的第一权重的乘积，确定为该分词对应的所述第二权重。

本申请实施例中，通过如下公式对确定第二权重的过程进行详细说明：

其中，待处理文本d中共有M个分词，TF(t)表示在待处理文本d中第t个分词的个数，τ_t表示待处理文本d中第t个分词的第一权重，μ(t,d)表示待处理文本d中第t个分词的第二权重。

可选的，将上述确定第二权重的公式中每个分词对应的第一权重τ替换成τ₁，得到每一个分词对应的新的第二权重。

基于同一发明构思，本申请实施例中还提供了与信息聚类方法对应的信息聚类装置，由于本申请实施例中的装置解决问题的原理与本申请实施例上述信息聚类方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图7所示，为本申请一实施例提供的一种信息聚类装置的示意图，所述信息聚类装置700包括：

第一确定模块701，用于根据多个待处理文本中每一个待处理文本对应的至少一个分词，确定每一个待处理文本属于多个不同类别主题的概率；

第二确定模块702，用于根据每一个待处理文本对应的至少一个分词特征，确定每一个待处理文本对应的文本特征；

第三确定模块703，用于根据多个待处理文本中每两个待处理文本对应的文本特征和该两个待处理文本属于每个类别主题的概率，确定该两个待处理文本之间的相似度；

第四确定模块704，用于根据每两个待处理文本之间的相似度以及所述类别主题的个数，确定对应同一类别主题的所述待处理文本；

聚类模块705，用于将对应同一类别主题的待处理文本进行聚类。

在一种可能的实施方式中，第二确定模块702，在根据每一个待处理文本对应的至少一个分词特征，确定每一个待处理文本对应的文本特征时，包括：

确定多个待处理文本分别对应的各个分词；

在一种可能的实施方式中，第三确定模块703，在根据多个待处理文本中每两个待处理文本对应的文本特征和该两个待处理文本属于每个类别主题的概率，确定该两个待处理文本之间的相似度时，包括：

在一种可能的实施方式中，上述信息聚类装置700还包括：

第五确定模块，用于根据多个待处理文本中每一个待处理文本对应的至少一个分词，确定每一个待处理文本属于多个不同初始类别主题的第一概率，以及每一个分词属于多个不同初始类别主题的第二概率；

处理模块，用于对所述第一概率和所述第二概率进行相应处理，得到与所述初始类别主题对应的主题特征值；

第六确定模块，用于若所述主题特征值符合预设条件，则将该主题特征值对应的初始类别主题的个数确定为所述类别主题的个数。

在一种可能的实施方式中，第二确定模块702，在根据该分词在每一个待处理文本中的个数以及所述待处理文本的总个数，确定该分词在多个待处理文本中的第一权重时，包括：

在一种可能的实施方式中，第二确定模块702，在根据该分词在该待处理文本中的个数以及该分词在多个待处理文本中的第一权重，确定该分词对于该待处理文本的第二权重时，包括：

本申请实施例提供的一种信息聚类装置，基于待处理文本的文本特征和待处理文本属于多个不同类别主题的概率，确定每两个待处理文本之间的相似度，并根据相似度对多个待处理文本进行聚类，提高了聚类的准确性，进而提高了聚类的效率。

如图8所示，为本申请实施例提供的一种电子设备800，包括：处理器801、存储器802和总线，所述存储器802存储有所述处理器801可执行的机器可读指令，当电子设备运行时，所述处理器801与所述存储器802之间通过总线通信，所述处理器801执行所述机器可读指令，以执行如上述信息聚类方法的步骤。

具体地，上述存储器802和处理器801能够为通用的存储器和处理器，这里不做具体限定，当处理器801运行存储器802存储的计算机程序时，能够执行上述信息聚类方法。

对应于上述信息聚类方法，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述信息聚类方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种信息聚类方法，其特征在于，所述信息聚类方法包括：

针对每一个待处理文本，根据该待处理文本对应的至少一个分词特征，确定该待处理文本对应的文本特征；

根据每两个待处理文本之间的相似度以及所述类别主题的个数，确定对应同一类别主题的所述待处理文本，并将对应同一类别主题的待处理文本进行聚类；

其中，所述针对每一个待处理文本，根据该待处理文本对应的至少一个分词特征，确定该待处理文本对应的文本特征，包括：

确定多个待处理文本分别对应的各个分词；

针对每一个待处理文本，基于该待处理文本中每一个分词对应的第二权重和该分词的分词特征，确定该待处理文本的文本特征。

2.根据权利要求1所述的信息聚类方法，其特征在于，所述根据多个待处理文本中每两个待处理文本对应的文本特征和该两个待处理文本属于每个类别主题的概率，确定该两个待处理文本之间的相似度，包括：

3.根据权利要求1所述的信息聚类方法，其特征在于，通过如下方法确定所述类别主题的个数：

对所述第一概率和所述第二概率进行处理，得到与所述初始类别主题对应的主题特征值；

若所述主题特征值符合预设条件，则将该主题特征值对应的初始类别主题的个数确定为所述类别主题的个数；

其中，通过以下公式确定与所述初始类别主题对应的主题特征值：

measure(C_zw，C_zd)＝D_KL(C_zw，C_zd)+D_KL(C_zd，C_zw)

其中，Z_w为多个分词分别属于多个初始类别主题的第二概率分布矩阵，Z_d为多个待处理文本分别属于多个初始类别主题的第一概率分布矩阵，L中的每一个元素为每一个待处理文本中分词的个数，C_zw为对Z_w进行奇异值分解的处理结果，C_zd为对(L×Z_d)进行向量归一化处理的处理结果，D_KL(C_zw,C_zd)为C_zw与C_zd的KL距离(Kullback-Leibler Divergence)，D_KL(C_zd,C_zw)为C_zd与C_zw的KL距离，measure(C_zw,C_zd)为与初始类别主题对应的主题特征值，不同个数的初始类别主题对应不同的主题特征值。

4.根据权利要求1所述的信息聚类方法，其特征在于，所述根据该分词在每一个待处理文本中的个数以及所述待处理文本的总个数，确定该分词在多个待处理文本中的第一权重，包括：

5.根据权利要求1所述的信息聚类方法，其特征在于，所述根据该分词在该待处理文本中的个数以及该分词在多个待处理文本中的第一权重，确定该分词对于该待处理文本的第二权重，包括：

6.一种信息聚类装置，其特征在于，所述信息聚类装置包括：

第二确定模块，用于针对每一个待处理文本，根据该待处理文本对应的至少一个分词特征，确定该待处理文本对应的文本特征；

聚类模块，用于将对应同一类别主题的待处理文本进行聚类；

所述第二确定模块，在针对每一个待处理文本，根据该待处理文本对应的至少一个分词特征，确定该待处理文本对应的文本特征时，包括：

确定多个待处理文本分别对应的各个分词；

针对每一个待处理文本基于该待处理文本中每一个分词对应的第二权重和该分词的分词特征，确定该待处理文本的文本特征。

7.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1至5任一项所述的信息聚类方法的步骤。

8.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至5任一项所述的信息聚类方法的步骤。