CN111291177A

CN111291177A - 一种信息处理方法、装置和计算机存储介质

Info

Publication number: CN111291177A
Application number: CN201811488236.9A
Authority: CN
Inventors: 李鹏; 屠要峰; 高洪
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2018-12-06
Filing date: 2018-12-06
Publication date: 2020-06-16
Anticipated expiration: 2038-12-06
Also published as: CN111291177B; WO2020114100A1

Abstract

本发明实施例公开了一种信息处理方法，所述方法包括：对原始文本集合中的文本采用预设聚类方式进行聚类处理，获得多个第一聚类集合；对每个第一聚类集合中的文本采用预设聚类方式进行聚类处理，获得多个第二聚类集合；所述预设聚类方式为第一预设聚类方式或第二预设聚类方式。本发明实施例还公开了一种信息处理装置和计算机存储介质。

Description

一种信息处理方法、装置和计算机存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种信息处理方法、装置和计算机存储介质。

背景技术

在信息爆炸的时代里，人们对海量信息进行快速准确整理的需求与日俱增。为实现这一需求，许多应用应运而生，如信息检索、文献查重、个性推荐、智能问答等。在这些应用中，文本聚类技术是关键的核心技术。文本聚类技术已经成为对文本信息进行有效组织、摘要和导航的重要手段。

无监督机器学习提供了一些聚类技术，包括基于划分的方法、层次聚类的方法、基于密度的方法、基于网格的方法、基于模型的方法、自组织映射神经网络的方法、基于蚁群的方法等。这些方法复杂度相对较高，难以处理大规模文本的聚类。

若采用稍简单聚类算法进行聚类处理，目前的处理方案是先采用某种聚类算法进行聚类处理，进一步对上一次未成功聚类的残余文本进行处理。这种聚类方法没有性能上的互补或者递进，只是简单的“烟囱式”处理，且每次聚类实际采用了不同的方法或者标准，使得最终聚类结果存在不一致性。

发明内容

为解决现有存在的技术问题，本发明实施例提供一种信息处理方法、装置和计算机存储介质。

为达到上述目的，本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种信息处理方法，所述方法包括：对原始文本集合中的文本采用预设聚类方式进行聚类处理，获得多个第一聚类集合；对每个第一聚类集合中的文本采用预设聚类方式进行聚类处理，获得多个第二聚类集合；所述预设聚类方式为第一预设聚类方式或第二预设聚类方式。

上述方案中，所述第一预设聚类方式和所述第二预设聚类方式基于文本聚类的效率要求和/或精度要求确定。

上述方案中，所述采用预设聚类方式进行聚类处理，包括：提取待处理文本集合中每个文本，将每个文本表示为签名向量；对每个文本的签名向量进行分段处理，获得多个签名向量分段，对每个签名向量分段进行聚类处理。

上述方案中，所述将每个文本表示为签名向量，包括：获得文本的词序列，以及获得所述词序列中每个词的权重，基于获得所述词序列中每个词的权重获得带权词序列；将所述带权词序列进行哈希运算获得带权哈希值序列；对所述带权哈希值序列中的每个带权哈希值进行合并处理，获得对应于所述文本的加权哈希值；对所述加权哈希值进行二值化处理，获得二进制签名向量。

上述方案中，所述对每个文本的签名向量进行分段处理，获得多个签名向量分段，对每个签名向量分段进行聚类处理，包括：将每个文本的二进制签名向量进行分段处理，获得多个二进制签名向量分段；对每个二进制签名向量分段进行哈希运算处理，获得二进制签名向量分段对应的哈希值；将对应的哈希值相同的文本划分至相同的聚类集合中。

上述方案中，所述采用预设聚类方式进行聚类处理，包括：计算待处理文本集合中的任意两个文本之间的相似度，基于相似度的计算结果对所述待处理文本集合中的文本进行聚类处理。

上述方案中，所述基于相似度的计算结果对所述待处理文本集合中的文本进行聚类处理，包括：计算待处理文本集合中的两个第一文本之间的第一相似度，判断所述第一相似度是否超过第一预设阈值；所述第一文本为所述待处理文本集合中的任一文本；当所述第一相似度超过所述第一预设阈值时，将所述两个第一文本划分至相同的聚类集合。

上述方案中，所述方法还包括：分别计算所述待处理文本集合中的第二文本与所述聚类集合中的第一文本之间的第二相似度，判断所述第二相似度是否均超过所述第一预设阈值；所述第二文本为所述待处理文本中除所述第一文本外的其他文本；当所述第二相似度均超过所述第一预设阈值时，获得所述第二文本与所述聚类集合中的第一文本之间的第二相似度均值，判断所述第二相似度均值是否超过第二预设阈值；当所述第二相似度均值超过所述第二预设阈值时，将所述聚类集合确定为候选聚类集合；获得所述第二文本对应的所有候选聚类集合，将所述候选聚类集合中满足预设要求的候选聚类集合作为目标聚类集合，将所述第二文本划分至所述目标聚类集合。

上述方案中，所述待处理文本集合为所述原始文本集合或所述第一聚类集合。

本发明实施例还提供了一种信息处理装置，所述装置包括：

第一聚类器，用于对原始文本集合中的文本采用预设聚类方式进行聚类处理，获得多个第一聚类集合；

第二聚类器，用于对每个第一聚类集合中的文本采用预设聚类方式进行聚类处理，获得多个第二聚类集合；

其中，所述预设聚类方式为第一预设聚类方式或第二预设聚类方式。

上述方案中，所述第一聚类器或者第二聚类器，用于提取待处理文本集合中每个文本，将每个文本表示为签名向量；对每个文本的签名向量进行分段处理，获得多个签名向量分段，对每个签名向量分段进行聚类处理。

上述方案中，所述第一聚类器或者第二聚类器，用于获得文本的词序列，以及获得所述词序列中每个词的权重，基于获得所述词序列中每个词的权重获得带权词序列；将所述带权词序列进行哈希运算获得带权哈希值序列；对所述带权哈希值序列中的每个带权哈希值进行合并处理，获得对应于所述文本的加权哈希值；对所述加权哈希值进行二值化处理，获得二进制签名向量。

上述方案中，所述第一聚类器或者第二聚类器，用于将每个文本的二进制签名向量进行分段处理，获得多个二进制签名向量分段；对每个二进制签名向量分段进行哈希运算处理，获得二进制签名向量分段对应的哈希值；将对应的哈希值相同的文本划分至相同的聚类集合中。

上述方案中，所述第一聚类器或者第二聚类器，用于计算待处理文本集合中的任意两个文本之间的相似度，基于相似度的计算结果对所述待处理文本集合中的文本进行聚类处理。

上述方案中，第一聚类器或者第二聚类器，用于计算待处理文本集合中的两个第一文本之间的第一相似度，判断所述第一相似度是否超过第一预设阈值；所述第一文本为所述待处理文本集合中的任一文本；当所述第一相似度超过所述第一预设阈值时，将所述两个第一文本划分至相同的聚类集合。

上述方案中，第一聚类器或者第二聚类器，用于分别计算所述待处理文本集合中的第二文本与所述聚类集合中的第一文本之间的第二相似度，判断所述第二相似度是否均超过所述第一预设阈值；所述第二文本为所述待处理文本中除所述第一文本外的其他文本；当所述第二相似度均超过所述第一预设阈值时，获得所述第二文本与所述聚类集合中的第一文本之间的第二相似度均值，判断所述第二相似度均值是否超过第二预设阈值；当所述第二相似度均值超过所述第二预设阈值时，将所述聚类集合确定为候选聚类集合；获得所述第二文本对应的所有候选聚类集合，将所述候选聚类集合中满足预设要求的候选聚类集合作为目标聚类集合，将所述第二文本划分至所述目标聚类集合。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本发明实施例所述方法的步骤。

本发明实施例还提供了一种信息处理装置，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，其中，所述处理器用于运行所述计算机程序时，执行本发明实施例所述方法的步骤。

本发明实施例公开了一种信息处理方法，所述方法包括：对原始文本集合中的文本采用预设聚类方式进行聚类处理，获得多个第一聚类集合；对每个第一聚类集合中的文本采用预设聚类方式进行聚类处理，获得多个第二聚类集合；其中，所述预设聚类方式为第一预设聚类方式或第二预设聚类方式。如此，通过预设聚类方式进行两次聚类处理，并且在后的聚类处理是针对第一聚类集合中的文本再次进行聚类处理，采用层次化的聚类处理方式，一方面避免了出现聚类结果不一致的情况，另一方面大大提升了聚类精度和聚类效率。

附图说明

图1为本发明实施例信息处理方法的流程示意图一；

图2为本发明实施例信息处理方法的流程示意图二；

图3为本发明实施例信息处理方法的流程示意图三；

图4为本发明实施例信息处理方法的流程示意图四；

图5为本发明实施例信息处理装置的结构示意图。

具体实施方式

以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例提供了一种信息处理方法，如图1所示，所述方法包括：

步骤110：对原始文本集合中的文本采用预设聚类方式进行聚类处理，获得多个第一聚类集合。

在本发明的可选实施例中，原始文本集合中的文本可以是在数字图书馆、信息检索的数据库等不同应用系统中获取到的海量的数据。所述文本可以根据预设的标准进行划分，作为一种示例，根据应用的场景，将一句话、10句话或者一段话划分为一个文本。

作为一种可选的示例，对所述原始文本集合的文本进行聚类处理，获得多个第一聚类集合。第一聚类集合为原始文文本集合经过第一次聚类处理后得到的聚类集合。

步骤120：对每个第一聚类集合中的文本采用预设聚类方式进行聚类处理，获得多个第二聚类集合。

当经过两次聚类处理的流程如图2所示，作为一种可选的示例，分别对每个第一聚类集合中的文本进行聚类处理，得到多个第二聚类集合，将所述得到的多个第二聚类集合作为本发明信息处理后得到的聚类结果。第二聚类集合为第一聚类集合经过第二次聚类处理后得到的聚类集合。

在本发明实施例中，所述预设聚类方式为第一预设聚类方式或第二预设聚类方式。也就是说，本发明实施例中可采用第一预设聚类方式或第二预设聚类方式对原始文本集合中的文本进行两次聚类处理，或者采用第一预设聚类方式对原始文本集合中的文本进行聚类处理获得第一聚类集合，再采用第二预设聚类方式对第一聚类集合中的文本进行聚类处理，或者，采用第二预设聚类方式对原始文本集合中的文本进行聚类处理获得第一聚类集合，再采用第一预设聚类方式对第一聚类集合中的文本进行聚类处理。

本实施例中，所述第一预设聚类方式和所述第二预设聚类方式基于文本聚类的效率要求和/或精度要求确定。

在本发明可选的实施例中，若文本聚类关注聚类效率，且第一预设聚类方式聚类效率高，则预设聚类方式可均采用第一预设聚类方式，即采用第一预设聚类方式对原始文本集合进行聚类处理，采用第一预设聚类方式对第一聚类集合进行聚类处理；若文本聚类关注聚类精度，且第二预设聚类方式聚类精度高，则剧社聚类方式可均采用第二预设聚类方式，即采用第二预设聚类方式对原始文本集合进行聚类处理，采用第二预设聚类方式对第一聚类集合进行聚类处理；若文本聚类同时关注聚类效率和聚类精度，则预设聚类方式可采用第一预设聚类方式和第二预设聚类方式，即采用第一预设聚类方式对原始文本集合进行聚类处理，采用第二预设聚类方式对第一聚类集合进行聚类处理；或者，采用第二预设聚类方式对原始文本集合进行聚类处理，采用第一预设聚类方式对第一聚类集合进行聚类处理。或者，若文本聚类对聚类结果没有要求时，可以任意选择聚类方式进行聚类处理。

如此，可以根据聚类的需求，选择不同的聚类方法的组合，使得聚类处理更加灵活有效，可以满足不同应用场景的需求。

在本发明可选的实施例中，在预设聚类方式为第一预设聚类方式时，如图 3所示，采用预设聚类方式进行聚类处理，包括：

步骤310：提取待处理文本集合中每个文本，将每个文本表示为签名向量。

在本发明的可选实施例中，待处理文本集合可以是所述原始文本集合或所述第一聚类集合，即本实施例的聚类处理是针对步骤110和/或步骤120中的聚类处理；也即根据所述第一预设聚类方式对原始文本集合进行第一次聚类处理或者是针对已进行聚类处理后的第一聚类集合进行第二次聚类处理。

在本发明的可选实施例中，对所述待处理文本集合进行处理，得到签名向量的步骤包括(说明书附图中未示出)：

步骤3101：获得文本的词序列，以及获得所述词序列中每个词的权重，基于获得所述词序列中每个词的权重获得带权词序列。

对所述文本进行预处理，得到所述文本的词序列。所述预处理的步骤包括：对所述文本进行分词、去除停止词等操作。根据预设的权重算法，计算所述词序列中每个词的权重，得到带权词序列。作为一种可选的示例，采用TF-IDF 算法，对所述文本进行权重计算，得到所述文本的带权词序列。

作为一种示例，获取待处理文本集合中的文本text1为“我想申请内购中兴手机了”，经过预处理后，得到的词序列为[申请|内购|中兴|手机]。采用TF-IDF 算法，对所述得到的词序列中的每个词进行权重计算，得到text1的带权词序列为[申请,3.12|内购,8.90|中兴,5.54|手机,1.89]。

步骤3102：将所述带权词序列进行哈希运算获得带权哈希值序列。

采用哈希算法，计算所述词序列中的每个词的哈希值。根据预设的将词序列中的每个词转化为二进制的位数N，将所述每个词的哈希值的每一位，分别与所述词的权重进行相乘，得到所述文本的带权哈希值序列。

作为一种示例，设定N为128，即通过哈希算法将每个词转为128位，则 text1对应的词序列中的每个词经过哈希算法后，得到的哈希值序列为 [100101...010,3.12|...|000110...100,1.89]，将每个词的每一位与对应的权重相乘，得到所述文本的带权哈希值序列为[3.12 -3.12 -3.12 3.12 -3.12 3.12...-3.12 3.12 -3.12|...|-1.89 -1.89 -1.89 1.89 1.89 -1.89...]。

步骤3103：对所述带权哈希值序列中的每个带权哈希值进行合并处理，获得对应于所述文本的加权哈希值。

在本发明可选的实施例中，将所述带权哈希值序列中的每个哈希值按位进行相加，获得所述文本对应的加权哈希值。

作为一种示例，将上述得到text1的带权哈希值序列[3.12 -3.12 -3.12 3.12 -3.12 3.12...-3.12 3.12 -3.12|...|-1.89 -1.89 -1.89 1.89 1.89 -1.89...]，将四个带权哈希值按位相加，得到[5.74 3.91 -1.18 2.31 -12.34 -7.71...-3.64 -0.1121.29]。

步骤3104：对所述加权哈希值进行二值化处理，获得二进制签名向量。

在本发明可选的实施例中，对上述步骤得到的加权哈希值进行二值化处理，得到所述文本的二进制签名向量。作为一种可选的示例，对所述带权哈希值按位进行处理，当该位的值为正数，则该位为1，当该位的值为负数，则该位为0。

作为一种示例，将text1的加权的哈希值[5.74 3.91 -1.18 2.31 -12.34 -7.71... -3.64 -0.11 21.29]进行二值化处理，得到text1对应的128位的二进制签名向量为[1 1 0 1 0 0 ... 0 0 1]。

步骤320：对每个文本的签名向量进行分段处理，获得多个签名向量分段，对每个签名向量分段进行聚类处理。

在本发明可选的实施例中，根据预设的参数将所述文本的签名向量进行分段处理，获得多个签名向量分段，对每个签名向量分段进行聚类处理。所述预设的参数可以根据计算需求继续努力设置。具体步骤(说明书附图中未示出) 包括：

步骤3201：将每个文本的二进制签名向量进行分段处理，获得多个二进制签名向量分段。

在本发明可选的实施例中，设定所述二进制签名向量划分为b段，则N位的签名向量的每段向量包含有r位，其中，N＝b*r。

步骤3202：对每个二进制签名向量分段进行哈希运算处理，获得二进制签名向量分段对应的哈希值。

在本发明可选的实施例中，分别对b段二进制签名向量进行哈希运算，获得每段二进制签名向量的哈希值。

步骤3203：将对应的哈希值相同的文本划分至相同的聚类集合中。

在本发明可选的实施例中，对上述步骤得到的每段二进制签名向量的哈希值进行分类，将哈希值相同的对应文本划分至同一个聚类集合中。

如此，当采用第一预设聚类方式，通过采用哈希算法对文本进行降维处理，同时采用加权算法，不仅降低了计算的难度，提高了效率，同时也确保计算的精确性。

在本发明可选的实施例中，在预设聚类方式为第二预设聚类方式时，如图 4所示，采用预设聚类方式进行聚类处理，包括：

步骤410：计算待处理文本集合中的任意两个文本之间的相似度。

在本发明的可选实施例中，如上所述，待处理文本集合可以是所述原始文本集合或所述第一聚类集合，即本实施例的聚类处理是针对步骤110和/或步骤 120中的聚类处理；也即根据所述第二预设聚类方式对原始文本集合进行第一次聚类处理或者是针对已进行聚类处理后的第一聚类集合进行第二次聚类处理中。

基于预设的相似度算法，计算所述待处理文本集合中任意两个文本之间的相似度。

步骤420：基于相似度的计算结果对所述待处理文本集合中的文本进行聚类处理。

在本发明的可选实施例中，根据预设的相似度分类算法，对上述得到的相似度的计算结果进行分类，得到符合相似度分类算法的聚类集合。

在本发明的可选实施例中，预设的相似度算法的步骤具体包括语义相似度算法和句法相似度算法，其中，任意两个文本之间的语义相似度算法具体包括 (说明书附图中未示出)：

步骤A：利用预设的语料集对待处理文本集合中的文本进行训练，得到所述文本的词向量矩阵；

作为一种示例，可以采用Word2Vec方法进行词向量的训练，设定向量长度为d_w(可选的，将d_w设置为400)，则经过训练得到的Word2Vec方法为矩阵

其中，

表示具有|V|行d_w列的矩阵；V为语料集中所有词汇构成的词汇表，|V|为该词汇表中的词汇个数。若单词w在矩阵中的次序为m，则由该模型得到的词向量可以表示为

其中，

为第m行的向量。

步骤B：针对任意两个文本，计算基于语义距离的语义相似度。

步骤B1：对待处理文本集合中的文本进行预处理，得到所述文本的词序列。

在本发明的可选实施例中，预处理的操作包括：对文本进行分词、去除停止词等。

作为一种示例，选择任意两个文本t1和t2进行预处理，得到t1词序列为

t2的词序列为

其中，

为t1的第m个词，m为正整数；

为t2的第n个词，n为正整数。

步骤B2：计算所述文本集合任意两个文本中对应的两个词的语义相似度。

在本发明的可选实施例中，词义相似度的计算公式(1)为：

其中，sim_cos(w₁,w₂)为词w₁和词w₂的词义相似度；v(w₁)为单词w₁的词向量； v(w₂)为单词w₂的词向量；|v(w₁)|为单词w₁的词向量的长度；|v(w₂)|为单词w₂的词向量的长度。

在本发明可选的实施例中，t1和t2之间的语义相似度的计算公式(2)为：

其中，

为t1中词

与t2的词义距离；

为t2中词

与 t1的词义距离；根据公式(1)计算t1和t2之间任意两个词的词义相似度

作为一种示例，根据公式(2)，计算得到t1和t2之间的语义相似度score1。

在本发明的可选实施例中，任意两个文本之间的句法相似度算法具体包括 (说明书附图中未示出)：

步骤A：对待处理文本集合中的文本进行预处理，得到所述文本的词序列。

作为一种示例，对文本text1和text2进行分词、去除停止词等操作，得到词序列t1和t2。

步骤B：对所述文本对应的词序列进行依存句法分析，得到任意两个文本之间的句法相似度。

步骤B1：采用预设的句法分析工具，对所述两个文本的词序列进行依存句法分析，得到所述两个文本之间的有效词搭配对的数量。

作为一种示例，采用斯坦福大学的自然语言处理开源包或复旦大学的自然语言处理开源包对t1和t2进行依存句法分析，计算得到t1和t2中有效词搭配对的数量，分别为p₁和p₂。

步骤B2：根据所述两个文本之间的有效词搭配对的数量，得到所述文本之间的句法相似度。

在本发明的可选实施例中，根据计算公式(3)得到句法相似度为：

score2＝|p₁-p₂| (3)

作为一种示例，根据公式(3)对p₁和p₂进行计算，得到所述文本text1和 text2的句法相似度score2。

在本发明的可选实施例中，预设的相似度算法的步骤具体包括：

步骤A：根据预设的语义相似度算法，得到任意两个文本之间的语义相似度。

步骤B：根据预设的句法相似度算法，得到任意两个文本之间的句法相似度。

步骤C：基于计算得到的语义相似度和句法相似度，得到任意两个文本之间的相似度。

在本发明的可选实施例中，任意两个文本之间的相似度的计算公务(4)为：

score＝α*score1+β*score2 (4)

其中，score为任意两个文本之间的相似度；score1为任意两个文本之间的语义相似度；score2任意两个文本之间的句法相似度；α为语义相似度的权重 0<＝α<＝1，β为句法相似度的权重0<＝β<＝1，α+β＝1，α和β的值可以根据计算需求进行设置，作为一种可选的示例，将α和β都设置为0.5。

在本发明的可选实施例中，预设的相似度分类算法包括：

步骤A：计算待处理文本集合中的两个第一文本之间的第一相似度，判断所述第一相似度是否超过第一预设阈值；所述第一文本为所述待处理文本集合中的任一文本。

在本发明的可选实施例中，第一相似度即是待处理文本集合中任意两个文本之间的相似度，第一预设阈值可以根据计算需要进行设置，设置的范围可以为0至1。作为一种示例，将第一预设阈值设定为0.5。

在本发明的可选实施例中，在步骤410中，基于上述预设的相似度算法，计算得到所述待处理文本集合中任意两个文本之间的相似度score。

步骤B：当所述第一相似度超过所述第一预设阈值时，将所述两个第一文本划分至相同的聚类集合。

在本发明的可选实施例中，当所述计算得到的score超过第一预设阈值时，将所述score对应的两个第一文本划分至同一个聚类集合中。当所述计算得到的score小于第一预设阈值时，则将所score对应的两个文本不划分至同一个聚类集合中。即所述聚类集合中的任意两个文本之间的相似度超过第一预设阈值。

在本发明的可选实施例中，预设的相似度分类算法还可以包括：

步骤A：分别计算所述待处理文本集合中的第二文本与所述聚类集合中的第一文本之间的第二相似度，判断所述第二相似度是否超过所述第一预设阈值；所述第二文本为所述待处理文本中除所述第一文本外的其他文本。

在本发明的可选实施例中，第二相似度即是待处理文本集合中任意两个文本之间的相似度。所述聚类集合中的任意两个文本之间的相似度不小于第一预设阈值。

在本发明的可选实施例中，在步骤410中，基于上述预设的相似度算法，计算得到所述待处理文本集合中第二文本与所述聚类集合中的任一文本之间的相似度，并判断所述多个相似度score是否都不小于第一预设阈值。

作为一种可选的示例，在步骤410中，基于上述预设的相似度算法，计算得到待处理文本集合中第二文本t²与聚类集合P1中的文本t_i ¹(1<＝i<＝m，m,i 皆为正整数)的对应的相似度score_i ¹²，并判断所述相似度score_i ¹²与第一预设阈值的大小关系。

步骤B：当所述第二相似度均超过所述第一预设阈值时，获得所述第二文本与所述聚类集合中的文本之间的第二相似度均值，判断所述第二相似度均值是否超过第二预设阈值；当所述第二相似度均值超过所述第二预设阈值时，将所述聚类集合确定为候选聚类集合。

在本发明的可选实施例中，当所述多个相似度score都超过第一预设阈值时，将所述多个score相加并计算得到对应的相似度均值

所述相似度均值即为第二相似度均值。判断所述第二相似度均值与第二预设阈值的大小关系，所述第二预设阈值可以根据计算需要进行设置，设置的范围可以为0至1。作为一种示例，将第二预设阈值设定为0.5。当所述第二相似度均值都超过第二预设阈值时，将所述聚类集合确定为候选聚类集合。

作为一种示例，当相似度score_i ¹²均超过第一预设阈值时，将所述多个score 相加并计算得到对应的第二相似度均值

判断所述第二相似度均值与第二预设阈值的大小关系，当所述第二相似度均值都超过第二预设阈值时，将所述聚类集合C确定为候选聚类集合。

步骤C：获得所述第二文本对应的所有候选聚类集合，将所述候选聚类集合中满足预设要求的候选聚类集合作为目标聚类集合，将所述第二文本划分至所述目标聚类集合。

在本发明的可选实施例中，采用步骤A和B获得所述第二文本对应的所有候选聚类集合。根据预设要求在所述所有的候选集合中获得目标聚类集合，并将所述第二文本添加至所述目标聚类集合。

在本发明的可选实施例中，预设要求可以是选择相似度均值最高的聚类集合作为目标聚类集合。

作为一种示例，采用步骤A和B获得所述第二文本对应的所有候选聚类集合分别为P1、P2…Pn,对应的第二相似度均值分别为

其中，第二相似度均值最大的为

根据预设要求，将候选聚类集合P1确定为目标聚类集合，将所述第二文本t²加入至所述聚类集合P1中。

如此，当采用第二预设聚类方式，通过计算文本之间的语义相似度和句法相似度，并且可以设置参数的值，来满足不同的应用场景的需求，提高了聚类的精度。

具体示例一

当应用场景为个性推荐场景时，对聚类的要求为：效率要求高、精度要求低，则本发明的实施例提供的方法包括：

S101：选择第一预设聚类方法进行两次聚类处理，将系统中的信息文本聚类为多个第二聚类集合；

S102：根据用户属性和历史数据，匹配与该用户相关的第二聚类集合；如该第二聚类集合中存在用户的历史访问信息文本，或者该第二聚类集合的标签信息与该用户属性相匹配，具体方式由个性推荐场景定义；

S103：将匹配的第二聚类集合中的所有信息当做推荐信息，返还给用户；

如此，使得上述应用可以准确快速实现个性化推荐，具有良好的可控性。

具体示例二

当应用场景为智能问答场景时，对聚类的要求为：效率要求低、精度要求高，则本发明的实施例提供的方法包括：

S201：选择第一预设聚类方法进行两次聚类处理，将系统中的问答库聚类为多个第二聚类集合；

S202：对多个第二聚类集合中所有样本进行分析，选择该第二聚类集合的推荐样本，具体推荐方案由智能问答场景定义；

S203：为多个第二聚类集合中的推荐样本配置一条标准答案，从而将该多个第二聚类集合中的每条样本与该标准答案组成问答对，置入问答库；

如此，使得上述应用可以自动准确地扩展智能问答的问答库，避免大量人工操作。

具体示例三

当应用场景为信息检索场景时，对聚类的要求为：效率要求高、精度要求高，则本发明的实施例提供的方法包括：

S301：选择第一预设聚类方法和第二预设聚类方法进行聚类处理，系统中的索引文本聚类为多个第二聚类集合；

S302：收到外部检索请求时，将请求信息逐一和第二聚类集合中的一个或多个样本进行匹配，得到相匹配的第二聚类集合；聚义匹配方式由具体的信息检索场景定义；

S303：将匹配第二聚类集合中所有样本与该外部检索请求进行之一匹配，匹配成功的样本作为检索结果返回用户；

如此，使得上述应用可以准确快速实现信息检索，避免大规模索引信息逐一检索的计算开销。

具体示例四

当应用场景为数字图书馆场景时，对聚类的要求为：效率要求低、精度要求低，则本发明的实施例提供的方法包括：

S401：可随意搭配两种聚类方式，如，先选择第一预设聚类方式，然后选择第二预设聚类方式，对数字图书馆中的所有资料样本进行聚类处理，得到多个第二聚类集合；

S402：利用主题模型等方法，得到每个第二聚类集合的标签信息；

S403：第二聚类集合的样本使用该集合的标签信息，由于一个样本可能存在于多个第二聚类集合中，从而每个资料样本拥有了多个标签信息；

如此，使得上述应用可以为大规模资料文本添加标签信息，如为图书添加类别信息，从而方便数字图书馆的系统管理。

本发明实施例还提供了一种信息处理装置，如图5所示，所述信息处理装置500包括：

第一聚类器510，用于对原始文本集合中的文本采用预设聚类方式进行聚类处理，获得多个第一聚类集合；

第二聚类器520，用于对每个第一聚类集合中的文本采用预设聚类方式进行聚类处理，获得多个第二聚类集合；

在一实施例中，所述第一预设聚类方式和所述第二预设聚类方式基于文本聚类的效率要求和/或精度要求确定。

在一实施例中，所述第一聚类器510或者第二聚类器520，用于提取待处理文本集合中每个文本，将每个文本表示为签名向量；对每个文本的签名向量进行分段处理，获得多个签名向量分段，对每个签名向量分段进行聚类处理。

在一实施例中，所述第一聚类器510或者第二聚类器520，用于获得文本的词序列，以及获得所述词序列中每个词的权重，基于获得所述词序列中每个词的权重获得带权词序列；将所述带权词序列进行哈希运算获得带权哈希值序列；对所述带权哈希值序列中的每个带权哈希值进行合并处理，获得对应于所述文本的加权哈希值；对所述加权哈希值进行二值化处理，获得二进制签名向量。

在一实施例中，所述第一聚类器510或者第二聚类器520，用于将每个文本的二进制签名向量进行分段处理，获得多个二进制签名向量分段；对每个二进制签名向量分段进行哈希运算处理，获得二进制签名向量分段对应的哈希值；将对应的哈希值相同的文本划分至相同的聚类集合中。

在一实施例中，所述第一聚类器510或者第二聚类器520，用于计算待处理文本集合中的任意两个文本之间的相似度，基于相似度的计算结果对所述待处理文本集合中的文本进行聚类处理。

在一实施例中，所述第一聚类器510或者第二聚类器520，用于计算待处理文本集合中的两个第一文本之间的第一相似度，判断所述第一相似度是否超过第一预设阈值；所述第一文本为所述待处理文本集合中的任一文本；当所述第一相似度超过所述第一预设阈值时，将所述两个第一文本划分至相同的聚类集合。

在一实施例中，所述第一聚类器510或者第二聚类器520，用于分别计算所述待处理文本集合中的第二文本与所述聚类集合中的第一文本之间的第二相似度，判断所述第二相似度是否均超过所述第一预设阈值；所述第二文本为所述待处理文本中除所述第一文本外的其他文本；当所述第二相似度均超过所述第一预设阈值时，获得所述第二文本与所述聚类集合中的第一文本之间的第二相似度均值，判断所述第二相似度均值是否超过第二预设阈值；当所述第二相似度均值超过所述第二预设阈值时，将所述聚类集合确定为候选聚类集合；获得所述第二文本对应的所有候选聚类集合，将所述候选聚类集合中满足预设要求的候选聚类集合作为目标聚类集合，将所述第二文本划分至所述目标聚类集合。

在一实施例中，所述待处理文本集合为所述原始文本集合或所述第一聚类集合。

如此，通过预设聚类方式进行两次聚类处理，并且在后的聚类处理是针对第一聚类集合中的文本再次进行聚类处理，采用层次化的聚类处理方式，一方面避免了出现聚类结果不一致的情况，另一方面大大提升了聚类精度和聚类效率。另外，可以根据聚类的需求，选择不同的聚类方法的组合，使得聚类处理更加灵活有效，可以满足不同应用场景的需求。

本发明的装置实施例参照上述本发明的方法实施例。

上述发明实施例中，所述信息处理装置500中的第一聚类器510和第二聚类器520在实际应用中均可由CPU、DSP、MCU或FPGA实现。

需要说明的是：上述实施例提供的信息处理装置在进行信息处理时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的信息处理装置与信息处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本发明实施例还提供了一种计算机可读存储介质，其上存储有可执行程序，所述可执行程序被处理器执行时实现上述任一信息处理方法。

本发明实施例还提供了一种信息处理装置，该装置包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，其中，所述处理器运行用于运行所述计算机程序时，执行本发明实施例实现的任一信息处理方法。

可以理解，存储器可以由任何类型的易失性或非易失性存储设备、或者它们的组合来实现。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，Ferromagnetic Random Access Memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，Random Access Memory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，DynamicRandom Access Memory)、同步动态随机存取存储器(SDRAM，Synchronous Dynamic RandomAccess Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM， Double Data RateSynchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

上述本发明实施例揭示的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、DSP，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成前述方法的步骤。

在实施例中，信息处理装置可以被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD， ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、FPGA、通用处理器、控制器、MCU、微处理器 (Microprocessor)、或其他电子元件实现，用于执行前述方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种信息处理方法，其特征在于，所述方法包括：

对原始文本集合中的文本采用预设聚类方式进行聚类处理，获得多个第一聚类集合；

对每个第一聚类集合中的文本采用预设聚类方式进行聚类处理，获得多个第二聚类集合；

所述预设聚类方式为第一预设聚类方式或第二预设聚类方式。

2.根据权利要求1所述的方法，其特征在于，

所述第一预设聚类方式和所述第二预设聚类方式基于文本聚类的效率要求和/或精度要求确定。

3.根据权利要求1所述的方法，其特征在于，所述采用预设聚类方式进行聚类处理，包括：

提取待处理文本集合中每个文本，将每个文本表示为签名向量；

对每个文本的签名向量进行分段处理，获得多个签名向量分段，对每个签名向量分段进行聚类处理。

4.根据权利要求3所述的方法，其特征在于，所述将每个文本表示为签名向量，包括：

获得文本的词序列，以及获得所述词序列中每个词的权重，基于获得所述词序列中每个词的权重获得带权词序列；

将所述带权词序列进行哈希运算获得带权哈希值序列；

对所述带权哈希值序列中的每个带权哈希值进行合并处理，获得对应于所述文本的加权哈希值；

对所述加权哈希值进行二值化处理，获得二进制签名向量。

5.根据权利要求4所述的方法，其特征在于，所述对每个文本的签名向量进行分段处理，获得多个签名向量分段，对每个签名向量分段进行聚类处理，包括：

将每个文本的二进制签名向量进行分段处理，获得多个二进制签名向量分段；

对每个二进制签名向量分段进行哈希运算处理，获得二进制签名向量分段对应的哈希值；

将对应的哈希值相同的文本划分至相同的聚类集合中。

6.根据权利要求1所述的方法，其特征在于，所述采用预设聚类方式进行聚类处理，包括：

计算待处理文本集合中的任意两个文本之间的相似度，基于相似度的计算结果对所述待处理文本集合中的文本进行聚类处理。

7.根据权利要求6所述的方法，其特征在于，所述基于相似度的计算结果对所述待处理文本集合中的文本进行聚类处理，包括：

计算待处理文本集合中的两个第一文本之间的第一相似度，判断所述第一相似度是否超过第一预设阈值；所述第一文本为所述待处理文本集合中的任一文本；

当所述第一相似度超过所述第一预设阈值时，将所述两个第一文本划分至相同的聚类集合。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

分别计算所述待处理文本集合中的第二文本与所述聚类集合中的第一文本之间的第二相似度，判断所述第二相似度是否均超过所述第一预设阈值；所述第二文本为所述待处理文本中除所述第一文本外的其他文本；

当所述第二相似度均超过所述第一预设阈值时，获得所述第二文本与所述聚类集合中的第一文本之间的第二相似度均值，判断所述第二相似度均值是否超过第二预设阈值；

当所述第二相似度均值超过所述第二预设阈值时，将所述聚类集合确定为候选聚类集合；

获得所述第二文本对应的所有候选聚类集合，将所述候选聚类集合中满足预设要求的候选聚类集合作为目标聚类集合，将所述第二文本划分至所述目标聚类集合。

9.根据权利要求3至8任一项所述的方法，其特征在于，所述待处理文本集合为所述原始文本集合或所述第一聚类集合。

10.一种信息处理装置，其特征在于，所述装置包括：

11.根据权利要求10所述的装置，其特征在于，

12.根据权利要求10所述的装置，其特征在于，所述第一聚类器或者第二聚类器，用于提取待处理文本集合中每个文本，将每个文本表示为签名向量；对每个文本的签名向量进行分段处理，获得多个签名向量分段，对每个签名向量分段进行聚类处理。

13.根据权利要求12所述的装置，其特征在于，所述第一聚类器或者第二聚类器，用于获得文本的词序列，以及获得所述词序列中每个词的权重，基于获得所述词序列中每个词的权重获得带权词序列；将所述带权词序列进行哈希运算获得带权哈希值序列；对所述带权哈希值序列中的每个带权哈希值进行合并处理，获得对应于所述文本的加权哈希值；对所述加权哈希值进行二值化处理，获得二进制签名向量。

14.根据权利要求13所述的装置，其特征在于，所述第一聚类器或者第二聚类器，用于将每个文本的二进制签名向量进行分段处理，获得多个二进制签名向量分段；对每个二进制签名向量分段进行哈希运算处理，获得二进制签名向量分段对应的哈希值；将对应的哈希值相同的文本划分至相同的聚类集合中。

15.根据权利要求10所述的装置，其特征在于，所述第一聚类器或者第二聚类器，用于计算待处理文本集合中的任意两个文本之间的相似度，基于相似度的计算结果对所述待处理文本集合中的文本进行聚类处理。

16.根据权利要求15所述的装置，其特征在于，第一聚类器或者第二聚类器，用于计算待处理文本集合中的两个第一文本之间的第一相似度，判断所述第一相似度是否超过第一预设阈值；所述第一文本为所述待处理文本集合中的任一文本；当所述第一相似度超过所述第一预设阈值时，将所述两个第一文本划分至相同的聚类集合。

17.根据权利要求16所述的装置，其特征在于，第一聚类器或者第二聚类器，用于分别计算所述待处理文本集合中的第二文本与所述聚类集合中的第一文本之间的第二相似度，判断所述第二相似度是否均超过所述第一预设阈值；所述第二文本为所述待处理文本中除所述第一文本外的其他文本；当所述第二相似度均超过所述第一预设阈值时，获得所述第二文本与所述聚类集合中的第一文本之间的第二相似度均值，判断所述第二相似度均值是否超过第二预设阈值；当所述第二相似度均值超过所述第二预设阈值时，将所述聚类集合确定为候选聚类集合；获得所述第二文本对应的所有候选聚类集合，将所述候选聚类集合中满足预设要求的候选聚类集合作为目标聚类集合，将所述第二文本划分至所述目标聚类集合。

18.根据权利要求12至17任一项所述的装置，其特征在于，所述待处理文本集合为所述原始文本集合或所述第一聚类集合。

19.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至9任一项所述方法的步骤。

20.一种信息处理装置，其特征在于，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，其中，所述处理器用于运行所述计算机程序时，执行权利要求1至9任一项所述方法的步骤。