CN106294350A

CN106294350A - 一种文本聚合方法及装置

Info

Publication number: CN106294350A
Application number: CN201510242860.0A
Authority: CN
Inventors: 冯文镛
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2015-05-13
Filing date: 2015-05-13
Publication date: 2017-01-04
Anticipated expiration: 2035-05-13
Also published as: WO2016180268A1; CN106294350B

Abstract

本申请公开了一种文本聚合方法及装置，在本申请所述技术方案中，在得到与待聚合文本相对应的文本特征集合之后，可采用局部敏感哈希算法结合相似度校验的判定方法，对所述待聚合文本进行相似性分析以实现待聚合文本的聚合，从而可解决基于向量空间模型或概率模型进行短文本相似性分析时所导致的文本聚合结果准确性较低、实时性较低的问题，达到准确且又快速地对短文本进行聚合的效果。

Description

一种文本聚合方法及装置

技术领域

本申请涉及互联网技术领域，尤其涉及一种文本聚合方法及装置。

背景技术

在传统的通信应用(如短信、邮件等)以及新型的互联网社交应用(如微信、微博、论坛等)等场景中，时刻都会产生大量的短文本数据，如，长度不大于设定的长度阈值(如150～200个字等，其中，英文单词或者连续数字按一个汉字计算)的中文文本数据。这些文本数据中存在大量有价值的信息，通过对其进行聚合可以发现信息中潜在的热点或者规律。

具体地，文本聚合是一种在给定的相似性度量之下对文本集合进行分组，使彼此相近的文本分到同一个组内的技术。文本聚合具体可包括文本特征提取以及文本相似性分析等步骤。

具体地，由于目前，在对文本进行相似性分析以实现文本的聚合时，主要基于向量空间模型或概率模型进行。而在向量空间模型中，是采用文本中的字或者词作为特征表示文本，用特征向量之间的相似度来度量文本的相关性。因而，对于长度过短的文本，会存在特征向量过于稀疏，导致计算结果无法满足相似性分析的要求，进而导致最终所得到的文本聚合结果并不准确的问题。另外，在概率模型中，若使用过短的文本，则大部分特征都会是概率平滑的结果，不能反映真实数据的信息，因而，也会存在聚合结果并不准确、无法满足用户需求的问题。再有，由于上述两类传统的文本相似度算法计算量巨大，因而，还会存在难以满足通常可以达到千万级甚至亿级的短文本数据的实时分析的问题，使得文本聚合的效果并不佳。

也就是说，目前，在对短文本数据进行文本聚合时，存在文本相似性分析的方式较差所导致的文本聚合的准确性较低、实时性较低的问题，因此，亟需提供一种新的文本聚合方法以解决上述问题。

发明内容

本申请实施例提供了一种文本聚合方法及装置，用以解决目前的文本聚合方式存在文本相似性分析的方式较差所导致的文本聚合的准确性较低、实时性较低的问题。

本申请实施例提供了一种文本聚合方法，包括：

对长度不大于设定的长度阈值的待聚合文本进行特征提取，得到与所述待聚合文本相对应的第一文本特征集合；

基于设定的局部敏感哈希算法计算所述第一文本特征集合的哈希值，并根据计算得到的哈希值，判断已构建的与所述设定的局部敏感哈希算法相对应的哈希索引中，是否存在与计算得到的哈希值之间的距离不大于设定距离的匹配值；

若是，则从与计算得到的哈希值之间的距离不大于设定距离的匹配值中，选取与计算得到的哈希值之间的距离最小的匹配值，并计算所述第一文本特征集合与所述最小的匹配值所对应的第二文本特征集合之间的相似度；

若确定所述第一文本特征集合与所述第二文本特征集合之间的相似度不小于设定的相似度阈值，则将所述待聚合文本聚合至所述第二文本特征集合所对应的文本类中。

相应地，本申请实施例还提供了一种文本聚合装置，包括：

特征提取单元，用于对长度不大于设定的长度阈值的待聚合文本进行特征提取，得到与所述待聚合文本相对应的第一文本特征集合；

文本聚合单元，用于基于设定的局部敏感哈希算法计算所述第一文本特征集合的哈希值，并根据计算得到的哈希值，判断已构建的与所述设定的局部敏感哈希算法相对应的哈希索引中，是否存在与计算得到的哈希值之间的距离不大于设定距离的匹配值；若是，则从与计算得到的哈希值之间的距离不大于设定距离的匹配值中，选取与计算得到的哈希值之间的距离最小的匹配值，并计算所述第一文本特征集合与所述最小的匹配值所对应的第二文本特征集合之间的相似度；以及，若确定所述第一文本特征集合与所述第二文本特征集合之间的相似度不小于设定的相似度阈值，则将所述待聚合文本聚合至所述第二文本特征集合所对应的文本类中。

本申请有益效果如下：

本申请实施例提供了一种文本聚合方法及装置，在本申请实施例所述技术方案中，可在得到与待聚合文本相对应的文本特征集合之后，采用局部敏感哈希算法结合相似度校验的判定方法，对所述待聚合文本进行相似性分析以实现待聚合文本的聚合，从而可解决基于向量空间模型或概率模型进行短文本相似性分析时所导致的文本聚合结果准确性较低、实时性较低的问题，达到准确且又快速地对短文本进行聚合的效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1所示为本申请实施例一中所述文本聚合方法的流程示意图；

图2所示为本申请实施例二中所述文本聚合装置的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

实施例一：

本申请实施例一提供了一种文本聚合方法，如图1所示，其为本申请实施例一中所述文本聚合方法的流程示意图，所述文本聚合方法可包括以下步骤：

步骤101：对长度不大于设定的长度阈值的待聚合文本进行特征提取，得到与所述待聚合文本相对应的第一文本特征集合。

可选地，所述待聚合文本具体可为长度不大于设定的长度阈值(如150～200个字等，其中，英文单词或者连续数字按一个汉字计算)的中文文本数据，本申请实施例对此不作赘述。

进一步地，由于互联网上的大量短文本数据存在用词不规范、存在各种变形等特点，因而使得，在使用传统的分词方法对其进行特征提取(如利用普通的分词器进行分词，并将相应的分词结果作为文本的特征描述)时，可能存在无法获得较好的特征提取结果，进而导致最终所得到的文本聚合结果并不准确的问题。

因而，为了提高文本特征的提取效果，在本申请所述实施例中，可采用以下方式对长度不大于设定的长度阈值的待聚合文本进行特征提取，得到与所述待聚合文本相对应的文本特征集合：

基于机械分词结合N元模型(N-gram)的特征提取方式对长度不大于设定的长度阈值的待聚合文本进行特征提取，得到与所述待聚合文本相对应的第一文本特征集合，所述N为大于1的自然数。

需要说明的是，相对于采用传统的分词方法对短文本数据进行特征提取来说，采用机械分词结合N元模型的特征提取方式可达到较好的文本特征提取效果。这是因为，机械分词是忽略语意对文本进行机械地分割，而N元模型则是给孤立的特征之间建立了一定的依赖性，从而能够提供更大的特征集合，丰富了特征集合的信息，这对本身信息就较少的短文本来说起到了很好的补充作用，因而，可在不规范的短文本特征提取中取得良好的效果，进而提高文本聚合的准确性。

可选地，基于机械分词结合N元模型的特征提取方式对长度不大于设定的长度阈值的待聚合文本进行特征提取，得到与所述待聚合文本相对应的文本特征集合，可包括：

以中文汉字以及连续的字符串(如连续的拉丁文字符串、连续的数字串、或连续的拉丁文数字字符串等)为最小切分单元，对所述待聚合文本进行分词，得到多个分词；例如，以待聚合文本为“我的生日是1989-01-22”为例，可将所述待聚合文本分词为“我/的/生/日/是/1989-01-22”；

基于N元模型，将得到的多个分词中的任意N个连续的分词组合为一文本特征，得到与所述待聚合文本相对应的文本特征集合。例如，以所述N的取值为2(即所述N元模型为Bi-gram)，且待聚合文本为“我的生日是1989-01-22”为例，最终所得到的与所述待聚合文本相对应的文本特征集合可表示为{我的，的生，生日，日是，是1989-01-22}。

进一步地，为了提高文本质量，进而提高文本聚合的准确性，在对长度不大于设定的长度阈值的待聚合文本进行特征提取之前，所述方法还可包括以下步骤：

对所述待聚合文本进行预处理，以便后续可依据预处理后的待聚合文本进行相应的文本特征提取；其中，所述预处理至少可包括以下操作中的任意一种或多种，本申请实施例对此不作任何限定：

去除待聚合文本中的特殊标签(如html标签等)、去除待聚合文本中的非文字特殊符号(如&、*等)、对待聚合文本进行繁简字体转换(如将待聚合文本中的繁体字转换为简体字等)、以及将待聚合文本中的连续性的拉丁文和/或数字归一化为设定的字符串(如，将“Abc1234”或“1989-01-22”归一化成“xxxxxxx”等)等。

步骤102：基于设定的局部敏感哈希算法计算所述第一文本特征集合的哈希值，并根据计算得到的哈希值，判断已构建的与所述设定的局部敏感哈希算法相对应的哈希索引中，是否存在与计算得到的哈希值之间的距离不大于设定距离的匹配值。

具体地，所述设定的局部敏感哈希算法不限于为Simhash算法或Minhash算法等。其中，Simhash算法是一种用来对网页去重的常用方法，其通过对网页的内容生成一个数字签名，然后通过计算数字签名之间的差异来判定网页内容的相似程度。另外，与Simhash算法一样，Minhash算法也是局部敏感哈希算法的一种，可以用来快速估算两个集合的相似度，最初用于在搜索引擎中检测重复网页，当然也可以应用于大规模聚类问题等，本申请实施例对此均不作赘述。

优选地，由于Simhash算法的速度较快，因此，在本申请所述实施例中，可优先选用所述Simhash算法来计算第一文本特征集合的哈希值。相应地，以所述设定的局部敏感哈希算法为Simhash算法为例，步骤102可具体执行为：基于Simhash算法计算所述第一文本特征集合的Simhash值，并根据计算得到的Simhash值，判断已构建的Simhash索引中，是否存在与计算得到的Simhash值之间的距离(具体可为海明距离，即Hamming距离)不大于设定距离的匹配值。

其中，所述设定距离可根据实际情况灵活设定，如以海明距离为例，可设置为3～5等，本申请实施例对此不作赘述。另外，需要说明的是，在信息论中，两个等长字符串之间的海明距离是指两个字符串对应位置的不同字符的个数，即，将一个字符串变换成另外一个字符串所需要替换的字符个数，本申请实施例对此也不作赘述。

步骤103：若确定已构建的与所述设定的局部敏感哈希算法相对应的哈希索引中，存在与计算得到的哈希值之间的距离不大于设定距离的匹配值，则从与计算得到的哈希值之间的距离不大于设定距离的匹配值中，选取与计算得到的哈希值之间的距离最小的匹配值，并计算所述第一文本特征集合与所述最小的匹配值所对应的第二文本特征集合之间的相似度。

可选地，所述第一文本特征集合与所述第二文本特征集合之间的相似度至少可通过以下任意一种或多种相似度度量参数来表示：Jaccard相似度、欧式距离以及海明距离等。也就是说，在计算所述第一文本特征集合与所述最小的匹配值所对应的第二文本特征集合之间的相似度时，可计算所述第一文本特征集合与所述第二文本特征集合之间的Jaccard相似度、欧式距离以及海明距离等，本申请实施例对此不作赘述。

步骤104：若确定所述第一文本特征集合与所述第二文本特征集合之间的相似度不小于设定的相似度阈值，则将所述待聚合文本聚合至所述第二文本特征集合所对应的文本类中。

其中，所述设定的相似度阈值可根据实际情况灵活设定，如，当对文本聚合的准确性要求较高时，可将所述相似度阈值设置为一个相对较高的数值，当对文本聚合的准确性要求较低时，可将所述相似度阈值设置为一个相对较低的数值等，本申请实施例对此不作赘述。

需要说明的是，在本申请所述实施例中，之所以对所述第一文本特征集合与所述第二文本特征集合之间的相似度进行校验，主要是为了消除将局部敏感哈希算法应用于短文本数据的聚合时，局部敏感哈希算法的碰撞概率所导致的误判现象，以提高文本聚合的准确性。

例如，以采用Simhash算法计算第一文本特征集合的哈希值、进而选取相应的匹配值为例，在采用Simhash算法计算第一文本特征集合的哈希值、进而选取相应的匹配值之后，可进一步对所述第一文本特征集合与选取的匹配值所对应的第二文本特征集合之间的相似度(如Jaccard相似度等)进行校验，以消除Simhash碰撞导致的误判问题。

需要说明的是，Jaccard相似度是最常见的衡量两个集合相似性的一种方法，其也很适合用于衡量短文本的相似性，但由于计算量过大，所以无法直接用于大数据量的文本聚合。但是，通过Jaccard相似度校验，却可以完全解决Simhash算法的碰撞问题，消除了Simhash碰撞导致的误判问题。因而，采用Simhash算法结合Jaccard相似度校验的判定方法对待聚合文本进行相似性分析时，可达到准确且又快速地对短文本进行聚合的效果。

进一步地，在本申请所述实施例中，所述方法还可包括以下步骤：

若确定已构建的与所述设定的局部敏感哈希算法相对应的哈希索引中，不存在与计算得到的哈希值之间的距离不大于设定距离的匹配值；或者，确定已构建的与所述设定的局部敏感哈希算法相对应的哈希索引中，存在与计算得到的哈希值之间的距离不大于设定距离的匹配值、且确定所述第一文本特征集合与所述第二文本特征集合之间的相似度小于设定的相似度阈值；则将计算得到的哈希值更新至(即添加至)已构建的与所述设定的局部敏感哈希算法相对应的哈希索引中，并基于所述待聚合文本创建一个新的文本类，以及将所述待聚合文本归至创建的所述新的文本类中。

也就是说，若确定待聚合文本不归属于任何一个已创建的文本类时，可将所述待聚合文本对应的哈希值添加至相应的哈希索引中，并将所述待聚合文本归至一个新创建的文本类中，本申请实施例对此不作赘述。

进一步地，需要说明的是，本申请实施例所述方案无语言、软件或者硬件的限制。但是，为了提高文本聚合的效率，可优先选用性能高的编程语言(如C++或者Java等)和性能高的硬件等来实现，本申请实施例对此不作赘述。

本申请实施例一提供了一种文本聚合方法，在本申请实施例一所述技术方案中，可对长度不大于设定的长度阈值的待聚合文本进行特征提取，并在得到与所述待聚合文本相对应的文本特征集合之后，可采用局部敏感哈希算法结合相似度校验的判定方法，对所述待聚合文本进行相似性分析以实现待聚合文本的聚合，从而可在解决基于向量空间模型或概率模型进行短文本相似性分析时所导致的文本聚合结果准确性较低、实时性较低的问题，达到准确且又快速地对短文本进行聚合的效果，如可实现大数据流量(如大于1万条/秒等)下的短文本的实时聚合，以支持对数据流的实时分析。

实施例二：

基于同一发明构思，本申请实施例二提供了一种文本聚合装置，该文本聚合装置的具体实施可参见上述方法实施例一中的相关描述，重复之处不再赘述，如图2所示，该文本聚合装置主要可包括：

特征提取单元21，可用于对长度不大于设定的长度阈值的待聚合文本进行特征提取，得到与所述待聚合文本相对应的第一文本特征集合；

文本聚合单元22，可用于基于设定的局部敏感哈希算法计算所述第一文本特征集合的哈希值，并根据计算得到的哈希值，判断已构建的与所述设定的局部敏感哈希算法相对应的哈希索引中，是否存在与计算得到的哈希值之间的距离不大于设定距离的匹配值；若是，则从与计算得到的哈希值之间的距离不大于设定距离的匹配值中，选取与计算得到的哈希值之间的距离最小的匹配值，并计算所述第一文本特征集合与所述最小的匹配值所对应的第二文本特征集合之间的相似度；以及，若确定所述第一文本特征集合与所述第二文本特征集合之间的相似度不小于设定的相似度阈值，则将所述待聚合文本聚合至所述第二文本特征集合所对应的文本类中。

其中，所述设定的局部敏感哈希算法不限于为Simhash算法或Minhash算法等。且，所述第一文本特征集合与所述第二文本特征集合之间的相似度至少可通过以下任意一种或多种相似度度量参数来表示：Jaccard相似度、欧式距离以及海明距离等。

进一步地，所述文本聚合单元22，还可用于若确定已构建的与所述设定的局部敏感哈希算法相对应的哈希索引中，不存在与计算得到的哈希值之间的距离不大于设定距离的匹配值；或者，确定已构建的与所述设定的局部敏感哈希算法相对应的哈希索引中，存在与计算得到的哈希值之间的距离不大于设定距离的匹配值、且确定所述第一文本特征集合与所述第二文本特征集合之间的相似度小于设定的相似度阈值；则将计算得到的哈希值更新至已构建的与所述设定的局部敏感哈希算法相对应的哈希索引中，并基于所述待聚合文本创建一个新的文本类，以及将所述待聚合文本归至创建的所述新的文本类中。

进一步地，为了提高文本特征的提取效果，在本申请所述实施例中，所述特征提取单元21具体可用于基于机械分词结合N元模型的特征提取方式对长度不大于设定的长度阈值的待聚合文本进行特征提取，得到与所述待聚合文本相对应的第一文本特征集合，所述N为大于1的自然数。

可选地，所述特征提取单元21具体可用于以中文汉字以及连续的字符串为最小切分单元，对所述待聚合文本进行分词，得到多个分词；并基于N元模型，将得到的多个分词中的任意N个连续的分词组合为一文本特征，得到与所述待聚合文本相对应的文本特征集合。

进一步地，所述装置还可包括预处理单元23：

所述预处理单元23，可用于在对长度不大于设定的长度阈值的待聚合文本进行特征提取之前，对所述待聚合文本进行预处理；其中，所述预处理至少可包括：去除待聚合文本中的特殊标签、去除待聚合文本中的非文字特殊符号、对待聚合文本进行繁简字体转换、以及将待聚合文本中的连续性的拉丁文和/或数字归一化为设定的字符串等中的一种或多种。

本领域技术人员应明白，本申请的实施例可提供为方法、装置(设备)、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种文本聚合方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

若确定已构建的与所述设定的局部敏感哈希算法相对应的哈希索引中，不存在与计算得到的哈希值之间的距离不大于设定距离的匹配值；或者，确定已构建的与所述设定的局部敏感哈希算法相对应的哈希索引中，存在与计算得到的哈希值之间的距离不大于设定距离的匹配值、且确定所述第一文本特征集合与所述第二文本特征集合之间的相似度小于设定的相似度阈值，则

将计算得到的哈希值更新至已构建的与所述设定的局部敏感哈希算法相对应的哈希索引中，并基于所述待聚合文本创建一个新的文本类，以及将所述待聚合文本归至创建的所述新的文本类中。

3.如权利要求1或2所述的方法，其特征在于，所述对长度不大于设定的长度阈值的待聚合文本进行特征提取，得到与所述待聚合文本相对应的文本特征集合，包括：

基于机械分词结合N元模型的特征提取方式对长度不大于设定的长度阈值的待聚合文本进行特征提取，得到与所述待聚合文本相对应的第一文本特征集合，所述N为大于1的自然数。

4.如权利要求3所述的方法，其特征在于，所述基于机械分词结合N元模型的特征提取方式对长度不大于设定的长度阈值的待聚合文本进行特征提取，得到与所述待聚合文本相对应的第一文本特征集合，包括：

以中文汉字以及连续的字符串为最小切分单元，对所述待聚合文本进行分词，得到多个分词；

基于N元模型，将得到的多个分词中的任意N个连续的分词组合为一文本特征，得到与所述待聚合文本相对应的文本特征集合。

5.如权利要求1或2所述的方法，其特征在于，所述设定的局部敏感哈希算法不限于为Simhash算法或Minhash算法。

6.如权利要求1或2所述的方法，其特征在于，所述第一文本特征集合与所述第二文本特征集合之间的相似度至少通过Jaccard相似度、欧式距离以及海明距离中的任意一种或多种相似度度量参数来表示。

7.如权利要求1或2所述的方法，其特征在于，在对长度不大于设定的长度阈值的待聚合文本进行特征提取之前，所述方法还包括：

对所述待聚合文本进行预处理；其中，所述预处理至少包括：去除待聚合文本中的特殊标签、去除待聚合文本中的非文字特殊符号、对待聚合文本进行繁简字体转换、以及将待聚合文本中的连续性的拉丁文和/或数字归一化为设定的字符串中的一种或多种。

8.一种文本聚合装置，其特征在于，包括：

9.如权利要求8所述的装置，其特征在于，

所述文本聚合单元，还用于若确定已构建的与所述设定的局部敏感哈希算法相对应的哈希索引中，不存在与计算得到的哈希值之间的距离不大于设定距离的匹配值；或者，确定已构建的与所述设定的局部敏感哈希算法相对应的哈希索引中，存在与计算得到的哈希值之间的距离不大于设定距离的匹配值、且确定所述第一文本特征集合与所述第二文本特征集合之间的相似度小于设定的相似度阈值，则

10.如权利要求8或9所述的装置，其特征在于，

所述特征提取单元，具体用于基于机械分词结合N元模型的特征提取方式对长度不大于设定的长度阈值的待聚合文本进行特征提取，得到与所述待聚合文本相对应的第一文本特征集合，所述N为大于1的自然数。

11.如权利要求10所述的装置，其特征在于，

所述特征提取单元，具体用于以中文汉字以及连续的字符串为最小切分单元，对所述待聚合文本进行分词，得到多个分词；并基于N元模型，将得到的多个分词中的任意N个连续的分词组合为一文本特征，得到与所述待聚合文本相对应的文本特征集合。

12.如权利要求8或9所述的装置，其特征在于，所述设定的局部敏感哈希算法不限于为Simhash算法或Minhash算法。

13.如权利要求8或9所述的装置，其特征在于，所述第一文本特征集合与所述第二文本特征集合之间的相似度至少通过Jaccard相似度、欧式距离以及海明距离中的任意一种或多种相似度度量参数来表示。

14.如权利要求8或9所述的装置，其特征在于，所述装置还包括预处理单元：

所述预处理单元，用于在对长度不大于设定的长度阈值的待聚合文本进行特征提取之前，对所述待聚合文本进行预处理；

其中，所述预处理至少包括：去除待聚合文本中的特殊标签、去除待聚合文本中的非文字特殊符号、对待聚合文本进行繁简字体转换、以及将待聚合文本中的连续性的拉丁文和/或数字归一化为设定的字符串中的一种或多种。