CN103744889B

CN103744889B - 一种用于对问题进行聚类处理的方法与装置

Info

Publication number: CN103744889B
Application number: CN201310718033.5A
Authority: CN
Inventors: 李皛皛; 方高林; 孟新萍; 杨帆
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2013-12-23
Filing date: 2013-12-23
Publication date: 2019-02-22
Anticipated expiration: 2033-12-23
Also published as: CN103744889A

Abstract

本发明的目的是提供一种用于对问题进行聚类处理的方法与装置；获取待聚类的目标问题与候选问题；根据所述目标问题与候选问题的问题特征，确定所述目标问题与候选问题的特征向量；根据所述目标问题与候选问题的特征向量，计算所述目标问题与候选问题的相似度；根据所述相似度，并结合分段阈值，判断是否将所述目标问题与候选问题聚为一类。与现有技术相比，本发明根据待聚类的目标问题与候选问题的问题特征，确定特征向量，进而计算该目标问题与候选问题的相似度，并结合分段阈值，判断是否将该目标问题与候选问题聚为一类，高效、准确地对问题进行聚类处理，整合了问题资源，提高了用户的检索体验。

Description

一种用于对问题进行聚类处理的方法与装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种用于对问题进行聚类处理的技术。

背景技术

目前在知道站内，存在着大量未经整理的重复资源，当用户检索某个问题寻求答案时，需要浏览多个同样的问题来得到解决。同时这部分资源的质量也是参差不齐，用户还需要对这些答案进行筛选，来获取较满意的答案。在这个过程中用户付出的点击成本较高，检索体验较差。经过数据分析发现，在知道站内已沉淀的资源中有39.5%为重复问题，其中22.92%的重复问题在问题描述的文本语义上是一致的。

目前，针对提问/短语类型的短串，具有若干工具可以进行其语义一致性的判断。其主要使用了类型划分、同义词替换、非关键词省略等技术方案，具有较好的效果。但是应用于带问题描述的提问时，往往不一定非常合适。因为在UGC问答社区，其提问具有多种不同的形式。例如：a）用户通常会在提问时写入一个较泛的问题“请教一个数学题”，而内容则详细描述；b）用户有多个问题，并不都在问题标题中全部包含，而会在详细描述中继续提问；c）在评论中也可能带有提问信息，等等。上述问题表明不能够完全照搬原有的语义一致性判断方法，必须开发一种适合问答类UGC产品的提问语义一致性判别算法。

因此，如何高效、准确地对问题进行聚类处理，成为本领域技术人员亟需解决的问题之一。

发明内容

本发明的目的是提供一种用于对问题进行聚类处理的方法与装置。

根据本发明的一个方面，提供了一种用于对问题进行聚类处理的方法，其中，该方法包括以下步骤：

a 获取待聚类的目标问题与候选问题；

b 根据所述目标问题与候选问题的问题特征，确定所述目标问题与候选问题的特征向量；

c 根据所述目标问题与候选问题的特征向量，计算所述目标问题与候选问题的相似度；

d 根据所述相似度，并结合分段阈值，判断是否将所述目标问题与候选问题聚为一类。

根据本发明的另一方面，还提供了一种用于对问题进行聚类处理的聚类装置，其中，该聚类装置包括：

获取装置，用于获取待聚类的目标问题与候选问题；

确定装置，用于根据所述目标问题与候选问题的问题特征，确定所述目标问题与候选问题的特征向量；

计算装置，用于根据所述目标问题与候选问题的特征向量，计算所述目标问题与候选问题的相似度；

判断装置，用于根据所述相似度，并结合分段阈值，判断是否将所述目标问题与候选问题聚为一类。

与现有技术相比，本发明获取待聚类的目标问题与候选问题，根据所述目标问题与候选问题的问题特征，确定所述目标问题与候选问题的特征向量，根据所述目标问题与候选问题的特征向量，计算所述目标问题与候选问题的相似度，根据所述相似度，并结合分段阈值，判断是否将所述目标问题与候选问题聚为一类，高效、准确地对问题进行聚类处理，整合了问题资源，提高了用户的检索体验。

进一步地，聚类装置1通过放宽提问语义一致性判断的阈值，再加上进一步的过滤匹配手段，根据问题类型进行匹配过滤、根据关键词进行过滤匹配、根据关键表达式进行过滤匹配等，从而能够发现更多的语义一致性问题，进一步提高了问题聚类的效率与准确率，提升了用户的检索体验。

进一步地，本发明进一步结合目标问题或候选问题的问题内容信息与补充内容信息，计算该目标问题与候选问题的相似度，从而判断是否将所述目标问题与候选问题聚为一类，该聚类装置1基于问题描述语义一致性对问题进行聚类处理，通过对问题的标题和具体内容进行综合分析，对问题进行聚类处理，进一步整合了问题资源，提高了用户的检索体验。

进一步地，本发明应用增量聚簇的方法，处理大规模实时增长的聚类问题，进一步整合了问题资源，提高了用户的检索体验。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出根据本发明一个方面的用于对问题进行聚类处理的装置示意图；

图2示出根据本发明一个优选实施例的用于对问题进行聚类处理的装置示意图；

图3示出根据本发明另一个方面的用于对问题进行聚类处理的方法流程图；

图4示出根据本发明一个优选实施例的用于对问题进行聚类处理的方法流程图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

图1示出根据本发明一个方面的用于对问题进行聚类处理的装置示意图。聚类装置1包括获取装置101、确定装置102、计算装置103和判断装置104。

获取装置101获取待聚类的目标问题与候选问题。具体地，获取装置101例如通过与问题库的交互，自该问题库中获取待聚类的目标问题与候选问题，或者，该获取装置101直接通过与用户设备的交互，如通过一次或多次调用该用户设备提供的应用程序接口（API），或通过诸如ASP、JSP或PHP等动态网页技术，获取用户输入的问题，并将其作为目标问题或候选问题。

在此，该问题库中存储有用户输入的问题，该问题的问题内容信息或补充内容信息等，例如，该问题库定期或实时地，获取用户输入的问题，并将其进行存储，以实现该问题库的建立或更新。该问题库既可以位于该聚类装置1中，也可位于与该聚类装置1通过网络相连接的第三方设备中。

本领域技术人员应能理解上述获取待聚类的目标问题与候选问题的方式仅为举例，其他现有的或今后可能出现的获取待聚类的目标问题与候选问题的方式如可适用于本发明，也应包含在本发明保护范围以内，并在此以引用方式包含于此。

确定装置102根据所述目标问题与候选问题的问题特征，确定所述目标问题与候选问题的特征向量。具体地，确定装置102根据该目标问题与候选问题的问题特征，如该目标问题或候选问题的标题中的关键词特征、结构特征、语义特征、问题类型特征等，确定该目标问题与候选问题的特征向量。例如，该确定装置102对该目标问题或候选问题进行关键词识别赋权，如提取在问句匹配计算中重要的词，并赋予不同的权重；或者，该确定装置102对该目标问题或候选问题进行结构分析与权重调整，对问句进行结构分析，并通过语义模版和词汇结构的方式进行类似语义冗余的识别；或者，该确定装置102对该目标问题或候选问题进行语义映射，引入同义词资源，将用不同词语表达的同一个意义的词进行归一；又或者，该确定装置102对该目标问题或候选问题进行问题类型识别，通过识别为不同的类型，将类型作为一个重要的因子参与相似度权重计算。进而，该确定装置102根据上述一个或多个问题特征，确定该目标问题与候选问题的特征向量。

在此，该目标问题与候选问题的问题特征包括但不限于：

-关键词特征；

-结构特征；

-语义特征；

-问题类型特征。

本领域技术人员应能理解上述问题特征仅为举例，其他现有的或今后可能出现的问题特征如可适用于本发明，也应包含在本发明保护范围以内，并在此以引用方式包含于此。

计算装置103根据所述目标问题与候选问题的特征向量，计算所述目标问题与候选问题的相似度。具体地，计算装置103根据该确定装置102所确定的目标问题与候选问题的特征向量，计算该目标问题与候选问题的相似度，例如，该计算装置103根据下式，计算该目标问题与候选问题的距离：

其中，Sim(S₁,S₂)表示目标问题与候选问题的相似度，Wgt(w)表示词w的权重值，其中下标1k_t表示目标问题中的词，下标2k_j表示候选问题中的词，分子表示该目标问题或候选问题中共现的词，共现的词越多或该词的权重越高，则该分子的值越大；分母表示该目标问题或候选问题中所有词的权重之和；SentType(S₁，S₂)表示该目标问题与候选问题的问题类型的相似度，该目标问题与候选问题的问题类型越相似，该SentType(S₁，S₂)的值越大。

在计算获得该目标问题与候选问题的距离之后，该计算装置103再根据该距离，确定该目标问题与候选问题的相似度，例如，该计算装置103直接将计算得到的距离值作为该目标问题与候选问题的相似度；或者，该计算装置103通过一定的数值转换，将计算得到的距离值映射为该目标问题与候选问题的相似度。

本领域技术人员应能理解上述确定目标问题与候选问题的相似度的方式仅为举例，其他现有的或今后可能出现的确定目标问题与候选问题的相似度的方式如可适用于本发明，也应包含在本发明保护范围以内，并在此以引用方式包含于此。

判断装置104根据所述相似度，并结合分段阈值，判断是否将所述目标问题与候选问题聚为一类。例如，假设只有一个预置的分段阈值，其值为A，当该计算装置103计算得到的该目标问题与候选问题的相似度大于或等于该分段阈值A，则该判断装置104判断将该目标问题与该候选问题聚为一类；若该相似度小于该分段阈值A，将不将该目标问题与候选问题聚为一类。

又如，假设有两个预置的分段阈值B和C，其中，分段阈值B的值小于该分段阈值C的值，则该判断装置104将相似度小于该分段阈值B的目标问题与候选问题确定为具有低相似度的目标问题与候选问题，不对其进行聚类处理；将相似度大于或等于该分段阈值B且小于该分段阈值C的目标问题与候选问题，确定为具有中相似度的目标问题与候选问题；将相似度大于或等于该分段阈值C的目标问题与候选问题，确定为具有高相似度的目标问题与候选问题。对于确定为中相似度或高相似度的目标问题与候选问题，该聚类装置1对其进行后续处理，下文将对其进行详细描述。

在此，该分段阈值为用于分段确定具有不同相似度的目标问题与候选问题的相似度阈值，例如，基于分段阈值分段确定具有高相似度的目标问题与候选问题、确定具有中相似度的目标问题与候选问题、确定具有低相似度的目标问题与候选问题等，该分段阈值的数量与数值可以是预置的、固定的值，也可根据该目标问题与候选问题的聚类情况进行动态调整。

本领域技术人员应能理解上述判断是否将目标问题与候选问题聚为一类的方式仅为举例，其他现有的或今后可能出现的判断是否将目标问题与候选问题聚为一类的方式如可适用于本发明，也应包含在本发明保护范围以内，并在此以引用方式包含于此。

优选地，聚类装置1的各个装置之间是持续不断工作的。具体地，获取装置101获取待聚类的目标问题与候选问题；确定装置102根据所述目标问题与候选问题的问题特征，确定所述目标问题与候选问题的特征向量；计算装置103根据所述目标问题与候选问题的特征向量，计算所述目标问题与候选问题的相似度；判断装置104根据所述相似度，并结合分段阈值，判断是否将所述目标问题与候选问题进行聚为一类。在此，本领域技术人员应理解“持续”是指聚类装置1的各装置分别按照设定的或实时调整的工作模式要求进行目标问题与候选问题的获取、特征向量的确定、相似度的计算及聚类判断，直至该聚类装置1在较长时间内停止获取待聚类的目标问题与候选问题。

在此，聚类装置1获取待聚类的目标问题与候选问题，根据所述目标问题与候选问题的问题特征，确定所述目标问题与候选问题的特征向量，根据所述目标问题与候选问题的特征向量，计算所述目标问题与候选问题的相似度，根据所述相似度，并结合分段阈值，判断是否将所述目标问题与候选问题聚为一类，高效、准确地对问题进行聚类处理，整合了问题资源，提高了用户的检索体验。

优选地，所述判断装置104根据所述相似度，并结合分段阈值，确定具有中相似度的目标问题与候选问题；其中，该聚类装置1还包括匹配装置（未示出），该匹配装置基于后续匹配处理，判断是否将所述具有中相似度的目标问题与候选问题聚为一类。具体地，判断装置104根据计算装置103计算所得的相似度，将相似度满足中相似度所对应的分段阈值的目标问题与候选问题，确定为具有中相似度的目标问题与候选问题；随后，匹配装置基于后续匹配处理，例如问题类型匹配处理、关键词匹配处理、关键表达式匹配处理等，判断是否将该具有中相似度的目标问题与候选问题聚为一类。

例如，对于确定为具有中相似度的目标问题与候选问题，匹配装置进一步获取该目标问题与候选问题中的关键表达式，若该目标问题与候选问题均包括了某一关键表达式，则该匹配装置判断将该目标问题与候选问题聚为一类；若仅该目标问题包括了该关键表达式，而该候选问题未包括，或反之，则该匹配装置判断该目标问题与候选问题不能聚为一类。

更优选地，所述后续匹配处理包括以下至少任一项：

-问题类型匹配；

-关键词匹配；

-关键表达式匹配。

例如，该匹配装置基于问题类型匹配处理，判断是否将所述具有中相似度的目标问题与候选问题聚为一类。在该匹配装置进行问题类型匹配时，主要通过限制问题内容类型以及问句的数量两个条件，进行后续匹配。在此，问题内容类型指的是将问题的内容划分为问句（Q），非问句（N）和描述性句子（D）。结合问题的类型，从而形成“问题标题的类型+问题内容类型”的综合标记。问句的数量分别统计了问题标题中问句的数量以及问题内容信息中的问句数量。

在进行问题类型匹配时，将根据问题类型的匹配程度和问句数量的情况进行相应的规则过滤。对于类型不匹配的问题对直接过滤掉，对于问题类型匹配的问题对再根据问题标题中问句的数量和总的问句数量进行过滤。这里问句类型的判断以及问句数量的统计是分别对问题标题和问题内容信息处理后综合的结果。

又如，该匹配装置基于关键词匹配处理，判断是否将所述具有中相似度的目标问题与候选问题聚为一类。两个语义相同的句子，某些重要的词应该是相同的或是同义的，关键词匹配就是基于这一点。关键词是通过将wordrank结果按照rank值进行降序排列，筛选出的排序值最高的N（N≥1）个词。其中，wordrank为一种词权重的计算方法，rank值为通过wordrank计算得到的排序值，排序值越大，则词的关键程度越高。对于不同长度类型的问题标题，选择不同数量的关键词。对于较短的问题标题，关键词要求完全匹配；对于较长的问题标题，关键词要求大部分能够匹配。

再如，该匹配装置基于关键表达式匹配处理，判断是否将所述具有中相似度的目标问题与候选问题聚为一类。一些比较重要的表达式在两个问题中都应该存在，如果在一个问题中有而另一个问题中没有，则不能认为两个问题是语义一致的。在此，关键表达式包括但不限于：

1）一些特定类型的命名实体，例如，地名，小说名等；

2）有闭合形式的表达式，例如，用书名号，引号等封闭起来的字符串；

3）时间表达式，例如，X年，X月，星期X之类的时间；

4）数量表达式，包括具体的数量和年级；

5）英文数字串，主要是数学题目中的数学表达式；

在进行关键表达式匹配之前，需要识别出目标问题和候选问题中的特殊表达式。匹配是双向进行的，即，候选问题必须包含该目标问题中的特殊表达式，同时候选问题中又不能包含其他多余的特殊表达式。

优选地，该匹配装置基于上述任意多种后续匹配处理，判断是否将所述具有中相似度的目标问题与候选问题聚为一类。

本领域技术人员应能理解上述后续匹配处理仅为举例，其他现有的或今后可能出现的后续匹配处理如可适用于本发明，也应包含在本发明保护范围以内，并在此以引用方式包含于此。

由于当采用较严格的提问语义一致性概率时，会筛掉很多原本语义一致的问题，因此，在此补充了一个扩大语义一致性问题召回的策略。聚类装置1通过放宽提问语义一致性判断的阈值，再加上进一步的过滤匹配手段，根据问题类型进行匹配过滤、根据关键词进行过滤匹配、根据关键表达式进行过滤匹配等，从而能够发现更多的语义一致性问题，进一步提高了问题聚类的效率与准确率，提升了用户的检索体验。

优选地，所述判断装置104根据所述相似度，并结合分段阈值，确定具有高相似度的目标问题与候选问题；其中，该聚类装置1还包括重计算装置（未示出），该重计算装置基于所述目标问题与候选问题的问题内容信息与补充内容信息，重新计算所述目标问题与候选问题的相似度，以判断是否将所述具有高相似度的目标问题与候选问题聚为一类。

具体地，判断装置104根据计算装置103计算所得的相似度，将相似度满足高相似度所对应的分段阈值的目标问题与候选问题，确定为具有高相似度的目标问题与候选问题；随后，重计算装置例如通过与问题库的交互，自该问题库中获取目标问题或候选问题的问题内容信息与补充内容信息，或者，该重计算装置直接通过与用户设备的交互，如通过一次或多次调用该用户设备提供的应用程序接口（API），或通过诸如ASP、JSP或PHP等动态网页技术，获取用户输入的问题的问题内容信息或补充内容信息等，进而，基于该目标问题与候选问题的问题内容信息与补充内容信息，重新计算该目标问题与候选问题的相似度，以判断是否将所述具有高相似度的目标问题与候选问题聚为一类。

例如，对于重新计算得出的该目标问题与候选问题的相似度，当该相似度大于或等于预置相似阈值时，判断将该目标问题与候选问题聚为一类；当该相似度小于该预置相似阈值时，判断不将该目标问题与候选问题聚为一类。

在此，该预置相似阈值为基于目标问题与候选问题的相似度，判断是否将它们聚为一类的相似度阈值，其值是预置的。

在此，该问题内容信息为该用户在首次提出该目标问题或候选问题时对该目标问题或候选问题的具体内容描述；补充内容信息例如用户在该目标问题或候选问题提出一段时间后继续补充的信息。

更优选地，所述重计算装置进一步对所述具有高相似度的目标问题与候选问题进行问题类型匹配，以判断是否将所述具有高相似度的目标问题与候选问题聚为一类。具体地，在判断装置104根据相似度，并结合分段阈值，确定具有高相似度的目标问题与候选问题之后，该重计算装置进一步对该具有高相似度的目标问题与候选问题进行问题类型匹配；或者，在重计算装置重新计算该目标问题与候选问题的相似度之后，该重计算装置进一步对该具有高相似度的目标问题与候选问题进行问题类型匹配，以判断是否将该目标问题与候选问题聚为一类。例如，当该具有高相似度的目标问题与候选问题的问题类型匹配时，判断将该目标问题与候选问题聚为一类；当其问题类型不匹配时，判断不将该目标问题与候选问题聚为一类。

在此，该问题类型匹配的方式与前述问题类型匹配处理的方式相类似，故此处不再赘述，并通过引用的方式包含于此。

在此，聚类装置1进一步结合目标问题或候选问题的问题内容信息与补充内容信息，计算该目标问题与候选问题的相似度，从而判断是否将所述目标问题与候选问题聚为一类，该聚类装置1基于问题描述语义一致性对问题进行聚类处理，通过对问题的标题和具体内容进行综合分析，对问题进行聚类处理，进一步整合了问题资源，提高了用户的检索体验。

图2示出根据本发明一个优选实施例的用于对问题进行聚类处理的装置示意图。该聚类装置1还包括过滤装置205。以下参照图2对该优选实施例进行详细描述：具体地，获取装置201获取待聚类的新增问题与候选问题；过滤装置205对所述待聚类的目标问题与候选问题进行预处理过滤，获得经预处理过滤的目标问题与候选问题；确定装置202根据所述经预处理过滤的目标问题与候选问题的问题特征，确定所述目标问题与候选问题的特征向量；计算装置203根据所述目标问题与候选问题的特征向量，计算所述目标问题与候选问题的相似度；判断装置204根据所述相似度，并结合分段阈值，判断是否将所述目标问题与候选问题进行聚为一类。其中，获取装置201、计算装置203及判断装置204与图1所示对应装置相同或基本相同，故此处不再赘述，并通过引用的方式包含于此。

其中，该过滤装置205对所述待聚类的目标问题与候选问题进行预处理过滤，获得经预处理过滤的目标问题与候选问题；其中，所述确定装置202根据所述经预处理过滤的目标问题与候选问题的问题特征，确定所述目标问题与候选问题的特征向量。

具体地，过滤装置对获取装置201所获取的待聚类的目标问题与候选问题进行预处理过滤，例如，根据应用场景过滤不相关问题、过滤时效性较强的问题、或过滤掉已完成聚类的问题等，进而获得经预处理过滤的目标问题与候选问题；随后，该确定装置202根据该经预处理过滤的目标问题与候选问题的问题特征，如该经预处理过滤的目标问题或候选问题的标题中的关键词特征、结构特征、语义特征、问题类型特征等，确定该目标问题与候选问题的特征向量。

优选地，所述目标问题包括新增问题；所述判断装置204确定与所述新增问题具有最大相似度的候选问题；基于所述最大相似度，并结合预定阈值，判断是否将所述新增问题与所述候选问题聚为一类。由于新增问题是不断出现的，因此，采用增量的方式进行聚类处理。所谓的增量聚类，是指对于待聚类的新增问题，只新建一个聚类或者是将该新增问题归并到一个已有的聚类中。增量聚类不会对原有的聚类结构造成变动，即对于已经聚类的问题，新增问题不会对他们的标记产生影响。具体地，对于获取装置201所获取的新增问题与候选问题；确定装置202根据该新增目标问题与候选问题的问题特征，确定其特征向量；计算装置203根据该目标问题与候选问题的特征向量，计算该目标问题与候选问题的相似度；判断装置204根据该计算装置203所计算得出的相似度，从中选择一最大的相似度，从而确定与该新增问题具有最大相似度的候选问题；进而，该判断装置204基于该最大相似度，并结合预定阈值，判断是否将该新增问题与该候选问题聚为一类；也即，当该最大相似度大于或等于预定阈值时，将该新增问题与该最大相似度所对应的候选问题聚为一类，即，将该新增问题归并到该最大相似度所对应的候选问题的聚类中；当该最大相似度小于预定阈值时，不将该新增问题与该最大相似度所对应的候选问题聚为一类。

在此，该预定阈值为用于判断是否将新增问题和与之具有最大相似度的候选问题聚为一类的相似度阈值，其值是预置的。

较佳地，该聚类装置1按照新增问题的提出时间顺序进行增量聚类处理，即，先提出的新增问题先进行增量聚类处理，该聚类装置1以串行的方式，按提出时间顺序，对所有新增问题进行增量聚类处理。更佳地，该聚类装置1定期地对该新增问题进行增量聚类处理。更佳地，该聚类装置1对新增问题进行预处理过滤，过滤掉已被删除的新增问题，或者，过滤掉已进行过增量聚类处理的新增问题。

在此，聚类装置1应用增量聚簇的方法，处理大规模实时增长的聚类问题，进一步整合了问题资源，提高了用户的检索体验。

优选地，该聚类装置1还包括新建装置（未示出），该新建装置若所述最大相似度小于所述预定阈值，为所述新增问题新建一类。具体地，对于新增问题，计算装置203分别计算该新增问题与已有候选问题的相似度；当判断装置204从中确定出最大相似度时，若该最大相似度仍然小于预定阈值，则该新增问题不能与任何已有的候选问题聚为一类，该新建装置为该新增问题新建一类。

图3示出根据本发明另一个方面的用于对问题进行聚类处理的方法流程图。

在步骤S301中，聚类装置1获取待聚类的目标问题与候选问题。具体地，在步骤S301中，聚类装置1例如通过与问题库的交互，自该问题库中获取待聚类的目标问题与候选问题，或者，在步骤S301中，聚类装置1直接通过与用户设备的交互，如通过一次或多次调用该用户设备提供的应用程序接口（API），或通过诸如ASP、JSP或PHP等动态网页技术，获取用户输入的问题，并将其作为目标问题或候选问题。

在步骤S302中，聚类装置1根据所述目标问题与候选问题的问题特征，确定所述目标问题与候选问题的特征向量。具体地，在步骤S302中，聚类装置1根据该目标问题与候选问题的问题特征，如该目标问题或候选问题的标题中的关键词特征、结构特征、语义特征、问题类型特征等，确定该目标问题与候选问题的特征向量。例如，在步骤S302中，聚类装置1对该目标问题或候选问题进行关键词识别赋权，如提取在问句匹配计算中重要的词，并赋予不同的权重；或者，在步骤S302中，聚类装置1对该目标问题或候选问题进行结构分析与权重调整，对问句进行结构分析，并通过语义模版和词汇结构的方式进行类似语义冗余的识别；或者，在步骤S302中，聚类装置1对该目标问题或候选问题进行语义映射，引入同义词资源，将用不同词语表达的同一个意义的词进行归一；又或者，在步骤S302中，聚类装置1对该目标问题或候选问题进行问题类型识别，通过识别为不同的类型，将类型作为一个重要的因子参与相似度权重计算。进而，在步骤S302中，聚类装置1根据上述一个或多个问题特征，确定该目标问题与候选问题的特征向量。

在此，该目标问题与候选问题的问题特征包括但不限于：

-关键词特征；

-结构特征；

-语义特征；

-问题类型特征。

在步骤S303中，聚类装置1根据所述目标问题与候选问题的特征向量，计算所述目标问题与候选问题的相似度。具体地，在步骤S303中，聚类装置1根据在步骤S302中所确定的目标问题与候选问题的特征向量，计算该目标问题与候选问题的相似度，例如，在步骤S303中，聚类装置1根据下式，计算该目标问题与候选问题的距离：

在计算获得该目标问题与候选问题的距离之后，在步骤S303中，聚类装置1再根据该距离，确定该目标问题与候选问题的相似度，例如，在步骤S303中，聚类装置1直接将计算得到的距离值作为该目标问题与候选问题的相似度；或者，在步骤S303中，聚类装置1通过一定的数值转换，将计算得到的距离值映射为该目标问题与候选问题的相似度。

在步骤S304中，聚类装置1根据所述相似度，并结合分段阈值，判断是否将所述目标问题与候选问题聚为一类。例如，假设只有一个预置的分段阈值，其值为A，当在步骤S303中，聚类装置1计算得到的该目标问题与候选问题的相似度大于或等于该分段阈值A，则在步骤S304中，聚类装置1判断将该目标问题与该候选问题聚为一类；若该相似度小于该分段阈值A，将不将该目标问题与候选问题聚为一类。

又如，假设有两个预置的分段阈值B和C，其中，分段阈值B的值小于该分段阈值C的值，则在步骤S304中，聚类装置1将相似度小于该分段阈值B的目标问题与候选问题确定为具有低相似度的目标问题与候选问题，不对其进行聚类处理；将相似度大于或等于该分段阈值B且小于该分段阈值C的目标问题与候选问题，确定为具有中相似度的目标问题与候选问题；将相似度大于或等于该分段阈值C的目标问题与候选问题，确定为具有高相似度的目标问题与候选问题。对于确定为中相似度或高相似度的目标问题与候选问题，该聚类装置1对其进行后续处理，下文将对其进行详细描述。

优选地，聚类装置1的各个步骤之间是持续不断工作的。具体地，在步骤S301中，聚类装置1获取待聚类的目标问题与候选问题；在步骤S302中，聚类装置1根据所述目标问题与候选问题的问题特征，确定所述目标问题与候选问题的特征向量；在步骤S303中，聚类装置1根据所述目标问题与候选问题的特征向量，计算所述目标问题与候选问题的相似度；在步骤S304中，聚类装置1根据所述相似度，并结合分段阈值，判断是否将所述目标问题与候选问题进行聚为一类。在此，本领域技术人员应理解“持续”是指聚类装置1的各步骤分别按照设定的或实时调整的工作模式要求进行目标问题与候选问题的获取、特征向量的确定、相似度的计算及聚类判断，直至该聚类装置1在较长时间内停止获取待聚类的目标问题与候选问题。

优选地，在步骤S304中，聚类装置1根据所述相似度，并结合分段阈值，确定具有中相似度的目标问题与候选问题；其中，该方法还包括步骤S306（未示出），在步骤S306中，聚类装置1基于后续匹配处理，判断是否将所述具有中相似度的目标问题与候选问题聚为一类。具体地，在步骤S304中，聚类装置1根据在步骤S303中计算所得的相似度，将相似度满足中相似度所对应的分段阈值的目标问题与候选问题，确定为具有中相似度的目标问题与候选问题；随后，在步骤S306中，聚类装置1基于后续匹配处理，例如问题类型匹配处理、关键词匹配处理、关键表达式匹配处理等，判断是否将该具有中相似度的目标问题与候选问题聚为一类。

例如，对于确定为具有中相似度的目标问题与候选问题，在步骤S306中，聚类装置1进一步获取该目标问题与候选问题中的关键表达式，若该目标问题与候选问题均包括了某一关键表达式，则在步骤S306中，聚类装置1判断将该目标问题与候选问题聚为一类；若仅该目标问题包括了该关键表达式，而该候选问题未包括，或反之，则在步骤S306中，聚类装置1判断该目标问题与候选问题不能聚为一类。

更优选地，所述后续匹配处理包括以下至少任一项：

-问题类型匹配；

-关键词匹配；

-关键表达式匹配。

例如，在步骤S306中，聚类装置1基于问题类型匹配处理，判断是否将所述具有中相似度的目标问题与候选问题聚为一类。在步骤S306中，聚类装置1进行问题类型匹配时，主要通过限制问题内容类型以及问句的数量两个条件，进行后续匹配。在此，问题内容类型指的是将问题的内容划分为问句（Q），非问句（N）和描述性句子（D）。结合问题的类型，从而形成“问题标题的类型+问题内容类型”的综合标记。问句的数量分别统计了问题标题中问句的数量以及问题内容信息中的问句数量。

又如，在步骤S306中，聚类装置1基于关键词匹配处理，判断是否将所述具有中相似度的目标问题与候选问题聚为一类。两个语义相同的句子，某些重要的词应该是相同的或是同义的，关键词匹配就是基于这一点。关键词是通过将wordrank结果按照rank值进行降序排列，筛选出的排序值最高的N（N≥1）个词。其中，wordrank为一种词权重的计算方法，rank值为通过wordrank计算得到的排序值，排序值越大，则词的关键程度越高。对于不同长度类型的问题标题，选择不同数量的关键词。对于较短的问题标题，关键词要求完全匹配；对于较长的问题标题，关键词要求大部分能够匹配。

再如，在步骤S306中，聚类装置1基于关键表达式匹配处理，判断是否将所述具有中相似度的目标问题与候选问题聚为一类。一些比较重要的表达式在两个问题中都应该存在，如果在一个问题中有而另一个问题中没有，则不能认为两个问题是语义一致的。在此，关键表达式包括但不限于：

1）一些特定类型的命名实体，例如，地名，小说名等；

3）时间表达式，例如，X年，X月，星期X之类的时间；

4）数量表达式，包括具体的数量和年级；

5）英文数字串，主要是数学题目中的数学表达式；

优选地，在步骤S306中，聚类装置1基于上述任意多种后续匹配处理，判断是否将所述具有中相似度的目标问题与候选问题聚为一类。

优选地，在步骤S304中，聚类装置1根据所述相似度，并结合分段阈值，确定具有高相似度的目标问题与候选问题；其中，该方法还包括步骤S307（未示出），在步骤S307中，聚类装置1基于所述目标问题与候选问题的问题内容信息与补充内容信息，重新计算所述目标问题与候选问题的相似度，以判断是否将所述具有高相似度的目标问题与候选问题聚为一类。

具体地，在步骤S304中，聚类装置1根据在步骤S303中计算所得的相似度，将相似度满足高相似度所对应的分段阈值的目标问题与候选问题，确定为具有高相似度的目标问题与候选问题；随后，在步骤S307中，聚类装置1例如通过与问题库的交互，自该问题库中获取目标问题或候选问题的问题内容信息与补充内容信息，或者，在步骤S307中，聚类装置1直接通过与用户设备的交互，如通过一次或多次调用该用户设备提供的应用程序接口（API），或通过诸如ASP、JSP或PHP等动态网页技术，获取用户输入的问题的问题内容信息或补充内容信息等，进而，基于该目标问题与候选问题的问题内容信息与补充内容信息，重新计算该目标问题与候选问题的相似度，以判断是否将所述具有高相似度的目标问题与候选问题聚为一类。

更优选地，在步骤S307中，聚类装置1进一步对所述具有高相似度的目标问题与候选问题进行问题类型匹配，以判断是否将所述具有高相似度的目标问题与候选问题聚为一类。具体地，在步骤S304中，聚类装置1根据相似度，并结合分段阈值，确定具有高相似度的目标问题与候选问题之后，在步骤S307中，聚类装置1进一步对该具有高相似度的目标问题与候选问题进行问题类型匹配；或者，在步骤S307中，聚类装置1重新计算该目标问题与候选问题的相似度之后，该聚类装置1进一步对该具有高相似度的目标问题与候选问题进行问题类型匹配，以判断是否将该目标问题与候选问题聚为一类。例如，当该具有高相似度的目标问题与候选问题的问题类型匹配时，判断将该目标问题与候选问题聚为一类；当其问题类型不匹配时，判断不将该目标问题与候选问题聚为一类。

图4示出根据本发明一个优选实施例的用于对问题进行聚类处理的方法流程图。以下参照图4对该优选实施例进行详细描述：具体地，在步骤S401中，聚类装置1获取待聚类的新增问题与候选问题；在步骤S405中，聚类装置1对所述待聚类的目标问题与候选问题进行预处理过滤，获得经预处理过滤的目标问题与候选问题；在步骤S402中，聚类装置1根据所述经预处理过滤的目标问题与候选问题的问题特征，确定所述目标问题与候选问题的特征向量；在步骤S403中，聚类装置1根据所述目标问题与候选问题的特征向量，计算所述目标问题与候选问题的相似度；在步骤S404中，聚类装置1根据所述相似度，并结合分段阈值，判断是否将所述目标问题与候选问题进行聚为一类。其中，步骤S401、S402及S404与图3所示对应步骤相同或基本相同，故此处不再赘述，并通过引用的方式包含于此。

其中，在步骤S405中，聚类装置1对所述待聚类的目标问题与候选问题进行预处理过滤，获得经预处理过滤的目标问题与候选问题；随后，在步骤S402中，聚类装置1根据所述经预处理过滤的目标问题与候选问题的问题特征，确定所述目标问题与候选问题的特征向量。

具体地，在步骤S405中，聚类装置1对在步骤S401中所获取的待聚类的目标问题与候选问题进行预处理过滤，例如，根据应用场景过滤不相关问题、过滤时效性较强的问题、或过滤掉已完成聚类的问题等，进而获得经预处理过滤的目标问题与候选问题；随后，在步骤S402中，聚类装置1根据该经预处理过滤的目标问题与候选问题的问题特征，如该经预处理过滤的目标问题或候选问题的标题中的关键词特征、结构特征、语义特征、问题类型特征等，确定该目标问题与候选问题的特征向量。

优选地，所述目标问题包括新增问题；在步骤S404中，聚类装置1确定与所述新增问题具有最大相似度的候选问题；基于所述最大相似度，并结合预定阈值，判断是否将所述新增问题与所述候选问题聚为一类。由于新增问题是不断出现的，因此，采用增量的方式进行聚类处理。所谓的增量聚类，是指对于待聚类的新增问题，只新建一个聚类或者是将该新增问题归并到一个已有的聚类中。增量聚类不会对原有的聚类结构造成变动，即对于已经聚类的问题，新增问题不会对他们的标记产生影响。具体地，对于在步骤S401中所获取的新增问题与候选问题；在步骤S402中，聚类装置1根据该新增目标问题与候选问题的问题特征，确定其特征向量；在步骤S403中，聚类装置1根据该目标问题与候选问题的特征向量，计算该目标问题与候选问题的相似度；在步骤S404中，聚类装置1根据在步骤S403中所计算得出的相似度，从中选择一最大的相似度，从而确定与该新增问题具有最大相似度的候选问题；进而，在步骤S404中，聚类装置1基于该最大相似度，并结合预定阈值，判断是否将该新增问题与该候选问题聚为一类；也即，当该最大相似度大于或等于预定阈值时，将该新增问题与该最大相似度所对应的候选问题聚为一类，即，将该新增问题归并到该最大相似度所对应的候选问题的聚类中；当该最大相似度小于预定阈值时，不将该新增问题与该最大相似度所对应的候选问题聚为一类。

优选地，该方法还包括步骤S408（未示出），若所述最大相似度小于所述预定阈值，在步骤S408中，聚类装置1为所述新增问题新建一类。具体地，对于新增问题，在步骤S403中，聚类装置1分别计算该新增问题与已有候选问题的相似度；当在步骤S404中，聚类装置1从中确定出最大相似度时，若该最大相似度仍然小于预定阈值，则该新增问题不能与任何已有的候选问题聚为一类，在步骤S408中，聚类装置1为该新增问题新建一类。

需要注意的是，本发明可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路（ASIC）、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本发明的软件程序（包括相关的数据结构）可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本发明的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本发明的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本发明的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种用于对问题进行聚类处理的方法，其中，该方法包括以下步骤：

a获取待聚类的目标问题与候选问题；

b根据所述目标问题与候选问题的问题特征，确定所述目标问题与候选问题的特征向量；

c根据所述目标问题与候选问题的特征向量，计算所述目标问题与候选问题的相似度；

d根据所述相似度，并结合分段阈值，确定具有低相似度、中相似度或高相似度的目标问题与候选问题；

其中，该方法还包括：

基于后续匹配处理，判断是否将具有中相似度的目标问题与候选问题聚为一类；

x基于所述目标问题与候选问题的问题内容信息与补充内容信息，重新计算所述目标问题与候选问题的相似度，以判断是否将具有高相似度的目标问题与候选问题聚为一类。

2.根据权利要求1所述的方法，其中，所述问题特征包括以下至少任一项：

-关键词特征；

-结构特征；

-语义特征；

-问题类型特征。

3.根据权利要求1或2所述的方法，其中，所述后续匹配处理包括以下至少任一项：

-问题类型匹配；

-关键词匹配；

-关键表达式匹配。

4.根据权利要求1或2所述的方法，其中，所述步骤x进一步包括：

-对所述具有高相似度的目标问题与候选问题进行问题类型匹配，以判断是否将所述具有高相似度的目标问题与候选问题聚为一类。

5.根据权利要求1或2所述的方法，其中，该方法还包括：

-对所述待聚类的目标问题与候选问题进行预处理过滤，获得经预处理过滤的目标问题与候选问题；

其中，所述步骤b包括：

-根据所述经预处理过滤的目标问题与候选问题的问题特征，确定所述目标问题与候选问题的特征向量。

6.根据权利要求1或2所述的方法，其中，所述目标问题包括新增问题；其中，所述步骤d包括：

-确定与所述新增问题具有最大相似度的候选问题；

-基于所述最大相似度，并结合预定阈值，判断是否将所述新增问题与所述候选问题聚为一类。

7.根据权利要求6所述的方法，其中，该方法还包括：

-若所述最大相似度小于所述预定阈值，为所述新增问题新建一类。

8.一种用于对问题进行聚类处理的聚类装置，其中，该聚类装置包括：

获取装置，用于获取待聚类的目标问题与候选问题；

判断装置，用于根据所述相似度，并结合分段阈值，确定具有低相似度、中相似度或高相似度的目标问题与候选问题；

其中，该装置还包括：

匹配装置，用于基于后续匹配处理，判断是否将具有中相似度的目标问题与候选问题聚为一类；

重计算装置，用于基于所述目标问题与候选问题的问题内容信息与补充内容信息，重新计算所述目标问题与候选问题的相似度，以判断是否将具有高相似度的目标问题与候选问题聚为一类。

9.根据权利要求8所述的聚类装置，其中，所述问题特征包括以下至少任一项：

-关键词特征；

-结构特征；

-语义特征；

-问题类型特征。

10.根据权利要求8或9所述的聚类装置，其中，所述后续匹配处理包括以下至少任一项：

-问题类型匹配；

-关键词匹配；

-关键表达式匹配。

11.根据权利要求8或9所述的聚类装置，其中，所述重计算装置还用于：

12.根据权利要求8或9所述的聚类装置，其中，该装置还包括：

过滤装置，用于对所述待聚类的目标问题与候选问题进行预处理过滤，获得经预处理过滤的目标问题与候选问题；

其中，所述确定装置用于：

13.根据权利要求8或9所述的聚类装置，其中，所述目标问题包括新增问题；其中，所述判断装置用于：

-确定与所述新增问题具有最大相似度的候选问题；

14.根据权利要求13所述的聚类装置，其中，该装置还包括新建装置，用于：