CN112784046A

CN112784046A - 文本聚簇的方法、装置、设备及存储介质

Info

Publication number: CN112784046A
Application number: CN202110078107.8A
Authority: CN
Inventors: 李传勇; 张玉东; 施鹏
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-01-20
Filing date: 2021-01-20
Publication date: 2021-05-11
Anticipated expiration: 2041-01-20
Also published as: CN112784046B

Abstract

本公开提供了文本聚簇的方法、装置、设备及存储介质，涉及大数据、自然语言处理领域。具体实现方案为：获取查询文本；对任意两个查询文本进行特征提取；基于多特征融合的文本相似度运算，得到相似度值，相似度值用于表征两个查询文本的文本相似度；根据相似度值对两个查询文本进行聚簇处理，得到文本簇。根据本公开的技术方案，可以提升文本聚簇的精准度，并且可以降低因语义重复的需求导致文本信息批量重复产出的概率，有利于提升文本信息的产出效率并扩大文本信息类别的覆盖面。

Description

文本聚簇的方法、装置、设备及存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及大数据、自然语言处理领域。

背景技术

在文本信息涉及知识平台业务应用的相关技术中，通过挖掘用户在搜索中的需求并对需求进行分析，针对满足不好的需求，内容提供产出者需要定向产出相应的文本信息。由于挖掘到的知识类需求中包含大量的重复语义，容易导致文本信息重复产出从而浪费人力物力成本。

发明内容

本公开提供了一种用于文本聚簇的方法、装置、设备以及存储介质。

根据本公开的一方面，提供了一种文本聚簇的方法，包括：

获取查询文本；

对任意两个查询文本进行特征提取；

基于多特征融合的文本相似度运算，得到相似度值，所述相似度值用于表征两个所述查询文本的文本相似度；

根据相似度值对两个查询文本进行聚簇处理，得到文本簇。

根据本公开的另一方面，提供了一种文本聚簇的装置，包括：

查询文本获取模块，用于获取查询文本；

特征提取模块，用于对任意两个查询文本进行特征提取；

相似度值计算模块，用于基于多特征融合的文本相似度运算，得到相似度值，所述相似度值用于表征两个所述查询文本的文本相似度；

聚簇处理模块，用于根据相似度值对两个查询文本进行聚簇处理，得到文本簇。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开任一实施例中的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行本公开任一实施例中的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本公开任一实施例中的方法。

根据本公开的技术方案，可以提升文本聚簇的精准度，并且可以降低因语义重复的需求导致文本信息批量重复产出的概率，有利于提升文本信息的产出效率并扩大文本信息类别的覆盖面。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开一方面实施例的文本聚簇的方法的流程图；

图2是根据本公开一方面实施例的获取查询文本的具体流程图；

图3是根据本公开一方面实施例的从多个输入文本中确定出查询文本的具体流程图；

图4是根据本公开一方面实施例的对任意两个查询文本进行特征提取的具体流程图；

图5是根据本公开一方面实施例的对任意两个查询文本进行特征提取的具体流程图；

图6是根据本公开一方面实施例的对任意两个查询文本进行特征提取的具体流程图；

图7是根据本公开一方面实施例的对特征进行融合处理的具体流程图；

图8是根据本公开一方面实施例的得到目标文本簇的具体流程图；

图9是根据本公开一方面实施例的文本聚簇的装置的框图；

图10是用来实现本公开实施例的文本聚簇的方法的电子设备的框图；

图11是根据本公开一方面实施例的对提取到的特征进行序列标注处理的示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

知识平台在持续建设搜索知识内容生态的过程中，通常需要挖掘用户在搜索中的需求，经过对用户需求进行精细的分析和理解，针对满足性较差或者无法满足的需求，通过将需求分发给产出者进行定向产出与需求相关的文本标题，进而使优质内容能够呈现给用户，以满足用户需求。由于在搜索中挖掘到的知识类需求中，包含有大量语义重复但文本内容不完全一致的需求，这些需求如果直接去产出，会导致重复产出，从而浪费人力物理成本，并且无法精准获取到高页面浏览量的知识类需求。

相关技术中，通常采用划分法、层次法或密度算法等无监督算法对文本进行聚簇，但由于无监督算法的学习能力有限，对文本的聚簇效果一般，无法对数量较大的语义类似的文本进行聚簇，并且召回率较低。

基于以上问题，本公开实施例提出了一种文本聚簇的方法。本公开实施例的方法可以基于语义理解对知识类需求的文本进行聚簇，以对大批量的知识类需求进行合并，针对知识平台的应用中，可以减少重复产出并且提高产出效率。

图1示出根据本公开实施例的文本聚簇的方法的流程图。该方法涉及人工智能技术领域，具体地，可以应用在大数据以及自然语言处理领域。

如图1所示，本公开实施例的文本聚簇的方法可以包括如下步骤：

步骤S101：获取查询文本；

步骤S102：对任意两个查询文本进行特征提取；

步骤S103：基于多特征融合的文本相似度运算，得到相似度值，相似度值用于表征两个查询文本的文本相似度；

步骤S104：根据相似度值对两个查询文本进行聚簇处理，得到文本簇。

示例性地，在步骤S101中，查询文本可以通过知识平台的查询日志获取。查询日志中记录有知识平台与用户之间的交互信息，可以自动捕获用户与知识平台的终端之间交互的类型、内容或时间的数据。更为具体地，查询日志可以为log文件，其中，log文件保存有用户输入至搜索引擎的历史输入文本。需要说明的是，在本公开实施例的方法应用于知识平台的场景下，查询文本的文本类别为知识类别。

示例性地，在步骤S102，可以将多个查询文本中的任意两个查询文本输入至训练好的特征提取网络，以分别进行特征提取。提取到的特征可以包括两个查询文本的语义相似度特征、句式分类特征以及多维匹配特征中的至少一个。其中，语义相似度特征可以反映出两个查询文本在语义上是否相似；句式分类特征可以反映出查询文本属于哪类句式，例如可以为“howto(如何)”、“what(什么)”等其他句式；多维匹配特征可以包括主体匹配特征、需求匹配特征以及限定匹配特征等其他维度的匹配特征。

示例性地，在步骤S103中，基于步骤S102提取到的多个特征，利用特征融合算法基于多特征融合计算相似度值，最终得到两个查询文本的相似度值。其中，特征融合算法可以采用基于贝叶斯决策理论的算法、基于稀疏表示理论的算法以及基于深度学习理论算法等其他算法。

示例性地，在步骤S104中，在两个查询文本的相似度值达到预设的相似阈值的情况下，对两个查询文本进行聚簇处理，并得到相应的文本簇。

可以理解的是，通常知识平台面向的用户基数较大，因此在步骤S101中获取到的查询文本的数量也相应较大，以百度汇川平台为例，每天获取到的查询文本的数量可以达到上亿。

通过对其中的任意两个查询文本依次进行特征提取及特征融合处理，并根据两个查询文本的相似度值进行聚簇处理，可以对多个查询文本合并得到多个文本簇。针对每个文本簇，通过累加文本簇中的多个查询文本的页面浏览量，得到每个文本簇的页面浏览量总值。通过从多个文本簇中选取页面浏览量总值较高的文本簇，作为产出者的产出线索，可以满足需求量较大的产出需求，有利于提高产出覆盖面，从而使知识平台满足需求度较高的用户需求。

在一个具体示例中，利用百度汇川平台的log文件获取多个查询文本。从中选取任意两个查询文本，其中，第一查询文本为“华为手机如何截屏”，第二查询文本为“华为手机空格截屏”。将两个查询文本分别输入训练好的特征提取网络，分别提取语义相似度特征、句式分类特征以及多维匹配特征。其中，两个查询文本的语义相似度特征为相似；第一查询文本的句式分类特征分别为“howto(如何)”，第二查询文本的句式分类特征为“what(什么)”；两个查询文本的多维匹配特征可以包括，主体匹配特征为匹配，需求匹配特征为匹配，限定匹配特征为匹配，主否定特征为匹配，指代匹配特征为匹配，区分匹配特征为匹配等。经过对两个查询文本的多个特征进行特征融合处理，得到两个查询文本的相似度值，且相似度值大于预设的相似阈值。基于此，对两个查询文本进行聚簇处理。

在另一个具体示例中，选取到的任意两个查询文本中，第一查询文本可以为“什么品种的苹果好”，第二查询文本可以为“什么型号的苹果好”。将两个查询文本分别输入训练好的特征提取网络，分别提取语义相似度特征、句式分类特征以及多维匹配特征。其中，两个查询文本的语义相似度特征为不相似；第一查询文本和第二查询文本的句式分类特征均为“what(什么)”；两个查询文本的多维匹配特征可以包括，主体匹配特征为匹配，需求匹配特征为匹配，限定匹配特征为不匹配，主否定特征为匹配，指代匹配特征为不匹配，区分匹配特征为不匹配等。经过对两个查询文本的多个特征进行特征融合处理，得到两个查询文本的相似度值，且相似度值小于预设的相似阈值。基于此，两个查询文本不作聚簇处理。

根据本公开实施例的文本聚簇的方法，通过获取多个查询文本，并对其中任意两个查询文本进行特征提取及特征融合处理得到相似度值，例如，可以对两个查询文本提取到的语义相似度特征、句式分类特征以及多维匹配特征中的至少一个进行特征融合处理，最终基于相似度值对两个查询文本进行聚簇处理。由此，通过提取查询文本的多个特征并进行特征融合处理，可以有效提升文本聚簇的精准度，以确保文本簇中的多个查询文本的语义大体相同或相似。并且，通过对多个查询文本进行聚簇以合并用户的需求，在知识平台业务的相关应用中，可以减少因语义重复的需求导致文本信息批量重复产出的概率，有利于提升文本信息的产出效率并扩大文本信息类别的覆盖面。

如图2所示，在一种实施方式中，步骤S101包括：

步骤S201：根据查询日志，获取用户输入的多个输入文本；

步骤S202：根据各输入文本的文本类别、页面浏览量以及头部资源号的占用情况，从多个输入文本中确定出查询文本。

示例性地，在步骤S201中，查询日志可以为log文件，输入文本为记录与log文件中的用户在搜索引擎输入过的文本。在步骤S202中，输入文本的文本类别、页面浏览量以及头部资源号的占用情况，均可以通过查询日志进行获取。

其中，输入文本的头部资源号的占用情况可以理解为，在输入文本输入至搜索引擎并点击搜索后所显示的多个文本内容中，首个文本内容的标题是否与输入文本相对应。如果首个文本内容的标题与输入文本相对应，则输入文本占用了头部资源号，如果首个文本内容的标题与输入文本不对应，则输入文本未占用头部资源号。可以理解的是，如果输入文本已占用头部资源号，则说明该输入文本已被满足，因而无需作为查询文本进行聚簇并提供给产出者再次进行产出。由此，通过获取输入文本的头部资源号的占用情况，可以从输入文本是否已被满足的角度进行考量，从而筛选出未被满足的输入文本作为查询文本。

通过上述实施方式，根据文本类别、页面浏览量以及头部资源号的占用情况从多个输入文本中确定出查询文本，从而可以基于多个维度对输入文本进行考量，从中筛选出文本类别为知识类别、页面浏览量较高以及未被满足的输入文本作为查询文本，以确保得到的查询文本符合知识类文本信息的产出要求、且具有较高的需求度并且需要进一步满足。

如图3所示，在一个具体示例中，步骤S202包括：

步骤S301：利用训练好的二分类模型识别输入文本的文本类别；

步骤S302：根据查询日志，获取输入文本的页面浏览量和输入文本的首个显示内容对头部资源号的占用情况；

步骤S303：在输入文本的文本类别为知识类别、页面浏览量达到浏览量阈值、以及输入文本的首个显示内容未占用头部资源号的情况下，将输入文本确定为查询文本。

示例性地，在步骤S301中，通过将输入文本输入至二分类模型进行识别，根据二分类模型的输出结果判断输入文本的文本类别是否为知识类别。例如，在输出结果为1的情况下，输入文本的文本类别为知识类别；在输出结果为0的情况下，输入文本的文本类别不是知识类别。

示例性地，在步骤S302中，首个显示内容即为输入文本在输入搜索引擎并点击搜索之后，所显示的多个显示内容中排序在最前的显示内容。根据查询日志，可以判断输入文本的头部资源号占用情况是否为“top1”，如果是，则表示输入文本的首个显示内容占用头部资源号。输入文本的页面浏览量可以为该输入文本作为搜索文本输入至搜索引擎进行搜索的浏览次数。

由此，得到的查询文本为多个输入文本中，文本类别为知识类别、页面浏览量较高且未能被满足的输入文本。

如图4所示，在一种实施方式中，步骤S102包括：

步骤S401：提取两个查询文本的句子向量；

步骤S402：将两个查询文本的句子向量输入训练好的深度语义模型(DeepStructured Semantic Models，DSSM)进行特征提取，得到两个查询文本的语义相似度特征。其中，语义相似度特征包括相似和不相似。

需要说明的是，通过训练好的深度语义模型对两个查询文本进行特征提取，利用句子向量作为输入可以减少对切词的依赖，又可以提高模型的范化能力。并且，深度语义模型无需在中间过程做无监督模型的映射，因此输出结果的精准度较高，有利于确保两个查询文本的语义相似度特征的精准度。

在一种实施方式中，深度语义模型可以通过查询日志中的点击曝光记录，利用输入文本和对应的显示文本作为训练样本，并根据输入文本与对应的显示文本中用户点击过的显示文本的标题的相似性、大于输入文本与对应的显示文本中用户未点击过的显示文本的标题的相似性的偏序关系，经过多次训练生成。该模型既可以用来预测两个查询文本的语义相似度，又可以获得两个查询文本各自的低维语义向量表达。

示例性地，根据查询日志中的点击曝光记录，得到的输入文本为“2020年考研要求”，得到的显示文本中用户点击的标题为“2020年研究生报考条件”，得到的显示文本中用户未点击的标题为“2020年研究生报考时间”。在训练过程中，正样本为“2020年考研要求”和“2020年研究生报考条件”，负样本为“2020年考研要求”和“2020年研究生报考时间”。根据正样本的语义相似度大于负样本的语义相似度的偏序关系进行训练，最终得到深度语义模型。

通过上述实施方式，在深度语义模型的训练过程中，训练样本的获取较为方便，且无需对大量的训练样本进行标注，有利于降低训练成本并且提高训练效率。

如图所示，在一种实施方式中，步骤S102包括：

步骤S501：将两个查询文本输入训练好的句式分类模型进行特征提取，分别得到两个查询文本的句式分类特征。其中，句式分类模型可以为自然语言处理模型(NaturalLanguage Processing，NLP)。

示例性地，句式分类特征可以基于知识类别的输入文本的常用句式进行设定，例如可以包括“howto(如何)”、“what(什么)”、“define(定义)”、“who(人物)”、“where(地点)”、“when(时间)”、“whethercan(是否能够)”、“whetherothers(是否别的)”、“why(为什么)”、“howto_trouble(如何_问题)”、“why_trouble(为什么_问题)”、“discuss(讨论)”、“trouble(问题)”、“howmuch(多少)”、“illegal(非法)”以及“others(别的)”中的一个或多个。优选地，句式分类特征可以包括以上所有的共16个特征，通过句式分类模型可以得到两个查询文本各自对应的16个特征，共计32个特征。

需要说明的是，仅通过上述步骤S402即提取语义相似度特征不能完全判断两个查询文本是否相匹配。例如，两个查询文本分别为“电脑主机主板插线全图”和“电脑主机插线步骤”，虽然两个查询本的语义相似度特征为相似，但其中一个的句式分类特征为“what(什么)”，另一个的句式分类特征为“如何(howto)”。可见，这两个查询文本的句式分类特征不同因而所表达的需求也不同，因此这两个查询文本不能进行聚簇处理。

由此，通过上述实施方式，通过提取两个查询文本的句式分类特征，可以进一步判断两个查询文本的需求是否相同，从而可以基于用户需求的角度考量两个查询文本是否相似，进而提高了聚簇结果的精准性以及文本簇的召回率。

如图6所示，在一种实施方式中，步骤S102包括：

步骤S601：将两个查询文本输入规则引擎(flagleader)进行特征提取，并利用训练好的自然语言模型计算得到两个查询文本的多维匹配特征。其中，多维匹配特征包括主体匹配特征、需求匹配特征和限定匹配特征中的至少一个。其中，规则引擎为，根据预设的语言规则能够对输入的文本内容进行特征提取的特征提取网络。

示例性地，主体匹配特征可以包括第一查询文本的主体个数、第二查询文本的主体个数、匹配后第一查询文本的剩余主体个数以及匹配后第二查询文本的剩余主体个数。

在一个示例中，第一查询文本为“苹果手机听不到声音显示耳机”，第二查询文本为“iphone听不到声音显示耳机”。通过规则引擎和自然语言模型得到主题匹配特征包括：第一查询文本的主体个数为3(苹果手机、声音、耳机)、第二查询文本的主体个数(iphone、声音、耳机)、匹配后第一查询文本的剩余主体个数是0以及匹配后第二查询文本的剩余主体个数是0。其中，匹配是指两个查询文本的主体名词是否可以抵消掉，在该示例中，iphone和苹果手机是匹配的，声音和声音是匹配的，耳机和耳机是也是匹配的。

同理，需求匹配特征可以包括第一查询文本的需求个数、第二查询文本的需求个数、匹配后第一查询文本的剩余需求个数以及匹配后第二查询文本的剩余需求个数。限定匹配特征可以包括第一查询文本的限定个数、第二查询文本的限定个数、匹配后第一查询文本的剩余限定个数以及匹配后第二查询文本的剩余限定个数。

示例性地，在多维匹配特征的匹配过程中，可以将查询文本中的字词与冗余词库中的冗余词进行匹配，以过滤掉查询文本中多余或重复的字词，进一步提升多维匹配特征的召回率。

此外，在本申请的其他示例中，多维匹配特征还可以包括主否定匹配特征、指代匹配特征、区分匹配特征、全部/一次匹配特征、只有才匹配特征、地点匹配特征等其他特征。

通过上述实施方式，通过提取两个查询文本的多维匹配特征，例如主体匹配特征、限定匹配特征以及需求匹配特征等其他匹配特征，可以基于两个查询文本的多维特征是否匹配，来进一步判断两个查询文本的相似度值，从而进一步提高聚簇处理的精确度和召回率。

如图7所示，在一种实施方式中，步骤S103包括：

步骤S701：对提取到的特征进行序列标注处理；

步骤S702：根据梯度下降树(Gradient Boosting Decision Tree，GBDT)，对序列标注处理后的特征进行多特征融合以及文本相似度运算，得到两个查询文本的相似度值。

示例性地，提取到的多个特征包括语义相似度特征、句式分类特征、多维匹配特征以及其他特征。图11示出对提取到的特征进行序列标注处理后得到的序列特征表。如图11所示，多个特征的序列号包括1-61。其中，序列号1-3为特征序列表的ID号以及第一查询文本和第二查询文本的名称，序列号4为特征序列表的标签，序列号5-36为第一查询文本和第二查询文本的句式分类特征，序列号37-40为两个查询文本的主题匹配特征，序列号41-44为两个查询文本的需求匹配特征，序列号45-48为两个查询文本的限定匹配特征，序列号49为两个查询文本的主谓宾是否匹配特征，序列号50-51为第一查询文本和第二查询文本的长度特征，序列号52为两个查询文本的主被动匹配特征，序列号53为两个查询文本的主否定匹配特征，序列号54为两个查询文本的指代匹配特征，序列号55为两个查询文本的区分匹配特征，序列号56为两个查询文本的全部/一次匹配特征，序列号57为两个查询文本的只有才匹配特征，序列号58为两个查询文本的地点匹配特征，序列号59为两个查询文本的教育匹配特征，序列号60为两个查询文本的其他匹配特征，序列号61为两个查询文本的语义相似度匹配特征。

可以理解的是，梯度下降树即梯度下降算法，通过多轮迭代，每轮迭代产生一个弱分类器，每个弱分类器在上一轮分类器的残差基础上进行训练。由于训练的过程是通过降低偏差来不断提高最终分类器的精度，因而对弱分类器的要求一般是足够简单，并且是低方差和高偏差的。其中，弱分类器可以选择分类回归树(CART TREE)。由于上述的高偏差以及足够简单的要求，每个分类回归树的深度不会很深。最终通过每轮训练得到的弱分类器加权求和得到训练好的模型。通过将多个特征输入至利用梯度下降算法训练好的模型进行特征融合处理以及文本相似度计算，得到两个查询文本的相似度值。

通过上述实施方式，基于两个查询文本的多个特征，例如语义相似度特征、句式分类特征、多维匹配特征等其他特征进行特征融合处理，计算得到的相似度值所表征的两个查询文本的文本相似度准确率较高，从而确保了文本簇的高精确度以及高召回率。

如图8所示，在一种实施方式中，本公开实施例的文本聚簇的方法在步骤S104之后，还包括：

步骤S801：针对每个文本簇，基于文本簇中各查询文本的页面浏览量，计算文本簇的页面浏览量总值；

步骤S802：基于页面浏览量总值对多个文本簇进行降序排列，截取预设数量的文本簇作为目标文本簇。

示例性地，在步骤S801中，每个文本簇中的多个查询文本的页面浏览量，可以通过知识平台的log文件获取。

示例性地，在步骤S802中，对文本簇进行截取的预设数量，可以根据产出者的实际生产力进行设置。例如，产出者的实际生产力为一百个，则在降序排列的多个文本簇中截取位于头部的一百个文本簇，作为目标文本簇，并提供给产出者作为产出线索。

通过上述实施方式，在对查询文本进行聚簇处理后通过计算各个文本簇的文本浏览量总值合，并截取头部的浏览量较大的文本簇作为目标文本簇，可以得到用户最为关心的知识类需求作为产出线索。由此，可以提高知识平台文本信息产出的覆盖率以及准确率，从而满足大量用户的需求。

根据本公开的实施例，本公开还提供了一种文本聚簇的装置。

图9示出了根据本公开实施例的文本聚簇的装置的示意图。如图9所示，本公开实施例的文本聚簇的装置包括：

查询文本获取模块901，用于获取查询文本；

特征提取模块902，用于对任意两个查询文本进行特征提取；

相似度值计算模块903，用于基于多特征融合的文本相似度运算，得到相似度值，相似度值用于表征两个查询文本的文本相似度；

聚簇处理模块904，用于根据相似度值对两个查询文本进行聚簇处理，得到文本簇。

在一种实施方式中，查询文本获取模块901包括：

输入文本获取子模块，用于根据查询日志，获取用户输入的多个输入文本；

查询文本确定子模块，用于根据各输入文本的文本类别、页面浏览量以及头部资源号的占用情况，从多个输入文本中确定出查询文本。

在一种实施方式中，查询文本确定子模块包括：

文本类别识别单元，用于利用训练好的二分类模型识别输入文本的文本类别；

获取单元，用于根据查询日志，获取输入文本的页面浏览量和输入文本的首个显示内容对头部资源号的占用情况；

查询文本确定单元，用于在输入文本的文本类别为知识类别、页面浏览量达到浏览量阈值、以及输入文本的首个显示内容未占用头部资源号的情况下，将输入文本确定为查询文本。

在一种实施方式中，特征提取模块902包括：

句子向量提取子模块，用于提取两个查询文本的句子向量；

语义相似度特征提取子模块，用于将两个查询文本的句子向量输入训练好的深度语义模型进行特征提取，得到两个查询文本的语义相似度特征。

在一种实施方式中，特征提取模块902包括：

句式分类特征提取子模块，用于将两个查询文本输入训练好的句式分类模型进行特征提取，分别得到两个查询文本的句式分类特征。

在一种实施方式中，特征提取模块902包括：

多维匹配特征提取子模块，用于将两个查询文本输入规则引擎进行特征提取，得到两个查询文本的多维匹配特征，其中，多维匹配特征包括主体匹配特征、需求匹配特征和限定匹配特征中的至少一个。

在一种实施方式中，相似度值计算模块903包括：

序列标注子模块，用于对提取到的特征进行序列标注处理；

相似度值计算子模块，用于根据梯度下降树，对序列标注处理后的特征进行多特征融合以及文本相似度运算，得到两个查询文本的相似度值。

在一种实施方式中，该装置还包括：

页面浏览量计算模块，用于针对每个文本簇，基于文本簇中各查询文本的页面浏览量，计算文本簇的页面浏览量总值；

目标文本簇截取模块，用于基于页面浏览量总值对多个文本簇进行降序排列，截取预设数量的文本簇作为目标文本簇。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或要求的本公开的实现。

如图10所示，电子设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序来执行各种适当的动作和处理。在RAM 1003中，还可存储电子设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入输出(I/O)接口1005也连接至总线1004。

电子设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许电子设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如文本聚簇的方法。例如，在一些实施例中，文本聚簇的方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到电子设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时，可以执行上文描述的文本聚簇的方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行文本聚簇的方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种文本聚簇的方法，包括：

获取查询文本；

对任意两个所述查询文本进行特征提取；

根据所述相似度值对两个所述查询文本进行聚簇处理，得到文本簇。

2.根据权利要求1所述的方法，其中，获取查询文本，包括：

根据查询日志，获取用户输入的多个输入文本；

根据各所述输入文本的文本类别、页面浏览量以及头部资源号的占用情况，从多个所述输入文本中确定出所述查询文本。

3.根据权利要求2所述的方法，其中，根据各所述输入文本的文本类别、页面浏览量以及头部资源号的占用情况，从多个所述输入文本中确定出所述查询文本，包括：

利用训练好的二分类模型识别所述输入文本的文本类别；

根据所述查询日志，获取所述输入文本的页面浏览量和所述输入文本的首个显示内容对头部资源号的占用情况；

在所述输入文本的文本类别为知识类别、所述页面浏览量达到浏览量阈值、以及所述输入文本的首个显示内容未占用头部资源号的情况下，将所述输入文本确定为所述查询文本。

4.根据权利要求1所述的方法，其中，对任意两个所述查询文本进行特征提取，包括：

提取两个所述查询文本的句子向量；

将两个所述查询文本的句子向量输入训练好的深度语义模型进行特征提取，得到两个所述查询文本的语义相似度特征。

5.根据权利要求1所述的方法，其中，对任意两个所述查询文本进行特征提取，包括：

将两个所述查询文本输入训练好的句式分类模型进行特征提取，分别得到两个所述查询文本的句式分类特征。

6.根据权利要求1所述的方法，其中，对任意两个所述查询文本进行特征提取，包括：

将两个所述查询文本输入规则引擎进行特征提取，并利用训练好的自然语言模型计算得到两个所述查询文本的多维匹配特征其中，所述多维匹配特征包括主体匹配特征、需求匹配特征和限定匹配特征中的至少一个。

7.根据权利要求1-6任一项所述的方法，其中，基于多特征融合的文本相似度运算，得到相似度值，包括：

对提取到的特征进行序列标注处理；

根据梯度下降树，对序列标注处理后的特征进行多特征融合以及文本相似度运算，得到两个所述查询文本的相似度值。

8.根据权利要求1-6任一项所述的方法，其中，根据所述相似度值对两个所述查询文本进行聚簇处理，得到文本簇之后，还包括：

针对每个所述文本簇，基于所述文本簇中各所述查询文本的页面浏览量，计算所述文本簇的页面浏览量总值；

基于所述页面浏览量总值对多个所述文本簇进行降序排列，截取预设数量的所述文本簇作为目标文本簇。

9.一种文本聚簇的装置，包括：

查询文本获取模块，用于获取查询文本；

特征提取模块，用于对任意两个所述查询文本进行特征提取；

聚簇处理模块，用于根据所述相似度值对两个所述查询文本进行聚簇处理，得到文本簇。

10.根据权利要求9所述的装置，所述查询文本获取模块包括：

查询文本确定子模块，用于根据各所述输入文本的文本类别、页面浏览量以及头部资源号的占用情况，从多个所述输入文本中确定出所述查询文本。

11.根据权利要求10所述的装置，所述查询文本确定子模块包括：

文本类别识别单元，用于利用训练好的二分类模型识别所述输入文本的文本类别；

获取单元，用于根据所述查询日志，获取所述输入文本的页面浏览量和所述输入文本的首个显示内容对头部资源号的占用情况；

查询文本确定单元，用于在所述输入文本的文本类别为知识类别、所述页面浏览量达到浏览量阈值、以及所述输入文本的首个显示内容未占用头部资源号的情况下，将所述输入文本确定为所述查询文本。

12.根据权利要求9所述的装置，所述特征提取模块包括：

句子向量提取子模块，用于提取两个所述查询文本的句子向量；

语义相似度特征提取子模块，用于将两个所述查询文本的句子向量输入训练好的深度语义模型进行特征提取，得到两个所述查询文本的语义相似度特征。

13.根据权利要求9所述的装置，所述特征提取模块包括：

句式分类特征提取子模块，用于将两个所述查询文本输入训练好的句式分类模型进行特征提取，分别得到两个所述查询文本的句式分类特征。

14.根据权利要求9所述的装置，所述特征提取模块包括：

多维匹配特征提取子模块，用于将两个所述查询文本输入规则引擎进行特征提取，并利用训练好的自然语言模型计算得到两个所述查询文本的多维匹配特征其中，所述多维匹配特征包括主体匹配特征、需求匹配特征和限定匹配特征中的至少一个。

15.根据权利要求9-14任一项所述的装置，所述相似度值计算模块包括：

序列标注子模块，用于对提取到的特征进行序列标注处理；

相似度值计算子模块，用于根据梯度下降树，对序列标注处理后的特征进行多特征融合以及文本相似度运算，得到两个所述查询文本的相似度值。

16.根据权利要求9-14任一项所述的装置，还包括：

页面浏览量计算模块，用于针对每个所述文本簇，基于所述文本簇中各所述查询文本的页面浏览量，计算所述文本簇的页面浏览量总值；

目标文本簇截取模块，用于基于所述页面浏览量总值对多个所述文本簇进行降序排列，截取预设数量的所述文本簇作为目标文本簇。

17.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使计算机执行权利要求1-8中任一项所述的方法。

19.一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现权利要求1-8中任一项所述的方法。