CN115485679A

CN115485679A - 使用图划分动态地生成面

Info

Publication number: CN115485679A
Application number: CN202180029866.3A
Authority: CN
Inventors: O·里夫林; Y·马斯; H·罗伊特曼; D·科诺普尼基
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-04-21
Filing date: 2021-03-17
Publication date: 2022-12-16
Also published as: GB2610334A; CA3165987A1; US11797545B2; GB202217088D0; IL296018A; JP2023522601A; AU2021261643A1; AU2021261643B2; WO2021214566A1; KR20220143765A; US20210326346A1; DE112021001163T5

Abstract

示例系统包括处理器，处理器用于接收从与查询相对应的结果集中提取的概念以及针对每个所提取的概念的结果关联。处理器用于基于所提取的概念而构建图，其中，图包括多个节点和加权边，多个节点表示所提取的概念，加权边表示从共享结果中提取的概念之间的相似度。处理器用于将图划分成子图，子图的顶点与用于顶点的具有较高的加权边总和的候选面相对应。处理器用于对候选面进行排名。处理器用于选择较高排名的候选面以用作面。处理器用于输出面和响应于查询的结果集。

Description

使用图划分动态地生成面

背景技术

本技术涉及面(facets)。更具体地，本技术涉及动态地生成面。

发明内容

根据本文描述的实施例，一种系统可以包括处理器，所述处理器用于接收从与查询相对应的结果集中提取的概念以及针对每个所提取的概念的结果关联。所述处理器还可以基于所提取的概念而构建图。所述图包括多个节点和加权边，所述多个节点表示所提取的概念，所述加权边表示从共享结果中提取的概念之间的相似度。所述处理器还可以将所述图划分成子图，所述子图的顶点与用于顶点的具有较高的加权边总和的候选面相对应。所述处理器还可以对所述候选面进行排名。所述处理器可以选择较高排名的候选面以用作面。所述处理器还可以输出所述面和响应于所述查询的所述结果集。

根据本文描述的另一实施例，一种方法可以包括经由处理器接收查询、与所述查询相对应的结果集、以及知识库。所述方法还可以包括经由所述处理器使用所述知识库从所述结果集中提取概念。所述方法还可以包括经由所述处理器基于所提取的概念而构建图。所述图包括多个节点和加权边，所述多个节点表示概念，所述加权边表示从共享结果中提取的概念之间的相似度。所述方法还可包括经由所述处理器将所述图划分成子图，所述子图的顶点与用于顶点的具有较高的加权边总和的候选面相对应。所述方法还可以包括经由所述处理器对所述候选面进行排名。所述方法还可以包括经由所述处理器选择较高排名的候选面以用作面。所述方法还可以包括经由所述处理器输出所述面和响应于所述查询的所述结果集。

根据本文描述的另一实施例，一种用于面生成的计算机程序产品可以包括具有程序代码的计算机可读存储介质。所述计算机可读存储介质本身不是暂时性信号。所述程序代码能够由处理器执行以使得所述处理器接收查询、与所述查询相对应的结果集、以及知识库。所述程序代码还可以使得所述处理器使用所述知识库从所述结果集中提取概念。所述程序代码还可以使得所述处理器基于所提取的概念而构建图。所述图包括多个节点和加权边，所述多个节点表示概念，所述加权边表示从共享结果中提取的概念之间的相似度。所述程序代码还可以使得所述处理器将所述图划分成子图，所述子图的顶点与用于顶点的具有较高的加权边总和的候选面相对应。所述程序代码还可以使得所述处理器对所述候选面进行排名。所述程序代码还可以使得所述处理器还选择较高排名的候选面以用作面。所述程序代码还可以使得所述处理器输出所述面和响应于所述查询的所述结果集。

附图说明

图1是用于使用图划分动态地生成面的示例系统的框图；

图2是可以使用图划分动态地生成面的示例方法的框图；

图3是可以使用图划分动态地生成面的示例计算设备的框图；

图4是根据本文描述的实施例的示例云计算环境的图；

图5是根据本文描述的实施例的示例抽象模型层的图；以及

图6是可以使用图划分动态地生成面的示例有形非暂时性计算机可读介质。

具体实施方式

一些系统提供用于过滤搜索结果的过滤器。例如，用户可以提交搜索查询，并且为了帮助用户缩小结果列表，系统可以建议若干过滤器供用户选择。这些过滤器在此被称为面(facets)。如本文所使用的，面是指对查询的每个结果进行分类所沿的维度。例如，销售相机镜头的网站上的搜索引擎可以具有一组面，包括相机类型、镜头焦距、镜头速度等，以用于查询由特定制造商制造的镜头。这些面可以由系统基于针对查询返回的结果来选择。系统然后可以向用户建议一个或多个面以帮助缩小搜索结果的范围。这样，系统可以使得分类能够以多种方式而不是以单个、预定的分类学顺序被访问和排序。然而，这样的面可以被限于一组预先定义的面。这样的搜索引擎可能不能够自动地适配以在附加特征出现时为附加特征添加面，诸如自动对焦能力、眼睛或面部跟踪能力等。相反，这样的搜索引擎可能只是对概念在一组搜索结果中出现的次数进行计数，并相应地显示一组预先定义的面。此外，提交给通用搜索引擎的查询可具有许多不同的意图。例如，提交的“美洲虎”查询可以旨在指动物或汽车制造商。如果不是不可能，则为所有可能的查询意图预先定义不同的面集合可能是非常困难的。

根据本公开的实施例，系统的处理器可以接收从与查询相对应的结果集中提取的概念以及针对每个所提取的概念的结果关联。处理器可以基于所提取的概念而构建图，其中，图包括多个节点和加权边，多个节点表示所提取的概念，加权边表示从共享结果中提取的概念之间的相似度。例如，如果在至少一个结果中一起检测到概念，则两个节点可以仅共享边。然后，可以基于相似度向边分配权重。处理器可以将图划分成子图，子图的顶点与用于顶点的具有较高的加权边总和的候选面相对应。处理器还可以对候选面进行排名。处理器可以选择较高排名的候选面以用作面。处理器然后可以输出面和响应于查询的结果集。因此，本公开的实施例允许用户使用面来缩小查询的结果集，这能够减少用户在找到预期结果方面的工作。该技术使得能够从一组预先定义的有意义的概念中自动生成面。

现在参考图1，框图示出了用于使用图划分动态地生成面的示例系统。示例系统总体上由参考数字100表示。在各种示例中，系统100可以用于使用图3的计算设备300来实现图2的方法200。

图1的系统100包括用户接口102。系统100包括通信地耦接到用户接口102的概念提取器104。系统100还包括通信地耦接到概念提取器104的搜索引擎106。系统100还包括通信地耦接到概念提取器104的面服务108。

在图1的示例中，用户接口102可以从用户接收查询110，并将查询发送到概念提取器104。概念提取器104可以将查询110转发给搜索引擎106。搜索引擎106可以基于查询而生成结果集112，并将结果集112发送到概念提取器104。例如，结果集可以是一组文档。

然后，概念提取器104可以生成具有结果关联的概念组。例如，每组概念可以与结果集112中的特定结果相关联。在各种示例中，概念提取器104可以访问用于一个或多个领域的高级类别的闭集。作为一个例子，对于计算机科学领域，可以使用arXiv归档计算机科学类别。例如，这些类别包括“人工智能”、“计算和语言”、“计算复杂度”、“计算工程”、“金融和科学，计算几何”、“计算机科学和游戏理论”、“计算机视觉和模式识别”、“计算机和社会”、“密码学和安全”、“数据结构和算法”、“数据库”、“数字库”、“离散数学”、“分布式、并行和集群计算”、“新兴技术”、“形式语言和自动机理论”、“一般文献”、“图形”、“硬件架构”、“人机交互”、“信息检索”、“信息理论”、“计算机科学中的逻辑”以及其他类别。概念提取器104也可以访问知识库。例如，知识库可以是维基百科。用于一个或多个领域的高级类别可以被映射到知识库的类别。在各种示例中，提及(mention)检测可以作为概念提取器104摄取管道的一部分来运行，并且提及被存储在索引中。例如，提及检测工具可以是任何合适的通用提及检测工具，诸如TagMe(2010年发布的第一版本)，自然语言理解(NLU)工具，或TermWikifier(TW)。概念提取器104可以将提及检测工具应用于结果集112中的所有文档。在各种示例中，概念提取器104可以遍历知识库的类别树，并且仅保留其类别在领域的层级之下的那些概念。例如，只有其类别导向领域的层级的上述类别之一的那些概念可以被包括在具有结果关联的概念组114中。概念提取器104可以将具有结果关联的概念组114发送到面服务108。作为一个示例，使用提及检测工具来解析论文“稀疏度认证图分解(Sparsity-certifying Graph Decompositions)”以提取概念。在该论文中出现的所提取的概念的表面形式是：“卵石游戏”、“生成树”、“拟阵(matroid)”、“顶点(verticies)”、以及“术语”。与这些短语相关联的所提取的概念是：“卵石游戏”、“生成树”、“拟阵”、“顶点(图论)”、以及“术语”。与这些概念相关联的相应高级类别是：“计算复杂度理论”、“计算复杂度理论”、“离散数学”、“离散数学”、以及“计算语言学”。

在各种示例中，由概念提取器104使用提及检测工具提取的概念可能仍然包括不是非常有信息性的概念。例如，这些概念对于用作过滤器来说可能太一般。为了继续以上示例，概念“顶点”和“术语”可能不是非常有助于用作面。在一些示例中，概念提取器104可以使用来自知识库的信息来细化概念集合。例如，如果知识库中频繁提及的概念具有很少的内链，则它可能是非常通用的。因此，概念提取器104可以移除内链的数量不超过第一阈值或超过更高的第二阈值的概念。例如，具有大量内链的概念可能太一般，因此它不是非常有信息性的。在各种示例中，概念提取器104可以进一步过滤所提取的概念。在一些示例中，概念提取器104可以通过从顶层类别开始的长路径来过滤所提取的概念。例如，可以从具有结果关联的概念114中过滤具有比阈值路径p长的路径的所提取的概念。在一些示例中，概念提取器104可以通过预检索查询性能预测(QPP)特征来过滤所提取的概念。例如，概念提取器104可以使用QPP以基于查询术语的属性来估计查询是否困难。作为一个示例，“清晰度”属性可以被测量为集合中的术语的概率与所有术语的平均概率的差。概念提取器104可以过滤掉具有低清晰度值的概念。在各种示例中，概念提取器104可以计算概念的类似属性。

面服务108可以基于具有结果关联的概念组114使用图划分来动态地生成面116。给定查询和包含概念的结果集，面服务108可以根据某个目标对概念进行排名。例如，面服务108可以按照概念从结果集中提取同类意图的能力来对概念进行排名。在一些示例中，面服务108可以选择前K个概念以最大化目标并且使用前K个概念作为面。面服务108可以通过将结果集与多样化用户意图集合的分离最大化，对概念进行排名。

例如，面服务108可以根据所提取的概念来构建图。面服务108可以将概念在具有结果关联的概念组114中的共现(co-occurrence)建模为由无向图中的边所连接的节点。在一些示例中，如上所述，可以基于节点表示的概念的内链的数量来对节点加权。

如上所述，边可以存在于表示图中的概念的两个节点之间，前提是这两个概念一起出现在结果集112中的至少一个结果中。在一些示例中，还可以包括边权重以指示这些概念之间的相似度。例如，边的权重可以表示概念之间的相似度。在各种示例中，面服务108可以使用归一化成对互信息(PMI)或归一化谷歌距离(NGD)来对边加权。例如，面服务108可以使用语料库数据经由以下等式来计算两个概念x和y之间的归一化谷歌距离：

其中f(x)是概念x出现在知识库中的页的数量，f(y)是概念y出现在知识库中的页的数量，f(x，y)是概念x和y两者出现在知识库中的页的数量，以及N是知识库中的页的总数。在各种示例中，面服务108可以使用语料库数据经由以下等式来计算归一化PMI：

其中P(x)是x的内链数，P(y)是x的内链数，P(x，y)是指向x和y两者的页数，例如，x的内链数可以是到x的链接数，或者是指向知识库中的x的页数。在一些示例中，面服务108可以使用诸如维基百科之类的知识库的预先训练的嵌入之间的余弦相似度来计算概念之间的相似度。例如，可以使用最初在2013年发布的Word2vec来创建单词的预先训练的嵌入。可以使用最初在2018年5月发布的版本0.2.4的Wikipedia2vec来创建用于维基百科中的概念的预先训练的嵌入。

在各种示例中，面服务108可以通过选择与概念中的一个概念相对应的顶点作为用于过滤结果的候选面来过滤概念组。例如，由候选面过滤的结果可以仅包含作为图中的面的邻居的概念。选择特定概念作为候选面因此将图划分成子图和图的剩余部分。在一些示例中，可以通过选择在所得到的子图中产生最高相关概念的顶点来选择候选面。因此，所得到的子图可以是同类的，以便表示不同的用户意图。例如，通过使用候选面划分图而产生的子图中的边权重的总和可以表示子图的同类度(homogeneity)。在各种示例中，可以基于超过某个阈值同类度的权重的总和来选择候选面。所得到的候选面可以是表示用户在提交查询时的不同意图的动态面。

在各种示例中，面服务108然后可以使用效用函数对候选面进行排名。例如，面服务108可以使用以下等式对候选面进行排名：

其中，N(c_i)是候选面c_i的邻居，而w_n是节点权重。节点权重有助于避免过于通用的面。在各种示例中，面服务108可以计算每个候选面在结果集中的预定数量的靠前的文档中的效用。例如，面服务108可以计算每个候选面在结果集的前100个文档中的效用。面服务108然后可以根据所计算的效用对候选面进行排名。在一些示例中，面服务108可以使用图神经网络来近似排名以提高速度。在各种示例中，面服务108可以将预定数量的靠前的候选面包括在面集合116中。例如，前10个面可以被返回以在面集合116中使用。

仍然参考图1，面服务108可以将所得到的面集合116发送到概念提取器104。概念提取器104可以生成结果和面118，结果和面118包括面116以及来自结果集112的结果。概念提取器104可以将结果和面118发送到用户接口102以显示给用户。因此，响应于发出查询，用户接口可以显示一组结果和面118。作为一个示例，“用于自然语言处理的组合优化”的查询可以返回结果以及以下面：“组合”、“机器学习”、“结构化预测”、“组合优化”、“算法”、“损失函数”、“近似算法”、“复杂度类别”、“自然语言处理”和“置换”。作为另一个示例，“提取文档摘要”的查询可以返回一组结果以及以下面：“自动摘要”、“自然语言处理”、“监督学习”、“单词嵌入”、“社交媒体”、“Word2vec”、“自信息”、“自然语言生成”、“多文档摘要”和“损失函数”。

用户然后可以选择一个或多个面来过滤结果。例如，用户接口102可以接收对面中的一个面的选择并且相应地过滤向用户显示的结果。例如，响应于用户选择面，结果集被过滤以仅示出包含所选面的结果。然后，可以根据过滤后的结果来构建新的概念图，计算新的面并向用户建议新的面。以这种方式，用户能够更有效地搜索各种主题。

应当理解，图1的框图不旨在表明系统100将包括图1中所示的所有组件，相反，系统100可以包括更少的或图1中未示出的附加组件(例如，附加用户接口、查询、结果、概念组、面、搜索引擎或附加概念提取器等)。

图2是能够使用图划分动态地生成面的示例方法的过程流程图。方法200可用任何合适的计算设备(诸如图3的计算设备300)来实现，并参考图1的系统100来描述，例如，方法200可使用计算设备300的处理器302或图3和6的处理器602来实现。

在框202，处理器接收查询、与查询相对应的结果集、以及知识库。例如，可以响应于向搜索引擎发送查询而从搜索引擎接收结果集。在各种示例中，知识库可以是知识图。作为一个示例，知识库可以是维基百科。

在框204，处理器使用知识库从结果集中提取概念。在一些示例中，处理器可以通过从顶层类别开始的长路径来过滤所提取的概念。在各种示例中，处理器可以通过预检索QPP特征来过滤所提取的概念。

在框206，处理器基于所提取的概念来构建图，其中，该图包括多个节点和加权边，多个节点表示概念，加权边表示从共享结果中提取的概念之间的相似度。例如，只有在同一个结果中检测到两个概念时才可以在两个节点之间生成边。然后，可以基于相似度向边分配权重。在一些示例中，处理器可以基于多个节点中的每个节点表示的概念的内链的数量，计算每个节点的权重。在各种示例中，处理器可以使用归一化成对互信息PMI或归一化谷歌距离NGD来计算边中的每个边的权重。

在框208处，处理器将图分割成子图，子图的顶点与用于顶点的具有较高的加权边总和的候选面相对应。

在框210处，处理器对候选面进行排名。在一些示例中，处理器可以计算候选面中的每个候选面的效用，并且按照所计算的效用对候选面进行排名。在各种示例中，处理器可以使用图神经网络来近似候选面的排名。例如，可以训练图神经网络以按照所建议的效用(而不是计算每个概念的效用)来对候选面进行排名。

在框212处，处理器选择较高排名的候选面以用作面。在框214处，处理器输出面和响应于查询的结果集。

图2的过程流程图不旨在指示方法200的操作将以任何特定顺序执行，或者方法200的所有操作将被包括在每种情况中。另外，方法200可包括任何合适数量的附加操作。例如，方法200还可以包括响应于接收到所选面，过滤结果集以仅示出包含所选面的结果。方法200还可以包括根据过滤后的结果来构建新的概念图、计算新的面以及输出新的面。

在一些场景中，本文描述的技术可以在云计算环境中实现。如以下至少参考图3-6更详细地讨论的，被配置成使用图划分动态地生成面的计算设备可以在云计算环境中实现。预先理解，尽管本公开包括关于云计算的详细描述，但是本文中记载的教导的实现不限于云计算环境。相反，本发明的实施例能够结合现在已知或以后开发的任何其它类型的计算环境来实现。

云计算是一种服务递送模型，用于实现对可配置计算资源(例如，网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池的方便的按需网络访问，所述可配置计算资源可以以最小的管理努力或与服务的提供者的交互来快速供应和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。

特征如下：

按需自助：云消费者可以单方面地自动地根据需要提供计算能力，诸如服务器时间和网络存储，而不需要与服务的提供者进行人工交互。

广域网接入：能力在网络上可用，并且通过促进由异构的薄或厚客户端平台(例如，移动电话、膝上型计算机和PDA)使用的标准机制来访问。

资源池化：供应商的计算资源被集中以使用多租户模型来服务多个消费者，其中不同的物理和虚拟资源根据需求被动态地分配和重新分配。存在位置无关的意义，因为消费者通常不控制或不知道所提供的资源的确切位置，但是能够在较高抽象级别(例如国家、州或数据中心)指定位置。

快速弹性：在一些情况下，可以快速且弹性地提供快速向外扩展的能力和快速向内扩展的能力。对于消费者，可用于提供的能力通常看起来不受限制，并且可以在任何时间以任何数量购买。

测量服务：云系统通过利用在适合于服务类型(例如，存储、处理、带宽和活动用户账户)的某一抽象级别的计量能力来自动地控制和优化资源使用。可以监视、控制和报告资源使用，从而为所利用服务的提供者和消费者两者提供透明度。

服务模型如下：

软件即服务(SaaS)：提供给消费者的能力是使用在云基础设施上运行的提供者的应用。应用程序可通过诸如web浏览器(例如，基于web的电子邮件)等瘦客户机界面从各种客户机设备访问。消费者不管理或控制包括网络、服务器、操作系统、存储、或甚至个别应用能力的底层云基础结构，可能的例外是有限的用户专用应用配置设置。

平台即服务(PaaS)：提供给消费者的能力是将消费者创建或获取的应用部署到云基础设施上，该消费者创建或获取的应用是使用由提供商支持的编程语言和工具创建的。消费者不管理或控制包括网络、服务器、操作系统或存储的底层云基础设施，但具有对部署的应用和可能的应用托管环境配置的控制。

基础设施即服务(IaaS)：提供给消费者的能力是提供处理、存储、网络和消费者能够部署和运行任意软件的其它基本计算资源，所述软件可以包括操作系统和应用。消费者不管理或控制底层云基础设施，但具有对操作系统、存储、部署的应用的控制，以及可能对选择的联网组件(例如，主机防火墙)的有限控制。

部署模型如下：

私有云：云基础设施仅为组织操作。它可以由组织或第三方管理，并且可以存在于建筑物内或建筑物外。

社区云：云基础设施由若干组织共享，并且支持具有共享关注(例如，任务、安全要求、策略和合规性考虑)的特定社区。它可以由组织或第三方管理，并且可以存在于场所内或场所外。

公有云：云基础设施可用于一般公众或大型工业群体，并且由销售云服务的组织拥有。

混合云：云基础设施是两个或更多云(私有、共同体或公共)的组合，所述云保持唯一实体，但是通过使数据和应用能够移植的标准化或私有技术(例如，用于云之间的负载平衡的云突发)绑定在一起。

云计算环境是面向服务的，其焦点在于无状态、低耦合、模块性和语义互操作性。在云计算的核心是包括互连节点的网络的基础设施。

图3是可以使用图划分动态地生成面的示例计算设备的框图。计算设备300可以是例如服务器、台式计算机、膝上型计算机、平板计算机或智能电话。在一些示例中，计算设备300可以是云计算节点。计算设备300可在诸如程序模块等由计算机系统执行的计算机系统可执行指令的一般上下文中描述。通常，程序模块可以包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等。计算设备300可以在分布式云计算环境中实践，其中任务由通过通信网络链接的远程处理设备执行。在分布式云计算环境中，程序模块可以位于包括存储器存储设备的本地和远程计算机系统存储介质中。

计算设备300可以包括用于执行所存储的指令的处理器302、用于在操作期间为所述指令的操作提供临时内存空间的内存设备304。处理器可以是单核处理器、多核处理器、计算集群或任何数量的其他配置。存储器304可以包括随机存取存储器(RAM)、只读存储器、闪存或任何其他合适的存储器系统。

处理器302可以通过系统互连306(例如，

等)连接到适于将计算设备300连接到一个或多个I/O设备310的输入/输出(I/O)设备接口308。I/O设备310可以包括例如键盘和指点设备，其中指点设备可以包括触摸板或触摸屏等。I/O设备310可以是计算设备300的内置组件，或者可以是外部连接到计算设备300的设备。

处理器302还可以通过系统互连306链接到适于将计算设备300连接到显示设备314的显示接口312。显示设备314可以包括显示屏，该显示屏是计算设备300的内置组件。显示设备314还可以包括外部连接到计算设备300的计算机监视器、电视机或投影仪等。另外，网络接口控制器(NIC)316可适于通过系统互连306将计算设备300连接到网络318。在一些实施例中，NIC 316可以使用任何合适的接口或协议(诸如因特网小型计算机系统接口等)来传输数据。网络318可以是蜂窝网络、无线电网络、广域网(WAN)、局域网(LAN)或因特网等。外部计算设备320可以通过网络318连接到计算设备300。在一些示例中，外部计算设备320可以是外部网络服务器320。在一些示例中，外部计算设备320可以是云计算节点。

处理器302还可以通过系统互连306链接到存储设备322，存储设备322可以包括硬盘驱动器、光盘驱动器、USB闪存驱动器、驱动器阵列或其任意组合。在一些示例中，存储设备可以包括用户接口模块324、概念提取器模块326、搜索引擎模块328以及面服务模块330。用户接口模块324可以接收查询并将查询发送到概念提取器模块326。概念提取器模块326可以接收查询、与查询相对应的结果集、以及知识库。在一些示例中，概念提取器模块326可以从搜索引擎模块328接收结果集。概念提取器模块326可以使用知识库从结果集中提取概念。例如，概念提取器模块326可以使用知识库从与查询相对应的结果集中提取概念。在一些示例中，概念提取器模块326可以将领域的高级类别映射到知识库的类别。在各种示例中，概念提取器模块326可以将提及检测工具应用于结果集中的所有文档以提取概念。在一些示例中，概念提取器模块326可以遍历知识库的类别树，并且提取其类别在领域的层级之下的概念。在各种示例中，概念提取器模块326可以基于包含所提取的概念的提及的页面的数量来过滤概念。搜索引擎模块328可以接收查询并基于该查询而生成结果集。面服务模块330可以基于所提取的概念来构建图。图包括多个节点和加权边，多个节点表示概念，加权边表示从共享结果中提取的概念之间的相似度。在一些示例中，面服务模块330可以使用知识库的预先训练的嵌入之间的余弦相似度来计算概念之间的相似度。在各种示例中，面服务模块330可以基于多个节点中的每个节点表示的概念的内链的数量，计算每个节点的权重。在各种示例中，面服务模块330可以使用归一化成对互信息(PMI)或归一化谷歌距离(NGD)来计算每个边的权重。面服务模块330可以将图划分成子图，子图的顶点与用于顶点的具有较高的加权边总和的候选面相对应。面服务模块330可以对候选面进行排名。在一些示例中，面服务模块330可以计算候选面中的每个候选面的效用，并且按照所计算的效用对候选面进行排名。在一些示例中，面服务模块330可以使用图神经网络来近似候选面的排名。面服务模块330可以选择较高排名的候选面以用作面。面服务模块330然后可以输出面和响应于查询的结果集。

应当理解，图3的框图不旨在表明计算设备300要包括图3中所示的所有组件。相反，计算设备300可以包括更少的或图3中未示出的附加组件(例如，附加存储器组件、嵌入式控制器、模块、附加网络接口等)。此外，用户接口模块324、概念提取器模块326、搜索引擎模块328和面服务模块330的功能中的任何功能可以部分地或完全地在硬件和/或处理器302中实现。例如，除其它项以外，功能可以利用专用集成电路、在嵌入式控制器中实现的逻辑或者在处理器302中实现的逻辑来实现。在一些实施例中，用户接口模块324、概念提取器模块326、搜索引擎模块328和面服务模块330的功能可以利用逻辑来实现，其中如本文所称的逻辑可以包括任何合适的硬件(例如，处理器等)、软件(例如，应用等)、固件或者硬件、软件和固件的任何合适的组合。

现在参考图4，描绘了说明性云计算环境400。如图所示，云计算环境400包括云消费者使用的本地计算设备可以与其通信的一个或多个云计算节点402，本地计算设备例如个人数字助理(PDA)或蜂窝电话404A、台式计算机404B、膝上型计算机404C和/或汽车计算机系统404N。节点402可以彼此通信。它们可以被物理地或虚拟地分组(未示出)在一个或多个网络中，诸如如上文描述的私有云、社区云、公共云或混合云或它们的组合。这允许云计算环境400提供基础设施、平台和/或软件作为服务，云消费者不需要为其维护本地计算设备上的资源。应当理解，图4中所示的计算设备404A-N的类型仅旨在说明，并且计算节点402和云计算环境400可以通过任何类型的网络和/或网络可寻址连接(例如，使用web浏览器)与任何类型的计算机化设备通信。

现在参考图5，示出了由云计算环境400(图4)提供的一组功能抽象层。应当预先理解，图5中所示的组件、层和功能仅旨在说明，并且本发明的实施例不限于此。如所描述的，提供了下面的层和相应的功能。

硬件和软件层500包括硬件和软件组件。硬件组件的示例包括大型机，在一个示例中是

系统；基于RISC(精简指令集计算机)架构的服务器，在一个示例中是IBM

系统；IBM

系统；IBM

系统；存储设备；网络和网络组件。软件组件的示例包括网络应用服务器软件，在一个示例中为IBM

应用服务器软件；以及数据库软件，在一个实例中为IBM

数据库软件。(IBM、zSeries、pSeries、xSeries、BladeCerter、WebSphere和DB2是在全世界许多管辖区注册的国际商业机器公司的商标)。

虚拟化层502提供抽象层，从该抽象层可以提供虚拟实体的以下示例：虚拟服务器；虚拟存储；虚拟网络，包括虚拟专用网络；虚拟应用和操作系统；以及虚拟客户端。在一个示例中，管理层504可以提供以下描述的功能。资源供应提供用于在云计算环境内执行任务的计算资源和其它资源的动态获取。计量和定价提供了在云计算环境中利用资源时的成本跟踪，并为此提供帐单和发票。在一个示例中，这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证，以及为数据和其他资源提供保护。用户门户为消费者和系统管理员提供对云计算环境的访问。服务级别管理提供云计算资源分配和管理，使得满足所需的服务级别。服务水平协议(SLA)规划和履行为根据SLA预测的对云计算资源的未来需求提供预先安排和供应。

工作负载层506提供了可以利用云计算环境的功能的示例。可以从该层提供的工作负载和功能的示例包括：绘图和导航；软件开发和生命周期管理；虚拟教室的教学提供；数据分析处理；交易处理；以及动态面生成。

本发明可以是任何可能的技术细节集成级别的系统、方法和/或计算机程序产品。计算机程序产品可以包括其上具有计算机可读程序指令的计算机可读存储介质(或多个介质)，这些计算机可读程序指令用于使处理器执行本发明的各方面。

计算机可读存储介质可以是能够保留和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述的任何合适的组合。计算机可读存储介质的更具体示例的非穷举列表包括以下：便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、诸如上面记录有指令的打孔卡或凹槽中的凸起结构的机械编码装置，以及上述的任何适当组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身，诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，通过光纤线缆的光脉冲)、或通过导线传输的电信号。

本文描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备，或者经由网络(例如因特网、局域网、广域网和/或无线网络)下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或网络接口从网络接收计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的代码或目标代码，所述编程语言包括诸如Smalltalk、C++等的面向对象的编程语言、以及诸如“C”编程语言或类似编程语言的传统过程编程语言。计算机可读程序指令可以完全在用户的计算机上执行，部分在用户的计算机上执行，作为独立的软件包执行，部分在用户的计算机上并且部分在远程计算机上执行，或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过任何类型的网络连接到用户的计算机，包括局域网(LAN)或广域网(WAN)，或者可以连接到外部计算机(例如，使用因特网服务提供商通过因特网)。在一些实施例中，为了执行本发明的各方面，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化。

在此参考根据本技术的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明的各方面。将理解，流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机可读程序指令来实现。

这些计算机可读程序指令可以被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器，使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中，其可以引导计算机、可编程数据处理装置和/或其他设备以特定方式工作，使得其中存储有指令的计算机可读存储介质包括制品，该制品包括实现流程图和/或框图的一个或多个框中指定的功能/动作的各方面的指令。

计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上，以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图的一个或多个框中指定的功能/动作。

现在参考图6，描绘了可以使用图划分动态地生成面的示例有形的非暂时性计算机可读介质600的框图。有形的非暂时性计算机可读介质600可由处理器602通过计算机互连604来访问。此外，有形的非暂时性计算机可读介质600可以包括用于引导处理器602执行图2的方法200的操作的代码。

在此讨论的各种软件组件可以存储在有形的非暂时性计算机可读介质600上，如图6所示。例如，用户接口模块606包括用于接收和转发查询的代码。用户接口模块606还包括用于接收和显示结果集和面的代码。概念提取器模块608包括用于接收查询、与查询相对应的结果集以及知识库的代码。概念提取器模块608还包括用于使用知识库从结果集中提取概念的代码。搜索引擎模块610包括用于接收查询并基于该查询生成结果集的代码。面服务模块612包括用于基于所提取的概念来构建图的代码。该图包括多个节点和加权边，多个节点表示概念，加权边表示从共享结果中提取的概念之间的相似度。例如，面服务模块612还包括用于使用知识库的预先训练的嵌入之间的余弦相似度来计算概念之间的相似度的代码。在一些示例中，面服务模块612还包括用于基于多个节点中的每个节点表示的概念的内链的数量来计算每个节点的权重的代码。在各种示例中，面服务模块612还包括用于使用归一化成对互信息(PMI)或归一化谷歌距离(NGD)来计算每个边的权重的代码。面服务模块612还包括用于将图划分成子图的代码，子图的顶点与用于顶点的具有较高的加权边总和的候选面相对应。面服务模块612还包括用于对候选面进行排名的代码。例如，面服务模块612可以包括用于计算候选面中的每个候选面的效用并且按照所计算的效用对候选面进行排名的代码。在一些示例中，面服务模块612还包括用于使用图神经网络来近似候选面的排名的代码。概念提取器模块608还包括用于选择较高排名的候选面以用作面的代码。面服务模块612还包括用于输出面和响应于查询的结果集的代码。应当理解，取决于特定应用，图6中未示出的任何数量的附加软件组件可以被包括在有形的非暂时性计算机可读介质600内。

附图中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。在这点上，流程图或框图中的每个框可以表示指令的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些替代实施方案中，框中所提及的功能可不按图中所提及的次序发生。例如，连续示出的两个框实际上可以基本上同时执行，或者这些框有时可以以相反的顺序执行，这取决于所涉及的功能。还将注意，框图和/或流程图图示的每个框以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作或执行专用硬件和计算机指令的组合的专用的基于硬件的系统来实现。应当理解，取决于具体应用，图6中未示出的任何数量的附加软件组件可以被包括在有形的非暂时性计算机可读介质600内。

已经出于说明的目的呈现了对本技术的各种实施例的描述，但是其并非旨在是穷举的或限于所公开的实施例。在不背离所描述的实施例的范围的情况下，许多修改和变化对于本领域的普通技术人员将是显而易见的。选择本文所使用的术语以最好地解释实施例的原理、实际应用或对市场上存在的技术改进，或使本领域的其他普通技术人员能够理解本文所公开的实施例。

Claims

1.一种系统，包括处理器，所述处理器用于：

接收从与查询相对应的结果集中提取的概念以及针对每个所提取的概念的结果关联；

基于所提取的概念而构建图，其中，所述图包括多个节点和加权边，所述多个节点表示所提取的概念，所述加权边表示从共享结果中提取的概念之间的相似度；

将所述图划分成子图，所述子图的顶点与用于顶点的具有较高的加权边总和的候选面相对应；

对所述候选面进行排名；

选择较高排名的候选面以用作面；以及

输出所述面和响应于所述查询的所述结果集。

2.根据权利要求1所述的系统，其中，使用知识库从与所述查询相对应的所述结果集中提取所述概念。

3.根据权利要求2所述的系统，其中，所述处理器用于将领域的高级类别映射到所述知识库的类别。

4.根据权利要求2所述的系统，其中，所述处理器用于将提及检测工具应用于所述结果集中的所有文档以提取所述概念。

5.根据权利要求2所述的系统，其中，所述处理器用于遍历所述知识库的类别树，并提取其类别在领域的层级之下的概念。

6.根据权利要求1所述的系统，其中，所述处理器用于基于包含所提取的概念的提及的页面的数量来过滤所述概念。

7.根据权利要求1所述的系统，其中，基于所述多个节点中的每个节点表示的概念的内链的数量，对每个节点加权。

8.一种计算机实现的方法，包括：

经由处理器接收查询、与所述查询相对应的结果集、以及知识库；

经由所述处理器使用所述知识库从所述结果集中提取概念；

经由所述处理器基于所提取的概念而构建图，其中，所述图包括多个节点和加权边，所述多个节点表示概念，所述加权边表示从共享结果中提取的概念之间的相似度；

经由所述处理器将所述图划分成子图，所述子图的顶点与用于顶点的具有较高的加权边总和的候选面相对应；

经由所述处理器对所述候选面进行排名；

经由所述处理器选择较高排名的候选面以用作面；以及

经由所述处理器输出所述面和响应于所述查询的所述结果集。

9.根据权利要求8所述的计算机实现的方法，其中，构建所述图包括：基于所述多个节点中的每个节点表示的概念的内链的数量，计算每个节点的权重。

10.根据权利要求8所述的计算机实现的方法，其中，构建所述图包括：使用归一化成对互信息PMI或归一化谷歌距离NGD来计算所述边中的每个边的权重。

11.根据权利要求8所述的计算机实现的方法，其中，对所述候选面进行排名包括：计算所述候选面中的每个候选面的效用，并且按照所计算的效用对所述候选面进行排名。

12.根据权利要求8所述的计算机实现的方法，其中，对所述候选面进行排名包括：使用图神经网络来近似所述候选面的排名。

13.根据权利要求8所述的计算机实现的方法，包括：通过从顶层类别开始的长路径来过滤所提取的概念。

14.根据权利要求8所述的计算机实现的方法，包括：通过预检索查询性能预测QPP特征来过滤所提取的概念。

15.一种用于面生成的计算机程序产品，所述计算机程序产品包括具有程序代码的计算机可读存储介质，其中，所述计算机可读存储介质本身不是暂时性信号，所述程序代码能够由处理器执行以使得所述处理器：

接收查询、与所述查询相对应的结果集、以及知识库；

使用所述知识库从所述结果集中提取概念；

基于所提取的概念而构建图，其中，所述图包括多个节点和加权边，所述多个节点表示概念，所述加权边表示从共享结果中提取的概念之间的相似度；

对所述候选面进行排名；

选择较高排名的候选面以用作面；以及

输出所述面和响应于所述查询的所述结果集。

16.根据权利要求15所述的计算机程序产品，还包括能够由所述处理器执行以执行以下操作的程序代码：基于所述多个节点中的每个节点表示的概念的内链的数量，计算每个节点的权重。

17.根据权利要求15所述的计算机程序产品，还包括能够由所述处理器执行以执行以下操作的程序代码：使用归一化成对互信息PMI或归一化谷歌距离NGD来计算所述边中的每个边的权重。

18.根据权利要求15所述的计算机程序产品，还包括能够由所述处理器执行以执行以下操作的程序代码：计算所述候选面中的每个候选面的效用，并且按照所计算的效用对所述候选面进行排名。

19.根据权利要求15所述的计算机程序产品，还包括能够由所述处理器执行以执行以下操作的程序代码：使用图神经网络来近似所述候选面的排名。

20.根据权利要求15所述的计算机程序产品，还包括能够由所述处理器执行以执行以下操作的程序代码：使用所述知识库的预训练嵌入之间的余弦相似度来计算概念之间的相似度。