CN114930316A

CN114930316A - 透明迭代多概念语义搜索

Info

Publication number: CN114930316A
Application number: CN202080083448.8A
Authority: CN
Inventors: K·法默; A·奥贝莱; D·萨卡利; M·埃特根; S·库马尔; S·舒克尔
Original assignee: Rex Co ltd
Current assignee: Rex Co ltd
Priority date: 2019-09-24
Filing date: 2020-09-22
Publication date: 2022-08-19
Also published as: WO2021061635A1; US20210089719A1; US11694033B2

Abstract

一种方法包括：接收自然语言搜索查询；识别查询中的语义概念的第一集合；创建语义概念的第一集合的向量表示；识别具有与语义概念的第一集合在预定的相似度阈值内的向量表示的语义概念的第二集合；基于语义概念的第一集合对文档执行搜索；向用户呈现文档的结果集以及语义概念的第一、第二、和第三集合；从用户处接收输入；基于来自用户的输入来对文档执行第二搜索，以获得文档的第二结果集；基于文档的第二结果集识别语义概念的第四集合；以及向用户呈现文档的第二结果集和语义概念的第四集合。

Description

透明迭代多概念语义搜索

相关申请的交叉引用

本公开要求2019年9月24日提交的题为“Transparent Iterative Multi-conceptSemantic Search(透明迭代多概念语义搜索)”的美国临时专利申请第62/904,901号的优先权，其全部内容通过引用并入本文。

背景技术

可以使用各种不同类型的搜索查询来搜索文档数据库(例如，包含法律文档、专利文档、新闻文章、财务文档等的数据库)，以便识别与搜索查询相关的文档。搜索引擎通常要求使用关键字和连接符(例如，布尔连接符)输入搜索查询。虽然这种类型的搜索查询可能允许精确定义的搜索，但输入关键字和连接符的必要性可能对某些用户来说很困难或不被期望。

替代地，许多搜索引擎现在允许用户输入自然语言搜索查询。由于不需要理解如何使用关键字或布尔连接符，因此这种类型的搜索查询可能更易于用户构建。然而，存在如下风险：用户可能会构造无效的自然语言搜索查询，其产生不令人满意的搜索结果，而这些搜索结果不满足用户的搜索目标。这可能是因为用户输入的自然语言搜索查询可能无法被搜索引擎转换为与用户预期搜索参数匹配的适当可搜索概念。此外，在用户花费大量时间和精力查看文档之前，用户可能没有意识到响应于自然语言搜索查询而识别的文档集的相关性。因此，需要执行自然语言搜索的改进的方法。

发明内容

在一个实施例中，用于对文档语料库执行搜索的方法包括：在计算设备处接收自然语言搜索查询；识别自然语言搜索查询中的一个或多个第一语义概念；创建所识别的一个或多个第一语义概念的向量表示；识别具有与一个或多个第一语义概念的向量表示在预定的相似度阈值内的向量表示的一个或多个第二语义概念；基于第一语义概念和第二语义概念对文档语料库执行搜索，以获得文档的结果集；基于文档的结果集识别一个或多个第三语义概念；向用户呈现文档的结果集；以及向用户呈现第一语义概念、第二语义概念和第三语义概念。

在另一实施例中，用于对文档语料库执行搜索的系统包括处理设备和非瞬态处理器可读存储介质。存储介质可包括存储在其上的一个或多个编程指令，当该一个或多个编程指令被执行时，使处理设备：接收自然语言搜索查询；识别自然语言搜索查询中的一个或多个第一语义概念；创建所识别的一个或多个第一语义概念的向量表示；识别具有与一个或多个第一语义概念的向量表示在预定的相似度阈值内的向量表示的一个或多个第二语义概念；基于第一语义概念和第二语义概念对文档语料库执行搜索，以获得文档的结果集；基于文档的结果集识别一个或多个第三语义概念；向用户呈现文档的结果集；以及向用户呈现第一语义概念、第二语义概念和第三语义概念。

在另一个实施例中，可操作以对文档语料库执行搜索的非瞬态计算机可读存储介质包括存储在其上的一个或多个编程指令。一个或多个编程指令可使处理设备：接收自然语言搜索查询；识别自然语言搜索查询中的一个或多个第一语义概念；创建所识别的一个或多个第一语义概念的向量表示；识别具有与一个或多个第一语义概念的向量表示在预定的相似度阈值内的向量表示的一个或多个第二语义概念；基于第一语义概念和第二语义概念对文档语料库执行搜索，以获得文档的结果集；基于文档的结果集识别一个或多个第三语义概念；向用户呈现文档的结果集；以及向用户呈现第一语义概念、第二语义概念和第三语义概念。

本技术的这些和其他特征和特性，以及结构的相关元件的操作方法和功能以及部件的组合和制造的经济性，将在参照附图考虑以下描述和所附权利要求后变得更加明显，所有这些均构成本说明书的一部分，其中在各个附图中，相同的附图标记表示相对应的部分。然而，应当明确地理解，附图仅出于说明和描述的目的，而不旨在作为对本发明的限制的定义。如在本说明书和权利要求中所使用的，除非上下文另有明确指示，否则单数形式“一”、“一个”和“该”包括复数指称。

附图说明

附图中阐述的实施例本质上是说明性的和示例性的，并且不旨在限制由权利要求所限定的主题。在结合以下附图阅读时可以理解说明性实施例的以下详细描述，其中相同的结构用相同的参考标号表示，并且在附图中：

图1示意性地描绘了根据本文示出和描述的一个或多个实施例的用于执行对文档数据库的自然语言搜索的系统的说明性计算网络；

图2示意性地描绘了来自图1的服务器计算设备，进一步示出根据本文示出和描述的一个或多个实施例的可被用于执行对文档数据库的自然语言搜索的硬件和软件；

图3描绘了根据本文中示出和描述的一个或多个实施例的执行对文档数据库的自然语言搜索的说明性方法的流程图；

图4描绘了根据本文中示出和描述的一个或多个实施例的执行对文档数据库的自然语言搜索的另一说明性方法的流程图；

图5描绘了根据本文中示出和描述的一个或多个实施例的用于输入自然语言搜索查询的说明性图形用户界面；

图6描绘了根据本文中示出和描述的一个或多个实施例的用于显示搜索结果的说明性图形用户界面；并且

图7描绘了图6的图形用户界面的另一示例。

具体实施方式

一般参考附图，本文描述的实施例针对用于从自然语言搜索查询中提取语义概念、基于提取的语义概念执行搜索以及在可由用户操纵以优化搜索的用户界面中显示搜索结果的系统和方法。用户界面显示搜索结果以及用于执行搜索的语义概念。用户界面还在每个提取的概念邻近处显示滑动条。用户可以操纵滑动条来调整应赋予每个概念的权重。接着，可以使用用户识别的概念的加权值来执行更新的搜索。

通过显示用于执行搜索的概念，用户可以快速并轻松地查看自然语言搜索查询是如何被解释的。此外，允许用户调整赋予每个经提取的概念的权重，允许用户优化搜索，而无需重新输入新的搜索查询。

尽管本文在包括法律文档(例如，案例、法规等)、专利文档、新闻文档、财务文档等的文档数据库的上下文中描述了实施例，但应理解，实施例不限于此。

现在参考附图，图1描绘了说明性计算网络，说明了根据本文示出和描述的实施例的用于执行本文所描述的功能的系统的部件。如图1中所示，计算机网络10可包括广域网(诸如因特网)、局域网(LAN)、移动通信网络、公共业务电话网络(PSTN)和/或其他网络，并且可以被配置成电连接用户计算设备12a、服务器计算设备12b、以及管理员计算设备12c。

用户计算设备12a可用于促进基于自然语言的文档数据库或其他文档语料库的搜索，显示并接收来自用于执行此类基于自然语言的搜索的图形用户界面的输入，并显示文档的结果集和与文档的结果集相关的信息(例如，从自然语言搜索查询中提取的概念列表)。用户计算设备12a还可以有助于用户调整从自然语言搜索查询中提取的概念的权重(例如，通过调整与每个概念相关联的滑块)。也可利用用户计算设备12a来执行其他用户功能。

管理员计算设备12c尤其可以执行服务器计算设备12b的管理功能。在服务器计算设备12b需要监督、更新或校正的情况下，管理员计算设备12c可以被配置成提供所期望的监督、更新、和/或校正。管理员计算设备12c以及耦合到计算机网络10的任何其他计算设备可用于将一个或多个文档输入到文档数据库中。

服务器计算设备12b可以从用户计算设备12a接收自然语言搜索查询，并且可以使用本文所公开的技术来执行文档数据库的搜索，以识别与查询相关的文档的结果集。在执行搜索并识别文档的结果集之后，服务器计算设备12b可以将文档的结果集和相关信息发送给用户计算设备12a，以便用户计算设备12a可以显示文档的结果集和与文档的结果集有关的信息。用户计算设备12b的部件和功能将在下面详细描述。

应当理解的是，虽然用户计算设备12a和管理员计算设备12c被描绘为个人计算机，并且服务器计算设备12b被描绘为服务器，但是这些是非限制性示例。更具体地，在一些实施例中，任何类型的计算设备(例如，移动计算设备、个人计算机、服务器等)可以用于这些部件中的任何部件。附加地，虽然这些计算设备中的每一个在图1中被示出为单件硬件，但是这仅作为示例。更具体地，用户计算设备12a、服务区计算设备12b、以及管理员计算设备102c中的每一者可以代表多个计算机、服务器、数据库等等。

图2描绘了关于来自图1的服务器计算设备12b的附加细节。虽然在一些实施例中，服务器计算设备12b可以被配置成具有必要硬件、软件、和/或固件的通用计算机，但是在一些实施例中，服务器计算设备12b可以被配置成用于执行本文中所描述的功能而专门设计的专用计算机。

如也在图2中所示的，服务器计算设备12b可包括：处理器30、输入/输出硬件32、网络接口硬件34、数据存储部件36(其可存储文档数据库38a和索引38b)、以及非瞬态存储器部件40。存储器部件40可以被配置为易失性和/或非易失性计算机可读介质，并且由此，可以包括随机存取存储器(包括SRAM、DRAM和/或其他类型的随机存取存储器)、闪存、寄存器、光盘(CD)、数字多功能光盘(DVD)，和/或其他类型的存储部件。此外，存储器部件40可以被配置成存储操作逻辑42、搜索逻辑44、概念提取逻辑46、概念嵌入逻辑47、以及概念映射逻辑48(作为示例，这些逻辑中的每一个逻辑可以实现为计算机程序、固件、或硬件)。本地接口50也包括在图2中并且可以被实现为总线或其他接口以促进服务器计算设备12b的部件之间的通信。

处理器30可包括被配置为接收和执行指令(诸如来自数据存储部件36和/或存储器部件40)的任何处理部件。输入/输出硬件32可包括监视器、键盘、鼠标、打印机、相机、麦克风、扬声器、触摸屏、和/或用于接收、发送、和/或呈现数据的其他设备。网络接口硬件34可包括任何有线或无线联网硬件，诸如调制解调器、LAN端口、无线保真(Wi-Fi)卡、WiMax卡、移动通信硬件、和/或用于与其他网络和/或设备通信的其他硬件。

应当理解，数据存储部件36可以驻留在服务器计算设备12b的本地和/或远程，并且可以被配置为存储一个或多个数据片段以供服务器计算设备12b和/或其他组件访问。如图2中所示，数据存储部件36可存储文档数据库38a和索引38b。在至少一个实施例中，文档数据库38a包括已被组织和索引以用于搜索的文档语料库。索引38b可包括已知概念的列表和文档数据库38a中与每个已知概念相关联的一个或多个文档。文档数据库38a和索引38b可以存储在一个或多个数据存储设备中。在另一实施例中，服务器计算设备12b可以耦合至包括文档数据库38a中的一个或多个文档的远程服务器或数据存储设备。其他数据可以存储在数据存储部件36中以提供对本文所描述的功能的支持。

存储器部件40中包括操作逻辑42、搜索逻辑44、概念提取逻辑46、概念嵌入逻辑47和概念映射逻辑48。操作逻辑42可包括用于管理服务器计算设备12b的部件的操作系统和/或其他软件。类似地，搜索逻辑44可以驻留在存储器部件40中，并且可被配置为基于从用户计算设备12a接收的自然语言搜索查询来搜索文档数据库38a(例如，通过搜索索引38b)。概念提取逻辑46可操作用于从自然语言搜索查询中提取概念。概念嵌入逻辑47可用于创建由概念提取逻辑46提取的概念的嵌入或向量表示。概念映射逻辑48可操作用于将提取的概念相对于索引38b中的已知概念进行映射。下面将进一步详细描述搜索逻辑44、概念提取逻辑46、概念嵌入逻辑47和概念映射逻辑48的功能。

应当理解，图2中所示的组件仅是说明性的并且不旨在限制本公开的范围。更具体地，虽然图2中的部件被示出为驻留在服务器计算设备12b内，但这是非限制性示例。在一些实施例中，这些部件中的一个或多个可以驻留在服务器计算设备12b外部。类似地，虽然图2针对服务器计算设备12b，但是其他部件(诸如用户计算设备12a和管理员计算设备12c)可以包括相似的硬件、软件和/或固件。

如上文所提及的，关于图2描述的各种部件可用于执行一个或多个过程和/或提供用于执行对文档数据库的自然语言搜索的功能。相对于图3来描述各种过程的说明性示例。虽然与图3的框相关联的步骤将被描述为单独的任务，但是在其他实施例中，所述框可以被组合或省略。此外，虽然与图3的框相关联的步骤将被描述为以特定的顺序执行，但是在其他实施例中，这些步骤可以以不同的顺序执行。

在步骤300处，服务器计算设备12b接收自然语言搜索查询。在所示的示例中，用户首先将自然语言查询输入到用户计算设备12a中，并且接着将其发送到服务器计算设备12b。在其他示例中，可将自然语言搜索查询直接输入到服务器计算设备12b中。在一些示例中，图形用户界面显示在用户计算设备12a的显示设备上，以便于自然语言搜索查询的输入。图5示出了此类图形用户界面的一个示例。然而，应当理解，实施例不限于贯穿附图所示的图形用户界面的配置，并且其他图形用户界面配置也是可能的。在一个实施例中，计算机网络10是因特网，并且本文中所描述的图形用户界面经由web浏览器在用户计算设备12a的显示设备上呈现给用户。

参考图5，图形用户界面500包括被配置为请求用户提交自然语言搜索查询的自然语言查询输入元件510。在一些示例中，可以在自然语言查询输入元件510中提供文本输入，诸如当用户可以选择自然语言查询输入元件510作为输入字段并将文本输入到自然语言查询输入元件510中时。在一些示例中，可能已经向用户呈现了单独的搜索屏幕(例如，具有搜索框和“搜索”按钮的用户界面或具有在输入文本时立即导致搜索运行的搜索框的用户界面)，该搜索屏幕由用户使用以输入搜索查询，诸如通过将自然语言搜索查询键入到搜索框中，或通过将自然语言搜索查询说出到麦克风中来提供该搜索查询。

图形用户界面500还可包括搜索启动图标520。一旦查询已经被输入到自然语言查询输入元件510中，搜索启动图标520就可用于启动搜索。在一些示例中，当用户按下或单击搜索启动图标520时，输入到自然语言查询输入元件510中的搜索查询被发送到服务器计算设备12b。

应当理解，用户可以经由语音与本文提供的用户界面进行交互，以向用户提供自然的交互体验，这在用户计算设备12a是平板电脑或智能手机的一些实施例中可能有用。在经由语音输入搜索查询的实施例中，可以通过语音识别算法以某种方式对语音输入进行翻译、解析或处理，以生成自然语言搜索查询。在一些实施例中，自然语言查询输入元件510可包括一个或多个提示或屏幕，这些提示或屏幕可以通过用于构建自然语言搜索查询的各种信息来引导用户(例如，提示用户输入实践领域、日期范围、管辖区等)。

如上所述，在图5的示例中，用户可以将自然语言搜索查询输入到自然语言查询输入元件510中。自然语言搜索查询可包括使用与人类用于相互交谈的语言相匹配的语言的搜索查询。自然语言搜索查询不需要采用任何特定的形式。具体而言，自然语言搜索查询不需要使用关键字和连接符(例如，布尔连接符)。相比于传统的关键字搜索，用户可以更简单和更自然地输入自然语言搜索查询。

图形用户界面500可以响应于从服务器计算设备12b接收的输入而被显示，包括要在图形用户界面中显示的一个或多个元素。本文所描述的图形用户界面可促进自然语言搜索查询的生成以及自然语言搜索查询的迭代细化和操纵，从而使得用户可识别所期望的内容并确信所识别的内容是相关的。因此，本文描述的各种计算设备的功能得到了改进，因为相对于不提供自然语言搜索查询的迭代细化和操纵的计算设备，它们更准确地(或更可能)提供与特定用户的需求相关的搜索结果。当用户计算设备12a是平板设备或智能手机时，本文描述的图形用户界面可能尤其有用。此外，应当理解，本文描述的任何图形用户界面和元件都可以嵌入或集成在各种产品特征中以及搜索过程的各个点上。

返回参考图3，在步骤302处，在服务器计算设备12b接收到来自用户计算设备12a的查询之后，概念提取逻辑46使用本文描述的技术从自然语言搜索查询中识别和提取一个或多个语义概念。在一些示例中，概念提取可以由用户计算设备12a执行，而不是由服务器计算设备12b的概念提取逻辑46执行。从自然语言搜索查询中提取语义概念是有用的，因为与传统的关键字搜索不同，自然语言搜索可能包含无助于执行搜索的无关词。此外，自然语言搜索查询中的实体词可能不精确匹配与文档数据库38a相关联的索引38b中的概念。因此，从自然语言搜索查询中提取语义概念可以极大地提高搜索性能。

在实施例中，概念提取逻辑46分析自然语言搜索查询并识别自然语言搜索查询中的一个或多个语义概念。可使用各种技术来识别查询中的语义概念。在一个示例中，概念提取逻辑46可以使用自然语言处理工具包(诸如但不限于spaCy或自然语言工具包(NLTK))以将查询中的关键字术语识别为语义概念。

自然语言处理工具包(诸如spaCy或NLTK)是可使用各种技术来识别文本(诸如自然语言搜索查询)主体中的语义概念的软件程序。例如，自然语言处理工具包可以识别查询的语法结构，并且可以将词性标签(诸如名词和动词术语)和n元语法(n-gram)识别为关键字术语。因此，自然语言处理工具包可允许概念提取逻辑46从接收到的自然语言搜索查询中快速且容易地提取一个或多个语义概念。此外，自然语言处理工具包可允许将文本语法分块为有意义的标记。

在一些实施例中，概念提取逻辑46可以使用自然语言处理工具包来识别自然语言搜索查询中的一个或多个语义概念，并为每个识别的语义概念分配相关性得分。相关性得分可以指示所识别的语义概念与查询的相关程度。在这些示例中，概念提取逻辑46可以忽略由自然语言处理工具包识别的相关性得分低于预定阈值的语义概念，并且仅选择相关性得分高于预定阈值的经识别语义概念。

在另一示例中，概念提取逻辑46可以使用词频-逆文档频率(TF-IDF)分析来识别自然语言搜索查询中的语义概念。在这些示例中，概念提取逻辑46针对接收到的自然语言搜索查询中的每个词获取TF-IDF得分。在一些示例中，概念提取逻辑46还针对接收到的自然语言搜索查询中的每个多词短语(例如，查询中两个相邻词的每个组合、查询中三个相邻词的每个组合等)获取TF-IDF得分。概念提取逻辑46可以选择自然语言搜索查询中TF-IDF得分高于预定阈值的每个单词或短语作为语义概念。

TF-IDF得分是特定术语和特定文档语料库的词频和逆文档频率的组合。词频衡量术语在特定文档中出现的频率(例如，术语在文档中出现的次数的原始计数)。因此，术语在文档中出现地越频繁，其词频就越高。因此，概念提取逻辑46可以计算来自自然语言搜索查询的词或短语的词频，作为该词或短语在存储在文档数据库38a中的文档语料库的每个文档中出现的频率。因此，对于语料库中的每个文档，词或短语将具有不同的词频得分。

逆文档频率衡量词或短语在整个文档语料库中出现得多不频繁。它通常计算为包含该词或短语的语料库中的文档的按对数缩放的倒数。因此，如果词或短语很少出现在语料库中，则它将具有高逆文档频率，而如果该词或短语经常出现在语料库中，则它将具有低逆文档频率。逆文档频率可用于衡量词包含的信息量。例如，在许多文档中，词语“该”通常将经常出现。因此，对于任何特定文档，词语“该”很可能具有高词频。然而，因为词语“该”在整个文档语料库中频繁地出现，所以词语“该”将具有低逆文档频率。因此，对词频和逆文档频率进行组合可提供对特定文档与词或短语的相关程度的指示。因此，通常通过将词频和逆文档频率相乘来计算TF-IDF得分。

概念提取逻辑46可以针对文档数据库38a中的每个文档，确定来自自然语言搜索查询的每个词或短语的TF-IDF得分。概念提取逻辑46可以接着将相对于文档数据库38a中的一个或多个文档具有高于预定阈值的TF-IDF得分的每个词或短语选择为语义概念。

在一些示例中，概念提取逻辑46可以使用自然语言处理工具包和TF-IDF分析两者从自然语言搜索查询中提取语义概念。在一个示例中，概念提取逻辑46使用如上所述的自然语言处理工具包来识别语义概念的第一集合，并执行如上所述的TF-IDF分析来识别语义概念的第二集合。概念提取逻辑46接着从语义概念的第一集合中选择每个概念，并从语义概念的第二集合中选择每个概念作为自然语言搜索查询中包含的语义概念。在另一个示例中，概念提取逻辑46通过第一权重值对使用自然语言处理工具包所识别的语义概念进行加权，并通过第二权重值对执行TF-IDF分析所识别的语义概念进行加权(例如，通过将第一权重和来自自然语言处理工具包的相关性得分相乘，并将第二权重和TF-IDF得分相乘)并选择权重较高的概念(例如，加权相关性得分或加权TF-IDF得分高于阈值的概念)作为自然语言搜索查询中所包含的语义概念。

在另一个示例中，概念提取逻辑46首先使用自然语言处理工具包从自然语言搜索查询中识别关键字(例如，语义概念)。接着，概念提取逻辑46确定由自然语言处理工具包识别的每个关键字术语的TF-IDF得分。然后，概念提取逻辑46选择TF-IDF得分高于阈值的每个关键字术语作为包含在自然语言搜索查询中的语义概念。在一些示例中，概念提取逻辑46使用美国专利公开编号2017/0060991中描述的一种或多种技术从自然语言搜索查询中识别语义概念，其通过引用并入本文。

仍然参考图3，在步骤304处，在概念提取逻辑46从自然语言搜索查询中识别并提取一个或多个语义概念之后，概念嵌入逻辑47使用本文描述的技术创建由概念提取逻辑46所识别的每个语义概念的向量表示。词嵌入是将词或短语映射为实数向量的技术。一旦词或短语被转换成向量表示，就可以使用其向量表示与其他词或短语进行数学比较。特别地，两个词或短语的向量表示之间的距离(例如，使用余弦相似度)可以指示词或短语之间的语义相似度。

词嵌入通常涉及在大型文本语料库上训练神经网络，以创建多维向量空间，其中语料库中的每个词都具有向量表示。共享相似的上下文的词在向量空间中彼此靠近。一旦神经网络经过训练，就可以将任何词或短语输入到词嵌入模型中，以得到其向量表示。在所示的示例中，概念嵌入逻辑47使用Word2vec嵌入来创建由概念提取逻辑46识别的语义概念的向量表示。在其他示例中，可以使用其他词嵌入。在一些示例中，可以使用句嵌入(诸如来自转换器的双向编码器表示(Bidirectional Encoder Representations fromTransformers，BERT))，而非词嵌入。

概念嵌入逻辑47还可以创建索引38b中每个词或短语的向量表示。索引38b中每个词或短语的向量表示可以存储在数据存储部件36中。这可以允许将经提取的概念的向量表示与索引38b中的概念的向量表示进行快速比较。

在步骤306处，概念映射逻辑48将由概念提取逻辑46识别的概念映射到索引38b中密切相关的已知概念。具体地，对于由概念提取逻辑46提取的每个概念，概念映射逻辑48识别索引38b中的已知概念，这些已知概念的向量表示在与所提取的概念的向量表示的相似度阈值内。在所示的示例中，概念映射逻辑48确定由概念提取逻辑46识别的概念与索引38b中的概念的向量表示之间的余弦相似度。接着，概念映射逻辑48选择由概念提取逻辑46识别的每个概念，该概念与索引38b中的已知概念具有小于预定阈值的余弦相似度。在其他示例中，可以使用确定语义概念的向量表示之间的相似度的其他方法。

通过执行上述步骤，概念映射逻辑48能够将由概念提取逻辑46识别的概念(该概念可能不包括在索引38b中)映射到索引38b中包括的类似概念。因此，即使查询包含对于索引38b未知的词、短语和语义概念，服务器计算设备12b也能够基于用户输入的自然语言搜索查询来搜索文档数据库38a。

在步骤308处，搜索逻辑44基于来自概念映射逻辑48的概念来搜索文档数据库38a。因为由概念映射逻辑48识别的每个概念都是包含在索引38b中的概念，所以搜索逻辑44可以通过简单地在索引38b中搜索由概念映射逻辑48识别的每个概念来搜索文档数据库38a。索引38b包含每个此类概念与文档数据库38a中的一个或多个相关文档之间的关联。因此，搜索逻辑44可以创建与来自概念映射逻辑48的一个或多个概念相关联的文档数据库38a中的每个文档相对应的文档的结果集。

在一些示例中，搜索逻辑44使用Elasticsearch来对文档数据库38a执行搜索。Elasticsearch是以Lucene库构建的搜索引擎，它提供了具有HTTP web界面的分布式、支持多租户的全文搜索引擎。作为非限制性示例，Elasticsearch可以托管在亚马逊ElasticSearch服务上。在一些示例中，搜索逻辑44基于初始搜索查询而非来自概念映射逻辑48的概念来搜索文档数据库38a。在一些示例中，搜索逻辑44使用Okapi BM25排序函数来搜索文档数据库38a。

在步骤310处，服务器计算设备12b将文档的结果集返回给用户计算设备12a。在一些示例中，还可以返回与文档的结果集相关联的元数据(诸如发布日期)，这些元数据可用于对文档进行排序。

在步骤312处，概念提取逻辑46从文档的结果集中提取一个或多个语义概念。概念提取逻辑46可以使用关于从搜索查询中提取语义概念的上述技术，以从文档的结果集提取语义概念。

在一些示例中，可以作为离线过程来执行从文档数据库38a中的每个文档进行概念提取。即，对于文档数据库38a中的每个文档，概念提取逻辑46可以作为离线过程从文档中提取一个或多个语义概念。然后，可以将从文档中提取的语义概念作为与文档相关联的元数据存储在文档数据库38a中。在这些示例中，在步骤312处，概念提取逻辑46可以简单地访问与文档的结果集的每个文档相关联的元数据，以提取与文档的结果集相关联的语义概念。

在步骤314处，服务器计算设备12b将由概念提取逻辑46提取的从自然语言查询中提取的语义概念、由概念映射逻辑48识别的相关概念、以及从文档的结果集提取的概念返回给用户计算设备12a。然后，用户计算设备12a可以向用户显示接收到的文档的结果集和所有的经识别语义概念。

在一个示例中，用户计算设备12a使用图6中所示的示例图形用户界面600向用户显示接收到的结果集和语义概念。参考图6，图形用户界面600可以包含两列602和604。在图6的示例中，列604显示由服务器计算设备12b返回的文档的结果集以及来自每个文档的简短摘要或引用段落。此外，列602显示由概念映射逻辑48识别的用于搜索文档数据库38a的索引38b的语义概念606的列表。列602还显示语义概念606中的每一者旁边的多个滑动条608。下面结合图4更详细地讨论滑动条608。应当理解，实施例不限于图6的图形用户界面600。

通过显示基于提交的自然语言搜索查询而获得的语义概念，用户能够看到查询是如何解释的。因此，用户可意识到，在自然语言搜索查询中使用的某些词或短语没有按照期望进行解释。或者，用户可以简单地看到返回的搜索结果与他们预期的结果类型不匹配。因此，用户可以决定以更好地表达其所期望搜索词的方式来重新格式化自然语言搜索查询。替代地，用户可以利用下面结合图4描述的特征来操纵和迭代搜索结果。

现在参考图4，描绘了可由图2的部件执行的另一说明性方法的流程图。虽然与图4的框相关联的步骤将被描述为单独的任务，但是在其他实施例中，所述框可以被组合或省略。此外，虽然与图4的框相关联的步骤将被描述为以特定的顺序执行，但是在其他实施例中，这些步骤可以以不同的顺序执行。图4的步骤400-412与图3的步骤300-312相同，并且不进行详细讨论。

在步骤400处，服务器计算设备12b接收自然语言搜索查询。在所示的示例中，自然语言搜索查询由用户使用图5的图形用户界面500输入到用户计算设备12a，并且然后从用户计算设备12a传输到服务器计算设备12b。在步骤402处，概念提取逻辑46从自然语言搜索查询中提取一个或多个语义概念。在步骤404处，概念嵌入逻辑47创建由概念提取逻辑46从自然语言搜索查询中提取的语义概念的向量表示。在步骤406处，概念映射逻辑48使用由概念提取逻辑46识别的语义概念的向量表示来识别索引38b中发现的一个或多个相关概念。在步骤408处，基于由概念映射逻辑48或自然语言搜索查询识别的概念，搜索逻辑44使用索引38b搜索文档数据库38a，以获得文档的结果集。在步骤410处，服务器计算设备12b将文档的结果集返回给用户计算设备12a。在步骤412处，概念提取逻辑46从文档的结果集中提取一个或多个语义概念。在一些示例中，基于与使用脱机过程编译的文档相关联的元数据，概念提取逻辑46从文档的结果集中提取语义概念。在步骤414处，服务器计算设备12b将从自然语言搜索查询中提取的概念、由概念映射逻辑48识别的概念、以及从文档的结果集提取的概念返回给用户计算设备12a。

如上所述，在用户计算设备12a从服务器计算设备12b接收到结果集和概念之后，用户计算设备12a可以向用户显示结果集和概念。在所示的示例中，图6的图形用户界面600用于显示列604中的结果集和列602中的概念。此外，列602显示与滑动条608相邻的语义概念606。用户可以调整滑动条608以将权重应用于语义概念606，从而增强某些概念。在调整各种滑动条608之后，可以基于由滑动条设置的加权或增强概念来运行新的搜索。即，可以运行新的搜索，其中加权越高的概念对相关性得分越重要。因此，将返回更多与权重更高的概念相关的搜索结果。

在图6的示例中，所有滑动条608都设置在最左侧(包括与概念“附加证据”相邻的滑动条610)，这意味着每个概念都具有相等的权重。然而，图7示出了图形用户界面600的另一示例，其中与概念“附加证据”相邻的滑动条610已向上调整。这意味着在后续搜索中，概念“附加证据”的权重将比其他概念606更大。可以以任何方式调整滑动条608，以将权重的任何组合应用于各种概念606。

通过允许用户调整概念606的权重，用户可以容易地执行新的搜索，而无需重新输入新的搜索查询。可通过对各种概念606进行加权来执行新搜索，以将新搜索更集中于用户最感兴趣的概念。此外，如果用户对概念606中的一个或多个概念完全不感兴趣，则图形用户界面600可以具有允许用户从后续搜索中完全移除这些主题的特征。在一些示例中，图形用户界面600还允许用户添加要包括在后续搜索中的其他概念。

返回参考图4，在步骤416处，用户计算设备12a可以接收关于由服务器计算设备12b返回的文档的结果集的用户反馈。用户反馈可包括使用如上所述的滑动条608调整语义概念606的权重。用户反馈还可以包括从语义概念列表606中移除一个或多个概念，或者添加一个或多个概念。一旦用户已完成调整权重并移除不需要的概念，用户可以按下或单击按钮，或以其他方式指示将基于经调整的概念和权重来执行新的搜索。如果没有接收到此类用户反馈，则可以重复步骤416，直到接收到用户反馈为止。如果在步骤416处接收到用户反馈，则可以将用户反馈发送到服务器计算设备12b，并且可以将控制返回到步骤408处。

在步骤408处，搜索逻辑44可以基于从用户计算设备12a接收到的经调整的概念和权重，使用索引38b对文档数据库38a执行新的搜索。在一些示例中，新搜索也可部分基于初始搜索查询。如上所述，在一些示例中，搜索逻辑44使用Elasticsearch执行搜索。Elasticsearch能够基于加权搜索概念来执行搜索，其中搜索更集中于与权重更大的概念相关的文档。在其他示例中，可使用其他搜索方法或框架来执行基于加权搜索概念的搜索。在执行新搜索之后，搜索逻辑44从文档数据库38a获得文档的第二结果集。

在执行新搜索之后，在步骤410处，服务器计算设备12b将第二结果集返回给用户计算设备12a。在步骤412处，概念提取逻辑46从文档的第二结果集中提取一个或多个语义概念。如上所述，可以从与文档的第二结果集相关联的元数据中提取这些概念。在步骤414处，服务器计算设备12b将由概念提取逻辑46从初始查询中提取的概念、由概念映射逻辑48识别的相关概念、以及由概念提取逻辑46从文档的第二结果集提取的概念返回给用户计算设备12a。服务器计算设备12b也可以返回在执行第二搜索时使用的概念的权重。然后，用户计算设备12a可以显示第二结果集以及用于执行第二搜索的经识别的概念和权重。如果用户对文档的第二结果集不满意，则用户可以使用图形用户界面600再次调整概念的权重，并且可以使用经调整的概念的权重来执行第三搜索。通过这种方式，用户可以迭代地执行任意数量的搜索，同时在每次搜索之间调整搜索参数，直到获得令人满意的文档的结果集。这可以继续，直到用户输入新的查询，此时图4的方法在步骤400处再次开始。

应当理解，本文描述的实施例针对用于执行自然语言搜索的系统和方法。服务器计算设备可以接收自然语言搜索查询，从查询中提取要搜索的概念，创建所提取的概念的向量表示，识别具有接近所提取的概念的向量表示的向量表示的一个或多个已知概念，基于已知概念执行搜索，并向用户呈现搜索结果以及用于执行搜索的已知概念。

搜索结果可以呈现在图形用户界面中，该图形用户界面显示通过搜索找到的文档以及用于执行搜索的概念。图形用户界面可包括与每个概念相邻的滑动条，用户可以调整这些滑动条以调整每个概念的权重，以用于后续搜索。然后，可以基于概念和用户分配的权重来执行后续搜索。用户可以使用经调整的权重继续执行其他搜索，以迭代地优化搜索结果。

尽管本文示出和描述了特定实施例，但应理解可作出各种其他变更和修改而不偏离所要求保护的主题的精神和范围。此外，虽然本文中已经描述了所要求保护的主题的各个方面，但不需要以组合的方式来利用这些方面。因此，所附权利要求旨在涵盖所要求保护的主题的范围内的所有此类变更和修改。

Claims

1.一种用于对文档语料库执行搜索的方法，所述方法包括：

在计算设备处接收自然语言搜索查询；

识别所述自然语言搜索查询中的语义概念的第一集合；

创建所识别的语义概念的第一集合中的语义概念的向量表示；

识别语义概念的第二集合，所述语义概念的第二集合包括具有与所述语义概念的第一集合中的所述语义概念中的一个或多个语义概念的所述向量表示在预定的相似度阈值内的向量表示的语义概念；

基于所述语义概念的第一集合和所述语义概念的第二集合来对所述文档语料库执行搜索，以获得文档的结果集；

基于所述文档的结果集来识别语义概念的第三集合；

向用户呈现所述文档的结果集；以及

向所述用户呈现所述语义概念的第一集合、所述语义概念的第二集合、以及所述语义概念的第三集合。

2.如权利要求1所述的方法，其特征在于，识别所述自然语言搜索查询中的所述语义概念的第一集合包括使用自然语言处理工具包来识别所述自然语言搜索查询中的关键字术语。

3.如权利要求2所述的方法，其特征在于，识别所述自然语言搜索查询中的所述语义概念的第一集合包括：

针对所识别的关键字术语中的每一者，确定相关度得分；以及

选择相关度得分高于预定阈值的所识别的关键字术语中的每一者作为所述语义概念的第一集合的语义概念。

4.如权利要求2所述的方法，其特征在于，识别所述自然语言搜索查询中的所述语义概念的第一集合包括：

识别所述自然语言搜索查询的语法结构；以及

识别所述自然语言搜索查询中的词性标签或n元语法。

5.如权利要求1所述的方法，其特征在于，识别所述自然语言搜索查询中的所述语义概念的第一集合包括基于n元语法生成和语法分块使用词频-逆文档频率来识别所述自然语言搜索查询中的关键字术语。

6.如权利要求5所述的方法，其特征在于，识别所述自然语言搜索查询中的所述语义概念的第一集合包括：

基于所述文档语料库，针对所述自然语言搜索查询中的每个词确定词频-逆文档频率得分；以及

选择词频-逆文档频率得分高于预定阈值的所述自然语言搜索查询中的每个词作为所述语义概念的第一集合的语义概念。

7.如权利要求1所述的方法，其特征在于，识别所述自然语言搜索查询中的所述语义概念的第一集合包括：

使用自然语言处理工具包来识别所述自然语言搜索查询中的关键字术语的第一集合；

使用所述自然语言处理工具包来确定所述关键字术语的第一集合的每个关键字术语的相关度得分；

使用词频-逆文档频率分析来识别所述自然语言搜索查询中的关键字术语的第二集合；

基于所述关键字术语的第二集合的每个关键字术语的词频-逆文档频率得分来确定每个关键字术语的相关度得分；

向所述关键字术语的第一集合的每个关键字术语的所述相关度得分应用第一权重，以获得所述关键字术语的第一集合的每个关键字术语的加权得分；

向所述关键字术语的第二集合的每个关键字术语的所述相关度得分应用第二权重，以获得所述关键字术语的第二集合的每个关键字术语的加权得分；以及

选择加权得分高于预定阈值的所述关键字术语的第一集合的每个关键字术语和所述关键字术语的第二集合的每个关键字术语作为所述语义概念的第一集合的语义概念。

8.如权利要求1所述的方法，其特征在于，识别所述自然语言搜索查询中的所述语义概念的第一集合包括：

使用自然语言处理工具包来识别所述自然语言搜索查询中的关键字术语的集合；

针对所述关键字术语的集合的每个关键字术语确定词频-逆文档频率得分；以及

选择词频-逆文档频率得分高于预定阈值的所述关键字术语的集合的每个关键字术语作为所述语义概念的第一集合的语义概念。

9.如权利要求1所述的方法，进一步包括使用Word2vec嵌入来创建所述语义概念的第一集合中的所述语义概念的所述向量表示。

10.如权利要求1所述的方法，其特征在于，所述预定的相似度阈值包括预定的最大余弦相似度。

11.如权利要求1所述的方法，进一步包括：

在向所述用户呈现所述文档的结果集之后，从所述用户处接收输入；

基于所述语义概念的第一集合、所述语义概念的第二集合、所述语义概念的第三集合、以及来自所述用户的所述输入，执行对所述文档语料库的第二搜索，以获得文档的第二结果集；

基于所述文档的第二结果集来识别语义概念的第四集合；

向所述用户呈现所述文档的第二结果集；以及

向所述用户呈现所述语义概念的第四集合。

12.如权利要求11所述的方法，进一步包括：

基于与所述文档的第二结果集相关联的元数据来识别所述语义概念的第四集合。

13.如权利要求11所述的方法，进一步包括：

基于从所述用户处接收到的所述语义概念的第一集合、所述语义概念的第二集合、或所述语义概念的第三集合中的至少一个语义概念的权重，执行对所述文档语料库的所述第二搜索。

14.如权利要求11所述的方法，进一步包括使用Elasticsearch来执行对所述文档语料库的所述第二搜索。

15.如权利要求11所述的方法，进一步包括显示与所述语义概念的第一集合、所述语义概念的第二集合、或所述语义概念的第三集合中的至少一个语义概念相邻的滑动条，其中所述滑动条可操作以被调整从而设置所述权重。

16.如权利要求11所述的方法，其特征在于，来自所述用户的所述输入包括移除所述语义概念的第一集合、所述语义概念的第二集合、或所述语义概念的第三集合中的一个或多个语义概念，以获得经修改的语义概念的集合，

所述方法包括基于所述经修改的语义概念的集合来执行对所述文档语料库的所述第二搜索。

17.一种用于对文档语料库执行搜索的系统，所述系统包括：

处理设备；以及

非瞬态处理器可读存储介质，所述非瞬态处理器可读存储介质包括存储在其上的一个或多个编程指令，当所述一个或多个编程指令被执行时，使所述处理设备：

接收自然语言搜索查询；

识别所述自然语言搜索查询中的语义概念的第一集合；

识别语义概念的第二集合，所述语义概念的第二集合包括具有与所述第一语义概念中的一个或多个语义概念的所述向量表示在预定的相似度阈值内的向量表示的语义概念；

基于所述文档的结果集来识别语义概念的第三集合；

向用户呈现所述文档的结果集；以及

18.如权利要求17所述的系统，其特征在于，所述非瞬态处理器可读存储介质进一步包括存储在其上的一个或多个编程指令，当所述一个或多个编程指令被执行时，使所述处理设备：

在所述处理设备向所述用户呈现所述文档的结果集之后，从所述用户处接收输入；

基于所述文档的第二结果集来识别语义概念的第四集合；

向所述用户呈现所述文档的第二结果集；以及

向所述用户呈现所述语义概念的第四集合。

19.如权利要求18所述的系统，其特征在于，所述指令使所述处理设备基于与所述文档的第二结果集相关联的元数据来识别所述语义概念的第四集合。

20.一种非瞬态计算机可读存储介质，所述非瞬态计算机可读存储介质由计算机可操作以对文档语料库执行搜索，所述非瞬态计算机可读存储介质包括存储在其上的一个或多个编程指令，以用于使处理设备：

接收自然语言搜索查询；

识别所述自然语言搜索查询中的语义概念的第一集合；

识别语义概念的第二集合，所述语义概念的第二集合包括具有与所述语义概念的第一集合中的一个或多个语义概念的所述向量表示在预定的相似度阈值内的向量表示的语义概念；

基于所述文档的结果集来识别语义概念的第三集合；

向用户呈现所述文档的结果集；以及