CN105359144A - 用于意图查询的自然语言搜索结果 - Google Patents
用于意图查询的自然语言搜索结果 Download PDFInfo
- Publication number
- CN105359144A CN105359144A CN201480038365.1A CN201480038365A CN105359144A CN 105359144 A CN105359144 A CN 105359144A CN 201480038365 A CN201480038365 A CN 201480038365A CN 105359144 A CN105359144 A CN 105359144A
- Authority
- CN
- China
- Prior art keywords
- title
- template
- text
- intention
- inquiry
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种系统和方法向清楚意图的查询提供自然语言搜索结果。为了提供自然语言搜索结果,系统可以对来自权威源的文档进行解析以生成至少一个标题文本对,该文本在文档中出现在标题之下。该系统可以向标题文本对分配主题和问题类别并且将标题文本对存储在以主题和问题类别为键的数据存储中。该系统确定查询与主题和问题类别相对应,并且提供标题文本对作为查询的自然语言搜索结果。在一些实现中,标题文本对的文本部分可以是段落或项列表并且自然语言搜索结果可以被与响应于查询的常规基于摘录的搜索结果一起提供。
Description
相关申请的交叉引用
本申请要求于2013年6月4日提交的题为"NATURALLANGUAGESEARCHRESULTSFORINTENTQUERIES"的美国非临时专利申请No.13/910,031的优先权并且是其延续申请,通过参考将其公开全部合并于此。
背景技术
搜索引擎是发现信息的流行方法。常规地,搜索引擎爬取语料库中的文档,对该文档生成倒排索引,并且使用该索引来确定哪些文档是对搜索查询的响应。搜索结果通常包括来自响应文档的标题以及来自文档的包括查询中的一个或多个搜索词语的文本摘录。这样的摘录不是自然语言结果并且典型地不能向不存在一个正确答案的非事实问题提供完整的易于理解的答案。虽然用户可选择与摘录相关联的链接以查看摘录在原始文档中的上下文以确定所识别的信息是否是足够的,但是这会降低用户体验并且就用户得到对非事实问题的答案而言需要额外的努力。
发明内容
一些实现使得搜索系统能够提供对自然语言和非事实查询的增强的搜索结果。该搜索系统可以使得查询请求者以直观的格式接收相关答案而无需加载并读取原始文档源。自然语言查询是使用人用来问诸如"howdoImakehummus?"的问题的词语的查询。一些自然语言查询是非事实的。非事实查询可以是包括对与主题有关的特定信息的请求的查询。特定信息被认为是问题类别并且对于针对各种主题的问题可具有相同格式。例如,在烹饪上下文中查询请求者可能具有与制作太妃糖有关的问题。配方指导是对太妃糖的主题所请求的特定信息并且该指导可以包括不同的或复杂的信息。在一些实现中,搜索系统可以执行权威源的离线处理以确定并存储对共同的明确意图的非事实问题的答案。搜索系统可以识别明确意图的查询并且使该查询与所存储的答案相匹配并且提供具有来自一个或多个权威源的完整答案的增强的搜索结果。
本公开的一个方面可体现为一种计算机实现的方法,该计算机实现的方法包括使用至少一个处理器对来自权威源的文档进行解析以生成标题文本对。对于每个标题文本对,该方法还包括:使用至少一个处理器将标题文本对与多个意图模板中的第一意图模板相关联,该第一意图模板具有相关联的问题类别;基于第一意图模板来确定标题文本对的主题和问题类别;并且将标题文本对存储在以主题和问题类别为键的数据存储中。该方法还包括:确定查询与所述多个意图模板中的第二意图模板相对应,该第二意图模板具有相关联的第二问题类别;基于第二意图模板来确定查询的第二主题;从具有主题和问题类别键的数据存储中检索与所述第二主题和所述第二问题类别相对应的标题文本对;并且提供用于查询的搜索结果,其中搜索结果包括所检索的标题文本对中的至少一个。
该方法可包括以下特征中的一个或多个。例如,第二意图模板可包括一个非可变部分和一个可变部分。在这样的实现中,使查询与第二意图模板相对应可包括:确定查询包括与所述一个非可变部分相对应的第一项,确定查询中的第二词语与所述可变部分一致,并且确定查询中的第二词语与数据存储中的主题相对应。作为另一示例,使查询与第二意图模板相对应可包括从查询的词语生成潜在模板并且确定潜在模板中的一个是否与第二意图模板相对应。在一些实现中将标题文本对与第一意图模板相关联包括确定标题的文本与第一意图模板的非可变部分相对应并且主题是从与第一意图模板的可变部分相对应的标题的文本得到的。
在一些实现中,该方法可进一步包括通过以下生成多个意图模板:从权威源获得意图问题;从意图问题生成潜在模板;确定每个独特潜在模板的出现频率;选择预定数目的最频繁出现的潜在模板;并且将所选择的潜在模板存储在存储器中作为所述多个意图模板。在这样的实现中,潜在模板是第一潜在模板并且生成多个意图模板可进一步包括:从搜索记录获得第二意图问题;从第二意图问题生成第二潜在模板;并且在确定、选择以及存储操作中将所述第二潜在模板与所述第一潜在模板包括在一起。而且,在这样的实现中,每个潜在模板可以具有至少一个非可变部分和可变部分,该可变部分表示与潜在模板的非可变部分相对应的文本中的主题的起始位置。因此,生成多个意图模板可包括基于所选择的潜在模板的非可变部分向每个所选择的潜在模板分配相应问题类别。
本公开的另一方面可体现为一种计算机系统,该计算机系统包括至少一个处理器以及用于存储指令的存储器,所述指令在被所述至少一个处理器执行时可使所述计算机系统执行操作。该操作包括:对来自权威源的文档进行解析以生成至少一个标题文本对,该文本出现在文档中的标题之下;并且向标题文本对分配主题和问题类别。该操作还包括:将标题文本对存储在以主题和问题类别为键的数据存储中;确定查询与所述主题和所述问题类别相对应;并且提供标题文本对作为所述查询的自然语言搜索结果。标题文本对的文本部分可以是出现在来自权威源的原始文档中的段落或者项列表。
该系统可包括以下特征中的一个或多个。例如,操作可以包括:通过对文档的索引搜索对所述查询进行响应的文档来生成基于摘录的搜索结果;并且随自然语言搜索结果提供基于摘录的搜索结果。在这样的实现中,可使用特定排名算法对基于摘录的结果进行排名,并且使用相同排名算法对标题文本对进行排名。作为另一示例,该操作还可以包括:从数据存储检索多个标题文本对,每个标题文本对以所述主题和所述问题类别为键;对所述多个标题文本对进行排名;并且为所述搜索结果选择预定数目的排名最高的标题文本对。在这样的实现中,可以基于标题文本对的文本部分的长度或者基于所述文本部分与所述多个标题文本对中的其它标题文本对的文本部分的相似性或者这些的组合来对所述多个标题文本对进行排名。
作为另一示例,该系统还可以包括用于存储多个意图模板的存储器,并且其中当标题与所述多个意图模板中的一个相符时生成所述标题文本对。在这样的实现中,可以通过标题与其相符的意图模板来确定问题类别。在一些实现中,生成标题文本对包括:从所述标题在所述文档中的上下文确定主题;并且将所述主题添加到所述标题文本对的标题部分。
本公开的另一方面可体现为一种计算机系统,该计算机系统包括至少一个处理器以及用于存储指令的存储器,所述指令在被搜索至少一个处理器执行时可使所述计算机系统执行操作。该操作包括:对来自权威源的文档进行解析以生成多个标题文本对;从所述标题文本对生成潜在模板集;确定所述潜在模板集中的至少一些的出现数量;并且将具有最高数量的潜在模板作为意图模板存储在所述计算机系统的存储器中。
该系统可包括以下特征中的一个或多个。例如,将标题转换为潜在模板可以包括用可变部分来替换所述标题中的连续词语的子集。作为另一示例,所述潜在模板集是第一潜在模板集并且该操作进一步包括:使用搜索记录来确定先前发布的具有与权威源相关联的搜索结果的查询;从所确定的查询生成第二潜在模板集;并且将上述第二潜在模板集与所述第一潜在模板集包括为确定出现数量的一部分。在一些实现中,该操作包括向意图模板分配问题类别,该问题类别被存储为意图模板的属性。
在一个实现中,该操作包括:接收自然语言查询并且确定所述意图模板中与所述自然语言查询相对应的意图模板,所确定的意图模板具有相关联的问题类别。该操作可以进一步包括:使用所确定的意图模板来确定所述自然语言查询的主题;对文档的索引搜索对所述主题和相关联问题类别做出响应的文档;并且提供用于所述自然语言查询的搜索结果,包括对所述主题和相关联的问题类别做出响应的文档。
本公开的另一方面可体现为一种计算机可读介质,该计算机可读介质上记录有且具体化指令,该指令当由计算机系统的处理器执行时使得所述计算机系统执行在这里所公开的任何方法。
可实现这里所描述的主题的实现中的一个或多个以便实现以下优点中的一个或多个。作为一个示例,该系统可以提供对查询的自然语言答案。自然语言答案是以提供多样或复杂答案或者对每个答案多于一个事实的段落和/或列表格式的答案。自然语言答案具有高质量,因为它们是从权威源得到的。而且,因为答案是自然语言答案,因此查询请求者可查看并在两个或多个权威源当中对完整答案进行快速且轻松地比较。此外,因为自然语言答案提供多样或复杂答案,因此用户增加了权威源文档具有热捧答案的信心,即使在搜索结果中提供了仅答案的开始。在一些实现中,自然语言响应可以包括在摘录式搜索结果之前,这使得可对答案容易且直观地定位。在一些实现中,如果提供了自然语言结果中的一个的重复,则可以去除摘录型搜索结果,因而自动地消减了提供给查询请求者的搜索结果。
作为另一示例,与关键字查询相比,自然语言查询可以具有低得多的搜索量。改进的搜索系统可识别自然语言查询的意图,并且因而提供了传统搜索引擎可能会错过的或者不能响应自然语言查询而高排名的高质量答案。在一些实现中,搜索系统可以将自然语言查询转换成关键字查询以提高对自然语言查询所返回的基于摘录的结果的质量。
在附图和下面的描述中阐述了一个或多个实现的细节。其它特征从描述和附图以及权利要求书中将是显而易见的。
附图说明
图1图示了根据一些实现的示例性系统。
图2图示了按照所公开的实现的示出包括自然语言答案的增强的搜索结果的用户界面的示例。
图3图示了按照所公开的实现的用于提供增强有自然语言答案的搜索结果的示例性过程的流程图。
图4图示了按照所公开的实现的用于生成意图模板的示例性过程的流程图。
图5图示了按照所公开的实现的用于生成用于提供自然语言答案的问题与答案数据存储的示例性过程的流程图。
图6图示了按照所公开的实现的用于使用问题与答案数据存储来向查询提供答案的示例性过程的流程图。
图7图示了按照所公开的实现的用于确定查询是否包括明确意图的问题的示例性过程的流程图。
图8示出了可用于实现所描述的技术的计算机设备的示例。
图9示出了可用于实现所描述的技术的分布式计算机设备的示例。
在各个附图中相同参考符号指示相同的元素。
具体实施方式
图1是根据示例性实现的系统100的方框图。系统100可以用于实现搜索引擎,该搜索引擎提供对包括具有可识别意图的问题的查询的自然语言答案。对图1中的系统100的描述被描述为能够搜索通过因特网可获得的权威源以生成提供自然语言答案的问题与答案(Q&A)数据存储的系统。该系统可以提供用于识别具有明确意图的问题的查询并且用于从权威源的内容识别自然语言答案的意图模板。可以使用所描述的技术的其它配置和应用。例如,该系统可以包括对来自权威源的文本进行分类或者识别明确意图问题的其它方法。作为另一示例,可以为诸如内部网、库、或者其它文档库之类的其它语料库提供自然语言答案。在一些实现中,自然语言答案可以替代为相应权威源所提供的基于摘录的搜索结果。
搜索系统100可以接收来自客户端设备180的查询182,并且响应于该查询而返回搜索结果184。每个查询182是对信息的请求。查询182可以是例如文本、音频、图像、或者滚动命令。系统100可以包括搜索引擎116和问题与答案(Q&A)引擎110。系统100可以是例如标准服务器、一组这样的服务器、或者机架服务器系统的采取多种不同设备的形式的计算设备。在一些实现中,Q&A引擎110和搜索引擎116每一个可以是分立的计算设备,或者它们可以共享诸如处理器和存储器的组件。例如,Q&A引擎110和搜索引擎116可以实现在例如膝上型计算机的个人计算机中。在一些实现中,Q&A引擎110和搜索引擎116可以是在诸如一组服务器的一系列计算设备中实现的分布式系统。如在图9中所描述的,系统100可以是计算机设备900的示例。
系统100可以包括问题与答案(Q&A)数据存储124。Q&A数据存储124可以包括从例如一个或多个服务器190的一个或多个权威源所收集的已分配了主题和问题类别的文本。可以将文本存储在数据存储124中,就像它以例如一个或多个段落或者项列表的形式出现在原始文档中。因此,该文本可以表示可从段落或列表确定的多个事实。Q&A数据存储124可以存储以主题和问题类别为键的文本。Q&A数据存储124还可以包括诸如文本所出现在的文档的标识符、例如URL的文档的位置、文档的元数据、有助于对文本进行排名的值和/或信号等等的文本的其它信息。存储在Q&A数据存储124中的文本可以具有标题部分和文本部分。在一些实现中,Q&A数据存储124可以包括用于各种主旨的问题和答案。例如,Q&A数据存储124可以存储与健康有关的问题、与爱好相关的问题、与烹饪有关的问题等等的问题和答案。在一些实现中,主题和问题类别可能对于特定主旨领域是唯一的。在一些实现中,Q&A数据存储124还可以包括对每个主题和问题类别的主旨的指示。
响应于搜索请求,搜索引擎116除了搜索其它文档语料库之外还搜索Q&A数据存储124。例如,除了Q&A数据存储124之外,搜索引擎116还能够搜索爬取的文档120的语料库。爬取的文档120可以包括用于在文档的语料库之内搜索词语或者短语的索引。在一些实现中,语料库可以是在因特网上可获得的文档。文档可以包括存储诸如声音文件、视频文件、文本文档、源代码、新闻文章、博客、网页、PDF文档、电子表格等等的内容的任何类型的文件。在一些实现中,爬取的文档120可以存储包括短语、词语、或者文档属性以作为帖子列表值的一维帖子列表以及对于每个帖子列表值包括与短语或者词语有关的文档的标识符。虽然已将爬取的文档120的索引描述为使用帖子列表,但是该索引可以具有某个其它已知或以后开发的格式。在一些实现中,来自爬取的文档120的搜索结果可以用于生成意图模板以确定查询是否包括明确意图的问题以确定查询的问题类别等等。
系统100还可以包括搜索记录122。搜索记录122可以包括搜索日志、从查询收集的聚合数据、或者与搜索词语以及先前处理的查询的搜索结果有关的其它数据。在对某个数据进行存储或者使用之前可以按照一个或多个方式来对该某个数据进行处理,以便除去个人可识别信息。例如,可以将用户的身份处理为不可确定用户的个人身份信息,或者在获得位置信息的情况下可以使用户的地理位置一般化(如到城市、邮政编码、或者州水平)以便无法确定用户的特定位置。
在一些实现中,在生成搜索结果184的正常过程中可以由搜索引擎116生成搜索记录122。将Q&A数据存储124、爬取的文档120、以及搜索记录122存储在例如盘、闪存、高速缓冲存储器、主存储器、或者这些的组合的有形计算机可读存储设备上,该有形计算机可读存储设备被配置为将数据存储为半永久性或非瞬态的形式。在一些实现中,可以将Q&A数据存储124、爬取的文档120、以及搜索记录122存储在各种存储器的组合中。
在一些实现中,系统100可以包括包含一个或多个处理器的索引引擎(未示出),所述一个或多个处理器被配置成执行一个或多个机器可执行指令或软件段、固件、或者其组合以创建并维护Q&A数据存储124和/或爬取的文档120等等。索引引擎可以获得来自例如一个或多个服务器190的内容,并且使用该内容来维护爬取的文档120。在一些实现中,服务器190可以是web服务器、专用网络上的服务器、或者可由索引引擎访问的其它文档源。
搜索引擎116可以包括使用Q&A数据存储124和/或爬取的文档120来确定查询182的搜索结果184的一个或多个计算设备。来自爬取的文档120的搜索结果可以是例如使用传统或其它信息检索技术来确定的并且表示传统的基于摘录的结果。来自Q&A数据存储124的搜索结果表示自然语言结果。搜索引擎116可以包括接收来自诸如客户端180的请求者的查询182的一个或多个服务器,并且将搜索结果184提供给请求者。搜索结果184可以包括来自对查询做出响应的文档的摘录信息以及来自Q&A数据存储124的信息。例如,搜索引擎116可以包括排名引擎,该排名引擎例如使用一个或多个排名信号从爬取的文档120识别响应查询的文档,识别响应查询的Q&A数据存储124中的答案,并且对响应查询的文档和答案计算分值。排名引擎可以使用分值对响应于查询所得到的文档和答案进行排名。
系统100还可以包括Q&A引擎110。该Q&A引擎110可以包括一个或多个计算设备,该一个或多个计算设备包括被配置为执行机器可执行指令或软件段、固件、或者其组合的一个或多个处理器。Q&A引擎110可以与搜索引擎116共享计算设备,或者可以使用一个或多个分立的计算设备进行操作。Q&A引擎110可以使用Q&A数据存储124、搜索记录122、以及爬取的文档120以生成意图模板126,扩增并维护Q&A数据存储124、以及确定查询是否包括可由Q&A数据存储124回答的明确意图的问题。例如,搜索引擎116可以将查询发送到Q&A引擎110并且Q&A引擎110可以根据需要将来自Q&A数据存储124的自然语言答案提供给搜索引擎116。可以由Q&A引擎110或者搜索引擎116使用Q&A引擎提供的数据对自然语言答案进行排名。
Q&A引擎110可以通过从权威源确定在文档中所发现的标题文本对来扩增并维护Q&A数据存储124。权威源可以是由系统管理员认定为权威的源、例如通过搜索结果中的源的频繁选择所确定的流行的且受信任的源、或者用于对Q&A数据存储124的主旨的处理的查询的搜索结果始终高排名的源。Q&A引擎110可以对来自爬取的文档120的与权威源相关联的文档进行解析或者Q&A引擎110可以包括收集来自权威源的文档及相关信息的web爬取器。在一个实现中,权威源可以是通过域名、统一资源定位符(URL)、或者统一资源标识符(URI)来识别的。如已知的,与域相关联的所有网页和文档可以被认为是来自权威源。来自权威源的文档可以被认为是权威文档。
在一些实现中,Q&A引擎110可以使用意图模板126来扩增并维护Q&A数据存储124并且评估来自搜索引擎116的查询信息。模板126可以是从可从权威源获得的内容以及从先前处理的查询及其返回的结果得到的。每个模板126可以包括非可变部分和可变部分。非可变部分可以是文本并且可变部分可以是一个或多个词的占位符。例如,模板“$Xcause”具有之前为可变部分的非可变部分“cause”。作为另一示例,模板“recipefor$X"具有后面是可变部分的非可变部分"recipefor"。与模板相对应或相匹配的查询或标题包括例如"diabetescauses"或者"heartattackcauses"的后面是词“causes”的许多词。例如用于模板"$Xcauses"的“diabetes”或“heartattack”或者用于模板“recipefor$X”的“splitpeasoup”的与可变部分相匹配的部份可以被视为查询或者标题的主题。
可以将每个模板126分配给表示用于请求相同特定信息的各种问题的问题类别。例如,模板“howdoItreat$X”、“$Xtreatment”、“howis$Xtreated”和“howtocure$X”都可以是用于治疗问题类别的模板。同样地,模板“howtomake$X”、“$Xrecipe”以及“directionsformaking$X”都可以是用于配方问题类别的模板。可以通过对与模板相符的查询返回的搜索结果的相似性来手动地或自动地将这些问题分配给问题类别。例如,如果对查询“howisdiabetestreated”和“whatcuresdiabetes”的搜索结果相似,则Q&A引擎110可以将这两个模板"howis$Xtreated"和"whatcures$X"一起聚类在治疗问题类别之下。
搜索系统100可以通过网络160与客户端180和/或服务器190进行通信。网络160可以是例如因特网或者网络160可以是使用例如网关设备、桥、交换机等等实现的有线或无线局域网(LAN)、广域网(WAN)等等。通过网络160,搜索引擎116可以与客户端180进行通信并且将数据传送到客户端180/从客户端180传送数据。例如,搜索引擎116可以将搜索结果或建议的更新传送到一个或多个客户端180。
图2图示了按照所公开的实现的示出了包括自然语言答案的增强的搜索结果的用户界面200的示例。诸如图1的系统100的搜索系统可以响应于诸如“whatarethesymptomsofmono”或“mononucleosissymptoms”的查询而生成用户界面200。在图2的示例中,增强的搜索结果可以包括已从权威源收集的自然语言答案205。在图2的示例中,自然语言答案205出现在基于摘录的搜索结果250之前,但是它们可以穿插有基于摘录的搜索结果、在基于摘录的搜索结果的右边或左边、在弹出窗口中等等。如在用户界面200中所图示的,自然语言答案205可以包括可允许查询请求者看到直接地回答查询的文本部分210。自然语言答案205还可以包括链接215,该链接215允许查询请求者确定文本部分210的源并且在期望更多信息或内容的情况下导航到权威源中的源文档。在一些实现中,可以将自然语言答案205选择为一组可能答案中排名最高的答案。在一些实现中,用于对基于摘录的搜索结果250进行排名的排名算法还可以用于对自然语言结果205进行排名。
在一些实现中,自然语言答案205包括来自没有出现在基于摘录的搜索结果250中的源或文档的答案。例如,如果用户发出了自然语言查询,则基于摘录的结果250可以是根据关键字水平搜索从例如爬取的文档120的文档中选择的,同时自然语言答案205基于自然语言查询的意图。在一些实现中,搜索系统可以使用在下面更详细描述的意图模板以将自然语言查询翻译成关键字查询并且关键字查询可以用于确定基于摘录的结果250。
图3图示了按照所公开的实现的用于提供增强有自然语言答案的搜索结果的示例性过程300的流程图。过程300可以是由诸如图1的系统100的搜索系统来执行的。一旦搜索系统建立了Q&A数据存储,则搜索系统可以执行彼此独立的过程300的步骤。换句话说,搜索系统可以与生成Q&A数据存储中的条目相独立地生成新的意图模板。搜索系统还可以与生成Q&A数据存储中的条目并发地使用Q&A数据存储对查询做出响应。
过程300可以以搜索系统生成意图模板开始(305)。如果搜索系统使用用于识别出具有明确意图的问题的查询并且识别用于扩增Q&A数据存储的信息的某个其它手段,则该步骤可以是可选的。在一些实现中,搜索系统可以周期性地(例如每周一次或每月一次)执行步骤305以确定是否可增加新的模板。搜索系统还可以通过对来自权威源的文档进行解析、收集来自文档内容的<标题,文本>形式的对、试图向每个标题文本对分配相应主题和问题类别并且通过主题和问题类别将标题文本对存储在Q&A数据存储中来生成并维护Q&A数据存储(310)。在一些实现中,搜索系统可以周期性地(例如每日或每周)执行步骤310。在一些实现中,该周期可以取决于主旨。例如,医疗信息可以是相对稳定的,使得与例如具有更频繁地改变的内容的烹饪权威源相比可能较不频繁地对医疗权威源执行步骤310。搜索系统还可以使用Q&A数据存储并且在一些实现中还使用意图模板来响应于包括明确意图的问题的查询而提供自然语言搜索结果(315)。搜索系统可以根据请求执行步骤315,使得Q&A数据存储连续地或几乎连续地可用于对查询做出响应。
图4图示了按照所公开的实现的用于生成意图模板的示例性过程400的流程图。诸如图1的搜索系统100的搜索系统可以执行作为图3的步骤305的一部分的过程400。可以理解的是在图4中所图示的一些步骤是可选的,并且实现不必执行每个步骤,或者可以以不同顺序执行步骤。
过程400可以开始于搜索系统从权威源获得可能的意图问题(405)。可以人工地识别或者可以自动地选择权威源。权威源可以包括例如一般源和聚焦源。作为示例,域webmd.com、mayoclinic.com、以及medicinenet.com可以是医疗主旨的一般权威源并且域cancer.org和heart.org可以是医疗主旨的聚焦权威源。类似地,allrecipes.com和foodnetwork.com可以是烹饪主旨的一般权威源并且vegetariantimes.com可以是烹调主旨的聚焦权威源。意图问题可以是从与权威源相关联的文档的内容中的标题识别的。在网页中,例如,可以假定标题包括意图问题并且搜索系统可以通过标记语言标签、通过较大的字体大小、或者一些其它类型的格式来识别标题。
在一些实现中,搜索系统还可以从搜索记录获得潜在意图问题(410)。搜索记录可以包括搜索日志、从查询收集的聚集数据、或者与先前处理的查询的搜索词语和搜索结果有关的其它数据。搜索系统可以从搜索记录识别与Q&A数据存储的主旨有关的查询。例如,搜索系统可以识别具有搜索结果的查询,所述搜索结果包括在搜索结果中的在突出位置的权威源。例如,如果主旨是医疗信息,则搜索系统可以查找具有来自最高排名的搜索结果中的mayoclinic.com或webmd.com的文档的查询结果。搜索系统此后可以假定与这样的所识别的搜索结果相关联的查询包括明确意图的问题。通过从查询以及权威源查找明确意图的问题,搜索系统可以考虑问题可被提出的各种方式。例如,“heartdiseasetreatment”和“howdoItreatheartdisease?”两者均表示相同的意图问题,但是权威源可能是更可能包括前者,而查询可能是更可能包括后者。
搜索系统可将潜在的意图问题转换成潜在的意图模板(415)。例如,搜索系统可以用诸如$X的变量或占位符来替代意图问题中的连续词语的子集。例如,“howdiabetesistreated”可以产生潜在模板“howdiabetesistreated”、“how$X”、“howdiabetes$X”、“howdiabetesis$X”、“$Xtreated”、“$Xistreated”、“$Xdiabetesistreated”、“how$Xtreated”、“how$Xistreated”、以及“howdiabetes$Xtreated”。作为另一示例,“Howtomakehummus”可以产生潜在模板“howtomakehummus”、“how$X”、"howto$X"、"howtomake$X"、"how$Xmakehummus"、"how$Xhummus"、"$Xhummus"、"$Xmakehummus"等等。当然,可以理解的是在一些实现中不是需要生成所有可能的潜在意图模板。例如,在占位符所替代的连续词语中,搜索系统可以不包括例如谁、什么、如何、何时、何地等等的问题词。
搜索系统可以确定在与权威源相关联的文档和/或查询上最频繁出现的潜在模板(420)。在一个实现中,搜索系统可以生成在步骤415中所生成的潜在模板的直方图。搜索系统可以选择最频繁出现的潜在模板作为意图模板(425)。在一些实现中,搜索系统可以选择预定数目的潜在模板。在一些实现中,搜索系统可以选择出现预定次数的所有模板。在一些实现中,搜索系统可以使用最小数目的模板与最低出现次数的组合。
搜索系统可以然后将生成的每个意图模板与问题类别相关联(430)。问题类别将类似模板聚类在一起。因而,使用相同问题类别将与疾病或病症的治疗或治愈有关的所有模板聚类在一起。在一些实现中,存在好几百的问题类别。在一些实现中,问题类别的分配可以是人工的。例如,搜索系统可以向为每个意图模板选择问题类别的用户呈现意图模板。在其它实现中,分配可以是自动的。例如,搜索系统可以使用意图模板图发出查询,该查询可用与主旨相关的主题来替代可变部分。例如,如果主旨是相关的医疗,则主题可以是疾病、药物、或者病症名称。搜索系统可以使用相同主题替代每个意图模板中的可变部分来发出查询。搜索系统可以然后将为每个意图模板返回的搜索结果进行比较。可以将导致相似搜索结果的模板聚类在一起并且可以向该聚类中的意图模板分配问题类别。在一些实现中,搜索系统可以使用自动和人工问题类别分配的组合,使得向相同问题类别分配搜索结果之间具有最小相似度的模板,并且由于用户向其它意图模板人工地分配问题类别而使那些无法达到最小相似度。搜索系统可以将意图模板及其相应问题类别存储在数据存储中。一旦搜索系统建立了意图模板,过程400结束。因为意图模板不迅速改变,因此搜索系统不必频繁重复过程400,但是周期性地重复其是有益的。在一些实现中,搜索系统可以生成成千上万的意图模板。
图5图示了按照所公开的实现的生成用于向查询提供自然语言答案的Q&A数据存储的示例性过程500的流程图。诸如图1的搜索系统100的搜索系统可以执行作为图3的步骤310的一部分的过程500。过程500可以开始以对与权威源相关联的文档进行解析、导致生成标题文本对开始(505)。例如,如上面关于图4的步骤405所描述的,搜索系统可以对来自权威源的文档内容搜索标题。当定位了标题时,可以捕获标题以及与标题相关联的文本作为标题文本对。标题文本对可以包括来自文档内容的标题作为标题部分并且包括例如文档的内容中在标题之后出现的文本作为文本部分。文本部分可以是跟在标题后面的段落、跟在标题后面的项列表、或者这些的组合。在一些实现中,出现在一个标题之后并且在另一标题之前的文本可以是标题文本对的文本部分。在一些实现中,用户可以手动地标记标题以及要与该标题相关联的文本。这对不经常改变的不符合上述标题文本对识别的权威内容是有用的。
在一些实现中,可以仅将展现明显意图问题的标题存储在标题文本对中。例如,标题可以对照意图模板相匹配或与意图模板相对应以确定标题是否与意图模板匹配。例如,标题“Cancersymptoms”可以与意图模板“$Xsymptoma”相对应并且标题“TruffleRecipe”可以与意图模板“$XRecipe”相对应。意图模板的可变部分(例如$X)可以表示一个或多个词。因而,例如,“heartdiseasesymptoms”也与意图模板"$Xsymptoma"相对应并且“ChocolateCakeRecipe”可以与意图模板"$XRecipe"相对应。
搜索系统可以通过问题类别将在权威源中识别的标题文本对聚集(510)。在一些实现中,搜索系统可以使用意图模板来将标题文本对集聚。例如,如上述所解释的,搜索系统可以试图将标题部分与意图模板相匹配。如果发现匹配,则可向标题文本对分配被分配给匹配的意图模板的问题类别。搜索系统可以通过分配的问题类别将标题文本对集聚。在一些实现中,搜索系统可以通过使用诸如当标题用作查询时的搜索结果的相似性的其它聚类方法而不是使用意图模板来将标题部份聚类。
搜索系统可以向标题文本对分配主题(515)。主题可以表示问题或标题的特定焦点。在医学学科领域中,主题可以表示不同疾病、伤口、药品、或者身体状况。在一些实现中,搜索系统可以使用意图模板来分配主题。例如,与标题相匹配的意图模板的可变部分可以用于确定标题文本对的主题。因此,可以向与意图模板“symptomsof$X”相匹配的标题“initialsymptomsofmono”分配主题“mono”并且可以向与模板“$Xingredients”相对应的标题“pepperonipizzaingredients”分配主题“pepperonipizza”。
在一些实现中,主题可以不包括在标题之中。例如,标题可以简单地陈述“treatment(治疗)”或“causes(原因)”。这样的标题文本对可以被认为是不明确的。在这样的情况下,系统可以使用标题的上下文来确定主题。例如,在一些实现中,可以确定来自标题所出现的文档的主导词语并且可以从该主导词语选择主题。例如,搜索系统可以对文档中的主导词语与和模糊标题文本对在相同的问题类别中的其它标题文本对相关联的主题进行比较。如果主导词语与具有和模糊标题文本对在相同的问题类别的其它标题文本对的主题相对应,则搜索系统可以将模糊标题文本对与匹配主题相关联。在一些实现中,文档的统一资源定位符可以用于确定主题。例如,一些权威源使用疾病的名字作为URL的一部分。搜索系统可以将URL的部分与被分配给和模糊标题文本对在相同的问题类别的其它标题文本对的主题进行比较。如果发现主题匹配,则系统可以将模糊标题文本对分配给匹配主题。诸如语义分析的使用上下文的其它方法可以用于确定模糊标题文本对的主题。
搜索系统可以然后将标题文本对存储在以分配的主题和问题类别为键的Q&A数据存储中(520)。Q&A数据存储可以将标题文本对存储为可作为自然语言答案而提供给包括具有与标题文本对相同的主题和问题类别的意图问题的查询的文本。Q&A数据存储还可以包括用于标题文本对的其它信息,诸如从其提取出标题文本对的文档的URL或者其它标识符、元数据、以及用于对标题文本对进行排名的其它信息等等。搜索系统可以对在与权威源相关联的文档中所识别的且被分配问题类别的每个标题文本重复步骤515和520。在一些实现中,Q&A数据存储可以包括数以万计的条目。
图6图示了按照所公开的实现的用于使用Q&A数据存储来提供对查询的答案的示例性过程600的流程图。诸如图1的搜索系统100的搜索系统可以执行作为图3的步骤315的一部分的过程600。例如,搜索系统可以接收来自查询请求者的查询并且除了搜索索引文档并且对查询生成基于摘录的搜索结果的过程之外或者代替该过程,还可以执行过程600。过程600可以开始于确定查询是否包括明确意图的问题(605)。当查询可与Q&A数据存储中的主题/问题类别键相匹配,则它包括明确意图的问题。在一些实现中,如下面关于图7更详细地阐述的,确定查询是否包括明确意图的问题可以涉及使用意图模板。在一些实现中,确定查询是否包括明确意图的问题可以涉及对查询的搜索结果进行分析。例如,搜索系统可以对查询的排名靠前的搜索结果与包括Q&A数据存储中的记录的该主题和问题类别的查询的排名靠前的搜索结果进行比较。例如,搜索系统可以确定查询包括词语“cancer(癌症)”并且癌症是存储在Q&A数据存储中的主题。对于与癌症主题成对的Q&A数据存储中的每个独特问题类别,搜索系统可以发出包括该主题和问题类别的查询。可以将所返回的搜索结果与查询的搜索结果进行比较。如果两个结果足够相似(例如满足相似性阈值),则系统可以确定查询包括与该主题和问题类别相匹配的明确意图的问题。如果查询不包括明确意图的问题(605:否),则过程600结束而不提供查询的自然语言答案。
如果查询包括明确意图的问题(605:是),则搜索系统可从Q&A数据存储检索与主题/问题类别组合相匹配的记录并且对所检索的记录进行排名(610)。在一些实现中,搜索系统可以使用镜像用于对基于摘录的搜索结果进行排名的排名方法的排名方法。这可以确保基于摘录的搜索结果(例如图2的结果250)中的靠前源出现为自然语言结果(例如图2的自然语言结果205)的靠前源。在一些实现中,可以与来自其它源的搜索结果不同地对自然语言结果(例如从Q&A数据存储检索的记录)的排名进行排名。例如,搜索系统可以将较短的答案排名在更长答案之前,可以将具有要点的答案排名在段落形式的答案之前,当聚焦源与查询的主题相匹配时可以将来自聚焦权威源的答案排名在来自一般权威源的答案之前等等。在一些实现中,Q&A数据存储记录可以包括有多少文本对具有相同主题/问题类别键的其它文本是共同的指示。这可以是搜索系统自动地确定哪些答案包括共识并且因此是更好答案的方式。
搜索系统可以然后选择从Q&A数据存储检索的排名记录中的至少一个以提供为查询的搜索结果(615)。在一些实现中,可以选择预定数目的排名靠前的记录。在一些实现中,除了自然语言文本之外,搜索结果包括指向源文档的链接。在一些实现中,搜索系统可以从基于摘录的搜索结果去除重复文档。例如,如果为特定文档提供了自然语言结果并且还提供了基于摘录的结果,则搜索系统可以从提供给查询请求者的结果去除基于摘录的结果。
在一些实现中,系统可以不对否则可能被标识为明确意图查询的查询提供自然语言答案。例如,查询“centerofdiseasecontrolandprevention”可以与意图模板“$Xprevention”相匹配,但是该查询的意图与查询“diabetesprevention”不同。作为另一示例,查询“howtomakemoney”可以与意图模板“howtomake$X”相匹配,但是意图与查询“howtomakepudding”不同。因而,系统管理者可以在可存储在搜索系统的存储器中的黑名单中包括不期望的查询。如果查询与列入黑名单的查询相对应,则搜索系统可以不对该查询执行过程600。
图7图示了按照所公开的实现的用于确定查询是否包括意图问题的过程700的示例。搜索系统可以执行作为图6的步骤605的一部分的过程700。如下面关于图4的步骤415更详细说明的,过程700可以开始于搜索系统从查询生成潜在意图模板(705)。搜索系统可以然后确定任何一个潜在意图模板是否与意图模板相对应(710)。如果不是(710:否),则该查询不包括意图问题并且过程700可以结束。如果查询与意图模板相对应(710:是),则搜索系统可以确定查询是否与Q&A数据存储中的任何一个主题相对应(715)。例如,映射到意图模板的可变部分的查询的部分可以被假定为查询的主题。搜索系统可以查看Q&A数据存储以确定该主题和分配给匹配意图模板的问题类别的组合是否作为Q&A数据存储中的键出现。如果不是(715:否),则查询不包括意图问题并且过程700结束。如果找到匹配主题(715:是),则从步骤710,搜索系统可以返回匹配意图模板的匹配主题和问题类别。如上面关于图6所描述的,主题和问题类别然后可以用于从Q&A数据存储检索自然语言答案。
在一些实现中,过程700还可以用于将自然语言查询转换成关键字查询以改善响应于查询而返回的基于摘录的搜索结果。例如,如果搜索系统使用过程700确定自然语言查询包括明确意图的问题,则搜索系统可以使用相对应的主题和问题类别来发出新的查询代替该自然语言查询。例如,搜索系统可以使用主题和问题类别对爬取文档的索引搜索对主题和问题类别做出响应的文档。响应文档可以用于生成基于摘录的搜索结果。因而,除了提供自然语言结果之外,过程700可以为自然语言查询生成更高质量的常规搜索结果。
应当理解的是虽然上面的示例通常与医疗学科领域中的主题和问题相关,但是实现不限于这样的应用。可以将如上所述的方法、系统、以及技术应用于可以识别权威源的任何学科领域。
图8示出了可以与这里所述的技术一起使用的可以是系统100和/或图1的客户端180的通用计算机设备800的示例。计算设备800意在表示各种示例形式的计算设备,诸如膝上型计算机、台式机、工作站、个人数字助理、蜂窝电话、智能电话、平板电脑、服务器、以及包括可穿戴设备的其它计算设备。这里所示的组件、其连接和关系、以及其功能仅是示例,并且不意味着对该文档中所描述的和/或要求保护的本发明的实现做出限制。
计算设备800包括经由接口808连接的处理器802、存储器804、存储设备806、以及扩展端口810。在一些实现中,计算设备800可以包括其他组件当中的经由接口808连接的收发器846、通信接口844、以及GPS(全球定位系统)接收器模块848。设备800必要时可以通过可以包括数字信号处理电路的通信接口844无线地通信。可以将每个802、804、806、808、810、840、844、846和848安装在公共主板上或者以其它适当的方式安装。
处理器802可对用于在计算设备800内执行的指令进行处理,所述指令包括存储在存储器804中的或者存储在存储设备806上的以在诸如显示器816的外部输入/输出设备上的GUI显示图形信息的指令。显示器816可以是监视器或平板触摸屏显示器。在一些实现中,多个处理器和/或多个总线可以根据需要与多个存储器和存储器类型一起使用。而且,可以连接多个计算设备800,其中每个设备提供必需操作的部分(例如作为服务器阵列、刀片服务器组、多处理器系统)。
存储器804存储计算设备800内的信息。在一个实现中,存储器804是易失性存储器单元。在另一个实现中,存储器804是非易失性存储器单元。存储器804还可以是诸如磁盘或光盘的另一形式的计算机可读介质。在一些实现中,存储器804可以包括通过扩展接口提供的扩展存储器。
存储设备806能够为计算设备800提供大容量存储。在一个实现中,存储设备806可以是或者包含计算机可读介质,诸如软盘设备、硬盘设备、光盘设备、或者带设备、闪速存储器、或者其它类似固态存储器设备、或者包括在存储区域网络或其它配置中的设备的设备阵列。计算机程序产品可以有形地体现在这样的计算机可读介质上。计算机程序产品还可以包含指令,该指令在被执行时执行诸如如上所述的那些中的一个或多个方法。计算机或机器可读介质是存储设备,诸如存储器804、存储设备806、或者处理器802上的存储器。
接口808可以是对计算设备800的带宽密集型操作进行管理的高速控制器或者对较低带宽密集型操作进行管理的低速控制器或者是这样的控制器的组合。可以提供外部接口840以便使得设备800与其它设备进行近区域通信。在一些实现中,控制器808可以耦合到存储设备806和扩展端口814。可以包括各种通信端口(例如USB、蓝牙、以太网、无线以太网)的扩展端口可以例如通过网络适配器耦合到一个或多个输入/输出设备,诸如键盘、指示设备、扫描仪、或者诸如交换机或路由器之类的网络设备。
如图中所示,计算设备800可以多种不同形式实现。例如,可以作为标准服务器830实现或者可以更多时间在一组这样的服务器中实现。还可以是作为机架服务器系统的一部分实现。另外,可以是在诸如膝上型计算机822或者智能手机836的个人计算机中实现的。整个系统可以是由彼此进行通信的多个计算设备800构成。其它配置是可能的。
图9示出了可以是图1的系统100的可以与这里所述的技术一起使用的通用计算机设备900的示例。计算设备900意在表示大型数据处理设备的各种示例形式,诸如服务器、刀片服务器、数据中心、主机柜、以及其它大型计算设备。计算设备900可以是具有多个处理器的分布式系统,该分布式系统可能包括通过一个或多个通信网络互连的网络附接存储节点。这里所示的组件、其连接和关系、以及它们的功能意指仅是示例,并且不意味着对在该文档中描述和/或要求保护的发明的实现做出限制。
分布式计算系统900可以包括任意数目的计算设备980。计算设备980可以包括通过局域网或广域网、专用光链路、调制解调器、桥、路由器、交换机、有线或无线网络等等进行通信的服务器或机架服务器、主机柜等等。
在一些实现中,每个计算设备可以包括多个机架。例如,计算设备980a包括多个机架958a-958n。每个机架可以包括一个或多个处理器,诸如处理器952a-952n和962a-962n。处理器可以包括数据处理器、网络附接存储设备、以及其它计算机控制的设备。在一些实现中,一个处理器可以作为主处理器进行操作并且控制调度和数据分配任务。处理器可以通过一个或多个机架交换机958互连,并且一个或多个机架可以通过交换机978连接。交换机978可以对多个连接的计算设备900之间的通信进行处理。
每个机架可以包括诸如存储器954和存储器964的存储器以及诸如956和966的存储。存储956和966可以提供大容量存储并且可以包括易失性或非易失性存储,诸如网络附接盘、软盘、硬盘、光盘、带、闪速存储器、或者其它类似固态存储器设备、或者包括在存储区域网络或其它配置中的设备的设备阵列。存储956或966可以在多个处理器、多个机架、或者多个计算设备之间共享并且可以包括存储可由一个或多个处理器执行的指令的计算机可读介质。存储器954和964可以包括例如易失性存储器单元、非易失性存储器单元、和/或其它形式的计算机可读介质,诸如磁盘或光盘、闪存存储器、高速缓冲存储器、随机存取存储器(RAM)、只读存储器(ROM)、以及其组合。诸如存储器954的存储器还可以在处理器952a-952n之间共享。例如,可以跨越存储956和存储器954来存储诸如索引的数据结构。计算设备900可以包括未示出的其它组件,诸如控制器、总线、输入/输出设备、通信模块等等。
诸如系统100的整个系统可以是由彼此进行通信的多个计算设备900构成的。例如,设备980a可以与设备980b、980c和980d进行通信,并且这些可以共同地称为系统100。作为另一示例,图1的系统100可以包括作为搜索引擎116的一个或多个计算设备900。此外,一些计算设备从地理上讲可以彼此接近,并且其它从地理上讲可以远离。系统900的布局仅是示例,并且系统可以采取其它布局或配置。
各个实现可包括可在可编程系统上执行的和/或解释的一个或多个计算机程序中的实现,所述可编程系统包括可以是专用的或通用的至少一个可编程处理器,该至少一个可编程处理器被耦合以接收来自存储系统、至少一个输入设备、以及至少一个输出设备的数据和指令并且将数据和指令发送到存储系统、至少一个输入设备、以及至少一个输出设备。
这些计算机程序(也称为程序、软件、软件应用或代码)包括可编程处理器的机器指令,而且可以高级程序和/或面向对象的编程语言实现和/或以汇编/机器语言实现。如在这里所用的,术语“机器可读介质”、“计算机可读介质”是指用于向可编程处理器提供机器指令和/或数据的任何非瞬时性计算机程序产品、装置、和/或设备(例如磁盘、光盘、存储器(包括读访问存储器)、可编程逻辑器件(PLD))。
这里所述的系统和技术可以在包括后端组件(例如作为数据服务器)、或者包括中间件组件(例如应用服务器)、或者包括前端组件(例如具有通过其用户可与这里所述的系统和技术的实现相交互的图形用户界面或Web浏览器的客户端计算机)、或者包括这样的后端、中间件、或者前端组件的任何组合的计算系统中实现。系统的组件可通过数字任何形式或介质的数据通信(例如通信网络)互连。通信网络的示例包括局域网(“LAN”)、广域网(“WAN”)以及因特网。
计算系统可包括客户端和服务器。客户端和服务器通常彼此远离并且典型地通过通信网络交互。客户端和服务器的关系借助于运行在相应计算机上的并且彼此具有客户端-服务器关系的计算机程序而产生。
已对许多实现进行了描述。然而,在不脱离本发明的精神和范围的情况下可进行各种修改。另外,在图中所描绘的逻辑流程不需要所示的特定顺序或连续顺序以实现期望的结果。另外,可以提供其它步骤,或者可以从所描述的流程去除步骤,并且可以将其它组件添加到所描述的系统或者从所描述的系统去除。因此,其它实现在所附权利要求的范围内。
Claims (18)
1.一种计算机系统,包括:
至少一个处理器;以及
存储器,所述存储器存储指令,所述指令在被所述至少一个处理器执行时使所述计算机系统执行包括以下的操作:
对来自权威源的文档进行解析以生成至少一个标题-文本对,所述文本在所述文档中出现在所述标题之下;
向所述标题-文本对分配主题和问题类别;
将所述标题-文本对存储在以所述主题和所述问题类别为键的数据存储中;
确定查询与所述主题和所述问题类别相对应;以及
提供所述标题-文本对作为所述查询的自然语言搜索结果。
2.根据权利要求1所述的系统,其中,所述标题-文本对的文本部分是段落或者项列表。
3.根据权利要求1-2中的任何一个所述的系统,其中,生成所述标题-文本对包括:
从所述标题在所述文档中的上下文确定主题;以及
将所述主题添加到所述标题-文本对的标题部分。
4.根据权利要求1-3中的任何一个所述的系统,其中,所述存储器进一步存储指令,所述指令在由所述至少一个处理器执行时使所述计算机系统:
从所述数据存储检索多个标题-文本对,每个标题-文本对以所述主题和所述问题类别为键;
对所述多个标题-文本对进行排名;以及
为所述搜索结果选择预定数目的排名最高的标题-文本对。
5.根据权利要求1-4中的任何一个所述的系统,其中,所述存储器进一步存储指令,所述指令在由所述至少一个处理器执行时使所述计算机系统:
通过对文档的索引搜索响应所述查询的文档来生成基于摘录的搜索结果;以及
与所述自然语言搜索结果一起提供所述基于摘录的搜索结果。
6.根据权利要求5所述的系统,其中,使用特定排名算法对所述基于摘录的结果进行排名,并且其中,使用所述特定排名算法对所述标题-文本对进行排名。
7.根据权利要求5所述的系统,其中,基于所述标题-文本对的所述文本部分的长度或者基于所述文本部分与所述多个标题-文本对中的其它标题-文本对的文本部分的相似性来对所述多个标题-文本对进行排名。
8.根据权利要求1-7中的任何一个所述的系统,进一步包括存储多个意图模板的存储器,并且其中当所述标题与所述多个意图模板中的一个相符时生成所述标题-文本对。
9.根据权利要求8所述的系统,其中,通过所述标题所相符的所述意图模板来确定所述问题类别。
10.一种计算机实现的方法,包括:
使用至少一个处理器对来自权威源的文档进行解析以生成标题-文本对;
对于每个标题-文本对:
使用所述至少一个处理器将所述标题-文本对与多个意图模板中的一个意图模板相关联,所述多个意图模板中的每个意图模板具有相应的相关联的问题类别;
基于所述意图模板来确定所述标题-文本对的主题和问题类别;以及
将所述标题-文本对存储在以主题和问题类别为键的数据存储中。
11.根据权利要求10所述的方法,,将所述标题-文本对与所述意图模板相关联包括:确定所述标题的文本与所述意图模板的非可变部分相对应并且所述主题是从与所述意图模板的可变部分相对应的所述标题的文本得到的。
12.根据权利要求10-11中的任何一个所述的方法,进一步包括:
确定查询与所述多个意图模板中的第二意图模板相对应,所述第二意图模板具有相关联的第二问题类别;
基于所述第二意图模板来确定所述查询的第二主题;
从所述数据存储中检索具有与所述第二主题和所述第二问题类别相对应的主题和问题类别键的标题-文本对;以及
提供所述查询的搜索结果,其中所述搜索结果包括所检索的标题-文本对中的至少一个。
13.根据权利要求12所述的方法,其中,所述第二意图模板包括一个非可变部分和一个可变部分,并且其中,将所述查询与所述第二意图模板相对应包括:
确定所述查询包括与所述一个非可变部分相对应的第一项;
确定所述查询中的第二词语与所述可变部分一致;以及
确定所述查询中的所述第二词语与所述数据存储中的主题相对应。
14.根据权利要求12所述的方法,其中,将所述查询与所述第二意图模板相对应包括:
从所述查询的词语生成潜在模板;以及
确定所述潜在模板中的一个是否与所述第二意图模板相对应。
15.根据权利要求10-14中的任何一个所述的方法,进一步包括通过以下操作来生成所述多个意图模板:
从权威源获得意图问题;
从所述意图问题生成潜在模板;
确定每个独特潜在模板的出现频率;
选择预定数目的最频繁出现的潜在模板;以及
将所选择的潜在模板存储在存储器中作为所述多个意图模板。
16.根据权利要求15所述的方法,其中,每个潜在模板具有至少一个非可变部分和可变部分,所述可变部分表示文本中与所述潜在模板的所述非可变部分相对应的主题的起始位置。
17.根据权利要求16所述的方法,其中,生成所述多个意图模板包括:基于所选择的潜在模板的所述非可变部分向每个所选择的潜在模板分配相应的问题类别。
18.根据权利要求10-17中的任何一个所述的方法,其中,所述潜在模板是第一潜在模板,并且生成所述多个意图模板进一步包括:
从搜索记录获得第二意图问题;
从所述第二意图问题生成第二潜在模板;以及
在所述确定、选择、以及存储的操作中将所述第二潜在模板与所述第一潜在模板包括在一起。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/910,031 US9448992B2 (en) | 2013-06-04 | 2013-06-04 | Natural language search results for intent queries |
US13/910,031 | 2013-06-04 | ||
PCT/US2014/039354 WO2014197227A1 (en) | 2013-06-04 | 2014-05-23 | Natural language search results for intent queries |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105359144A true CN105359144A (zh) | 2016-02-24 |
CN105359144B CN105359144B (zh) | 2019-09-17 |
Family
ID=51059566
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480038365.1A Active CN105359144B (zh) | 2013-06-04 | 2014-05-23 | 用于意图查询的自然语言搜索结果 |
Country Status (6)
Country | Link |
---|---|
US (2) | US9448992B2 (zh) |
EP (2) | EP3522029A1 (zh) |
KR (1) | KR102079752B1 (zh) |
CN (1) | CN105359144B (zh) |
BR (1) | BR112015030417B1 (zh) |
WO (1) | WO2014197227A1 (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106446072A (zh) * | 2016-09-07 | 2017-02-22 | 百度在线网络技术(北京)有限公司 | 网页内容的处理方法和装置 |
CN108885618A (zh) * | 2016-03-30 | 2018-11-23 | 三菱电机株式会社 | 意图估计装置和意图估计方法 |
CN108959559A (zh) * | 2018-06-29 | 2018-12-07 | 北京百度网讯科技有限公司 | 问答对生成方法和装置 |
CN109478189A (zh) * | 2016-06-20 | 2019-03-15 | 乐威指南公司 | 自然语言查询的近似模板匹配 |
CN110321428A (zh) * | 2018-03-29 | 2019-10-11 | 波音公司 | 结构维护映射器 |
CN111552768A (zh) * | 2020-03-26 | 2020-08-18 | 平安医疗健康管理股份有限公司 | 基于自然语言理解的信息搜索方法、装置、设备及可读存储介质 |
CN111557000A (zh) * | 2018-01-15 | 2020-08-18 | 微软技术许可有限责任公司 | 针对媒体的准确性确定 |
CN111986761A (zh) * | 2020-09-03 | 2020-11-24 | 平安国际智慧城市科技股份有限公司 | 多维度并发症信息抽取方法、装置、电子设备及介质 |
CN113711207A (zh) * | 2019-04-19 | 2021-11-26 | 微软技术许可有限责任公司 | 用于改进的搜索查询相关性的无监督实体和意图标识 |
CN114900422A (zh) * | 2021-01-26 | 2022-08-12 | 瞻博网络公司 | 用于网络管理的增强型交谈界面 |
CN113711207B (zh) * | 2019-04-19 | 2024-06-21 | 微软技术许可有限责任公司 | 用于改进的搜索查询相关性的无监督实体和意图标识 |
Families Citing this family (46)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9594542B2 (en) * | 2013-06-20 | 2017-03-14 | Viv Labs, Inc. | Dynamically evolving cognitive architecture system based on training by third-party developers |
US9633317B2 (en) | 2013-06-20 | 2017-04-25 | Viv Labs, Inc. | Dynamically evolving cognitive architecture system based on a natural language intent interpreter |
US9519461B2 (en) | 2013-06-20 | 2016-12-13 | Viv Labs, Inc. | Dynamically evolving cognitive architecture system based on third-party developers |
US10474961B2 (en) | 2013-06-20 | 2019-11-12 | Viv Labs, Inc. | Dynamically evolving cognitive architecture system based on prompting for additional user input |
US10068016B2 (en) * | 2013-10-17 | 2018-09-04 | Wolfram Alpha Llc | Method and system for providing answers to queries |
US9898554B2 (en) * | 2013-11-18 | 2018-02-20 | Google Inc. | Implicit question query identification |
US20150278370A1 (en) * | 2014-04-01 | 2015-10-01 | Microsoft Corporation | Task completion for natural language input |
US20150363473A1 (en) * | 2014-06-17 | 2015-12-17 | Microsoft Corporation | Direct answer triggering in search |
US9891933B2 (en) | 2015-06-24 | 2018-02-13 | International Business Machines Corporation | Automated testing of GUI mirroring |
CN107408125B (zh) | 2015-07-13 | 2021-03-26 | 谷歌有限责任公司 | 用于查询答案的图像 |
US10467256B2 (en) * | 2015-08-04 | 2019-11-05 | Google Llc | Automatic query pattern generation |
US10572516B2 (en) * | 2015-12-15 | 2020-02-25 | [24]7.ai, Inc. | Method and apparatus for managing natural language queries of customers |
US10021051B2 (en) | 2016-01-01 | 2018-07-10 | Google Llc | Methods and apparatus for determining non-textual reply content for inclusion in a reply to an electronic communication |
CN106021526B (zh) * | 2016-05-25 | 2019-09-27 | 东软集团股份有限公司 | 新闻分类方法及装置 |
US9842297B1 (en) | 2016-09-29 | 2017-12-12 | International Business Machines Corporation | Establishing industry ground truth |
US10102256B2 (en) | 2016-09-29 | 2018-10-16 | International Business Machines Corporation | Internet search result intention |
US10649985B1 (en) * | 2016-11-08 | 2020-05-12 | Premera Blue Cross | Systems and methods for processing natural language queries for healthcare data |
US10191832B2 (en) * | 2016-11-14 | 2019-01-29 | Microsoft Technology Licensing, Llc | Multi-language playback framework |
US10572826B2 (en) | 2017-04-18 | 2020-02-25 | International Business Machines Corporation | Scalable ground truth disambiguation |
US10901992B2 (en) * | 2017-06-12 | 2021-01-26 | KMS Lighthouse Ltd. | System and method for efficiently handling queries |
TWI673661B (zh) * | 2017-11-14 | 2019-10-01 | 財團法人資訊工業策進會 | 自動建立智慧助理的方法及系統 |
US20190163691A1 (en) * | 2017-11-30 | 2019-05-30 | CrowdCare Corporation | Intent Based Dynamic Generation of Personalized Content from Dynamic Sources |
US10579739B2 (en) | 2018-01-23 | 2020-03-03 | Wipro Limited | Method and system for identifying places of interest in a natural language input |
US11468106B2 (en) * | 2018-02-14 | 2022-10-11 | Ntt Docomo, Inc. | Conversation system |
EP3557439A1 (en) * | 2018-04-16 | 2019-10-23 | Tata Consultancy Services Limited | Deep learning techniques based multi-purpose conversational agents for processing natural language queries |
JP7091295B2 (ja) * | 2019-09-06 | 2022-06-27 | 株式会社東芝 | 解析装置、解析方法及びプログラム |
US11694032B2 (en) * | 2019-09-12 | 2023-07-04 | Oracle International Corporation | Template-based intent classification for chatbots |
CN110781275B (zh) * | 2019-09-18 | 2022-05-10 | 中国电子科技集团公司第二十八研究所 | 基于多特征的问题可回答性判别方法及计算机存储介质 |
CN112800737B (zh) * | 2019-10-29 | 2024-06-18 | 京东科技控股股份有限公司 | 自然语言文本生成方法和装置以及对话系统 |
KR102280792B1 (ko) * | 2019-11-07 | 2021-07-22 | 주식회사 솔트룩스 | 대화 재구성 기반의 질의 응답 시스템 |
CN111324715B (zh) * | 2020-02-18 | 2023-07-14 | 北京百度网讯科技有限公司 | 问答机器人的生成方法和装置 |
US10978053B1 (en) * | 2020-03-03 | 2021-04-13 | Sas Institute Inc. | System for determining user intent from text |
CN113488035A (zh) * | 2020-04-28 | 2021-10-08 | 海信集团有限公司 | 一种语音信息的处理方法、装置、设备及介质 |
US11403286B2 (en) | 2020-07-28 | 2022-08-02 | Sap Se | Bridge from natural language processing engine to database engine |
EP3945431A1 (en) * | 2020-07-28 | 2022-02-02 | Sap Se | Bridge from natural language processing engine to database engine |
US11416554B2 (en) * | 2020-09-10 | 2022-08-16 | Coupang Corp. | Generating context relevant search results |
US11783131B2 (en) | 2020-09-10 | 2023-10-10 | International Business Machines Corporation | Knowledge graph fusion |
US20230359617A1 (en) * | 2020-10-01 | 2023-11-09 | Vishal Misra | Systems, methods, and media for formulating database queries from natural language text |
CN112528626B (zh) * | 2020-12-15 | 2023-11-21 | 中国联合网络通信集团有限公司 | 一种检测恶意语言的方法、装置、设备及存储介质 |
US11640418B2 (en) | 2021-06-25 | 2023-05-02 | Microsoft Technology Licensing, Llc | Providing responses to queries of transcripts using multiple indexes |
CN114666330B (zh) * | 2022-02-15 | 2024-02-06 | 浪潮通信信息系统有限公司 | 一种算力网络的编排方法、装置、设备及产品 |
KR102470207B1 (ko) * | 2022-08-19 | 2022-11-23 | 주식회사 마이데이터랩 | 자연어 의도 분류를 이용한 문서 관리 장치 및 방법 |
US11861320B1 (en) * | 2023-02-27 | 2024-01-02 | Casetext, Inc. | Text reduction and analysis interface to a text generation modeling system |
US11995411B1 (en) | 2023-02-28 | 2024-05-28 | Casetext, Inc. | Large language model artificial intelligence text evaluation system |
US11972223B1 (en) | 2023-06-30 | 2024-04-30 | Casetext, Inc. | Query evaluation in natural language processing systems |
CN117272970B (zh) * | 2023-11-22 | 2024-03-01 | 太平金融科技服务(上海)有限公司深圳分公司 | 一种文档生成方法、装置、设备以及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1243959A (zh) * | 1999-06-24 | 2000-02-09 | 佟广新 | 同位素吸水剖面测井方法 |
US20060047637A1 (en) * | 2004-09-02 | 2006-03-02 | Microsoft Corporation | System and method for managing information by answering a predetermined number of predefined questions |
US20120078888A1 (en) * | 2010-09-28 | 2012-03-29 | International Business Machines Corporation | Providing answers to questions using logical synthesis of candidate answers |
CN102955844A (zh) * | 2011-10-13 | 2013-03-06 | 微软公司 | 基于主题版本呈现搜索结果 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5519608A (en) * | 1993-06-24 | 1996-05-21 | Xerox Corporation | Method for extracting from a text corpus answers to questions stated in natural language by using linguistic analysis and hypothesis generation |
US7831545B1 (en) | 2005-05-31 | 2010-11-09 | Google Inc. | Identifying the unifying subject of a set of facts |
US7774328B2 (en) | 2006-02-17 | 2010-08-10 | Google Inc. | Browseable fact repository |
US20080104023A1 (en) * | 2006-10-27 | 2008-05-01 | Dpdatasearch Systems Inc. | Method and apparatus for reading documents and answering questions using material from these documents |
EP2406738A4 (en) | 2009-03-13 | 2012-08-15 | Invention Machine Corp | SYSTEM AND METHOD FOR RESPONSE TO QUESTIONS THAT INVOLVE THE APPOSITION OF SEMANTIC MARKS ON TEXT DOCUMENTS AND USER QUESTIONS |
KR20120094191A (ko) * | 2011-02-16 | 2012-08-24 | 한국과학기술원 | 이러닝 콘텐츠를 위한 자동 태깅 방법, 자동 태깅 장치, 시스템 및 이를 위한 기록 매체 |
-
2013
- 2013-06-04 US US13/910,031 patent/US9448992B2/en active Active
-
2014
- 2014-05-23 CN CN201480038365.1A patent/CN105359144B/zh active Active
- 2014-05-23 EP EP19150799.5A patent/EP3522029A1/en not_active Withdrawn
- 2014-05-23 KR KR1020157036319A patent/KR102079752B1/ko active IP Right Grant
- 2014-05-23 BR BR112015030417-6A patent/BR112015030417B1/pt active IP Right Grant
- 2014-05-23 WO PCT/US2014/039354 patent/WO2014197227A1/en active Application Filing
- 2014-05-23 EP EP14734616.7A patent/EP3005168B1/en active Active
-
2016
- 2016-08-16 US US15/237,865 patent/US20160357860A1/en not_active Abandoned
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1243959A (zh) * | 1999-06-24 | 2000-02-09 | 佟广新 | 同位素吸水剖面测井方法 |
US20060047637A1 (en) * | 2004-09-02 | 2006-03-02 | Microsoft Corporation | System and method for managing information by answering a predetermined number of predefined questions |
US20120078888A1 (en) * | 2010-09-28 | 2012-03-29 | International Business Machines Corporation | Providing answers to questions using logical synthesis of candidate answers |
CN102955844A (zh) * | 2011-10-13 | 2013-03-06 | 微软公司 | 基于主题版本呈现搜索结果 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108885618A (zh) * | 2016-03-30 | 2018-11-23 | 三菱电机株式会社 | 意图估计装置和意图估计方法 |
CN109478189A (zh) * | 2016-06-20 | 2019-03-15 | 乐威指南公司 | 自然语言查询的近似模板匹配 |
CN106446072B (zh) * | 2016-09-07 | 2019-10-18 | 百度在线网络技术(北京)有限公司 | 网页内容的处理方法和装置 |
CN106446072A (zh) * | 2016-09-07 | 2017-02-22 | 百度在线网络技术(北京)有限公司 | 网页内容的处理方法和装置 |
CN111557000A (zh) * | 2018-01-15 | 2020-08-18 | 微软技术许可有限责任公司 | 针对媒体的准确性确定 |
CN111557000B (zh) * | 2018-01-15 | 2023-10-31 | 微软技术许可有限责任公司 | 针对媒体的准确性确定 |
CN110321428A (zh) * | 2018-03-29 | 2019-10-11 | 波音公司 | 结构维护映射器 |
CN108959559B (zh) * | 2018-06-29 | 2021-02-26 | 北京百度网讯科技有限公司 | 问答对生成方法和装置 |
CN108959559A (zh) * | 2018-06-29 | 2018-12-07 | 北京百度网讯科技有限公司 | 问答对生成方法和装置 |
CN113711207A (zh) * | 2019-04-19 | 2021-11-26 | 微软技术许可有限责任公司 | 用于改进的搜索查询相关性的无监督实体和意图标识 |
CN113711207B (zh) * | 2019-04-19 | 2024-06-21 | 微软技术许可有限责任公司 | 用于改进的搜索查询相关性的无监督实体和意图标识 |
CN111552768A (zh) * | 2020-03-26 | 2020-08-18 | 平安医疗健康管理股份有限公司 | 基于自然语言理解的信息搜索方法、装置、设备及可读存储介质 |
CN111552768B (zh) * | 2020-03-26 | 2022-07-19 | 深圳平安医疗健康科技服务有限公司 | 基于自然语言理解的信息搜索方法、装置、设备及可读存储介质 |
CN111986761A (zh) * | 2020-09-03 | 2020-11-24 | 平安国际智慧城市科技股份有限公司 | 多维度并发症信息抽取方法、装置、电子设备及介质 |
CN114900422A (zh) * | 2021-01-26 | 2022-08-12 | 瞻博网络公司 | 用于网络管理的增强型交谈界面 |
Also Published As
Publication number | Publication date |
---|---|
WO2014197227A1 (en) | 2014-12-11 |
CN105359144B (zh) | 2019-09-17 |
KR102079752B1 (ko) | 2020-02-20 |
BR112015030417B1 (pt) | 2022-07-12 |
US9448992B2 (en) | 2016-09-20 |
BR112015030417A2 (pt) | 2017-07-25 |
US20140358889A1 (en) | 2014-12-04 |
US20160357860A1 (en) | 2016-12-08 |
EP3005168B1 (en) | 2019-01-09 |
BR112015030417A8 (pt) | 2018-01-02 |
EP3522029A1 (en) | 2019-08-07 |
KR20160016887A (ko) | 2016-02-15 |
EP3005168A1 (en) | 2016-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105359144A (zh) | 用于意图查询的自然语言搜索结果 | |
CN111782965B (zh) | 意图推荐方法、装置、设备及存储介质 | |
CN102402605B (zh) | 用于搜索引擎索引的混合分布模型 | |
CN108304444B (zh) | 信息查询方法及装置 | |
JP6646030B2 (ja) | 文抽出方法及びシステム | |
CN101416179B (zh) | 用来向每个用户提供调整推荐字的系统和方法 | |
JP5727512B2 (ja) | 検索提案のクラスタ化及び提示 | |
US8346746B2 (en) | Aggregation, organization and provision of professional and social information | |
CN105431844A (zh) | 用于搜索系统的第三方搜索应用 | |
KR20160058895A (ko) | 소셜 커뮤니케이션 데이터의 분석 및 합성을 위한 시스템 및 방법 | |
Guo et al. | An effective and economical architecture for semantic-based heterogeneous multimedia big data retrieval | |
US20110179062A1 (en) | Apparatus and method for sharing social media content | |
CN102368262A (zh) | 一种提供与查询序列相对应的搜索建议的方法与设备 | |
US11755651B2 (en) | Method, apparatus, and computer-readable medium for generating categorical and criterion-based search results from a search query | |
CN105339933A (zh) | 通过查询扩展的新闻结果 | |
CN109564573A (zh) | 来自计算机应用元数据的平台支持集群 | |
US20200242642A1 (en) | Digital survey creation by providing optimized suggested content | |
US9721000B2 (en) | Generating and using a customized index | |
CN112395396A (zh) | 问答匹配和搜索方法、设备、系统及存储介质 | |
KR101842274B1 (ko) | 문장 추출 방법 및 시스템 | |
CN103646034A (zh) | 一种基于内容可信的Web搜索引擎系统及搜索方法 | |
CN111753861B (zh) | 主动学习自动图像标注系统及方法 | |
JP6065001B2 (ja) | データ検索装置、データ検索方法およびデータ検索用プログラム | |
KR101271171B1 (ko) | 사용자가 선정한 키워드에 기반한 콘텐츠 관련정보 제공장치 및 방법 | |
Jokar et al. | A contextual information based scholary paper recommender system using big data platform |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: American California Applicant after: Google limited liability company Address before: American California Applicant before: Google Inc. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |