CN110168575A

CN110168575A - 用于信息检索评分的动态张量注意力

Info

Publication number: CN110168575A
Application number: CN201780076850.1A
Authority: CN
Inventors: 张耿豪; 张若非; 殷子
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2016-12-14
Filing date: 2017-12-08
Publication date: 2019-08-23
Anticipated expiration: 2037-12-08
Also published as: WO2018111695A1; US10459928B2; EP3555768A1; CN110168575B; US20180165288A1

Abstract

一种使用序列到序列神经网络针对文档对查询进行评分的技术。技术包括：接收来自用户的包括多个词语的查询；基于查询，针对包括词语的文档执行搜索；馈送文档的词语作为多层序列到序列转换器的编码器的输入；在多层序列到序列转换器的解码器处生成多个向量，每个向量包括与查询中的相应词语相关联的概率；在相应向量中查找每个词语与文档相关联的概率；将每个词语的概率乘在一起以确定查询与文档相关联的总概率；并且如果查询与文档相关联的总概率大于阈值，则将文档返回给用户。

Description

用于信息检索评分的动态张量注意力

背景技术

理解和处理被包含在表达用户意图的自然语言查询中的信息是文档选择中的主要挑战。以自然语言形式的用户查询通常是模糊并且隐含的，其使通过现有信息检索系统处理困难，这常常要求多个用户交互以用于进一步澄清。此外，为了响应于查询而返回文档，查询和建议文档需要被评分，其中最好评分的建议文档被提供给录入查询的用户。先前的基于深度学习的评分方法(诸如卷积深度结构化语义模型“CDSSM”)允许相对有效地对查询-文档对进行评分，但是得分是基于距离/相似性的。相似性基于两个实体之间的距离。相似性与距离正反比。然而，基于距离/相似性的评分提供关于针对给定查询返回的特定文档的适当性的有限信息。因此，使用基于距离的评分，评分系统可以返回具有最好得分的文档，而不是向查询提供有意义的响应的必要文档。

发明内容

本公开的非限制性示例描绘了一种用于对针对文档对查询进行评分的方法。方法包括：从用户接收包括多个词语的查询；基于查询，针对包括词语的文档执行搜索；将文档的词语馈送为多层序列到序列转换器的编码器的输入；在多层序列到序列转换器的解码器处生成多个向量，每个向量包括与查询中的相应词语相关联的概率；在相应向量中查找每个词语与文档相关联的概率；将每个词语的概率乘在一起以确定查询与文档相关联的总概率；并且如果查询与文档相关联的总概率大于阈值，则将文档返回给用户。

本公开的进一步的非限制性示例描述了一种针对文档对查询进行评分的系统。系统包括：至少一个处理器；以及与至少一个处理器操作地连接的存储器，其存储当由至少一个处理器执行时使得至少一个处理器执行方法的计算机可执行指令，所述方法包括：从用户接收包括多个词语的查询；基于查询，针对包括词语的文档执行搜索；将文档的词语馈送为多层序列到序列转换器的编码器的输入；使用注意力机制在多层序列到序列转换器的解码器处生成多个向量，每个向量包括与查询中的相应词语相关联的概率；在相应向量中查找每个词语与文档相关联的概率；将每个词语的概率乘在一起来确定查询与文档相关联的总概率；并且如果查询与文档相关联的总概率大于阈值，则将文档返回给用户。

附加的非限制性示例包括计算机存储介质，其存储用于使得机器执行以下操作的计算机可执行指令：从用户接收查询；对查询执行搜索；接收由于搜索得到的文档；使用序列到序列转换器和注意力网络对文档进行评分以确定查询与文档有关的概率；并且如果概率大于阈值，则返回文档。

提供本发明内容以引入以在具体实施方式中下面进一步描述的简化形式的概念的选择。本发明内容不旨标识要求保护的主题的关键特征或基本特征，其也不旨在被用于限制要求保护的主题的范围。示例的附加方面、特征和/或优点将从下面的描述中部分地阐述并且部分地从描述变得明显，或者可以通过本公开的实践学习。

附图说明

参考以下附图描述非限制性和非详尽示例。

图1图示了在其中可以实践本公开的方面的查询评分系统的系统图。

图2图示了在其中可以实践本公开的方面的用于针对文档对查询进行评分的序列到序列过程。

图3图示了在其中可以实践本公开的方面的用于通过使用多层序列到序列过程对查询进行评分的过程。

图4图示了示出在其中可以实践本公开的方面的示例的用于通过使用多层序列到序列过程对查询进行评分的过程。

图5图示了在其中可以实践本公开的方面的查询评分系统的流程图。

图6图示了在其中可以实践本公开的方面的标识查询中的重要词语以促进评分的注意力层。

图7是图示利用其可以实践本公开的示例的计算设备的示例物理部件的块图。

图8A和图8B是利用其可以实践本公开的示例的移动计算设备的简化块图。

具体实施方式

图1图示了在其中可以实践本公开的方面的查询评分系统的系统图。用户110使用计算机或者终端120执行搜索命令。计算机120可以是各种机器，包括运行WINDOWS操作系统、MacOS操作系统、UNIX操作系统的机器，或者表示云中的计算设备。搜索由云中的搜索服务器140执行。来自搜索服务器140的结果由运行查询评分系统155的评分服务器150评分，其中最高评分的结果被返回给计算机或者终端120处的用户110。评分服务器使用包括利用注意力网络增强的深度长短期记忆(“LSTM”)的通用序列到序列(“序列到序列(seq2seq”)模型来生成概率得分并且确定返回的适当的文档。序列到序列模型包括两个递归神经网络，其包括处理输入的编码器和生成输出的解码器。下面关于图2描述了序列到序列模型的基本架构。LSTM是能够学习长期依存性的一种特殊的神经网络。其在长时间记住信息方面是超常的，并且包括多个层。下面关于图3给出LSTM序列到序列模型的示例。注意力网络聚焦序列到序列模型以标识查询中的重要/类似实体的词语以促进评分。关于图6更详细地描述注意力网络。

使用包括利用注意力网络增强的深度长短期存储器的序列到序列模型生成概率得分通过提供对结果的概率解释而显著地增强计算机技术，其是解释并且改进排名的信息检索系统中的期望的性质。此外，概率结果允许信息检索系统确定任何结果文档是否具有满足用户的搜索请求的好的概率。例如，仅具有超过阈值概率水平的文档可以被返回给用户。如果没有文档超过阈值概率水平，则用户可以被提示录入更特定的搜索准则。这与基于距离返回结果的现有技术系统相反，使得薄弱的不大可能的结果将仍然被返回给用户。

返回图1的我们的描述，具有大于阈值量的概率得分的那些文档被返回给用户。文档可以包括提供信息的任何电子记录，包括但不限于网页、文本、字处理文件、电子表格文件、图形、图像和目标内容。评分服务器150图示了可操作以对搜索结果执行评分操作的一个或多个计算设备。关于图7和图8更详细地讨论了这些计算设备的硬件。

图2图示了在其中可以实践本公开的方面的用于针对文档对查询进行评分的序列到序列过程。LSTM网络将文档与搜索查询相比较。搜索查询被发送到标准信息检索系统以生成查询的结果。序列到序列模型具有两个部分：编码器210，其接收输入；以及解码器220，其生成输出。编码器210通过利用LSTM转换每个词语以将文档的源字符串(例如，A、B、C、D)嵌入到隐向量中，将词语嵌入到隐状态中。这示例仅示出单层LSTM。此处，每个词语被编码并且被馈送到下一词语的编码中。例如，A被编码并且馈送到B的编码器中，其接收编码的A和B二者。编码的A和B被馈送到C的编码器中，其连同C一起接收编码的A和B二者。编码的A、B、C被馈送到D的编码器中，其连同D一起接收编码的A、B和C。所得到的隐向量被馈送到解码器220中。

然后，在输出W、X、Y和Z下示出的解码器220将来自编码器210的隐向量和字符串结束“<EOS>”词语当作输入并且投影词典大小|V|的概率得分。W、X、Y和Z是由用户录入的查询的词语。不具有上限但是也许具有与1000000个词语一样大的大小的词典大小|V|中的每个词语的概率得分被投影在解码器220的每个阶段处，并且在相关联的向量中查找每个词语W、X、Y和Z并且建立该词语与编码器中的隐向量相关联的概率。此后，其将给定词语当作生成下一向量的输入并且进行重复。然后，其当发现<EOS>时完成。在完成之后，乘在一起的所有概率的积是查询与文档有关的概率。

例如，A、B、C、D可以分别地是“hdmi”、“vga”、“cable”、“adapter”，其中文档是“hdmi vga cable adapter”。这些词语将用作编码器210的输入。当这些词语由编码器210接收时，其被嵌入到隐向量中。例如，起因于“hdmi”被输入的隐向量连同词语“vga”一起被馈送到编码器的下一列中。“vga”然后连同“hdmi”一起被编码到隐向量中，其连同词语“cable”被馈送到编码器的下一列中。该过程继续直到隐向量从编码器的最后一块出来，其中该隐向量包含完整的短语“hdmi vga cable adapter”的编码。

解码器220将具有“hdmi vga cable adapter”的隐向量连同字符串结束<EOS>当作输入，并且投影具有词典大小|V|的词典中的每个词语的概率得分。在我们的示例中，如果W、X、Y、Z分别地是“connect”、“vga”、“computer”和“tv”，则系统将取得解码器的第一级的投影输出并且查找词典大小|V|的投影中的W或“connect”，并且查明“connect”与短语“hdmi vga cable adapter”有关的概率。该概率(比如说0.3)然后与“connect”与输入短语“hdmi vga cable adapter”。的关系相关联。在解码器220的下一级中，W词语“connect”连同从第一级出现的隐向量一起被馈送到该级中，并且词典大小|V|的投影由第二级生成。然后，X词语“vga”在投影中被查找，比如说产生0.5的值，并且表示“计算机”与短语“hdmi vgacable adapter”的关系。这贯穿解码器继续并且产生的所有概率的所有积表示WXYZ或者“connect vga computer tv”与ABCD或者“hdmi vga cable adapter”有关的概率。该概率得分然后与阈值(比如说0.04)相比较，并且如果大于阈值，则文档被呈现给用户。

更详细地，深度序列到序列神经网络将使用由网络生成的概率得分以选择最有效的文档提供给用户。给定查询，查询评分系统标识查询内和文档内词语关系和查询间文档词语关系以评分并且找到相关文档。查询评分系统使用序列到序列神经网络，其使用长短期记忆存储器网络加用于理解查询并且评分以自然语言形式的文档的注意力网络。注意力网络被用于标识查询中的重要/类似实体的词语以促进评分。例如，注意力网络可以是动态张量网络。

来自潜在文档的术语被馈送到编码器中并且可能的查询通过解码器以概率的方式到达。在编码器中，每个术语使用LSTM的多个层被嵌入到隐向量中。解码器将隐向量和字符串结束词语当作输入并且投影词典大小|V|的概率得分。查询评分系统查找感兴趣的查询词语的概率得分。此后，其将当前查询字当作创建用于下一查询词语的概率得分的输入，并且以该方式重复直到查询评分系统到达再次到达字符串结束<EOS>。

换句话说，给定先前的词语和文档等，查询与文档有关的概率是查询的第一词语与文档有关的概率乘以下一词语与文档有关的概率的积，直到紧接地在最后词语被包括在计算中之前给定文档和词语，查询中的最后词语与文档有关的概率。概率的该积给出查询与文档有关的总概率。

总之，查询评分系统首先将来自或者描述文档的文本馈送到编码器中。然后，其跟随序列到序列转换器的链规则以经由解码器给定文档查明查询的可能性。特别地，其标识解码器的投影层中的每个查询词语的可能性。最后，其将词语可能性乘在一起作为查询与文档有关的结果可能性或者概率。

注意力网络或者注意力机制可以被添加在序列到序列模型之上，以理解查询和文档中的实体词语之间的关系。注意力机制聚焦序列到序列转换器。先前的注意力机制包括直接点积、乘法矩阵，并且使用神经张量网络，但是所公开的查询评分系统使用先前地尚未使用在查询评分系统中的高级动态张量网络。张量是可以被编码在阵列中的超过两个维度的广义矩阵。注意力层中的高级动态张量机制标识重要的类似实体的词语以促进评分。其权重针对解码器中的隐向量h_t通过其相似性α_t对源隐向量h_s求平均。然后，加权平均向量c_t针对解码隐向量h_t连接并且馈送到投影层中。该注意力机制不仅改进模型，而且经由相似性权重标识重要的类似实体的词语。

查询评分系统可以通过使用查询文档点击日志来训练，并且通过该训练，由查询评分系统生成的概率得分可以有效地标识用于查询的相关文档。

在一个特定示例中，超过500000个查询-文档对的文档点击日志，在一般评分、使用神经张量网络评分与使用用于评分的序列到序列模型上的动态张量网络评分之间进行比较。动态张量网络示出更好的(即，更低的)成本、结果，其中成本被定义为词典空间上的投影可能性与待解码的真相词语之间的互熵，其跨所有序列进一步求和。因此，使用可能性以较低的成本产生较好的结果。

图3图示了在其中可以实践本公开的方面的用于通过使用多层序列到序列过程对查询进行评分的过程。在该示例中，图示了应用图示中的多层(即，3层)的深度编码器/解码器，但是其他层数被预期是可用的。由搜索返回的文档被馈送到编码器305中，由用户录入的查询由解码器307被用作查找词语。例如，文档“6foot displayport hdmi cable”可以逐字录入编码器305的每级中，而查询“connect computer tv”可以由解码器307用作查找词语。

文档中的每个词语被馈送到嵌入层310中，通过编码层320将词语嵌入隐状态h1、h2和h3中。编码层320的顶层是隐向量解码器307将隐藏层h1、h2和h3解码为建立词典中的每个词语与文档相关联的概率的词典大小|V|的向量，并且这些向量是对于导致投影层330的每个向量而言，适当的查询词语在向量中被查找并且其概率被找到。因此在我们的先前示例中，“connect computer tv”是将“connect”、“computer”和“tv”当作查找词语的查询短语。解码器307具有三个级并且“connect”将是用于第一级的查找词语；“计算机”将是用于第二级的查找词语，并且“tv”将是用于第三级的查找词语。因此，由也许100000个词语组成的词典大小|V|的三个向量将存在于用于每个相应级的投影层330处，并且“connect”将在第一向量中被查找，“computer”将在第二向量中被查找，以及“tv”将在第三向量中被查找。查找的结果是查询中的每个词语与文档相关联的概率。

每个查询词语被馈送到输入中以用于确定下一查询词语的向量这继续直到字符串结束<EOS>在查询的结尾处找到。给定提议，查询的总概率是：

P(Query|Doc)＝P(q₁|Doc)P(q₂|q₁,Doc)...P(q_m|q_m-1,Doc)

其中Query是由用户录入的查询，并且q₁到q_m是查询项，Doc是检索的文档，并且m是查询中的词语的总数。

这些得分然后被使用在确定哪些文档响应于查询而返回中。如果针对任何文档的总概率超过阈值，则那些文档被返回给用户。如果针对所有文档的总概率未超过阈值，那么没有文档可以返回给用户，并且用户可以被提示用于附加输入。

以下示例将帮助说明过程。

图4图示了示出在其中可以实践本公开的方面的示例的用于通过使用多层序列到序列过程对查询进行评分的过程。样本查询是“connect tablet tv”。返回的第一文档是“10 ft micro hdmi cable”。因此，“10 ft micro hdmi cable”被馈送到编码器305中。特别地，短语被馈送到嵌入层310中，其中每个词语一次一个地是编码器305的每个相应级的输入。编码层320生成一系列隐向量h1、h2和h3，其然后被馈送到解码器307中。

解码器307的第一级连同标记检索的文档的字符串结束的<EOS>一起将h1、h2和h3当作输入。其输出(投影层330处的向量)包含词典长度|V|的向量，其可以与例如100000个词语一样大。用于解码器的第一级的向量包含100000个条目，并且用于查询的第一词语“connect”的条目在向量中被查找以确定其与文档相关联的概率。在该示例中，针对词语“connect”的概率是0.7。在下一级处，“connect”连同第一级的输出一起被馈送到该级中。这产生向量其中“tablet”(查询的第二词语)具有0.3的概率。请注意，“tablet”不具有该向量内的最高概率——那属于“phone”。然而，“tablet”被用作查找词语，因为那是查询的第二词语的词语。

该过程继续直到到达搜索字符串的<EOS>。概率然后全部乘在一起以确定“10 ftmicro hdmi cable”是用于搜索查询“connect tablet tv”的好的结果的总概率。在该示例中，

P(query|document)

＝P(connect tablet tv|10 ft micro hdmi cable)

＝P(connect|<EOS>,query|document)*P(tablet|connect,query|document)*

P(tv|tablet,query|document)*P(<EOS>|tv,query|document)

＝0.7*0.3*0.4*0.5

＝.042

该查询评分系统可以与任何任意长度的文档和查询一起使用。查询评分系统调节编码器305中的级数以满足与文档相关联的词语的数目，并且调节解码器307中的级数以匹配查询中的词语的数目。对于给定查询而言，可以由搜索引擎返回数百个文档，因此对于每个文档而言，查询评分系统运行适当大小的序列到序列转换器。对于给定查询而言，解码器307中的级数将保持相同，因为查询不改变，但是对于每个文档而言，编码器305中的级数将随着文档变化。

在查询评分系统的一个样本运行中，在具有注意力层的第3层LSTM序列到序列模型上执行训练。训练由近似地714000个文档和近似地299000个查询组成。总之，近似地459万个文档-查询点击对被用在训练中，并且词汇表大小被设定为最常使用的词语中的30000个。训练在单个GPU上花费近似地四天。当在“connect tablet tv”上执行搜索时，五个最可能的文档是：

10 foot micro hdmi tv cable Lenovo idea tab s6000 10 touch screentablet pc

10 foot mini hdmi tv cable double power dopo em63 blk android 7tablet pc

10 foot long micro hdmi tv cable cord nextbook windows 8.tablet<UNK>

10 foot mini hdmi tv cable ematic<UNK>rd hd display android 7 tabletpc

1.5 foot usb power cable amazon fire tv stick micro usb pc

图5图示了在其中可以实践本公开的方面的查询评分系统的流程图。初始地，在操作510处，接收查询，并且执行检索多个文档的搜索。在操作520处，第一文档被馈送到编码器305的嵌入层310中。将文档馈送到编码器305的编码层310中意味着将文档分解为若干词语，创建针对每个词语的级，并且将每个词语馈送到编码器305的相应级中。

编码层320然后生成隐向量h1、h2和h3，其被馈送到解码器307中。编码层320通过顺序地将先前的隐向量当作输入并且还输入来自嵌入层320的下一词语来生成隐向量h1、h2和h3。在编码器305中的每级处，隐向量随着所有先前信息与针对新文档词语的新信息组合而生长，直到模型最后以隐向量h1、h2和h3结束。

在操作530处，解码器的第一级将生成词典大小|V|的向量，其投影用于词典中的每个词语的概率的向量。词典的大小可以由系统设定，但是可以是例如100000个词语。在操作540处，给定返回的当前文档和先前的查询词语(初始地字符串结束或者<EOS>)，针对当前词语(初始地查询中的第一词语)确定概率。通过查找投影向量中的当前词语确定概率。

在操作550处，做出测试以确定当前查询词语是否是<EOS>。如果这样的话，查询词语已经全部处理，并且在操作570处，给定文档，计算查询的总得分或者总概率。其被计算为从投影向量提取的所有个体概率的积。

如果仍然存在更多文档要针对查询被评分(操作575)，那么在操作580处取回下一文档并且使当前文档和序列到序列转换器再次针对文档运行。如果过程查询词语不是<EOS>(操作550)，换句话说如果更多查询词语仍然需要处理，那么在操作560处下一查询词语变为当前查询词语，并且激活解码器307的下一级，并且流程返回操作540。

如果没有更多文档由搜索返回，则在操作585处进行检查以查看用于文档中的任一个的得分是否大于阈值。如果这样的话，在操作590处具有大于阈值的得分的那些文档被返回给用户，并且在操作599处查询评分系统结束。如果没有文档具有大于阈值的得分，那么在操作595处向用户做出请求以澄清他的搜索。查询评分系统可以询问用户特定问题并且从用户接收响应，或者查询评分系统可以简单地提示用户录入更特定的搜索。在该请求完成之后，在操作510处接收新查询。

图6图示了在其中可以实践本公开的方面的标识查询中的重要词语以促进评分的注意力层。注意力层610被用于标识查询中的重要/类似实体的词语以促进评分。注意力层610通过其针对解码器中的隐向量h_t 630的相似性而聚集源查询隐向量620a-b。聚集函数可以被认为是将所有源查询隐向量620a-b和解码器中的隐向量630当作输入的函数f，以及可变长度对齐加权向量α_t，使得c_t＝f(h_s1,…,h_sm,α_t,h_t)。然后，结果向量c_t 640针对解码隐向量h_t在连接645处被连接并且馈送到投影层中作为650。该注意力机制改进不仅模型有效性，而且经由源文档词语与解码查询之间的相似性标识重要/类似实体的词语。

更特别地，在解码器级中的每个时间步骤t中，评分模型被用于基于当前目标状态h_t和所有源状态推断可变长度对齐权重向量a_t。全局上下文向量c_t然后在所有源状态上根据a_t被计算为加权平均。

此处，得分被称为三个不同的备选方案可能的基于内容的函数：

得分因此被转换为用于目标词语向量h_t和源的全局对齐权重a_t

改进是神经张量网络的使用，其被创建以理解实体关系。其跟随对两个隐向量评分的相同想法，但是其添加张量的想法，即，使用在“一般”函数中的W矩阵。W矩阵被扩展以计算k维空间中的相似性得分。然后，其使用通用向量U选择器来将k维相似性得分浓缩成标量。

g_R(h₁,h₂)＝U^Ttanh(h₁ ^TW_R ^[1：k]h₂+V_R ^T([h₁；h₂])+b_R)

在查询评分系统中使用的所公开的方法使得U动态。k维选择器U可以通过源序列的含义而变化。U_s取决于源序列隐向量的聚集版本。对于LSTM实现而言，最后隐向量应当很好地包含全部源序列的聚集含义。

图7至图8和相关联的描述提供其中可以实践本公开的方面的各种操作环境的讨论。然而，关于图7至图8图示和讨论的设备和系统出于示例和图示的目的，并且不限于可以被用于实践本公开的方面的大量的计算设备配置，如在此所描述的。

图7是图示本公开方面的可以利用其实践的计算设备700的示例物理部件(例如，硬件)的块图。下文所描述的计算设备可以具有用于在计算设备上实现查询评分系统750的计算机可执行指令，包括可以执行以实现在此所公开的方法的计算机可执行指令。在基本配置中，计算设备700可以包括至少一个处理单元702和系统存储器704。取决于计算设备的配置和类型，系统存储器704可以包括但不限于易失性存储装置(例如，随机存取存储器)、非易失性存储装置(例如，只读存储器)、闪速存储器或者这样的存储器的任何组合。系统存储器704可以包括操作系统705和适于运行查询评分系统750的一个或多个程序模块706。

操作系统705例如可以适于控制计算设备700的操作。此外，本公开的实施例可以结合图形库、其他操作系统或者任何其他应用程序来实践，并且不限于任何特定应用或者系统。通过以虚线708的那些部件在图7中图示了该基本配置。计算设备700可以具有附加特征或者功能。例如，计算设备700还可以包括附加的数据存储设备(可移除的和/或不可移除的)，诸如例如磁盘、光盘或者磁带。在图7中通过可移除的存储设备709和不可移除的存储设备710图示这样的附加存储装置。

如上所述，若干程序模块和数据文件可以被存储在系统存储器704中。当在处理单元702上执行时，程序模块706(例如，查询评分系统750)可以执行过程，包括但不限于如在此所描述的方面。可以使用根据本公开的方面的其他程序模块。

此外，本公开的实施例可以被实践在包括分立电子元件的电路中、包含逻辑门的封装或者集成电子芯片、利用微处理器的电路或者包含电子元件或微处理器的单个芯片上。例如，本公开的实施例可以经由片上系统(SOC)实践，其中图7中所图示的部件中的每个或许多部件可以被集成到单个集成电路上。这样的SOC设备可以包括一个或多个处理单元、图形单元、通信单元、系统可视化单元和各种应用功能，其全部被集成(或者“烧”)到芯片衬底上作为单个集成电路。当经由SOC操作时，关于客户端切换协议的能力在此所描述的功能可以经由与单个集成电路(芯片)上的计算设备700的其他部件集成的专用逻辑来操作。本公开的实施例还可以使用能够执行逻辑操作(诸如例如与、或和非)的其他技术实践，包括但不限于机械、光学、流体和量子技术。另外，可以在通用计算机内或者在任何其他电路或系统中实践本公开的实施例。

计算设备700还可以具有一个或多个输入设备(诸如键盘、鼠标、笔、声音或者语音输入设备、触摸或者滑动输入设备等)。还可以包括(一个或多个)输出设备714，诸如显示器、扬声器、打印机等。前述设备是示例并且可以使用其他设备。计算设备700可以包括允许与其他计算设备718通信的一个或多个通信连接716。适合的通信连接716的示例包括但不限于射频(RF)发射器、接收器和/或收发器电路；通用串行总线(USB)、并行和/或串行端口。

如在此所使用的术语计算机可读介质可以包括计算机存储介质。计算机存储介质可以包括在任何方法或技术中实现的易失性和非易失性、可移除和不可移除的介质，以用于信息(诸如计算机可读指令、数据结构或者程序模块)的存储。系统存储器704、可移除的存储设备709和不可移除的存储设备710全部是计算机存储介质示例(例如，存储器存储装置)。计算机存储介质可以包括RAM、ROM、电可擦只读存储器(EEPROM)、闪速存储器或其他存储器技术、CD-ROM、数字通用光盘(DVD)或其他光学存储装置、磁带盒、磁带、磁盘存储装置或其他磁性存储设备或者可以被用于存储信息并且可以由计算设备700访问的任何其他制品。任何这样的计算机存储介质可以是计算设备700的一部分。计算机存储介质不包括载波或者其他传播或调制数据信号。

通信介质可以通过计算机可读指令、数据结构、程序模块或者调制数据信号(诸如载波或者其他传输机制)中的其他数据来实现，并且包括任何信息递送介质。术语“调制数据信号”可以描述具有以将信息编码在信号中的这样的方式设定或改变的一个或多个特性的信号。以示例而非限制的方式，通信介质包括有线介质(诸如有线网络或直接有线连接)和无线介质(诸如声学、射频(RF)、红外线和其他无线介质)。

图8A和图8B图示了利用其可以实践本公开的实施例的移动计算设备800，例如，移动电话、智能电话、可穿戴计算机(诸如智能手表)、平板计算机、膝上型计算机等。在一些方面中，客户端可以是移动计算设备。参考图8A，图示了用于实现方面的移动计算设备800的一个方面。在基本配置中，移动计算设备800是具有输入元件和输出元件二者的手持式计算机。移动计算设备800通常包括显示器805和允许用户将信息录入移动计算设备800的一个或多个输入按钮810。移动计算设备800的显示器805还可以用作输入设备(例如，触摸屏显示器)。如果被包括，则可选的侧输入元件815允许进一步的用户输入。侧输入元件815可以是旋转开关、按钮或者任何其他类型的手动输入元件。在备选方面中，移动计算设备800可以包含或多或少输入元件。例如，在一些实施例中显示器805可以不是触摸屏。在又一备选实施例中，移动计算设备800是便携式电话系统(蜂窝电话)。移动计算设备800还可以包括可选的小键盘835。可选的小键盘835可以是物理小键盘或者在触摸屏显示器上生成的“软”键盘。在各种示例中，输出元件包括用于示出图形用户接口(GUI)的显示器805、视觉指示器820(例如，发光二极管)和/或音频换能器825(例如，扬声器)。在一些示例中，移动计算设备800包含用于向用户提供触觉反馈的振动换能器。在又一示例中，移动计算设备800包含输入和/或输出端口，诸如音频输入(例如，麦克风插口)、音频输出(例如，耳机插口)和用于将信号发送到外部设备或者从外部设备接收信号的视频输出(例如，HDMI端口)。

图8B是移动计算设备的一个示例的架构的块图。也即，移动计算设备800可以包含实现一些方面的系统(例如，架构)802。在一个实施例中，系统802被实现为运行一个或多个应用(例如，浏览器、电子邮件、日历、联系人管理器、消息客户端、游戏和媒体客户端/播放器)的“智能电话”。在一些方面中，系统802被集成为计算设备，诸如集成个人数字助理(PDA)和无线电话。

一个或多个应用程序866可以被加载到存储器862中并且在操作系统864上运行或者与操作系统864相关联。应用程序的示例包括电话拨号程序、电子邮件程序、个人信息管理(PIM)程序、字处理程序、电子表格程序、因特网浏览器程序、消息程序等。系统802还包括存储器862内的非易失性存储区域868。非易失性存储区域868可以用于存储在系统802被断电的情况下不应该丢失的持久信息。应用程序866可以使用并且将信息存储在非易失性存储区域868中(诸如电子邮件或由电子邮件应用使用的其他消息等)。同步应用(未示出)还驻留在系统820上并且被编程为与驻留在主机计算机上的对应的同步应用相互作用，以保持被存储在非易失性存储区域868中的信息与被存储在主机计算机处的对应的信息同步。如应当理解，其他应用可以被加载到存储器862中并且在移动计算设备800上运行，包括用于提供队列分析应用的指令。

系统802可以具有电源870，其可以被实现为一个或多个电池。电源870还可以包括外部电源(对电池进行补充或者再充电的AC适配器或者供电底座)。

系统802还可以包括无线电接口层872，其执行发送和接收射频通信的功能。无线电接口层872经由通信载波或服务提供商促进系统802与“外部世界”之间的无线连接性。在操作系统864的控制下进行至和自无线电接口层872的传输。换句话说，由无线电接口层872接收到的通信可以经由操作系统864被传播到应用程序866，并且反之亦然。

视觉指示器820可以被用于提供视觉通知，和/或音频接口874可以被用于经由音频换能器825(例如，如在图8A中所图示的音频换能器825)产生可听通知。在所图示的实施例中，视觉指示器820是发光二极管(LED)并且音频换能器825可以是扬声器。这些设备可以直接地被耦合到电源870，使得当被激活时，其保持用于由通知机制所指示的持续时间，即使处理器860和其他部件可能关闭用于节省电池电量。LED可以被编程为保持无限直到用户采取动作以指示设备的加电状态。音频接口874被用于向用户提供音频信号并且从用户接收音频信号。例如，除了被耦合到音频换能器825之外，音频接口874还可以被耦合到麦克风以接收可听输入，诸如以促进电话交谈。根据本公开的实施例，麦克风还可以用作促进通知的控制的音频传感器，如下文将描述的。系统802还可以包括视频接口876，其使得外围设备830(例如，板载摄像头)的操作能够记录静止图像、视频流等。

实现系统802的移动计算设备800可以具有附加特征或者功能。例如，移动计算设备800还可以包括附加的数据存储设备(可移除的和/或不可移除的)，诸如例如磁盘、光盘或者磁带。通过非易失性存储区域868在图8B中图示这样的附加存储装置。

由移动计算设备800所生成或者所采集并且经由系统802所存储的数据/信息可以本地存储在移动计算设备800上，如上文所描述的，或者数据可以被存储在可以经由无线电接口层872或者经由在移动计算设备800与关联于移动计算设备800的分离的计算设备(例如，分布式计算网络(诸如因特网)中的服务器计算机)之间的有线连接来访问的任何数目的存储介质。如应该理解，可以经由移动计算设备800、经由无线电接口层872或者经由分布式计算网络访问这样的数据/信息。类似地，这样的数据/信息可以在用于存储的计算设备之间容易地传送并且根据众所周知的数据/信息传送和存储装置使用，包括电子邮件和协作数据/信息共享系统。

如应当理解，图8A和图8B出于图示本方法和系统的目的描述，并且不旨在将本公开限于步骤的特定序列或者硬件或者软件部件的特定组合。

参考根据本公开的方面的方法、系统和计算机程序产品的块图和/或操作图示上文描述了例如本公开的示例。块中所指出的功能/动作可以脱离如在任何流程图中所示的次序发生。例如，连续所示的两个块可以实际上基本上并发地执行或者块可以有时以相反的次序执行，这取决于所包含的功能/动作。

本说明书中所提供的一个或多个方面的描述和图示不旨在限定或者限制如以任何方式要求保护的本公开的范围。本申请中所提供的示例、示例和细节被认为是足以传达所有权并且使得他人能够制造并且使用要求保护的最佳模式。要求保护的本公开内容不应该被解释为限于本申请中所提供的任何实施例、示例或细节。不管组合还是分离地示出和描述，各种特征(结构和方法二者)旨在选择性地包括或者被省略以产生具有特定特征集的实施例。已提供有本申请的描述和说明，在不脱离要求保护的本公开的更宽范围的情况下，本领域的技术人员可以设想到落入被实现在本申请中的一般方面构思的更宽方面的精神内的变型、修改和备选的方面。

Claims

1.一种方法，包括：

接收来自用户的查询，所述查询包括多个词语；

基于所述查询，针对包括词语的文档执行搜索；

将所述文档的所述词语馈送为多层序列到序列转换器的编码器的输入；

在所述多层序列到序列转换器的解码器处生成多个向量，每个向量包括与所述查询中的相应词语相关联的概率；

在相应向量中查找每个词语与所述文档相关联的概率；

将两个或更多个词语的概率乘在一起以确定所述查询与所述文档相关联的总概率；以及

如果所述查询与所述文档相关联的所述总概率大于阈值，则将所述文档返回给所述用户。

2.根据权利要求1所述的方法，还包括：如果所述查询与所述文档相关联的所述总概率小于所述阈值，则请求来自所述用户的进一步搜索信息。

3.根据权利要求2所述的方法，还包括：在将所述文档的所述词语馈送为多层序列到序列转换器的编码器的所述输入之后，将所述文档的所述词语编码成三个隐向量h1、h2和h3。

4.根据权利要求3所述的方法，其中在解码器处生成多个向量还包括：使用所述三个隐向量h1、h2和h3连同所述查询中的先前词语来生成所述多个向量。

5.根据权利要求4所述的方法，还包括：使用注意力机制生成所述多个向量内的所述概率。

6.一种系统，包括：

至少一个处理器；以及

与所述至少一个处理器操作地连接的存储器，其存储计算机可执行指令，所述计算机可执行指令当由所述至少一个处理器执行时使得所述至少一个处理器执行方法，所述方法包括：

接收来自用户的查询，所述查询包括多个词语；

基于所述查询，针对包括词语的文档执行搜索；

使用注意力机制来在所述多层序列到序列转换器的解码器处生成多个向量，每个向量包括与所述查询中的相应词语相关联的概率；

在相应向量中查找每个词语与所述文档相关联的概率；

将每个词语的概率乘在一起以确定所述查询与所述文档相关联的总概率；以及

如果所述总概率大于阈值量，则将所述文档返回给所述用户。

7.根据权利要求6所述的系统，其中所述方法还包括：如果所述查询与所述文档相关联的所述总概率小于所述阈值，则请求来自所述用户的进一步搜索信息。

8.根据权利要求7所述的系统，其中所述方法还包括：在将所述文档的所述词语馈送为多层序列到序列转换器的编码器的所述输入之后，将所述文档的所述词语编码成三个隐向量h1、h2和h3。

9.根据权利要求8所述的系统，其中在解码器处生成多个向量还包括：使用所述三个隐向量h1、h2和h3连同所述查询中的先前词语来生成所述多个向量。

10.根据权利要求6所述的系统，其中所述注意力机制是动态张量网络。

11.一种计算机存储介质，其存储计算机可执行指令，当所述计算机可执行指令由所述计算机执行时使得所述计算机执行方法，所述方法包括：

接收来自用户的查询；

对所述查询执行搜索；

接收由于所述搜索得到的文档；

使用序列到序列转换器和注意力网络对所述文档进行评分以确定所述查询与所述文档有关的概率；以及

如果所述概率大于阈值，则返回所述文档。

12.根据权利要求11所述的计算机存储介质，其中对所述文档进行评分还包括：将所述查询输入到所述序列到序列转换器的编码器中。

13.根据权利要求12所述的计算机存储介质，其中对所述文档进行评分还包括：生成三个隐向量h1、h2和h3作为所述编码器的输出。

14.根据权利要求11所述的计算机存储介质，其中评分还包括：确定所述查询中的每个词语与所述文档相关联的相应概率。

15.根据权利要求14所述的计算机存储介质，其中所述概率被计算为针对每个词语的概率中的每个概率乘在一起的积。