CN110023928B

CN110023928B - 预测搜索引擎排名信号值

Info

Publication number: CN110023928B
Application number: CN201780074815.6A
Authority: CN
Inventors: 雅维耶·斯帕尼奥洛·阿里萨瓦拉加; 马尔特·努恩; 国·V·勒; 丹尼尔·杜克沃特; 马蒂亚斯·海勒尔
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-12-05
Filing date: 2017-12-04
Publication date: 2020-12-04
Anticipated expiration: 2037-12-04
Also published as: DE202017107393U1; US10324993B2; US20180157758A1; CN110023928A; GB2559262A; GB201720222D0; WO2018106613A1

Abstract

用于扩增搜索引擎索引的方法、系统和设备，包括被编码在计算机存储介质上的计算机程序，所述搜索引擎索引对来自资源集合的资源进行索引。在一个方面中，扩增对来自资源集合的资源进行索引的搜索引擎索引的方法包括以下所述动作：在所述资源集合中识别资源，所述资源在所述搜索引擎索引中被索引并且所述资源的搜索引擎排名信号的值不可用；使用机器学习模型处理来自所述资源的数据，所述机器学习模型被配置为：处理所述数据以预测所述资源的所述搜索引擎排名信号的值；以及通过将所述搜索引擎排名信号的预测值与所述搜索引擎索引中的所述资源相关联来更新所述搜索引擎索引。

Description

预测搜索引擎排名信号值

技术领域

本说明书通常涉及训练机器学习模型，该机器学习模型预测被索引在搜索系统的索引数据库中的资源的搜索引擎排名信号的值。

背景技术

在线搜索引擎通常响应于接收到的搜索查询而对资源进行排名，以呈现识别响应于搜索查询的资源的搜索结果。搜索引擎通常按照由排名限定的顺序来呈现搜索结果。搜索引擎可以基于各种因素(即，基于各种搜索引擎排名信号)并且使用各种排名技术来对资源进行排名。

发明内容

本说明书描述了机器学习被集成到搜索引擎索引过程中的各种实施方式。描述了为在搜索系统的索引数据库中被索引的资源生成搜索引擎排名信号的值的技术。

通常，本说明书中所描述的主题的一个创新方面可以体现在方法中，该方法扩增对来自第一资源集合的资源进行索引的第一搜索引擎索引。该方法包括：在第一资源集合中识别第一资源，该第一资源在第一搜索引擎索引中被索引并且该第一资源的搜索引擎排名信号的值不可用，其中，搜索引擎在响应于接收到的搜索查询而对资源进行排名时使用搜索引擎排名信号的值；使用机器学习模型处理来自第一资源的数据，该机器学习模型被配置为：处理数据以预测第一资源的搜索引擎排名信号的值；以及通过将搜索引擎排名信号的预测值与第一搜索引擎索引中的第一资源相关联来更新第一搜索引擎索引。来自第一资源的数据可以包括文本。该方面的其它实施例包括对应计算机系统、设备和记录在一个或多个计算机存储装置上的计算机程序，每个计算机系统、设备和计算机程序都被配置为执行方法的动作。一个或多个计算机的系统被配置为执行特定操作或动作意味着系统已经在其上安装了软件、固件、硬件或其组合，其在操作中使系统执行操作或动作。一个或多个计算机程序被配置为执行特定操作或动作意味着一个或多个程序包括在由数据处理设备执行时使设备执行操作或行动的指令。

可选地，前述和其它实施例可以分别单独地或组合地包括以下特征中的一个或多个。具体地，一个实施例组合地包括所有以下特征。该方法进一步包括：从索引第二资源集合的第二搜索引擎索引识别多个第二资源，该第二资源中的每一个在第二搜索引擎索引中与第二资源的搜索引擎排名信号的相应值相关联；生成训练数据，该训练数据针对多个第二资源中的每一个包括：第二资源的数据(例如，文本)，以及第二资源的搜索引擎排名信号的相应值；以及在训练数据上训练机器学习模型。第二资源集合是互联网资源的集合。第一资源集合与第二资源集合不同。第一资源集合是特定于实体的资源的集合。第一资源的搜索引擎排名信号的预测值包括用户将提交给搜索引擎以搜索第一资源的一个或多个搜索查询。机器学习模型包括：编码器神经网络，该编码器神经网络被配置为处理第一资源的数据(例如，文本)以生成第一资源的编码表示；以及第一解码器神经网络，该第一解码器神经网络被配置为使用第一资源的编码表示生成搜索引擎排名信号的预测值。搜索引擎在响应于接收到的搜索查询而对资源进行排名时也使用的第二搜索引擎排名信号的值对于第一资源也不可用，以及其中，该方法进一步包括：使用第二解码器神经网络处理第一资源的编码表示，该第二解码器神经网络被配置为使用第一资源的编码表示生成第二搜索引擎排名信号的预测值。

通常，本说明书中所描述的主题的另一创新方面可以体现在方法中，该方法扩增对来自第一资源集合的资源进行索引的第一搜索引擎索引。该方法包括：从索引第一资源集合的第一搜索引擎索引识别多个第一资源，该第一资源中的每一个在第一搜索引擎索引中与第一资源的搜索引擎排名信号的相应值相关联；生成训练数据，该训练数据针对多个第一资源中的每一个包括：第一资源的数据(例如，文本)，以及第一资源的搜索引擎排名信号的相应值；在训练数据上训练机器学习模型，其中，机器学习模型被配置为：接收资源的数据(例如，文本)，以及处理资源的数据(例如，文本)以生成资源的搜索引擎排名信号的预测值。该方面的其它实施例包括对应计算机系统、设备和记录在一个或多个计算机存储装置上的计算机程序，每个计算机系统、设备和计算机程序都被配置为执行方法的动作。一个或多个计算机的系统被配置为执行特定操作或动作意味着系统已经在其上安装了软件、固件、硬件或其组合，其在操作中使系统执行操作或动作。一个或多个计算机程序被配置为执行特定操作或动作意味着一个或多个程序包括在由数据处理设备执行时使设备执行操作或行动的指令。

可选地，前述和其它实施例可以分别单独地或组合地包括以下特征中的一个或多个。具体地，一个实施例组合地包括所有以下特征。该方法进一步包括：在第二资源集合中识别第二资源，该第二资源在第二搜索引擎索引中被索引并且该第二资源的搜索引擎排名信号的值不可用，其中，搜索引擎在响应于接收到的搜索查询而对资源进行排名时使用搜索引擎排名信号的值；使用训练后的机器学习模型处理来自第二资源的数据(例如，文本)，训练后的机器学习模型被配置为：处理数据(例如，文本)以预测第二资源的搜索引擎排名信号的值；以及通过将搜索引擎排名信号的预测值与第二搜索引擎索引中的第二资源相关联来更新第二搜索引擎索引。第一资源集合是互联网资源的集合。第二资源集合与第一资源集合不同。第二资源集合是特定于实体的资源的集合。第二资源的搜索引擎排名信号的预测值包括用户将提交给搜索引擎以搜索第二资源的一个或多个搜索查询。机器学习模型包括：编码器神经网络，该编码器神经网络被配置为处理第二资源的数据(例如，文本)以生成第二资源的编码表示；以及第二解码器神经网络，该第二解码器神经网络被配置为使用第二资源的编码表示生成搜索引擎排名信号的预测值。搜索引擎在响应于接收到的搜索查询而对资源进行排名时也使用的第一搜索引擎排名信号的值对于第二资源也不可用，以及其中，该方法进一步包括：使用第一解码器神经网络处理所述第二资源的所述编码表示，所述第一解码器神经网络被配置为使用所述第二资源的所述编码表示生成所述第一搜索引擎排名信号的预测值。

本说明书中所描述的主题可以实施在特定实施例中，以便实现以下优点中的一个或多个。传统的搜索系统使用与资源相关联的搜索引擎排名信号的值来响应于搜索查询对资源进行排名。这些传统的搜索系统通常需要知道搜索引擎排名信号的值以便有效地对资源进行排名，使得难以对搜索引擎排名信号的值不可用的资源进行排名。与传统的搜索系统不同，在本说明书中所描述的搜索系统包括机器学习模型，以为搜索引擎排名信号的值不可用的资源生成搜索引擎排名信号的值。搜索系统可以利用所生成的资源的搜索引擎排名信号的值来更新索引资源的搜索引擎索引，然后搜索引擎可以在对资源进行排名时使用所生成的值。因此，可以提高搜索引擎索引的完整性，进而提高搜索引擎的准确性和效率。

在下面的附图和描述中陈述了本说明书的主题的一个或多个实施例的细节。主题的其它特征、方面和优点将通过说明书、附图和权利要求书而变得显而易见。

附图说明

图1是示例搜索系统的框图。

图2是用于预测资源的搜索引擎排名信号的值的示例过程的流程图。

图3是用于训练机器学习模型的示例过程的流程图。

图4是用于预测查询的示例过程的流程图。

图5是用于训练机器学习模型的示例过程的流程图。

在各个附图中，类似的附图标记和名称指示类似的元件。

具体实施方式

图1示出了示例搜索系统114。搜索系统114是可以实施下面描述的系统、组件和技术的信息检索系统的示例。

用户102可以通过用户装置104与搜索系统114交互。例如，用户装置104可以是通过数据通信网络112(例如，局域网(LAN)或广域网(WAN)，例如互联网)或网络的组合耦合至搜索系统114的计算机。在一些情况下，例如，如果用户将执行搜索的应用安装在用户装置104上，则搜索系统114可以实施在用户装置104上。用户装置104通常会包括用于存储指令的存储器(例如，随机存取存储器(RAM)106)和用于执行所存储的指令的处理器108。存储器可以包括只读存储器和可写存储器。

搜索系统114被配置为搜索资源集合。例如，资源可以包括网页、电子邮件、文本消息、包括文本的文件、图像文件、声音文件、视频文件、文件的组合、具有到其它文件的嵌入链接的一个或多个文件、新闻组发布、博客、商业列表、印刷文本的电子版、web广告等。在一些实施方式中，资源集合是用户特定的资源集合，例如，用户的电子邮件账户中的电子邮件、与用户的用户账户相关联的文本消息、与文件存储和/或同步服务中的用户相关联的文件等。在一些其它实施方式中，该集合可以是仅在专用网络上可用的资源，例如，仅由属于特定组织的用户可访问的内联网上的资源。

用户102可以使用用户装置104来将搜索查询110提交给搜索系统114。当用户102提交搜索查询110时，通过网络112将搜索查询110传输给搜索系统114。

当搜索查询110由搜索系统114接收时，搜索系统114内的搜索引擎130在资源集合中识别满足搜索查询110的资源，并且通过生成分别识别满足搜索查询110的相应资源的搜索结果128来响应查询110。搜索系统114通过网络112将搜索结果128传输给用户装置104以向用户102呈现，即，以可以呈现给用户102的形式。

搜索引擎130可以包括索引引擎132和排名引擎134。索引引擎132索引资源集合中的资源并且将所索引的资源添加到索引数据库122。

索引数据库122将资源集合中被索引的资源与所索引的资源的搜索引擎排名信号的值相关联。每个搜索引擎排名信号都是表征资源的不同类型的数据，排名引擎134在响应于接收到的搜索查询而对资源进行排名时使用该资源。例如，搜索引擎排名信号可以包括链接信息信号、用户行为信号等。通过从其它资源到该资源的链接来导出链接信息信号。例如，链接信息信号可以包括链接到给定资源的资源标题、到给定资源的链接的锚文本(即，与到链接资源中的给定资源的链接相关联的文本)等。用户行为信号是从搜索查询系统114的用户(例如，将搜索查询提交给搜索查询系统114的用户)的行为导出的信号。例如，用户行为信号可以包括已经被分类为经常导致提交搜索查询的用户选择识别资源的搜索结果(即，从响应于用户提交搜索查询而提供的搜索结果集合选择识别资源的搜索结果)的搜索查询。

排名引擎134基于资源的搜索引擎排名信号的值来为在索引数据库122中被索引的资源生成相应的排名分数，并且基于相应的排名分数来对资源进行排名。给定资源的排名分数反映了资源与接收到的搜索查询110的相关性、给定资源的质量或者两者。

在一些情况下，索引数据库122包括一个或多个搜索引擎排名信号的值不可用的资源，例如，因为搜索系统114没有足够的信息来为给定资源生成搜索引擎排名信号的值。

当搜索引擎排名信号对于资源不可用时，索引引擎132可以使用机器学习模型150来提高资源的排名分数的质量。具体地，索引引擎132使用机器学习模型150来利用资源的搜索引擎排名信号的预测值扩增索引数据库122。

机器学习模型150是被配置为接收搜索引擎排名信号的值不可用的资源的文本并且为该资源生成搜索引擎排名信号的预测值的机器学习模型。一旦机器学习模型150为资源生成了搜索引擎排名信号的预测值，则通过将由机器学习模型150生成的搜索引擎排名信号的预测值与资源相关联来更新索引数据库122。排名引擎134然后可以使用预测值来响应于接收到的搜索查询而为资源生成排名分数。在一些实施方式中，机器学习模型150被配置为(除了资源的文本之外或者代替资源的文本)接收搜索引擎排名信号的值不可用的资源的其它数据(例如，图像、声音或视频)并且为该资源生成搜索引擎排名信号的预测值。

在一些实施方式中，索引数据库122包括第一搜索引擎排名信号的值可用但是第二搜索引擎排名信号的值不可用的资源。在这些情况下，机器学习模型150可以被配置为接收(i)资源的文本、资源的其它数据或者两者，以及(ii)资源的第一搜索引擎排名信号的值；以及为资源生成第二搜索引擎排名信号的预测值。排名引擎134可以使用第一搜索引擎排名信号的值和第二搜索引擎排名信号的更新值来响应于接收到的搜索查询为资源生成排名分数。

机器学习模型150可以是各种机器学习模型中的任何一种。例如，机器学习模型150可以是包括多层非线性操作的深度机器学习模型，例如，神经网络。

在一些实施方式中，机器学习模型150包括编码器神经网络和解码器神经网络。编码器神经网络处理资源中的文本以生成资源的编码表示。解码器神经网络使用资源的编码表示来生成搜索引擎排名信号的预测值。

在一些实施方式中，机器学习模型150可以包括编码器神经网络和多个解码器神经网络。例如，机器学习模型150可以包括第一解码器神经网络和第二解码器神经网络。编码器神经网络处理资源中的文本以生成资源的编码表示。第一解码器神经网络使用资源的编码表示来生成第一搜索引擎排名信号的预测值，并且第二解码器神经网络使用资源的编码表示来生成第二搜索引擎排名信号的预测值。作为另一示例，机器学习模型150可以是浅层机器学习模型，例如，广义线性模型。在Sutskever、Ilya、Oriol Vinyals和Quoc V.Le于2014年发表在Advances in neural information processing systems上的“Sequence tosequence learning with neural networks”中描述了神经网络的示例架构，该神经网络包括编码器神经网络和解码器神经网络并且可以被训练以预测搜索引擎排名信号的值。在Wu,Yongui等人于2016年发表在ArXiv预印本arXiv:1609.08144上的“Google’s NeuralMachine Translation System:Bridging the Gap between Human and MachineTranslation”中描述了另一示例神经网络架构。在Vinyals、Oriol等人于2015年发表在Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition上的“Show and tell:A neural image caption generator”中描述了神经网络的示例架构，该神经网络包括可以对其它数据(在该示例中是图像)进行编码的编码器并且可以被训练以预测搜索引擎排名信号的值。

为了训练机器学习模型150，使得机器学习模型150可以用于为索引数据库122中的资源生成搜索引擎排名信号的值，搜索系统包括训练引擎160。训练引擎160在使用已经与搜索引擎排名信号的值相关联的资源而生成的训练数据上训练排名机器学习模型150。在一些实施方式中，可以使用来自与搜索系统114被配置搜索的集合不同的资源集合的资源来生成训练数据。例如，不同的集合可以是互联网资源的集合，例如，可在互联网上公开访问的网页。下面将参照图3更详细地描述训练机器学习模型。

图2是用于预测搜索引擎排名信号的值不可用的资源的搜索引擎排名信号的值的示例过程200的流程图。为了方便起见，过程200将被描述为由位于一个或多个位置中的一个或多个计算机的系统执行。例如，根据本说明书适当编程的搜索系统(例如，图1的搜索系统114)可以执行过程200。

该系统在第一资源集合中识别210第一资源，该第一资源在搜索引擎索引中被索引。第一资源是搜索引擎排名信号的值不可用的资源，即，第一资源在搜索引擎索引中没有与之相关联的信号的值或者与索引中的指示值不可用的占位符值或其它数据相关联。搜索引擎排名信号是由搜索引擎用于响应于接收到的搜索查询而为资源生成排名分数的值。例如，搜索引擎排名信号可以是已经被分类为经常导致提交搜索查询的用户选择识别资源的搜索结果(即，从响应于用户提交搜索查询而提供的搜索结果集合选择识别资源的搜索结果)的搜索查询。作为另一示例，搜索引擎排名信号可以是资源的锚文本，即，与到其它资源中的资源的链接相关联的文本。作为另一示例，搜索引擎排名信号可以是链接到资源的资源标题。

该系统使用机器学习模型处理220来自第一资源的文本。具体地，机器学习模型被配置为处理文本以预测第一资源的搜索引擎排名信号的值。已经训练机器学习模型以接收搜索引擎排名信号的值不可用的资源的文本并且为该资源生成搜索引擎排名信号的预测值。例如，当搜索引擎排名信号是已经被分类为经常导致提交搜索查询的用户选择识别资源的搜索结果(即，从响应于用户提交搜索查询而提供的搜索结果集合选择识别资源的搜索结果)的搜索查询时，搜索引擎排名信号的预测值是机器学习模型预测会被分类为经常导致选择识别资源的搜索结果的一个或多个搜索查询的文本。作为另一示例，当搜索引擎排名信号是到给定资源的链接的锚文本(即，与到链接资源中的给定资源的链接相关联的文本)时，搜索引擎排名信号的预测值是机器学习模型预测会是到资源的链接的锚文本的文本。作为另一示例，当搜索引擎排名信号是链接到给定资源的资源标题时，搜索引擎排名信号的预测值是机器学习模型预测会是链接到资源的资源标题的文本。下面参照图3更详细地描述训练机器学习模型。

在一些实施方式中，机器学习模型被配置为处理第一资源的数据(例如，图像、声音或视频)以预测第一资源的搜索引擎排名信号的值。

该系统通过将搜索引擎排名信号的预测值与搜索引擎索引中的第一资源相关联来更新230搜索引擎索引。搜索引擎排名信号的预测值可以由搜索引擎用于生成资源的排名分数，即，代替搜索引擎排名信号的实际值。

图3是用于训练机器学习模型的示例过程300的流程图。为了方便起见，过程300将被描述为由位于一个或多个位置中的一个或多个计算机的系统执行。例如，根据本说明书适当编程的搜索系统(例如，图1的搜索系统114)可以执行过程300。

该系统从索引第二资源集合的第二搜索引擎索引识别310第二资源。第二资源集合是分别与搜索引擎排名信号的相应值相关联的资源。例如，第二资源集合可以是互联网资源，例如，互联网上公开可用的网页和其它资源。在一些实施方式中，第二资源集合与上面参照图2描述的第一资源集合不同。例如，第一资源集合可以是用户特定的资源集合，例如，用户的电子邮件账户中的电子邮件、与用户的用户账户相关联的文本消息、与文件存储和/或同步服务中的用户相关联的文件等。作为另一示例，第一集合可以是仅在专用网络上可用的资源，例如，仅由属于特定组织的用户可访问的内联网上的资源。

该系统生成320训练数据。训练数据针对第二资源中的每一个包括(i)第二资源的文本以及(ii)第二资源的搜索引擎排名信号的相应值。

该系统在训练数据上训练330机器学习模型。具体地，该系统通过使用传统的机器学习训练技术优化目标函数来训练机器学习模型以预测第二资源的准确的搜索引擎值，例如具有反向传播的随机梯度下降，或者具有定时反向传播的随机梯度下降(如果机器学习模型是循环的)。

以上描述已经描述了机器学习模型用于预测对于给定资源不可用的搜索引擎排名信号值的实施方式。然而，在一些情况下，即使搜索引擎索引中的某些资源与已经被分类为经常导致使提交搜索查询的用户选择识别第一资源的搜索结果的一个或多个搜索查询相关联，将附加搜索查询添加到搜索引擎索引也会导致排名引擎能够为资源生成更准确的排名分数。在一些实施方式中，基于现有的搜索查询预测附加搜索查询的机器学习模型可以用于扩增搜索引擎索引并且改善排名引擎的操作。

图4是用于预测查询的示例过程400的流程图。为了方便起见，过程400将被描述为由位于一个或多个位置中的一个或多个计算机的系统执行。例如，根据本说明书适当编程的搜索系统(例如，图1的搜索系统114)可以执行过程400。

该系统识别410第一资源，该第一资源在搜索引擎索引中被索引并且在搜索引擎索引中与一个或多个第一查询相关联。第一查询可以是已经被分类为经常导致提交搜索查询的用户选择识别第一资源的搜索结果(即，从响应于用户提交搜索查询而提供的搜索结果集合选择识别第一资源的搜索结果)的搜索查询。

该系统使用机器学习模型处理420第一查询以预测第二查询。具体地，机器学习模型被配置为处理第一查询的文本以预测第二查询，该第二查询是会被分类为经常导致提交搜索查询的用户选择识别第一资源的搜索结果的另一查询。在一些实施方式中，机器学习模型被配置为仅处理已经与资源相关联的一个或多个第一查询的文本以生成预测的第二查询。在一些其它实施方式中，机器学习模型被配置为处理资源的文本以及已经与资源相关联的一个或多个第一查询的文本以生成预测的第二查询。下面参照图5更详细地描述训练机器学习模型以预测第二查询。

该系统通过将预测的第二查询与搜索引擎索引中的第一资源相关联来更新430搜索引擎索引。搜索引擎在响应于接收到的搜索查询而为资源生成排名分数时可以使用预测的第二查询以及一个或多个第一查询。

图5是用于训练机器学习模型的示例过程500的流程图。为了方便起见，过程500将被描述为由位于一个或多个位置中的一个或多个计算机的系统执行。例如，根据本说明书适当编程的搜索系统(例如，图1的搜索系统114)可以执行过程500。

该系统识别510在搜索引擎索引(例如，相同的搜索引擎索引或不同的搜索引擎索引)中被索引的第二资源，该第二资源每个在搜索引擎索引中与多于一个查询相关联。

该系统生成520训练数据。训练数据针对第二资源中的每一个包括(i)与第二资源相关联的输入查询以及(ii)也与第二资源相关联的一个或多个输出查询。在机器学习模型被配置为还处理资源的文本的实施方式中，训练数据针对第二资源中的每一个还包括资源的文本。

该系统在训练数据上训练530机器学习模型。具体地，该系统通过使用传统的机器学习训练技术优化目标函数来训练机器学习模型以准确地预测附加搜索查询，例如具有反向传播的随机梯度下降，或者具有定时反向传播的随机梯度下降(如果机器学习模型是循环的)。

可以利用数字电子电路、有形地体现的计算机软件或固件、计算机硬件包括在本说明书中所公开的结构及其结构等效物或者它们中的一个或多个的组合来实施本说明书中所描述的主题和功能操作的实施例。可以将本说明书中所描述的主题的实施例实施为一个或多个计算机程序，即，编码在有形的非暂时性存储介质上以由数据处理设备执行或者以控制该数据处理设备的操作的计算机程序指令的一个或多个模块。计算机存储介质可以是机器可读存储装置、机器可读存储衬底、随机或串行存取存储器装置或者它们中的一个或多个的组合。可替代地或者另外，程序指令可以编码在人工生成的传播信号(例如，机器生成的电气、光学或者电磁信号上，生成该信号是为了对用于传输至合适的接收器设备以供数据处理设备执行的信息进行编码)上。

术语“数据处理设备”是指数据处理硬件，并且涵盖了用于处理数据的所有种类的设备、装置和机器，该所有种类的设备、装置和机器包括：例如，可编程处理器、计算机或者多个处理器或计算机。该设备还可以是或进一步包括专用逻辑电路系统，例如，FPGA(现场可编程门阵列)或者ASIC(专用集成电路)。除了硬件之外，该设备可以可选地包括为计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统或者它们中的一个或多个的组合的代码。

可以用任何形式的编程语言包括编译语言或解释语言或者陈述性语言或程序语言来编写计算机程序，其也可以被称为或者被描述为程序、软件、软件应用、模块、软件模块、脚本或代码，并且可以按照任何形式包括作为独立式程序或者作为模块、组件、子例程或适合用于计算环境的其它单元来部署计算机程序。程序可以但并非必须与文件系统中的文件相对应。可以将程序存储在保持其它程序或数据例如存储在标记语言资源中的一个或多个脚本的文件的一部分中，或者存储在专用于探讨中的程序的单个文件中，或者存储在多个协作文件例如存储一个或多个模块、子程序或者部分代码的文件中。可以将计算机程序部署为在一个计算机上执行或者在位于一个站点处或分布在多个站点上并且通过数据通信网络互相连接的多个计算机上执行。

在本说明书中，术语“数据库”将广泛地用于指代任何数据集合：数据不需要以任何特定方式构造或者根本不需要构造，并且它可以存储在一个或多个位置中的存储装置上。因此，例如，索引数据库可以包括多个数据集合，可以以不同的方式组织和访问该多个数据集合中的每一个。

同样地，在本说明书中，术语“引擎”将广泛地用于指代可以执行一个或多个特定功能的基于软件的系统或子系统。通常，引擎将被实施为安装在一个或多个位置中的一个或多个计算机上的一个或多个软件模块或组件。在一些情况下，一个或多个计算机将专用于特定引擎；在其它情况下，可以在相同的一个或多个计算机上安装和运行多个引擎。

可以通过一个或多个可编程计算机来执行本说明书中所描述的过程和逻辑流程，该一个或多个可编程计算机执行一个或多个计算机程序以通过操作输入数据并且生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路系统(例如，FPGA或ASIC)或者专用逻辑电路系统和一个或多个编程计算机的组合执行。

适合于执行计算机程序的计算机可以基于通用或专用的微处理器或者两者或者任何其它类型的中央处理单元。通常，中央处理单元将接收来自只读存储器或者随机存取存储器或者两者的指令和数据。计算机的必要元件是用于履行或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器装置。中央处理单元和存储器可以由专用逻辑电路系统补充或者可以并入到该专用逻辑电路系统中。通常，计算机还将包括用于存储数据的一个或多个海量存储装置(例如，磁盘、磁光盘或者光盘)，或者计算机可操作地耦合以接收来自该海量存储装置的数据或者将数据传输至该海量存储装置或者进行两者。然而，计算机无需具有这种装置。而且，计算机可以嵌入到另一装置中，例如，仅举数例，移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏机、全球定位系统(GPS)接收器或者便携式存储装置(例如，通用串行总线(USB)闪存驱动器)。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器装置，包括：例如，半导体存储器装置(例如，EPROM、EEPROM和闪速存储器装置)、磁盘(例如，内部硬盘或者可移动盘)、磁光盘以及CD-ROM和DVD-ROM盘。

对本说明书中所描述的各种系统或其部分的控制可以在包括指令的计算机程序产品中实施，该指令存储在一个或多个非暂时性机器可读存储介质上并且可在一个或多个处理装置上执行。本说明书中所描述的系统或其部分可以分别实施为可以包括一个或多个处理装置和存储器的设备、方法或电子系统，以存储可执行指令以执行本说明书中所描述的操作。

为了提供与用户的交互，可以在计算机上实施本说明书中所描述的主题的实施例，该计算机具有：用于向用户显示信息的显示装置，例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器；以及键盘和指向装置，例如，鼠标或者轨迹球，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈，例如，视觉反馈、听觉反馈或者触觉反馈；并且可以用任何形式(包括声输入、语音输入或者触觉输入)来接收来自用户的输入。另外，计算机可以通过将资源发送给用户所使用的装置并且接收来自该装置的资源，例如通过响应于从web浏览器接收到的请求来将网页发送给在用户的装置上的web浏览器，来与用户交互。

可以将本说明书中所描述的主题的实施例实施在包括后端组件的计算系统(例如，作为数据服务器)、或者包括中间件组件的计算系统(例如，应用服务器)、或者包括前端组件的计算系统(例如，具有图形用户界面或者web浏览器的客户端计算机，用户可以通过该图形用户界面或者该web浏览器来与本说明书中所描述的主题的实施方式交互)、或者包括一个或多个这种后端组件、中间件组件或前端组件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的组件相互连接。通信网络的示例包括局域网(LAN)和广域网(WAN)，例如，互联网。

计算系统可以包括客户端和服务器。客户端和服务器通常远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。在一些实施例中，服务器将数据(例如，HTML页面)传输给用户装置，例如为了向与用户装置交互的用户显示数据并且接收来自该用户的用户输入，该用户装置充当客户端。可以从在服务器处的用户装置接收在用户装置处生成的数据(例如，用户交互的结果)。

虽然本说明书包含了许多具体实施细节，但是不应该将这些细节解释为对任何发明或者可能被要求的内容的范围的限制，而是作为可以针对特定发明的特定实施例的特征的描述。在本说明书中在单独实施例的上下文中描述的某些特征还可以组合地实施在单个实施例中。相反，在单个实施例的上下文中描述的各种特征也可以单独地或者按照任何合适的子组合实施在多个实施例中。而且，虽然上文可以将特征描述为以某些组合的方式起作用，并且甚至描述为最初要求这种，但来自所要求的组合的一个或多个特征在一些情况下可以从组合中切除，并且所要求的组合可以针对子组合或者子组合的变型。

同样地，虽然在附图中按照特定顺序描绘了操作，但是不应该将其理解为需要按照所示的特定顺序或者按照相继顺序来执行这种操作，或者执行所有图示的操作以实现期望的结果。在某些情况下，多任务处理和并行处理可能是有利的。而且，不应该将在上述实施例中的各种系统模块和组件的分离理解为在所有实施例中都需要这种分离，并且应该理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中或者封装到多个软件产品中。

已经描述了本主题的特定实施例。其它实施例在以下权利要求书的范围内。例如，在权利要求书中叙述的动作可以按照不同的顺序来执行并且仍然实现期望的结果。作为一个示例，在附图中描绘的过程不一定需要所示的特定顺序或者相继顺序，以实现期望的结果。在一些情况下，多任务处理和并行处理可能是有利的。

Claims

1.一种扩增第一搜索引擎索引的方法，所述第一搜索引擎索引对来自第一资源集合的资源进行索引，所述方法包括：

由一个或多个计算机维护第一搜索引擎索引，所述第一搜索引擎索引对来自第一资源集合的资源进行索引并且将来自所述第一资源集合的多个资源中的每个资源与该资源的搜索引擎排名信号的相应值相关联，其中所述搜索引擎排名信号的该相应值是与表征该资源的所述搜索引擎排名信号相对应的特定类型的文本；

由所述一个或多个计算机在所述第一资源集合中识别第一资源，(i)所述第一资源在所述第一搜索引擎索引中被索引并且(ii)在所述第一搜索引擎索引中所述第一资源的所述搜索引擎排名信号的实际值不可用；

由所述一个或多个计算机使用机器学习模型处理来自所述第一资源的文本，所述机器学习模型被配置为：

处理所述文本以生成被预测为表征所述资源的所述特定类型的文本；

由所述一个或多个计算机，通过以下操作来更新所述第一搜索引擎索引：在所述第一搜索引擎索引中，将由所述机器学习模型生成的文本作为所述搜索引擎排名信号的预测值来与所述第一资源相关联；以及

向搜索引擎提供所述搜索引擎排名信号的预测值以代替所述搜索引擎排名信号的实际值，以供用于响应于接收到的搜索查询而生成所述第一资源的排名分数。

2.根据权利要求1所述的方法，进一步包括：

从索引第二资源集合的第二搜索引擎索引识别多个第二资源，所述多个第二资源中的每个第二资源在所述第二搜索引擎索引中与该第二资源的搜索引擎排名信号的相应值相关联；

生成训练数据，所述训练数据针对所述多个第二资源中的每个第二资源包括：

该第二资源的文本，以及

该第二资源的搜索引擎排名信号的相应值；以及

在所述训练数据上训练所述机器学习模型。

3.根据权利要求2所述的方法，其中，所述第二资源集合是互联网资源的集合。

4.根据权利要求3所述的方法，其中，所述第一资源集合与所述第二资源集合不同。

5.根据权利要求4所述的方法，其中，所述第一资源集合是特定于实体的资源的集合。

6.根据权利要求1所述的方法，其中，由所述机器学习模型生成的文本包括用户将提交给所述搜索引擎以搜索所述第一资源的一个或多个搜索查询。

7.根据权利要求1所述的方法，其中，所述机器学习模型包括：

编码器神经网络，所述编码器神经网络被配置为处理所述第一资源的文本以生成所述第一资源的编码表示；以及

第一解码器神经网络，所述第一解码器神经网络被配置为使用所述第一资源的所述编码表示来生成被预测为表征资源的所述特定类型的文本。

8.根据权利要求7所述的方法，其中，所述搜索引擎在响应于接收到的搜索查询而对资源进行排名时也使用的第二搜索引擎排名信号的值在所述第一搜索引擎索引中对于所述第一资源也不可用，以及其中，所述方法进一步包括：

使用第二解码器神经网络处理所述第一资源的所述编码表示，所述第二解码器神经网络被配置为使用所述第一资源的所述编码表示生成所述第二搜索引擎排名信号的预测值。

9.一种方法，包括：

由一个或多个计算机从索引第一资源集合的第一搜索引擎索引识别多个第一资源，所述多个第一资源中的每个第一资源在所述第一搜索引擎索引中与该第一资源的搜索引擎排名信号的相应值相关联，其中所述搜索引擎排名信号的多个相应值由搜索引擎用来响应于接收到的搜索查询而生成多个资源的排名分数，其中所述搜索引擎排名信号的每个相应值是与表征对应资源的所述搜索引擎排名信号相对应的特定类型的文本；

由所述一个或多个计算机生成训练数据，所述训练数据针对所述多个第一资源中的每个第一资源包括：

该第一资源的文本，以及

所述第一资源的所述搜索引擎排名信号的相应值；

由所述一个或多个计算机在所述训练数据上训练机器学习模型，其中，所述机器学习模型被配置为：

接收资源的文本，以及

处理所述文本以生成被预测为表征所述资源的所述特定类型的文本。

10.根据权利要求9所述的方法，进一步包括：

在第二资源集合中识别第二资源，所述第二资源在第二搜索引擎索引中被索引并且所述第二资源的搜索引擎排名信号的值不可用，其中，搜索引擎在响应于接收到的搜索查询而对资源进行排名时使用所述搜索引擎排名信号的值；

使用所训练的机器学习模型处理来自所述第二资源的文本，所训练后的机器学习模型被配置为：

处理所述文本以生成被预测为表征所述第二资源的所述特定类型的第二文本；以及

由所述一个或多个计算机，通过以下操作来更新所述第一搜索引擎索引：在所述第一搜索引擎索引中，将由所述机器学习模型生成的第二文本作为所述搜索引擎排名信号的预测值来与所述第二资源相关联；以及

向搜索引擎提供所述搜索引擎排名信号的预测值以代替所述搜索引擎排名信号的实际值，以供用于响应于接收到的搜索查询而生成所述第二资源的排名分数。

11.根据权利要求10所述的方法，其中，所述第一资源集合是互联网资源的集合。

12.根据权利要求11所述的方法，其中，所述第二资源集合与所述第一资源集合不同。

13.根据权利要求12所述的方法，其中，所述第二资源集合是特定于实体的资源的集合。

14.根据权利要求10所述的方法，其中，所述第二资源的所述搜索引擎排名信号的预测值包括用户将提交给所述搜索引擎以搜索所述第二资源的一个或多个搜索查询。

15.根据权利要求10所述的方法，其中，所述机器学习模型包括：

编码器神经网络，所述编码器神经网络被配置为处理所述第二资源的所述文本以生成所述第二资源的编码表示；以及

第二解码器神经网络，所述第二解码器神经网络被配置为使用所述第二资源的所述编码表示生成所述搜索引擎排名信号的预测值。

16.根据权利要求15所述的方法，其中，所述搜索引擎在响应于接收到的搜索查询而对资源进行排名时也使用的第一搜索引擎排名信号的值对于所述第二资源也不可用，以及其中，所述方法进一步包括：

使用第一解码器神经网络处理所述第二资源的所述编码表示，所述第一解码器神经网络被配置为使用所述第二资源的所述编码表示生成所述第一搜索引擎排名信号的预测值。

17.一种系统，包括一个或多个计算机和存储指令的一个或多个存储设备，所述指令在被所述一个或多个计算机执行时使得所述一个或多个计算机执行操作，所述操作包括：

维护第一搜索引擎索引，所述第一搜索引擎索引对来自第一资源集合的资源进行索引并且将来自所述第一资源集合的资源与所述资源的搜索引擎排名信号的对应值相关联，其中所述搜索引擎排名信号的所述对应值是与表征所述资源的所述搜索引擎排名信号相对应的特定类型的文本；

在所述第一资源集合中识别第一资源，(i)所述第一资源在所述第一搜索引擎索引中被索引并且(ii)在所述第一搜索引擎索引中所述第一资源的所述搜索引擎排名信号的实际值不可用；

使用机器学习模型处理来自所述第一资源的文本，所述机器学习模型被配置为：

通过以下操作来更新所述第一搜索引擎索引：在所述第一搜索引擎索引中，将由所述机器学习模型生成的文本作为所述搜索引擎排名信号的预测值来与所述第一资源相关联；以及

18.根据权利要求17所述的系统，所述操作进一步包括：

该第二资源的文本，以及

该第二资源的搜索引擎排名信号的相应值；以及

在所述训练数据上训练所述机器学习模型。

19.根据权利要求17所述的系统，其中，由所述机器学习模型生成的文本包括用户将提交给所述搜索引擎以搜索所述第一资源的一个或多个搜索查询。

20.根据权利要求17所述的系统，其中，所述机器学习模型包括：