CN110023928A - 预测搜索引擎排名信号值 - Google Patents

预测搜索引擎排名信号值 Download PDF

Info

Publication number
CN110023928A
CN110023928A CN201780074815.6A CN201780074815A CN110023928A CN 110023928 A CN110023928 A CN 110023928A CN 201780074815 A CN201780074815 A CN 201780074815A CN 110023928 A CN110023928 A CN 110023928A
Authority
CN
China
Prior art keywords
resource
search engine
value
index
ranking signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201780074815.6A
Other languages
English (en)
Other versions
CN110023928B (zh
Inventor
雅维耶·斯帕尼奥洛·阿里萨瓦拉加
马尔特·努恩
国·V·勒
丹尼尔·杜克沃特
马蒂亚斯·海勒尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN110023928A publication Critical patent/CN110023928A/zh
Application granted granted Critical
Publication of CN110023928B publication Critical patent/CN110023928B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

用于扩增搜索引擎索引的方法、系统和设备,包括被编码在计算机存储介质上的计算机程序,所述搜索引擎索引对来自资源集合的资源进行索引。在一个方面中,扩增对来自资源集合的资源进行索引的搜索引擎索引的方法包括以下所述动作:在所述资源集合中识别资源,所述资源在所述搜索引擎索引中被索引并且所述资源的搜索引擎排名信号的值不可用;使用机器学习模型处理来自所述资源的数据,所述机器学习模型被配置为:处理所述数据以预测所述资源的所述搜索引擎排名信号的值;以及通过将所述搜索引擎排名信号的预测值与所述搜索引擎索引中的所述资源相关联来更新所述搜索引擎索引。

Description

预测搜索引擎排名信号值
技术领域
本说明书通常涉及训练机器学习模型,该机器学习模型预测被索引在搜索系统的索引数据库中的资源的搜索引擎排名信号的值。
背景技术
在线搜索引擎通常响应于接收到的搜索查询而对资源进行排名,以呈现识别响应于搜索查询的资源的搜索结果。搜索引擎通常按照由排名限定的顺序来呈现搜索结果。搜索引擎可以基于各种因素(即,基于各种搜索引擎排名信号)并且使用各种排名技术来对资源进行排名。
发明内容
本说明书描述了机器学习被集成到搜索引擎索引过程中的各种实施方式。描述了为在搜索系统的索引数据库中被索引的资源生成搜索引擎排名信号的值的技术。
通常,本说明书中所描述的主题的一个创新方面可以体现在方法中,该方法扩增对来自第一资源集合的资源进行索引的第一搜索引擎索引。该方法包括:在第一资源集合中识别第一资源,该第一资源在第一搜索引擎索引中被索引并且该第一资源的搜索引擎排名信号的值不可用,其中,搜索引擎在响应于接收到的搜索查询而对资源进行排名时使用搜索引擎排名信号的值;使用机器学习模型处理来自第一资源的数据,该机器学习模型被配置为:处理数据以预测第一资源的搜索引擎排名信号的值;以及通过将搜索引擎排名信号的预测值与第一搜索引擎索引中的第一资源相关联来更新第一搜索引擎索引。来自第一资源的数据可以包括文本。该方面的其它实施例包括对应计算机系统、设备和记录在一个或多个计算机存储装置上的计算机程序,每个计算机系统、设备和计算机程序都被配置为执行方法的动作。一个或多个计算机的系统被配置为执行特定操作或动作意味着系统已经在其上安装了软件、固件、硬件或其组合,其在操作中使系统执行操作或动作。一个或多个计算机程序被配置为执行特定操作或动作意味着一个或多个程序包括在由数据处理设备执行时使设备执行操作或行动的指令。
可选地,前述和其它实施例可以分别单独地或组合地包括以下特征中的一个或多个。具体地,一个实施例组合地包括所有以下特征。该方法进一步包括:从索引第二资源集合的第二搜索引擎索引识别多个第二资源,该第二资源中的每一个在第二搜索引擎索引中与第二资源的搜索引擎排名信号的相应值相关联;生成训练数据,该训练数据针对多个第二资源中的每一个包括:第二资源的数据(例如,文本),以及第二资源的搜索引擎排名信号的相应值;以及在训练数据上训练机器学习模型。第二资源集合是互联网资源的集合。第一资源集合与第二资源集合不同。第一资源集合是特定于实体的资源的集合。第一资源的搜索引擎排名信号的预测值包括用户将提交给搜索引擎以搜索第一资源的一个或多个搜索查询。机器学习模型包括:编码器神经网络,该编码器神经网络被配置为处理第一资源的数据(例如,文本)以生成第一资源的编码表示;以及第一解码器神经网络,该第一解码器神经网络被配置为使用第一资源的编码表示生成搜索引擎排名信号的预测值。搜索引擎在响应于接收到的搜索查询而对资源进行排名时也使用的第二搜索引擎排名信号的值对于第一资源也不可用,以及其中,该方法进一步包括:使用第二解码器神经网络处理第一资源的编码表示,该第二解码器神经网络被配置为使用第一资源的编码表示生成第二搜索引擎排名信号的预测值。
通常,本说明书中所描述的主题的另一创新方面可以体现在方法中,该方法扩增对来自第一资源集合的资源进行索引的第一搜索引擎索引。该方法包括:从索引第一资源集合的第一搜索引擎索引识别多个第一资源,该第一资源中的每一个在第一搜索引擎索引中与第一资源的搜索引擎排名信号的相应值相关联;生成训练数据,该训练数据针对多个第一资源中的每一个包括:第一资源的数据(例如,文本),以及第一资源的搜索引擎排名信号的相应值;在训练数据上训练机器学习模型,其中,机器学习模型被配置为:接收资源的数据(例如,文本),以及处理资源的数据(例如,文本)以生成资源的搜索引擎排名信号的预测值。该方面的其它实施例包括对应计算机系统、设备和记录在一个或多个计算机存储装置上的计算机程序,每个计算机系统、设备和计算机程序都被配置为执行方法的动作。一个或多个计算机的系统被配置为执行特定操作或动作意味着系统已经在其上安装了软件、固件、硬件或其组合,其在操作中使系统执行操作或动作。一个或多个计算机程序被配置为执行特定操作或动作意味着一个或多个程序包括在由数据处理设备执行时使设备执行操作或行动的指令。
可选地,前述和其它实施例可以分别单独地或组合地包括以下特征中的一个或多个。具体地,一个实施例组合地包括所有以下特征。该方法进一步包括:在第二资源集合中识别第二资源,该第二资源在第二搜索引擎索引中被索引并且该第二资源的搜索引擎排名信号的值不可用,其中,搜索引擎在响应于接收到的搜索查询而对资源进行排名时使用搜索引擎排名信号的值;使用训练后的机器学习模型处理来自第二资源的数据(例如,文本),训练后的机器学习模型被配置为:处理数据(例如,文本)以预测第二资源的搜索引擎排名信号的值;以及通过将搜索引擎排名信号的预测值与第二搜索引擎索引中的第二资源相关联来更新第二搜索引擎索引。第一资源集合是互联网资源的集合。第二资源集合与第一资源集合不同。第二资源集合是特定于实体的资源的集合。第二资源的搜索引擎排名信号的预测值包括用户将提交给搜索引擎以搜索第二资源的一个或多个搜索查询。机器学习模型包括:编码器神经网络,该编码器神经网络被配置为处理第二资源的数据(例如,文本)以生成第二资源的编码表示;以及第二解码器神经网络,该第二解码器神经网络被配置为使用第二资源的编码表示生成搜索引擎排名信号的预测值。搜索引擎在响应于接收到的搜索查询而对资源进行排名时也使用的第一搜索引擎排名信号的值对于第二资源也不可用,以及其中,该方法进一步包括:使用第一解码器神经网络处理所述第二资源的所述编码表示,所述第一解码器神经网络被配置为使用所述第二资源的所述编码表示生成所述第一搜索引擎排名信号的预测值。
本说明书中所描述的主题可以实施在特定实施例中,以便实现以下优点中的一个或多个。传统的搜索系统使用与资源相关联的搜索引擎排名信号的值来响应于搜索查询对资源进行排名。这些传统的搜索系统通常需要知道搜索引擎排名信号的值以便有效地对资源进行排名,使得难以对搜索引擎排名信号的值不可用的资源进行排名。与传统的搜索系统不同,在本说明书中所描述的搜索系统包括机器学习模型,以为搜索引擎排名信号的值不可用的资源生成搜索引擎排名信号的值。搜索系统可以利用所生成的资源的搜索引擎排名信号的值来更新索引资源的搜索引擎索引,然后搜索引擎可以在对资源进行排名时使用所生成的值。因此,可以提高搜索引擎索引的完整性,进而提高搜索引擎的准确性和效率。
在下面的附图和描述中陈述了本说明书的主题的一个或多个实施例的细节。主题的其它特征、方面和优点将通过说明书、附图和权利要求书而变得显而易见。
附图说明
图1是示例搜索系统的框图。
图2是用于预测资源的搜索引擎排名信号的值的示例过程的流程图。
图3是用于训练机器学习模型的示例过程的流程图。
图4是用于预测查询的示例过程的流程图。
图5是用于训练机器学习模型的示例过程的流程图。
在各个附图中,类似的附图标记和名称指示类似的元件。
具体实施方式
图1示出了示例搜索系统114。搜索系统114是可以实施下面描述的系统、组件和技术的信息检索系统的示例。
用户102可以通过用户装置104与搜索系统114交互。例如,用户装置104可以是通过数据通信网络112(例如,局域网(LAN)或广域网(WAN),例如互联网)或网络的组合耦合至搜索系统114的计算机。在一些情况下,例如,如果用户将执行搜索的应用安装在用户装置104上,则搜索系统114可以实施在用户装置104上。用户装置104通常会包括用于存储指令的存储器(例如,随机存取存储器(RAM)106)和用于执行所存储的指令的处理器108。存储器可以包括只读存储器和可写存储器。
搜索系统114被配置为搜索资源集合。例如,资源可以包括网页、电子邮件、文本消息、包括文本的文件、图像文件、声音文件、视频文件、文件的组合、具有到其它文件的嵌入链接的一个或多个文件、新闻组发布、博客、商业列表、印刷文本的电子版、web广告等。在一些实施方式中,资源集合是用户特定的资源集合,例如,用户的电子邮件账户中的电子邮件、与用户的用户账户相关联的文本消息、与文件存储和/或同步服务中的用户相关联的文件等。在一些其它实施方式中,该集合可以是仅在专用网络上可用的资源,例如,仅由属于特定组织的用户可访问的内联网上的资源。
用户102可以使用用户装置104来将搜索查询110提交给搜索系统114。当用户102提交搜索查询110时,通过网络112将搜索查询110传输给搜索系统114。
当搜索查询110由搜索系统114接收时,搜索系统114内的搜索引擎130在资源集合中识别满足搜索查询110的资源,并且通过生成分别识别满足搜索查询110的相应资源的搜索结果128来响应查询110。搜索系统114通过网络112将搜索结果128传输给用户装置104以向用户102呈现,即,以可以呈现给用户102的形式。
搜索引擎130可以包括索引引擎132和排名引擎134。索引引擎132索引资源集合中的资源并且将所索引的资源添加到索引数据库122。
索引数据库122将资源集合中被索引的资源与所索引的资源的搜索引擎排名信号的值相关联。每个搜索引擎排名信号都是表征资源的不同类型的数据,排名引擎134在响应于接收到的搜索查询而对资源进行排名时使用该资源。例如,搜索引擎排名信号可以包括链接信息信号、用户行为信号等。通过从其它资源到该资源的链接来导出链接信息信号。例如,链接信息信号可以包括链接到给定资源的资源标题、到给定资源的链接的锚文本(即,与到链接资源中的给定资源的链接相关联的文本)等。用户行为信号是从搜索查询系统114的用户(例如,将搜索查询提交给搜索查询系统114的用户)的行为导出的信号。例如,用户行为信号可以包括已经被分类为经常导致提交搜索查询的用户选择识别资源的搜索结果(即,从响应于用户提交搜索查询而提供的搜索结果集合选择识别资源的搜索结果)的搜索查询。
排名引擎134基于资源的搜索引擎排名信号的值来为在索引数据库122中被索引的资源生成相应的排名分数,并且基于相应的排名分数来对资源进行排名。给定资源的排名分数反映了资源与接收到的搜索查询110的相关性、给定资源的质量或者两者。
在一些情况下,索引数据库122包括一个或多个搜索引擎排名信号的值不可用的资源,例如,因为搜索系统114没有足够的信息来为给定资源生成搜索引擎排名信号的值。
当搜索引擎排名信号对于资源不可用时,索引引擎132可以使用机器学习模型150来提高资源的排名分数的质量。具体地,索引引擎132使用机器学习模型150来利用资源的搜索引擎排名信号的预测值扩增索引数据库122。
机器学习模型150是被配置为接收搜索引擎排名信号的值不可用的资源的文本并且为该资源生成搜索引擎排名信号的预测值的机器学习模型。一旦机器学习模型150为资源生成了搜索引擎排名信号的预测值,则通过将由机器学习模型150生成的搜索引擎排名信号的预测值与资源相关联来更新索引数据库122。排名引擎134然后可以使用预测值来响应于接收到的搜索查询而为资源生成排名分数。在一些实施方式中,机器学习模型150被配置为(除了资源的文本之外或者代替资源的文本)接收搜索引擎排名信号的值不可用的资源的其它数据(例如,图像、声音或视频)并且为该资源生成搜索引擎排名信号的预测值。
在一些实施方式中,索引数据库122包括第一搜索引擎排名信号的值可用但是第二搜索引擎排名信号的值不可用的资源。在这些情况下,机器学习模型150可以被配置为接收(i)资源的文本、资源的其它数据或者两者,以及(ii)资源的第一搜索引擎排名信号的值;以及为资源生成第二搜索引擎排名信号的预测值。排名引擎134可以使用第一搜索引擎排名信号的值和第二搜索引擎排名信号的更新值来响应于接收到的搜索查询为资源生成排名分数。
机器学习模型150可以是各种机器学习模型中的任何一种。例如,机器学习模型150可以是包括多层非线性操作的深度机器学习模型,例如,神经网络。
在一些实施方式中,机器学习模型150包括编码器神经网络和解码器神经网络。编码器神经网络处理资源中的文本以生成资源的编码表示。解码器神经网络使用资源的编码表示来生成搜索引擎排名信号的预测值。
在一些实施方式中,机器学习模型150可以包括编码器神经网络和多个解码器神经网络。例如,机器学习模型150可以包括第一解码器神经网络和第二解码器神经网络。编码器神经网络处理资源中的文本以生成资源的编码表示。第一解码器神经网络使用资源的编码表示来生成第一搜索引擎排名信号的预测值,并且第二解码器神经网络使用资源的编码表示来生成第二搜索引擎排名信号的预测值。作为另一示例,机器学习模型150可以是浅层机器学习模型,例如,广义线性模型。在Sutskever、Ilya、Oriol Vinyals和Quoc V.Le于2014年发表在Advances in neural information processing systems上的“Sequence tosequence learning with neural networks”中描述了神经网络的示例架构,该神经网络包括编码器神经网络和解码器神经网络并且可以被训练以预测搜索引擎排名信号的值。在Wu,Yongui等人于2016年发表在ArXiv预印本arXiv:1609.08144上的“Google’s NeuralMachine Translation System:Bridging the Gap between Human and MachineTranslation”中描述了另一示例神经网络架构。在Vinyals、Oriol等人于2015年发表在Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition上的“Show and tell:A neural image caption generator”中描述了神经网络的示例架构,该神经网络包括可以对其它数据(在该示例中是图像)进行编码的编码器并且可以被训练以预测搜索引擎排名信号的值。
为了训练机器学习模型150,使得机器学习模型150可以用于为索引数据库122中的资源生成搜索引擎排名信号的值,搜索系统包括训练引擎160。训练引擎160在使用已经与搜索引擎排名信号的值相关联的资源而生成的训练数据上训练排名机器学习模型150。在一些实施方式中,可以使用来自与搜索系统114被配置搜索的集合不同的资源集合的资源来生成训练数据。例如,不同的集合可以是互联网资源的集合,例如,可在互联网上公开访问的网页。下面将参照图3更详细地描述训练机器学习模型。
图2是用于预测搜索引擎排名信号的值不可用的资源的搜索引擎排名信号的值的示例过程200的流程图。为了方便起见,过程200将被描述为由位于一个或多个位置中的一个或多个计算机的系统执行。例如,根据本说明书适当编程的搜索系统(例如,图1的搜索系统114)可以执行过程200。
该系统在第一资源集合中识别210第一资源,该第一资源在搜索引擎索引中被索引。第一资源是搜索引擎排名信号的值不可用的资源,即,第一资源在搜索引擎索引中没有与之相关联的信号的值或者与索引中的指示值不可用的占位符值或其它数据相关联。搜索引擎排名信号是由搜索引擎用于响应于接收到的搜索查询而为资源生成排名分数的值。例如,搜索引擎排名信号可以是已经被分类为经常导致提交搜索查询的用户选择识别资源的搜索结果(即,从响应于用户提交搜索查询而提供的搜索结果集合选择识别资源的搜索结果)的搜索查询。作为另一示例,搜索引擎排名信号可以是资源的锚文本,即,与到其它资源中的资源的链接相关联的文本。作为另一示例,搜索引擎排名信号可以是链接到资源的资源标题。
该系统使用机器学习模型处理220来自第一资源的文本。具体地,机器学习模型被配置为处理文本以预测第一资源的搜索引擎排名信号的值。已经训练机器学习模型以接收搜索引擎排名信号的值不可用的资源的文本并且为该资源生成搜索引擎排名信号的预测值。例如,当搜索引擎排名信号是已经被分类为经常导致提交搜索查询的用户选择识别资源的搜索结果(即,从响应于用户提交搜索查询而提供的搜索结果集合选择识别资源的搜索结果)的搜索查询时,搜索引擎排名信号的预测值是机器学习模型预测会被分类为经常导致选择识别资源的搜索结果的一个或多个搜索查询的文本。作为另一示例,当搜索引擎排名信号是到给定资源的链接的锚文本(即,与到链接资源中的给定资源的链接相关联的文本)时,搜索引擎排名信号的预测值是机器学习模型预测会是到资源的链接的锚文本的文本。作为另一示例,当搜索引擎排名信号是链接到给定资源的资源标题时,搜索引擎排名信号的预测值是机器学习模型预测会是链接到资源的资源标题的文本。下面参照图3更详细地描述训练机器学习模型。
在一些实施方式中,机器学习模型被配置为处理第一资源的数据(例如,图像、声音或视频)以预测第一资源的搜索引擎排名信号的值。
该系统通过将搜索引擎排名信号的预测值与搜索引擎索引中的第一资源相关联来更新230搜索引擎索引。搜索引擎排名信号的预测值可以由搜索引擎用于生成资源的排名分数,即,代替搜索引擎排名信号的实际值。
图3是用于训练机器学习模型的示例过程300的流程图。为了方便起见,过程300将被描述为由位于一个或多个位置中的一个或多个计算机的系统执行。例如,根据本说明书适当编程的搜索系统(例如,图1的搜索系统114)可以执行过程300。
该系统从索引第二资源集合的第二搜索引擎索引识别310第二资源。第二资源集合是分别与搜索引擎排名信号的相应值相关联的资源。例如,第二资源集合可以是互联网资源,例如,互联网上公开可用的网页和其它资源。在一些实施方式中,第二资源集合与上面参照图2描述的第一资源集合不同。例如,第一资源集合可以是用户特定的资源集合,例如,用户的电子邮件账户中的电子邮件、与用户的用户账户相关联的文本消息、与文件存储和/或同步服务中的用户相关联的文件等。作为另一示例,第一集合可以是仅在专用网络上可用的资源,例如,仅由属于特定组织的用户可访问的内联网上的资源。
该系统生成320训练数据。训练数据针对第二资源中的每一个包括(i)第二资源的文本以及(ii)第二资源的搜索引擎排名信号的相应值。
该系统在训练数据上训练330机器学习模型。具体地,该系统通过使用传统的机器学习训练技术优化目标函数来训练机器学习模型以预测第二资源的准确的搜索引擎值,例如具有反向传播的随机梯度下降,或者具有定时反向传播的随机梯度下降(如果机器学习模型是循环的)。
以上描述已经描述了机器学习模型用于预测对于给定资源不可用的搜索引擎排名信号值的实施方式。然而,在一些情况下,即使搜索引擎索引中的某些资源与已经被分类为经常导致使提交搜索查询的用户选择识别第一资源的搜索结果的一个或多个搜索查询相关联,将附加搜索查询添加到搜索引擎索引也会导致排名引擎能够为资源生成更准确的排名分数。在一些实施方式中,基于现有的搜索查询预测附加搜索查询的机器学习模型可以用于扩增搜索引擎索引并且改善排名引擎的操作。
图4是用于预测查询的示例过程400的流程图。为了方便起见,过程400将被描述为由位于一个或多个位置中的一个或多个计算机的系统执行。例如,根据本说明书适当编程的搜索系统(例如,图1的搜索系统114)可以执行过程400。
该系统识别410第一资源,该第一资源在搜索引擎索引中被索引并且在搜索引擎索引中与一个或多个第一查询相关联。第一查询可以是已经被分类为经常导致提交搜索查询的用户选择识别第一资源的搜索结果(即,从响应于用户提交搜索查询而提供的搜索结果集合选择识别第一资源的搜索结果)的搜索查询。
该系统使用机器学习模型处理420第一查询以预测第二查询。具体地,机器学习模型被配置为处理第一查询的文本以预测第二查询,该第二查询是会被分类为经常导致提交搜索查询的用户选择识别第一资源的搜索结果的另一查询。在一些实施方式中,机器学习模型被配置为仅处理已经与资源相关联的一个或多个第一查询的文本以生成预测的第二查询。在一些其它实施方式中,机器学习模型被配置为处理资源的文本以及已经与资源相关联的一个或多个第一查询的文本以生成预测的第二查询。下面参照图5更详细地描述训练机器学习模型以预测第二查询。
该系统通过将预测的第二查询与搜索引擎索引中的第一资源相关联来更新430搜索引擎索引。搜索引擎在响应于接收到的搜索查询而为资源生成排名分数时可以使用预测的第二查询以及一个或多个第一查询。
图5是用于训练机器学习模型的示例过程500的流程图。为了方便起见,过程500将被描述为由位于一个或多个位置中的一个或多个计算机的系统执行。例如,根据本说明书适当编程的搜索系统(例如,图1的搜索系统114)可以执行过程500。
该系统识别510在搜索引擎索引(例如,相同的搜索引擎索引或不同的搜索引擎索引)中被索引的第二资源,该第二资源每个在搜索引擎索引中与多于一个查询相关联。
该系统生成520训练数据。训练数据针对第二资源中的每一个包括(i)与第二资源相关联的输入查询以及(ii)也与第二资源相关联的一个或多个输出查询。在机器学习模型被配置为还处理资源的文本的实施方式中,训练数据针对第二资源中的每一个还包括资源的文本。
该系统在训练数据上训练530机器学习模型。具体地,该系统通过使用传统的机器学习训练技术优化目标函数来训练机器学习模型以准确地预测附加搜索查询,例如具有反向传播的随机梯度下降,或者具有定时反向传播的随机梯度下降(如果机器学习模型是循环的)。
可以利用数字电子电路、有形地体现的计算机软件或固件、计算机硬件包括在本说明书中所公开的结构及其结构等效物或者它们中的一个或多个的组合来实施本说明书中所描述的主题和功能操作的实施例。可以将本说明书中所描述的主题的实施例实施为一个或多个计算机程序,即,编码在有形的非暂时性存储介质上以由数据处理设备执行或者以控制该数据处理设备的操作的计算机程序指令的一个或多个模块。计算机存储介质可以是机器可读存储装置、机器可读存储衬底、随机或串行存取存储器装置或者它们中的一个或多个的组合。可替代地或者另外,程序指令可以编码在人工生成的传播信号(例如,机器生成的电气、光学或者电磁信号上,生成该信号是为了对用于传输至合适的接收器设备以供数据处理设备执行的信息进行编码)上。
术语“数据处理设备”是指数据处理硬件,并且涵盖了用于处理数据的所有种类的设备、装置和机器,该所有种类的设备、装置和机器包括:例如,可编程处理器、计算机或者多个处理器或计算机。该设备还可以是或进一步包括专用逻辑电路系统,例如,FPGA(现场可编程门阵列)或者ASIC(专用集成电路)。除了硬件之外,该设备可以可选地包括为计算机程序创建执行环境的代码,例如,构成处理器固件、协议栈、数据库管理系统、操作系统或者它们中的一个或多个的组合的代码。
可以用任何形式的编程语言包括编译语言或解释语言或者陈述性语言或程序语言来编写计算机程序,其也可以被称为或者被描述为程序、软件、软件应用、模块、软件模块、脚本或代码,并且可以按照任何形式包括作为独立式程序或者作为模块、组件、子例程或适合用于计算环境的其它单元来部署计算机程序。程序可以但并非必须与文件系统中的文件相对应。可以将程序存储在保持其它程序或数据例如存储在标记语言资源中的一个或多个脚本的文件的一部分中,或者存储在专用于探讨中的程序的单个文件中,或者存储在多个协作文件例如存储一个或多个模块、子程序或者部分代码的文件中。可以将计算机程序部署为在一个计算机上执行或者在位于一个站点处或分布在多个站点上并且通过数据通信网络互相连接的多个计算机上执行。
在本说明书中,术语“数据库”将广泛地用于指代任何数据集合:数据不需要以任何特定方式构造或者根本不需要构造,并且它可以存储在一个或多个位置中的存储装置上。因此,例如,索引数据库可以包括多个数据集合,可以以不同的方式组织和访问该多个数据集合中的每一个。
同样地,在本说明书中,术语“引擎”将广泛地用于指代可以执行一个或多个特定功能的基于软件的系统或子系统。通常,引擎将被实施为安装在一个或多个位置中的一个或多个计算机上的一个或多个软件模块或组件。在一些情况下,一个或多个计算机将专用于特定引擎;在其它情况下,可以在相同的一个或多个计算机上安装和运行多个引擎。
可以通过一个或多个可编程计算机来执行本说明书中所描述的过程和逻辑流程,该一个或多个可编程计算机执行一个或多个计算机程序以通过操作输入数据并且生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路系统(例如,FPGA或ASIC)或者专用逻辑电路系统和一个或多个编程计算机的组合执行。
适合于执行计算机程序的计算机可以基于通用或专用的微处理器或者两者或者任何其它类型的中央处理单元。通常,中央处理单元将接收来自只读存储器或者随机存取存储器或者两者的指令和数据。计算机的必要元件是用于履行或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器装置。中央处理单元和存储器可以由专用逻辑电路系统补充或者可以并入到该专用逻辑电路系统中。通常,计算机还将包括用于存储数据的一个或多个海量存储装置(例如,磁盘、磁光盘或者光盘),或者计算机可操作地耦合以接收来自该海量存储装置的数据或者将数据传输至该海量存储装置或者进行两者。然而,计算机无需具有这种装置。而且,计算机可以嵌入到另一装置中,例如,仅举数例,移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏机、全球定位系统(GPS)接收器或者便携式存储装置(例如,通用串行总线(USB)闪存驱动器)。
适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器装置,包括:例如,半导体存储器装置(例如,EPROM、EEPROM和闪速存储器装置)、磁盘(例如,内部硬盘或者可移动盘)、磁光盘以及CD-ROM和DVD-ROM盘。
对本说明书中所描述的各种系统或其部分的控制可以在包括指令的计算机程序产品中实施,该指令存储在一个或多个非暂时性机器可读存储介质上并且可在一个或多个处理装置上执行。本说明书中所描述的系统或其部分可以分别实施为可以包括一个或多个处理装置和存储器的设备、方法或电子系统,以存储可执行指令以执行本说明书中所描述的操作。
为了提供与用户的交互,可以在计算机上实施本说明书中所描述的主题的实施例,该计算机具有:用于向用户显示信息的显示装置,例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器;以及键盘和指向装置,例如,鼠标或者轨迹球,用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈,例如,视觉反馈、听觉反馈或者触觉反馈;并且可以用任何形式(包括声输入、语音输入或者触觉输入)来接收来自用户的输入。另外,计算机可以通过将资源发送给用户所使用的装置并且接收来自该装置的资源,例如通过响应于从web浏览器接收到的请求来将网页发送给在用户的装置上的web浏览器,来与用户交互。
可以将本说明书中所描述的主题的实施例实施在包括后端组件的计算系统(例如,作为数据服务器)、或者包括中间件组件的计算系统(例如,应用服务器)、或者包括前端组件的计算系统(例如,具有图形用户界面或者web浏览器的客户端计算机,用户可以通过该图形用户界面或者该web浏览器来与本说明书中所描述的主题的实施方式交互)、或者包括一个或多个这种后端组件、中间件组件或前端组件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的组件相互连接。通信网络的示例包括局域网(LAN)和广域网(WAN),例如,互联网。
计算系统可以包括客户端和服务器。客户端和服务器通常远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。在一些实施例中,服务器将数据(例如,HTML页面)传输给用户装置,例如为了向与用户装置交互的用户显示数据并且接收来自该用户的用户输入,该用户装置充当客户端。可以从在服务器处的用户装置接收在用户装置处生成的数据(例如,用户交互的结果)。
虽然本说明书包含了许多具体实施细节,但是不应该将这些细节解释为对任何发明或者可能被要求的内容的范围的限制,而是作为可以针对特定发明的特定实施例的特征的描述。在本说明书中在单独实施例的上下文中描述的某些特征还可以组合地实施在单个实施例中。相反,在单个实施例的上下文中描述的各种特征也可以单独地或者按照任何合适的子组合实施在多个实施例中。而且,虽然上文可以将特征描述为以某些组合的方式起作用,并且甚至描述为最初要求这种,但来自所要求的组合的一个或多个特征在一些情况下可以从组合中切除,并且所要求的组合可以针对子组合或者子组合的变型。
同样地,虽然在附图中按照特定顺序描绘了操作,但是不应该将其理解为需要按照所示的特定顺序或者按照相继顺序来执行这种操作,或者执行所有图示的操作以实现期望的结果。在某些情况下,多任务处理和并行处理可能是有利的。而且,不应该将在上述实施例中的各种系统模块和组件的分离理解为在所有实施例中都需要这种分离,并且应该理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中或者封装到多个软件产品中。
已经描述了本主题的特定实施例。其它实施例在以下权利要求书的范围内。例如,在权利要求书中叙述的动作可以按照不同的顺序来执行并且仍然实现期望的结果。作为一个示例,在附图中描绘的过程不一定需要所示的特定顺序或者相继顺序,以实现期望的结果。在一些情况下,多任务处理和并行处理可能是有利的。

Claims (18)

1.一种扩增第一搜索引擎索引的计算机实现的方法,所述第一搜索引擎索引对来自第一资源集合的资源进行索引,所述方法包括:
在所述第一资源集合中识别第一资源,所述第一资源在所述第一搜索引擎索引中被索引并且所述第一资源的搜索引擎排名信号的值不可用,其中,搜索引擎在响应于接收到的搜索查询而对资源进行排名时使用所述搜索引擎排名信号的值;
使用机器学习模型处理来自所述第一资源的数据,所述机器学习模型被配置为:
处理所述数据以预测所述第一资源的所述搜索引擎排名信号的值;以及
通过将所述搜索引擎排名信号的预测值与所述第一搜索引擎索引中的所述第一资源相关联来更新所述第一搜索引擎索引。
2.根据权利要求1所述的方法,进一步包括:
从索引第二资源集合的第二搜索引擎索引识别多个第二资源,所述第二资源中的每一个在所述第二搜索引擎索引中与所述第二资源的所述搜索引擎排名信号的相应值相关联;
生成训练数据,所述训练数据针对所述多个第二资源中的每一个包括:
与所述第二资源相关的数据,以及
所述第二资源的所述搜索引擎排名信号的所述相应值;以及
在所述训练数据上训练所述机器学习模型。
3.根据权利要求2所述的方法,其中,所述第二资源集合是互联网资源的集合。
4.根据权利要求3所述的方法,其中,所述第一资源集合与所述第二资源集合不同。
5.根据权利要求4所述的方法,其中,所述第一资源集合是特定于实体的资源的集合。
6.根据前述权利要求中的任一项所述的方法,其中,所述第一资源的所述搜索引擎排名信号的预测值包括用户将提交给所述搜索引擎以搜索所述第一资源的一个或多个搜索查询。
7.根据前述权利要求中的任一项所述的方法,其中,所述机器学习模型包括:
编码器神经网络,所述编码器神经网络被配置为处理来自所述第一资源的所述数据以生成所述第一资源的编码表示;以及
第一解码器神经网络,所述第一解码器神经网络被配置为使用所述第一资源的所述编码表示生成所述搜索引擎排名信号的预测值。
8.根据权利要求7所述的方法,其中,所述搜索引擎在响应于接收到的搜索查询而对资源进行排名时也使用的第二搜索引擎排名信号的值对于所述第一资源也不可用,以及其中,所述方法进一步包括:
使用第二解码器神经网络处理所述第一资源的所述编码表示,所述第二解码器神经网络被配置为使用所述第一资源的所述编码表示生成所述第二搜索引擎排名信号的预测值。
9.一种扩增搜索引擎索引的计算机实现的方法,所述搜索引擎索引对来自资源集合的资源进行索引,所述方法包括:
从索引第一资源集合的第一搜索引擎索引识别多个第一资源,所述第一资源中的每一个在所述第一搜索引擎索引中与所述第一资源的所述搜索引擎排名信号的相应值相关联;
生成训练数据,所述训练数据针对所述多个第一资源中的每一个包括:
来自所述第一资源的数据,以及
所述第一资源的所述搜索引擎排名信号的所述相应值;
在所述训练数据上训练机器学习模型,其中,所述机器学习模型被配置为:
接收与资源相关的数据,以及
处理与所述资源相关的所述数据以生成所述资源的所述搜索引擎排名信号的预测值。
10.根据权利要求9所述的方法,进一步包括:
在第二资源集合中识别第二资源,所述第二资源在第二搜索引擎索引中被索引并且所述第二资源的搜索引擎排名信号的值不可用,其中,搜索引擎在响应于接收到的搜索查询而对资源进行排名时使用所述搜索引擎排名信号的值;
使用训练后的机器学习模型处理来自所述第二资源的数据,所述训练后的机器学习模型被配置为:
处理所述数据以预测所述第二资源的所述搜索引擎排名信号的值;以及
通过将所述搜索引擎排名信号的预测值与所述第二搜索引擎索引中的所述第二资源相关联来更新所述第二搜索引擎索引。
11.根据权利要求10所述的方法,其中,所述第一资源集合是互联网资源的集合。
12.根据权利要求11所述的方法,其中,所述第二资源集合与所述第一资源集合不同。
13.根据权利要求12所述的方法,其中,所述第二资源集合是特定于实体的资源的集合。
14.根据权利要求10至13中的任一项所述的方法,其中,所述第二资源的所述搜索引擎排名信号的预测值包括用户将提交给所述搜索引擎以搜索所述第二资源的一个或多个搜索查询。
15.根据权利要求10至14中的任一项所述的方法,其中,所述机器学习模型包括:
编码器神经网络,所述编码器神经网络被配置为处理来自所述第二资源的所述数据以生成所述第二资源的编码表示;以及
第二解码器神经网络,所述第二解码器神经网络被配置为使用所述第二资源的所述编码表示生成所述搜索引擎排名信号的预测值。
16.根据权利要求15所述的方法,其中,所述搜索引擎在响应于接收到的搜索查询而对资源进行排名时也使用的第一搜索引擎排名信号的值对于所述第二资源也不可用,以及其中,所述方法进一步包括:
使用第一解码器神经网络处理所述第二资源的所述编码表示,所述第一解码器神经网络被配置为使用所述第二资源的所述编码表示生成所述第一搜索引擎排名信号的预测值。
17.一种设备,所述设备被配置为执行前述权利要求中的任一项所述的方法。
18.一种计算机可读介质,所述计算机可读介质具有存储在其上的计算机可读代码,所述计算机可读代码在由至少一个处理器执行时使得执行权利要求1至16中的任一项所述的方法。
CN201780074815.6A 2016-12-05 2017-12-04 预测搜索引擎排名信号值 Active CN110023928B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/369,849 2016-12-05
US15/369,849 US10324993B2 (en) 2016-12-05 2016-12-05 Predicting a search engine ranking signal value
PCT/US2017/064558 WO2018106613A1 (en) 2016-12-05 2017-12-04 Predicting a search engine ranking signal value

Publications (2)

Publication Number Publication Date
CN110023928A true CN110023928A (zh) 2019-07-16
CN110023928B CN110023928B (zh) 2020-12-04

Family

ID=60950253

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780074815.6A Active CN110023928B (zh) 2016-12-05 2017-12-04 预测搜索引擎排名信号值

Country Status (5)

Country Link
US (1) US10324993B2 (zh)
CN (1) CN110023928B (zh)
DE (1) DE202017107393U1 (zh)
GB (1) GB2559262A (zh)
WO (1) WO2018106613A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368166A (zh) * 2020-03-05 2020-07-03 深圳中兴网信科技有限公司 资源搜索方法、资源搜索装置和计算机可读存储介质
CN111581482A (zh) * 2020-05-27 2020-08-25 北京伯乐互联科技发展有限公司 一种基于seo数据多维度关联的数据共享和分析方法及系统

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11216437B2 (en) 2017-08-14 2022-01-04 Sisense Ltd. System and method for representing query elements in an artificial neural network
WO2019035862A1 (en) 2017-08-14 2019-02-21 Sisense Ltd. SYSTEM AND METHOD FOR INCREASING THE PRECISION OF APPROXIMATION OF INTERROGATION RESULTS USING NEURAL NETWORKS
US11256985B2 (en) 2017-08-14 2022-02-22 Sisense Ltd. System and method for generating training sets for neural networks
US20200201915A1 (en) * 2018-12-20 2020-06-25 Google Llc Ranking image search results using machine learning models
EP3935581A4 (en) 2019-03-04 2022-11-30 Iocurrents, Inc. DATA COMPRESSION AND COMMUNICATION USING MACHINE LEARNING
KR20210089347A (ko) * 2020-01-08 2021-07-16 엘지전자 주식회사 음성 인식 장치 및 음성데이터를 학습하는 방법
US11468133B1 (en) 2021-12-15 2022-10-11 Supportiv Inc. Recommending online communication groups by matching unstructured text input to conversations
US11368423B1 (en) * 2021-12-29 2022-06-21 Supportiv Inc. Resource recommendations in online chat conversations based on sequences of text
US11625444B2 (en) 2022-01-18 2023-04-11 Jeffrey David Minter Curated result finder

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120233096A1 (en) * 2011-03-07 2012-09-13 Microsoft Corporation Optimizing an index of web documents
CN105378763A (zh) * 2013-05-09 2016-03-02 微软技术许可有限责任公司 推断实体属性值
CN105556512A (zh) * 2013-03-15 2016-05-04 美国结构数据有限公司 用于分析关注实体特性的设备、系统以及方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7363296B1 (en) 2004-07-01 2008-04-22 Microsoft Corporation Generating a subindex with relevant attributes to improve querying
US20060059121A1 (en) 2004-08-31 2006-03-16 Microsoft Corporation Method and system for identifying an author of a paper
US7634463B1 (en) * 2005-12-29 2009-12-15 Google Inc. Automatically generating and maintaining an address book
DE102006040182A1 (de) * 2006-08-26 2008-03-06 Mht Mold & Hotrunner Technology Ag Verfahren zur Herstellung eines mehrschichtigen Vorformlings sowie Düse hierfür
US20090024546A1 (en) 2007-06-23 2009-01-22 Motivepath, Inc. System, method and apparatus for predictive modeling of spatially distributed data for location based commercial services
US8190627B2 (en) 2007-06-28 2012-05-29 Microsoft Corporation Machine assisted query formulation
US8032480B2 (en) 2007-11-02 2011-10-04 Hunch Inc. Interactive computing advice facility with learning based on user feedback
US8051080B2 (en) 2008-04-16 2011-11-01 Yahoo! Inc. Contextual ranking of keywords using click data
WO2010030794A1 (en) 2008-09-10 2010-03-18 Digital Infuzion, Inc. Machine learning methods and systems for identifying patterns in data
US8818992B2 (en) * 2008-09-12 2014-08-26 Nokia Corporation Method, system, and apparatus for arranging content search results
US8671093B2 (en) 2008-11-18 2014-03-11 Yahoo! Inc. Click model for search rankings
US20120011112A1 (en) * 2010-07-06 2012-01-12 Yahoo! Inc. Ranking specialization for a search
US8495418B2 (en) * 2010-07-23 2013-07-23 Brocade Communications Systems, Inc. Achieving ultra-high availability using a single CPU
US8793706B2 (en) 2010-12-16 2014-07-29 Microsoft Corporation Metadata-based eventing supporting operations on data
US8601030B2 (en) 2011-09-09 2013-12-03 International Business Machines Corporation Method for a natural language question-answering system to complement decision-support in a real-time command center
US20130086083A1 (en) 2011-09-30 2013-04-04 Microsoft Corporation Transferring ranking signals from equivalent pages
US9147154B2 (en) 2013-03-13 2015-09-29 Google Inc. Classifying resources using a deep network
JP6398257B2 (ja) * 2013-06-27 2018-10-03 株式会社リコー 通信管理システム、通信端末、通信システム、およびプログラム
US9348945B2 (en) * 2013-08-29 2016-05-24 Google Inc. Modifying search results based on dismissal action associated with one or more of the search results
US9714496B2 (en) * 2014-02-14 2017-07-25 Groupe Mammut Inc. Apparatus and method for controlling liquid on a site
US10387888B2 (en) * 2016-07-08 2019-08-20 Asapp, Inc. Assisting entities in responding to a request of a user

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120233096A1 (en) * 2011-03-07 2012-09-13 Microsoft Corporation Optimizing an index of web documents
CN105556512A (zh) * 2013-03-15 2016-05-04 美国结构数据有限公司 用于分析关注实体特性的设备、系统以及方法
CN105378763A (zh) * 2013-05-09 2016-03-02 微软技术许可有限责任公司 推断实体属性值

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368166A (zh) * 2020-03-05 2020-07-03 深圳中兴网信科技有限公司 资源搜索方法、资源搜索装置和计算机可读存储介质
CN111581482A (zh) * 2020-05-27 2020-08-25 北京伯乐互联科技发展有限公司 一种基于seo数据多维度关联的数据共享和分析方法及系统
CN111581482B (zh) * 2020-05-27 2023-05-16 北京伯乐互联科技发展有限公司 一种基于seo数据多维度关联的数据共享和分析方法及系统

Also Published As

Publication number Publication date
CN110023928B (zh) 2020-12-04
US20180157758A1 (en) 2018-06-07
WO2018106613A1 (en) 2018-06-14
GB2559262A (en) 2018-08-01
DE202017107393U1 (de) 2018-02-27
GB201720222D0 (en) 2018-01-17
US10324993B2 (en) 2019-06-18

Similar Documents

Publication Publication Date Title
CN110023928A (zh) 预测搜索引擎排名信号值
US20240070392A1 (en) Computing numeric representations of words in a high-dimensional space
US11669744B2 (en) Regularized neural network architecture search
US11003856B2 (en) Processing text using neural networks
JP6790286B2 (ja) 強化学習を用いたデバイス配置最適化
US11093813B2 (en) Answer to question neural networks
US10971135B2 (en) System and method for crowd-sourced data labeling
Li et al. Api-bank: A benchmark for tool-augmented llms
CN110140133A (zh) 机器学习任务的隐式桥接
CN109313719B (zh) 使用神经网络生成文本段的依存性解析
US10083169B1 (en) Topic-based sequence modeling neural networks
US20200184307A1 (en) Utilizing recurrent neural networks to recognize and extract open intent from text inputs
CN109074517B (zh) 全局归一化神经网络
US11488067B2 (en) Training machine learning models using teacher annealing
CN109918568B (zh) 个性化学习方法、装置、电子设备及存储介质
CN109791631A (zh) 奖励增强模型训练
CN110678882B (zh) 使用机器学习从电子文档选择回答跨距的方法及系统
EP3602419A1 (en) Neural network optimizer search
US20220358292A1 (en) Method and apparatus for recognizing entity, electronic device and storage medium
CN109643323A (zh) 使用强化学习来选择内容项
JP2023518220A (ja) 多様なテキストを自動的に生成する方法
CN109891437A (zh) 使用神经网络处理文本序列
JP2021108178A (ja) マルチラウンド対話の検索方法、装置、記憶媒体および電子機器
US20230351190A1 (en) Deterministic training of machine learning models
CN116992036A (zh) 关键词库的构建方法、装置、计算机设备、介质及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant