CN106446005B - 因子分解模型 - Google Patents
因子分解模型 Download PDFInfo
- Publication number
- CN106446005B CN106446005B CN201610644602.XA CN201610644602A CN106446005B CN 106446005 B CN106446005 B CN 106446005B CN 201610644602 A CN201610644602 A CN 201610644602A CN 106446005 B CN106446005 B CN 106446005B
- Authority
- CN
- China
- Prior art keywords
- query
- resource
- feature vector
- queries
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
提供了用于训练因子分解模型以学习训练模型的模型输入的特征的方法、系统和装置,包括编码在计算机存储介质上的计算机程序,使得因子分解模型预测训练机器学习模型的结果。
Description
技术领域
本说明书描述与将用于查询和文档对的预测分值因子分解为查询和文档之间的相似性分值有关的技术。
背景技术
互联网使得能够对诸如视频或音频文件、特定主题的网页、书籍文章或新闻文章的许多资源进行访问。搜索系统能响应于包括一个或多个搜索项或短语的用户查询而识别资源。搜索系统基于资源与查询的相关性和重要性来对资源排名,并且提供链接到所识别的资源的搜索结果,以及根据排名来对搜索结果排序。
搜索系统使用搜索操作来识别响应查询的资源。当生成用于资源的搜索分值时,搜索操作考虑资源和查询的特征,以及可能其他信息。通常,搜索操作实现在大量资源上良好执行的鲁棒搜索算法。然而,有时期望相对于查询和资源对结果建模。例如,能对模型进行机器学习来预测结果,诸如相对于查询的应用的安装的可能性、相对于查询的购买的可能性等。通常,这些模型以定义用于查询-资源对的特征和组分值的元组的形式发布评分规则。尽管这些元组可以表达对观察数据非常准确的规则,但是规则可能不易应用于还未被观察的数据。还未被观察的数据的示例是非常长尾查询(或新查询)、新发布的资源和还未被观察的任何查询资源对。
发明内容
通常,能在方法中体现本说明书中所述的主题的一个创新方面,所述方法包括访问被训练来预测结果的机器学习模型的动作,所述训练是对查询-资源对集进行的,其中每一查询-资源对对应于被观察为响应于相应查询而识别的相应查询和相应资源,所述训练生成描述从查询-资源对和用于训练机器训练模型的结果的组分权重取得的至少一对特征的多个令牌,以及其中,查询-资源对的给定查询和给定资源的结果的可能性基于与给定查询和给定资源相对应的令牌的组分权重;对查询-资源对的查询中的每一个查询,生成具有元素的基数的相应查询特征向量,每一元素对应于待学习的特征的查询特征值;对查询-资源对的资源中的每一个资源,生成具有元素的基数的相应资源特征向量,每一元素对应于待学习的特征的资源特征值;以及训练因子分解模型来学习每一查询特征向量的每一元素的查询特征值和每一资源特征向量的每一元素的资源特征值,使得基于给定查询和给定资源的相应特征向量输出的因子分解模型是训练机器学习模型的结果的预测。该方面的其他实施例包括编码在计算机存储设备上的相应的系统、装置和计算机程序,被配置为执行所述方法的动作。
能实现在本说明书中所述的主题的特定实施例以便获得下述优点中的一个或多个。通过因子分解用于在观察的<查询,资源>对上训练的模型的结果的分值预测,能对未被观察(或很少观察)的<查询,资源>对生成该结果的分值预测。在极少见到的查询的情况下,这导致更鲁棒的预测,并且能确保因子分解模型与系统也利用的学习模型一致。在一些实施方式中,对频繁接收的查询,可以预先缓存因子分解模型以在服务时降低系统资源需求。此外,在一些实施方式中,对指示导航查询的<查询,资源>对,例如,寻找单个资源或网站的查询,可以从因子分解和/或从预先缓存省略查询。
在附图和下述描述中阐述了在本说明书中所述的主题的一个或多个实施例的细节。从说明书、附图和权利要求,本主题的其他特征、方面和优点将变得显而易见。
附图说明
图1是因子分解模型用于搜索处理的示例性环境的框图。
图2是用于生成因子分解模型的示例性过程的系统流程图。
图3是用于生成因子分解模型的示例性过程的流程图。
图4是用于基于因子分解模型来预先缓存分值的示例性过程的流程图。
各个图中相同的参考数字和标号指示相同的元件。
具体实施方式
概述
系统学习以用于查询和资源的特征向量的形式的因子分解嵌入,并且使用因子分解嵌入来对用于查询的资源评分。分值指示建模结果,例如,搜索结果的点击的可能性;或应用安装的可能性;或可以使用机器学习过程来从观察的数据生成预测模型的任何其他结果。
在一些实施方式中,系统结合对结果建模的机器学习模型的生成来生成因子分解模型。在观察的查询-资源对上训练机器学习模型。每一查询-资源对对应于相应的查询和响应相应的查询而识别的相应资源。使用机器学习模型来生成分别描述从查询-资源对和用于机器学习模型训练的结果的组分权重取得的至少一对特征的令牌。用于查询-资源对的给定查询和给定资源的结果的可能性基于对应于给定查询和给定资源的令牌的组分权重。
对查询-资源对的查询中的每一个查询,系统生成具有元素的基数的相应查询特征向量。每一元素对应于待学习的特征的查询特征值。同样地,对查询-资源对的资源中的每一个资源,系统生成具有元素的基数的相应资源特征向量。然后,系统训练因子分解模型来学习用于每一查询特征向量的每一元素的查询特征值和用于每一资源特征向量的每一元素的资源特征值。学习用于给定查询和给定资源的查询特征值和资源特征值,使得因子分解模型是训练机器学习模型的结果的预测。在一些实施方式中,因子分解模型基于查询特征向量和资源特征向量的内积来预测训练学习模型的结果。
然后,为通过用于资源的相应索引数据索引,令牌化资源特征向量。可以对查询存储查询特征向量并且在查询时对每一查询检索查询特征向量。可选地,可以在查询时间前,计算基于查询和资源向量的分值并且由搜索系统缓存或在查询时间前对资源索引。
在一些实施方式中,使用用于训练数据的地面真实数据(ground truth data),共同训练机器学习模型和因子分解模型。在其他实施方式中,首先学习机器学习模型,然后学习因子分解模型,使得基于给定查询和给定资源的相应特征向量的输出对机器学习模型的结果建模。
与使用的特定技术无关,因子分解模型能产生用于不训练机器学习模型和/或评分令牌不存在的查询资源对的分值。因此,因子分解模型提供比在观察数据上训练并且取得令牌的机器学习模型更鲁棒的覆盖范围。
在下文中,更详细地描述这些特征和另外的特征。
示例性操作环境
图1是因子分解模型用于搜索处理的示例性环境的框图。诸如互联网的计算机网络102连接发布者系统104、用户设备106和搜索系统110。在线环境100可以包括上千发布者系统104和用户设备106。
发布者系统104能是网站、应用商店、媒体商店或在网络上提供资源的任何其他系统。在网站的情况下,发布者系统104包括与域名相关联并且由一个或多个服务器托管的一个或多个资源105。在应用商店的情况下,发布者系统104托管可以下载到用户设备106的多个应用程序。
资源是能由发布者网站104在网络102上提供并且与资源地址相关联的任何数据。举例来说,资源包括HTML页面、图像、视频和应用。
用户设备106是在用户的控制下并且能够在网络102上请求和接收资源的电子设备。示例性用户设备106包括个人计算机、移动通信设备和能在网络102上发送和接收数据的其他设备。用户设备106通常包括用户应用,诸如Web浏览器,以便于在网络102上发送和接收数据。
为便于搜索这些资源105,搜索系统110通过爬取发布者网站104并且索引由发布者网站104提供的资源来识别资源。索引的数据被存储在索引中。尽管将搜索系统110描述为能从多个发布者搜索资源的一般搜索系统,但下文所述的搜索特征和模型能替代地由发布者实现,例如,应用商店的发布者可以使用搜索系统来仅搜索发布者托管和公开发售的应用。
用户设备106将搜索查询提交给搜索系统110。响应于该查询,搜索系统110使用索引112来识别与查询有关的资源。
搜索引擎120利用生成用于资源的搜索分值的搜索操作,并且基于搜索分值来排名资源。搜索操作量化资源与查询的相关性,并且该量化能基于各种因子。这样的因子包括信息检索(“IR”)分值、用户反馈分值,以及可选地包括每一资源相对于其他资源的单独排名(例如,权威分值)。
除上述评分过程外或代替上述评分过程,还可以使用一个或多个学习模型140来评分资源。例如,如果资源是广告,可以使用预测广告相对于特定查询的点击或选择的学习模型。相反,如果资源是应用,可以使用预测应用的安装的学习模型。此外,在搜索过程中,可以使用多个不同的学习模型,其中,每一结果有助于用于每一资源的整体分值。
假定资源是例如应用、Web页面或用户将受益于搜索结果的列表的其他资源,搜索系统110生成识别资源的搜索结果132并且将搜索结果132返回给用户设备106。对搜索结果的选择将由搜索结果识别的应用提供给用户设备106(或替选地,提供能下载诸如应用的另一资源的页面)。
将从用户设备106提交的查询存储在查询日志114中。将描述响应于用于查询的搜索结果和搜索结果的资源采取的动作的点击数据和其他数据存储在点击日志116中。能使用查询日志114和点击日志116来将由用户设备提交的查询映射到在搜索结果和由用户采取的动作中识别的网页。由此,能由搜索系统使用点击日志116和查询日志114来确定由用户设备提交的查询、响应于查询而采取的动作以及提交查询的频率。这样的信息能用在例如对资源评分和训练学习模型140中。
因子分解模型生成
通常在从学习模型140生成的评分数据中,不反映查询-资源对。这样的查询-资源对的示例是用于长尾查询或第一实例的查询的对、用于新发布的资源的对,或从用来生成模型的训练数据忽略的简单的查询-资源对。由此,系统110包括即使先前未对查询-资源对建模也能预测信息分值的因子分解模型150。因此,替代将每一查询-资源对视作特殊情形并且单独地学习分值,因子分解模型150能对任何任意查询-资源对评分。
尽管在图1中仅示出了一个因子分解模型150,但能使用多个不同的因子分解模型。训练每一因子分解模型150来基于学习模型140的查询-资源对生成相应的学习模型140的结果。例如,能使用预测安装免费应用的学习模型140的训练或分值数据来生成实现类似预测的因子分解模型,能使用用于预测应用的购买的学习模型的训练或分值数据来生成实现类似预测的因子分解模型等。
利用因子分解模型150来将预测输出提供给由搜索引擎120用来响应于查询而评分资源的因子分解评分组件130。在一些实施方式中,因子分解模型学习查询和资源的基本属性集,然后基于查询的属性与资源的属性匹配程度来预测分值。在特定实施方式中,因子分解模型150学习用于每一查询和每一资源的特征向量,并且将查询-资源对的权重计算为它们相应的向量的内积。
图2是用于生成因子分解模型150的示例性过程的系统流图。还参考图3来描述系统流图的操作,图3是用于生成因子分解模型的示例性过程300的流程图。
在操作中,训练系统151包括因子分解器154和模型学习器156。在一些实施方式中,因子分解器154和模型学习器156可以在训练数据上共同训练,以及因子分解器154可以优化学习模型140的预测结果。在其他实施方式中,可以基于学习模型140的评分数据来训练因子分解器154,使得因子分解数据对学习模型140的结果建模。
过程300基于设置的查询-资源对来训练机器学习模型以预测结果(302)。每一查询-资源对对应于相应的查询和响应于相应的查询而识别的相应资源。机器学习模型在一些实施方式中可以生成令牌集。每一令牌描述从查询-资源对取得的至少一对特征和用于训练机器学习模型的结果的组分权重。例如,特定令牌可以是下述形式:
[Q:电子邮件;R:example_page.com;0.7]
令牌指示查询何时包括关键字“电子邮件”以及为用户呈现引用example_page.com的搜索结果,存在结果的组分权重0.7(例如,选择搜索结果,或训练模型140以预测的任何结果)。值0.7可以是用作用于评分的后续搜索过程的输入的值。替选地,值0.9可以是可能性。
令牌的特征不需要限于从查询或资源直接取得的特征。例如,令牌还能包括原产国信息、代理类型、位置、用户设备类型等。例如,另一令牌可以是下述形式:
[Q:电子邮件;R:example_page.com;代理:Chrome;0.7]
其中,附加特征“代理”识别用户用来输入搜索请求的浏览器。
在一些实施方式中,以令牌的形式生成用于学习模型140的学习模型数据142。由一般化形式Tn(QRF(Qx,Ry),Sn)描述令牌,其中,每一QRF(Qx,Ry)是用于查询Qx和资源Ry的查询-资源对的一个或多个特征,以及Sn是用于该特征的组分分值。使用分值Sn来生成用于查询-资源对的给定查询和给定资源的结果的可能性。
如图2所示,能使用用于学习模型140的学习模型数据142来生成用于具有相应的令牌数据TD的每一查询-资源对的预测结果P(Qx,Ry)。能使用因子分解器154来因子分解用于查询-资源对的查询特征和资源特征,以预测建模结果。由此,最终的因子分解模型150能生成用于所有查询-资源对(包括不存在相应的令牌数据TD的那些查询-资源对)的预测结果P(Qx,Ry)。
对查询-资源对的每一查询,过程300生成具有元素的预定基数的相应的查询特征向量(304)。如图2所示,对具有基数m的j个查询,生成查询特征向量Qj(QFj1…QFjm)。可以学习或可以预定义基数。同样地,对查询-资源对的每一资源,过程300生成具有元素的基数的相应的资源特征向量(306)。类似于图2所示,对具有预定基数m的k个资源,生成资源特征向量Rk(RFk1…RFkm)。
不需要预定义特定特征QF和RF,替代地可以在因子分解过程期间发生。在预定义基数的情况下,系统管理可以选择例如10、20或30个元素的集合的基数。选择可以基于模型的期望的鲁棒性、可用的训练资源和可用的查询处理资源。
过程300训练因子分解模型来学习用于每一查询特征向量的每一元素的查询特征值(308),同样地,训练因子分解模型以学习用于每一资源特征向量的每一元素的资源特征值(310)。对值进行学习使得因子分解模型输出基于给定查询和给定资源的相应特征向量来对结果建模。在与机器学习模型共同训练的情况下,建模的结果可以基于训练数据的地面真实标签。在将机器学习模型用作先验的情况下,训练因子分解模型使得基于给定查询和给定资源的查询-资源对来对学习模型的结果建模。此外,除查询-资源令牌外,因子分解器154还可以访问其他查询数据144和资源数据146来训练因子分解模型。
可以使用任何适当的因子分解学习过程来学习因子分解模型150。例如,对具有度为2的因子分解模型,可以使用下述模型等式:
vi和vj是查询和资源向量,以及<vi,vj>是查询向量i和资源向量j的内积。例如,通过用于各种损耗的梯度下降方法,能学习模型参数。
尽管上文描述了2向因子分解模型,也能使用一般化n向因子分解模型。
一旦学习特征值使得因子分解模型150充分地对结果建模,过程300存储查询特征向量和资源特征向量(312)。存储查询特征向量和资源特征向量的因子分解数据152可以由搜索系统110访问以便于查询的资源评分。
在一些实施方式中,当训练因子分解模型150时,可以省略用于导航查询的相应数据。导航查询是特定资源相对于几乎所有其他资源对该查询具有非常高的选择比率的查询。用户的这样的行为指示查询是用户输入以查找特定资源的查询。在其他实施方式中,仅使用被确定为分类查询的查询的相应数据来训练因子分解模型150。分类查询是覆盖宽的主题或类别的查询并且可以有被确定为与查询类似相关性的许多结果。
使用因子分解模型数据的查询处理
如上所述,搜索系统110使用因子分解模型150来评分响应于查询的资源。操作中,对给定查询,基于该查询的查询特征向量和该资源的资源特征向量,生成给定资源的分值。取决于搜索系统110的服务限制,搜索系统110可以在查询时生成具有因子分解模式的分值,或替选地,可以在系统初始化时,预缓存查询-资源分值。
为在查询时生成分值,对给定查询,系统110校验以确定用于该查询的查询特征向量是否存储在因子分解数据中。如果没有,则不使用因子分解模型150。然而,如果找到查询特征向量,则对由搜索系统110评分的每一资源,(或替选地,评分的前N个资源,其中,N为评分资源的真子集(proper subset),诸如例如200,300或400),因子分解模型150基于查询特征向量和用于资源的资源特征向量的内积,生成查询资源分值。例如,可以使用资源的分值来将资源的排名从第一顺序调整到第二不同顺序。
替选地,还能替代使用因子分解模型150生成的分值来响应于查询而选择初始资源集。然后,可以以仅基于因子分解模型分值的顺序,将用于资源的搜索结果返回给用户设备。
在期望缓存的情况下,系统100在索引时或在系统初始化时,预计算查询-资源分值,并且然后缓存分值,使得在查询时能检索。
图4是用于基于因子分解模型来预缓存分值的示例性过程400的流程图。在图4的实施方式中,对查询子集,预缓存分值。
过程400确定在搜索系统处接收的查询的真子集(402)。在一些实施方式中,查询的真子集是相对于在搜索系统处接收的其他查询最流行的查询。例如,可以选择按接收频率的N个最流行查询。也可以使用选择流行查询的其他方法。
过程400根据下述处理步骤406、408、410和412来处理每一查询(404)。首先,过程400确定响应于查询而确定的资源集(406)。例如,搜索系统110可以评分响应于查询的资源。评分不考虑因子分解模型150。
过程400选择用于查询的查询特征向量(408),然后过程400选择用于资源集中的每一资源的资源特征向量(410)。因此,对特定查询,过程400访问查询特征向量和响应于查询而确定的资源的资源特征向量。
对每一资源,过程400基于查询和资源的查询特征向量和资源特征向量的内积来生成相应的查询-资源分值(412)。然后,过程400将用于查询-资源对的相应查询-资源分值存储在搜索系统高速缓存中(414)。
此后,在查询时,对于由搜索系统接收的、与查询集中的查询匹配的每一查询,过程400为搜索操作检索用于该查询的查询-资源分值(416)。由此,使得在查询时,通过最小资源利用,使用于响应于查询而确定的资源的分值可用。
另外的实施方式细节
本文所述的系统收集与用户相关的个人信息或者可以对个人信息加以利用的情况下,用户可以被提供对应用或特征是否收集用户信息(例如,有关用户的社交网络、社交行为或活动、职业、用户的偏好或者用户的当前位置的信息)进行控制、或者对是否和/或如何接收可能与用户更为相关的内容进行控制的机会。此外,某些数据可以在其被存储或使用之前以一种或多种方式进行处理,使得能够去除个人可识别的信息。例如,可以对用户的身份进行处理,使得无法对用户确定个人可识别的信息,或者可以在获得位置信息的情况下对用户的地理位置进行一般化处理(诸如处理为城市、ZIP码或州的级别),使得无法确定用户的特定位置。因此,用户可以对内容服务器如何收集和使用与用户相关的信息加以控制。
该说明书中所述的主题和操作的实施例能够以数字电子电路来实施,或者以计算机软件、固件或硬件来实施,该硬件包括该说明书中所公开的结构及其结构等同物,或者以它们中的一个或多个的组合来实施。该说明书中所公开的主题的实施例能够被实施为一个或多个计算机程序,即编码在计算机存储介质上以便由数据处理装置执行或者控制其操作的一个或多个计算机程序指令模块。
计算机存储介质可以是计算机可读存储设备、计算机可读存储基片、随机或串行存取存储器阵列或设备或者它们中的一个或多个的组合,或者包括于其中。此外,虽然计算机存储介质不是传播信号,但是计算机存储介质可以是编码在人工生成的传播信号中的计算机程序指令的源或目的地。计算机存储介质还可以是一个或多个单独的物理组件或介质(例如,多个CD、盘或其它存储设备),或者包括于其中。
该说明书中所述的操作能够被实施为由数据处理装置对一个或多个计算机可读存储设备上存储或者从其它源接收的数据执行的操作。
术语“数据处理装置”涵盖用于处理数据的所有类型的装置、设备和机器,例如包括可编程处理器、计算机、片上系统或者以上的多个或组合。该装置可以包括专用逻辑电路,例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外,该装置还可以包括为所讨论的计算机程序创建执行环境的代码,例如构成处理器固件、协议栈、数据库管理系统、操作系统、跨平台运行时间环境、虚拟机或者它们中的一个或多个的组合的代码。该装置和执行环境能能够实现各种不同的计算模型架构,诸如web服务、分布式计算和网格计算架构。
计算机程序(也被称作程序、软件、软件应用、脚本或代码)能够以任意形式的编程语言进行编写,包括编译或解释语言、声明或过程语言,并且其可以以任意形式被部署,包括作为独立程序或者作为适于在计算环境中使用的模块、组件、子例程、对象或其它单元。计算机程序可以对应于文件系统中的文件,但是并非需要如此。程序可以存储在保存其它程序或数据的文件的一部分(例如,标记语言文档中所存储的一个或多个脚本)中,存储在专用于所讨论的程序的单个文件中,或者存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。计算机程序能够被部署为在一台计算机上执行或者在位于一个地点或跨多个地点分布并且通过通信网络互连的多台计算机上执行。
该说明书中所述的过程和逻辑流程能够由一个或多个可编程处理器来执行,其执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行动作。过程和逻辑流程也能够由例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)的专用逻辑电路执行,并且装置也可以被实施为该专用逻辑电路。
适于计算机程序的执行的处理器包括例如通用和专用微处理器,以及任意类型的数字计算机的任意一个或多个处理器。通常,处理器将从只读存储器或随机存取存储器或者其二者接收指令和数据。计算机的必要元件为用于依据指令执行动作的处理器以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个大容量存储设备,例如,磁盘、磁光盘或光盘,或者操作地耦合以从其接收数据或向其传送数据或者其二者。然而,计算机不需要具有这样的设备。此外,计算就可以嵌入另一设备之中,仅给出几个示例,例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器、或者便携式存储设备(例如,通用串行总线(USB)闪存驱动器)。适于存储计算机程序指令和数据的设备包括所有形式的非易失性存储器、介质和存储器设备,例如包括例如EPROM、EEPROM和闪存设备的半导体存储器设备;例如内部硬盘或可移动盘的磁盘;磁光盘;以及CD-ROM和DVD-ROM盘。处理器和存储器可以被补充以特殊用途的逻辑电路或者合并于其中。
为了提供与用户的交互,本说明书中所述的主题的实施例能够在具有用于向用户显示信息的显示设备以及用户能够通过其向计算机提供输入的键盘和指示设备的计算机上实施,所述显示设备例如CRT(阴极射线管)或LCD(液晶显示器)监视器,所述指示设备例如鼠标或轨迹球。也能够使用其它类型的设备来提供与用户的交互;例如,提供给用户的反馈可以为任意形式的感知反馈,例如视觉反馈、听觉反馈或触觉反馈;并且来自用户的输入能够以任意形式被接收,包括声音、语音或触觉输入。此外,计算机能够通过向用户所使用的设备发送文档并且从其接收文档来与用户进行交互;例如,通过响应于从web浏览器接收的请求而向用户的用户设备上的web浏览器发送网页。
本说明书中所述的主题的实施例能够在计算机系统中实施,该计算机系统包括例如作为数据服务器的后端组件,或者包括例如应用服务器的中间件组件,或者包括例如用户计算机的前端组件,或者一个或多个这样的后端、中间件或前端组件的任意组合,所述用户计算机具有用户能够通过其与本说明书中所述的主题的实施方式进行交互的图形用户界面或web浏览器。该系统的组件能够通过例如通信网络的任意形式或介质的数字数据通信进行互连。通信网络的示例包括局域网(LAN)和广域网(WAN)、交互网络(例如,互联网)以及端对端网络(例如,自组端对端网络)。
计算系统可以包括用户和服务器。用户和服务器通常彼此远离并且通常通过通信网络进行交互。用户和服务器的关系源自于在相应计算机上运行并且互相具有用户-服务器关系的计算机程序。在一些实施例中,服务器向用户设备传送数据(例如,HTML页面)(例如,出于向与用户设备交互的用户显示数据并且从其接收用户输入的目的)。能够在服务器从用户设备接收在用户设备处生成的数据(例如,用户交互的结果)。
虽然该说明书包含许多特定实施细节,但是这些不应当被理解为对任何特征以及所要求保护的内容的范围进行限制,而是作为特定于特定实施例的特征的描述。该说明书中在分立实施例的上下文中描述的某些特征也能够在单个实施例中以组合形式来实施。相反,在单个实施例的上下文中描述的各种特征也能够单独或以任意适当子组合在多个实施例中实施。此外,虽然特征可以在上面被描述为以某种组合进行工作并且甚至最初要求如此,但是来自所要求的组合的一个或多个特征在一些情况下可以从该组合去除,并且所要求的组合可以针对子组合或子组合的变化。
类似地,虽然操作在图中以特定顺序进行描绘,但是这不应当被理解为要求这样的操作以所示出的特定顺序或以连续顺序来执行,或者所有所图示的操作都要被执行以实现所期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,以上所述的实施例中的各种系统组件的划分不应当被理解为在所有实施例中都要求这样的划分,并且应当理解的是,所述的程序组件和系统通常能够一起集成在单个软件产品中或者被封装到多个软件产品中。
因此,已经对该主题的特定实施例进行了描述。其它实施例在所附权利要求的范围内。在一些情况下,权利要求中记载的动作可以以不同顺序来执行并且仍然实现所期望的结果。此外,附图中所描绘的过程不必然要求所示出的特定顺序或连续顺序以实现所期望的结果。在某些实施方式中,多任务和并行处理可能是有利的。
Claims (17)
1.一种由数据处理装置执行的计算机实现的方法,所述方法包括:
训练机器学习模型以预测结果,所述训练是对查询-资源对集进行的,其中,每一查询-资源对对应于相应查询和被观察为响应于所述相应查询而识别的相应资源,所述训练生成多个令牌,每个令牌描述从所述查询-资源对取得的至少一对特征和用于训练所述机器学习模型的结果的组分权重,以及其中,用于查询-资源对的给定查询和给定资源的结果的可能性基于与所述给定查询和给定资源相对应的令牌的组分权重;
对所述查询-资源对集的查询中的每一个查询,生成具有元素的基数的相应查询特征向量,每一元素与待学习的特征的查询特征值相对应;
对所述查询-资源对集的资源中的每一个资源,生成具有所述元素的基数的相应资源特征向量,每一元素与待学习的特征的资源特征值相对应;
训练因子分解模型以学习用于每一查询特征向量的每一元素的查询特征值和用于每一资源特征向量的每一元素的资源特征值,使得所述因子分解模型输出基于给定查询和给定资源的相应特征向量来预测训练所述机器学习模型的结果;
确定作为在搜索系统处接收的查询的真子集的查询集合;
对所述查询集合中的每一查询:
确定响应于所述查询而确定的资源的集合;
选择用于所述查询的查询特征向量;
选择用于所述资源的集合中的每一资源的资源特征向量;
基于所述查询和资源的所述查询特征向量和所述资源特征向量的内积来生成相应查询-资源分值;
将用于所述查询-资源对的所述相应查询-资源分值存储在搜索系统高速缓存中;以及
对与所述查询集合中的查询匹配的、由所述搜索系统接收的每一查询,为搜索操作检索用于所述查询的所述查询-资源分值。
2.如权利要求1所述的计算机实现的方法,其中,所述因子分解模型基于所述查询特征向量和所述资源特征向量的内积来预测所述结果。
3.如权利要求1所述的计算机实现的方法,其中,所述查询特征和所述资源特征从训练所述因子分解模型产生。
4.如权利要求1所述的计算机实现的方法,其中,生成具有元素的基数的相应查询特征向量包括仅对不是导航查询的查询来生成相应查询特征向量。
5.如权利要求1所述的计算机实现的方法,其中,生成具有元素的基数的相应查询特征向量包括仅对为分类查询的查询来生成相应查询特征向量。
6.如权利要求1所述的计算机实现的方法,其中,确定作为查询的真子集的查询集合包括确定相对于在所述搜索系统处接收的其他查询是最流行的查询的集合。
7.如权利要求1所述的计算机实现的方法,进一步包括:
对来自用户设备的查询,接收识别响应于所述查询而确定并且根据第一顺序排名的资源的集合的数据;
对每一资源,基于从所述因子分解模型学习的用于查询的查询特征向量和从所述因子分解模型学习的用于资源的资源特征向量的内积,从所述因子分解模型确定结果的可能性;
至少部分基于确定的结果的可能性,调整所述资源的排名,使得根据第二顺序来对所述资源的集合排名;以及
根据第二顺序将识别所述资源的数据提供给所述用户设备。
8.如权利要求7所述的计算机实现的方法,其中,所述资源是应用,以及所述结果是将应用安装在所述用户设备上。
9.如权利要求7所述的计算机实现的方法,其中,所述资源是音频文件,以及所述结果是用户对音频文件的购买。
10.如权利要求7所述的计算机实现的方法,其中:
对每一资源,基于从所述因子分解模型学习的用于查询的查询特征向量和从所述因子分解模型学习的用于资源的资源特征向量的内积,从所述因子分解模型确定结果的可能性包括:仅对未训练所述机器学习模型的查询-资源对确定可能性;以及
所述方法进一步包括从所述机器学习模型确定用于训练所述机器学习模型的每一查询-资源对的结果的可能性。
11.一种编码有计算机程序的计算机可读存储介质,所述程序包括在由数据处理装置执行时使所述数据处理装置执行包括以下操作的指令:
训练机器学习模型以预测结果,所述训练是对查询-资源对集进行的,其中,每一查询-资源对对应于相应查询和被观察为响应于所述相应查询而识别的相应资源,所述训练生成多个令牌,每个令牌描述从所述查询-资源对取得的至少一对特征和用于训练所述机器学习模型的结果的组分权重,以及其中,用于查询-资源对的给定查询和给定资源的结果的可能性基于与所述给定查询和给定资源相对应的令牌的组分权重;
对所述查询-资源对集的查询中的每一个查询,生成具有元素的基数的相应查询特征向量,每一元素与待学习的特征的查询特征值相对应;
对所述查询-资源对集的资源中的每一个资源,生成具有所述元素的基数的相应资源特征向量,每一元素与待学习的特征的资源特征值相对应;
训练因子分解模型以学习用于每一查询特征向量的每一元素的查询特征值和用于每一资源特征向量的每一元素的资源特征值,使得因子分解模型输出基于给定查询和给定资源的相应特征向量来预测训练所述机器学习模型的结果;
确定作为在搜索系统处接收的查询的真子集的查询集合;
对所述查询集合中的每一查询:
确定响应于所述查询而确定的资源的集合;
选择用于所述查询的查询特征向量;
选择用于所述资源的集合中的每一资源的资源特征向量;
基于所述查询和资源的所述查询特征向量和所述资源特征向量的内积来生成相应查询-资源分值;
将用于所述查询-资源对的所述相应查询-资源分值存储在搜索系统高速缓存中;以及
对与所述查询集合中的查询匹配的、由所述搜索系统接收的每一查询,为搜索操作检索用于所述查询的所述查询-资源分值。
12.一种用于生成预测模型的系统,包括:
数据处理装置;以及
编码有计算机程序的计算机可读存储介质,所述程序包括在由所述数据处理装置执行时使所述数据处理装置执行包括下述的操作的指令:
访问被训练以预测结果的机器学习模型,所述训练是对查询-资源对集进行的,其中,每一查询-资源对对应于相应查询和被观察为响应于所述相应查询而识别的相应资源,所述训练生成描述从所述查询-资源对取得的至少一对特征和用于训练所述机器学习模型的结果的组分权重的多个令牌,以及其中,用于查询-资源对的给定查询和给定资源的结果的可能性基于与所述给定查询和给定资源相对应的令牌的组分权重;
对所述查询-资源对的查询中的每一个查询,生成具有元素的基数的相应查询特征向量,每一元素与待学习的特征的查询特征值相对应;
对所述查询-资源对的资源中的每一个资源,生成具有所述元素的基数的相应资源特征向量,每一元素与待学习的特征的资源特征值相对应;
训练因子分解模型以学习用于每一查询特征向量的每一元素的查询特征值和用于每一资源特征向量的每一元素的资源特征值,使得因子分解模型输出基于给定查询和给定资源的相应特征向量来预测训练所述机器学习模型的结果;
确定作为在搜索系统处接收的查询的真子集的查询集合;
对所述查询集合中的每一查询:
确定响应于所述查询而确定的资源的集合;
选择用于所述查询的查询特征向量;
选择用于所述资源的集合中的每一资源的资源特征向量;
基于所述查询和资源的所述查询特征向量和所述资源特征向量的内积来生成相应查询-资源分值;
将用于所述查询-资源对的所述相应查询-资源分值存储在搜索系统高速缓存中;以及
对与所述查询集合中的查询匹配的、由所述搜索系统接收的每一查询,为搜索操作检索用于所述查询的所述查询-资源分值。
13.如权利要求12所述的系统,其中,所述因子分解模型基于所述查询特征向量和所述资源特征向量的内积来预测所述结果。
14.如权利要求12所述的系统,其中,所述查询特征和所述资源特征从训练所述因子分解模型产生。
15.如权利要求12所述的系统,其中,生成具有元素的基数的相应查询特征向量包括仅对不是导航查询的查询来生成相应查询特征向量。
16.如权利要求12所述的系统,其中,生成具有元素的基数的相应查询特征向量包括仅对为分类查询的查询来生成相应查询特征向量。
17.如权利要求12所述的系统,其中,所述资源是应用,以及所述结果是将应用安装在用户设备上。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/820,751 | 2015-08-07 | ||
US14/820,751 US10102482B2 (en) | 2015-08-07 | 2015-08-07 | Factorized models |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106446005A CN106446005A (zh) | 2017-02-22 |
CN106446005B true CN106446005B (zh) | 2020-08-18 |
Family
ID=56571226
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610644602.XA Active CN106446005B (zh) | 2015-08-07 | 2016-08-08 | 因子分解模型 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10102482B2 (zh) |
EP (1) | EP3128448A1 (zh) |
CN (1) | CN106446005B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9836527B2 (en) * | 2016-02-24 | 2017-12-05 | Google Llc | Customized query-action mappings for an offline grammar model |
US10437841B2 (en) * | 2016-10-10 | 2019-10-08 | Microsoft Technology Licensing, Llc | Digital assistant extension automatic ranking and selection |
US10503908B1 (en) * | 2017-04-04 | 2019-12-10 | Kenna Security, Inc. | Vulnerability assessment based on machine inference |
CN108984574B (zh) * | 2017-06-05 | 2021-01-05 | 北京嘀嘀无限科技发展有限公司 | 数据处理方法及装置 |
US11068802B2 (en) * | 2017-06-29 | 2021-07-20 | Facebook, Inc. | High-capacity machine learning system |
CN110324170B (zh) * | 2018-03-30 | 2021-07-09 | 华为技术有限公司 | 数据分析设备、多模型共决策系统及方法 |
US11204973B2 (en) | 2019-06-21 | 2021-12-21 | Microsoft Technology Licensing, Llc | Two-stage training with non-randomized and randomized data |
US11204968B2 (en) * | 2019-06-21 | 2021-12-21 | Microsoft Technology Licensing, Llc | Embedding layer in neural network for ranking candidates |
US11163845B2 (en) | 2019-06-21 | 2021-11-02 | Microsoft Technology Licensing, Llc | Position debiasing using inverse propensity weight in machine-learned model |
US11397742B2 (en) | 2019-06-21 | 2022-07-26 | Microsoft Technology Licensing, Llc | Rescaling layer in neural network |
CN111340522B (zh) * | 2019-12-30 | 2024-03-08 | 支付宝实验室(新加坡)有限公司 | 资源推荐方法、装置、服务器及存储介质 |
US11704312B2 (en) * | 2021-08-19 | 2023-07-18 | Microsoft Technology Licensing, Llc | Conjunctive filtering with embedding models |
US20230169077A1 (en) * | 2021-12-01 | 2023-06-01 | International Business Machines Corporation | Query resource optimizer |
US11921692B1 (en) * | 2022-09-16 | 2024-03-05 | Capital One Services, Llc | Computer-based systems configured for automatically updating a database based on an initiation of a dynamic machine-learning verification and methods of use thereof |
CN115496170B (zh) * | 2022-11-17 | 2023-02-17 | 中南民族大学 | 一种人体姿态识别方法、系统、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103593373A (zh) * | 2012-08-16 | 2014-02-19 | 北京百度网讯科技有限公司 | 一种用于搜索结果排序的方法与设备 |
CN103593353A (zh) * | 2012-08-15 | 2014-02-19 | 阿里巴巴集团控股有限公司 | 信息搜索方法、展示信息排序权重值确定方法及其装置 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7542966B2 (en) * | 2002-04-25 | 2009-06-02 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for retrieving documents with spoken queries |
US7412425B2 (en) | 2005-04-14 | 2008-08-12 | Honda Motor Co., Ltd. | Partially supervised machine learning of data classification based on local-neighborhood Laplacian Eigenmaps |
US8015190B1 (en) * | 2007-03-30 | 2011-09-06 | Google Inc. | Similarity-based searching |
US20090248661A1 (en) * | 2008-03-28 | 2009-10-01 | Microsoft Corporation | Identifying relevant information sources from user activity |
US8051072B2 (en) * | 2008-03-31 | 2011-11-01 | Yahoo! Inc. | Learning ranking functions incorporating boosted ranking in a regression framework for information retrieval and ranking |
US20110029517A1 (en) * | 2009-07-31 | 2011-02-03 | Shihao Ji | Global and topical ranking of search results using user clicks |
US20110191313A1 (en) | 2010-01-29 | 2011-08-04 | Yahoo! Inc. | Ranking for Informational and Unpopular Search Queries by Cumulating Click Relevance |
WO2012034606A2 (en) | 2010-09-15 | 2012-03-22 | Telefonica, S.A. | Multiverse recommendation method for context-aware collaborative filtering |
US8924314B2 (en) | 2010-09-28 | 2014-12-30 | Ebay Inc. | Search result ranking using machine learning |
US9443028B2 (en) * | 2010-12-11 | 2016-09-13 | Microsoft Technology Licensing, Llc | Relevance estimation using a search satisfaction metric |
US20140180760A1 (en) | 2011-03-18 | 2014-06-26 | Telefonica, S.A. | Method for context-aware recommendations based on implicit user feedback |
US9594851B1 (en) * | 2012-02-07 | 2017-03-14 | Google Inc. | Determining query suggestions |
US20140156231A1 (en) | 2012-11-30 | 2014-06-05 | Xerox Corporation | Probabilistic relational data analysis |
CN105868847A (zh) * | 2016-03-24 | 2016-08-17 | 车智互联(北京)科技有限公司 | 一种购物行为的预测方法及装置 |
-
2015
- 2015-08-07 US US14/820,751 patent/US10102482B2/en active Active
-
2016
- 2016-08-04 EP EP16182717.5A patent/EP3128448A1/en not_active Ceased
- 2016-08-08 CN CN201610644602.XA patent/CN106446005B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103593353A (zh) * | 2012-08-15 | 2014-02-19 | 阿里巴巴集团控股有限公司 | 信息搜索方法、展示信息排序权重值确定方法及其装置 |
CN103593373A (zh) * | 2012-08-16 | 2014-02-19 | 北京百度网讯科技有限公司 | 一种用于搜索结果排序的方法与设备 |
Also Published As
Publication number | Publication date |
---|---|
US20170039483A1 (en) | 2017-02-09 |
CN106446005A (zh) | 2017-02-22 |
EP3128448A1 (en) | 2017-02-08 |
US10102482B2 (en) | 2018-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106446005B (zh) | 因子分解模型 | |
US10783156B1 (en) | Scoring candidate answer passages | |
CA2771088C (en) | Context based resource relevance | |
JP5436665B2 (ja) | 同時選択画像の分類 | |
US8615514B1 (en) | Evaluating website properties by partitioning user feedback | |
US8326826B1 (en) | Navigational resources for queries | |
US8856146B2 (en) | Device for determining internet activity | |
US10019513B1 (en) | Weighted answer terms for scoring answer passages | |
US11086866B2 (en) | Method and system for rewriting a query | |
US10146775B2 (en) | Apparatus, system and method for string disambiguation and entity ranking | |
US8838587B1 (en) | Propagating query classifications | |
US8819004B1 (en) | Ranking image search results using hover data | |
US11789946B2 (en) | Answer facts from structured content | |
US9251202B1 (en) | Corpus specific queries for corpora from search query | |
US9195944B1 (en) | Scoring site quality | |
US8682892B1 (en) | Ranking search results | |
CN114846463A (zh) | 可重复查询的识别和发布 | |
US9514194B1 (en) | Website duration performance based on category durations | |
US20150227583A1 (en) | Managing search results | |
US9996624B2 (en) | Surfacing in-depth articles in search results | |
Rathod et al. | A personalized mobile search engine based on user preference | |
CN110990725B (zh) | 基于距离的搜索排名降级 | |
Rawat | Focused crawling: an approach for URL queue optimization using link score |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: American California Applicant after: Google limited liability company Address before: American California Applicant before: Google Inc. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |