CN109196527A

CN109196527A - 广度和深度机器学习模型

Info

Publication number: CN109196527A
Application number: CN201680085769.5A
Authority: CN
Inventors: T.谢克德; R.阿尼尔; H.B.阿拉德耶; M.伊斯皮尔; G.安德森; 柴玮; M.L.科克; J.哈姆森; X.刘; G.S.科拉多; T.D.钱德拉; 郑恒之
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-04-13
Filing date: 2016-12-28
Publication date: 2019-01-11
Also published as: KR20200106566A; US20170300814A1; KR102155261B1; KR20180120240A; JP2019517057A; JP6758406B2; EP4068165A1; WO2017180208A1; EP3427193A1; US10762422B2; KR102240662B1; US20200372359A1

Abstract

一种系统包括一个或多个计算机以及一个或多个存储设备，该一个或多个存储设备存储指令，当由计算机执行所述指令时使计算机实施组合机器学习模型来处理输入以生成预测的输出。所述组合模型包括：深度机器学习模型，其被配置为处理特征以生成深度模型输出；广度机器学习模型，其被配置为处理特征以生成广度模型输出；和组合层，其被配置为处理由深度机器学习模型生成的深度模型输出和由广度机器学习模型生成的广度模型输出以生成预测的输出。通过包括深度机器学习模型以及广度机器学习模型两者，组合机器学习模型能够获得记忆和范化两种益处，并且因此能够在从输入特征预测输出时执行得更好。

Description

广度和深度机器学习模型

相关申请的交叉引用

本申请要求于2016年4月13日提交的美国临时申请序列号62/322,161的优先权。在先申请的公开被视为本申请的一部分并且在本申请的公开中通过引用被合并。

背景技术

本说明书涉及使用机器学习模型来处理输入。

机器学习模型接收输入并且基于所接收的输入来生成输出——例如，预测的输出。一些机器学习模型是参数模型并且基于所接收的输入和模型的参数的值来生成输出。

一些机器学习模型是深度模型，其采用多个层的模型来为所接收的输入生成输出。例如，深度神经网络包括输出层和每个均向所接收的输入应用非线性变换以生成输出的一个或多个隐藏层。

发明内容

本说明书描述用于实施广度和深度(wide and deep)机器学习模型(即，包括广度机器学习模型和深度机器学习模型两者的组合机器学习模型)的系统和方法。

通常，本说明书中所描述的主题的一个创新方面能够被体现在包括一个或多个计算机和一个或多个存储设备的系统中，该一个或多个存储设备存储指令，当一个或多个计算机执行所述指令时使一个或多个计算机实施组合机器学习模型以用于处理包括多个特征的机器学习输入以为机器学习输入生成预测的输出。组合机器学习模型能够包括：深度机器学习模型，其被配置为处理特征以生成深度模型中间预测的输出；广度机器学习模型，其被配置为处理特征以生成广度模型中间预测的输出；以及，组合层，其被配置为处理由深度机器学习模型生成的深度模型中间预测的输出和由广度机器学习模型.生成的广度模型中间预测的输出以生成预测的输出，其中已经关于训练数据联合地训练深度机器学习模型和广度机器学习模型以生成深度模型中间预测的输出和广度模型中间预测的输出。

上文和其他实施例能够每个均可选地单独地或组合地包括以下特征中的一个或多个。特征能够是内容呈现设置的特征，并且其中，预测的输出是用于内容呈现设置的预测的输出。内容呈现设置的特征能够包括将在内容呈现设置中呈现的内容项的特征，并且其中，用于内容呈现设置的预测的输出表示如果在内容呈现设置中呈现内容项则特定目标将被满足的可能性。组合层能够是逻辑回归层，其被配置为处理由深度机器学习模型生成的深度模型中间预测的输出和由广度机器学习模型生成的广度模型中间预测的输出以生成分数，该分数表示如果在内容呈现设置中呈现内容项则特定目标将被满足的可能性。用于内容呈现设置的预测的输出能够是关于预先确定的集合内容项中的每个内容项的相应的分数，并且其中，每个相应的分数表示如果在内容呈现设置中呈现对应的内容项则特定目标将被满足的相应的可能性。组合层能够是软最大化层，其被配置为处理由深度机器学习模型生成的深度模型中间预测的输出和由广度机器学习模型生成的广度模型中间预测的输出以生成关于内容项的预先确定的集合中的每个内容项的相应的分数。特征能够包括用户特征，该用户特征表征在内容呈现设置中内容项将被呈现给的用户。特征能够包括表征内容呈现设置的情境的情境信息。深度模型能够包括深度神经网络。深度模型可以包括嵌入层，该嵌入层被配置为将特征中的每一个映射到特征的相应的数值嵌入。广度模型能够是广义线性模型。广度模型可以被配置为处理特征以及从特征生成的变换的特征以生成广度模型中间输出。广度模型中间输出和深度模型中间输出能够是对数几率输出。

通常，本说明书中所描述的主题的另一个创新方面能够被体现在存储指令的一个或多个计算机存储介质中，当指令由一个或多个计算机执行时使一个或多个计算机实施如上所述的组合机器学习模型。

本说明书中所描述的主题的另一个创新方面能够被体现在以上描述的训练组合机器学习模型的方法中。该方法能够包括以下动作：获取训练数据，该训练数据对于多个训练输入中的每一个，包括(i)训练输入的特征，和(ii)用于该训练输入的已知的输出；以及对于训练输入中的每一个：使用深度机器学习模型处理训练输入的特征以根据深度机器学习模型的参数的当前值来生成用于训练输入的深度模型中间预测的输出；使用广度机器学习模型处理训练输入的特征以根据广度机器学习模型的参数的当前值来生成用于训练输入的广度模型中间预测的输出；使用组合层处理深度模型中间预测的输出和用于训练输入的广度模型中间预测的输出以生成用于训练输入的预测的输出；通过组合层向广度机器学习模型和深度机器学习模型反向传播从用于训练输入的预测的输出与用于训练输入的已知的输出之间的误差确定的梯度以联合地调整深度机器学习模型和广度机器学习模型的参数的当前值。

上文和其他实施例能够每个均可选地单独地或组合地包括以下特征中的一个或多个。该方法能够包括使用小批量随机优化来调整深度机器学习模型和广度机器学习模型的参数的当前值的动作。该方法能够包括使用具有L1正则化的跟随正则化前导(FTLR)算法来调整广度机器学习模型的参数的当前值的动作。该方法能够包括使用具有自适应学习速率的随机梯度优化来调整深度机器学习模型的参数的当前值的动作。

本说明书中所描述的主题的另一个创新方面能够被体现在存储指令的一个或多个计算机存储介质中，当指令由一个或多个计算机执行时使一个或多个计算机执行在以上描述的方法的操作。

本说明书中所描述的主题的另一个创新方面能够被体现在一个或多个计算机和存储指令的一个或多个存储设备中，当指令由该一个或多个计算机执行时使一个或多个计算机执行在以上描述的方法的操作。

能够实施本说明书中所描述的主题的特定实施例以便实现以下优点中的一个或多个。通常，广度机器学习模型能够通过叉积特征变换的广度集合记忆特征交互，并且深度机器学习模型能够通过向输入特征应用嵌入功能来概括看不见的特征组合。通过包括深度机器学习模型以及广度机器学习模型两者，广度和深度机器学习模型能够获得记忆(memorization)和范化(generalization)两种益处，并且因此能够关于从输入特征的集合预测输出执行得更好。

本说明书的主题的一个或多个实施例的详情在附图和以下具体实施方式中被阐述。根据具体实施方式、附图，和权利要求，该主题的其他特征、方面，以及优点将变得明显。

附图说明

图1是广度和深度机器学习模型的示例的框图。

图2是用于使用广度和深度的学习模型来生成预测的输入的示例处理的流程图。

图3是用于训练包括广度和深度的学习模型的机器学习系统的示例处理的流程图。

在各个图中的相同附图标记和标号指示相同的要素。

具体实施方式

图1是包括深度机器学习模型104、广度机器学习模型106，和组合层134的广度和深度机器学习模型102的示例的框图。广度和深度机器学习模型102接收包括例如特征108-122的多个特征的模型输入，并且处理特征以为模型输入生成预测的输出，例如，预测的输出136。

举例来说，模型输入能够是词(word)的序列，并且特征108-122能够包括表示序列中的词的词块(token)以及表征序列中的词的其他特征。在该示例中，预测的输出136可以是例如特定词是序列中的下一个词的可能性或者关于序列中的特定词的语音(speech)的部分或者词义(word sense)的预测。

在另一个示例中，特征108-122能够包括内容呈现设置(content presentationsetting)的特征，并且预测的输出136能够是用于内容呈现设置的预测的输出。

在一些情况下，特征108-122能够包括内容项的特征，并且用于内容呈现设置的预测的输出136可以是表示如果在内容呈现设置中呈现内容项则特定目标将被满足的可能性的分数。

在一些情况下，特征108-122能够包括用户特征，该用户特征表征在内容呈现设置中内容项将被呈现给的用户。

在一些情况下，特征能够包括表征内容呈现设置的情境的情境信息。

在一些这些情况中，用于内容呈现设置的预测的输出136是关于多个内容项的预先确定的集合中的每个内容项的相应的分数，其中每个相应的分数表示如果在内容呈现设置中呈现对应的内容项则特定目标将被满足的相应的可能性。

例如，内容项呈现设置可以是对由用户递交的搜索查询的响应。例如，搜索查询可以是向因特网搜索引擎递交的搜索查询，并且内容项可以是识别被包括在对搜索查询的响应中的作为候选的因特网资源的因特网搜索结果或者与在对搜索查询的响应中的因特网搜索结果一起被显示的作为候选的第三方内容项。作为另一个示例，搜索查询可以是向在线app商店递交的搜索查询，并且内容项可以是标识响应于搜索查询所显示的作为候选的在线app商店上可用的app的app搜索结果。

作为另一个示例，内容项呈现设置可以是因特网资源中的特定位置，例如，web页面，并且内容项可以是在因特网资源中的特定位置显示的作为候选的第三方内容项。

作为另一个示例，内容项呈现设置可以是内容推荐设置，例如，其中特定类型的内容项被呈现给用户并且用户可能感兴趣的特定类型的其他内容项的推荐也可以被呈现给用户的设置。

在该示例中，由组合模型打分的内容项可以是用于推荐给用户的作为候选的内容项。例如，可以通过在线视频共享服务将视频呈现给用户。与所呈现的视频一起，也可以通过视频共享服务向用户呈现用户可能感兴趣的其他视频的缩略图。作为另一个示例，可以将标识通过在线市场出售的产品的产品页呈现给用户，并且产品页还可以包括到用户可能感兴趣的其他产品的产品页的链接。

特定目标可以是涉及在内容呈现设置中呈现给定内容项的结果的各种目标中的任何一个。

例如，特定目标可以是用户选择在内容呈现设置中被呈现的内容项。在该情况下，关于给定内容项的分数表示如果在内容呈现设置中呈现内容项则用户将点击或以另外方式选择该内容项的可能性。

作为另一个示例，特定目标可以是在查看在内容呈现设置中被呈现的内容项之后用户执行一个或多个指定的动作，例如，购买物件。在该情况下，关于给定内容项的分数表示如果在内容呈现设置中呈现给定内容项则用户将执行指定的动作之一的可能性。

作为另一个示例，特定目标可以是通过在内容呈现设置中显示内容项不会不利地影响用户参与。在该情况下，关于给定内容项的分数表示如果在内容呈现设置中呈现给定内容项则用户参与度量的值或者用户参与度量的值的改变。用户参与度量可以是测量用户关于呈现的内容项的参与的任何适当的度量。

深度机器学习模型104是包括嵌入层150和深度神经网络130的深度模型。在一些实施方式中，嵌入层被包括在深度神经网络130中。嵌入层150包括嵌入功能的集合，例如，嵌入功能124-128。深度神经网络130包括多个层的操作，其至少一个层向接收的输入应用非线性变换以生成输出。

具体地，深度机器学习模型104被配置为处理广度和深度的学习模型102的模型输入中所包括的第一集合的特征以生成深度模型中间预测的输出。例如，深度机器学习模型104被配置为处理第一集合的特征108-114。嵌入层能够向第一集合的特征108-114中的一个或多个应用嵌入功能。例如，嵌入层150向特征110-114应用嵌入功能124-128。在一些情况下，由嵌入层处理的特征是稀疏的分类特征，诸如用户特征(例如，国家、语言，和人口统计学特征)、情境特征(例如，设备、该日的时段，和星期几)，以及印象特征(例如，app时长、app的历史统计信息)。不由嵌入层处理的其他特征可以包括连续特征，诸如软件应用的安装编号。嵌入功能124-128中的每一个向特征110-114中的每一个应用变换，该变换将特征110-114中的每一个映射到相应的数值嵌入，例如特征的浮点向量呈现。数值嵌入能够包括一个或多个浮点值或其编码表示浮点值的一个或多个量化的整数值。以下将参考图2更详细地描述嵌入功能。

深度神经网络130接收来自嵌入层的数值嵌入，以及可选地其他输入特征(例如，特征108)来作为输入。深度神经网络130包括每个均向所接收的输入应用非线性变换以生成深度模型中间预测的输出的操作的多个(例如，三个或更多)层。因此，深度神经网络130向数值嵌入和其他输入特征应用多个非线性变换以生成输入的替换表示，即，深度模型中间预测的输出。

广度机器学习模型106是广而浅的模型，例如，广义线性模型138，其被配置为处理广度和深度的学习模型102的模型输入中所包括的第二集合的特征(例如，特征116-122)并且生成广度模型中间预测的输出。在一些实施方式中，第二集合的特征中的一些特征可以与第一集合的特征中的一些特征重叠。在一些其他实施方式中，第二集合的特征可以完全地不同于第一集合的特征。

在一些实施方式中，广度机器学习模型106被配置为处理第二集合的特征中的原始输入特征(例如，特征120和122)和例如使用叉积特征变换132从其他特征(例如，特征116-118)生成的变换的特征两者，以生成广度模型中间输出。在一些情况下，向分类特征应用叉积特征变换132。对于二值特征，如果构成特征全部是1，则叉积变换是1，并且否则其是0。该变换能够捕捉二值化分类特征之间的交互，并且向广义线性模型添加非线性。

每个中间输出中的每个值能够例如是对数几率(log odds)输出、概率值，或者其它种类的数值。

组合机器学习模型102也包括组合层134，其被配置为处理由深度机器学习模型104生成的深度模型中间预测的输出以及由广度机器学习模型106生成的广度模型中间预测的输出以生成预测的输出136。在其中预测的输出是单个分数的实施方式中，组合层可以是逻辑回归层。在其中预测的输出包括多个分数的实施方式中，组合层可以是软最大化(softmax)层。

图2是用于使用广度和深度学习模型来生成预测的输入的示例处理200的流程图。为了方便起见，将把处理200描述为通过位于一个或多个位置的一个或多个计算机的系统来执行。

系统获取输入的特征(步骤202)。如上所述，特征中的每一个可以包括表示序列中的词的一个词块或多个词块以及表征序列中的词的其他特征。根据每个特征中所包括的词块的数量，特征中的每一个可以是不同的类型。

系统使用深度机器学习模型来处理所获取的特征中的第一集合的特征以生成深度模型中间预测的输出(步骤204)。如上所述，深度机器学习模型包括深度神经网络和包括嵌入功能的嵌入层。在一些实施方式中，系统向第一集合的特征的子集应用嵌入层。具体地，系统使用用于子集中的特征的特征类型中的每一个的嵌入功能中的每一个以生成特征的数值嵌入，例如，浮点向量表示。根据特征类型和实施方式，用于给定特征类型的嵌入功能能够是各种嵌入功能中的任何一个。

例如，对于特征由单个词块组成的特征类型，嵌入功能可以是简单的嵌入功能。简单的嵌入功能将单个词块映射到浮点向量，即，浮点值的向量。例如，简单的嵌入功能可以例如使用特定查找表、基于当前参数值将词块“cat”映射到向量[0.1、0.5、0.2]并且将词“iPod”映射到向量[0.3、0.9、0.0]。

作为另一个示例，对于特征能够由两个或更多词块的列表组成的特征类型，嵌入功能可以是并行的嵌入功能。并行的嵌入功能将词块的列表中的每个词块映射到相应的浮点向量并且输出作为相应的浮点向量的级联的单个向量。例如，对于词块的有序列表{“Atlanta”、“Hotel”}，并行的嵌入功能可以将“Atlanta”映射到向量[0.1、0.2、0.3]并且将“Hotel”映射到[0.4、0.5、0.6]，并且然后输出[0.1、0.2、0.3、0.4、0.5、0.6]。为了识别相应的浮点向量，并行的嵌入功能可以使用单个查找表或多个不同的查找表。

作为另一个示例，对于特征可能能够由两个或更多词块的列表组成的特征类型，嵌入功能可以是组合嵌入功能。组合嵌入功能将列表中的每个词块映射到相应的浮点向量并且然后将相应的浮点向量合并到单个合并的向量中。组合嵌入功能例如能够使用线性函数(例如，相应的浮点向量的和、平均，或加权线性组合)或使用非线性函数(例如，分量方式最大()或者范数约束线性组合)来合并相应的浮点向量。为了识别相应的浮点向量，并行的嵌入功能可以使用单个查找表或多个不同的查找表。例如，对于有序列表{“Atlanta”、“Hotel”}，并行的嵌入功能可以将“Atlanta”映射到向量[0.1、0.2、0.3]并且将“Hotel”映射到[0.4、0.5、0.6]，并且然后输出两个向量的和，即，[0.5、0.7、0.9]。

作为另一个示例，对于特征可能能够由两个或更多词块的列表组成的特征类型，嵌入功能可以是混合嵌入功能。混合嵌入功能将词块的列表中的每个词块映射到相应的浮点向量并且生成作为相应的浮点向量的级联的初始向量。混合嵌入功能然后将相应的浮点向量合并到合并的向量中并且将合并的向量与初始向量级联。例如，对于有序列表{“Atlanta”、“Hotel”}，混合嵌入功能可以输出由并行的嵌入功能和组合嵌入功能所输出的向量的级联，即，[0.1、0.2、0.3、0.4、0.5、0.6、0.5、0.7、0.9]。

根据实施方式，系统可以对于两个不同的特征类型使用两个不同种类的嵌入功能，并且两个嵌入功能可以或可以不共用参数。例如，系统可以对于第一特征类型使用组合嵌入功能并且对于第二特征类型利用混合嵌入功能。

如果特征中的一个或多个不是离散的，则在使用嵌入功能处理特征之前，系统使用散列函数来对每个非离散的特征进行散列。系统然后能够将每个散列的特征划分到预先确定的集合的分区中，并且使用用于该特征的嵌入功能来处理与分区相对应的值。另外地，如果不能获取特定特征，则系统能够将该特征映射到预先确定的值。

在一些实施方式中，替代浮点值，给定嵌入功能可以生成不同种类的数值。例如，嵌入功能可以生成其编码表示浮点值的量化的整数值。

系统使用深度网络来处理数值嵌入(例如，浮点向量表示)，以及可选地，一个或多个原始输入特征。深度神经网络能够是例如图1的深度神经网络130。深度网络包括具有包括非线性变换的至少一个层的多个层。能够基于相应集合的参数的值来定义非线性变换。例如，深度网络能够包括一个或多个隐藏神经网络层以及稀疏二值输出层，例如，在每个位置输出是0或1的向量的层。通常，深度网络基于第一集合的特征中的特征的子集的浮点向量表示以及剩余特征，来生成输入的替换表示作为深度模型中间预测的输出。

系统使用广度机器学习模型来处理来自所获取的特征的第二集合的特征以生成广度模型中间预测的输出(步骤206)。在一些实施方式中，第二集合的特征可以与第一集合的特征重叠。在一些其他实施方式中，第二集合的特征可以不同于第一集合的特征。系统能够向第二集合的特征的子集应用叉积特征变换以生成变换的特征。系统然后能够使用广度模型来处理第二集合的特征中的原始输入特征和通过使用叉积特征变换从其他特征生成的变换的特征两者来生成广度模型中间输出。广度模型能够是具有定义原始输入特征和变换的特征的多个参数的广义线性模型。系统能够向原始输入特征和变换的特征应用广义线性模型来生成广度模型中间输出。

系统使用组合层来处理深度模型输出和广度模型输出以生成预测的输出(步骤208)。通常，组合层例如通过计算两个输出的和或者加权和来将深度模型输出和广度模型输出组合以生成组合的输出，并且然后从组合的输出生成预测的输出。在其中预测的输出是单个分数的实施方式中，系统能够使用逻辑回归层作为组合层来处理深度模型输出和广度模型输出。在其中预测的输出包括多个分数的实施方式中，系统能够使用软最大化层作为组合层来处理深度模型输出和广度模型输出。

图3是用于训练包括广度和深度的学习模型的机器学习系统的示例处理300的流程图。为了方便起见，将把处理300描述为通过位于一个或多个位置的一个或多个计算机的系统来执行。

为了确定广度模型的和深度模型的参数的训练值，系统在训练数据上训练组合模型。

在一些实施方式中并且如图3中所描述的，系统联合地训练广度模型和深度模型。

系统获取训练数据(步骤302)，该训练数据对于多个训练输入中的每一个包括(i)训练输入的特征和对于该训练输入的已知输出。

系统然后通过，对于训练输入中的每一个，使用深度机器学习模型处理训练输入的特征以根据深度机器学习模型的参数的当前值来生成用于训练输入的深度模型中间预测的输出，来训练组合模型(步骤304)。

系统使用广度机器学习模型处理训练输入的特征以根据广度机器学习模型的参数的当前值来生成用于训练输入的广度模型中间预测的输出(步骤306)。

系统然后使用组合层来处理深度模型中间预测的输出和用于训练输入的广度模型中间预测的输出以生成用于训练输入的预测的输出(步骤308)。

系统然后确定用于训练输入的预测的输出与用于该训练输入的已知输出之间的误差。另外，系统通过组合层向广度机器学习模型和深度机器学习模型反向传播从误差确定的梯度以在减小误差的方向上联合地调整深度机器学习模型和广度机器学习模型的参数的当前值(步骤310)。此外，通过后向传播的方法，系统能够通过后向传播的相继的级向深度学习模型发送误差信号，该误差信号允许深度学习模型调整的其内部组件(例如，深度神经网络和嵌入功能的集合)的参数。系统也能够向广度学习模型发送误差信号以允许广度学习模型调整广义线性模型的参数。

通常，在这些实施方式中，系统使用小批量随机优化(mini-batch stochasticoptimization)来训练深度机器学习模型和广度机器学习模型。例如，系统能够使用具有L1正则化的跟随正则化前导(Follow-the-regularized-leader，FTLR)算法来训练广度机器学习模型，并且使用具有自适应学习速率的随机梯度优化来在第二训练数据上训练深度机器学习模型。

在一些其他实施方式中，系统首先独立于组合模型在一个集合的训练数据上训练广度模型，并且然后作为组合模型的一部分，在相同或可能不同的训练数据上训练深度模型。

也就是说，系统首先在训练数据上训练广度模型，而不考虑由深度模型生成的中间输出。

在这些其他实施方式中，在训练广度模型之后，并且对于用于训练深度模型的训练数据中的每个训练输入，系统使用深度机器学习模型处理这些训练输入的特征以根据深度机器学习模型的参数的当前值来生成用于该训练输入的深度模型中间预测的输出、使用广度机器学习模型处理这些训练输入的特征以根据广度机器学习模型的参数的训练值来生成用于训练输入的广度模型中间预测的输出，并且使用组合层处理用于训练输入的深度模型中间预测的输出和广度模型中间预测的输出以生成用于训练输入的预测的输出。系统然后通过组合层向深度机器学习模型反向传播从用于训练输入的预测的输出与用于训练输入的已知的输出之间的误差确定的梯度以调整深度机器学习模型的参数的当前值，即，在保持广度模型的参数的训练值固定的同时。

在又一些其他实施方式中，系统首先独立于组合模型在一个集合的训练数据上训练深度模型，并且然后作为组合模型的一部分在相同或可能不同的训练数据上训练广度模型。

也就是说，系统首先在训练数据上训练深度模型，而不考虑由广度模型生成的中间输出。

在这些其他实施方式中，在训练深度模型之后并且对于用于训练深度模型的训练数据中的每个训练输入，系统使用广度机器学习模型处理训练输入的特征以根据广度机器学习模型的参数的当前值来生成用于训练输入的广度模型中间预测的输出、使用深度机器学习模型处理训练输入的特征以根据深度机器学习模型的参数的训练值来生成用于训练输入的深度模型中间预测的输出，并且使用组合层来处理用于训练输入的广度模型中间预测的输出和深度模型中间预测的输出以生成用于训练输入的预测的输出。系统然后通过组合层向广度机器学习模型反向传播从用于训练输入的预测的输出与用于训练输入的已知的输出之间的误差确定的梯度以调整广度机器学习模型的参数的当前值，即，在保持深度模型的参数的训练值固定的同时。

对于被配置为执行特定操作或动作的一个或多个计算机的系统，意味着系统已经在其上安装了在操作中使系统执行操作或动作的软件、固件、硬件，或者它们的组合。对于被配置为执行特定操作或动作的一个或多个计算机程序，意味着一个或多个程序包括当由数据处理装置执行时使装置执行操作或动作的指令。

能够在数字电子电路中、在有形地体现的计算机软件或固件中、在计算机硬件(包括在本说明书中公开的结构和它们的结构等同物)中或者在它们中的一个或多个的组合中实施本说明书中所描述的主题和功能操作的实施例。本说明书中所描述的主题的实施例能够被实施为一个或多个计算机程序，即，在有形非暂时性程序载体上编码的用于由数据处理装置执行，或者控制数据处理装置的操作的计算机程序指令的一个或多个模块。替换地，或者另外地，能够在人工生成的传播信号——例如，机器生成的电子光学，或者电磁信号上编码程序指令，该信号被生成以对用于传输到适当的接收机装置以供数据处理装置执行的信息进行编码。计算机存储媒介能够是机器可读存储设备、机器可读取的存储基片、随机或串行存取存储器设备，或者它们中的一个或多个的组合。然而，计算机存储媒介不是传播的信号。

术语“数据处理装置”包含用于处理数据的种种装置、设备，和机器，作为示例，其包括可编程处理器、计算机，或者多个处理器或计算机。装置能够包括专用逻辑电路——例如，FPGA(现场可编程门阵列)或者ASIC(专用集成电路)。除硬件之外，装置还能够包括产生用于在讨论中的计算机程序的执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统，或者它们中的一个或多个的组合的代码。

能够以任何形式的编程语言(包括编译或解释性语言，或者说明性或过程语言)来编写计算机程序(其也可以被称为或描述为程序、软件、软件应用、模块、软件模块、脚本，或者代码)，并且能够以任何形式(包括作为独立程序或作为模块、组件、子程序，或者适合于在计算环境中使用的其他单元)来部署计算机程序。计算机程序可以但是不需要对应于文件系统中的文件。程序能够被存储在保持其他程序或数据的文件的一部分(例如，存储在标记语言文档中的一个或多个脚本)中、存储在专用于讨论中的程序的单个文件中，或者存储在多个坐标文件(例如，存储一个或多个模块、子程序或者代码的数个部分的文件)中。计算机程序能够被部署为在位于一个站点上或者分布在多个站点上的一个计算机上或多个计算机上执行并且通过通信网络被互连。

如在本说明书中使用的，“引擎、”或“软件引擎”指的是提供不同于输入的输出的软件实施的输入/输出系统。引擎能够是功能的编码块，诸如库、平台、软件开发套件(“SDK”)，或对象。能够在包括一个或多个处理器和计算机可读介质的任何适当类型的计算设备(例如，服务器、移动式电话、平板式计算机、笔记本式计算机、音乐播放器、电子书阅读器、膝上计算机或台式计算机、PDA、智能电话，或者其他固定或便携式设备)上实施每个引擎。另外地，可以在同一计算设备上或者在不同的计算设备上实施两个或更多引擎。

能够通过一个或多个可编程计算机执行一个或多个计算机程序以通过对输入数据进行操作并且生成输出以执行功能来执行本说明书中所描述的处理和逻辑流。也能够通过专用逻辑电路——例如，FPGA(现场可编程门阵列)或者ASIC(专用集成电路)来执行处理和逻辑流，并且装置也能够被实施为专用逻辑电路--例如，FPGA(现场可编程门阵列)或者ASIC(专用集成电路)。

适于计算机程序的执行的计算机包括(举例来说，能够基于)通用或专用微处理器或两者，或者任何其他种类的中央处理单元。通常，中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的必要元件是用于执行或实现指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机将也可以包括用于存储数据的一个或多个大容量存储设备(例如，磁盘、磁光盘，或光盘)，或被操作地耦合以从用于存储数据的一个或多个大容量存储设备(例如，磁盘、磁光盘，或光盘)接收数据或者向其传递数据，或两者。然而，计算机不需要具有此类设备。而且，计算机能够被嵌入在另一个设备中，例如，移动电话、个人数字助理(PDA)、移动音频或视频播放机、游戏控制台、全球定位系统(GPS)接收机，或者便携式存储设备(例如，通用串行总线(USB)闪盘驱动)，仅举几例。

适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，举例来说，包括半导体存储器设备，例如，EPROM、EEPROM，和闪速存储器设备；磁盘，例如，内部硬盘或可活动磁盘；磁光盘；以及CD-ROM和DVD-ROM磁盘。处理器和存储器能够被专用逻辑电路补充，或者被合并在专用逻辑电路中。

为了为与用户的交互作准备，能够在具有用于向用户显示信息的，例如CRT(阴极射线管)或LCD(液晶显示器)监视器的显示设备以及通过其用户能够向计算机提供输入的键盘和定点设备(例如，鼠标或跟踪球)的计算机上实施本说明书中所描述的主题的实施例。其他种类的设备也能够用于为与用户的交互作准备；例如，向用户提供的反馈能够是任何形式的感测反馈，例如，视觉反馈、听觉反馈，或者触觉反馈；并且能够以包括声学、讲话，或者触觉输入的任何形式接收来自用户的输入。另外，计算机能够通过向由用户使用的设备发送文档以及从由用户使用的设备接收文档；——例如通过响应于从web浏览器接收到的请求向用户的客户端设备上的web浏览器发送web页面来与用户交互。

能够在计算系统中实施本说明书中所描述的主题的实施例，该计算系统包括例如作为数据服务器的后端组件，或包括例如应用服务器的中间件组件，或包括例如具有通过其用户能够理由本说明书中所描述的主题的实施方式进行交互的图形用户界面或者web浏览器的客户端计算机的前端组件，或者一个或多个此类后端、中间件，或前端组件的任何组合。能够通过数字数据通信的任何形式或媒介——例如，通信网络来将系统的组件互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)，例如，因特网。

计算系统能够包括客户端和服务器。客户端和服务器通常远离彼此并且典型地通过通信网络进行交互。借助于在相应的计算机上运行的并且彼此具有客户端服务器关系的计算机程序，客户端和服务器的关系出现。

尽管本说明书包含许多特定实施方式详情，但这些不应当被理解为关于任何发明的范围或可以要求保护什么的限制，而宁可说是被理解为可以特定于特定发明的特定实施例的特征的描述。也能够在单个实施例中组合地实施在单独实施例的上下文中在本说明书中所描述的某些特征。相反地，也能够分开地或在多个实施例中或以任何适当的子组合来实施在单个实施例的上下文中被描述的各种特征。而且，尽管特征可以在以上被描述为在某些组合中起作用并且甚至因此最初被要求保护，但来自所要求保护的组合的一个或多个特征能够在某些情况下从组合中被切除，并且所要求保护的组合可以涉及子组合或子组合的变体。

类似地，尽管以特定次序在附图中描绘了操作，但这不应当被理解如要求以示出的特定次序或以相继次序来执行此类操作，或为了实现理想的结果要执行所有所图示的操作。在某些情况下，多任务和并行处理可以是有利的。而且，在上面描述的实施例中的各种系统模块和组件的分开不应当被理解为在所有实施例中要求此类分开，并且应当理解，所描述的程序组件和系统能够通常在单个软件产品中被集成在一起或被封装到多个软件产品中。

已经描述了主题的特定实施例。其他实施例处于所附权利要求的范围内。例如，能够以不同的次序执行在权利要求中叙述的动作并且仍然实现理想的结果。作为一个示例，为了实现理想的结果，在附图中描绘的处理不一定要求所示出的特定次序，或者连续次序。在某些实施方式中，多任务和并行处理可以是有利的。

Claims

1.一种包括一个或多个计算机以及一个或多个存储设备的系统，所述一个或多个存储设备存储指令，当所述一个或多个计算机执行所述指令时使所述一个或多个计算机实施用于处理包括多个特征的机器学习输入的以生成用于所述机器学习输入的预测的输出的组合机器学习模型，所述组合机器学习模型包括：

深度机器学习模型，其被配置为处理所述特征以生成深度模型中间预测的输出；

广度机器学习模型，其被配置为处理所述特征以生成广度模型中间预测的输出；以及

组合层，其被配置为处理所述由深度机器学习模型生成的深度模型中间预测的输出和所述由广度机器学习模型生成的广度模型中间预测的输出以生成预测的输出，

其中，已经在训练数据上联合地训练了所述深度机器学习模型和所述广度机器学习模型以生成所述深度模型中间预测的输出和所述广度模型中间预测的输出。

2.根据权利要求1所述的系统，其中，所述特征是内容呈现设置的特征，并且其中，所述预测的输出是用于所述内容呈现设置的预测的输出。

3.根据权利要求2所述的系统，其中，所述内容呈现设置的特征包括将在所述内容呈现设置中呈现的内容项的特征，并且其中，用于所述内容呈现设置的预测的输出表示如果在所述内容呈现设置中呈现所述内容项则特定目标将被满足的可能性。

4.根据权利要求3所述的系统，其中，所述组合层是逻辑回归层，所述逻辑回归层被配置为处理所述由深度机器学习模型生成的深度模型中间预测的输出和所述由广度机器学习模型生成的广度模型中间预测的输出以生成表示如果在所述内容呈现设置中呈现所述内容项则所述特定目标将被满足的可能性的分数。

5.根据权利要求2所述的系统，其中，所述用于内容呈现设置的预测的输出是关于内容项的预先确定的集合中的每个内容项的相应的分数，并且其中，每个相应的分数表示如果在所述内容呈现设置中呈现对应的内容项则特定目标将被满足的相应的可能性。

6.根据权利要求5所述的系统，其中，所述组合层是软最大化层，所述软最大化层被配置为处理所述由深度机器学习模型生成的深度模型中间预测的输出和所述由广度机器学习模型生成的广度模型中间预测的输出以生成关于内容项的预先确定的集合中的每个内容项的相应的分数。

7.根据权利要求2-6中的任何一项所述的系统，其中，所述特征包括用户特征，所述用户特征表征在所述内容呈现设置中内容项将被呈现给的用户。

8.根据权利要求2-7中的任何一项所述的系统，其中，所述特征包括表征所述内容呈现设置的情境的情境信息。

9.根据权利要求1-8中的任何一项所述的系统，其中，所述深度模型包括深度神经网络。

10.根据权利要求9所述的系统，其中，所述深度模型包括嵌入层，所述嵌入层被配置为将所述特征中的每一个映射到所述特征的相应的数值嵌入。

11.根据权利要求1-10中的任何一项所述的系统，其中，所述广度模型是广义线性模型。

12.根据权利要求11所述的系统，其中，所述广度模型被配置为处理所述特征以及从所述特征生成的变换的特征以生成广度模型中间输出。

13.根据权利要求中1-12的任何一项所述的系统，其中，所述广度模型中间输出和所述深度模型中间输出时对数几率输出。

14.指令，例如存储在一个或多个计算机存储介质上，当所述指令由一个或多个计算机执行时，使所述一个或多个计算机实施权利要求1-13中的任何一项的组合机器学习模型。

15.一种训练权利要求1-13中的任何一项的组合机器学习模型的方法，所述方法包括：

获取训练数据，所述训练数据对于多个训练输入中的每一个包括(i)训练输入的特征以及(ii)用于该训练输入的已知的输出；以及

对于所述训练输入中的每一个：

使用所述深度机器学习模型处理所述训练输入的特征以根据所述深度机器学习模型的参数的当前值来生成用于所述训练输入的深度模型中间预测的输出；

使用所述广度机器学习模型处理所述训练输入的特征以根据所述广度机器学习模型的参数的当前值来生成用于所述训练输入的广度模型中间预测的输出；

使用所述组合层处理用于所述训练输入的所述深度模型中间预测的输出和所述广度模型中间预测的输出以生成用于所述训练输入的预测的输出；

通过所述组合层向所述广度机器学习模型和所述深度机器学习模型反向传播从用于所述训练输入的预测的输出与用于所述训练输入的已知的输出之间的误差确定的梯度以联合地调整所述深度机器学习模型和所述广度机器学习模型的参数的当前值。

16.根据权利要求15所述的方法，进一步包括使用小批量随机优化来调整所述深度机器学习模型和所述广度机器学习模型的参数的当前值。

17.根据权利要求15或16中的任何一项所述的方法，进一步包括使用具有L1正则化的跟随正则化前导(FTLR)算法来调整所述广度机器学习模型的参数的当前值。

18.根据权利要求15-17中的任何一项所述的方法，进一步包括使用具有自适应学习速率的随机梯度优化来调整所述深度机器学习模型的参数的当前值。

19.指令，例如存储在一个或多个计算机存储介质上，当由一个或多个计算机执行所述指令时，使所述一个或多个计算机执行权利要求15-18中的任何一项的相应方法的操作。

20.一个或多个计算机以及一个或多个存储设备，所述一个或多个存储设备存储指令，当由一个或多个计算机执行所述指令时使所述一个或多个计算机执行权利要求15-18中的任何一项的相应方法的操作。