CN105144164A

CN105144164A - 使用深度网络对概念术语评分

Info

Publication number: CN105144164A
Application number: CN201480023391.7A
Authority: CN
Inventors: 陈凯; 宋晓丹; 格雷戈里·S·科拉多; 张锟; 杰弗里·A·迪安; 巴赫曼·拉比
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2013-03-13
Filing date: 2014-03-13
Publication date: 2015-12-09
Anticipated expiration: 2034-03-13
Also published as: US20140279773A1; CN105144164B; AU2014201827B2; US9514405B2; US20160012331A1; WO2014160344A1; US9141906B2; AU2014201827A1; EP2973023A1

Abstract

一种使用深度网络对概念术语进行评分的方法、系统和装置，包括计算机存储介质上编码的计算机程序。方法中的一个包括接收包括资源的多个特征的输入，其中每个特征是资源的相应属性的值；使用相应嵌入函数处理每个特征，以生成一个或多个数值；处理数值，以生成资源的特征的替选表示，其中处理所述数值包括将一个或多个非线性变换应用到所述数值；以及处理输入的替选表示，以生成预定概念术语组中的每个概念术语的相应相关分值，其中每个相应相关分值测量对应的概念术语与资源的预测相关性。

Description

使用深度网络对概念术语评分

背景技术

互联网资源(例如，网页、图像、文本文档、多媒体内容)可以包括描述任何各种各样概念的内容。

发明内容

本说明书涉及使用深度网络识别与资源相关的概念术语。

在一般性方面1，一种由一个或多个计算机执行的方法，所述方法包括：接收包括资源的多个特征的输入，其中每个特征是资源的相应属性的值；使用相应嵌入函数处理每个特征，以生成一个或多个数值；处理数值，以生成资源的特征的替选表示，其中处理所述数值包括将一个或多个非线性变换应用到所述数值；以及处理输入的替选表示，以生成预定概念术语组中的每个概念术语的相应相关性分值，其中每个相应相关性分值测量对应概念术语与资源的预测相关性。

根据方面1的方面2，其中，每个嵌入函数特定于相应特征类型的特征，其中，每个嵌入函数接收相应类型的特征，并且将变换应用到特征，根据嵌入函数参数组将特征映射到数值表示。

根据方面1或2中的任何一个的方面3，进一步包括：响应于接收将要进行在线广告拍卖以选择用于包括在资源的特定呈现中的一个或多个广告的指示，获得资源的多个特征。

根据方面1至3中的任何一个的方面4，进一步包括：基于相关性分值选择概念术语中的一个或多个作为在选择参与在线广告拍卖的候选广告时使用的广告关键字。

根据方面1至4中的任何一个的方面5，进一步包括：过滤与资源不是相同语言的概念术语。

根据方面1至5中的任何一个的方面6，进一步包括：过滤具有超过阈值的词频逆文档频率(TF-IDF)分值的概念术语。

根据方面1至6中的任何一个的方面7，其中，所述数值是浮点值。

根据方面1至7中的任何一个的方面8，其中，所述数值是量化整数值，并且其中，量化整数值的编码表示浮点值。

在一般性方面9中，一种用于训练系统预测预定概念术语组中的每一个与资源的相关性的计算机实现的方法，其中，所述系统包括嵌入函数层、一个或多个神经网络层和分类器，其中，所述方法包括：获得识别训练资源的数据和用于每个训练资源的一个或多个相应关联概念术语；对于每个训练资源指定用于分类器生成的相应预测输出的输出标准；以及基于每个训练资源的相应特征和指定的输出标准来训练嵌入函数层、神经网络层和分类器，其中每个特征是资源的相应属性的值。

根据方面9的方面10，其中，指定输出标准包括：对于每个训练资源，指定为与训练资源相关联的概念术语生成的相关性分值应超过为多个概念术语中与训练资源不相关联的其他概念术语的随机样本生成的相关性分值。

根据方面9或10中的任何一个的方面11，进一步包括：获得识别用户查看的训练资源的数据；获得识别用户在查看训练资源的阈值时间窗口内选择的第一资源中的广告的数据；以及将在第一资源中放置广告所使用的关键字与用户查看的训练资源相关联作为概念术语。

这些方面的其他实施例包括相应的计算机系统、装置和在一个或多个计算机存储设备上记录的计算机程序，每个都被配置为执行方法的动作。

在本说明书中描述的主题的特定实施例可以实现为达到下述优点中的一个或多个。深度网络可以有效并可靠地用于预测与资源相关的概念术语。一旦训练完，深度网络可以用于预测新资源(即，深度网络先前未知的资源)的相关概念术语。深度网络可以由此利用机器学习方案更快更有效地处理新数据资源。例如，深度网络可以用于选择与资源相关的关键字(例如，广告关键字)。使用深度网络来选择关键字可以导致更相关的搜索结果(例如，广告)被包括在资源中，例如，通过增加为参与将一个或多个结果(例如，广告)放置到资源中进行的在线内容选择过程(例如，广告拍卖)选择的结果(例如，广告)与资源的相关性。

在附图和以下描述中阐述了本说明书的主题的一个或多个实施例的细节。本主题的其它特征，方面和优点将从说明书、附图和权利要求变得显而易见。

附图说明

图1是示例概念术语评分系统的框图。

图2是用于对概念术语评分的示例过程的流程图。

图3是训练概念术语评分系统的示例过程的流程图。

在各个附图中，相同的参考标号和标记指示相同的元素。

具体实施方式

图1是示例概念术语评分系统100的框图。概念术语评分系统100是在一个或多个位置的一个或多个计算机上被实现为计算机程序的系统的示例，其中可以实现下面描述的系统、组件和技术。

概念术语评分系统100接收输入，并且基于接收的输入生成预测输出。具体地，输入是资源的一组特征，并且概念术语评分系统100基于输入生成的输出是一组概念术语中的每一个的相应分值。该组概念术语是预定的，并且表示已经被确定为与系统相关的或资源集合的概念。为概念术语生成的分值是概念术语的每一个与资源的相关程度的预测。例如，概念术语可以是用于选择参与在线广告拍卖的广告的关键字。

资源的特征是资源的相应属性的值，其以某种方式表征资源，并且可以包括多个相应明确区分的特征类型的特征。特定类型的特征是从特征类型的可能活动特征元素的词汇表选择的一个或多个活动特征元素的列表，即令牌或令牌值对的列表。例如，令牌可以是自然语言，例如英语，特征类型的词汇表可以是自然语言中已知的词。特征类型的词汇表可以重叠或不重叠，并且给定特征类型的列表可以有序或无序。

例如，概念术语评分系统100可以从特征数据存储102接收特征120。例如，特征120可以是响应于接收将要进行在线广告拍卖以选择将被包括在资源的特定呈现中的一个或多个广告的指示而已经从特定资源提取的各种特征类型的特征。例如，资源的特征可以包括任何下述的：资源的统一资源定位符(URL)、资源的域名、资源的发布者的标识符、由识别与资源相关的类别或实体类型的概念评分系统100获得的数据、资源中出现最频繁的术语等。资源的特征也可以包括从汇总资源的内容或效用的其它系统或服务获得的特征，例如，尝试识别资源中的最重要术语的系统，识别与资源相关的实体的系统等。

概念术语评分系统100使用接收的输入特性来预测输出。输出可以存储在评分的概念术语数据存储114中或用于一些直接的目的。具体地，输出是分值的向量，其包括概念术语组中的每一个的相应分值。在在线广告的上下文中，例如，在输入特征是将要对其进行在线广告拍卖的资源的特征的情况下，概念术语评分系统100可以生成用于概念术语组中的每一个的分值，所述概念术语可以用作用于选择参与拍卖的广告的广告关键字。

概念术语评分系统100包括深度网络106和分类器112。深度网络使用一组机器学习算法，其尝试通过使用由一个或多个非线性变换构成的体系结构对数据中的结构或抽象建模或模拟。具体地，深度网络是机器学习系统，其包括输入和输出层之间的一个或多个隐藏层。每个隐藏层根据参数组对从深度网络中的先前层接收的输入应用相应的非线性变换，并且将非线性变换的结果提供给深度网络中的下一层。隐藏层提供抽象的水平，从而增加深度网络的建模能力。深度网络106包括一组嵌入函数108和一个或多个隐藏人工神经网络层110，每一个都具有相应的一组参数。每个嵌入函数108接收相应类型的相应特征，并且根据参数组对特征应用变换，其将特征映射到数值表示。例如，嵌入函数108可以对特征120应用变换，以将特征映射到浮点表示122。下面将参照图2更加详细地描述嵌入函数。

神经网络层110的初始层接收嵌入函数生成的输入特征的浮点表示作为输入，并且神经网络层110每个对浮点表示应用一个或多个相应的非线性变换，以生成输入的替选表示。替选表示是通过对输入的初始数值表示应用一个或多个非线性变换生成的输入的数值表示，例如，通过嵌入函数108生成的表示。例如，神经网络层110可以从自嵌入函数108接收的特征120的浮点表示122生成替选表示124。每个神经网络层是人工节点的集合，其接收输入并且从输入计算输出，即，根据参数组通过对输入应用非线性变换从输入计算输出。输出随后被馈送到其他神经网络层或深度网络的其它组件。代替或除神经网络层110，深度网络106可以包括另一组层，其在嵌入函数108生成的浮点表示的部分或全部上应用连续线性或非线性变换。

分类器112接收深度网络106生成的替选表示，并且根据分类器112的参数值预测概念分值向量的每个字段的值。概念分值向量中的每个字段对应于概念术语组中的相应概念术语。例如，分类器112可以从替选表示124生成概念分值向量126。分类器112可以是任何多类或者多标记分类器，例如，多类逻辑回归分类器、多类支持向量机分类器、贝叶斯分类器等。在一些实施方式中，代替分类器112，概念术语评分系统100可以包括排名函数，其基于替选表示124对概念术语进行排名。例如，排名函数可以是铰链损失排名函数、成对排名函数等。

图2是用于对概念术语评分的示例过程200的流程图。为了方便，过程200将被描述为通过位于一个或多个位置的一个或多个计算机的系统来执行。例如，适当编程的概念术语评分系统(例如，图1的概念术语评分系统100)可以执行过程200。

系统获得资源的特征(步骤202)。如上所述，特征是令牌或令牌值对的有序或无序列表。每个特征是相应的特征类型，即从特征类型的可能活动特征元素的词汇表选择的构成特征的令牌或令牌值对的列表。

系统使用用于特征的特征类型的嵌入函数对每个特征进行处理(步骤204)，以生成特征的浮点向量表示。根据特征类型和实现方式，用于给定特征类型的嵌入函数可以是各种嵌入功能中的任何一个。系统通过解析由系统为每个资源接收的原始输入数据来确定特征的类型。例如，如果给定资源的原始输入数据的一部分是“URL:www.examplesite.com”，则系统可以解析输入数据，以确定资源特征中的一个是www.examplesite.com，并且特征是URL特征类型。

例如，对于特征由单个令牌构成的特征类型，嵌入功能可以是简单的嵌入函数。简单的嵌入函数将单个令牌映射到浮点向量，即浮点值的向量。例如，简单的嵌入函数可以基于嵌入函数的当前参数值，例如，存储在查找表中，将令牌“cat”映射到向量[0.1,0.5,0.2]，以及将令牌“tablet”映射到[0.3,0.9,0.0]。

作为另一示例，对于特征可能由两个或多个令牌的列表构成的特征类型，嵌入函数可以是并行嵌入函数。并行嵌入函数将令牌列表中的每个令牌映射到相应的浮点向量，并且输出单个向量，该单个向量是相应浮点向量的串联。例如，对于令牌的有序列表{"Atlanta","Hotel"}，并行嵌入函数可以将"Atlanta"映射到向量[0.1,0.2,0.3]，将"Hotel"映射到[0.4,0.5,0.6]，然后输出[0.1,0.2,0.3,0.4,0.5,0.6]。为了获得相应的浮点向量，并行嵌入函数可以使用单个查找表或多个不同的查找表。

作为另一示例，对于特征可能由两个或多个令牌的列表构成的特征类型，嵌入函数可以是组合嵌入函数。组合嵌入函数将列表中的每个令牌映射到相应的浮点向量，然后将相应的浮点向量合并成单个合并向量。组合嵌入函数可以使用线性函数(例如求和，平均、或者相应浮点向量的加权线性组合)，或使用非线性函数，例如，组件按位最大或规范约束的线性组合，合并相应浮点向量。为了识别相应的浮点向量，并行嵌入函数可以使用单个查找表或多个不同的查找表。例如，对于有序列表{"Atlanta","Hotel"}，并行嵌入函数可以将"Atlanta"映射到向量[0.1,0.2,0.3]，将"Hotel"映射到[0.4,0.5,0.6]，然后输出两个向量的和，即，[0.5,0.7,0.9]。

作为另一示例，对于特征可能由两个或更多个令牌的列表构成的特征类型，嵌入函数可以是混合嵌入函数。混合嵌入函数将令牌的列表中的每个令牌映射到相应的浮点向量，并且生成初始向量，该初始向量是相应浮点向量的串联。然后混合嵌入函数将相应的浮点向量合并成合并的向量，并且将合并的向量与初始向量串联。例如，对于有序列表{"Atlanta","Hotel"}，混合嵌入函数可以输出并行嵌入函数和组合嵌入函数输出的向量串，即[0.1,0.2,0.3,0.4,0.5,0.6,0.5,0.7,0.9]。

根据实现方式，系统可以对于两种不同的特征类型利用两种不同类型的嵌入函数，并且两个嵌入函数可以共享参数或可以不共享参数。例如，系统可以对于第一特征类型利用组合嵌入函数以及对于第二特征类型利用混合嵌入函数。

如果资源的一个或多个特征不是离散的，则在使用嵌入函数处理特征之前，系统使用散列函数来散列每个非离散特征。然后，系统可以将每个散列的特征划分成预定的分区组中的一个，并且使用用于特征的嵌入函数处理与分区对应的值。此外，如果对于给定资源不能获得特定特征，则系统可以将该特征映射到预先确定的值。

在一些实现方式中，代替浮点值，给定的嵌入函数可以生成不同种类的数值。例如，嵌入函数可以生成量化的整数值，其编码表示浮点值。

系统使用一个或多个神经网络层处理浮点向量表示(步骤206)。一个或多个神经网络层包括非线性变换的一个或多个层，基于相应的参数组的值来定义每个变换。通常，一个或多个神经网络层基于输入的特征的浮点向量表示来生成输入的替选表示。可选地，系统然后可以使用稀疏二进制输出层，例如在每个位置上输出是0或1的向量的层，来处理替选表示。在RuslanSalakhutdinov和GeoffreyHinton,Semantichashing的InternationalJournalofApproximateReasoning50(2009)969-978中描述了使用神经网络层处理浮点表示的示例技术。然而，可以使用许多不同的用于使用神经网络层来处理表示的技术和机制。

系统使用分类器处理输入的替选表示(步骤208)，以预测概念术语组中的每一个的输出。分类器基于参数组的值和替选表示来预测输出。给定概念术语的输出是对应于概念术语的变量的值的预测，即，表示通过术语描述的概念与资源的预测相关性的概念术语的分值。在一些实现方式中，系统可以使用排名函数代替分类器来处理输入的替选表示，以根据与概念的预测相关性来预测概念的排名。

一旦生成概念术语的分值，系统可以在数据存储中存储分值，或者使用分值用于另一个直接目的。在一些实现方式中，即，在在线广告的上下文中，系统可以选择指定数量的一个或多个最高评分的概念术语，或者具有满足阈值的分值的每个概念术语，作为在选择参与在线广告拍卖的候选广告中使用的广告关键字。在一些实现方式中，选择的关键字与使用其他技术生成的关键字组合使用来选择候选广告。

可选地，在利用选择的概念术语之前，系统可以过滤不满足一个或多个选择标准的任何概念术语。例如，系统可以过滤与资源的语言不匹配的语言的概念术语，例如，通过将识别资源的语言的数据与识别概念术语的语言的数据进行比较，并且当数据指示不匹配时过滤概念术语。作为另一示例，系统可以过滤具有超过阈值的词频逆文档频率(TF-IDF)分值的概念术语。也就是说，系统可以过滤具有因为它们是流行术语而不是因为它们与资源特征特别相关而被选择的高可能性的概念术语。

可以执行过程200以预测期望的分值是未知的输入的概念术语的分值。

也可以对一组训练数据(即，应该由系统预测的输出是已知的一组输入)中的输入执行过程200，以训练系统，即确定分类器和深度网络的参数的最佳值。例如，可以对从一组训练数据选择的输入重复执行过程200，作为确定每个参数的最佳值的反向传播训练技术的一部分。下面参照图3更加详细地描述训练概念术语评分系统

图3是用于训练概念术语评分系统的示例过程300的流程图。为了方便，过程300将被描述为通过位于一个或多个位置的一个或多个计算机的系统来执行。例如，适当编程的概念术语评分系统(例如图1的概念术语评分系统100)可以执行过程300。

系统获得识别训练资源的数据和用于每个训练资源的相关联的概念术语(步骤302)。例如，概念术语可以基于识别在浏览资源的预定时间窗口内接收用户选择的广告的数据与资源相关联。对于每个识别的广告，将广告放置到被呈现给用户的广告的拍卖所使用的广告关键字可以与资源相关联作为概念术语。

系统基于参数指定用于每个训练资源的预测输出的标准(步骤304)。也就是说，对于每个资源，系统基于参数指定用于系统生成的概念术语分值的标准。例如，对于任何训练资源，参数可以指定与资源相关联的概念术语的分值应该高于概念术语组中的任何其他概念术语或者概念术语组中的其他概念术语的随机选择样本的任何分值。可选地，参数可以要求与资源相关联的概念术语的分值超过其他分值达阈值。作为另一示例，对于任何训练资源，参数可以指定与资源相关联的概念术语的分值应该都高于指定的阈值。作为另一示例，参数可以指定与资源相关联的概念术语应该都处于指定数量的最高评分的概念术语中。用于生成标准的参数可以被提供给系统，例如由系统管理员，并且可以是静态的，即在训练开始是预定的，或者动态的，即在系统的整个训练中可以自动调整。例如，在训练期间可以放宽参数，直到系统的性能下降，然后使其更严格。

对于参数和训练数据组，系统使用指定的标准和训练资源的特征来执行训练过程以训练分类器(步骤306)。此外，训练过程使用反向传播的方法来调整深度网络(例如，图1的深度网络106)的所有组件的参数。

作为训练过程的一部分，如果分类器为特定训练资源预测的标签与该特定训练资源的已知期望标签不同，即，分类器生成的概念分值不满足用于训练资源的标准，则分类器将调整其参数，以使用常规基于梯度的方法对该特定输入减小预期误差。另外，作为反向传播方法的一部分，分类器向深度网络发送错误信号，其允许深度网络调整其内部组件的参数和反向传播的连续阶段的嵌入函数组的参数。

在一些情况下，例如，对于大训练数据组，可以以多种方式中的任何一种并行训练过程。例如，可以使用并行"LargeScaleDistributedDeepNetworks,"JeffreyDean,etal.,NeuralInformationProcessingSystemsConference.2012中描述的机器学习模型的训练的一种或多种技术来并行训练过程。

主题的实施例和本说明书中描述的功能操作可以被实现在数字电子电路中、有形实现的计算机软件或固件中、计算机硬件中，包括本说明书中公开的结构及其结构等同物，或者它们中的一个或多个的组合中。本说明书中描述的主题的实施例可以被实现为一个或多个计算机程序，即编码在有形的非临时性程序载体上的计算机程序指令的一个或多个模块，用于由数据处理装置执行，或者控制数据处理装置的操作。替选地或另外地，程序指令可以编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，其被生成以对用于传输到适当的接收器装置的信息进行编码，用于由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基片、随机或串行存取存储器设备、或它们中的一个或多个的组合。

术语“数据处理装置”涵盖用于处理数据的各种装置、设备和机器，例如包括可编程处理器、计算机、或多个处理器或计算机。该装置可以包括专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外，该装置还可以包括用于创建讨论的计算机程序的执行环境的代码，例如构成处理器固件、协议栈、数据库管理系统、操作系统、或它们中的一个或多个的组合的代码。计算机程序(其也可以被称为或被描述为程序、软件、软件应用、模块、软件模块、脚本或代码)可以用任何形式的编程语言编写，包括编译或解释语言或者声明或过程语言，并且其可以以任何形式部署，包括作为独立程序或作为模块、组件、子程序或适于在计算环境中使用的其它单元。计算机程序可以但不必对应于文件系统中的文件。可以将程序存储在保持其它程序或数据的文件的一部分中，例如标记语言文档中存储的一个或多个脚本、专用于所讨论的程序的单个文件中、或存储在多个协同的文件中，例如存储一个或多个模块、子程序或代码的一部分的文件。计算机程序可以被部署为在一个计算机或在位于一个地点或分布在多个地点并通过通信网络互连的多个计算机上执行。

本说明书中描述的过程和逻辑流可以通过执行一个或多个计算机程序的一个或多个可编程计算机来执行，以通过对输入数据操作和生成输出来执行功能。还可以通过专用逻辑电路来执行过程和逻辑流，并且装置也可以实现为专用逻辑电路，所述专用逻辑电路例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。

适合于计算机程序的执行的计算机包括、例如可以基于通用或专用的微处理器或二者，或任何其他类型的中央处理单元。通常，中央处理单元从只读存储器或随机存取存储器或两者接收指令和数据。计算机的主要元件是用于执行或运行指令的中央处理单元和用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括或者可操作地耦合以从用于存储数据的一个或多个大容量存储设备接收数据或向其传送数据或两者，所述一个或多个大容量存储设备例如磁光盘或光盘。然而，计算机不必具有这样的设备。此外，计算机可以被嵌入另一设备，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器或便携式存储设备，例如通用串行总线(USB)闪存驱动器，仅举几例。

适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，例如包括半导体存储设备，例如EPROM、EEPROM和闪存设备；磁盘，例如内部硬盘或可移动盘；磁光盘；以及CDROM和DVD-ROM盘。处理器和存储器可以被补充或并入专用逻辑电路。

为了提供与用户的交互，本说明书中描述的主题的实施例可以实现在具有用于向用户显示信息的显示设备(例如，CRT(阴极射线管)或LCD(液晶显示器)监视器)以及键盘和指示设备(例如，鼠标或轨迹球)的计算机上，用户利用键盘和指示设备可以提供到计算机的输入。其他种类的设备也可以用于提供与用户的互动；例如，提供给用户的反馈可以是任何形式的感知反馈，例如视觉反馈、听觉反馈或触觉反馈；以及来自用户的输入可以以任何形式被接收，包括声音、语音或触觉输入。此外，计算机可以通过向用户使用的设备发送文档和从用户使用的设备接收文档与用户交互；例如，通过响应于从web浏览器接收的请求向用户的客户端设备上的web浏览器发送网页。

本说明书中描述的主题的实施例可以实现在计算系统中，该计算系统包括后端组件，例如作为数据服务器，或该计算系统包括中间件组件，例如应用服务器，或该计算系统包括前端组件，例如具有图形用户界面或Web浏览器的客户端计算机，通过图形用户界面或Web浏览器，用户可以与本说明书中描述的主题的实现方式交互，或该计算系统包括一个或多个这样的后端组件、中间件组件和前端组件的任意组合。系统的组件可以通过任何形式或介质的数字数据通信互连，例如通信网络。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)，例如互联网。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此远程，并且通常通过通信网络交互。客户端和服务器的关系依靠在相应计算机上运行并且彼此具有客户端-服务器关系的计算机程序产生。

虽然本说明书包含许多特定实现方式细节，但是这些不应被解释为限制可以主张的任何发明的范围，而是作为可以特定于特定发明的特定实施例的特征的描述。在本说明书中在分立实施例的上下文中描述的某些特征也可以组合在单个实施例中实现。相反地，在单个实施例的上下文中描述的各种特征也可以分立地在多个实施例或在任何合适的子组合中实现。此外，虽然特征在上面被描述为在特定组合中起作用，甚至最初主张如此，但是，来自所要求组合的一个或多个特征在某些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变体。

类似地，虽然在附图中以特定的顺序描述操作，但是这不应被理解为需要以所示的特定顺序或以连续顺序执行这样的操作，或者需要执行所有图示的操作才能达到期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品或封装到多个软件产品中。

已经描述本主题的具体实施例。其他实施例在所附权利要求的范围内。例如，权利要求中记载的动作可以以不同顺序来执行并且仍然获得期望的结果。作为一个示例，在附图中描绘的过程不要求所示的特定顺序或连续顺序才能达到期望的结果。在某些实现方式中，多任务和并行处理可能是有利的。

Claims

1.一种系统，包括：

在定义非线性操作的多个层的一个或多个计算机中实现的深度网络，其中所述深度网络包括：

嵌入函数层，所述嵌入函数层被配置为：

接收包括资源的多个特征的输入，其中每个特征是所述资源的相应属性的值，以及

使用相应嵌入函数来处理每个特征，以生成一个或多个数值，以及

一个或多个神经网络层，所述一个或多个神经网络层被配置为：

接收所述数值，以及

处理所述数值，以生成所述资源的特征的替选表示，其中处理浮点值包括将一个或多个非线性变换应用到浮点值；以及

分类器，所述分类器被配置为：

处理所述输入的替选表示，以为预定概念术语组中的每个概念术语生成相应相关性分值，其中每个相应相关性分值测量对应的概念术语与所述资源的预测相关性。

2.如权利要求1所述的系统，其中，每个所述嵌入函数特定于相应特征类型的特征，其中，每个所述嵌入函数接收相应类型的特征，并且将根据嵌入函数参数组将特征映射到数值表示的变换应用到特征。

3.如权利要求1所述的系统，其中，所述系统进一步包括一个或多个计算机以及存储指令的一个或多个存储设备，所述指令在被所述一个或多个计算机执行时使所述一个或多个计算机执行包括以下的操作：

响应于接收将要进行在线广告拍卖以选择用于包括在所述资源的特定呈现中的一个或多个广告的指示，获得所述资源的所述多个特征。

4.如权利要求3所述的系统，所述操作进一步包括：

基于所述相关性分值选择所述概念术语中的一个或多个作为在选择参与所述在线广告拍卖的候选广告时使用的广告关键字。

5.如权利要求4所述的系统，所述操作进一步包括：

过滤与所述资源不是相同语言的概念术语。

6.如权利要4所述的系统，所述操作进一步包括：

过滤具有超过阈值的词频逆文档频率(TF-IDF)分值的概念术语。

7.如权利要求1所述的系统，其中，所述数值是浮点值。

8.如权利要求1所述的系统，其中，所述数值是量化的整数值，其中，所述量化的整数值的编码表示浮点值。

9.一种训练用于预测预定概念术语组中的每一个与资源的相关性的系统的方法，其中所述系统包括嵌入函数层、一个或多个神经网络层和分类器，其中所述方法包括：

获得识别训练资源的数据和用于每个所述训练资源的一个或多个相应关联的概念术语；

对于每个所述训练资源，指定用于由所述分类器生成的相应预测输出的输出标准；以及

基于每个所述训练资源的相应特征和所指定的输出标准，训练所述嵌入函数层、所述神经网络层和所述分类器，其中每个特征是所述资源的相应属性的值。

10.如权利要求9所述的方法，其中，指定所述输出标准包括：

对于每个训练资源，指定为与所述训练资源相关联的概念术语生成的相关性分值应该超过为所述多个概念术语中与所述训练资源不相关联的其他概念术语的随机样本生成的相关性分值。

11.如权利要求9所述的方法，进一步包括：

获得识别用户查看的训练资源的数据；

获得识别用户在查看所述训练资源的阈值时间窗口内选择的第一资源中的广告的数据；以及

将在所述第一资源中放置广告所使用的关键字与用户查看的训练资源相关联作为概念术语。

12.一种由一个或多个计算机执行的方法，所述方法包括：

接收包括资源的多个特征的输入，其中每个特征是所述资源的相应属性的值；

使用相应嵌入函数来处理每个特征，以生成一个或多个数值；

处理所述数值，以生成所述资源的特征的替选表示，其中处理所述数值包括将一个或多个非线性变换应用到所述数值；以及

处理所述输入的替选表示以生成预定概念术语组中的每个概念术语的相应相关性分值，其中每个所述相应相关性分值测量对应的概念术语与所述资源的预测相关性。

13.如权利要求12所述的方法，其中，每个所述嵌入函数特定于相应特征类型的特征，其中，每个所述嵌入函数接收相应类型的特征，并且将根据嵌入函数参数组将特征映射到数值表示的变换应用到特征。

14.如权利要求12所述的方法，进一步包括：响应于接收将要进行在线广告拍卖以选择用于包括在所述资源的特定呈现中的一个或多个广告的指示，获得所述资源的所述多个特征。

15.如权利要求14所述的方法，进一步包括：

基于相关性分值选择所述概念术语中的一个或多个作为在选择参与所述在线广告拍卖的候选广告时使用的广告关键字。

16.如权利要求15所述的方法，进一步包括：

过滤与所述资源不是相同语言的概念术语。

17.如权利要求15所述的方法，进一步包括：

18.如权利要求12所述的方法，其中，所述数值是浮点值。

19.如权利要求12所述的方法，其中，所述数值是量化的整数值，其中，所述量化的整数值的编码表示浮点值。

20.一种包括一个或多个计算机和存储指令的一个或多个存储设备的系统，其中所述方法包括：

对于每个所述训练资源，指定用于由分类器生成的相应预测输出的输出标准；以及

训练概念术语评分系统以用于预测预定概念术语组中的每一个与资源的相关性，其中，所述概念术语评分系统包括嵌入函数层、一个或多个神经网络层和分类器，并且其中，训练所述概念术语评分系统包括基于每个所述训练资源的相应特征和所指定的输出标准来训练所述嵌入函数层、所述神经网络层和所述分类器，其中，每个特征是所述资源的相应属性的值。

21.如权利要求20所述的系统，其中，指定所述输出标准包括：

22.如权利要求20所述的系统，所述操作进一步包括：

获得识别用户查看的训练资源的数据；

将在所述第一资源中放置广告所使用的关键字与用户查看的所述训练资源相关联作为概念术语。

23.一种编码有计算机程序的计算机存储介质，所述程序包括指令，所述指令在被一个或多个计算机执行时使所述一个或多个计算机执行包括以下的操作：

24.一种编码有计算机程序的计算机存储介质，所述程序包括指令，所述指令在被一个或多个计算机执行时使所述一个或多个计算机执行包括以下的操作：