CN106462626B

CN106462626B - 利用深度神经网络对兴趣度建模

Info

Publication number: CN106462626B
Application number: CN201580031793.6A
Authority: CN
Inventors: 高剑峰; 邓力; M·盖蒙; 何晓东; P·潘特尔
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2014-06-13
Filing date: 2015-06-10
Publication date: 2019-09-13
Anticipated expiration: 2035-06-10
Also published as: US9846836B2; EP3155540A1; US20150363688A1; WO2015191652A1; CN106462626A

Abstract

“兴趣度建模器”使用深度神经网络来学习“兴趣度”的深度语义模型(DSM)。由深度神经网络或其卷积版本的两个分支组成的DSM标识并预测将使用户对阅读源文档感兴趣的目标文档。所学习的模型观测、标识并检测从web浏览器日志获得的源文档与目标文档之间的点击转换中的兴趣度的自然发生的信号。利用深度神经网络对兴趣度建模，深度神经网络鉴于源文档和目标文档的“上下文”和可选的“焦点”来将源‑目标文档对映射到对文档转换训练的潜在空间中的特征向量。学习网络参数以最小化该空间中源文档与其对应的“感兴趣的”目标之间的距离。所得的兴趣度模型具有可应用的使用，包括但不限于上下文实体搜索、自动文本突出、预取可能感兴趣的文档、自动化内容推荐、自动化广告放置等。

Description

利用深度神经网络对兴趣度建模

背景技术

存在标识web中的流行内容或者推荐的流行内容的多个系统。这样的系统常常基于确定或评价包括多个用户在一段时间期间何时、何地并且如何查看特定内容或与特定内容交互的因素。通过评价web使用信息的各种点击预测系统解决类似问题，web使用信息尝试计算在用户输入某个查询之后点击搜索结果页中的给定文档或广告的概率。进一步地，针对点击预测所使用的点击模型有时被个性化到特定用户以使能用户特定的点击率(CTR)的使用。

已经使用各种技术解决信息检索。例如，潜在语义分析(LSA)提供针对基于各种信息检索(IR)的任务设计的语义模型。针对IR使用的启发性主题模型的示例包括概率LSA、潜在狄利克雷分配(LDA)等。另外，这些模型中的一些模型已经扩展为处理跨语言情况以检索来自不同语言的对应的文档对的信息。

各种深度学习技术已经被用于评价训练数据以发现针对各种任务的不同抽象层处的隐藏结构和相关联的特征。例如，这些技术中的一些技术使用深度神经网络或其他深度学习技术来发现查询和文档中所嵌入的分层语义结构。

发明内容

提供该概述以引入以在详细描述中下文进一步描述的简化形式的概念的选择。该概述不旨在标识所要求保护的主题的关键特征或基本特征，其也不旨在用作辅助确定所要求保护的主题的范围。进一步地，虽然在此可以指出或讨论现有技术的某些缺点，但是所要求保护的主题不旨在限于可以解答或解决那些现有技术的缺点中的任何或全部的实现。

通常，如在此所描述的“兴趣度建模器”考虑“兴趣度”的意图，其表示当鉴于源文档和目标文档的“上下文”和可选的“焦点”阅读或查看源文档时用户对查看或转换到目标文档(例如，具有标题、文本、文档、网页、电子数据表、不同类型的内容的混合等的图像)感兴趣的条件似然性。兴趣度建模器提供用于构建和使用深度神经网络以学习兴趣度的深度语义模型(DSM)的各种技术。通过观测从web浏览器日志获得的源文档与目标文档之间的点击转换来获得用于训练的自然发生的兴趣信号。学习的DSM然后被用于标识当阅读或者查看源文档时有可能地使用户感兴趣的目标文档。

更特别地，利用深度神经网络对兴趣度进行建模，深度神经网络将源-目标文档对映射到对大量的所观测的文档转换训练的潜在空间中的特征向量。学习网络参数以最小化在潜在空间中源文档与其对应的感兴趣目标之间的距离。所得的兴趣度模型可应用于各种各样的使用，包括但不限于上下文实体搜索、自动文本突出、可能使用户感兴趣的预取文档、自动化文档推荐、自动化广告放置等。

在各种实现中，兴趣度建模器通过接收源文档和目标文档对的集合来开始操作。兴趣度建模器然后标识针对每个源文档的上下文并且进一步标识针对每个目标文档的上下文。这些上下文中的每个上下文然后被映射到分离的向量。每个向量然后被映射到深度神经网络等的卷积层。该卷积层进而被映射到神经网络的多个隐藏层。一旦这些映射步骤已经完成，兴趣度建模器通过学习针对神经网络的各层之间的多个转换中的每个转换的权重使得所学习的权重最小化感兴趣源文档与目标文档的向量之间的距离，来生成兴趣度模型。

进一步地，在各种实现中，兴趣度建模器通过进一步标识针对每个源文档和每个目标文档的焦点提供来增强的DSM。注意，焦点表示可能具有高的相关度的每个文档中的不同的文本段。这些所标识的焦点与对应的源文档和目标文档的上下文组合使用以构建对应的向量。具体而言，在其中针对源文档和目标文档标识焦点的实现中，每个文档的焦点和上下文二者被映射到针对每个文档的相同对应的向量。

鉴于以上概述，清楚的是，在此所描述的兴趣度建模器提供用于构建和使用深度神经网络以学习“兴趣度”的DSM的各种技术，“兴趣度”的DSM用于标识和预测在阅读或查看源文档时将使用户感兴趣的目标文档。除刚描述的益处之外，兴趣度建模器的其他优点将从当结合附图理解时在下文中的详细描述变得明显。

附图说明

所要求保护的主题的特定特征、方面和优点将关于以下描述、随附的权利要求和附图变得更好理解，在附图中：

图1提供了图示用于学习兴趣度的深度语义模型(DSM)的“兴趣度建模器”的程序模块的示例性架构流程图，如本文所描述的。

图2提供了图示用于使用学习的DSM来构建增强排序器以与任意文档一起使用的程序模块的示例性架构流程图，如本文所描述的。

图3提供了图示用于使用学习的增强排序器来标识相对于由用户消费的任意源文档的感兴趣目标的程序模块的示例性架构流程图，如本文所描述的。

图4图示了由兴趣度建模器构建的DSM的示例性神经网络架构和信息流，如本文所描述的。

图5图示了图示用于实现兴趣度建模器的各种实现的示例性方法的一般系统流程图，如本文所描述的。

图6是描绘具有用于在实现兴趣度建模器的各种实现中使用的简化计算和I/O能力的简化通用计算设备的通用系统图，如本文所描述的。

具体实施方式

在所要求保护的主题的实现的以下描述中，对形成其一部分并且其中通过图示示出在其中可以实践所要求保护的主题的特定实现的附图进行参考。应当理解，在不脱离目前所要求保护的主题的范围的情况下，可以利用其他实现并且可以做出结构改变。

1.0 介绍：

通常，如在此所描述的“兴趣度建模器”考虑表示当鉴于源和目标文档的“上下文”和可选“焦点”而阅读或查看源文档时用户对查看或转换到目标文档(例如，具有标题、文本、文档、网页、电子数据表、的等的图像)感兴趣的条件似然性的“兴趣度”的意图。兴趣度建模器提供用于构建和使用深度神经网络以学习“兴趣度”的深度语义模型(DSM)的各种技术。

通过观测从web浏览器日志获得的源文档与目标文档之间的点击转换来获得用于训练的自然发生的兴趣信号。学习的DSM然后被用于标识当阅读或者查看源文档时有可能地使用户感兴趣的目标文档。

更特别地，利用将源-目标文档对映射到潜在空间中的特征向量的深度神经网络来对兴趣度进行建模。在通过观测从web浏览器日志获得的源文档与目标文档之间的点击转换获得的大量的自然发生的兴趣信号上训练DSM。学习DSM的网络参数以最小化在潜在空间中源文档与其对应的感兴趣目标之间的距离。

所得的兴趣度模型可应用于各种各样的使用，包括但不限于上下文实体搜索、自动文本突出、可能使用户感兴趣的预取文档、自动化文档推荐、自动化广告放置等。

例如，考虑上下文实体搜索。在各种实现中，当用户突出当读取文档时她感兴趣的实体(例如，人、位置、组织等)的文档中的文本段(例如，词语、短语、语句、段落等)时，兴趣度建模器通过自动地搜索针对关于如果用户感兴趣则可能的实体的补充信息的网络。该任务是挑战性的，这是因为相同文本段常常指代不同的实体，并且对突出的文本段的感兴趣补充信息对于语义上下文而言是高度灵敏的。例如，实体“Paul Simon”可以指代许多人(诸如歌手或美国参议员)。考虑关于歌手Paul Simon的音乐的文章和关于他的生平的另一篇文章。关于他的即将到来的巡回演唱会的相关内容在第一上下文中可能是更感兴趣的，而关于他的家庭的文章在第二上下文中可能是更感兴趣的。

与其中文本段由用户突出的上下文实体搜索相反，在各种实现中，兴趣度建模器自动地突出对用户可能感兴趣的任意内容中的文本。更特别地，在各种实现中，兴趣度建模器自动地发现对用户可能感兴趣的概念、实体和主题，并且然后突出或补充(例如，添加超链接、导入感兴趣内容等)对应的文本段。与上下文实体搜索的任务类似，考虑文档语义以确定用户可能对什么感兴趣。例如，当用户阅读关于电影的文章时，她更可能对浏览或转换到关于该电影中的演员或人物的文章感兴趣，而不是另一电影或导演。

当被用于使能各种预取类型实现时，兴趣度建模器评价当前正由用户消费的内容以预测用户然后将对什么感兴趣。这允许兴趣度建模器在用户尝试访问该内容之前预取、下载或检索对应的内容，因此增加用于各种各样的应用(诸如上下文实体搜索系统)的渲染性能。在不要求用户输入(诸如选自推荐或搜索结果的集合)的情况下，做出该前瞻性内容选择和预取决策，并且允许用户立即访问可能感兴趣的内容，而不是等待在点击超链接等之后下载的文档。

在各种实现中，任务和实现(诸如上文概述的那些)被组合到使文档阅读更具生产性和交互性体验的统一框架。例如，在各种实现中，兴趣度建模器提供针对用户预突出在她的当前上下文中可能对什么感兴趣的文档渲染过程(例如，突出)。然后她自由与这些突出交互或选择兴趣度建模器自动地检索感兴趣补充内容(例如，上下文实体搜索)的感兴趣的任何其他文本段。在场景后面，在用户随后选择预取内容的情况下，兴趣度建模器将预取针对预测的感兴趣内容的子集的相关内容以加速渲染和检索过程(例如，文档预取)。

1.1 定义和一般考虑：

由用户“消费”的“内容”或“文档”的内容被定义为任何内容或文档(例如，具有标题、文本、文档、网页、电子表格、不同类型的内容的混合物等的图像)，其包括将正由用户读取、查看或访问的任何文档中的至少一些基于文本的内容。通常，这样的内容以其最一般的形式被意指为包括原始非结构化文本的一个或多个字符串。换句话说，不要求兴趣度函数(参见以下式(1))依赖于任何文档结构(诸如标题标签、超链接、XML数据等)或者web交互数据。如此，可以由网页的纯文本(作为纯文本中的文本段)、由图像的标题、由文本文档、由包含文本和图像或其他内容(诸如音频等)的混合物的内容形成文档，如在此进一步详细讨论的。

源文档中的“上下文”被定义为锚点(例如，超链接等)或所选择的词语或词串组合锚点或所选择的词语周围的词语的相对大的窗口。例如，在测试的实现中，覆盖在锚点或所选择的词语之前和之后总计200词语的窗口大小j被用于定义上下文(例如，之前100词语和之后100词语)。相反，目标文档中的上下文简单地是目标中的前k个词语，其中k可以是任何期望值。注意，在各种测试的实现中，j和k二者的大小都被设定为200词语的值，但是不存在对于这些值相同的要求。

源文档中的“焦点”通常是比文档的上下文小得多的文本部分。例如，焦点在文档中被定义为锚点(例如，超链接等)或所选择的词语或词串。相反，目标文档中的焦点被设定为在目标文档的开始的一些相对小的固定数目的词语。例如，在测试的实现中，目标文档中的前10个词语被设定为焦点。然而，应当理解，较大或较小数目的词语可以用作目标文档的焦点。

术语“兴趣度”在本文中被定义为计算得分或者统计度量，计算得分或者统计度量与鉴于由用户当前消费的任意文档或其他内容用户将对不同的文档或内容的追踪、消费或转换感兴趣的可能性有关。换句话说，如上文所指出的，兴趣度的意图表示鉴于源文档相对于目标文档的上下文和可选焦点在读取任意源文档时用户将对查看或者转换到目标文档感兴趣的条件似然性。

通常，利用计算深度语义模型对兴趣度的该意图进行建模。该模型是语义的，这是因为其将文档的词语表示映射到潜在语义空间中的特征向量(还被称为语义表示)。该模型是深的，这是因为其采用深度神经网络来逐层以不同的抽象级别提取隐藏的语义特征。通过在由方法造成的其训练之后的神经网络的数层来计算该语义表示，包括但不限于关于被定制为相应的兴趣度任务的反向传播或其他监督式学习技术。

换句话说，利用在将源-目标文档对映射到潜在语义空间中的特征向量的深度神经网络来对兴趣度进行建模，并且使用文档之间的所观测的浏览转换来训练兴趣度。在各种实现中，训练数据包括但不限于从被评价为提取源文档与目标文档之间的web浏览器转换对的web使用日志进行采样的自然发生的兴趣信号。

特别地，令D是所有文档的集合。然后，兴趣度建模任务形式上被定义为学习映射函数：

其中函数σ(s,t)是在读取源文档s∈D之后或时用户对目标文档t∈D具有的量化兴趣度。

可以通过观测对web的兴趣度的各种各样的自然发生的信号或表现中的任一个来获得用于学习DSM的训练数据。例如，在上，用户常常跟随嵌入微消息中和web搜索中的共享链接，用户在搜索引擎上搜索其兴趣。

兴趣度的最频繁的信号之一发生在其中用户经由超链接从一个网页点击到另一个网页的web浏览事件中。当用户点击超链接时，假定她对关于锚点、错误点击的模数情况学习更多感兴趣是合理的。因此，聚集点击可以用作用于兴趣度的代理。也就是说，对于给定源文档s而言，吸引最多点击的目标文档t可能比吸引更少的点击的文档是更有兴趣的。更形式地，金标准兴趣度函数σ′可以被表述为：

σ′(s,t)＝p(t|s) 式(2)

其中p(t|s)是当查看源文档s时用户点击到目标文档t的概率。

应当理解，虽然点击信号可用于形成数据集和金标准函数，但是兴趣度建模器使用该信息来对先验点击数据可能不可用的任意非结构化文档之间的兴趣度进行建模。换句话说，一旦兴趣度建模器已经学习DSM，DSM可应用于任意文档，而不管是否存在针对那些任意文档的任何文档结构(例如，标签、标题、内容表、超链接、元数据等)或web交互数据。因此，在不要求任何文档结构信息或元数据的使用的情况下，实现由兴趣度建模器开发的兴趣度模型σ。

如在本文中更详细讨论的，在各种实现中，兴趣度建模器从浏览器日志采集用户浏览事件的大型数据集。例如，在测试的实现中，根据在一年周期期间采集的从一个页面到另一个页面的用户点击的几百万事件对训练数据进行采样。注意，页面浏览事件被用于训练目的，这是因为这些页面往往包含多个锚点(即，平均79个，其中42个具有唯一目标URL)。然而，应当理解，页面转换数据的任何集合可以被用于训练目的，并且由兴趣度建模器学习的DSM不旨在被限制为从页面获得的训练数据的使用。进一步地，一旦被训练，所得的DSM就可应用于对任意内容中的兴趣度进行建模，而不管那些页面或文档的来源。

注意，一些页面包含指向相同目标文档(即，共同链接)的多个锚点。因此，在各种实现中，当将内容结合到针对具有对特定目标的多个公共链接的源页面的转换时，假定这些公共链接中的第一个公共链接被点击(即，起源于第一锚点的点击)。然而，可以做出关于在从源文档到目标文档的转换中点击这些公共链接中的哪个公共链接的其他假定。

1.2 系统概述：

如上文所指出的，兴趣度建模器提供用于构建和使用深度神经网络学习被用于标识和预测在阅读或者查看源文档时将使用户感兴趣的目标文档的兴趣度的DSM的各种技术。通过图1、图2和图3的通用系统图图示了以上概括的过程。特别地，这些系统图图示了用于实现兴趣度建模器的各种实现的程序模块之间的各种相互关系，如在此所描述的。而且，虽然这些系统图图示了兴趣度建模器的各种实现的高层视图，但是图1、图2和图3单独或者组合不旨在提供兴趣度建模器的每个可能实现的详尽或完整的图示，如贯穿该文档所描述的。

另外，应当注意，可以由图1、图2或图3中的断线或虚线表示的任何框或框间的相互连接表示在此所描述的兴趣度建模器的备选实现。而且，可以组合贯穿该文档描述的其他备选实现使用如下文所描述的这些备选实现中的任何或全部。

通常，如由图1所图示的，由用于学习前述DSM的兴趣度建模器使能的过程通过使用对提取模块100评价浏览器日志110来标识源文档和目标文档对120(即(s,t)对)的集合来开始操作。上下文和焦点提取模块130然后评价源文档和目标文档对120的集合以基于数据(诸如所观测的超链接、实体提取过程等)从(s,t)对提取上下文和可选焦点。

DSM训练模块140然后将每个文档的上下文和可选焦点映射到分离的向量。这通过神经网络完成，即，上下文和可选焦点首先被馈送到神经网络的输入层，然后通过非线性变换的多层(即，神经网络)，神经网络的最后一层的节点处的神经激活值形成输出向量。进而，这些向量被映射到DSM的神经网络架构。兴趣度建模器然后学习针对网络层之间的转换的权重以最小化感兴趣的源文档和目标文档的向量之间的距离。最后，DSM训练模块140将经训练的神经网络提供为兴趣度150的学习的深度语义模型(DSM)以使用向量计算感兴趣文档的相似性。注意，对于源文档和目标文档的神经网络可以是相同或不同的神经网络。

如由图2所图示的，在各种实现中，兴趣度的学习的DSM 150然后被传递到特征提取模块200，其根据针对源文档和目标文档的DSM的输出层生成特征向量210。如在本文中更详细讨论的，排序器构建模块220然后使用来自DSM的输出层的特征向量来学习增强树排序器230或其他模型。然后，使该增强树排序器230可用于多个基于兴趣度的任务中的任一个。

例如，如由图3所图示的，在各种实现中，实体提取模块300使用各种基于命名实体识别器的技术中的任一个从正由用户消费的任意源文档310提取实体(例如，链接、人、地点、事物等)，以标识该任意源文档中的上下文和/或焦点330。备选地或者组合地，兴趣度建模器将经由用户接口模块320突出的文本标识为任意源文档310的焦点。通常，用户接口模块320被用于选择任意源文档310中的词语、词串、超链接、实体等。

在任一情况下，一旦实体提取模块300已经标识或提取任意源文档310的上下文和/或焦点330，该信息就被提供给搜索引擎模块340。搜索引擎模块然后使用任何常规搜索引擎或技术来服务上下文和/或焦点330作为搜索引擎等的查询输入。搜索引擎然后搜索web、数据库或其他信息源以返回相关文档。

搜索引擎模块340然后保持前k个排名的搜索结果作为潜在地感兴趣的目标文档的候选集合350。感兴趣的目标输出模块360然后使用先前学习的增强树排序器230处理候选集合350以对相对于由用户消费的任意源文档310的一个或多个目标文档进行排序或选择。如在此所讨论的，感兴趣的目标文档的使用包括但不限于上下文实体搜索、自动突出、文档预取、文档或项目推荐、广告放置等。

2.0 兴趣度建模器的操作细节：

以上所描述的程序模块被用于实现兴趣度建模器的各种实现。如上文所概述的，兴趣度建模器提供用于构建和使用深度神经网络来学习用于标识和预测在阅读或者查看源文档时将使用户感兴趣的目标文档的“兴趣度”的DSM的各种技术。以下章节提供兴趣度建模器的各种实现和用于实现关于图1在章节1中所描述的程序模块的示例性方法的操作的详细讨论。特别地，以下章节提供兴趣度建模器的各种实现的示例和操作细节，包括：

·兴趣度建模器的操作概述；

·兴趣度的深度语义模型(DSM)；

·用于学习DSM的示例性损失函数；

·训练DSM；

·使用DSM；以及

·附加的实现和考虑。

2.1 操作概述：

如上文所指出的，在此所描述的过程提供用于构建和使用深度神经网络来学习用于标识和预测在阅读或者查看源文档时将使用户感兴趣的目标文档的“兴趣度”的DSM的各种技术。利用鉴于源文档和目标文档的“上下文”和可选的“焦点”将源-目标文档对映射到对大量的文档转换训练的潜在空间中的特征向量的深度神经网络对兴趣度进行建模。学习神经网络参数以最小化该空间中源文档与其对应的“感兴趣的”目标之间的距离。所得的兴趣度模型是可应用的使用，包括但不限于上下文实体搜索、自动文本突出、预取可能感兴趣的文档、自动化内容推荐、自动化广告放置等。

2.2A 兴趣度的深度语义模型(DSM)：

兴趣度建模器提供从具有对于语音和图像任务高度有效的卷积结构的深度神经网络获得的DSM。在图4中示出了学习DSM所使用的神经网络架构的一个示例，如下面详细讨论的。注意，以下讨论使用小写粗体字母(诸如x)来表示列向量并且大写字母(诸如W)来表示矩阵。

注意，在没有通过考虑文档的较大的“上下文”造成的特定“焦点”的情况下，可以对建模进行训练(和使用)。在这样的情况下，不是将特定选择或超链路用作焦点(如上文所定义的)，而是代替焦点使用较大的上下文(如上文所定义的)。因此，虽然以下讨论指代用于模型训练的焦点的使用，但是该讨论同样应用于通过简单地替换对于焦点的上下文的模型训练的较大的文档上下文的使用。进一步地，一旦被学习，可以通过考虑由用户消费的文档的上下文和焦点中的一者或二者在有或没有特定焦点的情况下使用所得的DSM。然而，已经观测模型性能以利用针对DSM训练和使用的上下文和焦点二者的使用进行改进。

2.2.1 输入层x：

文档d(其是词语序列)被转换为针对网络的输入层的向量表示x、兴趣度建模器能够适配技术，包括但不限于出于这样的目的的基于词袋(bag-of-words)的方法。然而，这些类型的方法通常导致具有相对高的维度的稀疏向量(由于许多web应用中的大型词汇表)。这使得神经网络训练计算上昂贵。进一步地，未利用基于词袋的方法和类似技术保存一些有用的上下文信息(诸如词序和词间依存性)。

因此，在各种实现中，兴趣度建模器提供增加向量的密度(即，降低稀疏性)(因此降低用于神经网络训练的计算开销)并且保存文档上下文信息(因此改进DSM模型性能)二者的基于向量的技术。特别地，在各种实现中，兴趣度建模器实现两级方法来建造输入层x的文档向量：

(1)将文档d(具有总计|d|个词)中的每个词语转换为词向量；以及

(2)根据这些词向量构建输入层x。

为了将词语w转换词向量，兴趣度建模器首先通过使用包含高频词语的词汇表的独热(one-hot)向量(或等效)表示文档d中的每个词语w。注意，在兴趣度建模器的基于测试的英语语言的实现中，使用N＝150K个词语的值，其中N表示英语语言和训练语料库中的最常见词语或字符序列。这样的字符序列还可以包括拼错的词语。注意，利用独热向量，长度150K的向量将具有对应于文档中的特定词语的单个非零条目。高频词语的预定义查找表等被用于构建针对每个词语的独热向量。清楚地，其他语言、方言或词集可以使用用于训练目的的不同的数目或组的高频词语。

然后，兴趣度建模器还将每个词语w映射到分离的三字母向量。例如，考虑词语“#dog#”，其中#是词边界符号(例如，空间、周期、感叹等)。如此，“#dog#”的三字母向量中的非零元素是“#do”、“dog”和“og#”。注意，较小或较大的字母向量可以被用于训练(例如，双字母向量、四字母向量等)。然而，观测三字母向量以提供起因于神经网络的训练的DSM的可接受的结果。在测试的实现中，兴趣度建模器将三字母的使用限于最频繁的30K三字母(即，具有针对词语w的每个三字母的分离的非零条目的长度30K的向量)，但是可以使用更多或更少。允许三字母的预定义查找表等然后被用于针对每个词语的三字母向量。

兴趣度建模器通过将其独热向量和其三字母向量连结来形成针对每个词语的w的词向量。应当注意，三字母向量补充两个方面中的独热向量表示。第一，不同的未登录词(OOV)词语(即，独热向量将具有全部零条目)将由具有较少的冲突的三字母向量表示。第二，相同字的拼写差异(还包括不正确的拼写)将固有地被映射到在三字母空间中彼此接近的点。进一步地，虽然web上的唯一英语词语的数目是极其大的，但是英语中的不同的三字母的总数是相对有限的。因此，将三字母向量并入独热向量实质上改进了词向量的表示能力，同时保持其大小相对小。

然后，为了使用词向量形成神经网络输入层x，兴趣度建模器使用特定任务启发法标识具有高的相关度的文档d中的文本段(参见第2.4章节)。该文本段在本文中被称为文档d的“焦点”。例如，在上下文实体搜索任务中，任意源文档中的焦点是由用户突出的某个文本段。注意，这样的突出可以手动地执行(诸如经由某种指点设备、语音命令等的用户选择)或者可以通过自动地跟踪用户的眼睛来标识由用户查看的文本段来执行。相反，任意目标文档的焦点被设定到目标文档的开始的某个固定数目I个词语。例如，在测试的实现中，I被设定为文档的前10个词语，虽然任何期望的数目的词语可以被用于该目的。

最后，通过将焦点中的每个词向量和分离的向量(即，文档中的、不在焦点中的所有其他词向量的和)形成神经网络输入层x。注意，图4的神经网络图图示了文档d的词序列(410)，其被用于通过词语和三字母查找表(430)分离地传递文档焦点中的每个词语构建输入层(420)的对应的分离的向量。类似地，文档的剩余部分中的词语(即，在焦点外的词语)用于构建单向量，如上文所指出的。注意，源文档的焦点长度(即，词语的数目)通常比源文档的总长度小得多(除非用户突出文档的大部分或全部)。因此，输入层x被用于获得对具有可管理的向量大小的对应的任务有用的上下文信息(针对焦点中的词语)。注意，下面更详细地讨论了图4中所图示的神经网络的附加层。

2.2.2 卷积层u：

如在图4中所图示的，神经网络的卷积层u(440)提取长度I的词序列(即，d中的焦点)中的每个词语w_i周围的局部特征如下。在构建卷积层u(440)中，兴趣度建模器首先通过将w_i的每个词向量和由小窗口定义的紧接地围绕的词语连结生成上下文向量c_i(例如，在测试的实现中使用3的窗口大小，然而，可以使用任何期望的窗口大小)。然后，对于焦点中的每个词语的上下文向量c_i，兴趣度建模器使用tanh激活函数和线性投影矩阵W_c(450)生成局部特征向量u_i，其跨越词序列中的所有窗口i是相同的，如：

其中i＝1，…，I 式(3)

注意，如由图4所图示的，示例性神经网络示出了文档的语义空间中的300个维度的使用(例如，K＝300个语义特征或主题)。然而，应当理解，300个维度的使用是用于测试目的的简单设计选择，并且此处可以使用任何数目的语义特征或主题。该维度跟随直到神经网络的后续层中的每一层(如由每层中的300维度的使用所图示的)，但是如果期望的话，可以实现具有每层处的不同的维度的网络。

注意，增加维度的数目将通常增加模型复杂度，这导致更长的训练时间。然而，由于模型训练被离线执行，其中所得的DSM被提供以由个体用户、搜索系统、推荐系统、广告放置系统等使用，因而模型训练中的计算开销不是重要的问题。

2.2.3 最大汇总层v：

如在图4中所图示的，神经网络包括最大汇总层v(460)。具有卷积结构的深度神经网络中的最大汇总层的设计直接影响语音和图像任务的性能。通常，卷积层u(440)的大小取决于形成焦点的词序列中的词语的数目。组合局部特征向量以获得由具有独立于焦点长度的固定大小的最大汇总层v(460)表示的全局特征向量，以便应用后续标准仿射层。通过在由式(3)计算的向量的序列的每个“时间”i期间采用最大汇总操作(470)来设计最大汇总层v(460)，其迫使网络仅保持由卷积层u(440)产生的最有用的部分不变的局部特征，如由式(4)所图示的：

2.2.4 完全连接层h和y：

表示式(4)的最大汇总层v(460)的固定大小全局特征向量然后被馈送到多个附加的仿射网络层，其被堆叠并且与非线性激活函数交错以提取输出层y(480)处的高度非线性特征。在图4中所图示的神经网络模型中，由式(5)提供隐藏层h(485)，并且由式(6)提供输出层h(480)，如下：

其中W₁和W₂是机器学习线性投影矩阵(相应地490和495)。还注意，以上段落提供使用在DSM中的神经网络的描述。实际上，对于源文档和目标文档的神经网络可以是不同的神经网络，只要两个神经网络的最后(输出)层的大小是相同的(如由式(8)所要求的)。

2.3 用于学习DSM的示例性损失函数：

以下段落描述了兴趣度建模器自动学习图4的DSM的参数的各种方式(即，学习θ＝{W_c,W₁,W₂}的方式)。注意，这假定源文档和目标文档共享相同的神经网络。否则，存在θ的两个集合(针对源设备的一个集合和针对目标设备的一个集合)。进一步地，应当注意，在不脱离兴趣度建模器的预期范围的情况下，可以将附加层添加到DSM。在各种实现中，由兴趣度建模器使用的损失函数的设计基于成对学习排序范例，但是其他损失函数设计可以适于由兴趣度建模器使用。

例如，考虑源文档s和两个候选的目标文档t₁和t₂，其中当阅读s时t₁比t₂对于用户更感兴趣。兴趣度建模器构建两对文档(s,t₁)和(s,t₂)，其中前者是优选的并且通常地具有较高的兴趣度得分。令Δ为遵循式1的其兴趣度得分的差异。即：

Δ＝σ(s,t₁)-σ(s,t₂) 式(7)

其中σ被定义为余弦相似性：

其中y_s和y_t相应地是s和t的特征向量，其使用由θ参数化的DSM而被生成。直观地，想法是学习θ以最大化Δ。即，学习DSM以将文档表示为隐藏兴趣度空间中的点，其中文档与其对应的感兴趣的文档之间的相似性被最大化。

在各种实现中，兴趣度建模器在Δ上使用以下逻辑损失，其可以示出为成对准确度的上限，但是应当理解，在不脱离兴趣度建模器的范围的情况下，其他损失函数可以被用于实现在此所描述的训练过程：

式(9)中的损失函数具有与在支持向量机(SVM)中使用的铰链损失类似的形状。然而，由于余弦相似性函数的使用，添加从[-2,2]放大Δ到较大的范围的比例因子γ。根据经验，γ的值没有区别，只要其是足够大的。在各种测试的实现中，γ的值被设定为γ＝10，但是其他值可以清楚地用于γ。由于损失函数是能区分的，因而优化模型参数可以使用各种基于梯度的方法(诸如L-BFGS)(即，有限的存储器Broyden-Fletcher-Goldfarb-Shanno)、随机梯度下降(SGD)等中的任一种方法完成。

2.4 训练DSM：

在各种测试的实现中，使用小批随机梯度下降(SGD)对训练语料库(诸如上文所描述的数据集)(例如，页面浏览事件等)来训练深度语义模型，但是应当理解，其他机器学习技术可以用于该训练过程。在各种实现中，小批大小被设定为256个源-目标文档对，但是应当理解，出于训练目的，小批大小可以被设定为源-目标文档对的任何期望数目。

对于每个源文档S而言，兴趣度建模器从该批随机地选择未与S配对的四个目标文档作为否定训练样本，但是出于该目的，可以使用更多或更少负面训练示例。因此，每个小批包含256×5训练样本(例如，一个配对目标和四个否定示例)。

除非另外说明，否则使用在下面所讨论的测试的实现中的深度语义模型遵循图4中所图示的架构。然而，应当理解，最佳架构可以取决于DSM被训练的任务(例如，上下文实体搜索、自动文本突出、预取文档等)而发生变化。因此，在各种实现中，兴趣度建模器搜索针对每个特定任务的最佳模型架构，这导致最佳地被训练用于特定任务的特定任务的DSM。然而，图4中所提供的架构提供已经被观测以提供所有任务类型测试的可接受的结果的固定架构。

考虑到优化问题不是凸的，适当的初始化被期望降低训练时间并且做出对更准确的局部最优的学习收敛。在各种测试的实现中，利用与之间的范围内的一致分布来初始化网络权重，其中“fanin”和“fanout”相应地是输入节点和输出节点的数目。然而，应当理解，在不脱离兴趣度建模器的预期范围的情况下，可以使用任何期望的加权过程来初始化网络权重。

原则上，式(9)的损失函数还可以被调整(例如，通过添加L₂范数项)以解决过度拟合。然而，观测从使用更简单的早期停止方法训练的DSM获得的结果被观测为近似等于通过损失函数的进一步的规则化获得的结果。早期停止方法在模型训练的过程期间调节学习速率η。例如，假定η＝1.0的初始值，在每个时期(即，在整个训练数据上的传递)之后，如果验证数据上的损失未减少，则学习速率被调节为η＝0.5×η(或任何其他期望的权重)。如果η小于预置阈值或者训练数据上的损失不再能够显著地减少，则训练停止。在各种测试的实现中，观测到DSM训练通常聚合在大约20个时期内。

如上文所指出的，兴趣度建模器可应用于各种各样的任务，包括但不限于上下文实体搜索、自动突出、文档预取、文档或项目推荐系统、广告放置系统等。以下讨论描述了源文档和目标文档可以如何表示以用于训练并且如何确定焦点。如上文所讨论的，假定不存在除纯文本外的文档结构，虽然当这样的信息存在时，其可以使用在模型训练中(如果期望的话)。在各种测试的实现中，从文档移除文档结构信息(例如，超链接、XML标签等)，并且那些文档然后各自被转换为纯文本，其是空格标记化的并且小写的(但是还可以使用其他纯文本格式)。保持数字并且未执行词干提取。鉴于该纯文本格式，以下段落描述用于示例性使用场景的特定任务的训练。

2.4.1 训练针对上下文实体搜索的DSM：

在各种测试的实现中，当训练用于上下文实体搜索的DSM时，源文档s的上下文由突出的文本段和由覆盖突出文本之前和之后的文本的200词语窗口(或其他大小窗口)定义的其周围文本组成。注意，在突出文本在文档的开始或结束的情况下，窗口大小可以根据在突出段前面或后面的文本量(如果有的话)而减少。s中的焦点是突出的文本段。目标文档t由网页的纯文本组成。t中的焦点被定义为t中的前10个标记或词语，但是如上文所讨论的，焦点可以是更大或更小的，并且不需要限于文档中的第一词语。

2.4.2 训练用于自动突出和预取的DSM：

在各种测试的实现中，当训练DSM自动突出和预取任务二者时，这些任务被模拟如下。特别地，从该文档中的锚点的集合绘制可以使文档的读者感兴趣的所有候选概念、实体和主题。对于每个文档锚点对而言，源-目标对(s,t)被表示如下：源文档s是用户阅读的文档的纯文本。s中的焦点是锚点文本。目标文档t被表示为连接到锚点的文档的纯文本。t中的焦点被定义为t中的前10个标记或词语，但是焦点可以是更大或更小的，并且不需要限于文档中的第一词语。

2.5 使用DSM：

在各种测试的实现中，DSM以各种方式被用于实现三个上文所描述的兴趣度任务：(1)作为特征生成器；和(2)作为兴趣度函数σ的直接实现。

关于特征生成，DSM的输出层可以看作语义特征集，其可以被包含在特定任务的数据上区别地训练的模型中。给定源-目标文档对(s,t)，DSM生成600个特征(即，分别来自每个s和t的输出层y_s和y_t的300个)。然而，如上文所讨论的，在章节2.2.2中，应当理解，300维度的使用是出于测试目的使用的简单设计选择并且可以使用任何数目的维度。

关于兴趣度函数σ的直接实现，如上文所描述的，使用其对应的特征向量(y_s和y_t)之间的余弦相似性来测量针对文档对的兴趣度得分。类似地，在运行时间，σ＝sim_θ(s,t)被定义为式(8)。然而，应当理解，所得的特征向量可以映射到各种空间，其中任何各种距离或相似性度量然后被应用到所得的特征向量以计算兴趣度得分。

2.5.1 使用针对上下文实体搜索的训练的DSM：

在该任务中，用户突出表示她对学习更多感兴趣相关的文档中的实体的文本段，并且检索相关内容。为了将任务映射到式(1)的兴趣度函数σ，兴趣度建模器表示如上文所描述的源文档和目标文档。给定突出的文本段，兴趣度建模器通过将突出的文本作为查询发出给搜索引擎等来从web或任何其他文档存储或数据库检索目标文档的候选集合。兴趣度建模器然后使用训练的DSM以从用户最大地感兴趣的候选集自动地选择k个目标文档。

如上文所指出的，DSM用于在两个不同的设置中完成该任务，包括作为σ(单个模型)的直接实现和作为用于学习辨别模型(例如，学习的排序器)的特征生成器。对于σ(s,t)的排序器实现而言，兴趣度建模器使用增强的决策树，其包含如下面更详细讨论的大量的排序特征以及DSM特征。

例如，在测试的实现中，通过从web文档的流量加权集随机地采样文档集生成数据集。然后，兴趣度建模器使用现有的基于命名实体识别器的技术来从文档提取实体(例如，链接、人、地点、事物等)。每个实体名称然后作为查询被发出给搜索引擎，并且前100个所检索的文档被保持为候选目标文档(但是出于训练目的可以保持任何期望的数目)。

然后，对于每个实体名称而言，兴趣度建模器使用章节2.4.1中上文所描述的技术生成源-目标文档对的列表(针对每个目标文档一个列表)。所得的数据集包含10000个源文档(但是对于该数字没有意义，并且可以使用任何数目的源文档)。对于在各种测试的实现中考虑的源文档的特定集而言，每个源文档平均与87个目标文档相关联(此外，对于该数字没有特定意义)。最后，源-目标文档对根据兴趣度手动地被标记并且被用于训练增强的排序器模型(但是该相同信息可以被用于训练任何各种辨别模型)。出于解释的目的，假定这些标签在5级规模上(0至4)，其中4意味着目标文档对于源文档是最感兴趣的并且0意味着目标不具有兴趣，但是出于该目的，可以使用任何期望的规模。

所得的模型然后用于实现各种应用，包括但不限于其中k个感兴趣的文档被显示或被呈现给用户的排序应用和其中所有感兴趣的文档被呈现给用户的应用。在前k个排序的文档的情况下，这些前k个排序的文档(或者对这些文档的链接)根据其兴趣度得分而被呈现给分类的用户。在其中所有文档被呈现给用户的情况下，所有目标文档具有超过预定义(或用户可调节的)阈值的兴趣度得分。

例如，各种现有的排序技术(诸如双语主题模型(BLTM))使用生成模型，在生成模型中，语义表示是以非监督式方式使用最大似然性估计学习的隐藏语义主题的分布(即，最大化训练数据中的源-目标文档对的对数似然比)。相反，由兴趣度建模器学习的DSM使用监督式学习方法将文档表示为隐藏语义空间中的点(即，配对文档在该潜在空间中比未配对的文档更近)。换句话说，使用被定制为特定兴趣度任务的目标区别地训练DSM的模型参数，如上文所指出的。

除了训练方法中的差异之外，DSM和诸如BLTM的技术还使用不同的模型结构。例如，BLTM将文档视为词袋(因此丢失一些上下文信息(诸如词序和词间依存性))，并且使用线性投影生成文档的语义表示。另一方面，DSM将文本视为词语的序列以便获得局部和全局上下文二者，并且经由深度神经网络生成高度非线性语义特征。

在排序器设置中，由兴趣度建模器使用的兴趣度函数σ被定义为增强树排序器，其使用从(s,t)提取的大量的特征。在各种实现中，使用上文所描述的标记的数据集来训练排序器。如上文所概述的，该数据集包含10000个源文档，每个源文档平均具有87个目标文档。排序器的参数被训练以直接优化对训练数据计算的归一化折减累积增益(NDCG)得分。执行增强的轮，并且在每次迭代处，使用训练数据中的所有对来构建回归树。然后，基于验证数据，选择最终数目的树。

虽然所得排序器(用作单个模型)已经被观测为是相当有效的，但是将式(8)中计算的DSM得分作为一个单个特征集成到排序器中导致对该单个模型基线的显著的改进。通过将源文档和目标文档的DSM特征向量(即，总计600个特征，假定使用针对源文档和目标文档的K＝300个语义特征或主题)并入排序器中来获得DSM性能中的附加改进。

2.5.2 使用用于突出和预取任务的训练的DSM：

对于突出任务而言，由兴趣度建模器实现的应用选择源文档中的k个最感兴趣的文本段。类似地，在预取任务中，由兴趣度建模器实现的应用预取多达k个文档，使得下一用户点击可能是高速缓存的文档之一。在各种实现中，兴趣度建模器经由相同兴趣度模型但是具有不同目的投射并且实现这两个任务。

可以对上文所描述的源文档和目标文档的数据集的类型训练这两个任务(例如，页面转换或其他数据集)。给定数据集(或多个训练数据集)，兴趣度建模器使用每个源文档s中的锚点的集合来模拟当阅读s时用户可能感兴趣的候选事物的集合。进一步地，兴趣度建模器将由源文档s中的锚点链接的文档的文本视为目标文档t。

兴趣度建模器将突出和预取的任务投射为选择k个锚点，其最大化通过锚点链接到的所有文档中的合计累积兴趣度。注意，在测试的实现中，当点击被记录时，该点击被映射到链接到点击页面的第一出现锚点。然而，不存在用于映射到第一锚点的要求，并且任何锚点或多个锚点可以被用于映射目的。

因此，假定映射到第一锚点，这可以形式上表述如下。令A_s为s中的所有锚点的集合，并且令t_a为由锚点a∈A_s链接到的目标文档。兴趣度建模器然后根据以下式(10)选择A_s中的、最大化累积兴趣的k个锚点：

其中针对所有σ(s,t_a)＝0。

用于训练的特征可以被分类为非语义或语义的。从源文档s并且从浏览器日志中的用户会话信息获得非语义特征(NSF)。非语义文档特征包括但不限于文档中的锚点的位置、锚点的频率和段落中的锚点密度。非语义用户会话特征包括但不限于城市、国家、邮政编码、地区、用户的国家和时区以及星期几、时间、转换发生在周末相对工作日、用户年龄、用户性别、用户教育、用户收入等。可以或可以不是从浏览器日志或用户简档信息可获得这些非语义特征中的一些或全部。相反，根据每个浏览转换的源文档和目标文档计算语义特征。在兴趣度建模器的各种测试的实现中，从完全DSM或者其卷积层u和最大汇总层v净化的DSM的版本获得建模器语义特征，卷积层u和最大汇总层v这二者将输出层用作特征生成器，如在章节2.5中上文所描述的。

为了训练针对上文所描述的任务的DSM，兴趣度建模器以训练设定的各种方式选择锚点。例如，在各种实现中，兴趣度建模器选择k个随机锚点(RAND)。在其他实现中，兴趣度建模器选择每个文档中的前k个锚点。在另一实现中，兴趣度建模器选择每个文档中的后k个锚点。清楚地，在不脱离兴趣度建模器的意指范围的情况下，可以使用其他锚点选择场景。

注意，虽然上文所描述的任务设置允许对源文档和目标文档二者的内容的访问，但是存在其中在不查看目标文档的情况下系统可以预测用户对什么感兴趣的实际场景，这是因为标识针对感兴趣的每个候选概念、主题或实体的适合的目标文档的额外步骤是过分地低效的。还由兴趣度建模器实现这样的场景。还注意，在其中仅从源文档提取特征的情况下，已经观测到，语义特征的使用显著地增强DSM相对于单独的NSF的性能。然而，通过使用来自源文档和目标文档二者的特征获得经改进的性能。

2.6 附加的实现和考虑：

在各种实现中，给定由浏览事件的序列组成的整个用户会话，通过扩展用于对兴趣度建模的过程来进一步改进由兴趣度建模器学习的DSM。特别地，在会话中记录的先验浏览和交互历史提供用于预测兴趣度的附加信号。为了获得这样的信号，模型被扩展为对时间序列进行建模(例如，动作的因果关系和结果)。出于这样的目的，可以使用各种模型。基于递归神经网络的架构可以并入在此所描述的深度语义模型以对用户会话进行建模。

3.0 兴趣度建模器的操作概述：

关于图1到图4上文所描述的过程的一些过程，通过图5的一般操作流程图图示了章节1和2中上文所提供的详细描述的进一步示图。特别地，图5提供了概括兴趣度建模器的各种实现中的一些实现的操作的示例性操作流程图。注意，图5并不旨在为在此所描述的兴趣度建模器的各种实现的全部的详尽表示，并且仅出于解释的目的提供图5中所表示的实现。

进一步地，应当注意，可以由图5中的断线或虚线表示的任何框和框之间的相互连接表示在此所描述的兴趣度建模器的可选或备选实现。另外，如下文所描述的，这些可选或备选实现中的任何或全部可以组合贯穿在该文档锁描述的其他备选实现一起使用。

总体上，如由图5所图示的，兴趣度建模器通过接收(500)源文档和目标文档对120的集合或集来开始DSM的创建。兴趣度建模器然后标识(510)针对源文档和目标文档对120的集合中的每个源文档和每个目标文档的分离的上下文。另外，兴趣度建模器可选地标识针对每个源文档和每个目标文档的分离焦点。

然后，兴趣度建模器将每个上下文映射(520)到分离的向量，并且可选地将每个焦点映射到分离的向量。一旦这些向量已经被创建，兴趣度建模器然后将上下文向量中的每个上下文向量映射(530)到神经网络的卷积层，并且还可选地将焦点向量映射到神经网络的卷积层。还注意，如果针对文档标识焦点，那么兴趣度建模器将该文档的焦点和上下文二者映射到一个向量中。兴趣度建模器然后通过将卷积层映射(540)到神经网络的多个隐藏层而继续。

最后，兴趣度建模器通过学习神经网络的各层之间的多个转换中的每个转换的权重，使得学习的权重最小化感兴趣的源文档和目标文档的向量之间的距离，生成(550)兴趣度的学习的DSM 150。如贯穿在该文档所讨论的，然后使学习的DSM可用于多个使用，包括但不限于使用DSM的特征来构建排序模型等。

4.0 示例性操作环境：

在此所描述的兴趣度建模器在许多类型的通用或专用计算机系统环境或配置中是可操作的。图6图示了在其上可以实现如在此所描述的兴趣度建模器的各种实现和元件的通用计算机系统的简化示例。应当注意，由图6中的断线或虚线所表示的任何框表示简化计算设备的备选实现，并且如下文所描述的，这些备选实现中的任何或全部可以组合贯穿该文档所描述的其他备选实现一起使用。

例如，图6示出了通用系统图，其示出简化计算设备600。利用兴趣度建模器可操作的这样的设备的示例包括但不限于便携式电子设备、可穿戴计算设备、手持式计算设备、膝上型或移动计算机、通信设备(诸如蜂窝电话、智能电话和PDA)、微处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子产品、网络PC、小型计算机、音频或视频媒体播放器、手持式远程控制设备等。还注意，可以利用与各种各样的电器设备或对象通信或耦合的任何触摸屏或触敏表面来实现兴趣度建模器。

为了允许设备实现兴趣度建模器，计算设备600应当具有足够的计算能力和系统存储器以使能基本计算操作。另外，计算设备600可以包括一个或多个传感器，包括但不限于加速度计、照相机、电容性传感器、接近传感器、麦克风、多光谱传感器等。进一步地，计算设备600还可以包括用于在兴趣度建模器的各种实现中使用的可选的系统固件625(或其他固件或处理器可访问的存储器或存储装置)。

如由图6所图示的，计算设备600的计算能力通常由一个或多个处理单元610图示，并且还可以包括一个或多个GPU 615，其中的一者或二者与系统存储器620通信。注意，计算设备600的一个或多个处理单元可以是专用微处理器(诸如DSP、VLIW或其他微控制器)或可以是具有一个或多个处理核心(包括多核心CPU中的基于专用GPU的核心)的常规CPU。

另外，简化计算设备600还可以包括其他部件(诸如例如通信接口630)。简化计算设备600还可以包括一个或多个常规计算机输入设备640或这样的设备的组合(例如，触摸屏、触敏表面、指点设备、键盘、音频输入设备、基于声音或语音的输入和控制设备、视频输入设备、触觉输入设备、用于接收有线或无线数据传输的设备等)。简化计算设备600还可以包括其他可选部件，诸如例如一个或多个常规计算机输出设备650(例如，一个或多个显示设备655、音频输出设备、视频输出设备、用于发送有线或无线数据传输的设备等。注意，针对通用计算机的典型的通信接口630、输入设备640、输出设备650和存储设备660对本领域的技术人员而言是众所周知的，并且将不在在此进行详细描述。

简化计算设备600还可以包括各种计算机可读介质。计算机可读介质可以是可以经由存储设备660被访问的任何可用的媒体，并且包括对于信息(诸如计算机可读或计算机可执行指令、数据结构、程序模块或其他数据)的存储可移除670和/或不可移除680的易失性和/或非易失性介质二者。以示例而非限制的方式，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质指代有形计算机或机器可读介质或存储设备，诸如DVD、CD、软盘、磁带驱动器、硬盘驱动器、光学驱动器、固态存储器设备、RAM、ROM、EEPROM、闪速存储器或其他存储器技术、磁带盒、磁带、磁盘存储装置或其他磁性存储设备或可以用于存储期望的信息并且可以由一个或多个计算设备访问的任何其他设备。

信息(诸如计算机可读或计算机可执行指令、数据结构、程序模块等)的存储还可以通过使用任何各种前述通信介质完成，以编码一个或多个经调制的数据信号或载波或其他传输机制或通信协议，并且包括任何有线或无线信息递送机制。注意，术语“经调制的数据信号”或“载波”通常指代具有其特性集中的一个或多个或以关于将信息编码在信号中的这样的方式改变的信号。例如，通信介质包括有线介质(诸如承载一个或多个经调制的数据信号的有线网络或直接有线连接)和无线介质(诸如声音、射频(RF)、红外、激光和用于发送和/或接收一个或多个经调制的数据信号或载波的其他无线介质)。以上任何组合还应当被包括在通信介质的范围内。

信息(诸如计算机可读或计算机可执行指令、数据结构、程序模块等)的存储还可以通过使用任何各种前述通信介质完成，以编码一个或多个经调制的数据信号或载波或其他传输机制或通信协议，并且包括任何有线或无线信息递送机制。注意，术语“经调制的数据信号”或“载波”通常指代具有其特性集中的一个或多个特性或以关于将信息编码在信号中的这样的方式改变的信号。例如，通信介质可以包括有线介质(诸如承载一个或多个经调制的数据信号的有线网络或直接有线连接)和无线介质(诸如声音、射频(RF)、红外、激光和用于发送和/或接收一个或多个经调制的数据信号或载波的其他无线介质)。以上任何组合还应当被包括在通信介质的范围内。

进一步地，可以从计算机或机器可读介质或存储设备和以计算机可执行指令或其他数据结构的形式的通信介质的任何期望的组合存储、接收、发送或取回实现在此所描述的兴趣度建模器的各种实现的一些或全部或其部分的软件、程序、和/或计算机程序产品。

最后，还可以在由计算设备执行的计算机可执行指令(诸如程序模块)的一般上下文中描述在此所描述的兴趣度建模器。通常，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。还可以在其中任务由一个或多个远程处理设备执行的分布式计算环境中或在通过一个或多个通信网络链接的一个或多个设备的云内实践在此所描述的实现。在分布式计算环境中，程序模块可以位于包括介质存储设备的本地计算机存储介质和远程计算机存储介质二者中。更进一步地，前述指令可以部分或全部被实现为硬件逻辑电路，其可以或可以不包括处理器。

出于图示和描述的目的，已经呈现兴趣度建模器的前述描述。其不旨在是详尽的或者将所要求保护的主题限于所公开的精确形式。鉴于以上教导，许多修改和变型是可能的。进一步地，应当注意，前述备选实现中的任何或全部可以以期望形成兴趣度建模器的附加混合实现的任何组合使用。应当预期到，本发明的范围不由该详细描述而是由随附到其的权利要求所限制。虽然已经以特定于结构特征和/或方法动作的语言描述了主题，但是应理解到，随附的权利要求中定义的主题不必限于上文所描述的特定特征或动作。相反，上文所描述的特定特征和动作被公开为实现权利要求的示例形式。

Claims

1.一种计算机实现的方法，包括：

应用计算机执行过程动作以用于：

接收源文档和目标文档对的集合；

标识针对每个源文档的分离的上下文，针对每个源文档的所述上下文包括所述源文档内的选择以及所述源文档中的、该选择周围的多个词语的窗口；

标识针对每个目标文档的分离的上下文，针对每个目标文档的所述上下文包括该目标文档中的第一固定数目个词语；

将每个上下文映射到分离的向量；

将所述向量中的每个向量映射到神经网络的卷积层；

将所述卷积层映射到所述神经网络的多个隐藏层；

通过学习针对所述神经网络的所述层之间的多个转换中的每个转换的权重使得所学习的所述权重最小化所述源文档与所述目标文档的所述上下文的所述向量之间的距离，来生成学习的兴趣度模型；

所述兴趣度模型被配置为：当用户在消费任意源文档时，鉴于从该任意源文档提取的上下文和从任意目标文档提取的上下文，确定转换到该任意目标文档的用户兴趣的条件似然性；以及

应用所述兴趣度模型，以相对于由所述用户消费的任意源文档，向所述用户推荐一个或多个任意目标文档。

2.根据权利要求1所述的计算机实现的方法，还包括：

标识针对每个源文档和每个目标文档的焦点；以及

其中所述分离的向量通过将每个源文档和每个目标文档的所述焦点和所述上下文映射到所述分离的向量而被构建。

3.根据权利要求1所述的计算机实现的方法，还包括：将所述学习的兴趣度模型应用到一个或多个任意源文档以从这些任意源文档提取语义特征。

4.根据权利要求1所述的计算机实现的方法，还包括：将所述学习的兴趣度模型应用到一个或多个任意目标文档以从这些任意目标文档提取语义特征。

5.根据权利要求1所述的计算机实现的方法，还包括：根据所述学习的兴趣度模型的输出层来生成特征矢量，并且应用这些特征矢量作为输入以训练辨别模型。

6.根据权利要求5所述的计算机实现的方法，其中所述辨别模型是通过执行增强轮的多次迭代而训练的增强树排序器，其中每一轮构建一个回归树。

7.根据权利要求5所述的计算机实现的方法，其中所述辨别模型用于自动地突出由所述用户消费的任意文档中的感兴趣内容。

8.根据权利要求5所述的计算机实现的方法，其中所述辨别模型用于自动地执行针对由所述用户消费的任意文档中自动地标识的一个或多个实体、针对所述用户可能感兴趣的实体的上下文实体搜索。

9.根据权利要求5所述的计算机实现的方法，其中所述辨别模型用于自动地预取消费任意文档的用户可能感兴趣的一个或多个文档。

10.根据权利要求5所述的计算机实现的方法，其中所述辨别模型用于自动地推荐消费任意文档的用户可能感兴趣的一个或多个项。

11.根据权利要求1所述的计算机实现的方法，其中所述神经网络使用包括以下各项的层被构建：

输入层，其包括从所述上下文获得的向量；

所述卷积层，其经由第一线性投影矩阵连接到所述输入层，所述卷积层从所述输入层的所述向量提取语义特征；

最大汇总层，其经由最大汇总操作连接到所述卷积层；

所述多个隐藏层，其经由第二线性投影矩阵连接到所述最大汇总层；以及

输出层，其经由第三线性投影矩阵连接到所述多个隐藏层。

12.根据权利要求1所述的计算机实现的方法，其中所述源文档中的一个或多个源文档的所述上下文是一个或多个锚点组合所述锚点周围的词语的窗口。

13.根据权利要求2所述的计算机实现的方法，其中所述目标文档中的一个或多个目标文档的所述焦点是所述目标文档的开始处的固定数目个词语。

14.根据权利要求1所述的计算机实现的方法，其中所述源文档中的一个或多个源文档的所述上下文是在那些源文档中标识的多个实体中的每个实体周围的词语的预定义的大小窗口。

15.根据权利要求2所述的计算机实现的方法，其中源文档的所述焦点是所述源文档中的一个或多个所选词语。

16.一种计算机系统，包括：

通用计算设备；以及

计算机程序，所述计算机程序包括由所述计算设备可执行的程序模块，其中所述计算设备由所述计算机程序的所述程序模块引导以：

接收源文档和目标文档对的集合；

标识针对每个源文档和每个目标文档的分离的焦点和分离的上下文；

每个源文档的所述上下文包括对所述源文档内的一个或多个词语的选择以及所述源文档中的、该选择周围的多个词语的窗口；

每个源文档的焦点包括所述源文档内的所选锚点；

每个目标文档的所述上下文包括该目标文档中的第一固定数目的第一词语；

每个目标文档的焦点包括该目标文档中的第二固定数目的第一词语，所述第二固定数目小于所述第一固定数目；

将每个焦点的所述词语映射到分离的向量并且将每个上下文的所述词语映射到分离的向量；

针对每个文档，将对应的焦点和上下文向量连结为组合向量；

将所述组合向量中的每个组合向量映射到神经网络的卷积层；

将所述卷积层映射到所述神经网络的隐藏层；

通过学习针对所述神经网络的所述层之间的多个转换中的每个转换的权重使得所学习的所述权重最小化所述源文档与所述目标文档的所述组合向量之间的距离，来生成学习的兴趣度模型；

17.根据权利要求16所述的系统，还包括：根据所述学习的兴趣度模型的输出层来生成特征矢量，并且应用这些特征矢量作为输入以训练辨别模型。

18.根据权利要求16所述的系统，其中将每个焦点的所述词语映射到分离的向量还包括：形成针对每个焦点中的每个词语的独热向量和三字母向量。

19.一种计算机可读存储设备，其具有存储在其中的计算机可执行指令，所述指令使得计算设备执行方法，所述方法包括：

接收源文档和目标文档对的集合；

标识针对每个源文档和每个目标文档的分离的上下文；

针对每个源文档的所述上下文包括所述源文档内的选择以及所述源文档中的、该选择周围的多个词语的窗口；

针对每个目标文档的所述上下文包括该目标文档中的第一预定数目个词语；

将每个上下文映射到分离的向量；

将所述向量中的每个向量映射到神经网络的卷积层；

将所述卷积层映射到所述神经网络的多个隐藏层；

通过学习针对所述神经网络的所述层之间的多个转换中的每个转换的权重使得所学习的所述权重最小化所述源文档与目标文档的所述向量之间的距离，来生成学习的兴趣度模型；

根据所述学习的兴趣度模型的输出层来训练辨别模型；以及

应用所述辨别模型以自动突出由用户消费的任意源文档中的内容。