CN111813888A

CN111813888A - 训练目标模型

Info

Publication number: CN111813888A
Application number: CN201910295236.5A
Authority: CN
Inventors: 李雪; 罗志鹏; 孙浩; 张建晋; 韩维浩; 初显奇; 张良杰; 张祺
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2019-04-12
Filing date: 2019-04-12
Publication date: 2020-10-23
Also published as: WO2020209966A1

Abstract

本公开提供了一种用于训练目标模型的方法和装置。可以利用第一数据集合来训练至少一个参考模型。可以通过所述至少一个参考模型来对第二数据集合和第三数据集合分别进行评分。可以利用经评分的第二数据集合来训练所述目标模型。可以利用经评分的第三数据集合来优化所述目标模型。

Description

训练目标模型

背景技术

随着机器学习、深度学习、神经网络等技术的发展，各种各样的基于这些技术的模型得以不断地开发和应用。以搜索引擎为例，使用搜索引擎在网络上查找特定内容已成为计算机用户日常生活的一部分。在接收到用户的搜索查询之后，搜索引擎首先利用已经训练好的匹配模型来从预先建立的索引数据库中召回(recall)与该查询相关的特定数量的文档，随后对这些文档进行后续处理，例如，相关性过滤、排序等，最后选择排序最高的一系列文档呈现给用户。由于所有这些后续处理仅针对召回的文档执行，因此匹配模型需要被训练为能够召回与查询最相关的文档。此外，作为搜索过程的前期步骤，匹配模型对文档的召回需要足够迅速，以应对密集的用户查询请求以及用户对响应的即时性需求。

发明内容

提供本发明内容以便介绍一组概念，这组概念将在以下的具体实施方式中做进一步描述。本发明内容并非旨在标识所保护主题的关键特征或必要特征，也不旨在用于限制所保护主题的范围。

本公开的实施例提供了一种用于训练目标模型的方法和装置。可以利用第一数据集合来训练至少一个参考模型。可以通过所述至少一个参考模型来对第二数据集合和第三数据集合分别进行评分。可以利用经评分的第二数据集合来训练所述目标模型。可以利用经评分的第三数据集合来优化所述目标模型。

应当注意，以上一个或多个方面包括以下详细描述以及权利要求中具体指出的特征。下面的说明书及附图详细提出了所述一个或多个方面的某些说明性特征。这些特征仅仅指示可以实施各个方面的原理的多种方式，并且本公开旨在包括所有这些方面和其等同变换。

附图说明

以下将结合附图描述所公开的多个方面，这些附图被提供用以说明而非限制所公开的多个方面。

图1是示例性的快速匹配模型的示意图。

图2示出了根据本公开的实施例的通过参考模型来训练目标模型的示例性过程。

图3是示例性的底层交叉匹配模型的示意图。

图4示出了根据本公开的实施例的通过多任务学习来训练参考模型的示例性过程。

图5示出了根据本公开的实施例的优化目标模型的示例性过程。

图6是根据本公开的实施例的用于训练目标模型的示例性方法的流程图。

图7示出了根据本公开的实施例的用于训练目标模型的示例性装置。

图8示出了根据本公开的实施例的用于训练目标模型的示例性装置。

具体实施方式

现在将参考多种示例性实施方式来讨论本公开。应当理解，这些实施方式的讨论仅仅用于使得本领域技术人员能够更好地理解并从而实施本公开的实施例，而并非教导对本公开的范围的任何限制。

目前，在搜索引擎中通常采用快速匹配模型来从预先建立的索引数据库中召回与查询相关的文档。在本文中，快速匹配模型指轻量级且底层可分开的模型，其可以将查询和文档单独地转换成公共内积空间中的表示向量而不需要在模型底层知晓彼此。常见的快速匹配模型包括，例如，深度结构语义模型(DSSM)、卷积深度结构语义模型(CDSSM)等。

图1是示例性的快速匹配模型100的示意图。如图1所示，快速匹配模型100的输入可以包括查询110和文档120。在一个方面，针对查询110，快速匹配模型100可以包括：嵌入层112，用于将输入词序列中的每个词转换成特征向量；卷积层114，用于提取每个词周围的基于滑动窗口的上下文特征；池化层116，用于选取最重要的上下文特征；以及语义层118，用于表示输入词序列的高层语义特征向量。在另一个方面，针对文档120，可以首先进行特征提取。所提取的特征可以例如包括以下至少一个：关键字122，其表征文档120的核心话题；文档标题124，其指示文档120的标题；统一资源定位符(URL)126，其指示文档120在互联网上的地址；描述128，其概括了文档120的主要内容；以及登陆页面(LP)标题130，其指示与文档120相对应的LP的标题。在本文中，LP指用户在点击了搜索结果页面上的某一链接之后所到达的与该链接相对应的页面。针对从文档120中提取的上述特征，快速匹配模型100可以包括嵌入层132、卷积层134、池化层136以及语义层138，这些层的功能分别与针对查询110的相应层的功能相类似。此外，快速匹配模型100还可以包括评分层180，其用于确定在从语义层118输出的查询110的特征向量与从语义层138输出的文档120的特征向量之间的相关性。应当理解，图1所示的快速匹配模型100仅仅是现有快速匹配模型的一个示例。根据实际应用需求，快速匹配模型可以具有任意其它结构，并且可以包括更多或更少的层。

在一些情况下，快速匹配模型可以预先在索引数据库中存储针对大量的文档所计算的特征向量，以便减少在线计算量。例如，对于大量的文档，可以预先通过图1所示的嵌入层132、卷积层134、池化层136以及语义层138等分别计算这些文档的特征向量，并且存储在索引数据库中。当接收到来自用户的查询请求时，快速匹配模型可以仅对查询执行特征向量的计算，例如，通过图1所示的嵌入层112、卷积层114、池化层116以及语义层118等。然后，通过将查询的特征向量与索引数据库中存储的文档的特征向量进行相关性匹配，来检索出与该查询相匹配的文档。例如，可以通过使用近邻搜索算法来高效地执行所述相关性匹配。从而，通过快速匹配模型，可以快速地从索引数据库中召回与输入的查询相关的文档。

如图1所示，快速匹配模型100将查询端和文档端分开，分别对查询110和文档120执行向量转换。由于查询和文档直到评分层才进行交互，因此，在进行向量转换时，快速匹配模型常常丢失对于查询和文档之间的匹配而言重要的信息，这将会极大地限制匹配模型的性能，从而影响召回的文档的准确性。此外，快速匹配模型通常是在具有人为提供的相关性标注的训练数据上训练的。这样的训练数据是昂贵的且需要耗时去收集的，因而数量是有限的。然而，快速匹配模型的性能却依赖于是否有大量的具有相关性标注的训练数据。

因此，改进快速匹配模型的性能，以更准确更快速地召回与查询相关的文档是期望的。然而，这种改进存在许多挑战。

在一个方面，可以尝试使用具有更复杂结构的匹配模型来代替快速匹配模型，以实现更好的匹配准确度。这样的匹配模型可以是例如底层交叉匹配模型。在本文中，底层交叉匹配模型指输入查询和文档在嵌入层之后便立即交互的模型。常见的底层交叉匹配模型包括深度交叉模型(Deep Crossing Model)、决策树集合模型(Decision Tree EnsembleModel)、深度交叉网络模型(Deep Cross Network Model)等。由于在底层交叉匹配模型中，查询和文档在嵌入层之后便立即交互，底层交叉匹配模型的这种结构可以提供比快速匹配模型更好的性能，但同时运算复杂度也大为增加。在实际应用中，来自用户的查询请求是极度密集的。作为执行搜索过程的前期步骤，从索引数据库中召回与查询相匹配的文档必须快速地执行。因此，底层交叉匹配模型不能直接部署用于执行对文档的召回。

在另一个方面，在一些技术中提出了利用不带相关性标注的数据来训练快速匹配模型，以作为人为标注的训练数据的替代。例如，提出了利用搜索日志数据来训练快速匹配模型。在这种情况下，通常采用用户点击作为人为提供的相关性标注的替代。例如，将被用户点击过的查询-文档对视为是相关的，而将一个查询与其它随机抽取的文档所合成的查询-文档对视为是不相关的。然而，这种利用搜索日志数据的方式存在许多问题。例如，用户行为的任意性和主观性会导致用户点击与实际相关性之间的偏差，并且所合成的不相关的查询-文档对也很可能包含实际上相关的查询-文档对，这都将降低训练数据的准确性，造成对训练数据的“污染”。此外，为了以更细的粒度区分相关性，人为提供的标注通常是分级的，例如通过“0”到“5”的6个值来表示不同级别的相关性，其中数值越大表示越相关。这样的标注可能是难以通过基于用户点击对搜索日志数据进行处理来近似的。

本公开的实施例提出了通过改进的训练过程来提高目标模型的性能。例如，可以通过使用参考模型来训练目标模型。在本文中，目标模型指期望被训练的结构简单且能够部署的模型，例如，快速匹配模型，而参考模型指能够用于协助训练目标模型的结构相对复杂且通常不能直接部署的模型，例如，底层交叉匹配模型。应当理解，尽管以下讨论涉及了利用底层交叉匹配模型来训练快速匹配模型的示例，但本公开的实施例并不局限于此，而是可以以类似的方式来利用其它类型的参考模型训练其它类型的目标模型。

在一个方面，根据本公开的实施例，可以利用参考模型来对大量的不带标注的数据集合进行评分，以获得用于训练目标模型的大量训练数据。例如，不带标注的数据集合可以包括搜索日志数据，该搜索日志数据可以包括来自于搜索引擎的大量搜索过程的查询和文档等，因而其数量是庞大的。由于参考模型可以是具有更高性能的模型，其对数据集合中的样本的评分将具有较高的准确性，也可以更好地近似人为标注。可以利用所获得的大量训练数据来训练目标模型。由于这些训练数据的数量将大大超过可获得的人为标注的训练数据，并且这些训练数据中的分数具有较高的准确性，因此，这将有助于训练出更好性能的目标模型。

在另一个方面，本公开的实施例还可以利用参考模型来进一步优化所训练的目标模型。可以利用参考模型对另一组带标注的数据集合进行评分，以获得经评分的带标注的数据集合。该经评分的带标注的数据集合中的每个样本都包括标注和参考模型提供的分数。可以利用这些具有标注和分数两者的样本来优化所训练的目标模型。

在又一个方面，本公开的实施例还提出了针对参考模型的有效的训练方式。例如，可以通过联合地学习多个相关任务来训练参考模型，以使其能够以更高的精确性以更细的粒度来区分相关性。

图2示出了根据本公开的实施例的通过参考模型来训练目标模型的示例性过程200。作为示例，目标模型可以是快速匹配模型。

首先，可以获得用于训练参考模型的第一数据集合210。第一数据集合210可以例如是带标注的数据集合。第一数据集合210可以包括多个样本。每个样本可以包括查询、文档和标注，例如表示为三元组<查询，文档，标注>，其中标注可以指示查询和文档之间的相关性。

第一数据集合210中的标注可以是人为添加的或者是以任何其它方式添加的。可以对第一数据集合210中的每个查询-文档对的相关性进行评分，并且给出指示该查询-文档对的相关性的标注。人为添加的标注是相对可信的，所以被认为是“强标注”。此外，为了以细粒度区分相关性，第一数据集合210中的标注通常是分级的枚举型标注，例如通过一组相关性值来表示不同等级的相关性，其中相关性值越大指示越相关。作为示例，标注的相关性值可以是{0,1,2,3,4,5}，其中“0”指示不相关，“5”指示最相关。

在一种情况下，对于同一个查询-文档对，可以存在两类标注。第一类标注是文档副本标注，其指示查询与文档副本之间的相关性。在本文中，文档副本指用户在搜索结果页面上可以看到的关于该文档的信息。第二类标注是登陆页面标注，其指示查询与登陆页面之间的相关性。在本文中，登陆页面指用户在点击了搜索结果页面上的与某个文档对应的链接之后所到达的页面。样本的三元组<查询，文档，标注>中的“标注”可以分别包括文档副本标注和登陆页面标注，或者可以是基于文档副本标注和登陆页面标注所获得的综合标注。

在220处，可以通过构建一组任务来将第一数据集合210中的每个枚举型标注转换成一组二进制标注，以获得经转换的第一数据集合210。这种转换能够更充分地利用枚举型标注所提供的细粒度信息。在本文中，二进制标注可以包括指示查询和文档相关的正标注，例如，“1”，以及指示查询和文档不相关的负标注，例如，“0”。在训练匹配模型时，将枚举型标注转换成二进制标注将可以提升匹配模型的性能。

通常，一个枚举型标注会被唯一地转换成正标注和负标注。例如，在标注具有“0”到“5”的6个相关性值的情况下，相关性值为“0”的标注被转换成负标注，而相关性值大于“0”的标注均被转换成正标注。然而，这种转换并未考虑到值大于“0”的标注之间的区分度。例如，相关性值为“2”和“3”的标注都被转换成正标注。与此不同，在本公开的实施例中，一个枚举型标注并非被唯一地转换成正标注和负标注，而是通过一组任务被转换成一组二进制标注，以便增加不同相关性值之间的区分度。

在230处，可以利用经转换的第一数据集合210来训练至少一个参考模型。应当注意的是，由于在220处构建任务的操作是可选的，因此，也可以直接利用第一数据集合210来训练至少一个参考模型。

在一种实施方式中，参考模型可以是例如底层交叉匹配模型。图3是示例性的底层交叉匹配模型300的示意图。如图3所示，底层交叉匹配模型300的输入可以包括查询310和文档320。在一个方面，针对查询310，底层交叉匹配模型300可以包括嵌入层340以对查询310进行转换。在另一个方面，针对文档320，可以首先进行特征提取。所提取的特征可以例如包括以下至少一个：关键字322、文档标题324、URL 326、描述328以及LP标题330。针对从文档320中提取的上述特征，底层交叉匹配模型300可以包括嵌入层342、344、346、348和350，以对文档320的各个特征分别进行转换。然后，嵌入层340至350的输出可以一起被提供到堆叠层360，以便被堆叠成一个特征向量并提供给残差层370。残差层370由残差单元构成，残差单元可以在使原始输入特征通过例如两层修正线性单元(ReLU)变换后，将经变换的输入特征与原始输入特征进行按维度相加。最后，由评分层380对特征向量进行评分，以指示查询310与文档320之间的相关性。应当理解，图3所示的底层交叉匹配模型300仅仅是底层交叉匹配模型的一个示例。根据实际应用需求，底层交叉匹配模型可以具有任意其它结构，并且可以包括更多或更少的层。

应当理解，本公开的实施例可以采用单个参考模型或者多个参考模型来训练目标模型。因而，可以在230处训练单个参考模型或者分别训练多个参考模型。在多个参考模型的情况下，这些参考模型可以具有相同的模型结构，例如都是深度交叉模型，或者这些参考模型可以具有不同的模型结构，例如，深度交叉模型、决策树集合模型等的组合。在多个参考模型具有不同的模型结构的情况下，由于每一种参考模型都具有各自的优势，因而模型结构差异越大，后续组合起来获得的模型集合的性能就越强。

在过程200中，当在230处训练好至少一个参考模型之后，可以利用该至少一个参考模型对第二数据集合240进行评分，其中，该第二数据集合240将被用于形成用于训练目标模型的训练数据。第二数据集合240可以是例如不带标注的数据集合。第二数据集合240可以包括多个样本，每个样本至少包括查询和文档，并且具有例如<查询，文档>的结构。第二数据集合240中的样本可以基于例如搜索日志数据。

至少一个参考模型可以对第二数据集合240中的每个样本进行评分，以获得该样本的相关性分数。此处，通过参考模型所获得的相关性分数也被称为目标分数，其指示样本中的查询与文档之间的相关性，并且作为后续训练目标模型时的参考。经评分的第二数据集合240形成了第一评分数据集合250。第一评分数据集合250中的样本可以具有例如<查询，文档，目标分数>的结构。假设将第一评分数据集合250中的第i个样本的目标分数表示为s_i，其中0≤s_i≤1，则s_i越大指示查询与文档越相关。由于目标分数是参考模型给出的，与人为提供的标注相比而言可信度略低，因此其也被称为“弱标注”。

在一种实施方式中，如果所述至少一个参考模型包括一个以上的参考模型，则对于第二数据集合240中的每个样本，可以通过所述至少一个参考模型来对该样本中的查询和文档之间的相关性进行评分，以获得该样本的至少一个初始分数。随后，可以基于该至少一个初始分数来生成该样本的目标分数。例如，在所述至少一个参考模型包括两个参考模型的情况下，通过每个参考模型分别对该样本进行评分，从而获得该样本的两个初始分数。然后，可以基于这两个初始分数来生成该样本的目标分数。在一个示例中，可以对这两个初始分数进行算术平均，得到的结果作为该样本的目标分数。

如前所述，第二数据集合240中的样本可以基于搜索日志数据。由于搜索日志数据的数量是庞大的，因此通过参考模型对其进行评分，可以获得大量的经评分的搜索日志数据。从而，第一评分数据集合250中将包括大量的可用于训练目标模型的训练数据。

在260处，可以利用第一评分数据集合250来训练目标模型。该目标模型可以是例如快速匹配模型。在一种实施方式中，对于第一评分数据集合250中的每个样本，可以通过目标模型来对该样本进行评分，以获得该样本的相关性分数。此处，通过目标模型获得的相关性分数也可以被称为预测分数。然后，可以利用该样本的由参考模型提供的目标分数和由目标模型提供的预测分数两者来计算该样本的预测损失，并通过使该预测损失最小化来训练目标模型。

在过程200中，还可以利用至少一个参考模型对第三数据集合270进行评分，其中，该第三数据集合270将被用于形成用于优化所训练的目标模型的优化训练数据。第三数据集合270可以是例如带标注的数据集合。第三数据集合270可以包括多个样本，每个样本至少包括查询、文档以及人为提供或以其它方式提供的标注，并且具有例如<查询，文档，标注>的结构，其中，标注指示了查询和文档之间的相关性。对于第三数据集合270中的每个样本，可以通过至少一个参考模型对该样本进行评分，以获得该样本的相关性分数。此处，通过参考模型所获得的相关性分数也被称为目标分数，其指示样本中的查询与文档之间的相关性，并且作为后续优化目标模型时的参考。经评分的第三数据集合270形成了第二评分数据集合280。第二评分数据集合280中的样本可以具有例如<查询，文档，标注，目标分数>的结构。利用至少一个参考模型对第三数据集合270进行评分的方式可以与利用至少一个参考模型对第二数据集合240进行评分的方式类似。

在290处，可以利用第二评分数据集合280来优化在260处所训练的目标模型。对于第二评分数据集合280中的每个样本，可以通过目标模型来对该样本进行评分，以获得该样本的相关性分数，其也可以被称为预测分数。然后可以利用该样本中的标注、由参考模型提供的目标分数以及由目标模型提供的预测分数的组合来计算与该样本对应的预测损失，并通过使该预测损失最小化来优化目标模型。

通过过程200所最终获得的目标模型可以被在线部署用于执行对文档的召回，而所述至少一个参考模型则仅在离线情况下运行用于训练目标模型。应当理解，在本文中，利用参考模型来训练目标模型既可以涵盖在260处对目标模型的初始训练操作，也可以涵盖在290处对所训练的目标模型的优化操作。

本公开的实施例提出了通过多任务学习(MTL)来训练参考模型的方法。在本文中，MTL指使用枚举型标注来构建多个相关任务并通过联合地学习这多个任务来训练模型。在参考模型训练时，使用MTL可以更充分地利用枚举型标注所提供的细粒度信息。

图4示出了根据本公开的实施例的通过MTL来训练参考模型的示例性过程400。过程400可以对应于图2中的操作220和230。

在402处，可以通过一组任务来将用于训练参考模型的数据集合的样本中的枚举型标注转换成一组二进制标注。该数据集合例如为图2中的第一数据集合210。所述一组二进制标注的数量可以等于或小于枚举型标注的值的维度。枚举型标注可以包括多个相关性值，例如{0,1,2,3,4,5}。二进制标注可以包括指示查询与文档相关的正标注，例如，“1”，以及指示查询与文档不相关的负标注，例如，“0”。用于将一个枚举型标注转换成一组二进制标注的一组任务可以基于各自的分界值来将该枚举型标注转换成正标注和负标注。在这个示例中，每个任务的分界值可以取自于，例如，{0,1,2,3,4}中的一个。在一个特定的任务中，相关性值小于或等于分界值的枚举型标注被转换成负标注，而相关性值大于分界值的枚举型标注被转换成正标注。

在一种实施方式中，所述一组任务可以包括主要任务和至少一个辅助任务。主要任务可以指分界值为枚举型标注的多个相关性值中将查询与文档之间的相关性划分成相关与不相关的临界值的任务，并且辅助任务可以指分界值为这多个相关性值中除临界值以外的其它值的任务。多个相关性值中的小于或等于所述临界值的相关性值可以指示查询与文档不相关，而多个相关性值中的大于临界值的相关性值可以指示查询与文档相关。例如，针对文档副本标注，临界值可以是“0”，从而相关性值“0”指示查询与文档不相关，而相关性值“1”或更大的值指示查询与文档相关。此外，例如，针对登陆页面标注，临界值可以是“1”，从而相关性值“0”和“1”指示查询与文档不相关，而相关性值“2”或更大的值指示查询与文档相关。表1示出了基于主要任务和辅助任务1-4的示例性标注划分。在该示例中，枚举型标注的相关性值为{0,1,2,3,4,5}且临界值为“0”。主要任务的分界值为“0”且可以对相关性值为“0”的标注和相关性值大于“0”的标注进行区分，而辅助任务1-4的分界值分别为“1”、“2”、“3”和“4”且可以分别对相关性值大于“0”的标注进行进一步区分。

任务	分界值	负标注(0)	正标注(1)
				主要任务	0	{0}	{1,2,3,4,5}
辅助任务1	1	{0,1}	{2,3,4,5}
				辅助任务2	2	{0,1,2}	{3,4,5}
辅助任务3	3	{0,1,2,3}	{4,5}
				辅助任务4	4	{0,1,2,3,4}	{5}

表1

表1示出了通过各个任务，哪些枚举型标注被转换成负标注，以及哪些枚举型标注被转换成正标注。例如，辅助任务3的分界值是“3”，通过辅助任务3，相关性值为{0,1,2,3}的枚举型标注被转换成负标注“0”，以及相关性值为{4,5}的枚举型标注被转换成正标注“1”。

在另一示例中，临界值可以是“1”。在这种情况下，主要任务的分界值为“1”。在主要任务中，相关性值为{0,1}的枚举型标注被转换成负标注“0”，以及相关性值为{2,3,4,5}的枚举型标注被转换成正标注“1”。辅助任务1-4的分界值分别为“0”、“2”、“3”和“4”。例如，辅助任务1的分界值可以为“0”。在辅助任务1中，相关性值为{0}的枚举型标注被转换成负标注“0”，以及相关性值为{1,2,3,4,5}的枚举型标注被转换成正标注“1”。

通过上述包括主要任务和辅助任务的一组任务，可以将一个枚举型标注转换成一组二进制标注。此外，所述一组任务可以对相关性值大于“0”的枚举型标注进行区分，从而可以对细粒度的分级标注加以利用。以样本<查询m，文档k，2>为例，其中“2”为指示“查询m”与“文档k”之间的相关性的枚举型标注。通过如表1所示的上述一组任务，该枚举型标注“2”可以被转换成分别与主要任务和辅助任务1-4对应的一组二进制标注“1”、“1”、“0”、“0”和“0”。再以样本<查询m，文档k，3>为例，其中“3”为指示“查询m”与“文档k”之间的相关性的枚举型标注。通过如表1所示的上述一组任务，该枚举型标注“3”可以被转换成分别与主要任务和辅助任务1-4对应的另一组二进制标注“1”、“1”、“1”、“0”和“0”。可以看出的是，通过上述一组任务，枚举型标注“2”和枚举型标注“3”可以被转换成不同的两组二进制标注。

在404处，在通过一组任务将一个样本中的枚举型标注转换成一组二进制标注之后，可以通过对该样本中的查询和文档以及该组二进制标注进行组合，创建一组导出样本。在本文中，导出样本指至少包括查询、文档和二进制标注的样本，其中该二进制标注是通过所构建的任务而从枚举型标注转换而成的。

继续以样本<查询m，文档k，2>为例。通过如表1所示的上述主要任务和辅助任务，枚举型标注“2”可以被转换成一组二进制标注，即“1”、“1”、“0”、“0”和“0”。通过对“查询m”和“文档k”以及这组二进制标注进行组合，可以创建一组导出样本，例如<查询m，文档k，1>、<查询m，文档k，1>、<查询m，文档k，0>、<查询m，文档k，0>和<查询m，文档k，0>。

在创建了一组导出样本之后，过程400可以进而利用这组导出样本来训练参考模型。

在406处，可以利用参考模型对这组导出样本分别进行评分，以获得与该组导出样本分别对应的一组预测分数。此处，预测分数指参考模型对各个导出样本的查询和文档之间的相关性进行评分之后所提供的分数。

继续前面的示例，参考模型可以对样本<查询m，文档k，2>的一组导出样本<查询m，文档k，1>、<查询m，文档k，1>、<查询m，文档k，0>、<查询m，文档k，0>和<查询m，文档k，0>进行评分，以获得相应的一组预测分数，例如分别表示为s₀、s₁、s₂、s₃和s₄。

在408处，可以基于该组二进制标注和该组预测分数来计算与该组导出样本分别对应的一组预测损失。应当理解，本公开的实施例并不局限于任何特定的计算预测损失的方式。

继续前面的示例，可以基于该组二进制标注“1”、“1”、“0”、“0”和“0”以及该组预测分数s₀、s₁、s₂、s₃和s₄来计算与该组导出样本<查询m，文档k，1>、<查询m，文档k，1>、<查询m，文档k，0>、<查询m，文档k，0>和<查询m，文档k，0>分别对应的一组预测损失l₀、l₁、l₂、l₃和l₄。例如，以该组导出样本中的第2个导出样本<查询m，文档k，1>为例，可以利用该导出样本的二进制标注“1”和该导出样本的预测分数s₁来计算出该导出样本的预测损失l₁。

在410处，可以基于该组预测损失来生成综合预测损失。

在一种实施方式中，可以直接对该组预测损失中的每个预测损失进行求和来生成综合预测损失。

在另一种实施方式中，可以首先设置该组预测损失中的每个预测损失的加权系数，然后基于所设置的加权系数来对该组预测损失进行加权求和来生成综合预测损失。例如，可以基于导出样本所对应的任务来设置加权系数。例如，针对主要任务，加权系数可以被设置为0.5，而针对辅助任务，加权系数可以被均等设置，例如设置为(1-0.5)/n，其中n是辅助任务的数量。

在412处，可以通过使综合预测损失最小化来优化参考模型。

应当理解，在本公开的实施例使用一个以上的参考模型时，可以通过上述的过程400来分别训练不同的参考模型。

根据本公开的实施例，在参考模型被训练好之后，可以对不带标注的数据集合，例如图2中的第二数据集合240，进行评分，以获得用于训练目标模型的经评分的不带标注的数据集合，例如图2中的第一评分数据集合250。用于训练目标模型的数据集合可以包括结构为<查询，文档，目标分数>的多个样本，其中目标分数是参考模型在对样本中的查询与文档之间的相关性进行评分之后提供的。在一种实施方式中，在训练目标模型时，为了有效地利用参考模型提供的各个样本的目标分数，可以首先对目标分数进行转换，以获得导出分数。在本文中，导出分数指被直接用于训练目标模型的在各个样本中指示查询和文档之间的相关性的分数。在以下讨论中，将用于训练目标模型的数据集合中的第i个样本的目标分数表示为s_i，并且该样本的导出分数表示为y_i。

在一种实施方式中，导出分数y_i可以是目标分数s_i的原始值，如以下公式(1)所示：

y_i＝s_i (1)

在另一种实施方式中，可以基于阈值t₁对目标分数s_i进行转换以获得二进制的导出分数y_i“1”和“0”，如以下公式(2)所示：

在训练目标模型时，可以通过目标模型对用于训练目标模型的数据集合的各个样本中的查询和文档之间的相关性进行评分，以获得各个样本的预测分数。可以将第i个样本的预测分数表示为

在一种实施方式中，可以将第i个样本的损失l_i计算为加权平方损失，如以下公式(3)所示：

其中，w_i是计算目标模型的损失时设置的与第i个样本相对应的权重，其中0≤w_i≤1。可以例如根据以下公式(4)-(6)之一来设置权重w_i：

w_i＝|2s_i-1|^p (5)

w_i＝1 (6)

其中，t₂、t₃和p是系统设置的用于计算权重w_i的参数。

在一种实施方式中，可以通过至少一个参考模型对包括基于搜索日志数据的多个样本的数据集合进行评分，然后利用经评分的该数据集合来训练目标模型。由于搜索日志数据的数量是庞大的，因而该经评分的数据集合能够提供用于训练目标模型的大量训练数据。虽然搜索日志数据不具有人为提供的标注，但经过参考模型评分之后，各个样本可以具有指示查询和文档之间的相关性的目标分数，因而可以利用这些目标分数来有效地训练目标模型。通过对搜索日志数据进行评分，并利用经评分的搜索日志数据来训练目标模型可以减轻对人为标注的训练数据的依赖。此外，与采用用户点击作为相关性标注的替代的方式相比，这种通过参考模型对搜索日志数据进行评分的方式可以更加准确。

根据本公开的实施例，在目标模型被初始地训练之后，可以进而利用经参考模型评分的另一数据集合来对目标模型进行优化。例如，参考模型可以对带标注的数据集合，例如图2中的第三数据集合270，进行评分，以获得用于优化目标模型的经评分的带标注的数据集合，例如图2中的第二评分数据集合280。用于优化目标模型的数据集合可以包括结构为<查询，文档，标注，目标分数>的多个样本，其中标注可以是预先人为提供的或以其它方式提供的指示样本的查询与文档之间的相关性的相关性值，目标分数是参考模型在对样本的查询与文档之间的相关性进行评分之后提供的。

图5示出了根据本公开的实施例的优化目标模型的示例性过程500。过程500可以对应于图2中的操作290。

在502处，可以通过目标模型来对用于优化目标模型的数据集合的每个样本中的查询和文档之间的相关性进行评分，以获得该样本的预测分数。可以将第i个样本的预测分数表示为

过程500可以进而基于该样本的标注和目标分数以及预测分数的组合来计算与该样本对应的预测损失。可以将第i个样本的预测损失表示为

在用于计算预测损失的一种实施方式中，在504处，可以基于该样本的标注和目标分数以及预测分数的组合是否满足预定规则来确定该样本的可信性。

所述预定规则可以至少是以该样本中的标注作为参考的。预定规则可以包括：当该样本中的标注指示查询和文档相关时，预测分数大于目标分数。例如，该预定规则表明，在样本中的标注指示查询和文档相关的情况下，目标模型对该样本中的查询和文档之间的相关性进行评分所获得的预测分数应当尽可能的大。优选地，该预测分数应当大于参考模型所提供的目标分数。预定规则还可以包括：当该样本中的标注指示查询和文档不相关时，预测分数小于目标分数。例如，该预定规则表明，在样本中的标注指示查询和文档不相关的情况下，目标模型对该样本中的查询和文档之间的相关性进行评分所获得的预测分数应当尽可能的小。优选地，该预测分数应当小于参考模型所提供的目标分数。当该样本的标注和目标分数以及预测分数的组合满足上述预定规则时，该样本被确定为是可信的。否则，该样本被确定为是不可信的。

在一种实施方式中，在确定该样本的标注和目标分数以及预测分数的组合是否满足预定规则时，可以将样本中的标注转换成二进制标注。可以将第i个样本的二进制标注表示为

例如，可以通过前面提及的主要任务和辅助任务中的任何一个来将样本中的标注转换成二进制标注。

在一种实施方式中，在优化目标模型过程中，为了有效地利用参考模型提供的各个样本的目标分数，可以对其进行转换，以获得导出分数。可以将第i个样本的导出分数表示为y_i。可以以与训练目标模型相类似的方式来对各个样本中的目标分数进行转换，例如根据上述公式(1)或(2)将目标分数转换成导出分数。

随后，在506处，可以基于该样本的可信性来设置与该样本相对应的权重。可以将与第i个样本相对应的权重表示为在一种实施方式中，权重是基于预定标准来设置的，该预定标准可以包括：与由可信性指示为可信的样本相对应的权重小于或等于与由可信性指示为不可信的样本相对应的权重。在一种实施方式中，对于可信样本i，

而对于不可信样本i，

为了便于描述权重

本公开的实施例定义了如以下公式(7)所示的符号函数：

其中，0≤θ≤1是系统设置的超参数。

根据本公开的实施例，权重

可以如以下公式(8)定义：

应当理解，公式(7)、(8)仅是描述权重

的一种示例性形式。还可以采用其它形式来描述根据本公开的实施例的权重

可以看出的是，不同于训练目标模型时所基于的权重w_i，其仅是与目标分数有关的，优化目标模型时所基于的权重

还是与标注有关的。因此，优化目标模型所基于的权重

也可以被称为标注感知的权重。

在508处，可以基于权重

来计算预测损失。如上所述，可以将第i个样本的预测损失表示为

在一种实施方式中，可以将预测损失

定义为加权平方损失，如以下公式(9)所示：

在510处，可以通过使预测损失

最小化来优化目标模型。

通过图5的过程500，可以至少利用参考模型所提供的目标分数以及数据集合中包括的相关性标注两者来优化目标模型，从而可以进一步改进目标模型的性能。根据本公开的实施例的用于优化目标模型的方法旨在基于参考模型所提供的目标分数和数据集合中包括的相关性标注两者来计算相应的预测损失，并通过使该预测损失最小化来优化目标模型。在计算预测损失时，可以如上所述的利用相关性标注作为参考。在以上步骤504至508中仅示例性地示出了用于计算预测损失的一种实施方式，在基于样本的标注、目标分数以及预测分数的组合来计算与该样本对应的预测损失的思想下，本公开的实施例还可以涵盖基于该思想的任何其它的计算预测损失的实施方式。

图6是根据本公开的实施例的用于训练目标模型的示例性方法600的流程图。

在步骤610处，可以利用第一数据集合来训练至少一个参考模型。

在步骤620处，可以通过至少一个参考模型来对第二数据集合和第三数据集合分别进行评分。

在步骤630处，可以利用经评分的第二数据集合来训练目标模型。

在步骤640处，可以利用经评分的第三数据集合来优化目标模型。

在一种实施方式中，所述第一数据集合包括多个样本，每个样本至少包括查询、文档以及指示所述查询与所述文档之间的相关性的枚举型标注，并且所述训练所述至少一个参考模型包括，对于每个样本：通过一组任务，将所述样本中的枚举型标注转换成一组二进制标注；通过对所述样本中的查询和文档以及所述一组二进制标注进行组合，创建一组导出样本；以及利用所述一组导出样本来训练所述至少一个参考模型。

在一种实施方式中，所述一组二进制标注包括指示所述查询与所述文档相关的正标注和指示所述查询与所述文档不相关的负标注，并且所述一组任务基于各自的分界值将所述枚举型标注分别转换成正标注或负标注。

在一种实施方式中，所述枚举型标注的值是从多个相关性值中选择的，并且所述一组任务包括主要任务以及至少一个辅助任务，所述主要任务的分界值是所述多个相关性值中将所述查询与所述文档之间的相关性划分成相关与不相关的临界值，并且所述至少一个辅助任务的分界值分别是所述多个相关性值中除所述临界值以外的其它值。

在一种实施方式中，所述利用所述一组导出样本来训练所述至少一个参考模型包括：通过所述至少一个参考模型来对所述一组导出样本分别进行评分，以获得与所述一组导出样本分别对应的一组预测分数；基于所述一组二进制标注和所述一组预测分数来计算与所述一组导出样本分别对应的一组预测损失；基于所述一组预测损失来生成综合预测损失；以及通过使所述综合预测损失最小化来优化所述至少一个参考模型。

在一种实施方式中，所述第二数据集合和所述第三数据集合分别包括多个样本，每个样本至少包括查询和文档，并且所述评分包括，对于每个样本：通过所述至少一个参考模型对所述样本中的查询和文档之间的相关性进行评分，以获得所述样本的至少一个初始分数；以及基于所述至少一个初始分数来生成所述样本的目标分数。

在一种实施方式中，所述经评分的第三数据集合包括多个样本，每个样本包括查询、文档、标注和目标分数，并且所述优化包括，对于每个样本：通过所述目标模型来对所述样本中的查询和文档之间的相关性进行评分，以获得所述样本的预测分数；基于所述样本中的标注和目标分数以及所述预测分数的组合来计算与所述样本对应的预测损失；以及通过使所述预测损失最小化来优化所述目标模型。

在一种实施方式中，所述计算所述预测损失包括：基于所述组合是否满足预定规则来确定所述样本的可信性；基于所述样本的可信性来设置与所述样本相对应的权重；以及基于所述权重来计算所述预测损失。

在一种实施方式中，所述预定规则至少是以所述标注作为参考的。

在一种实施方式中，所述预定规则包括：当所述标注指示所述查询和所述文档相关时，所述预测分数大于所述目标分数；以及当所述标注指示所述查询和所述文档不相关时，所述预测分数小于所述目标分数。

在一种实施方式中，所述权重是基于预定标准来设置的，所述预定标准包括：与由可信性指示为可信的样本相对应的权重小于或等于与由可信性指示为不可信的样本相对应的权重。

在一种实施方式中，所述目标模型是快速匹配模型，并且所述至少一个参考模型是底层交叉匹配模型。

在一种实施方式中，所述至少一个参考模型具有相同的模型结构或者具有不同的模型结构。

在一种实施方式中，所述第二数据集合包括基于搜索日志数据的多个样本。

应当理解，方法600还可以包括根据上述本公开的实施例的用于训练目标模型的任何步骤/处理。

图7示出了根据本公开的实施例的用于训练目标模型的示例性装置700。

装置700可以包括：参考模型训练模块710，用于利用第一数据集合来训练至少一个参考模型；评分模块720，用于通过所述至少一个参考模型来对第二数据集合和第三数据集合分别进行评分；目标模型训练模块730，用于利用经评分的第二数据集合来训练所述目标模型；以及优化模块740，用于利用经评分的第三数据集合来优化所述目标模型。

在一种实施方式中，所述第一数据集合包括多个样本，每个样本至少包括查询、文档以及指示所述查询与所述文档之间的相关性的枚举型标注，并且所述参考模型训练模块710还被配置为，对于每个样本：通过一组任务，将所述样本中的枚举型标注转换成一组二进制标注；通过对所述样本中的查询和文档以及所述一组二进制标注进行组合，创建一组导出样本；以及利用所述一组导出样本来训练所述至少一个参考模型。

在一种实施方式中，所述第二数据集合和所述第三数据集合分别包括多个样本，每个样本至少包括查询和文档，并且所述评分评分模块720还被配置为，对于每个样本：通过所述至少一个参考模型对所述样本中的查询和文档之间的相关性进行评分，以获得所述样本的至少一个初始分数；以及基于所述至少一个初始分数来生成所述样本的目标分数。

在一种实施方式中，所述经评分的第三数据集合包括多个样本，每个样本包括查询、文档、标注和目标分数，并且所述优化模块740还被配置为，对于每个样本：通过所述目标模型来对所述样本中的查询和文档之间的相关性进行评分，以获得所述样本的预测分数；基于所述样本中的标注和目标分数以及所述预测分数的组合来计算与所述样本对应的预测损失；以及通过使所述预测损失最小化来优化所述目标模型。

此外，装置700还可以包括根据上述本公开实施例的被配置用于训练目标模型的任何其它模块。

图8示出了根据本公开的实施例的用于训练目标模型的示例性装置800。

装置800可以包括至少一个处理器810。装置800还可以包括与处理器810连接的存储器820。存储器820可以存储计算机可执行指令，当所述计算机可执行指令被执行时，使得处理器810执行根据上述本公开的实施例的用于训练目标模型的方法的任何操作。

本公开的实施例可以实施在非暂时性计算机可读介质中。该非暂时性计算机可读介质可以包括指令，当所述指令被执行时，使得一个或多个处理器执行根据上述本公开实施例的用于训练目标模型的方法的任何操作。

应当理解，以上描述的方法中的所有操作都仅仅是示例性的，本公开并不限制于方法中的任何操作或这些操作的顺序，而是应当涵盖在相同或相似构思下的所有其它等同变换。

还应当理解，以上描述的装置中的所有模块都可以通过各种方式来实施。这些模块可以被实施为硬件、软件、或其组合。此外，这些模块中的任何模块可以在功能上被进一步划分成子模块或组合在一起。

已经结合各种装置和方法描述了处理器。这些处理器可以使用电子硬件、计算机软件或其任意组合来实施。这些处理器是实施为硬件还是软件将取决于具体的应用以及施加在系统上的总体设计约束。作为示例，本公开中给出的处理器、处理器的任意部分、或者处理器的任意组合可以实施为微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、状态机、门逻辑、分立硬件电路、以及配置用于执行在本公开中描述的各种功能的其它适合的处理部件。本公开给出的处理器、处理器的任意部分、或者处理器的任意组合的功能可以实施为由微处理器、微控制器、DSP或其它适合的平台所执行的软件。

软件应当被广泛地视为表示指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、运行线程、过程、函数等。软件可以驻留在计算机可读介质中。计算机可读介质可以包括例如存储器，存储器可以例如为磁性存储设备(如，硬盘、软盘、磁条)、光盘、智能卡、闪存设备、随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、寄存器或者可移动盘。尽管在本公开给出的多个方面中将存储器示出为是与处理器分离的，但是存储器也可以位于处理器内部(如，缓存或寄存器)。

以上描述被提供用于使得本领域任何技术人员可以实施本文所描述的各个方面。这些方面的各种修改对于本领域技术人员是显而易见的，本文限定的一般性原理可以应用于其它方面。因此，权利要求并非旨在被局限于本文示出的方面。关于本领域技术人员已知或即将获知的、对本公开所描述各个方面的元素的所有结构和功能上的等同变换都将由权利要求所覆盖。

Claims

1.一种用于训练目标模型的方法，包括：

利用第一数据集合来训练至少一个参考模型；

通过所述至少一个参考模型来对第二数据集合和第三数据集合分别进行评分；

利用经评分的第二数据集合来训练所述目标模型；以及

利用经评分的第三数据集合来优化所述目标模型。

2.根据权利要求1所述的方法，其中，所述第一数据集合包括多个样本，每个样本至少包括查询、文档以及指示所述查询与所述文档之间的相关性的枚举型标注，并且所述训练所述至少一个参考模型包括，对于每个样本：

通过一组任务，将所述样本中的枚举型标注转换成一组二进制标注；

通过对所述样本中的查询和文档以及所述一组二进制标注进行组合，创建一组导出样本；以及

利用所述一组导出样本来训练所述至少一个参考模型。

3.根据权利要求2所述的方法，其中，

所述一组二进制标注包括指示所述查询与所述文档相关的正标注和指示所述查询与所述文档不相关的负标注，并且

所述一组任务基于各自的分界值将所述枚举型标注分别转换成正标注或负标注。

4.根据权利要求3所述的方法，其中，

所述枚举型标注的值是从多个相关性值中选择的，并且

所述一组任务包括主要任务以及至少一个辅助任务，所述主要任务的分界值是所述多个相关性值中将所述查询与所述文档之间的相关性划分成相关与不相关的临界值，并且所述至少一个辅助任务的分界值分别是所述多个相关性值中除所述临界值以外的其它值。

5.根据权利要求2所述的方法，其中，所述利用所述一组导出样本来训练所述至少一个参考模型包括：

通过所述至少一个参考模型来对所述一组导出样本分别进行评分，以获得与所述一组导出样本分别对应的一组预测分数；

基于所述一组二进制标注和所述一组预测分数来计算与所述一组导出样本分别对应的一组预测损失；

基于所述一组预测损失来生成综合预测损失；以及

通过使所述综合预测损失最小化来优化所述至少一个参考模型。

6.根据权利要求1所述的方法，其中，所述第二数据集合和所述第三数据集合分别包括多个样本，每个样本至少包括查询和文档，并且所述评分包括，对于每个样本：

通过所述至少一个参考模型对所述样本中的查询和文档之间的相关性进行评分，以获得所述样本的至少一个初始分数；以及

基于所述至少一个初始分数来生成所述样本的目标分数。

7.根据权利要求1所述的方法，其中，所述经评分的第三数据集合包括多个样本，每个样本包括查询、文档、标注和目标分数，并且所述优化包括，对于每个样本：

通过所述目标模型来对所述样本中的查询和文档之间的相关性进行评分，以获得所述样本的预测分数；

基于所述样本中的标注和目标分数以及所述预测分数的组合来计算与所述样本对应的预测损失；以及

通过使所述预测损失最小化来优化所述目标模型。

8.根据权利要求7所述的方法，其中，所述计算所述预测损失包括：

基于所述组合是否满足预定规则来确定所述样本的可信性；

基于所述样本的可信性来设置与所述样本相对应的权重；以及

基于所述权重来计算所述预测损失。

9.根据权利要求8所述的方法，其中，所述预定规则至少是以所述标注作为参考的。

10.根据权利要求8所述的方法，其中，所述预定规则包括：

当所述标注指示所述查询和所述文档相关时，所述预测分数大于所述目标分数；以及

当所述标注指示所述查询和所述文档不相关时，所述预测分数小于所述目标分数。

11.根据权利要求8所述的方法，其中，所述权重是基于预定标准来设置的，所述预定标准包括：与由可信性指示为可信的样本相对应的权重小于或等于与由可信性指示为不可信的样本相对应的权重。

12.根据权利要求1所述的方法，其中，所述目标模型是快速匹配模型，并且所述至少一个参考模型是底层交叉匹配模型。

13.根据权利要求1所述的方法，其中，所述至少一个参考模型具有相同的模型结构或者具有不同的模型结构。

14.根据权利要求1所述的方法，其中，所述第二数据集合包括基于搜索日志数据的多个样本。

15.一种用于训练目标模型的装置，包括：

参考模型训练模块，用于利用第一数据集合来训练至少一个参考模型；

评分模块，用于通过所述至少一个参考模型来对第二数据集合和第三数据集合分别进行评分；

目标模型训练模块，用于利用经评分的第二数据集合来训练所述目标模型；以及

优化模块，用于利用经评分的第三数据集合来优化所述目标模型。

16.根据权利要求15所述的装置，其中，所述第一数据集合包括多个样本，每个样本至少包括查询、文档以及指示所述查询与所述文档之间的相关性的枚举型标注，并且所述参考模型训练模块还被配置为，对于每个样本：

利用所述一组导出样本来训练所述至少一个参考模型。

17.根据权利要求15所述的装置，其中，所述第二数据集合和所述第三数据集合分别包括多个样本，每个样本至少包括查询和文档，并且所述评分模块还被配置为，对于每个样本：

基于所述至少一个初始分数来生成所述样本的目标分数。

18.根据权利要求15所述的装置，其中，所述经评分的第三数据集合包括多个样本，每个样本包括查询、文档、标注和目标分数，并且所述优化模块还被配置为，对于每个样本：

通过使所述预测损失最小化来优化所述目标模型。

19.根据权利要求18所述的装置，其中，所述计算所述预测损失包括：

基于所述组合是否满足预定规则来确定所述样本的可信性；

基于所述权重来计算所述预测损失。

20.一种用于训练目标模型的装置，包括：

至少一个处理器；以及

存储器，其存储计算机可执行指令，当所述计算机可执行指令被执行时使得所述至少一个处理器：

利用第一数据集合来训练至少一个参考模型；

利用经评分的第二数据集合来训练所述目标模型；以及

利用经评分的第三数据集合来优化所述目标模型。