CN112182362A

CN112182362A - 训练用于在线预测点击率的模型的方法、设备及推荐系统

Info

Publication number: CN112182362A
Application number: CN202010901702.2A
Authority: CN
Inventors: 朱杰明; 赖金财; 何秀强
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2021-01-05

Abstract

本申请实施例公开了人工智能技术领域中的一种训练用于在线预测点击率的模型的方法、设备及推荐系统，用于降低在线预测的延迟。本申请实施例方法包括：获取多个教师模型中每个教师模型对样本集中每条样本的点击率的预测值，并将多个教师模型对同一样本的点击率的预测值融合为融合预测值，然后基于样本集中每条样本对应的点击率的融合预测值确定损失函数，最后基于损失函数和样本集合对学生模型进行训练，直到学生模型满足第一收敛条件，该学生模型可以用于在线预测点击率。

Description

训练用于在线预测点击率的模型的方法、设备及推荐系统

技术领域

本申请实施例涉及人工智能技术领域，尤其涉及一种训练用于在线预测点击率的模型的方法、设备及推荐系统。

背景技术

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人，自然语言处理，计算机视觉，决策与推理，人机交互，推荐与搜索，AI基础理论等。

如何在海量的信息中根据用户的操作行为和用户特点向用户进行推荐，也是人工智能的一个重要研究方向之一。随着信息的不断丰富和增长，如何能更有针对性地，更高效更准确的向用户推荐信息是推荐技术的研究重点。

为了提高向用户推荐信息的准确性，目前的主要方法是根据用户的历史点击行为数据训练两个不同的模型，然后利用这两个不同模型在线预测用户对各种信息的点击率，然后将点击率高的信息推荐给用户。

然而，这种方法会提高在线预测的复杂度，导致较高的预测延迟。

发明内容

本申请实施例提供了一种训练用于在线预测点击率的模型的方法、设备及推荐系统，用于降低在线预测的延迟。

本申请实施例第一方面提供了一种训练用于在线预测点击率的模型的方法，包括：

获取多个教师模型中每个教师模型对样本集中每条样本的点击率的预测值，多个教师模型是基于样本集训练得到的，样本集中包含多条样本；多个教师模型中可以存在种类相同的模型，也可以存在种类不同的模型；例如，多个教师模型可以包括决策树模型和深度神经网络模型中的至少一个；将多个教师模型对样本集中同一样本的点击率的预测值融合，以得到点击率的融合预测值，样本集中的每条样本对应一个点击率的融合预测值；基于样本集中每条样本对应的点击率的融合预测值确定损失函数，该损失函数的表达形式可以多种；基于损失函数和样本集合对学生模型进行训练，直到学生模型满足第一收敛条件，第一收敛条件可以有多种，满足第一收敛条件的学生模型用于在线预测点击率。

将多个教师模型对样本集中同一样本的点击率的预测值融合成点击率的融合预测值，根据样本集中每条样本对应的点击率的融合预测值确定损失函数，基于损失函数和样本集合对学生模型进行训练，从而实现了将多个教师模型的知识迁移至单个学生模型；训练后的学生模型能够达到与教师模型相近的预测准确率，甚至超过教师模型的预测准确率；同时，学生模型单个学生模型即可完成对点击率的预测，而不需多个模型同时在线预测，因此能够降低预测延迟。

在一种实现方式下，将多个教师模型对样本集中同一样本的点击率的预测值融合，以得到点击率的融合预测值包括：根据多个教师模型对目标样本的点击率的预测值，计算多个教师模型中每个教师模型的权重，权重与目标样本对应，目标样本为样本集中的任意一个样本；根据多个教师模型中每个教师模型的权重，对多个教师模型对目标样本的点击率的预测值进行加权平均处理，以得到点击率的融合预测值。

根据多个教师模型对目标样本的点击率的预测值，计算多个教师模型中每个教师模型的权重，然后根据多个教师模型中每个教师模型的权重将多个教师模型对目标样本的点击率的预测值融合，实现了多个教师模型的自适应融合，并且，融合后的点击率的融合预测值可以降低一个或多个教师模型的错误预测值带来的干扰；利用点击率的融合预测值训练学生模型，能够提高学生模型的预测准确率，使得学生模型的预测准确率接近教师模型的预测准确率，甚至超过教师模型的预测准确率。

在一种实现方式下，损失函数中包含蒸馏损失项，蒸馏损失项是根据样本集中每条样本对应的点击率的融合预测值确定的；第一收敛条件为蒸馏损失项的值在连续多次迭代计算中不再减小，在第一收敛条件中，迭代计算的次数可以根据实际需要进行设定。

由于第一收敛条件为蒸馏损失项的值在连续多次迭代计算中不再减小，所以在训练学生模型的过程中，不需要额外从样本集中选择一部分样本作为验证样本，因此可以充分利用样本集中的样本。

在一种实现方式下，损失函数还包括非蒸馏损失项，非蒸馏损失项是根据样本集中的每条样本的样本标签确定的，样本标签表征用户点击过或用户未点击过；例如，样本标签y为1时，表征用户点击过；样本标签y为0时，表征用户未点击过。

非蒸馏损失项的存在，使得学生模型输出的某一样本的点击率的预测值不断接近该样本对应的点击率的融合预测值，且不断接近该样本的样本标签，从而可以提高学生模型的预测准确率，甚至可以使得学生模型的预测准确率超过教师模型的预测准确率。

在一种实现方式下，在获取多个教师模型中每个教师模型对样本集中每条样本的点击率的预测值之前，方法还包括：基于样本集对多个教师模型进行训练，直到多个教师模型均满足第二收敛条件，第二收敛条件可以有多种。

在一种实现方式下，基于样本集对多个教师模型进行训练，直到多个教师模型均满足第二收敛条件包括：基于训练样本集对目标教师模型进行训练，训练样本集中包含样本集中的至少一条样本，目标教师模型为多个教师模型中的任意一个；基于验证样本集对目标教师模型进行测试，以得到测试结果，且当测试结果指示目标教师模型满足第二收敛条件时训练停止，验证样本集中包含样本集中的至少一条样本；其中，可以将AUC指标作为评价目标教师模型性能的测试结果，相应地，第二收敛条件则为AUC指标在连续多次迭代计算中不再增大。

该实现方式提供了训练多个教师模型的一种可行方案。

在一种实现方式下，训练样本集中的任一条样本的采集时间早于验证样本集中的任一条样本的采集时间。

由于采集时间晚的样本(即最新的样本)中的环境的特征信息更接近于在线预测时的环境的特征信息，所以本申请实施例利用采集时间晚的样本(即最新的样本)对目标教师模型进行验证，可以保证满足第二收敛条件的目标教师模型的预测的准确率较高。

在一种实现方式下，样本集中的每条样本中包含用户的特征信息、待推荐对象的特征信息、环境的特征信息以及指示信息，指示信息指示用户点击过待推荐对象或用户未点击过待推荐对象。其中，用户的特征信息可以包括用户的年龄段、用户所在的城市、用户的购买历史等；对象的特征信息可以包括对象的类别、对象的描述、对象的属性标签等；环境的特征信息可以包括时间、网络状况、是否是周末、是否是假期等。

该实现方式对样本内容的具体示例。

在一种实现方式下，待推荐对象为应用程序、音乐、视频、文章和商品中的至少一种。

该实现方式提供了待推荐对象的多种可能的示例。

本申请实施例第二方面提供了一种训练用于在线预测点击率的模型的装置，包括：

获取单元，用于获取多个教师模型中每个教师模型对样本集中每条样本的点击率的预测值，多个教师模型是基于样本集训练得到的，样本集中包含多条样本；融合单元，用于将多个教师模型对样本集中同一样本的点击率的预测值融合，以得到点击率的融合预测值，样本集中的每条样本对应一个点击率的融合预测值；损失函数确定单元，用于基于样本集中每条样本对应的点击率的融合预测值确定损失函数；训练单元，用于基于损失函数和样本集合对学生模型进行训练，直到学生模型满足第一收敛条件，满足第一收敛条件的学生模型用于在线预测点击率。

在一种实现方式下，融合单元用于根据多个教师模型对目标样本的点击率的预测值，计算多个教师模型中每个教师模型的权重，权重与目标样本对应，目标样本为样本集中的任意一个样本；根据多个教师模型中每个教师模型的权重，对多个教师模型对目标样本的点击率的预测值进行加权平均处理，以得到点击率的融合预测值。

在一种实现方式下，损失函数中包含蒸馏损失项，蒸馏损失项是根据样本集中每条样本对应的点击率的融合预测值确定的；第一收敛条件为蒸馏损失项的值在连续多次迭代计算中不再减小。

在一种实现方式下，损失函数还包括非蒸馏损失项，非蒸馏损失项是根据样本集中的每条样本的样本标签确定的，样本标签表征用户点击过或用户未点击过。

在一种实现方式下，训练单元，还用于基于样本集对多个教师模型进行训练，直到多个教师模型均满足第二收敛条件。

在一种实现方式下，训练单元，用于基于训练样本集对目标教师模型进行训练，训练样本集中包含样本集中的至少一条样本，目标教师模型为多个教师模型中的任意一个；基于验证样本集对目标教师模型进行测试，以得到测试结果，且当测试结果指示目标教师模型满足第二收敛条件时训练停止，验证样本集中包含样本集中的至少一条样本。

在一种实现方式下，样本集中的每条样本中包含用户的特征信息、待推荐对象的特征信息、环境的特征信息以及指示信息，指示信息指示用户点击过待推荐对象或用户未点击过待推荐对象。

其中，以上各单元的具体实现、相关说明以及技术效果请参考本申请实施例第一方面的描述。

本申请实施例第三方面提供了一种计算机设备，包括：至少一个处理器和存储器，存储器存储有可在处理器上运行的计算机执行指令，当所述计算机执行指令被所述处理器执行时，该处理器执行如上述第一方面中任意一种实施方式所述的方法。

本申请实施例第四方面提供一种芯片或者芯片系统，该芯片或者芯片系统包括至少一个处理器和通信接口，通信接口和至少一个处理器通过线路互联，至少一个处理器用于运行计算机程序或指令，以执行如上述第一方面中任意一种实施方式所述的方法。

本申请实施例第五方面提供了一种存储一个或多个计算机执行指令的计算机可读存储介质，当所述计算机执行指令被处理器执行时，所述处理器执行如上述第一方面任意一种实施方式所述的方法。

本申请实施例第六方面提供了一种计算机程序产品，该计算机程序产品包括计算机软件指令，该计算机软件指令可通过处理器进行加载来实现上述第一方面中任意一种实施方式所述的方法。

本申请实施例第七方面提供了一种推荐系统，包括第一服务器和第二服务器；

第一服务器用于执行上述第一方面中任意一种实施方式所述的方法；

第二服务器用于部署第一服务器训练得到的学生模型。

从以上技术方案可以看出，本申请实施例具有以下优点：

将多个教师模型对样本集中同一样本的点击率的预测值融合成点击率的融合预测值，根据样本集中每条样本对应的点击率的融合预测值确定损失函数，基于损失函数和样本集合对学生模型进行训练，从而实现了将多个教师模型的知识迁移至单个学生模型；训练后的学生模型能够达到与教师模型相近的预测准确率，甚至超过教师模型的预测准确率；同时，学生模型的结构较教师模型简单，且单个学生模型即可完成对点击率的预测，而不需多个模型同时在线预测，因此能够降低预测延迟。

附图说明

图1为本申请实施例提供的一种人工智能主体框架示意图；

图2为本申请实施例中推荐系统的应用场景示意图；

图3为本申请实施例中推荐系统的架构示意图；

图4为本申请实施例中推荐系统的工作过程的一个实施例示意图；

图5为本申请实施例中训练用于在线预测点击率的模型的方法的实施例示意图；

图6为本申请实施例中获取融合预测值的实施例示意图；

图7为本申请实施例中推荐系统的工作过程的另一个实施例示意图；

图8为本申请实施例中推荐界面的示意图；

图9为本申请实施例中训练用于在线预测点击率的模型的装置的实施例示意图；

图10为本申请实施例中计算机设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

首先参阅图1，图1示出一种人工智能主体框架示意图，该主体框架描述了人工智能系统总体工作流程，适用于通用的人工智能领域需求。

下面从“智能信息链”(水平轴)和“IT价值链”(垂直轴)两个维度对上述人工智能主题框架进行阐述。

“智能信息链”反映从数据的获取到处理的一列过程。举例来说，可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中，数据经历了“数据—信息—知识—智慧”的凝练过程。

“IT价值链”从人智能的底层基础设施、信息(提供和处理技术实现)到系统的产业生态过程，反映人工智能为信息技术产业带来的价值。

(1)基础设施：

基础设施为人工智能系统提供计算能力支持，实现与外部世界的沟通，并通过基础平台实现支撑。通过传感器与外部沟通；计算能力由智能芯片(CPU、NPU、GPU、ASIC、FPGA等硬件加速芯片)提供；基础平台包括分布式计算框架及网络等相关的平台保障和支持，可以包括云存储和计算、互联互通网络等。举例来说，传感器和外部沟通获取数据，这些数据提供给基础平台提供的分布式计算系统中的智能芯片进行计算。

(2)数据

基础设施的上一层的数据用于表示人工智能领域的数据来源。数据涉及到图形、图像、语音、文本，还涉及到传统设备的物联网数据，包括已有系统的业务数据以及力、位移、液位、温度、湿度等感知数据。

(3)数据处理

数据处理通常包括数据训练，机器学习，深度学习，搜索，推理，决策等方式。

其中，机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。

推理是指在计算机或智能系统中，模拟人类的智能推理方式，依据推理控制策略，利用形式化的信息进行机器思维和求解问题的过程，典型的功能是搜索与匹配。

决策是指智能信息经过推理后进行决策的过程，通常提供分类、排序、预测等功能。

(4)通用能力

对数据经过上面提到的数据处理后，进一步基于数据处理的结果可以形成一些通用的能力，比如可以是算法或者一个通用系统，例如，翻译，文本的分析，计算机视觉的处理，语音识别，图像的识别等等。

(5)智能产品及行业应用

智能产品及行业应用指人工智能系统在各领域的产品和应用，是对人工智能整体解决方案的封装，将智能信息决策产品化、实现落地应用，其应用领域主要包括：智能制造、智能交通、智能家居、智能医疗、智能安防、自动驾驶，平安城市，智能终端等。

基于图1所示的人工智能系统，在本申请实施例中，基础设施获取的数据是用户的历史点击行为数据，然后对历史点击行为数据进行分析和学习。

作为人工智能系统的一种，下面对推荐系统进行介绍。推荐系统是指根据用户的历史点击行为数据，并采用机器学习算法进行分析和学习，得到学习结果；然后基于学习结果对用户的需求进行预测，并基于预测结果推荐相应的信息。本申请实施例对推荐的信息的种类不做具体限定。推荐的信息种类与推荐系统的应用场景相关。

具体地，图2示出了推荐系统的几个常用场景，该场景包括但不限于涉及电商产品推荐、搜索引擎结果推荐、应用市场推荐、音乐推荐、文章推荐、视频推荐等场景，各种不同应用场景中被推荐的信息以下均称为“对象”，以方便后续描述，即在不同的推荐场景中，推荐对象可以是应用程序APP，或者视频，或者音乐，或者文章(例如新闻)，或者广告，或者某款商品(如线上购物平台的呈现界面，会根据用户的不同而显示不同的商品进行呈现，这实质也可以是通过推荐系统的推荐结果来进行呈现)。

下面结合图3对推荐系统的架构及工作过程进行具体介绍。如图3所示，推荐系统主要包括离线训练模块和在线预测模块。

离线训练模块用户采集用户行为日志，然后从用户行为日志中提取用户和对象(可以是应用程序APP、视频、文章、音乐、广告或者某款商品)的交互信息，该交互信息可以是浏览、点击或下载等。然后将交互信息结合用户的特征信息、对象的特征信息、环境的特征信息构建样本。样本可以包括用户的特征信息、对象的特征信息、环境的特征信息以及用户是否点击过该对象。其中，用户的特征信息可以包括用户的年龄段、用户所在的城市、用户的购买历史等；对象的特征信息可以包括对象的类别、对象的描述、对象的属性标签等；环境的特征信息可以包括时间、网络状况、是否是周末、是否是假期等。最后，离线训练模块基于样本和预先设定的机器学习算法进行训练，得到用于在线预测点击率的模型。其中，点击率是指用户在特定环境下点击某个对象的概率。

然后离线训练模块将用于在线预测点击率的模型所对应的模型文件发送给在线预测模块，在线预测模块接收模型文件。当某一用户发起访问请求时，在线预测模块通过运行该模型文件对应的模型对多个对象的点击率进行预测，然后根据预测的点击率对多个对象进行排序，最终将排名在前的至少一个对象在用户界面进行展示。

其中，在本申请实施例中，在线预测是指基于用户的请求实时预测。

基于上述说明可知，推荐系统的工作过程如图4所示，具体可以包括：基于用户行为日志进行离线训练，得到预测点击率的模型；然后利用该模型进行在线预测，得到包含至少一个对象的对象列表，最终将该对象列表中的对象展示给用户。其中，对象列表中包括对象a、对象b、对象c、对象d、对象e和对象f。

应理解，若展示给用户的对象越贴合用户的需求，则用户的点击率和下载率就越高，从而会提升推荐系统的收益。因此，为了使得展示给用户的对象尽可能地贴合用户的需求，需要提高在线预测模块预测的准确率。然而，若采用多个不同的模型在线预测点击率，尽管可以提高预测的准确率，但同时也会导致较高的预测延迟，从而影响用户体验。为此，本申请实施例提供了一种训练用于在线预测点击率的模型的方法，在该方法这中，先基于获取到的样本对给定多个结构复杂的教师模型进行训练，然后利用多个教师模型指导学生模型训练，即采用知识蒸馏的方法将多个教师模型的知识迁移至单个学生模型。通过这种方法训练出的学生模型能够达到与教师模型相近的预测准确率，甚至超过教师模型的预测准确率；同时，单个学生模型即可完成对点击率的预测，而不需多个模型同时在线预测，因此能够降低预测延迟。

具体地，请参阅图5，本申请实施例提供的训练用于在线预测点击率的模型的方法的实施例示意图。如图5所示，本申请实施例提供了一种训练用于在线预测点击率的模型的方法的一个实施例，可以应用于任何可以训练模型的计算机设备中，该计算设备通常为服务器；该实施例包括：

步骤101，基于样本集对多个教师模型进行训练，直到多个教师模型均满足第二收敛条件，样本集中包含多条样本。

需要说明的是，样本集中每条样本中的内容可以根据实际需要进行调整。示例性地，样本集中的每条样本中包含用户的特征信息、待推荐对象的特征信息、环境的特征信息以及指示信息，指示信息指示用户点击过该待推荐对象或用户未点击过该待推荐对象。其中，用户的特征信息、待推荐对象的特征信息、环境的特征信息可参阅前述的相关说明进行理解。

待推荐对象可以是任何能够推荐的内容；示例性地，待推荐对象为应用程序、音乐、视频、文章、广告和商品中的至少一种。待推荐对象的特征信息可以包括待推荐对象的类别、待推荐对象的描述、待推荐对象的属性标签。例如，若待推荐对象为应用程序，则待推荐对象的类别可以包括社交类、游戏类、运动类、理财类和影音类等；待推荐对象的描述可以为该应用程序是一款团队公平竞技手游，游戏模式包括经典模式、边境突围模式和乱斗模式；待推荐对象的属性标签则可以为团队竞技、枪战和益智类等。

本申请实施例对教师模型的种类不做具体限定，即多个教师模型中可以存在种类相同的模型，也可以存在种类不同的模型；例如，多个教师模型可以包括决策树模型和深度神经网络模型中的至少一个。

本申请实施例对教师模型的教师模型的数量也不做具体限定，例如，教师模型的数量可以为2个，可以3个，还可以为3个以上。

应理解，为了减少训练时间，可以采用并行训练的方法对多个教师模型进行训练；每个教师模型的训练方法可以相同，也可以不同，相应地，每个教师模型对应的第二收敛条件可以相同，也可以不同。

下面以多个教师模型中的一个为例，对教师模型的训练过程进行说明。

在训练前，可以先将样本集划分为训练样本集和验证样本集，其中，训练样本集中包含样本集中的至少一条样本，验证样本集中包含样本集中的至少一条样本；训练样本集用于对教师模型进行训练，验证样本集用于验证教师模型是否满足第二收敛条件。

需要说明的是，将样本集划分为训练样本集和验证样本集地方法有多种，本申请实施例对此不做具体限定。

示例性地，可以按照样本的采集时间将样本集划分为训练样本集和验证样本集。作为一种可实现的方式，将采集时间早的样本划分到训练样本集中，将采集时间晚的样本(即最新的样本)划分到验证样本集中。此时，训练样本集中的任一条样本的采集时间早于验证样本集中的任一条样本的采集时间。

例如，若样本集中样本的采集时间为8月1日至8月7日，则可以将采集时间为8月1日至8月6日的样本划分到训练样本集中，将采集时间为8月7日的样本划分到验证样本集中。

基于上述训练样本集和验证样本集，基于样本集对多个教师模型进行训练，直到多个教师模型均满足第二收敛条件可以包括：

基于训练样本集对目标教师模型进行训练，目标教师模型为多个教师模型中的任意一个。

需要说明的是，可以先设定训练的目标函数，然后通过迭代计算优化目标函数，从而实现对目标教师模型的训练。其中，目标函数可以根据实际需要进行设定。

例如，在本申请实施例中，假设目标教师模型为多个教师模型中的第i个教师模型，则目标函数可以为

其中，

表示样本j对应的损失函数，y_j为样本j的样本标签，

为sigmoid函数，用于将

转换成0至1间的数值，

为第i个教师模型输出的第j个样本的点击率的预测值，i为多个教师模型中教师模型的编号，j为样本集中样本的编号。

在本申请实施例中，y_j的取值可以为1，也可以为0；通常情况下，当y_j的取值为1时，表示用户点击过，当y_j的取值为0时，表示用户未点击过。

由于目标函数为损失函数，所以在优化目标函数的过程中，目标教师模型输出的点击率的预测值

不断趋近于样本标签y_j。

基于验证样本集对目标教师模型进行测试，以得到测试结果，且当测试结果指示目标教师模型满足第二收敛条件时训练停止。

需要说明的是，对目标教师模型进行测试的方法有多种，可以根据实际需要进行选择，相应地，第二收敛条件也可以根据实际需要进行设定。例如，可以将AUC指标作为评价目标教师模型性能的测试结果，相应地，第二收敛条件则为AUC指标在连续多次迭代计算中不再增大，例如，AUC指标在连续两次或三次迭代计算中不再增大。

在本申请实施例中，步骤101是可选的。

步骤102，获取多个教师模型中每个教师模型对样本集中每条样本的点击率的预测值，多个教师模型是基于样本集训练得到的，样本集中包含多条样本。

在多个教师模型满足各自对应的第二收敛条件后，可以将样本集中的样本重新输入教师模型，相应地，教师模型则回输出点击率的预测值。

以目标教师模型为例，将样本集中的各个样本分别输入目标教师模型，以得到目标教师模型对样本集中各个样本的点击率的预测值。

步骤103，将多个教师模型对样本集中同一样本的点击率的预测值融合，以得到点击率的融合预测值，样本集中的每条样本对应一个点击率的融合预测值。

可以理解的是，当多个教师模型的种类不同时，所以多个教师模型对样本集中同一样本的点击率的预测值可能不同；即使多个教师模型的种类相同，所以多个教师模型对样本集中同一样本的点击率的预测值也可能不同。因此，为了利用多个教师模型中每个教师模型的点击率的预测值指导学生模型训练，本申请实施例将多个教师模型对样本集中同一样本的点击率的预测值融合，以得到点击率的融合预测值。

例如，教师模型的数量为三个，对于样本集中编号为2的样本，多个教师模型的点击率的预测值分别可以表示为

则将

和

融合，得到编号为2的样本对应的融合预测值。

将多个教师模型对样本集中同一样本的点击率的预测值融合的方法有多种，本申请实施例对此不做具体限定。

例如，可以将多个教师模型对样本集中同一样本的点击率的预测值的平均值作为点击率的融合预测值。

可以理解的是，同一教师模型对不同样本的预测准确率可能不同。例如，编号为1的样本的样本标签指示用户点击过，编号为2的样本的样本标签也指示用户点击过；编号为1的教师模型对编号为1的样本的点击率的预测值为0.98，对编号为2的样本的点击率的预测值为0.93；而编号为2的教师模型对编号为1的样本的点击率的预测值为0.93，对编号为2的样本的点击率的预测值为0.98。由此可以看出，编号为1的教师模型对编号为1的样本的预测准确率较高，编号为2的教师模型对编号为2的样本的预测准确率较高。

因此，本申请实施例根据多个教师模型对同一样本的点击率的预测值，确定多个教师模型相对于该样本的权重，然后根据多个教师模型相对于该样本的权重将多个教师模型对该样本的点击率的预测值融合。

具体地，如图6所示，将多个教师模型对样本集中同一样本的点击率的预测值融合，以得到点击率的融合预测值包括：

步骤201，根据多个教师模型对目标样本的点击率的预测值，计算多个教师模型中每个教师模型的权重，权重与目标样本对应，目标样本为样本集中的任意一个样本。

需要说明的是，计算多个教师模型中每个教师模型的权重的方法有多种，本申请实施例对此不做具体限定。例如，可以采用公式

确定多个教师模型中每个教师模型对于目标样本的权重。

其中，i为多个教师模型中教师模型的编号，j为样本集中样本的编号；α_ij表示第i个教师模型相对于第j个样本的权重，

为第i个教师模型输出的第j个样本的点击率的预测值，w_ij和b_ij均为待学习参数，n表示为教师模型的数量。在训练开始前，会设定w_ij和b_ij的初始值。

步骤202，根据多个教师模型中每个教师模型的权重，对多个教师模型对目标样本的点击率的预测值进行加权平均处理，以得到点击率的融合预测值。

可以理解的是，点击率的融合预测值可以表示为

则编号为2的样本对应的融合预测值可以表示为

在本申请实施例中，根据多个教师模型对目标样本的点击率的预测值，计算多个教师模型中每个教师模型的权重，然后根据多个教师模型中每个教师模型的权重将多个教师模型对目标样本的点击率的预测值融合，实现了多个教师模型的自适应融合，使得融合后的点击率的融合预测值更接近于样本标签，提高了点击率的融合预测值的准确率；并且，利用通过步骤201和步骤202计算的点击率的融合预测值训练学生模型，能够提高学生模型的预测准确率，使得学生模型的预测准确率接近教师模型的预测准确率，甚至超过教师模型的预测准确率。

步骤104，基于样本集中每条样本对应的点击率的融合预测值确定损失函数。

需要说明的，确定损失函数的方法可以有多种，本申请实施例对此不做限定；相应地，损失函数也可以多种。

例如，学生模型的损失函数可以表示为

为第i个教师模型输出的第j个样本的点击率的预测值，

表示一种损失函数，m表示样本集中样本的数量，n表示教师模型的数量，

表示学生模型输出的点击率的预测值，L_S表示学生模型的损失函数。

在本申请实施例中，知识蒸馏是指多个教师模型的知识迁移至结构简单的学生模型，而教师模型的知识可以采用教师模型对样本的点击率的预测值表示。由于

是基于多个教师模型中每个教师模型对样本集中每条样本的点击率的预测值构建的，所以

也可以称为蒸馏损失项。

基于上述说明可知，蒸馏损失项是根据样本集中每条样本对应的点击率的融合预测值确定的。

例如，损失函数也可以表示为

其中，y_j表示第j个样本的样本标签，γ为权重值，γ的取值可以根据实际需要进行设定，例如可以为1；其他参数的说明可参照前文。

由于

可以称为蒸馏损失项，所以

可以称为非蒸馏损失项。

基于上述说明可知，非蒸馏损失项是根据样本集中的每条样本的样本标签确定的，样本标签表征用户点击过或用户未点击过。例如，样本标签y_j为1时，表征用户点击过；样本标签y_j为0时，表征用户未点击过。

步骤105，基于损失函数和样本集合对学生模型进行训练，直到学生模型满足第一收敛条件，满足第一收敛条件的学生模型用于在线预测点击率。

训练学生模型的过程可以理解为利用样本集合中的样本进行迭代计算以优化损失函数，直到学生模型满足第一收敛条件。

当损失函数为

时，随着损失函数的不断优化，学生模型输出的某一样本的点击率的预测值不断接近该样本对应的点击率的融合预测值；当损失函数为

时，学生模型输出的某一样本的点击率的预测值不断接近该样本对应的点击率的融合预测值，且不断接近该样本的样本标签。

其中，在进行迭代计算的过程中，可以采用随机梯度下降法更新损失函数L_S。

需要说明的是，第一收敛条件可以根据实际需要进行设定；示例性地，损失函数中包含蒸馏损失项，蒸馏损失项是根据样本集中每条样本对应的点击率的融合预测值确定的；第一收敛条件为蒸馏损失项的值在连续多次迭代计算中不再减小。

其中，在第一收敛条件中，迭代计算的次数可以根据实际需要进行设定，例如，蒸馏损失项的值在连续2次迭代计算中不再减小，也可以在连续3次迭代计算中不再减小。

蒸馏损失项的值在连续多次迭代计算中不再减小可以理解为，连续多次迭代计算中蒸馏损失项的值均大于或等于前一次迭代计算中蒸馏损失项的值。

在本申请实施例中，将多个教师模型对样本集中同一样本的点击率的预测值融合成点击率的融合预测值，根据样本集中每条样本对应的点击率的融合预测值确定损失函数，基于损失函数和样本集合对学生模型进行训练，从而实现了将多个教师模型的知识迁移至单个学生模型；训练后的学生模型能够达到与教师模型相近的预测准确率，甚至超过教师模型的预测准确率；同时，单个学生模型即可完成对点击率的预测，而不需多个模型同时在线预测，因此能够降低预测延迟。

此外，在本申请实施例中，先训练多个教师模型，再通过多个教师模型训练学生模型，仅仅是学生模型用于在线预测点击率，且学生模型与教师模型是相互独立的，因此在不增加学生模型的复杂度的情况下，可以根据需要灵活调整教师模型的数量，因此采用本申请实施例提供的方法进行训练的推荐系统的可扩展性和通用性较强。

此时，如图7所示，图4中的离线训练的过程可以包括：并行训练多个教师模型，以得到多个收敛的教师模型，然后将多个收敛的教师模型自适应融合，得到融合教师模型，然后利用融合教师模型指导学生模型进行训练，以得到学生模型。其中，融合教师模型是指各样本对应的融合预测值。

在学生模型训练完成后，便可以利用学生模型进行在线预测，然后根据学生模型在线预测的结果推荐用户感兴趣的对象。下面以一具体示例对推荐过程进行说明。

具体地，如图8所示，当用户在终端设备的应用市场中输入关键词“小说”后，部署在服务器中的学生模型会基于当前用户的特征信息、当前环境的特征信息以及小说所属的阅读类的应用程序的特征信息，预测当前用户点击所有阅读类的应用程序的概率(即点击率)，然后基于被点击的概率对所有阅读类的应用程序进行排序，并将排在前三位的阅读类的应用程序推荐到应用市场的界面。从图8中可以看出，最终推荐了“小说aaa”、“小说bbb”、“小说ccc”三个应用程序。

需要说明的是，在上述示例中，终端设备包括但不限于手机、平板电脑、笔记本电脑、台式电脑、智慧屏幕、车载终端等，图8仅示出了手机这一终端设备。

请参阅图9，本申请实施例中训练用于在线预测点击率的模型的装置的实施例示意图。如图9所示，本申请实施例提供了一种训练用于在线预测点击率的模型的装置的一个实施例，包括：

获取单元301，用于获取多个教师模型中每个教师模型对样本集中每条样本的点击率的预测值，多个教师模型是基于样本集训练得到的，样本集中包含多条样本；

融合单元302，用于将多个教师模型对样本集中同一样本的点击率的预测值融合，以得到点击率的融合预测值，样本集中的每条样本对应一个点击率的融合预测值；

损失函数确定单元303，用于根据样本集中每条样本对应的点击率的融合预测值确定损失函数；

训练单元304，用于基于损失函数和样本集合对学生模型进行训练，直到学生模型满足第一收敛条件，满足第一收敛条件的学生模型用于在线预测点击率。

在一种实现方式下，融合单元302用于根据多个教师模型对目标样本的点击率的预测值，计算多个教师模型中每个教师模型的权重，权重与目标样本对应，目标样本为样本集中的任意一个样本；根据多个教师模型中每个教师模型的权重，对多个教师模型对目标样本的点击率的预测值进行加权平均处理，以得到点击率的融合预测值。

在一种实现方式下，训练单元304，还用于基于样本集对多个教师模型进行训练，直到多个教师模型均满足第二收敛条件。

在一种实现方式下，训练单元304，用于基于训练样本集对目标教师模型进行训练，训练样本集中包含样本集中的至少一条样本，目标教师模型为多个教师模型中的任意一个；基于验证样本集对目标教师模型进行测试，以得到测试结果，且当测试结果指示目标教师模型满足第二收敛条件时训练停止，验证样本集中包含样本集中的至少一条样本。

其中，以上各单元的具体实现、相关说明以及技术效果请参考本申请实施例图2至图8所示的实施例的描述。

请参阅图10，图10为本申请实施例中计算机设备的结构示意图。

本申请实施例中计算机设备一个实施例可以包括一个或一个以上处理器401，存储器402，通信接口403。

存储器402可以是短暂存储或持久存储。更进一步地，处理器401可以配置为与存储器402通信，在计算机设备上执行存储器402中的一系列指令操作。

本实施例中，处理器401可以执行前述图5和图6所示实施例中的步骤，具体此处不再赘述。

示例性地，处理器401可以执行以下步骤：

获取多个教师模型中每个教师模型对样本集中每条样本的点击率的预测值，多个教师模型是基于样本集训练得到的，样本集中包含多条样本；

将多个教师模型对样本集中同一样本的点击率的预测值融合，以得到点击率的融合预测值，样本集中的每条样本对应一个点击率的融合预测值；

基于样本集中每条样本对应的点击率的融合预测值确定损失函数；

基于损失函数和样本集合对学生模型进行训练，直到学生模型满足第一收敛条件，满足第一收敛条件的学生模型用于在线预测点击率。

此时，处理器401中的具体功能模块划分可以与前述图9中所描述的获取单元、融合单元、损失函数确定单元和训练单元等功能模块的划分方式类似，此处不再赘述。

本申请实施例还提供一种芯片或者芯片系统，该芯片或者芯片系统包括至少一个处理器和通信接口，通信接口和至少一个处理器通过线路互联，至少一个处理器用于运行计算机程序或指令，以执行前述图5和图6所示实施例中的步骤，具体此处不再赘述。

其中，芯片中的通信接口可以为输入/输出接口、管脚或电路等。

本申请实施例还提供了芯片或者芯片系统的第一种实施方式，本申请中上述描述的芯片或者芯片系统还包括至少一个存储器，该至少一个存储器中存储有指令。该存储器可以为芯片内部的存储单元，例如，寄存器、缓存等，也可以是该芯片的存储单元(例如，只读存储器、随机存取存储器等)。

本申请实施例还提供了一种计算机存储介质，该计算机存储介质用于储存为上述计算机设备所用的计算机软件指令，其包括用于执行为计算机设备所设计的程序。

该计算机设备可以如前述图9所描述的用于在线预测点击率的模型的装置。

本申请实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机软件指令，该计算机软件指令可通过处理器进行加载来实现前述图5和图6所示的方法中的流程。

本申请实施例还提供了一种推荐系统，包括第一服务器和第二服务器；

第一服务器用于执行前述图5和图6所示的方法；

第二服务器用于部署第一服务器训练得到的学生模型。

示例性地，第二服务器还用于通过学生模型预测待推荐对象的点击率。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种训练用于在线预测点击率的模型的方法，其特征在于，包括：

获取多个教师模型中每个教师模型对样本集中每条样本的点击率的预测值，所述多个教师模型是基于所述样本集训练得到的，所述样本集中包含多条样本；

将所述多个教师模型对所述样本集中同一样本的点击率的预测值融合，以得到点击率的融合预测值，所述样本集中的每条样本对应一个点击率的融合预测值；

基于所述样本集中每条样本对应的点击率的融合预测值确定损失函数；

基于所述损失函数和所述样本集合对学生模型进行训练，直到所述学生模型满足第一收敛条件，满足所述第一收敛条件的学生模型用于在线预测点击率。

2.根据权利要求1所述的方法，其特征在于，所述将所述多个教师模型对所述样本集中同一样本的点击率的预测值融合，以得到点击率的融合预测值包括：

根据所述多个教师模型对目标样本的点击率的预测值，计算所述多个教师模型中每个教师模型的权重，所述权重与所述目标样本对应，所述目标样本为所述样本集中的任意一个样本；

根据所述多个教师模型中每个教师模型的权重，对所述多个教师模型对目标样本的点击率的预测值进行加权平均处理，以得到点击率的融合预测值。

3.根据权利要求1或2所述的方法，其特征在于，所述损失函数中包含蒸馏损失项，所述蒸馏损失项是根据所述样本集中每条样本对应的点击率的融合预测值确定的；

所述第一收敛条件为所述蒸馏损失项的值在连续多次迭代计算中不再减小。

4.根据权利要求3所述的方法，其特征在于，所述损失函数还包括非蒸馏损失项，所述非蒸馏损失项是根据所述样本集中的每条样本的样本标签确定的，所述样本标签表征用户点击过或用户未点击过。

5.根据权利要求1至4中任意一项所述的方法，其特征在于，在所述获取多个教师模型中每个教师模型对样本集中每条样本的点击率的预测值之前，所述方法还包括：

基于所述样本集对所述多个教师模型进行训练，直到所述多个教师模型均满足第二收敛条件。

6.根据权利要求5所述的方法，其特征在于，所述基于所述样本集对所述多个教师模型进行训练，直到所述多个教师模型均满足第二收敛条件包括：

基于训练样本集对目标教师模型进行训练，所述训练样本集中包含所述样本集中的至少一条样本，所述目标教师模型为所述多个教师模型中的任意一个；

基于验证样本集对所述目标教师模型进行测试，以得到测试结果，且当所述测试结果指示所述目标教师模型满足第二收敛条件时训练停止，所述验证样本集中包含所述样本集中的至少一条样本。

7.根据权利要求6所述的方法，其特征在于，所述训练样本集中的任一条样本的采集时间早于所述验证样本集中的任一条样本的采集时间。

8.根据权利要求1至7中任意一项所述的方法，其特征在于，所述样本集中的每条样本中包含用户的特征信息、待推荐对象的特征信息、环境的特征信息以及指示信息，所述指示信息指示用户点击过所述待推荐对象或用户未点击过所述待推荐对象。

9.根据权利要求8中所述的方法，其特征在于，所述待推荐对象为应用程序、音乐、视频、文章和商品中的至少一种。

10.一种训练用于在线预测点击率的模型的装置，其特征在于，包括：

获取单元，用于获取多个教师模型中每个教师模型对样本集中每条样本的点击率的预测值，所述多个教师模型是基于所述样本集训练得到的，所述样本集中包含多条样本；

融合单元，用于将所述多个教师模型对所述样本集中同一样本的点击率的预测值融合，以得到点击率的融合预测值，所述样本集中的每条样本对应一个点击率的融合预测值；

损失函数确定单元，用于基于所述样本集中每条样本对应的点击率的融合预测值确定损失函数；

训练单元，用于基于所述损失函数和所述样本集合对学生模型进行训练，直到所述学生模型满足第一收敛条件，满足所述第一收敛条件的学生模型用于在线预测点击率。

11.一种计算机设备，其特征在于，包括：至少一个处理器和存储器，存储器存储有可在处理器上运行的计算机执行指令，当所述计算机执行指令被所述处理器执行时，所述处理器执行如上述权利要求1-9中任意一项所述的方法。

12.一种计算机存储介质，其特征在于，所述计算机可读存储介质存储指令，当所述指令在计算机上运行时，使得所述计算机执行权利要求1至9中任一项所述的方法。

13.一种推荐系统，其特征在于，包括第一服务器和第二服务器；

所述第一服务器用于执行权利要求1至9中任一项所述的方法；

所述第二服务器用于部署所述第一服务器训练得到的学生模型。