CN114817742B

CN114817742B - 基于知识蒸馏的推荐模型配置方法、装置、设备、介质

Info

Publication number: CN114817742B
Application number: CN202210537642.XA
Authority: CN
Inventors: 司世景; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2022-09-13
Anticipated expiration: 2042-05-18
Also published as: CN114817742A

Abstract

本发明属于人工智能领域，提供了一种基于知识蒸馏的推荐模型配置方法、装置、设备、介质，方法包括：根据教师模型确定的教师推荐分数确定用户样本的正样本集和负样本集；将正样本集和负样本集输入至学生模型得到学生推荐分数；根据学生推荐分数、正样本集和负样本集构建各个用户样本所对应的第一损失函数；调整正物品样本的位置，并确定位置互换后的曝光度损失值；根据曝光度损失值和正样本集构建第二损失函数；根据第二损失函数和第一损失函数确定目标损失函数，并配置至学生模型。根据本实施例的技术方案，能够根据正物品样本位置调整后确定的曝光度损失值构建第二损失函数，减少曝光度对排序靠后的物品样本的影响，提高推荐模型的准确性。

Description

基于知识蒸馏的推荐模型配置方法、装置、设备、介质

技术领域

本发明属于人工智能技术领域，尤其涉及一种基于知识蒸馏的推荐模型配置方法、装置、设备、介质。

背景技术

目前，人工智能技术逐渐应用到各种推荐模型，能够利用用户数据生成个性化推荐列表，在商业网站和信息分发应用中得到广泛应用。但是终端的展示区域有限，在推荐列表的推荐物品较多的情况下，并不能确保各个推荐物品都在展示区域显示。在推荐列表中，位置相近的推荐物品在推荐分数上相近，但是展示区域的推荐物品会更容易被用户看到，从而产生与用户之间的交互数据。推荐模型通常采用知识蒸馏机制，通过教师模型对学生模型进行训练，在获取到推荐物品与用户之间的交互数据之后，教师模型会根据用户行为数据进一步更新推荐分数，非展示区域的推荐物品由于缺少交互数据，曝光度的缺失会导致推荐分数续降低，而学生模型通常以推荐列表作为正样本，导致训练出的学生模型过于偏向展示区域的推荐物品，影响推荐模型的准确性。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例提供了一种基于知识蒸馏的推荐模型配置方法、装置、设备、介质，能够减少曝光度差异对推荐模型的影响，提高推荐模型的准确性。

第一方面，本发明实施例提供了一种基于知识蒸馏的推荐模型配置方法，包括：

将多个用户样本和预先标注好的多个物品样本输入至教师模型进行推荐预测，得到各个所述用户样本的教师评分集，所述教师评分集包括针对各个所述物品样本的教师推荐分数；

根据预设规则和所述教师评分集，从全部的所述物品样本中确定各个所述用户样本的正样本集和负样本集，所述正样本集的正物品样本和所述负样本集的负物品样本按照所述教师推荐分数从高到低的顺序排列；

将各个所述用户样本的所述正样本集和所述负样本集输入至学生模型进行推荐预测，得到各个所述用户样本的学生评分集，所述学生评分集包括针对各个所述物品样本的学生推荐分数；

根据所述学生评分集、所述正样本集和所述负样本集构建各个所述用户样本所对应的第一损失函数；

将所述正样本集的所述正物品样本进行两两位置互换，根据所述学生推荐分数确定位置互换后的各个所述正物品样本的曝光度损失值；

根据全部的所述正物品样本的所述曝光度损失值和所述正样本集构建第二损失函数；

根据所述第二损失函数和所述第一损失函数确定各个所述用户样本的目标损失函数，并根据全部的所述目标损失函数配置所述学生模型。

在一些实施例中，所述将所述正样本集的所述正物品样本进行两两位置互换，根据所述学生推荐分数确定位置互换后的各个所述正物品样本的曝光度损失值，包括：

根据每个所述正物品样本的位置信息和所述学生推荐分数确定各个所述正物品样本的曝光度值；

从所述正样本集中确定用于进行位置互换的第一正物品样本和第二正物品样本；

获取所述第一正物品样本的第一曝光度值和预设的第一效用函数；

获取所述第二正物品样本的第二曝光度值和预设的第二效用函数；

根据所述第一曝光度值、所述第一效用函数、所述第二曝光度值和所述第二效用函数确定所述第一正物品样本和所述第二正物品样本确定所述曝光度损失值。

在一些实施例中，所述根据全部的所述正物品样本的所述曝光度损失值和所述正样本集构建第二损失函数，包括：

确定所述用户样本的曝光度损失和，所述曝光度损失和为所述用户样本所对应的全部所述正物品样本的所述曝光度损失值之和；

将全部的所述用户样本的曝光度损失和的均值确定为曝光度参考值；

根据所述正样本集和所述曝光度参考值构建所述第二损失函数。

在一些实施例中，所述根据所述第一曝光度值、所述第一效用函数、所述第二曝光度值和所述第二效用函数确定所述第一正物品样本和所述第二正物品样本确定所述曝光度损失值，包括：

根据所述第一效用函数确定所述第一正物品样本的第一物品相关值，通过所述第一物品相关值与所述第二曝光度值得到第一替换曝光度值；

根据所述第二效用函数确定所述第二正物品样本的第二物品相关值，通过所述第二物品相关值与所述第一曝光度值得到第二替换曝光度值；

根据所述第一替换曝光度值和所述第二替换曝光度值确定所述曝光度损失值。

在一些实施例中，所述根据预设规则和所述教师评分集，从全部的所述物品样本中确定各个所述用户样本的正样本集和负样本集，包括：

根据所述用户样本的所述教师评分集，将所述物品样本按照所述教师推荐得分由高到低进行排序，得到物品排序集；

根据预设的第一数量从所述物品排序集中确定多个所述正物品样本，得到所述正样本集；

从所述物品排序集中确定所述正样本集的余集，根据预设的第二数量从所述余集中确定多个所述负物品样本，得到所述负样本集。

在一些实施例中，所述根据预设的第一数量从所述物品排序集中确定多个所述正物品样本，包括：

根据预设的第三数量，按照所述教师推荐得分由高到低的顺序从所述物品排序集中获取多个候选物品样本，得到候选物品集；

将标注信息中携带有正样本标注的所述候选物品样本确定为所述正物品样本；

确定已被确定为所述正物品样本的第四数量，当所述第四数量小于所述第一数量，根据所述第一数量和所述第四数量的差值从所述候选物品集剩余的所述候选物品样本中获取所述正物品样本。

在一些实施例中，所述第一损失函数的函数类型至少包括如下之一：

耦合损失函数；

二分类损失函数；

成对损失函数。

第二方面，本发明实施例还提供了一种基于知识蒸馏的推荐模型配置装置，包括：

第一预测单元，用于将多个用户样本和预先标注好的多个物品样本输入至教师模型进行推荐预测，得到各个所述用户样本的教师评分集，所述教师评分集包括针对各个所述物品样本的教师推荐分数；

样本获取单元，用于根据预设规则和所述教师评分集，从全部的所述物品样本中确定各个所述用户样本的正样本集和负样本集，所述正样本集的正物品样本和所述负样本集的负物品样本按照所述教师推荐分数从高到低的顺序排列；

第二预测单元，用于将各个所述用户样本的所述正样本集和所述负样本集输入至学生模型进行推荐预测，得到各个所述用户样本的学生评分集，所述学生评分集包括针对各个所述物品样本的学生推荐分数；

第一函数构建单元，用于根据所述学生评分集、所述正样本集和所述负样本集构建各个所述用户样本所对应的第一损失函数；

损失计算单元，用于将所述正样本集的所述正物品样本进行两两位置互换，根据所述学生推荐分数确定位置互换后的各个所述正物品样本的曝光度损失值；

第二函数构建单元，用于根据全部的所述正物品样本的所述曝光度损失值和所述正样本集构建第二损失函数；

模型更新单元，用于根据所述第二损失函数和所述第一损失函数确定各个所述用户样本的目标损失函数，并根据全部的所述目标损失函数配置所述学生模型。

第三方面，本发明实施例提供了一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的基于知识蒸馏的推荐模型配置方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序用于执行如第一方面所述的基于知识蒸馏的推荐模型配置方法。

本发明实施例包括：将多个用户样本和预先标注好的多个物品样本输入至教师模型进行推荐预测，得到各个所述用户样本的教师评分集，所述教师评分集包括针对各个所述物品样本的教师推荐分数；根据预设规则和所述教师评分集，从全部的所述物品样本中确定各个所述用户样本的正样本集和负样本集，所述正样本集的正物品样本和所述负样本集的负物品样本按照所述教师推荐分数从高到低的顺序排列；将各个所述用户样本的所述正样本集和所述负样本集输入至学生模型进行推荐预测，得到各个所述用户样本的学生评分集，所述学生评分集包括针对各个所述物品样本的学生推荐分数；根据所述学生评分集、所述正样本集和所述负样本集构建各个所述用户样本所对应的第一损失函数；将所述正样本集的所述正物品样本进行两两位置互换，根据所述学生推荐分数确定位置互换后的各个所述正物品样本的曝光度损失值；根据全部的所述正物品样本的所述曝光度损失值和所述正样本集构建第二损失函数；根据所述第二损失函数和所述第一损失函数确定各个所述用户样本的目标损失函数，并根据全部的所述目标损失函数配置所述学生模型。根据本实施例的技术方案，能够根据从教师模型获取的正负样本和学生模型的评分构建第一损失函数，并且对正样本集进行位置调整后确定各个物品样本的曝光度损失值，根据曝光度损失值构建第二损失函数，使得学生模型在推荐预测的过程中弱化排序靠前带来的曝光度加成，减少曝光度对排序靠后的物品样本的影响，有利于减少展示区域有限导致的推荐误差，提高推荐模型的准确性。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1是本发明一个实施例提供的基于知识蒸馏的推荐模型配置方法的流程图；

图2是本发明另一个实施例提供的确定曝光度损失值的流程图；

图3是本发明另一个实施例提供的构建第二损失函数的流程图；

图4是本发明另一个实施例提供的确定曝光度损失值的流程图；

图5是本发明另一个实施例提供的获取正负样本的流程图；

图6是本发明另一个实施例提供的获取正负样本的示意图；

图7是本发明另一个实施例提供的获取正物品样本的流程图；

图8是本发明另一个实施例提供的基于知识蒸馏的推荐模型配置装置的结构图；

图9是本发明另一个实施例提供的电子设备的装置图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书、权利要求书或上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本发明提供了一种基于知识蒸馏的推荐模型配置方法、装置、设备、介质，方法包括：将多个用户样本和预先标注好的多个物品样本输入至教师模型进行推荐预测，得到各个所述用户样本的教师评分集，所述教师评分集包括针对各个所述物品样本的教师推荐分数；根据预设规则和所述教师评分集，从全部的所述物品样本中确定各个所述用户样本的正样本集和负样本集，所述正样本集的正物品样本和所述负样本集的负物品样本按照所述教师推荐分数从高到低的顺序排列；将各个所述用户样本的所述正样本集和所述负样本集输入至学生模型进行推荐预测，得到各个所述用户样本的学生评分集，所述学生评分集包括针对各个所述物品样本的学生推荐分数；根据所述学生评分集、所述正样本集和所述负样本集构建各个所述用户样本所对应的第一损失函数；将所述正样本集的所述正物品样本进行两两位置互换，根据所述学生推荐分数确定位置互换后的各个所述正物品样本的曝光度损失值；根据全部的所述正物品样本的所述曝光度损失值和所述正样本集构建第二损失函数；根据所述第二损失函数和所述第一损失函数确定各个所述用户样本的目标损失函数，并根据全部的所述目标损失函数配置所述学生模型。根据本实施例的技术方案，能够根据从教师模型获取的正负样本和学生模型的评分构建第一损失函数，并且对正样本集进行位置调整后确定各个物品样本的曝光度损失值，根据曝光度损失值构建第二损失函数，使得学生模型在推荐预测的过程中弱化排序靠前带来的曝光度加成，减少曝光度对排序靠后的物品样本的影响，有利于减少展示区域有限导致的推荐误差，提高推荐模型的准确性。

本申请实施例可以基于人工智能技术对相关的数据进行编译、获取和处理。其中，人工智能（Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用装置。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互装置、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本发明实施例所提及的终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、车载计算机、智能家居、可穿戴电子设备、VR（Virtual Reality，虚拟现实）/AR（AugmentedReality，增强现实）设备等等；服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content DeliveryNetwork，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器，等等。

需要说明的是，本发明实施例的数据可以保存在服务器中，服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

知识蒸馏（knowledge distillation）也叫暗知识提取，是指通过结构复杂、计算量大但是性能优秀的教师神经网络（teacher network），对结构相对简单、计算量较小的学生神经网络（student network）的训练进行指导，以提升学生神经网络的性能，实现知识迁移（knowledge transfer）的过程。知识蒸馏能使模型变轻量的同时（方便部署），尽量不损失性能。本申请在视频超分领域引入知识蒸馏技术，为了便于描述，下文将用于视频超分的教师神经网络或类似教师神经网络的模型统称为第一超分网络模型，将用于视频超分的学生神经网络或类似学生神经网络的模型统称为第二超分网络模型。

如图1所示，图1是本发明一个实施例提供的一种基于知识蒸馏的推荐模型配置方法的流程图，该基于知识蒸馏的推荐模型配置方法包括但不限于有以下步骤：

步骤S110，将多个用户样本和预先标注好的多个物品样本输入至教师模型进行推荐预测，得到各个用户样本的教师评分集，教师评分集包括针对各个物品样本的教师推荐分数；

步骤S120，根据预设规则和教师评分集，从全部的物品样本中确定各个用户样本的正样本集和负样本集，正样本集的正物品样本和负样本集的负物品样本按照教师推荐分数从高到低的顺序排列；

步骤S130，将各个用户样本的正样本集和负样本集输入至学生模型进行推荐预测，得到各个用户样本的学生评分集，学生评分集包括针对各个物品样本的学生推荐分数；

步骤S140，根据学生评分集、正样本集和负样本集构建各个用户样本所对应的第一损失函数；

步骤S150，将正样本集的正物品样本进行两两位置互换，根据学生推荐分数确定位置互换后的各个正物品样本的曝光度损失值；

步骤S160，根据全部的正物品样本的曝光度损失值和正样本集构建第二损失函数；

步骤S170，根据第二损失函数和第一损失函数确定各个用户样本的目标损失函数，并根据全部的目标损失函数配置学生模型。

需要说明的是，由于教师模型的规模通常是较大，进行推荐预测之后需要遍历得到推荐结果，需要耗费较长的时间，因此，为了减少对教师模型的遍历次数，可以将标注好的用户样本和物品样本输入教师模型进行推荐预测，通过一次遍历得到各个用户样本的全部物品样本的教师推荐分数，并存储为格式化数据，在需要训练新的学生模型时，直接读取格式化数据作为伪标签对新的学生模型进行训练，能够有效减少教师模型的遍历次数，提高学生模型的训练效率。需要说明的是，由于同一件物品对于不同用户的推荐程度不同，针对物品样本的标注可以是针对每个用户样本的，具体的标注方式在此不多做限定。

需要说明的是，在得到教师评分集之后，以每个用户样本为单位生成教师评分集，在该教师评分集内保存全部物品样本对于该用户样本的教师推荐分数，并且按照分数从高到低排序，便于后续根据教师推荐分数选取出排名较高的正负样本进行损失函数的计算，提高学生模型的配置效率。

需要说明的是，由于用户样本和物品样本预先标注好，通过上述所述的伪标签对学生模型进行简单训练，能够得出初始的学生评分集，通过学生评分集构建损失函数，再将损失函数配置至学生模型，能够使得得到的学生模型推荐预测更加准确。

需要说明的是，通过学生评分集、正样本集和负样本集构建出的第一损失函数能够体现推荐分数与正负样本之间的关系，例如选取推荐分数最高的若干个物品样本作为正物品样本，选取分数较低的若干个物品样本作为负物品样本，使得学生模型在第一损失函数的作用下能够强化高推荐分数的物品特征，弱化低推荐分数的物品特征，从而提高学生模型的推荐准确性。

可以理解的是，为了确保第二损失函数的准确性，可以将一个正物品样本与正样本集其余的所有正物品样本逐一互换位置，并计算出对应的曝光度损失值，例如，正样本集内包括3个正物品样本，针对正物品样本1，使其与正物品样本2互换位置，计算出第一个曝光度损失值记为D（1,2）；使其与正物品样本3互换位置，计算出第二个曝光度损失值记为D （1,3）；针对正物品样本2，使其与正物品样本1互换位置，计算出第一个曝光度损失值记为D （2,1）；使其与正物品样本3互换位置，计算出第二个曝光度损失值记为D（2,3）；针对正物品样本3，使其与正物品样本1互换位置，计算出第一个曝光度损失值记为D（3,1）；使其与正物品样本2互换位置，计算出第二个曝光度损失值记为D（3,2）；将D（1,2）、D（1,3）、D（2,1）、D （2,3）、D（3,1）和D（3,2）和正样本集构建出第二损失函数

,其中s为曝光度损失值的和的均值，P为正样本集。

需要说明的是，若仅以第一损失函数配置学生模型，得到的学生模型只能考虑推荐分数，由于学生推荐分数决定了物品在推荐列表的位置，学生推荐分数较高的物品排名较前，对于不处于展示区域的物品，由于曝光度不如出于展示区域的物品，会很容易在不断训练的过程中学生推荐分数越来越低，本实施例通过交换正样本集的正样本物品的位置，通过计算正物品样本交换位置后的曝光度损失值，再根据每一个正物品样本的曝光度损失值构建第二损失函数，能够弱化曝光度对推荐预测的影响，提高推荐预测的准确性。

另外，参照图2，在一实施例中，图1所示实施例的步骤S150还包括但不限于有以下步骤：

步骤S210，根据每个正物品样本的位置信息和学生推荐分数确定各个正物品样本的曝光度值；

步骤S220，从正样本集中确定用于进行位置互换的第一正物品样本和第二正物品样本；

步骤S230，获取第一正物品样本的第一曝光度值和预设的第一效用函数；

步骤S240，获取第二正物品样本的第二曝光度值和预设的第二效用函数；

步骤S250，根据第一曝光度值、第一效用函数、第二曝光度值和第二效用函数确定第一正物品样本和第二正物品样本确定曝光度损失值。

需要说明的是，由于正样本集中的正物品样本是按照评分高低排序，因此排名靠前的正物品样本位于推荐列表前列，可以获得较高的曝光度，基于此，计算正物品样本的曝光度值需要引入正物品样本的位置信息，例如可以通过如下公式计算：

，其中，

为正物品样本d的曝光度值，π为正样本集的所有排列情况的集合，

为在集合π中排列y出现的概率，K为正物品样本d的排序，k为求和的序数，

表示正物品样本d在某排列y下排在第k位的概率，其中，

，其中， P为正样本集，

表示正样本集中前k-1位的排列情况，即

。

需要说明的是，第一正物品样本和第二正物品样本可以是正样本集内的任意两个正物品样本，每两个正物品样本之间执行一次互换，由于不同的物品的效用不同，即使位于相同的排序，不同的物品也会得到不同的曝光度，基于此，本实施例引入效用函数，通过效用函数表征物品在某个排序中的效用，通过曝光度值和效用函数共同确定曝光度损失值，能够有效提高曝光度损失值的准确性，效用函数的具体定义为本领域技术人员熟知的技术，在此不重复赘述。

另外，参照图3，在一实施例中，图1所示实施例的步骤S160还包括但不限于有以下步骤：

步骤S310，确定用户样本的曝光度损失和，曝光度损失和为用户样本所对应的全部正物品样本的曝光度损失值之和；

步骤S320，将全部的用户样本的曝光度损失和的均值确定为曝光度参考值；

步骤S330，根据正样本集和曝光度参考值构建第二损失函数。

需要说明的是，在确定每个正物品样本的曝光度损失值之后，需要以每个用户样本为单位，计算曝光度损失和，从而确定位置交换对每个用户样本的总体影响，曝光度损失和的计算可以通过以下公式计算：

，其中，

为第一正物品样本，

为第二正物品样本，D为曝光度损失值，P为正样本集，

为曝光度损失和。

需要说明的是，曝光度损失和能够弱化曝光度对推荐分数的贡献，与用户因素并没有必然联系，因此，为了进一步提高第二损失函数的准确性，可以将全部用户样本的曝光度损失和进行均值计算，得到曝光度参考值，根据曝光度参考值构建第二损失函数。

值得注意的是，由于第二损失函数是每个用户样本的曝光度损失和的均值，因此第二损失函数可以由全部的用户样本共享，每个用户样本所对应的第一损失函数与第二损失函数进行整合得到目标损失函数，完成学生模型的配置。

另外，参照图4，在一实施例中，图2所示实施例的步骤S250还包括但不限于有以下步骤：

步骤S410，根据第一效用函数确定第一正物品样本的第一物品相关值，通过第一物品相关值与第二曝光度值得到第一替换曝光度值；

步骤S420，根据第二效用函数确定第二正物品样本的第二物品相关值，通过第二物品相关值与第一曝光度值得到第二替换曝光度值；

步骤S430，根据第一替换曝光度值和第二替换曝光度值确定曝光度损失值。

需要说明的是，物品相关值可以是物品相关性，能够表征在某个物品与推荐需求的相关程度，物品d的物品相关值可以由以下公式计算得到：

，其中，m（d）为效用函数。

需要说明的是，在确定每个正样本物品的曝光度值之后，需要对正样本物品进行两两交换，第一正物品样本

和第二正物品样本

互换之后的曝光度损失可以通过如下公式计算：

,或者，

，其中，D为曝光度损失值，

为第一正物品样本

的曝光度值，

为第二正物品样本

的曝光度值，

为第一正物品样本

的物品相关值，

为第二正物品样本

的物品相关值。

另外，参照图5，在一实施例中，图1所示实施例的步骤S130还包括但不限于有以下步骤：

步骤S510，根据用户样本的教师评分集，将物品样本按照教师推荐得分由高到低进行排序，得到物品排序集；

步骤S520，根据预设的第一数量从物品排序集中确定多个正物品样本，得到正样本集；

步骤S530，从物品排序集中确定正样本集的余集，根据预设的第二数量从余集中确定多个负物品样本，得到负样本集。

需要说明的是，在教师评分集中包括多个物品样本，按照教师推荐分数由高到低排序，得到物品排序集，便于挑选出推荐分数较高的物品样本进行损失函数的构建，例如图6所示，教师评分集内有11个物品样本，教师推荐评分由物品样本1至物品样本11依次递减，排序之后得到物品排序集。

需要说明的是，第一数量可以是预设的数值，也可以是预设的比例值，通过比例值与物品排序集的数量确定第一数量，根据实际需求选取第一数量的具体确定方式即可。

需要说明的是，由于物品排序集的样本数量较多，为了避免正物品样本和负物品样本重叠，可以在选取正物品样本得到正样本集之后，从物品排序集确定正样本集的余集，例如图6所示的虚线右侧，从该余集中选取负物品样本。

另外，参照图7，在一实施例中，图5所示实施例的步骤S520还包括但不限于有以下步骤：

步骤S710，根据预设的第三数量，按照教师推荐得分由高到低的顺序从物品排序集中获取多个候选物品样本，得到候选物品集；

步骤S720，将标注信息中携带有正样本标注的候选物品样本确定为正物品样本；

步骤S730，确定已被确定为正物品样本的第四数量，当第四数量小于第一数量，根据第一数量和第四数量的差值从候选物品集剩余的候选物品样本中获取正物品样本。

需要说明的是，由于每个正样本集是针对学生模型配置的，在学生模型数量较多的情况下，每个学生模型可以通过不同的选取方式从候选物品集选取正物品样本，为了确保选取的正物品样本中存在高评分的样本，可以预先设定第三数量，从物品排序集挑选出候选物品样本，例如图6所示，第三数量为7，从物品排序集中选取出物品样本1至7作为候选物品样本。

可以理解的是，正物品样本可以通过任意方式从候选物品集中选取，例如随机选取或者按照教师推荐评分由高到低选取，对于一些较为优质的样本，可以在预先标注时添加正样本标注，使得选取时必然选取作为正物品样本，例如图6中所示，第一数量为5，候选物品样本2和候选物品样本4添加有正样本标注，直接确定为正物品样本，此时第四数量为2，从剩余的候选物品中随机获取3个候选物品样本作为正物品样本，从而得到正样本集，能够确保优势物品占据一定的样本数量，从而确保第一损失函数构建的准确性。同时，还可以从教师评分集内剩余的物品样本8至11中选取3个作为负样本集，负物品样本的数量根据实际需求选取即可，在此不重复赘述。

在一些实施例中，第一损失函数的函数类型至少包括如下之一：

耦合损失函数；

二分类损失函数；

成对损失函数。

需要说明的是，第一损失函数由学生评分集、正样本集和负样本集构建，函数族可以采用常见的耦合损失函数、二分类损失函数、成对损失函数，具体的函数构建方式为本领域技术人员熟知的方式，在此不多作赘述。

另外，参照图8，本发明实施例提供了一种基于知识蒸馏的推荐模型配置装置，基于知识蒸馏的推荐模型配置装置800包括：

第一预测单元810，用于将多个用户样本和预先标注好的多个物品样本输入至教师模型进行推荐预测，得到各个用户样本的教师评分集，教师评分集包括针对各个物品样本的教师推荐分数；

样本获取单元820，用于根据预设规则和教师评分集，从全部的物品样本中确定各个用户样本的正样本集和负样本集，正样本集的正物品样本和负样本集的负物品样本按照教师推荐分数从高到低的顺序排列；

第二预测单元830，用于将各个用户样本的正样本集和负样本集输入至学生模型进行推荐预测，得到各个用户样本的学生评分集，学生评分集包括针对各个物品样本的学生推荐分数；

第一函数构建单元840，用于根据学生评分集、正样本集和负样本集构建各个用户样本所对应的第一损失函数；

损失计算单元850，用于将正样本集的正物品样本进行两两位置互换，根据学生推荐分数确定位置互换后的各个正物品样本的曝光度损失值；

第二函数构建单元860，用于根据全部的正物品样本的曝光度损失值和正样本集构建第二损失函数；

模型更新单元870，用于根据第二损失函数和第一损失函数确定各个用户样本的目标损失函数，并根据全部的目标损失函数配置学生模型。

另外，参照图9，本发明的一个实施例还提供了一种电子设备，该电子设备900包括：存储器910、处理器920及存储在存储器910上并可在处理器920上运行的计算机程序。

处理器920和存储器910可以通过总线或者其他方式连接。

实现上述实施例的基于知识蒸馏的推荐模型配置方法所需的非暂态软件程序以及指令存储在存储器910中，当被处理器920执行时，执行上述实施例中的基于知识蒸馏的推荐模型配置方法，例如，执行以上描述的图1中的方法步骤S110至步骤S170、图2中的方法步骤S210至步骤S250、图3中的方法步骤S310至步骤S330、图4中的方法步骤S410至步骤S430、图5中的方法步骤S510至步骤S530、图7中的方法步骤S710至步骤S730。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

此外，本发明的一个实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被一个处理器或控制器执行，例如，被上述电子设备实施例中的一个处理器执行，可使得上述处理器执行上述实施例中的基于知识蒸馏的推荐模型配置方法，例如，执行以上描述的图1中的方法步骤S110至步骤S170、图2中的方法步骤S210至步骤S250、图3中的方法步骤S310至步骤S330、图4中的方法步骤S410至步骤S430、图5中的方法步骤S510至步骤S530、图7中的方法步骤S710至步骤S730。本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、装置可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读存储介质上，计算机可读存储介质可以包括计算机存储介质（或非暂时性存储介质）和通信存储介质（或暂时性存储介质）。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息（诸如计算机可读指令、数据结构、程序模块或其他数据）的任何方法或技术中实施的易失性和非易失性、可移除和不可移除存储介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘（DVD）或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的存储介质。此外，本领域普通技术人员公知的是，通信存储介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送存储介质。

本实施例可用于众多通用或专用的计算机装置环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、基于微处理器的装置、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何装置或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机程序的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

附图中的流程图和框图，图示了按照本申请各种实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的各个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的程序。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的各个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的装置来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干指令以使得一台计算设备（可以是个人计算机、服务器、触控终端、或者网络设备等）执行根据本申请实施方式的方法。

本实施例的终端可以包括：射频(Radio Frequency，简称RF)电路、存储器、输入单元、显示单元、传感器、音频电路、无线保真(wireless fidelity，简称WiFi)模块、处理器、以及电源等部件。RF电路可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器处理；另外，将设计上行的数据发送给基站。通常，RF电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，简称LNA)、双工器等。此外，RF电路还可以通过无线通信与网络和其他装置通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication，简称GSM)、通用分组无线服务(General Packet RadioService，简称GPRS)、码分多址(Code Division Multiple Access，简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access，简称WCDMA)、长期演进(Long TermEvolution，简称LTE)、电子邮件、短消息服务(Short Messaging Service，简称SMS)等。存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行终端的各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。输入单元可用于接收输入的数字或字符信息，以及产生与终端的设置以及功能控制有关的键信号输入。具体地，输入单元可包括触控面板以及其他输入装置。触控面板，也称为触摸屏，可收集在其上或附近的触摸操作(比如使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器，并能接收处理器发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类别实现触控面板。除了触控面板，输入单元还可以包括其他输入装置。具体地，其他输入装置可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。显示单元可用于显示输入的信息或提供的信息以及终端的各种菜单。显示单元可包括显示面板，可选的，可以采用液晶显示器(Liquid Crystal Display，简称LCD)、有机发光二极管(Organic Light-Emitting Diode，简称OLED)等形式来配置显示面板。进一步的，触控面板可覆盖显示面板，当触控面板检测到在其上或附近的触摸操作后，传送给处理器以确定触摸事件的类别，随后处理器根据触摸事件的类别在显示面板上提供相应的视觉输出。触控面板与显示面板是作为两个独立的部件来实现终端的输入和输入功能，但是在某些实施例中，可以将触控面板与显示面板集成而实现终端的输入和输出功能。终端还可包括至少一种传感器，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板的亮度，接近传感器可在终端移动到耳边时，关闭显示面板和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。音频电路、扬声器、传声器可提供音频接口。音频电路可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路接收后转换为音频数据，再将音频数据输出处理器处理后，经RF电路以发送给比如另一终端，或者将音频数据输出至存储器以便进一步处理。

本领域技术人员在考虑说明书及实践这里公开的实施方式后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

以上是对本发明的较佳实施进行了具体说明，但本发明并不局限于上述实施方式，熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换，这些等同的变形或替换均包含在本发明权利要求所限定的范围内。

Claims

1.一种基于知识蒸馏的推荐模型配置方法，其特征在于，包括：

根据每个所述正物品样本的位置信息和所述学生推荐分数确定各个所述正物品样本的曝光度值，其中，所述曝光度值可以通过以下公式计算：

，其中，

表示正物品样本d在某排列y下排在第k位的概率，其中，

，其中，P为正样本集，

表示正样本集中前k-1位的排列情况，即

；

根据所述第一效用函数确定所述第一正物品样本的第一物品相关值，通过所述第一物品相关值与所述第二曝光度值得到第一替换曝光度值，其中，物品d的物品相关值可以由以下公式计算得到：

，其中，m（d）为效用函数；

根据所述第一替换曝光度值和所述第二替换曝光度值确定曝光度损失值，其中，所述第一正物品样本

和第二正物品样本

互换之后的曝光度损失可以通过如下公式计算：

，其中，D为曝光度损失值，

为第一正物品样本

的曝光度值，

为第二正物品样本

的曝光度值，

为第一正物品样本

的物品相关值，

为第二正物品样本

的物品相关值；

2.根据权利要求1所述的基于知识蒸馏的推荐模型配置方法，其特征在于，所述根据全部的所述正物品样本的所述曝光度损失值和所述正样本集构建第二损失函数，包括：

3.根据权利要求1所述的基于知识蒸馏的推荐模型配置方法，其特征在于，所述根据预设规则和所述教师评分集，从全部的所述物品样本中确定各个所述用户样本的正样本集和负样本集，包括：

4.根据权利要求3所述的基于知识蒸馏的推荐模型配置方法，其特征在于，所述根据预设的第一数量从所述物品排序集中确定多个所述正物品样本，包括：

5.根据权利要求1所述的基于知识蒸馏的推荐模型配置方法，其特征在于，所述第一损失函数的函数类型至少包括如下之一：

耦合损失函数；

二分类损失函数；

成对损失函数。

6.一种基于知识蒸馏的推荐模型配置装置，其特征在于，包括：

损失计算单元，用于根据每个所述正物品样本的位置信息和所述学生推荐分数确定各个所述正物品样本的曝光度值，其中，所述曝光度值可以通过以下公式计算：

，其中，

表示正物品样本d在某排列y下排在第k位的概率，其中，

，其中，P为正样本集，

表示正样本集中前k-1位的排列情况，即

；从所述正样本集中确定用于进行位置互换的第一正物品样本和第二正物品样本；获取所述第一正物品样本的第一曝光度值和预设的第一效用函数；获取所述第二正物品样本的第二曝光度值和预设的第二效用函数；根据所述第一效用函数确定所述第一正物品样本的第一物品相关值，通过所述第一物品相关值与所述第二曝光度值得到第一替换曝光度值，其中，物品d的物品相关值可以由以下公式计算得到：