CN112884552A

CN112884552A - 一种基于生成对抗和知识蒸馏的轻量级多模推荐方法

Info

Publication number: CN112884552A
Application number: CN202110199089.9A
Authority: CN
Inventors: 王利娥; 郑雨田; 李先贤
Original assignee: Guangxi Normal University
Current assignee: Guangxi Normal University
Priority date: 2021-02-22
Filing date: 2021-02-22
Publication date: 2021-06-01
Anticipated expiration: 2041-02-22
Also published as: CN112884552B

Abstract

本发明公开一种基于生成对抗和知识蒸馏的轻量级多模推荐方法，首先生成对抗网络会根据用户的点击向量和购买向量进行对抗训练，生成出与原始用户数据相似的用户历史数据。然后将生成出来的数据分别输入到生成对抗网络中的判别器和学生模型中进行深度学习训练。接着判别器作为教师网络与学生网络进行交叉熵的损失函数的训练，直至学生网络输出能拟合教师网络的输出后，反向传播更新参数直至训练结束。最后用户只需要在云端下载最终的学生模型即可进行在线推荐，提升推荐的效率。本发明基于多模态的用户画像提高推荐的精确度，采用知识蒸馏和生成对抗解决推荐模型的轻量级部署问题，同时保证用户的隐私安全，实现推荐精度和计算效率之间的平衡。

Description

一种基于生成对抗和知识蒸馏的轻量级多模推荐方法

技术领域

本发明涉及数据推荐技术领域，具体涉及一种基于生成对抗和知识蒸馏的轻量级多模推荐方法。

背景技术

随着科技的发展和科技产品的普及，以及大数据时代带来的跨时代变化，人们所能使用的数据信息量也在不断增大，如何在繁杂无序的信息中快速精准的找到自己所喜欢的信息变成每个用户所苦恼的问题。因此应运而生的推荐系统能根据用户行为特征等信息进行分析，为用户推荐所喜欢的项目信息极大的方便了用户日常行为生活。

在众多推荐系统的相关技术研究中，协同过滤算法虽然在工业和研究中得到了较好的推荐效果，但是由于单个用户购买、点击或者评论的商品数量相对于所有商品而言是极小的一部分，尤其是目前用户和项目数量急剧增长，使得数据稀疏问题更为严重。另外，由于不同用户之间购买的物品重叠性较低，因此推荐系统无法找到其有效的相似用户，导致推荐结果不准确，进而影响用户体验度。有相关研究表明，基于深度学习技术的推荐系统能够有效缓解该问题，然而目前的深度学习模型加入到推荐系统当中存在推荐模型的模型参数比常规模型数量更多的问题，这就大大增加了模型的复杂性，其推荐模型无法部署于资源受限的运行环境下。因此，如何在担保推荐的准确性的同时提高计算效率是目前推荐领域关注的热点之一。

发明内容

本发明所要解决的是推荐系统中数据稀疏性和计算效率性问题，提供一种基于生成对抗和知识蒸馏的轻量级多模推荐方法。

为解决上述问题，本发明是通过以下技术方案实现的：

一种基于生成对抗和知识蒸馏的轻量级多模推荐方法，包括步骤如下：

步骤1、采集各用户的原始数据，对原始数据中的点击数据和购买数据进行过滤，分别得到用户真实点击序列和用户真实购买向量；

步骤2、利用各用户的用户真实点击序列对GRU生成对抗网络的GRU生成器和GRU判别器进行对抗训练，并输出各用户的最终的用户生成点击序列；

步骤3、利用各用户的用户真实购买向量对CF生成对抗网络的CF生成器和CF判别器进行对抗训练，并输出各用户的最终的用户生成购买向量；

步骤4、将GRU生成对抗网络对抗训练后所得到的GRU判别器和CF生成对抗网络对抗训练后所得到的CF判别器组成教师网络，并将一个独立的神经网络组成学生网络；

步骤5、将各用户的最终的用户生成点击序列和最终的用户生成购买向量分别送入到教师网络和学生网络中进行深度学习，得到深度学习后的教师网络和学生网络；

步骤6、基于知识蒸馏方法，深度学习后的教师网络和深度学习后的学生网络在网络的softmax层传递预测值，以让学生网络最后的输出值与教师网络最后的输出值尽可能相同，得到知识蒸馏后的教师网络和学生网络；

步骤7、用户从云端下载知识蒸馏后的学生网络，并利用该知识蒸馏后的学生网络对用户感兴趣的商品进行推荐。

上述步骤2的具体过程如下：

步骤2.1、从大样本空间中，生成用户随机点击序列；

步骤2.2、将用户随机点击序列输入GRU生成对抗网络的GRU生成器，GRU生成器生成与用户真实点击序列同分布的用户生成点击序列；

步骤2.3、GRU生成对抗网络的GRU判别器将当前的用户生成点击序列与用户真实点击序列进行真假判别，GRU判别器根据当前的判别结果指导GRU生成器进行参数更新，让用户真实点击序列输出概率尽可能接近100％，当前的用户生成点击序列输出概率尽可能接近0％；

步骤2.4、固定GRU判别器，并将当前的判别结果输出给GRU生成器，GRU生成器根据当前的判别结果指导GRU生成器进行参数更新，使得GRU生成器后续生成的用户生成点击序列能让CF判别器难以区别是否真实；

步骤2.5、重复步骤2.3-2.4，GRU生成器和GRU判别器进行迭代的对抗训练，直到双方结果收敛，并输出最终的用户生成点击序列。

上述步骤3的具体过程如下：

步骤3.1、从大样本空间中，生成用户随机购买向量；

步骤3.2、将用户随机购买向量输入CF生成对抗网络的CF生成器，CF生成器生成与用户真实购买向量同分布的用户生成购买向量；

步骤3.3、CF生成器根据用户真实购买向量，从当前的用户生成购买向量随机选取其中部分用户未购买商品的用户生成购买向量作为用户虚假购买向量，并用户虚假购买向量与用户真实购买向量相乘，更新当前的用户生成购买向量；

步骤3.4、CF生成对抗网络的CF判别器将当前的用户生成购买向量与用户真实购买向量进行真假判别，CF判别器根据当前的判别结果指导CF生成器进行参数更新，让用户真实购买向量输出概率尽可能接近100％，当前的用户生成购买向量输出概率尽可能接近0％；

步骤3.5、固定CF判别器，并将当前的判别结果输出给CF生成器，CF生成器根据当前的判别结果指导CF生成器进行参数更新，使得CF生成器后续生成的用户生成购买向量能让CF判别器难以区别是否真实；

步骤3.6、重复步骤3.3-3.5，CF生成器和CF判别器进行迭代的对抗训练，直到双方结果收敛，并输出最终的用户生成购买向量。

与现有技术相比，本发明具有如下特点：

1、本发明提出一种多模态的基于生成对抗网络的推荐方法，该方法可以根据用户多种历史交互数据，如点击，购买等数据来进行学习，并输入到生成对抗网络中进行对抗训练，识别用户长短期偏好，增强用户的历史交互数据，最终刻画出用户完整画像，来帮助推荐系统解决数据稀疏性问题，提高推荐精度。

2、本发明提出一种知识蒸馏的推荐方法，该方法可以将复杂模型通过传递预测值的方式传递给简单的模型，从而让简单模型在推荐性能上达到跟复杂模型一样的效果。而且简单的模型(学生模型)也相对于复杂模型来说更加利于部署于资源受限的设备上面，实现轻量级推荐，提高推荐效率。

3、本发明提出一种能保障用户隐私的推荐方法，用户最终所接触的学生模型的训练只受到生成对抗网络所生成的数据和通过GRU判别器和CF判别器所传递的预测值。相当于直接使用模型而言，更加保障的用户隐私，实现隐私保护的属性。

附图说明

图1为一种基于生成对抗和知识蒸馏的轻量级多模推荐方法的原理图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实例，对本发明进一步详细说明。

一种基于生成对抗和知识蒸馏的轻量级多模推荐方法，如图1所示，其具体包括步骤如下：

S101、分别采集各用户的原始数据，对用户给定的隐式反馈(例如：是否点击过商品或者购买过商品)进行过滤，分别得到各用户的用户真实点击序列和用户真实购买向量。

推荐系统的原始数据包括显示反馈和隐式反馈，本发明针对隐式反馈中的点击数据和购买数据进行过滤，将分别得到用户真实点击序列数据(包括:用户ID，商品ID和点击商品的时间)和用户真实购买向量数据(包括：用户ID和商品ID)。其中用户购买或者点击过商品在向量中表示为1，未进行交互在向量中表示为0。

S102、利用各用户的用户真实点击序列对GRU生成对抗网络进行训练，并输出各用户的最终的用户生成点击序列。

S102.1、基于门控循环神经网络的GRU生成对抗网络包括GRU生成器和GRU判别器。初始化GRU生成对抗网络参数为：

其中，

表示当前输入的序列，

表示上一个输入的隐藏状态，

表示GRU的一个重置门控，σ表示一个sigmoid函数，RELU()和tanh()都为激活函数。

表通过重置门控之后一个数据。

表示当前状态一个隐藏状态。

都为

与

的加权矩阵。

S102.2、从大样本空间中随机抽取序列生成用户随机点击序列，并将用户随机点击序列输入进GRU生成器，GRU生成器输出符合用户分布的初始的用户生成点击序列。

S102.3、GRU判别器将当前的用户生成点击序列与用户真实点击序列进行判别真假，根据判别结果，GRU判别器会通过以下损失函数更新其自身参数，使得用户生成点击序列和用户真实点击序列区别尽可能的大，从而让用户真实点击序列输出概率尽可能接近100％，用户生成点击序列输出概率尽可能接近0％。

其中，D(r|i,j,t)表示判别器所学习到的一种分布，E_x～pdata表示数学期望，结果的概率乘其结果的总和。

S102.4、固定GRU判别器，将当前的用户生成点击序列的判别结果输出给GRU生成器，GRU生成器通过以下损失函数更新其自身参数，加强生成出与用户真实点击序列相似的生成数据，从而让GRU生成器后续生成的用户序列能让GRU判别器难以区别是否真实。

S102.5、重复S102.3和S102.4，将GRU生成器和GRU判别器二者进行不断对抗训练，直至收敛，并输出最终的用户生成点击序列。

S102.3中已经针对V(D,G)进行了求解max，S102.4对其求解之后再求min，两个步骤保障了我们GRU判别器和GRU生成器能进行训练保障其收敛。

S103、利用各用户的用户真实购买向量对CF生成对抗网络进行训练，并输出各用户的最终的用户生成购买向量。

S103.1、基于协同过滤神经网络的CF生成对抗网络包括CF生成器和CF判别器。初始化CF生成对抗网络包括1层输入层，3层的隐藏层和1层输出softmax层。输入层神经元设置是(项目统计，1024)，三层隐藏层神经元设置分别为(1024，128)，(128，16)，(16，1)，最后一层为softmax层。每层神经网络满足线性关系：

Z_i＝ω_ix_i+b

其中，w_i各层的线性关系系数，b表示偏移修正。

S103.2、从大样本空间中随机抽取向量生成用户随机购买向量，并将用户随机购买向量输入CF生成器，CF生成器输出符合用户分布的初始的用户生成购买向量。

S103.3、CF生成器根据用户真实购买向量，随机选择20％用户未购买商品的用户向量内容让其成为负样本即用户虚假购买向量，并将用户虚假购买向量与用户真实购买向量做masking(叉积)公式操作，虚假购买向量其乘上0，真实购买的商品乘上1，最终输出masking操作后的用户操作购买向量去更新当前的用户生成购买向量。

i＝r_u⊙e_u

其中，其中i表示做masking后续输出的用户购买向量，⊙表示逻辑运算符“同或”，两个值相同，同或结果为真，反之则为假。r_u表示生成出来的向量。e_u表示用户是否购买的真是向量。

S103.4、CF判别器将当前的用户生成购买向量与用户真实向量进行判别真假。根据判别结果，GRU判别器会通过以下损失函数更新其自身参数，使得用户操作购买向量和用户真实向量区别尽可能的大，让真实向量输出概率尽可能接近100％，生成的向量输出概率尽可能接近0％。

J^D＝-E_x～pdata[l0gD(r_u|c_u)]-E_x～pdata[log(1-D(r_u⊙e_u|c_u))]

其中，D(r_u|c_u)表示生成的向量和真实向量之间的分布。D(r_u⊙e_u|c_u)表示masking之后所输出的向量和真实向量之间的分布。

S103.5、固定CF判别器，将当前用户生成向量的判别结果输出给CF生成器，CF生成器通过以下损失函数更新其自身参数，加强生成出与用户真实购买向量相似的生成数据，从而让CF生成器后续生成的用户生成购买向量能让CF判别器难以区别是否真实。

J^G＝E_x～pdata[log1-D((r_u⊙e_u)|c_u)]

S103.6、重复S103.3至S103.5，将CF生成器和CF判别器二者进行不断对抗训练，直至收敛，并输出最终的用户操作购买向量。

S104、将GRU生成对抗网络对抗训练后所得到的GRU判别器和CF生成对抗网络对抗训练后所得到的CF判别器组成教师网络，并将一个独立的神经网络组成学生网络。

GRU判别器和CF判别器作为教师网络常常是比较复杂的神经网络结构，学生网络是一个独立于整体模型的轻量级的神经网络结构，两者区别在于作为教师网络往往能学到比学生网络更为细节的偏好行为。

S105、将各用户的最终的用户生成点击序列和最终的用户生成购买向量分别送入到教师网络和学生网络中进行深度学习，得到深度学习后的教师网络和学生网络。

教师网络输入的是GRU生成器和CF生成器所生成出来的最终的用户生成点击序列和最终的用户生成购买向量，得到某个用户个性化的推荐偏好行为。学生网络输入的是GRU生成器和CF生成器所生成出来的最终的用户生成点击序列和最终的用户生成购买向量，得到某个用户个性化的推荐偏好行为。由于教师网络往往能学到比学生网络更为细节的偏好行为，从而更加方便后续对学生网络进行指导。

S106、基于知识蒸馏方法，深度学习后的教师网络和深度学习后的学生网络在网络的softmax层传递预测值，以让学生网络最后的输出值与教师网络最后的输出值尽可能相同，得到知识蒸馏后的教师网络和学生网络。

教师网络的GRU判别器和CF判别器会分别在网络的softmax层与学生网络通过以下公式来传递预测值，目的是让softmax层预测值尽可能相同。

其中，q_i表示softmax层的输出。z_i表示神经网络Logit层的输出值，T表示温度。当T等于1时，该公式就与正常softmax激活函数相同。

其中，L_kd表示我们进行知识蒸馏的损失。S表示学生网络，t表示CF判别器和GRU判别器。其中α作为超参数将会根据用户自身的情况自动进行更新。

S107、用户从云端下载知识蒸馏后的学生网络，并利用该知识蒸馏后的学生网络对用户感兴趣的商品进行推荐。

用户通过手机，电脑等移动设备可以直接访问云端服务器，下载最终的学生网络即知识蒸馏后的学生网络，当用户有购物请求时，输入用户历史信息后，学生网络可以输出推荐给用户的商品列表。后续用户所购买，点击的商品信息技术会反馈到学生网络中进行进一步训练。

本发明是一种基于生成对抗网络和知识蒸馏技术来建立轻量级推荐系统的方法，首先会根据某个用户的点击向量和购买向量分别放入生成对抗网络中，生成对抗网络会根据输入的数据进行对抗训练，生成出与原始用户数据相似的用户历史数据。然后将生成出来的数据分别输入到生成对抗网络中的判别器和学生模型中进行深度学习训练。其次，判别器作为教师网络将通过在softmax层与学生网络softmax进行交叉熵的损失函数的训练，直至学生网络输出能拟合教师网络的输出后，反向传播更新参数直至训练结束。最后，用户只需要在云端下载最终的学生模型即可进行在线推荐，完成轻量级的部署，提升推荐的效率。本发明基于多模态(两个以上)的用户画像提高推荐的精确度，采用知识蒸馏和生成对抗解决推荐模型的轻量级部署问题，同时保证用户的隐私安全，实现推荐精度和计算效率之间的平衡。

需要说明的是，尽管以上本发明所述的实施例是说明性的，但这并非是对本发明的限制，因此本发明并不局限于上述具体实施方式中。在不脱离本发明原理的情况下，凡是本领域技术人员在本发明的启示下获得的其它实施方式，均视为在本发明的保护之内。

Claims

1.一种基于生成对抗和知识蒸馏的轻量级多模推荐方法，其特征是，包括步骤如下：

2.根据权利要求1所述的一种基于生成对抗和知识蒸馏的轻量级多模推荐方法，其特征是，步骤2的具体过程如下：

步骤2.1、从大样本空间中，生成用户随机点击序列；

3.根据权利要求1所述的一种基于生成对抗和知识蒸馏的轻量级多模推荐方法，其特征是，步骤3的具体过程如下：

步骤3.1、从大样本空间中，生成用户随机购买向量；