CN115481316A

CN115481316A - 一种多模型融合知识蒸馏推荐模型

Info

Publication number: CN115481316A
Application number: CN202211069556.7A
Authority: CN
Inventors: 李少波; 杨明宝; 周鹏; 王堃; 张黔富; 张钧星
Original assignee: Guizhou University
Current assignee: Guizhou University
Priority date: 2022-09-01
Filing date: 2022-09-01
Publication date: 2022-12-16

Abstract

本发明公开了一种多模型融合知识蒸馏推荐模型，包括集成学习模块和学生模块，集成学习模块使用全连接层将DeepFM模型、DIN模型和MMDIN模型的预测结果进行加权投票，得到最终的预测结果，其中，加权投票权重大小采用梯度下降法进行自适应调整，学生模块采用浅层DIN结构，使用软标签对学生模型收敛进行指导。本发明增加全连接层，对三个深度学习模型DeepFM、DIN、MMDIN模型的优点进行集成，并使用梯度下降法对全连接层参数进行更新。对模型的参数进行初始化，并对参数变化范围施加限制，使得集成模型更快更好得收敛并模拟各个模型进行投票的场景。

Description

一种多模型融合知识蒸馏推荐模型

技术领域

本发明属于推荐优化模型技术领域，涉及一种多模型融合知识蒸馏推荐模型。

背景技术

随着人类迈入信息时代，人们每时每刻都生产着大量的信息，也花着大量的时间进行互联网信息浏览。怎么样让用户从海量的互联网信息中，找到用户感兴趣的信息，便成了当下研究的一个重要课题。同样，在航空装备制造产业中，也面临着如何从海量服务中，找到更好的上游服务商的问题。航空装备制造云服务平台，吸引了大量航空装备制造服务商家入驻，如何让用户从大量的制造云服务中，获取到自己感兴趣的信息，便成为平台开发者的重要研究内容，推荐算法是解决这一问题的重要途径。

为了让用户能更好得获得自己感兴趣的信息，从机器学习到深度学习，专家学者们提出各种各样的方法。

然而，研究学者们在将具有各种不同优点的推荐模型集成到一起，从而增强模型推荐效果的研究较少，集成后的推荐模型参数量较大；单一的推荐模型预测效果较差、深度学习推荐模型集成困难、集成方法缺乏参数自适应能力；集成后模型过大，导致模型存储空间过大、模型推理速度过慢；集成模型的激励函数无法模拟模型投票的场景，将输入和输出都压缩到[0,1]之间，需要自己设计激活函数进行模拟。

发明内容

本发明要解决的技术问题是：提供一种多模型融合知识蒸馏推荐模型，以解决现有技术中存在的技术问题。

本发明采取的技术方案为：一种多模型融合知识蒸馏推荐模型，包括集成学习模块和学生模块，集成学习模块使用全连接层将DeepFM模型、DIN模型和MMDIN模型的预测结果进行加权投票，得到最终的预测结果，其中，加权投票权重大小采用梯度下降法进行自适应调整，集成学习模块的输入和预测值传输学生模型进行训练，学生模块采用浅层DIN结构，使用软标签对学生模型收敛进行指导。

对全连接层的参数进行指定初始化、施加约束，并设定变化率对参数变化速率进行规定，参数计算方法如公式(1)所示：

其中，V表示当前参数值，P表示上一个参数值，R表示变化率，V_min表示参数限定的最小值，V_max表示参数限定的最大值；

同时，设计新的激励函数，激励函数计算方法如公式(2)所示：

其中，x是输入，y是输出，b是初始因子，k是正比调节系数；

新的激励函数使得各个子模型输出的定义域为[0,1]时，集成后的模型的输出值域也是[0,1]，即最终的输出评分范围。

学生模块知识蒸馏蒸馏模型的损失函数设计如公式(3)所示：

L_sum＝L₁α+L₂(1-α) (3)

其中，L_sum表示总损失，L₁表示soft value与模型预测值之间的损失，L₂表示真实值与预测值之间的损失，α是蒸馏系数。

梯度下降法参数更新公式：

θ＝θ-α(h(x)-y)x (4)

式中，θ表示需要更新的参数；α表示学习率，是一个超参数(需要手工设定和调整)；h(x)表示上一个神经元的输出(表达式由模型通过拟合数据学习得到)；y表示真实值；x表示输入。

本发明的有益效果：与现有技术相比，本发明增加全连接层，对三个深度学习模型DeepFM、DIN、MMDIN模型的优点进行集成，并使用梯度下降法对全连接层参数进行更新。对模型的参数进行初始化，并对参数变化范围施加限制，使得集成模型更快更好得收敛并模拟各个模型进行投票的场景，同时，为了使得各个子模型输出的定义域为[0,1]时，集成后模型的输出值域也为[0,1]，设计新的激活函数。

由于集成后的模型参数量大，需要较大的存储空间和较长的训练预测时间，本发明对模型进行知识蒸馏，极大得对模型参数量进行了压缩，降低了存储空间和模型训练所需时间。

附图说明

图1为本发明的流程图。

具体实施方式

下面结合具体的实施例对本发明进行进一步介绍。

实施例1：如图1所示，一种多模型融合知识蒸馏推荐模型主要包括教师模型部分(即集成学习模型，图中上半部分)和学生模型部分(图中下半部分)。教师模型主要集成了三种主流推荐算法，分别为DIN(左)、DeepFM(中)和MMDIN(右)。学生模型使用简单的浅层DIN模型进行实现。以下对各个模块进行详细介绍。

(a)DIN模块

DIN的优点是引入了注意力机制，避免对各个需要评分的物品一视同仁地看待，其主要思想是使用用户最近评分的5部电影或者云服务分别与当前候选电影做外积并加权池化求得到用户最近兴趣点。如图1左上角中模型所示，原始的输入的稀疏特征，非数值型数据通过编码后，形成稠密的特征向量。然后，当前电影分别与最近5部电影求外积，然后连接起来进行PRelu和sigmoid激活，得到当前电影与最近评分的电影或者云服务的相似度，并将该相似度加权到各个最近评分的电影上，做求和池化。最终与用户特征、场景特征连接起来，通过多层神经网络进行拟合表达，得到最终的打分结果。

(b)DeepFM模块

DeepFM对Wide&Deep模型进行了改进，将wide部分改为了FM部分，使得特征能够进行组合交叉，然后再对物品打分进行预测。DeepFM模型结构如图1上半部分的中间区域所示。数值型特征可以直接输入下一层进行运算，而非数值型特征经过稠密化后，得到相应的嵌入表示。其中一部分特征，直接进行特征交叉组合，并最终连接到全连接层中进行激活和输出；另一部分则通过多层神经网络进行复杂的拟合和表达，最后才连接到输出层中。DeepFM不仅保证了模型具有较强的记忆能力和泛化能力，还使得模型具备通过组合特征对打分进行预测的能力。

(c)MMDIN模块

MMDIN模块在DIN的基础上，将物品的图片特征引入对用户打分进行预测，并且增加了多头机制，使得模型能够从不同的维度进行特征提取。

MMDIN模型主要分为多模态模块、注意力模块和多层神经网络模块。多模态模块主要负责对图片色彩特征进行提取；注意力机制模块负责从用户最近打分的物品中提取用户可能感兴趣的物品。多层神经网络模块主要采用了Renset结构，缓解模型层数变深时的梯度消失问题，使得随着模型变深，打分预测难以变得更差。同时多层神经网络中采用了多头机制，使得模型能更好地从多个维度对数据进行特征提取。

(1)集成学习模块

集成学习模块主要负责对DeepFM、DIN、MMDIN模型的优点进行集成，使得模型具有更好的预测效果，同时也使得算法更加健壮和稳定。集成学习模块使用全连接层将三个模型预测结果进行加权投票，得到最终的预测结果。其中，权重大小采用梯度下降法进行自适应调整。为了模拟各模型投票场景，从而使得模型更好更快地收敛，本发明对全连接层的参数进行指定初始化、施加约束，并设定变化率对参数变化速率进行规定，参数计算方法如公式1所示。其中，V表示当前参数值，P表示上一个参数值，R表示变化率，V_min表示参数限定的最小值，V_max表示参数限定的最大值。

同时，为了使得各个子模型输出的定义域为[0,1]时，集成后的模型的输出值域也是[0,1]，即最终的输出评分范围，并更加符合实际变化场景，我们研究设计新的激励函数，激励函数计算方法如公式2所示。

其中，x是输入，y是输出，b是初始因子，k是正比调节系数，曲线越贴近y＝x，激活函数激活效果越好。

梯度下降法参数更新公式：

θ＝θ-α(h(x)-y)x (4)

(2)学生模块：

学生模块主要采用简单的浅层DIN结构进行实现。知识蒸馏的优势在于使用软标签对学生模型收敛进行指导，使得学生能够对自身未见过的样本进行准确预测。蒸馏模型的损失函数设计如公式3所示。其中，L_sum表示总损失，L₁表示soft value与模型预测值之间的损失，L₂表示真实值与预测值之间的损失，α是蒸馏系数。

L_sum＝L₁α+L₂(1-α) (3)

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内，因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种多模型融合知识蒸馏推荐模型，其特征在于：包括集成学习模块和学生模块，集成学习模块使用全连接层将DeepFM模型、DIN模型和MMDIN模型的预测结果进行加权投票，得到最终的预测结果，其中，加权投票权重大小采用梯度下降法进行自适应调整，集成学习模块的输入和预测值传输学生模型进行训练，学生模块采用浅层DIN结构，使用软标签对学生模型收敛进行指导。

2.根据权利要求1所述的一种多模型融合知识蒸馏推荐模型，其特征在于：对全连接层的参数进行指定初始化、施加约束，并设定变化率对参数变化速率进行规定，参数计算方法如公式(1)所示：

其中，x是输入，y是输出，b是初始因子，k是正比调节系数；

3.根据权利要求1或2所述的一种多模型融合知识蒸馏推荐模型，其特征在于：学生模块知识蒸馏模型的损失函数设计如公式(3)所示：

L_sum＝L₁α+L₂(1-α) (3)

4.根据权利要求1所述的一种多模型融合知识蒸馏推荐模型，其特征在于：梯度下降法参数更新公式：

θ＝θ-α(h(x)-y)x (4)

式中，θ表示需要更新的参数；α表示学习率，是一个超参数；h(x)表示上一个神经元的输出；y表示真实值；x表示输入。