CN115481316A - 一种多模型融合知识蒸馏推荐模型 - Google Patents
一种多模型融合知识蒸馏推荐模型 Download PDFInfo
- Publication number
- CN115481316A CN115481316A CN202211069556.7A CN202211069556A CN115481316A CN 115481316 A CN115481316 A CN 115481316A CN 202211069556 A CN202211069556 A CN 202211069556A CN 115481316 A CN115481316 A CN 115481316A
- Authority
- CN
- China
- Prior art keywords
- model
- parameter
- student
- value
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种多模型融合知识蒸馏推荐模型,包括集成学习模块和学生模块,集成学习模块使用全连接层将DeepFM模型、DIN模型和MMDIN模型的预测结果进行加权投票,得到最终的预测结果,其中,加权投票权重大小采用梯度下降法进行自适应调整,学生模块采用浅层DIN结构,使用软标签对学生模型收敛进行指导。本发明增加全连接层,对三个深度学习模型DeepFM、DIN、MMDIN模型的优点进行集成,并使用梯度下降法对全连接层参数进行更新。对模型的参数进行初始化,并对参数变化范围施加限制,使得集成模型更快更好得收敛并模拟各个模型进行投票的场景。
Description
技术领域
本发明属于推荐优化模型技术领域,涉及一种多模型融合知识蒸馏推荐模型。
背景技术
随着人类迈入信息时代,人们每时每刻都生产着大量的信息,也花着大量的时间进行互联网信息浏览。怎么样让用户从海量的互联网信息中,找到用户感兴趣的信息,便成了当下研究的一个重要课题。同样,在航空装备制造产业中,也面临着如何从海量服务中,找到更好的上游服务商的问题。航空装备制造云服务平台,吸引了大量航空装备制造服务商家入驻,如何让用户从大量的制造云服务中,获取到自己感兴趣的信息,便成为平台开发者的重要研究内容,推荐算法是解决这一问题的重要途径。
为了让用户能更好得获得自己感兴趣的信息,从机器学习到深度学习,专家学者们提出各种各样的方法。
然而,研究学者们在将具有各种不同优点的推荐模型集成到一起,从而增强模型推荐效果的研究较少,集成后的推荐模型参数量较大;单一的推荐模型预测效果较差、深度学习推荐模型集成困难、集成方法缺乏参数自适应能力;集成后模型过大,导致模型存储空间过大、模型推理速度过慢;集成模型的激励函数无法模拟模型投票的场景,将输入和输出都压缩到[0,1]之间,需要自己设计激活函数进行模拟。
发明内容
本发明要解决的技术问题是:提供一种多模型融合知识蒸馏推荐模型,以解决现有技术中存在的技术问题。
本发明采取的技术方案为:一种多模型融合知识蒸馏推荐模型,包括集成学习模块和学生模块,集成学习模块使用全连接层将DeepFM模型、DIN模型和MMDIN模型的预测结果进行加权投票,得到最终的预测结果,其中,加权投票权重大小采用梯度下降法进行自适应调整,集成学习模块的输入和预测值传输学生模型进行训练,学生模块采用浅层DIN结构,使用软标签对学生模型收敛进行指导。
对全连接层的参数进行指定初始化、施加约束,并设定变化率对参数变化速率进行规定,参数计算方法如公式(1)所示:
其中,V表示当前参数值,P表示上一个参数值,R表示变化率,Vmin表示参数限定的最小值,Vmax表示参数限定的最大值;
同时,设计新的激励函数,激励函数计算方法如公式(2)所示:
其中,x是输入,y是输出,b是初始因子,k是正比调节系数;
新的激励函数使得各个子模型输出的定义域为[0,1]时,集成后的模型的输出值域也是[0,1],即最终的输出评分范围。
学生模块知识蒸馏蒸馏模型的损失函数设计如公式(3)所示:
Lsum=L1α+L2(1-α) (3)
其中,Lsum表示总损失,L1表示soft value与模型预测值之间的损失,L2表示真实值与预测值之间的损失,α是蒸馏系数。
梯度下降法参数更新公式:
θ=θ-α(h(x)-y)x (4)
式中,θ表示需要更新的参数;α表示学习率,是一个超参数(需要手工设定和调整);h(x)表示上一个神经元的输出(表达式由模型通过拟合数据学习得到);y表示真实值;x表示输入。
本发明的有益效果:与现有技术相比,本发明增加全连接层,对三个深度学习模型DeepFM、DIN、MMDIN模型的优点进行集成,并使用梯度下降法对全连接层参数进行更新。对模型的参数进行初始化,并对参数变化范围施加限制,使得集成模型更快更好得收敛并模拟各个模型进行投票的场景,同时,为了使得各个子模型输出的定义域为[0,1]时,集成后模型的输出值域也为[0,1],设计新的激活函数。
由于集成后的模型参数量大,需要较大的存储空间和较长的训练预测时间,本发明对模型进行知识蒸馏,极大得对模型参数量进行了压缩,降低了存储空间和模型训练所需时间。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合具体的实施例对本发明进行进一步介绍。
实施例1:如图1所示,一种多模型融合知识蒸馏推荐模型主要包括教师模型部分(即集成学习模型,图中上半部分)和学生模型部分(图中下半部分)。教师模型主要集成了三种主流推荐算法,分别为DIN(左)、DeepFM(中)和MMDIN(右)。学生模型使用简单的浅层DIN模型进行实现。以下对各个模块进行详细介绍。
(a)DIN模块
DIN的优点是引入了注意力机制,避免对各个需要评分的物品一视同仁地看待,其主要思想是使用用户最近评分的5部电影或者云服务分别与当前候选电影做外积并加权池化求得到用户最近兴趣点。如图1左上角中模型所示,原始的输入的稀疏特征,非数值型数据通过编码后,形成稠密的特征向量。然后,当前电影分别与最近5部电影求外积,然后连接起来进行PRelu和sigmoid激活,得到当前电影与最近评分的电影或者云服务的相似度,并将该相似度加权到各个最近评分的电影上,做求和池化。最终与用户特征、场景特征连接起来,通过多层神经网络进行拟合表达,得到最终的打分结果。
(b)DeepFM模块
DeepFM对Wide&Deep模型进行了改进,将wide部分改为了FM部分,使得特征能够进行组合交叉,然后再对物品打分进行预测。DeepFM模型结构如图1上半部分的中间区域所示。数值型特征可以直接输入下一层进行运算,而非数值型特征经过稠密化后,得到相应的嵌入表示。其中一部分特征,直接进行特征交叉组合,并最终连接到全连接层中进行激活和输出;另一部分则通过多层神经网络进行复杂的拟合和表达,最后才连接到输出层中。DeepFM不仅保证了模型具有较强的记忆能力和泛化能力,还使得模型具备通过组合特征对打分进行预测的能力。
(c)MMDIN模块
MMDIN模块在DIN的基础上,将物品的图片特征引入对用户打分进行预测,并且增加了多头机制,使得模型能够从不同的维度进行特征提取。
MMDIN模型主要分为多模态模块、注意力模块和多层神经网络模块。多模态模块主要负责对图片色彩特征进行提取;注意力机制模块负责从用户最近打分的物品中提取用户可能感兴趣的物品。多层神经网络模块主要采用了Renset结构,缓解模型层数变深时的梯度消失问题,使得随着模型变深,打分预测难以变得更差。同时多层神经网络中采用了多头机制,使得模型能更好地从多个维度对数据进行特征提取。
(1)集成学习模块
集成学习模块主要负责对DeepFM、DIN、MMDIN模型的优点进行集成,使得模型具有更好的预测效果,同时也使得算法更加健壮和稳定。集成学习模块使用全连接层将三个模型预测结果进行加权投票,得到最终的预测结果。其中,权重大小采用梯度下降法进行自适应调整。为了模拟各模型投票场景,从而使得模型更好更快地收敛,本发明对全连接层的参数进行指定初始化、施加约束,并设定变化率对参数变化速率进行规定,参数计算方法如公式1所示。其中,V表示当前参数值,P表示上一个参数值,R表示变化率,Vmin表示参数限定的最小值,Vmax表示参数限定的最大值。
同时,为了使得各个子模型输出的定义域为[0,1]时,集成后的模型的输出值域也是[0,1],即最终的输出评分范围,并更加符合实际变化场景,我们研究设计新的激励函数,激励函数计算方法如公式2所示。
其中,x是输入,y是输出,b是初始因子,k是正比调节系数,曲线越贴近y=x,激活函数激活效果越好。
梯度下降法参数更新公式:
θ=θ-α(h(x)-y)x (4)
式中,θ表示需要更新的参数;α表示学习率,是一个超参数(需要手工设定和调整);h(x)表示上一个神经元的输出(表达式由模型通过拟合数据学习得到);y表示真实值;x表示输入。
(2)学生模块:
学生模块主要采用简单的浅层DIN结构进行实现。知识蒸馏的优势在于使用软标签对学生模型收敛进行指导,使得学生能够对自身未见过的样本进行准确预测。蒸馏模型的损失函数设计如公式3所示。其中,Lsum表示总损失,L1表示soft value与模型预测值之间的损失,L2表示真实值与预测值之间的损失,α是蒸馏系数。
Lsum=L1α+L2(1-α) (3)
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内,因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (4)
1.一种多模型融合知识蒸馏推荐模型,其特征在于:包括集成学习模块和学生模块,集成学习模块使用全连接层将DeepFM模型、DIN模型和MMDIN模型的预测结果进行加权投票,得到最终的预测结果,其中,加权投票权重大小采用梯度下降法进行自适应调整,集成学习模块的输入和预测值传输学生模型进行训练,学生模块采用浅层DIN结构,使用软标签对学生模型收敛进行指导。
3.根据权利要求1或2所述的一种多模型融合知识蒸馏推荐模型,其特征在于:学生模块知识蒸馏模型的损失函数设计如公式(3)所示:
Lsum=L1α+L2(1-α) (3)
其中,Lsum表示总损失,L1表示soft value与模型预测值之间的损失,L2表示真实值与预测值之间的损失,α是蒸馏系数。
4.根据权利要求1所述的一种多模型融合知识蒸馏推荐模型,其特征在于:梯度下降法参数更新公式:
θ=θ-α(h(x)-y)x (4)
式中,θ表示需要更新的参数;α表示学习率,是一个超参数;h(x)表示上一个神经元的输出;y表示真实值;x表示输入。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211069556.7A CN115481316A (zh) | 2022-09-01 | 2022-09-01 | 一种多模型融合知识蒸馏推荐模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211069556.7A CN115481316A (zh) | 2022-09-01 | 2022-09-01 | 一种多模型融合知识蒸馏推荐模型 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115481316A true CN115481316A (zh) | 2022-12-16 |
Family
ID=84422319
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211069556.7A Pending CN115481316A (zh) | 2022-09-01 | 2022-09-01 | 一种多模型融合知识蒸馏推荐模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115481316A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116028891A (zh) * | 2023-02-16 | 2023-04-28 | 之江实验室 | 一种基于多模型融合的工业异常检测模型训练方法和装置 |
CN118490231A (zh) * | 2024-07-17 | 2024-08-16 | 南昌航空大学 | 一种动态情境下的脑电情绪识别方法、设备、介质及产品 |
-
2022
- 2022-09-01 CN CN202211069556.7A patent/CN115481316A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116028891A (zh) * | 2023-02-16 | 2023-04-28 | 之江实验室 | 一种基于多模型融合的工业异常检测模型训练方法和装置 |
CN118490231A (zh) * | 2024-07-17 | 2024-08-16 | 南昌航空大学 | 一种动态情境下的脑电情绪识别方法、设备、介质及产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115481316A (zh) | 一种多模型融合知识蒸馏推荐模型 | |
CN110263912A (zh) | 一种基于多目标关联深度推理的图像问答方法 | |
CN106844442A (zh) | 基于fcn特征提取的多模态循环神经网络图像描述方法 | |
Liu et al. | Spatiotemporal saliency-based multi-stream networks with attention-aware LSTM for action recognition | |
CN106407889A (zh) | 基于光流图深度学习模型在视频中人体交互动作识别方法 | |
WO2021139415A1 (zh) | 数据处理方法、装置、计算机可读存储介质及电子设备 | |
CN112633425B (zh) | 图像分类方法和装置 | |
Lin et al. | Intelligent decision support for new product development: a consumer-oriented approach | |
CN115186097A (zh) | 一种基于知识图谱和强化学习的交互式推荐方法 | |
CN112418302A (zh) | 一种任务预测方法及装置 | |
CN112527993A (zh) | 一种跨媒体层次化深度视频问答推理框架 | |
CN117972138B (zh) | 预训练模型的训练方法、装置和计算机设备 | |
CN114647752A (zh) | 基于双向可切分深度自注意力网络的轻量化视觉问答方法 | |
CN118035945A (zh) | 一种标签识别模型的处理方法和相关装置 | |
CN116883608B (zh) | 一种多模态数字人社交属性控制方法及相关装置 | |
Han | Research on layout optimisation of human-computer interaction interface of electronic music products based on ERP technology | |
CN109446405A (zh) | 基于大数据的旅游产业推广方法及系统 | |
CN110826510A (zh) | 一种基于表情情感计算的三维教学课堂实现方法 | |
Zhao | The application of graphic language in animation visual guidance system under intelligent environment | |
CN110363074A (zh) | 一种针对复杂抽象化事物的类人化识别交互方法 | |
CN112598065B (zh) | 一种基于记忆的门控卷积神经网络语义处理系统及方法 | |
CN111259138A (zh) | 一种税务领域短文本的情感分类方法及装置 | |
Lu et al. | Autonomous cognition and correction system of robot service based on emotional information and case-based reasoning | |
CN109800804A (zh) | 一种实现图像多情感自主转换的方法及系统 | |
Wu et al. | Construction of Environment-friendly Electric Bicycle Styling Design System based on Consumers' Kansei Image |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |