CN111949884B - 一种基于多模态特征交互深度融合推荐方法 - Google Patents
一种基于多模态特征交互深度融合推荐方法 Download PDFInfo
- Publication number
- CN111949884B CN111949884B CN202010872372.9A CN202010872372A CN111949884B CN 111949884 B CN111949884 B CN 111949884B CN 202010872372 A CN202010872372 A CN 202010872372A CN 111949884 B CN111949884 B CN 111949884B
- Authority
- CN
- China
- Prior art keywords
- data
- feature
- layer
- model
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/251—Fusion techniques of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于多模态特征交互深度融合推荐方法,该方法在xdeepfm模型的基础上,提出了一种融合多种模型的多模态特征交互深度融合模型。该模型将多个模型进行结合,并且将多模态特征进行融合,不仅能同时以显式和隐式的方式自动学习高阶的特征交互,使特征交互发生在向量级,还兼具记忆与泛化的学习能力,并且可以进行多任务训练。该方法推荐精度高,并提升了推荐的多模态特征融合的效果。
Description
技术领域
本发明涉及推荐算法技术领域,具体是一种基于多模态特征交互深度融合推荐方法。
背景技术
目前,针对用户进行个性化推荐,在特征构建需要工程师花费巨大的人力,特征组合是许多机器学习建模过程中遇到的问题,如果对特征直接建模,很有可能忽略掉特征与特征之间的关联信息,一次可以通过构建新的交叉特征这一特征组合方式提高模型的效果。高维的稀疏矩阵是实际工程中常见的问题,并且直接导致计算量过大,特征权值更新缓慢。
特征(features)的构建对推荐系统来说至关重要,直接关系到推荐系统的精准性。在传统的推荐系统中,高阶交叉特征通常由工程师手工提取,不仅人力成本高昂、维度空间极大,而且不可泛化。
发明内容
本发明的目的在于克服现有技术的不足,而提供一种基于多模态特征交互深度融合推荐方法,该方法推荐精度更高,且更好的挖掘用户兴趣爱好。
实现本发明目的的技术方案是:
一种基于多模态特征交互深度融合推荐方法,包括如下步骤:
1)从用户行为日志中提取用户和项的行为数据,并将相关属性数据进行提取,组成可用的数据集;
2)将步骤1)得到的数据集,进行预处理,得到相关有用的数据集,分析数据集的分布,得出数据集的规律;
3)根据步骤2)探索到数据分布和规律,对各个模态的数据类型进行特征提取,做特征工程,包括进行用户行为特征提取、文本特征提取、音频特征提取和视频特征提取;并对提取的不同模态特征融合,进行多模态特征融合,进行交互探索高阶特征,用XGBbosst算法选出有效的特征数据;
4)根据步骤3)得到基础特征和高阶特征数据,将数据集划分为训练集、验证集和测试集,将提取的特征数据输入到融合模型中,采用训练集和验证集验证模型效果,选出效果最好的融合模型;
5)根据步骤4)选定的最佳融合模型,将测试集数据输入到模型中,得到用户对项目的点击率,根据点击率进行分类,将分类好的数据推荐给相应的用户。
所述的多模态特征融合,是将基本数据、文本数据、视频数据和音频数据类型进行处理并将其融合得到可输入到模型中的数据,在数据类型中,基本数据包括用户的年龄、城所在市;文件数据包括视频的标题、描述;视频数据包括是否有人脸数据;音频数据包括该视频的背景音乐。
步骤3)中,所述的进行交互探索高阶特征,具体方法如下:
用FM算法进行特征组合,通过两两特征组合,引入交叉项特征即二阶特征,提高模型得分通过引入隐向量,对参数矩阵进行分解,完成特征参数的估计;所述的FM算法为三层网络,它的核心部分是第二层的FM layer,FM layer由两部分组成,一部分是lr部分,令一部分是inner product部分,具体公式如下:
其中,B表示特征交互的值,w0是偏移量,wi是输入特征的参数,<vi,vj>是输入特征i、j间的交叉参数,xi是第i个特征值,xj是第j个特征值,vi是k维向量。
步骤4)中,所述的融合模型,设计方法如下:
4-1)采用一个修改后的xDeepFM模型,该模型可以接受多模态特征作为输入;
4-2)指定如何整合所有修改后的模型以形成融合模型;
4-3)基于xDeepFM模型,添加用于提取标题、音频和视频功能的模块,先将稀疏用户交互数据转换为稀疏特征,然后将密集用户交互数据转换为密集特征;
4-4)将标题数据转换为序列特征,使用嵌入层来减小这些特征的维数并获得嵌入的特征向量,嵌入层的结果为宽的级联向量,表示如下:
e=[e1,e2,...,em]
其中em是级联向量值;
4-5)步骤4-4)获得的特征向量馈入三个模块:线性层,压缩交互网络CIN层和普通深度神经网络DNN层;CIN层的输入来自Embedding层,假设有m个field,每个field的embedding vector维度为D,则输入表示为矩阵X0∈Rm*D,令表示第k层的输出,其中Hk表示第k层的向量个数,向量的维度始终为D,保持和输入层一致,具体计算方式如下:
4-6)对于视频和音频数据,首先使用主成分分析PCA提取原始特征的主成分并减小特征尺寸;
4-7)白化模型来减少特征之间的相关性,然后使用嵌入层获取音频和视频特征的嵌入特征向量;最后将嵌入的音频特征向量和视频特征向量馈入两个不同的纯DNN层中,以进行进一步的特征提取,白化模型的输出是:
步骤5)中,所述的融合模型,预测是否推荐的概率公式具体如下:
P=Ensemble(w1f1+w2f2+...+w7f7+w8f8)
其中P表示推荐的概率,fi表示第i个模型,wi表示第i个模型的权值;对应融合模型的损失函数如下:
本发明提供的一种基于多模态特征交互深度融合推荐算法,该方法多模态特征进行相结合,解决了传统推荐的数据属性单一问题,提高了推荐精度和更好的挖掘了用户的兴趣爱好;并且模型不仅能同时以显式和隐式的方式自动学习高阶的特征交互,使特征交互发生在向量级,还兼具记忆与泛化的学习能力,并且可以进行多任务训练。
附图说明
图1为本发明深度融合推荐算法模型的体系结构图;
图2为融合模型架构图。
具体实施方式
下面结合附图和实施例对本发明内容做进一步阐述,但不是对本发明的限定。
实施例:
一种基于多模态特征交互深度融合推荐方法,深度融合推荐算法模型的体系结构如图1所示,包括如下步骤:
1)从用户行为日志中提取用户和项的行为数据,并将相关属性数据进行提取,组成可用的数据集;
2)将步骤1)得到的数据集,进行预处理,得到相关有用的数据集,分析数据集的分布,得出数据集的规律;
3)根据步骤2)探索到数据分布和规律,对各个模态的数据类型进行特征提取,做特征工程,包括进行用户行为特征提取、文本特征提取、音频特征提取和视频特征提取;并对提取的不同模态特征融合,进行多模态特征融合,进行交互探索高阶特征,用XGBbosst算法选出有效的特征数据;
4)根据步骤3)得到基础特征和高阶特征数据,将数据集划分为训练集、验证集和测试集,将提取的特征数据输入到融合模型中,采用训练集和验证集验证模型效果,选出效果最好的融合模型;
5)根据步骤4)选定的最佳融合模型,将测试集数据输入到模型中,得到用户对项目的点击率,根据点击率进行分类,将分类好的数据推荐给相应的用户。
所述的多模态特征融合,是将基本数据、文本数据、视频数据和音频数据类型进行处理并将其融合得到可输入到模型中的数据,在数据类型中,基本数据包括用户的年龄、城所在市;文件数据包括视频的标题、描述;视频数据包括是否有人脸数据;音频数据包括该视频的背景音乐。
步骤3)中,所述的进行交互探索高阶特征,具体方法如下:
用FM算法进行特征组合,通过两两特征组合,引入交叉项特征即二阶特征,提高模型得分通过引入隐向量,对参数矩阵进行分解,完成特征参数的估计;所述的FM算法为三层网络,它的核心部分是第二层的FM layer,FM layer由两部分组成,一部分是lr部分,令一部分是inner product部分,具体公式如下:
其中,B表示特征交互的值,w0是偏移量,wi是输入特征的参数,<vi,vj>是输入特征i、j间的交叉参数,xi是第i个特征值,xj是第j个特征值,vi是k维向量。
步骤4)中,所述的融合模型,设计方法如下:
4-1)采用一个修改后的xDeepFM模型,该模型可以接受多模态特征作为输入,修改后的xDeepFM的体系结构如图1所示;
4-2)指定如何整合所有修改后的模型以形成融合模型,如图2所示;
4-3)基于xDeepFM模型,添加用于提取标题、音频和视频功能的模块,先将稀疏用户交互数据转换为稀疏特征,然后将密集用户交互数据转换为密集特征;
4-4)将标题数据转换为序列特征,使用嵌入层来减小这些特征的维数并获得嵌入的特征向量,嵌入层的结果为宽的级联向量,表示如下:
e=[e1,e2,...,em]
其中em是级联向量值;
4-5)步骤4-4)获得的特征向量馈入三个模块:线性层,压缩交互网络CIN层和普通深度神经网络DNN层;CIN层的输入来自Embedding层,假设有m个field,每个field的embedding vector维度为D,则输入表示为矩阵X0∈Rm*D,令表示第k层的输出,其中Hk表示第k层的向量个数,向量的维度始终为D,保持和输入层一致,具体计算方式如下:
4-6)对于视频和音频数据,首先使用主成分分析PCA提取原始特征的主成分并减小特征尺寸;
4-7)白化模型来减少特征之间的相关性,然后使用嵌入层获取音频和视频特征的嵌入特征向量;最后将嵌入的音频特征向量和视频特征向量馈入两个不同的纯DNN层中,以进行进一步的特征提取,它既可以学习高阶和低阶的特征交互,同时也包含显式和隐式的特征交互,白化模型的输出是:
步骤5)中,所述的融合模型,预测是否推荐的概率公式具体如下:
P=Ensemble(w1f1+w2f2+...+w7f7+w8f8)
其中P表示推荐的概率,fi表示第i个模型,wi表示第i个模型的权值;对应融合模型的损失函数如下:
Claims (4)
1.一种基于多模态特征交互深度融合推荐方法,其特征在于,包括如下步骤:
1)从用户行为日志中提取用户和项的行为数据,并将相关属性数据进行提取,组成可用的数据集;
2)将步骤1)得到的数据集,进行预处理,得到相关有用的数据集,分析数据集的分布,得出数据集的规律;
3)根据步骤2)探索到数据分布和规律,对各个模态的数据类型进行特征提取,做特征工程,包括进行用户行为特征提取、文本特征提取、音频特征提取和视频特征提取;并对提取的不同模态特征融合,进行多模态特征融合,进行交互探索高阶特征,用XGBbosst算法选出有效的特征数据;
4)根据步骤3)得到基础特征和高阶特征数据,将数据集划分为训练集、验证集和测试集,将提取的特征数据输入到融合模型中,采用训练集和验证集验证模型效果,选出效果最好的融合模型;
5)根据步骤4)选定的最佳融合模型,将测试集数据输入到模型中,得到用户对项目的点击率,根据点击率进行分类,将分类好的数据推荐给相应的用户;
步骤4)中,所述的融合模型,设计方法如下:
4-1)采用一个修改后的xDeepFM模型,该模型可以接受多模态特征作为输入;
4-2)指定如何整合所有修改后的模型以形成融合模型;
4-3)基于xDeepFM模型,添加用于提取标题、音频和视频功能的模块,先将稀疏用户交互数据转换为稀疏特征,然后将密集用户交互数据转换为密集特征;
4-4)将标题数据转换为序列特征,使用嵌入层来减小这些特征的维数并获得嵌入的特征向量,嵌入层的结果为宽的级联向量,表示如下:
e=[e1,e2,...,em]
其中em是级联向量值;
4-5)步骤4-4)获得的特征向量馈入三个模块:线性层,压缩交互网络CIN层和普通深度神经网络DNN层;CIN层的输入来自Embedding层,假设有m个field,每个field的embeddingvector维度为D,则输入表示为矩阵X0∈Rm*D,令表示第k层的输出,其中Hk表示第k层的向量个数,向量的维度始终为D,保持和输入层一致,具体计算方式如下:
4-6)对于视频和音频数据,首先使用主成分分析PCA提取原始特征的主成分并减小特征尺寸;
4-7)白化模型来减少特征之间的相关性,然后使用嵌入层获取音频和视频特征的嵌入特征向量;最后将嵌入的音频特征向量和视频特征向量馈入两个不同的纯DNN层中,以进行进一步的特征提取,白化模型的输出是:
2.根据权利要求1所述的一种基于多模态特征交互深度融合推荐方法,其特征在于,所述的多模态特征融合,是将基本数据、文本数据、视频数据和音频数据类型进行处理并将其融合得到可输入到模型中的数据,在数据类型中,基本数据包括用户的年龄、城所在市;文件数据包括视频的标题、描述;视频数据包括是否有人脸数据;音频数据包括该视频的背景音乐。
3.根据权利要求1所述的一种基于多模态特征交互深度融合推荐方法,其特征在于,步骤3)中,所述的进行交互探索高阶特征,具体方法如下:
用FM算法进行特征组合,通过两两特征组合,引入交叉项特征即二阶特征,提高模型得分通过引入隐向量,对参数矩阵进行分解,完成特征参数的估计;所述的FM算法为三层网络,它的核心部分是第二层的FM layer,FM layer由两部分组成,一部分是lr部分,令一部分是inner product部分,具体公式如下:
其中,B表示特征交互的值,w0是偏移量,wi是输入特征的参数,<vi,vj>是输入特征i、j间的交叉参数,xi是第i个特征值,xj是第j个特征值,vi是k维向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010872372.9A CN111949884B (zh) | 2020-08-26 | 2020-08-26 | 一种基于多模态特征交互深度融合推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010872372.9A CN111949884B (zh) | 2020-08-26 | 2020-08-26 | 一种基于多模态特征交互深度融合推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111949884A CN111949884A (zh) | 2020-11-17 |
CN111949884B true CN111949884B (zh) | 2022-06-21 |
Family
ID=73366957
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010872372.9A Active CN111949884B (zh) | 2020-08-26 | 2020-08-26 | 一种基于多模态特征交互深度融合推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111949884B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113435518B (zh) * | 2021-06-29 | 2024-03-22 | 青岛海尔科技有限公司 | 特征融合基于多模态的交互方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102946320A (zh) * | 2012-10-10 | 2013-02-27 | 北京邮电大学 | 一种分布式用户行为日志预测网络监管方法及系统 |
CN107423442A (zh) * | 2017-08-07 | 2017-12-01 | 火烈鸟网络(广州)股份有限公司 | 基于用户画像行为分析的应用推荐方法及系统,储存介质及计算机设备 |
CN110297847A (zh) * | 2019-07-03 | 2019-10-01 | 牡丹江师范学院 | 一种基于大数据原理的智能信息提取方法 |
CN111199343A (zh) * | 2019-12-24 | 2020-05-26 | 上海大学 | 一种多模型融合的烟草市场监管异常数据挖掘方法 |
CN111246256A (zh) * | 2020-02-21 | 2020-06-05 | 华南理工大学 | 基于多模态视频内容和多任务学习的视频推荐方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101661569B (zh) * | 2009-09-18 | 2013-03-27 | 北京科技大学 | 一种智能情感机器人多模态行为关联表达系统 |
CN104156693B (zh) * | 2014-07-15 | 2017-06-06 | 天津大学 | 一种基于多模态序列融合的动作识别方法 |
CN109977757B (zh) * | 2019-01-28 | 2020-11-17 | 电子科技大学 | 一种基于混合深度回归网络的多模态的头部姿态估计方法 |
-
2020
- 2020-08-26 CN CN202010872372.9A patent/CN111949884B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102946320A (zh) * | 2012-10-10 | 2013-02-27 | 北京邮电大学 | 一种分布式用户行为日志预测网络监管方法及系统 |
CN107423442A (zh) * | 2017-08-07 | 2017-12-01 | 火烈鸟网络(广州)股份有限公司 | 基于用户画像行为分析的应用推荐方法及系统,储存介质及计算机设备 |
CN110297847A (zh) * | 2019-07-03 | 2019-10-01 | 牡丹江师范学院 | 一种基于大数据原理的智能信息提取方法 |
CN111199343A (zh) * | 2019-12-24 | 2020-05-26 | 上海大学 | 一种多模型融合的烟草市场监管异常数据挖掘方法 |
CN111246256A (zh) * | 2020-02-21 | 2020-06-05 | 华南理工大学 | 基于多模态视频内容和多任务学习的视频推荐方法 |
Non-Patent Citations (5)
Title |
---|
A Standard Bibliography Recommended Method Based on Topic Model and Fusion of Multi-feature;Shao F 等;《A Standard Bibliography Recommended Method Based on Topic Model and Fusion of Multi-feature》;20141231;198-204 * |
Factorization machines;Rendle S;《2010 IEEE International Conference on Data Mining》;20101231;995-1000 * |
LBSN中基于社区联合聚类的协同推荐方法;龚卫华;《计算机研究与发展》;20191130;第56卷(第11期);2506-2517 * |
xdeepfm: Combining explicit and implicit feature interactions for recommender systems;Lian J 等;《Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining》;20180831;1754-1763 * |
基于多模态特征融合的新闻视频摘要技术研究;孟文婷;《中国优秀硕士学位论文全文数据库 信息科技辑》;20121015;I138-2837 * |
Also Published As
Publication number | Publication date |
---|---|
CN111949884A (zh) | 2020-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112232925A (zh) | 一种融合知识图谱对商品进行个性化推荐的方法 | |
CN112417306B (zh) | 基于知识图谱的推荐算法性能优化的方法 | |
CN111611488B (zh) | 基于人工智能的信息推荐方法、装置、电子设备 | |
CN110245285B (zh) | 一种基于异构信息网络的个性化推荐方法 | |
CN112464097A (zh) | 一种多辅助域信息融合跨域推荐方法与系统 | |
Akbarnejad et al. | An efficient semi-supervised multi-label classifier capable of handling missing labels | |
CN111737535A (zh) | 一种基于元结构和图神经网络的网络表征学习方法 | |
CN111178986B (zh) | 用户-商品偏好的预测方法及系统 | |
CN112650929A (zh) | 一种融入评论信息的图神经网络推荐方法 | |
CN116601626A (zh) | 个人知识图谱构建方法、装置及相关设备 | |
CN112000772A (zh) | 面向智能问答基于语义特征立方体的句子对语义匹配方法 | |
CN114372414A (zh) | 多模态模型构建方法、装置和计算机设备 | |
CN110245984A (zh) | 一种基于因果推断的网络购物行为分析方法和系统 | |
CN112015902A (zh) | 基于度量的元学习框架下的少次文本分类方法 | |
CN113255844A (zh) | 基于图卷积神经网络交互的推荐方法及系统 | |
CN109033453B (zh) | 一种基于rbm与差分隐私保护的聚类的电影推荐方法及系统 | |
CN110321492A (zh) | 一种基于社区信息的项目推荐方法及系统 | |
CN111949884B (zh) | 一种基于多模态特征交互深度融合推荐方法 | |
CN116127175A (zh) | 一种基于多模态特征融合的移动应用分类与推荐方法 | |
CN110851694B (zh) | 基于用户记忆网络和树形结构的深度模型的个性化推荐系统 | |
CN114840745A (zh) | 一种基于图表征学习和深度语义匹配模型的个性化推荐方法及系统 | |
CN117115843B (zh) | 一种基于aigc技术的会展工程内容生产系统和方法 | |
CN113722439A (zh) | 基于对抗性类别对齐网络的跨领域情感分类方法及系统 | |
CN116302088B (zh) | 一种代码克隆检测方法、存储介质及设备 | |
Wen et al. | Extended factorization machines for sequential recommendation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |