CN111523575A - 基于短视频多模态特征的短视频推荐模型 - Google Patents
基于短视频多模态特征的短视频推荐模型 Download PDFInfo
- Publication number
- CN111523575A CN111523575A CN202010284993.5A CN202010284993A CN111523575A CN 111523575 A CN111523575 A CN 111523575A CN 202010284993 A CN202010284993 A CN 202010284993A CN 111523575 A CN111523575 A CN 111523575A
- Authority
- CN
- China
- Prior art keywords
- short video
- matrix
- feature
- short
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004927 fusion Effects 0.000 claims abstract description 47
- 239000013598 vector Substances 0.000 claims abstract description 41
- 230000009467 reduction Effects 0.000 claims abstract description 31
- 238000000034 method Methods 0.000 claims abstract description 26
- 230000006399 behavior Effects 0.000 claims abstract description 22
- 239000011159 matrix material Substances 0.000 claims description 210
- 238000012549 training Methods 0.000 claims description 26
- 238000004364 calculation method Methods 0.000 claims description 21
- 230000007704 transition Effects 0.000 claims description 15
- 238000003066 decision tree Methods 0.000 claims description 12
- 230000003796 beauty Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 6
- 230000002452 interceptive effect Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 238000002474 experimental method Methods 0.000 claims description 4
- 238000010801 machine learning Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 4
- 238000007500 overflow downdraw method Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 206010044565 Tremor Diseases 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/735—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于短视频多模态特征的短视频推荐模型,包括:步骤1,对短视频标题特征,使用TF‑IDF方法进行特征提取,使用PCA降维算法将短视频标题特征向量维度降维到k维;步骤2,提取短视频内容的128维原始特征,使用PCA降维算法将短视频内容特征向量维度降维到k维;步骤3,提取短视频背景音乐的128维原始特征,使用PCA降维算法将短视频背景音乐特征向量维度降维到k维。本发明考虑到不同模态的特征数据对用户产生的用户行为的影响效果是不同的,并利用隐马尔可夫模型去学习短视频的不同模态数据对于用户的影响比重,基于影响比重将短视频的多模态特征映射到统一向量空间进行融合,获得用多模态数据特征表示的短视频特征数据。
Description
技术领域
本发明涉及视频分析技术领域,特别涉及一种基于短视频多模态特征的短视频推荐模型。
背景技术
随着社会的快速发展,人们生活节奏的加快,几乎每个人在工作中或生活中都承受着一定的压力,而大部分人由于生活的负担很难有大量的闲暇时间去娱乐休闲散心,随着手机互联网的迅猛发展以及抖音、快手等短视频app的出现,许多人喜欢在自己有限的碎片化的空闲时间里浏览观看一些短视频来缓解放松自己,但是由于短视频app的低门槛特征,几乎所有人都能在上面发表自己的作品,导致app上面短视频作品数量庞大且内容混杂,人们很难很快的从app上面找到自己感兴趣的短视频,推荐系统是解决这个问题的主要方法。
因为短视频行业是近几年才发展起来的,所以大部分原有的视频算法推荐大多是基于长视频的推荐。例如:电影的推荐,但是短视频和长视频是不同的,大部分短视频的时长大概在6秒至300秒,由于其时长短,故而都偏重于某一个主题,不会有太复杂的情景故事变化。现有视频推荐算法可以从三个角度进行分析。一是基于视频原有标签产生推荐,这种推荐方法并没有分析视频的内容,而是把视频看成一个整体,直接使用视频的属性标签进行推荐。举个例子:有一个足球系列的电影,那么这个电影的视频属性就是“运动”,即会被标上“运动”的标签;另有一个篮球系列的电影,那么这个电影的视频属性也是“运动”,即也会标上“运动”得标签。但是可能就有些人喜欢篮球不喜欢足球,在这种情况下只依据视频的属性标签不依据视频内容去产生推荐的话就会产生不好的推荐结果。二是基于单模态数据产生推荐的。这部分人考虑到了视频内容的重要性,把关注点逐步放在了视频内容上。但这部分人可能只考虑到了一个模态的内容,考虑的并不全面。三是基于多模态数据产生推荐的,这部分人注意到了视频的多模态数据特征,从多个数据角度对视频的内容进行学习并产生推荐,但由于对模态数据的关注点不同,产生的推荐结果也不同。
本发明就是从第三个角度去思考的,一般来说短视频主要包括三部分内容:一个醒目且简要的标题,一段内容丰富的连续画面和一小段背景音乐。由此,可以认为一个短视频总共包含三个模态的特征,即:标题特征、视频内容特征和背景音乐特征。当人们判定自己对某一短视频的喜好程度的时候,通常会综合考虑自己对短视频这三个模态特征的感受。而传统的多模态特征早期融合方式都是将多模态特征按原有数据维度级联在一起。但是这样忽略了不同模态特征对于人的影响大小是不同的。本发明意在将这三个模态的特征基于影响比重融合去表示短视频,再结合手工提取的微视频和用户之间的交互特征输入到模型中去训练,并且将不同模型基于权重进行融合从而获得一个较好的推荐结果。在短视频泛滥的今天,这个课题具有极大的研究价值。
发明内容
本发明提供了一种基于短视频多模态特征的短视频推荐模型,其目的是为了解决基于短视频的多模态特征进行短视频推荐的问题。
为了达到上述目的,本发明的实施例提供了一种基于短视频多模态特征的短视频推荐模型,包括:
步骤1,对短视频标题特征,使用TF-IDF方法进行特征提取,使用PCA降维算法将短视频标题特征向量维度降维到k维;
步骤2,提取短视频内容的128维原始特征,使用PCA降维算法将短视频内容特征向量维度降维到k维;
步骤3,提取短视频背景音乐的128维原始特征,使用PCA降维算法将短视频背景音乐特征向量维度降维到k维;
步骤4,基于用户的行为数据获取到用户的评分数据矩阵;
步骤5,将获取到的用户的评分数据矩阵作为观测序列输入到隐马尔可夫模型中进行训练,获取到最优模型的观测概率矩阵,基于观测概率矩阵计算短视频不同模态特征的对短视频的影响比重;
步骤6,基于获取到的短视频不同模态特征的对短视频的影响比重,分别将获取到的短视频标题特征矩阵、短视频内容特征矩阵和短视频背景音乐特征矩阵基于影响比重的融合在一起形成短视频多模态特征融合矩阵;
步骤7,提取短视频的人脸特征、短视频和作者的热度特征和短视频的时间特征,作为手工提取特征矩阵;
步骤8,将融合之后的短视频多模态特征融合矩阵和获得的手工提取特征矩阵输入到不同的机器学习模型中去训练,并基于模型特点将模型进行融合,输出最终的推荐结果;
步骤9,使用AUC作为评价指标,评价推荐结果的可靠性。
其中,所述步骤1具体包括:
提取短视频标题特征数据,采用TF-IDF方法,TF-IDF方法包括TF和IDF,TF是词频,表示一个字词在指定文件中出现的频率,具体计算公式如下所示:
其中,tfi,j表示词语ti出现在文件dj中的词频;ni,j表示词语ti出现在文件dj中的次数,∑knk,j表示在文件dj中出现的所有词语的次数之和;
IDF是逆文本频率,表示一个字词在所有文件中出现的频率,具体计算公式如下所示:
其中,idfi表示词语ti出现在所有文件中的词频,|D|表示所有文件总数,式(2)中“:”表示包含词语ti的文件数目,计算tfi,j与idfi的乘积便可计算出一个词的TF-IDF值。
其中,所述步骤1、所述步骤2和所述步骤3具体包括:
用PCA降维算法将特征向量维度降维到k维,主要用于提取最有价值的信息,是无监督的,PCA降维算法的实现的主要步骤,如下所示:
特征标准化,即特征矩阵F中每列特征值减去该列的平均值,已知一个m×n特征矩阵F,特征矩阵F中每一列代表一个属性,计算矩阵中每个属性的均值得到有关属性的1×n均值矩阵将特征矩阵F与均值矩阵相减得到标准化矩阵SF,特征矩阵F、均值矩阵和标准化矩阵SF分别如下所示:
计算协方差矩阵COV_SF,表示两个字段的相关性,具体计算公式如下所示:
其中,m表示样本数量,即协方差矩阵COV_SF中行数,SFT表示SF矩阵的转置矩阵;
求取协方差矩阵COV_SF的特征值和特征向量,具体计算公式如下所示:
(λE-COV_SF)X=0 (7)
其中,λ表示特征值,X表示特征向量,E表示单位矩阵;
将多模态特征数据的维度降到k维,选取式(7)计算出来的最大的k个特征值对应的特征向量,得到维度为k的特征向量矩阵DX;将获取的标准化矩阵SF与获取到的k维的特征向量矩阵DX相乘,得到最终的降维后的特征矩阵FF。
其中,所述步骤4具体包括:
将用户的行为数据映射成对应的评分,用户和短视频之间的交互行为主要有两种,一种是用户是否给某一个短视频点赞,用户给某一个短视频点赞就认为用户喜欢该短视频,用户没有给某一个短视频点赞就认为用户不喜欢该短视频,将点赞这个用户行为映射成用户给该短视频基于like的评分:like值为1,表示用户已点赞短视频;like值为0,表示用户没有点赞短视频,另一种交互行为是用户是否看完某一个短视频,其中,有些用户并没有给短视频点赞的习惯,基于此,当用户把某个短视频浏览完的时候,可以认为用户对该短视频有一定的兴趣,将用户是否浏览完某一个短视频的这个用户行为映射成用户给该短视频基于finish的评分:finish值为1,表示用户已浏览完短视频;finish值为0,表示用户没有浏览完短视频。
其中,所述步骤5具体包括:
使用隐马尔可夫模型对用户的评分数据矩阵进行训练获取到最终的观测状态转移矩阵,从而获取到短视频不同模态特征的对短视频的影响比重;
隐马尔可夫模型主要包含两个状态集合和三个概率矩阵,隐含状态S集合,无法通过直接观察获得,具体公式如下所示:
S={s1,s2,…,sn} (8)
其中,n表示隐含状态数量,隐含状态S集合中的任意一个元素si,1≤i≤n,均表示一个隐含状态;
可观测的状态集合O,在模型中与隐含状态相关联,可通过直接观测而得到,具体公式如下所示:
O={o1,o2,…,om} (9)
其中,m表示可观测的状态数量,可观测状态的数目m不一定要和隐含状态的数目n一致,可观测的状态O集合中的任意一个元素oj,1≤j≤m均表示一个可观测状态;
初始状态概率矩阵π,表示隐含状态在初始时刻的概率矩阵,具体公式如下所示:
π={p(s1),p(s2),…,p(sn)} (10)
其中,n表示隐含状态数量,p(si),1≤i≤n表示任意一个隐含状态在初始时刻的概率;
隐含状态转移概率矩阵A,具体公式如下所示:
其中,aij=P(It+1=sj|It=si),1≤i,j≤n,I表示隐含状态序列,It表示t时刻的隐含状态,aij表示在t时刻,隐含状态为si的条件下,在t+1时刻是隐含状态sj的概率,n表示隐含状态的数目;
观测状态转移概率矩阵B,具体公式如下所示:
其中,bij=P(oj|It=si),1≤i≤n,1≤j≤m,表示在t时刻,隐含状态为si的条件下,可观测状态是oj的概率,m表示可观测状态的数目,n表示隐含状态的数目,可用λ=(A,B,π)三元组来表示一个隐马尔可夫模型,调整这些参数使得可观测序列的概率最大,反过来也可以利用可观测序列来计算模型的参数。
其中,所述步骤5还包括:
基于短视频标题特征、短视频内容特征和短视频背景音乐特征这三个隐含特征去训练的,即n=3,可观测的状态分为两种;一种是喜欢和不喜欢,即like和unLike;一种是浏览完和没有浏览完,即finish和unFinish,观测状态只有两个,即m=2,分别用title data、video data和audio data表示短视频标题特征、短视频内容特征和短视频背景音乐特征,由此可生成两个观测状态集合O(1)和O(2),隐含状态S集合O(1)与可观测状态集合O(2),如下所示:
S={title data,video data,audio data} (13)
O(1)={like,unLike} (14)
O(2)={finish,unFinish} (15)
分别以获取的基于like的用户评分矩阵和基于finish的用户评分矩阵作为可观测序列输入到隐马尔可夫模型中去训练,分别获取到基于like和finish的短视频多模态特征的观测状态转移概率矩阵,样式如下所示:
其中,Blike矩阵中P(like|title data)和P(unLike|title data)分别表示用户喜欢和不喜欢短视频标题模态数据的观测概率;Bfinish矩阵中P(finish|title data)和P(unFinish|title data)分别表示用户浏览完和没有浏览完短视频标题模态数据的观测概率,除此之外Blike矩阵和Bfinish矩阵中剩余值的含义以此类推;
根据计算出来的观测状态转移概率矩阵Blike和Bfinish,计算出来在同种观测状态下其它模态数据和随机确定一个模态数据的比值;只需计算用户可能会喜欢的短视频的多模态特征对短视频的影响比重,因此计算在喜欢和已浏览完的状态下其它模态和短视频标题模态的比值,具体公式如下所示:
其中,αlike表示在喜欢的状态下短视频内容特征和短视频标题特征影响比值,βlike表示在喜欢的状态下短视频背景音乐特征和短视频标题特征影响比值,αfinish表示在已浏览完的状态下短视频内容特征和短视频标题特征影响比值;βfinish表示在已浏览完的状态下短视频背景音乐特征和短视频标题特征影响比值。
其中,所述步骤6具体包括:
依据得到的αlike、βlike、αfinish和βfinish这几个比值将提取到的k维的短视频标题特征向量矩阵、短视频内容特征向量矩阵和短视频背景音乐特征向量矩阵融合在一起,具体融合方式分为以下2步:
最初提取到的短视频的多模态特征矩阵都是k维的,基于获取到的比值,首先确定短视频标题模态特征矩阵、短视频内容模态特征矩阵和短视频背景音乐模态特征矩阵的最终维度,用ti表示最终确定的短视频标题模态特征矩阵的维度,用vi表示最终确定的短视频内容模态特征矩阵的维度,用ai表示确定的短视频背景音乐模态特征矩阵的维度,其中i∈(like,finish),需满足的条件如下所示:
ti≤k,其中i∈(like,finish)
vi≤k,且vi=αiti,其中I∈(like,finish)
ai≤k,且ai=βiti,其中i∈(like,finiSH)
确定了短视频标题模态特征矩阵、短视频内容模态特征矩阵和短视频背景音乐模态特征矩阵的最终维度,使用PCA降维算法分别将短视频标题模态特征矩阵从k维降到Ti维,将短视频内容模态特征矩阵从k维降到vi维,将短视频背景音乐模态特征矩阵从k维降到ai维;
将降到对应维度的短视频多模态特征矩阵级联在一起表示短视频,最终得到短视频多模态特征融合矩阵,短视频多模态特征融合矩阵最终的维度是:Ti+vi+ai,其中,i∈(like,finisH)。
其中,所述步骤7具体包括:
依据短视频数据集的数据特点,计算短视频中的人脸面积,人脸的平均美丽度评分以及每个人脸和平均人脸美丽度的差值,以此作为短视频人脸特征,从短视频浏览热度的角度考虑,给短视频的浏览数量和短视频作者的出现数量进行了一个热度排序,依此构造了短视频和作者的热度矩阵,为了防止矩阵维度过大,使用PCA降维算法将维度降到了500维,从时间的角度考虑,将获取到的作者发布微视频的时间戳信息转换成年、月、日、时和分的时间特征,依此构造了短视频的时间特征矩阵。
其中,所述步骤8具体包括:
将依据获取到的短视频多模态特征融合矩阵和获取到的手工提取特征矩阵,分别输入到xDeepFM模型和LGB模型去学习训练,依据模型输出结果选用合适的模型进行融合,从而获得更精确的的推荐结果,xDeepFM模型融合了神经网络和FM模型,具体计算公式如下所示:
σ的具体计算公式如下所示:
LGB模型是一种梯度提升决策树模型,是一种迭代的决策树算法,由多颗决策树组成,每一颗决策树也可以被叫做基学习器或子模型,具体公式如下所示:
其中,fm(x)表示基学习器,M表示基学习器的个数,学习过程是一个一个的去增加子模型,并在过程中损失函数不断减小,具体公式如下所示:
Fm(x)=Fm-1(x)+fm(x) (25)
L(Fm(x),y)<L(Fm-1(x),y) (26)
其中,x表示模型的输入向量,y表示用户的真实评分数据,Fm(x)表示经过模型训练预测的评分数据;L符号表示计算经模型预测的评分数据和用户的真实评分数据之间的偏差,即损失函数;
依据这些模型本身的特点以及初步的实验结果,将xDeepFM模型和LGB模型基于权重进行融合,模型融合的想法是想要同时利用到不同模型的优点,让融合的模型充分发挥各个单个模型的优点,融合公式如下所示:
其中,wi表示融合的权重,modeli(x)表示融合的子模型,n表示融合模型的数量,只涉及到xDeepFM模型和LGB模型这两个模型的融合,通过实验确定了最优的融合权重0.3xDeepFM和0.7LGB。
其中,所述步骤9具体包括:
使用AUC作为评价指标,具体计算公式如下所示:
其中,M表示正样本的个数,N表示负样本的个数,ranki表示第i个样本的序号,∑i∈positiveClassranki表示所有正样本的序号和。
本发明的上述方案有如下的有益效果:
本发明的上述实施例所述的基于短视频多模态特征的短视频推荐模型,考虑到不同模态的特征数据对用户产生的用户行为的影响效果是不同的,并利用隐马尔可夫模型去学习短视频的不同模态数据对于用户的影响比重,基于影响比重将短视频的多模态特征映射到统一向量空间进行融合,获得用多模态数据特征表示的短视频特征数据,基于特征数据能获取到更准确的短视频推荐结果,为了更好的优化推荐结果,手工提取补充了一部分特征和短视频多模态特征一起输入到模型中,基于不同模型的训练输出结果,将xDeepFM模型和LGB模型基于最优权重的融合,从而获取到更加精确的推荐结果。
附图说明
图1为本发明的流程图;
图2为本发明的最优模型的观测矩阵图(1);
图3为本发明的最优模型的观测矩阵图(2);
图4为本发明的推荐结果比较示意图;
图5为本发明的AUC评分示意图(1);
图6为本发明的AUC评分示意图(2)。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有的基于短视频的多模态特征进行短视频推荐的问题,提供了一种基于短视频多模态特征的短视频推荐模型。
如图1至图6所示,本发明的实施例提供了一种基于短视频多模态特征的短视频推荐模型,包括:步骤1,对短视频标题特征,使用TF-IDF方法进行特征提取,使用PCA降维算法将短视频标题特征向量维度降维到k维;步骤2,提取短视频内容的128维原始特征,使用PCA降维算法将短视频内容特征向量维度降维到k维;步骤3,提取短视频背景音乐的128维原始特征,使用PCA降维算法将短视频背景音乐特征向量维度降维到k维;步骤4,基于用户的行为数据获取到用户的评分数据矩阵;步骤5,将获取到的用户的评分数据矩阵作为观测序列输入到隐马尔可夫模型中进行训练,获取到最优模型的观测概率矩阵,基于观测概率矩阵计算短视频不同模态特征的对短视频的影响比重;步骤6,基于获取到的短视频不同模态特征的对短视频的影响比重,分别将获取到的短视频标题特征矩阵、短视频内容特征矩阵和短视频背景音乐特征矩阵基于影响比重的融合在一起形成短视频多模态特征融合矩阵;步骤7,提取短视频的人脸特征、短视频和作者的热度特征和短视频的时间特征,作为手工提取特征矩阵;步骤8,将融合之后的短视频多模态特征融合矩阵和获得的手工提取特征矩阵输入到不同的机器学习模型中去训练,并基于模型特点将模型进行融合,输出最终的推荐结果;步骤9,使用AUC作为评价指标,评价推荐结果的可靠性。
本发明的上述实施例所述的基于短视频多模态特征的短视频推荐模型,短视频行业是近几年才活跃起来的,而且短视频内容数据可能会依据潮流、明星等因素时刻变化的,网上很少有公开可用的数据集。主要是针对ICME2019抖音短视频数据集中数据文件特点进行多模态特征融合研究,该数据集包含千万级数据信息。确定了提取的短视频标题特征数据、短视频内容特征树和短视频背景音乐特征的维度为32维,该数据集中包含两种用户评分数据:一个是用户是否喜欢该短视频,即like;另一个是用户是否浏览完该短视频,即finish。依据这两种用户行为分别提取出两个用户评分数据矩阵,然后分别将这两个用户评分数据矩阵输入到隐马尔科夫模型中去训练。隐含状态分别是:title data、video data和audio data,分别表示短视频标题特征数据、短视频内容特征树和短视频背景音乐特征。观测状态包含两类:一类是like和unLike;一类是finish和unFinish,生成的最优模型的观测矩阵分别如图2和图3所示。
基于图2的观测概率计算出不同模态之间的比重关系:
基于图3的观测概率计算出不同模态之间的比重关系:
对于用户是否like一个短视频的多模态特征具体融合方法是:先确定短视频标题特征的维度为16维的基础上确定其它特征的维度。即用PCA降维算法将title data从32维降到16维,则video data需要用PCA降维算法从32维降到26维,audio data保持32维。最终获得16维的短视频标题特征矩阵、26维的短视频内容特征矩阵和32维的短视频背景音乐特征矩阵。然后将降维后的3种模态的特征数据级联在一起形成一个74维的短视频多模态特征矩阵。
对于用户是否finish一个短视频的多模态特征具体融合方法是:先确定短视频标题特征的维度为26维的基础上确定其它特征的维度。即用PCA降维算法将title data从32维降到16维,则video data需要用PCA降维算法从32维降到26维,而audio data需要用PCA降维算法从32维降到24维。最终的获得16维的短视频标题特征矩阵、26维的短视频内容特征矩阵和24维的短视频背景音乐特征矩阵。然后将降维后的3种模态的特征数据拼接在一起形成一个66维的短视频多模态特征矩阵。
然后将74维的短视频多模态特征矩阵和66维的短视频多模态特征矩阵分别输入到模型中去训练,从而得到最终的预测结果,用AUC对推荐结果进行评价,最终的评分以0.7*finish+0.3*like计算。由图4可以看到在三种机器学习模型中,融合后的特征相对原始的特征推荐结果均有一定程度的提升。
为了提升推荐结果,后面将手工提取的特征分别和前面获取到的两个短视频多模态特征矩阵输入到模型中去训练,最终的评分以0.7*finish+0.3*like计算,结果如图5所示。可以看到相对于图4中对应模型的跑出来的数据来说,图5中的AUC评分有了小部分的提升。
最后,将图5中使用的这两个模型,通过实验获取到了最优的融合权重0.3和0.7,将基于最优融合权重的模型融合方式和其它两种模型融合方式做了性能比较,AUC评分如图6所示,由图中数据可以得知,基于最优权重模型融合的效果比其他两种融合方式的优化要好很多,且相对于图5中的单个模型推荐效果来说,融合之后的模型对推荐结果也产生了进一步的优化,由此,确定了最终的基于短视频多模态特征的短视频推荐模型如图1所示。
其中,所述步骤1具体包括:提取短视频标题特征数据,采用TF-IDF方法,TF-IDF方法包括TF和IDF,TF是词频,表示一个字词在指定文件中出现的频率,具体计算公式如下所示:
其中,tfi,j表示词语ti出现在文件dj中的词频;ni,j表示词语ti出现在文件dj中的次数,∑knk,j表示在文件dj中出现的所有词语的次数之和;
IDF是逆文本频率,表示一个字词在所有文件中出现的频率,具体计算公式如下所示:
其中,idfi表示词语ti出现在所有文件中的词频,|D|表示所有文件总数,式(2)中“:”表示包含词语ti的文件数目,计算tfi,j与idfi的乘积便可计算出一个词的TF-IDF值。
其中,所述步骤1、所述步骤2和所述步骤3具体包括:用PCA降维算法将特征向量维度降维到k维,主要用于提取最有价值的信息,是无监督的,PCA降维算法的实现的主要步骤,如下所示:
特征标准化,即特征矩阵F中每列特征值减去该列的平均值,已知一个m×n特征矩阵F,特征矩阵F中每一列代表一个属性,计算矩阵中每个属性的均值得到有关属性的1×n均值矩阵将特征矩阵F与均值矩阵相减得到标准化矩阵SF,特征矩阵F、均值矩阵和标准化矩阵SF分别如下所示:
计算协方差矩阵COV_SF,表示两个字段的相关性,具体计算公式如下所示:
其中,m表示样本数量,即协方差矩阵COV_SF中行数,SFT表示SF矩阵的转置矩阵;
求取协方差矩阵COV_SF的特征值和特征向量,具体计算公式如下所示:
(λE-COV_SF)X=0 (7)
其中,λ表示特征值,X表示特征向量,E表示单位矩阵;
将多模态特征数据的维度降到k维,选取式(7)计算出来的最大的k个特征值对应的特征向量,得到维度为k的特征向量矩阵DX;将获取的标准化矩阵SF与获取到的k维的特征向量矩阵DX相乘,得到最终的降维后的特征矩阵FF。
其中,所述步骤4具体包括:将用户的行为数据映射成对应的评分,用户和短视频之间的交互行为主要有两种,一种是用户是否给某一个短视频点赞,用户给某一个短视频点赞就认为用户喜欢该短视频,用户没有给某一个短视频点赞就认为用户不喜欢该短视频,将点赞这个用户行为映射成用户给该短视频基于like的评分:like值为1,表示用户已点赞短视频;like值为0,表示用户没有点赞短视频,另一种交互行为是用户是否看完某一个短视频,其中,有些用户并没有给短视频点赞的习惯,基于此,当用户把某个短视频浏览完的时候,可以认为用户对该短视频有一定的兴趣,将用户是否浏览完某一个短视频的这个用户行为映射成用户给该短视频基于finish的评分:finish值为1,表示用户已浏览完短视频;finish值为0,表示用户没有浏览完短视频。
其中,所述步骤5具体包括:使用隐马尔可夫模型对用户的评分数据矩阵进行训练获取到最终的观测状态转移矩阵,从而获取到短视频不同模态特征的对短视频的影响比重;
隐马尔可夫模型主要包含两个状态集合和三个概率矩阵,隐含状态S集合,无法通过直接观察获得,具体公式如下所示:
S={s1,s2,…,sn} (8)
其中,n表示隐含状态数量,隐含状态S集合中的任意一个元素si,1≤i≤n,均表示一个隐含状态;
可观测的状态集合O,在模型中与隐含状态相关联,可通过直接观测而得到,具体公式如下所示:
O={o1,o2,…,om} (9)
其中,m表示可观测的状态数量,可观测状态的数目m不一定要和隐含状态的数目n一致,可观测的状态O集合中的任意一个元素oj,1≤j≤m均表示一个可观测状态;
初始状态概率矩阵π,表示隐含状态在初始时刻的概率矩阵,具体公式如下所示:
π={p(s1),p(s2),…,p(sn)} (10)
其中,n表示隐含状态数量,p(si),1≤i≤n表示任意一个隐含状态在初始时刻的概率;
隐含状态转移概率矩阵A,具体公式如下所示:
其中,aij=P(It+1=sj|It=si),1≤i,j≤n,I表示隐含状态序列,It表示t时刻的隐含状态,aij表示在t时刻,隐含状态为si的条件下,在t+1时刻是隐含状态sj的概率,n表示隐含状态的数目;
观测状态转移概率矩阵B,具体公式如下所示:
其中,bij=P(oj|It=si),1≤i≤n,1≤j≤m,表示在t时刻,隐含状态为si的条件下,可观测状态是oj的概率,m表示可观测状态的数目,n表示隐含状态的数目,可用λ=(A,B,π)三元组来表示一个隐马尔可夫模型,调整这些参数使得可观测序列的概率最大,反过来也可以利用可观测序列来计算模型的参数。
其中,所述步骤5还包括:基于短视频标题特征、短视频内容特征和短视频背景音乐特征这三个隐含特征去训练的,即n=3,可观测的状态分为两种;一种是喜欢和不喜欢,即like和unLike;一种是浏览完和没有浏览完,即finish和unFinish,观测状态只有两个,即m=2,分别用title data、video data和audio data表示短视频标题特征、短视频内容特征和短视频背景音乐特征,由此可生成两个观测状态集合O(1)和O(2),隐含状态S集合O(1)与可观测状态集合O(2),如下所示:
S={title data,video data,audio data} (13)
O(1)={like,unLike} (14)
O(2)={finish,unFinish} (15)
分别以获取的基于like的用户评分矩阵和基于finish的用户评分矩阵作为可观测序列输入到隐马尔可夫模型中去训练,分别获取到基于like和finish的短视频多模态特征的观测状态转移概率矩阵,样式如下所示:
其中,Blike矩阵中P(like|title data)和P(unLike|title data)分别表示用户喜欢和不喜欢短视频标题模态数据的观测概率;Bfinish矩阵中P(finish|title data)和P(unFinish|title data)分别表示用户浏览完和没有浏览完短视频标题模态数据的观测概率,除此之外Blike矩阵和Bfinish矩阵中剩余值的含义以此类推;
根据计算出来的观测状态转移概率矩阵Blike和Bfinish,计算出来在同种观测状态下其它模态数据和随机确定一个模态数据的比值;只需计算用户可能会喜欢的短视频的多模态特征对短视频的影响比重,因此计算在喜欢和已浏览完的状态下其它模态和短视频标题模态的比值,具体公式如下所示:
其中,αlike表示在喜欢的状态下短视频内容特征和短视频标题特征影响比值,βlike表示在喜欢的状态下短视频背景音乐特征和短视频标题特征影响比值,αfinish表示在已浏览完的状态下短视频内容特征和短视频标题特征影响比值;βfinish表示在已浏览完的状态下短视频背景音乐特征和短视频标题特征影响比值。
其中,所述步骤6具体包括:依据得到的αlike、βlike、αfinish和βfinish这几个比值将提取到的k维的短视频标题特征向量矩阵、短视频内容特征向量矩阵和短视频背景音乐特征向量矩阵融合在一起,具体融合方式分为以下2步:
最初提取到的短视频的多模态特征矩阵都是k维的,基于获取到的比值,首先确定短视频标题模态特征矩阵、短视频内容模态特征矩阵和短视频背景音乐模态特征矩阵的最终维度,用ti表示最终确定的短视频标题模态特征矩阵的维度,用vi表示最终确定的短视频内容模态特征矩阵的维度,用ai表示确定的短视频背景音乐模态特征矩阵的维度,其中i∈(like,finish),需满足的条件如下所示:
ti≤k,其中i∈(like,finish)
vi≤k,且vi=αiti,其中I∈(like,finish)
ai≤k,且ai=βiti,其中i∈(like,finish)
确定了短视频标题模态特征矩阵、短视频内容模态特征矩阵和短视频背景音乐模态特征矩阵的最终维度,使用PCA降维算法分别将短视频标题模态特征矩阵从k维降到ti维,将短视频内容模态特征矩阵从k维降到vi维,将短视频背景音乐模态特征矩阵从k维降到ai维;
将降到对应维度的短视频多模态特征矩阵级联在一起表示短视频,最终得到短视频多模态特征融合矩阵,短视频多模态特征融合矩阵最终的维度是:ti+vi+ai,其中,i∈(like,finish)。
其中,所述步骤7具体包括:依据短视频数据集的数据特点,计算短视频中的人脸面积,人脸的平均美丽度评分以及每个人脸和平均人脸美丽度的差值,以此作为短视频人脸特征,从短视频浏览热度的角度考虑,给短视频的浏览数量和短视频作者的出现数量进行了一个热度排序,依此构造了短视频和作者的热度矩阵,为了防止矩阵维度过大,使用PCA降维算法将维度降到了500维,从时间的角度考虑,将获取到的作者发布微视频的时间戳信息转换成年、月、日、时和分的时间特征,依此构造了短视频的时间特征矩阵。
其中,所述步骤8具体包括:将依据获取到的短视频多模态特征融合矩阵和获取到的手工提取特征矩阵,分别输入到xDeepFM模型和LGB模型去学习训练,依据模型输出结果选用合适的模型进行融合,从而获得更精确的的推荐结果,xDeepFM模型融合了神经网络和FM模型,具体计算公式如下所示:
σ的具体计算公式如下所示:
LGB模型是一种梯度提升决策树模型,是一种迭代的决策树算法,由多颗决策树组成,每一颗决策树也可以被叫做基学习器或子模型,具体公式如下所示:
其中,fm(x)表示基学习器,M表示基学习器的个数,学习过程是一个一个的去增加子模型,并在过程中损失函数不断减小,具体公式如下所示:
Fm(x)=Fm-1(x)+fm(x) (25)
L(Fm(x),y)<L(Fm-1(x),y) (26)
其中,x表示模型的输入向量,y表示用户的真实评分数据,Fm(x)表示经过模型训练预测的评分数据;L符号表示计算经模型预测的评分数据和用户的真实评分数据之间的偏差,即损失函数;
依据这些模型本身的特点以及初步的实验结果,将xDeepFM模型和LGB模型基于权重进行融合,模型融合的想法是想要同时利用到不同模型的优点,让融合的模型充分发挥各个单个模型的优点,融合公式如下所示:
其中,wi表示融合的权重,modeli(x)表示融合的子模型,n表示融合模型的数量,只涉及到xDeepFM模型和LGB模型这两个模型的融合,通过实验确定了最优的融合权重0.3xDeepFM和0.7LGB。
其中,所述步骤9具体包括:使用AUC作为评价指标,具体计算公式如下所示:
其中,M表示正样本的个数,N表示负样本的个数,ranki表示第i个样本的序号,∑i∈positiveClassranki表示所有正样本的序号和。
本发明的上述实施例所述的基于短视频多模态特征的短视频推荐模型,分析了短视频的多模态特征,考虑到短视频不同模态的特征对于用户的影响程度不同,首先,基于用户不同行为产生的用户评分数据,用隐马尔可夫模型学习到了最优的观测概率,基于观测概率,计算出了短视频不同模态之间的比值关系,提出了一种基于影响比重融合短视频多模态特征的融合算法,然后,将基于影响比重融合之后的短视频多模态矩阵和手工提取特征输入到模型中去训练,并将xDeepFM模型和LGB模型这两个模型的输出结果以0.3和0.7的权重进行融合,最后,获取到最终的推荐结果。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种基于短视频多模态特征的短视频推荐模型,其特征在于,包括:
步骤1,对短视频标题特征,使用TF-IDF方法进行特征提取,使用PCA降维算法将短视频标题特征向量维度降维到k维;
步骤2,提取短视频内容的128维原始特征,使用PCA降维算法将短视频内容特征向量维度降维到k维;
步骤3,提取短视频背景音乐的128维原始特征,使用PCA降维算法将短视频背景音乐特征向量维度降维到k维;
步骤4,基于用户的行为数据获取到用户的评分数据矩阵;
步骤5,将获取到的用户的评分数据矩阵作为观测序列输入到隐马尔可夫模型中进行训练,获取到最优模型的观测概率矩阵,基于观测概率矩阵计算短视频不同模态特征的对短视频的影响比重;
步骤6,基于获取到的短视频不同模态特征的对短视频的影响比重,分别将获取到的短视频标题特征矩阵、短视频内容特征矩阵和短视频背景音乐特征矩阵基于影响比重的融合在一起形成短视频多模态特征融合矩阵;
步骤7,提取短视频的人脸特征、短视频和作者的热度特征和短视频的时间特征,作为手工提取特征矩阵;
步骤8,将融合之后的短视频多模态特征融合矩阵和获得的手工提取特征矩阵输入到不同的机器学习模型中去训练,并基于模型特点将模型进行融合,输出最终的推荐结果;
步骤9,使用AUC作为评价指标,评价推荐结果的可靠性。
2.根据权利要求1所述的基于短视频多模态特征的短视频推荐模型,其特征在于,所述步骤1具体包括:
提取短视频标题特征数据,采用TF-IDF方法,TF-IDF方法包括TF和IDF,TF是词频,表示一个字词在指定文件中出现的频率,具体计算公式如下所示:
其中,tfi,j表示词语ti出现在文件dj中的词频;ni,j表示词语ti出现在文件dj中的次数,∑knk,j表示在文件dj中出现的所有词语的次数之和;
IDF是逆文本频率,表示一个字词在所有文件中出现的频率,具体计算公式如下所示:
其中,idfi表示词语ti出现在所有文件中的词频,|D|表示所有文件总数,式(2)中“:”表示包含词语ti的文件数目,计算tfi,j与idfi的乘积便可计算出一个词的TF-IDF值。
3.根据权利要求2所述的基于短视频多模态特征的短视频推荐模型,其特征在于,所述步骤1、所述步骤2和所述步骤3具体包括:
用PCA降维算法将特征向量维度降维到k维,主要用于提取最有价值的信息,是无监督的,PCA降维算法的实现的主要步骤,如下所示:
特征标准化,即特征矩阵F中每列特征值减去该列的平均值,已知一个m×n特征矩阵F,特征矩阵F中每一列代表一个属性,计算矩阵中每个属性的均值得到有关属性的1×n均值矩阵将特征矩阵F与均值矩阵相减得到标准化矩阵SF,特征矩阵F、均值矩阵和标准化矩阵SF分别如下所示:
计算协方差矩阵COV_SF,表示两个字段的相关性,具体计算公式如下所示:
其中,m表示样本数量,即协方差矩阵COV_SF中行数,SFT表示SF矩阵的转置矩阵;
求取协方差矩阵COV_SF的特征值和特征向量,具体计算公式如下所示:
(λE-COV_SF)X=0 (7)
其中,λ表示特征值,X表示特征向量,E表示单位矩阵;
将多模态特征数据的维度降到k维,选取式(7)计算出来的最大的k个特征值对应的特征向量,得到维度为k的特征向量矩阵DX;将获取的标准化矩阵SF与获取到的k维的特征向量矩阵DX相乘,得到最终的降维后的特征矩阵FF。
4.根据权利要求3所述的基于短视频多模态特征的短视频推荐模型,其特征在于,所述步骤4具体包括:
将用户的行为数据映射成对应的评分,用户和短视频之间的交互行为主要有两种,一种是用户是否给某一个短视频点赞,用户给某一个短视频点赞就认为用户喜欢该短视频,用户没有给某一个短视频点赞就认为用户不喜欢该短视频,将点赞这个用户行为映射成用户给该短视频基于like的评分:like值为1,表示用户已点赞短视频;like值为0,表示用户没有点赞短视频,另一种交互行为是用户是否看完某一个短视频,其中,有些用户并没有给短视频点赞的习惯,基于此,当用户把某个短视频浏览完的时候,可以认为用户对该短视频有一定的兴趣,将用户是否浏览完某一个短视频的这个用户行为映射成用户给该短视频基于finish的评分:finish值为1,表示用户已浏览完短视频;finish值为0,表示用户没有浏览完短视频。
5.根据权利要求4所述的基于短视频多模态特征的短视频推荐模型,其特征在于,所述步骤5具体包括:
使用隐马尔可夫模型对用户的评分数据矩阵进行训练获取到最终的观测状态转移矩阵,从而获取到短视频不同模态特征的对短视频的影响比重;
隐马尔可夫模型主要包含两个状态集合和三个概率矩阵,隐含状态S集合,无法通过直接观察获得,具体公式如下所示:
S={s1,s2,...,sn} (8)
其中,n表示隐含状态数量,隐含状态S集合中的任意一个元素si,1≤i≤n,均表示一个隐含状态;
可观测的状态集合O,在模型中与隐含状态相关联,可通过直接观测而得到,具体公式如下所示:
O={o1,o2,...,om} (9)
其中,m表示可观测的状态数量,可观测状态的数目m不一定要和隐含状态的数目n一致,可观测的状态O集合中的任意一个元素oj,1≤j≤m均表示一个可观测状态;
初始状态概率矩阵π,表示隐含状态在初始时刻的概率矩阵,具体公式如下所示:
π={p(s1),p(s2),...,p(sn)} (10)
其中,n表示隐含状态数量,p(si),1≤i≤n表示任意一个隐含状态在初始时刻的概率;
隐含状态转移概率矩阵A,具体公式如下所示:
其中,aij=P(It+1=sj|It=si),1≤i,j≤n,I表示隐含状态序列,It表示t时刻的隐含状态,aij表示在t时刻,隐含状态为si的条件下,在t+1时刻是隐含状态sj的概率,n表示隐含状态的数目;
观测状态转移概率矩阵B,具体公式如下所示:
其中,bij=P(oj|It=si),1≤i≤n,1≤j≤m,表示在t时刻,隐含状态为si的条件下,可观测状态是oj的概率,m表示可观测状态的数目,n表示隐含状态的数目,可用λ=(A,B,π)三元组来表示一个隐马尔可夫模型,调整这些参数使得可观测序列的概率最大,反过来也可以利用可观测序列来计算模型的参数。
6.根据权利要求5所述的基于短视频多模态特征的短视频推荐模型,其特征在于,所述步骤5还包括:
基于短视频标题特征、短视频内容特征和短视频背景音乐特征这三个隐含特征去训练的,即n=3,可观测的状态分为两种;一种是喜欢和不喜欢,即like和unLike;一种是浏览完和没有浏览完,即finish和unFinish,观测状态只有两个,即m=2,分别用title data、video data和audio data表示短视频标题特征、短视频内容特征和短视频背景音乐特征,由此可生成两个观测状态集合O(1)和O(2),隐含状态S集合O(1)与可观测状态集合O(2),如下所示:
S={title data,video data,audio data} (13)
O(1)={like,unLike} (14)
O(2)={finish,unFinish} (15)
分别以获取的基于like的用户评分矩阵和基于finish的用户评分矩阵作为可观测序列输入到隐马尔可夫模型中去训练,分别获取到基于like和finish的短视频多模态特征的观测状态转移概率矩阵,样式如下所示;
其中,Blike矩阵中P(like|title data)和P(unLike|title data)分别表示用户喜欢和不喜欢短视频标题模态数据的观测概率;Bfinish矩阵中P(finish|title data)和P(unFinish|title data)分别表示用户浏览完和没有浏览完短视频标题模态数据的观测概率,除此之外Blike矩阵和Bfinish矩阵中剩余值的含义以此类推;
根据计算出来的观测状态转移概率矩阵Blike和Bfinish,计算出来在同种观测状态下其它模态数据和随机确定一个模态数据的比值;只需计算用户可能会喜欢的短视频的多模态特征对短视频的影响比重,因此计算在喜欢和已浏览完的状态下其它模态和短视频标题模态的比值,具体公式如下所示:
其中,αlike表示在喜欢的状态下短视频内容特征和短视频标题特征影响比值,βlike表示在喜欢的状态下短视频背景音乐特征和短视频标题特征影响比值,αfinish表示在已浏览完的状态下短视频内容特征和短视频标题特征影响比值;βfinish表示在已浏览完的状态下短视频背景音乐特征和短视频标题特征影响比值。
7.根据权利要求4所述的基于短视频多模态特征的短视频推荐模型,其特征在于,所述步骤6具体包括:
依据得到的αlike、βlike、αfinish和βfinish这几个比值将提取到的k维的短视频标题特征向量矩阵、短视频内容特征向量矩阵和短视频背景音乐特征向量矩阵融合在一起,具体融合方式分为以下2步:
最初提取到的短视频的多模态特征矩阵都是k维的,基于获取到的比值,首先确定短视频标题模态特征矩阵、短视频内容模态特征矩阵和短视频背景音乐模态特征矩阵的最终维度,用ti表示最终确定的短视频标题模态特征矩阵的维度,用vi表示最终确定的短视频内容模态特征矩阵的维度,用ai表示确定的短视频背景音乐模态特征矩阵的维度,其中i∈(like,finish),需满足的条件如下所示:
ti≤k,其中i∈(like,finish)
vi≤k,且vi=αiti,其中I∈(like,finish)
ai≤k,且ai=βiti,其中i∈(like,finish)
确定了短视频标题模态特征矩阵、短视频内容模态特征矩阵和短视频背景音乐模态特征矩阵的最终维度,使用PCA降维算法分别将短视频标题模态特征矩阵从k维降到ti维,将短视频内容模态特征矩阵从k维降到vi维,将短视频背景音乐模态特征矩阵从k维降到ai维;
将降到对应维度的短视频多模态特征矩阵级联在一起表示短视频,最终得到短视频多模态特征融合矩阵,短视频多模态特征融合矩阵最终的维度是:ti+vi+ai,其中,i∈(like,finish)。
8.根据权利要求7所述的基于短视频多模态特征的短视频推荐模型,其特征在于,所述步骤7具体包括:
依据短视频数据集的数据特点,计算短视频中的人脸面积,人脸的平均美丽度评分以及每个人脸和平均人脸美丽度的差值,以此作为短视频人脸特征,从短视频浏览热度的角度考虑,给短视频的浏览数量和短视频作者的出现数量进行了一个热度排序,依此构造了短视频和作者的热度矩阵,为了防止矩阵维度过大,使用PCA降维算法将维度降到了500维,从时间的角度考虑,将获取到的作者发布微视频的时间戳信息转换成年、月、日、时和分的时间特征,依此构造了短视频的时间特征矩阵。
9.根据权利要求8所述的基于短视频多模态特征的短视频推荐模型,其特征在于,所述步骤8具体包括:
将依据获取到的短视频多模态特征融合矩阵和获取到的手工提取特征矩阵,分别输入到xDeepFM模型和LGB模型去学习训练,依据模型输出结果选用合适的模型进行融合,从而获得更精确的的推荐结果,xDeepFM模型融合了神经网络和FM模型,具体计算公式如下所示:
σ的具体计算公式如下所示:
LGB模型是一种梯度提升决策树模型,是一种迭代的决策树算法,由多颗决策树组成,每一颗决策树也可以被叫做基学习器或子模型,具体公式如下所示:
其中,fm(x)表示基学习器,M表示基学习器的个数,学习过程是一个一个的去增加子模型,并在过程中损失函数不断减小,具体公式如下所示:
Fm(x)=Fm-1(x)+fm(x) (25)
L(Fm(x),y)<L(Fm-1(x),y) (26)
其中,x表示模型的输入向量,y表示用户的真实评分数据,Fm(x)表示经过模型训练预测的评分数据;L符号表示计算经模型预测的评分数据和用户的真实评分数据之间的偏差,即损失函数;
依据这些模型本身的特点以及初步的实验结果,将xDeepFM模型和LGB模型基于权重进行融合,模型融合的想法是想要同时利用到不同模型的优点,让融合的模型充分发挥各个单个模型的优点,融合公式如下所示:
其中,wi表示融合的权重,modeli(x)表示融合的子模型,n表示融合模型的数量,只涉及到xDeepFM模型和LGB模型这两个模型的融合,通过实验确定了最优的融合权重0.3xDeepFM和0.7LGB。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010284993.5A CN111523575B (zh) | 2020-04-13 | 2020-04-13 | 基于短视频多模态特征的短视频推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010284993.5A CN111523575B (zh) | 2020-04-13 | 2020-04-13 | 基于短视频多模态特征的短视频推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111523575A true CN111523575A (zh) | 2020-08-11 |
CN111523575B CN111523575B (zh) | 2023-12-12 |
Family
ID=71902865
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010284993.5A Active CN111523575B (zh) | 2020-04-13 | 2020-04-13 | 基于短视频多模态特征的短视频推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111523575B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112182379A (zh) * | 2020-09-28 | 2021-01-05 | 上海宏路数据技术股份有限公司 | 数据处理方法、电子设备及介质 |
CN112905835A (zh) * | 2021-02-26 | 2021-06-04 | 成都潜在人工智能科技有限公司 | 一种多模态乐曲标题生成方法、装置及存储介质 |
CN113010774A (zh) * | 2021-02-24 | 2021-06-22 | 四川省人工智能研究院(宜宾) | 一种基于动态深度注意力模型的点击率预测方法 |
CN113064382A (zh) * | 2021-03-30 | 2021-07-02 | 熵智科技(深圳)有限公司 | 数控加工切削振动识别方法、装置、计算机设备及介质 |
CN113158022A (zh) * | 2021-01-29 | 2021-07-23 | 北京达佳互联信息技术有限公司 | 业务推荐方法、装置、服务器及存储介质 |
CN114302225A (zh) * | 2021-12-23 | 2022-04-08 | 阿里巴巴(中国)有限公司 | 视频配乐方法、数据处理方法、设备及存储介质 |
CN114443896A (zh) * | 2022-01-25 | 2022-05-06 | 百度在线网络技术(北京)有限公司 | 数据处理方法和用于训练预测模型的方法 |
CN114647785A (zh) * | 2022-03-28 | 2022-06-21 | 北京工业大学 | 基于情感分析的短视频获赞数量预测方法 |
CN114970955A (zh) * | 2022-04-15 | 2022-08-30 | 黑龙江省网络空间研究中心 | 基于多模态预训练模型的短视频热度预测方法及装置 |
WO2023273769A1 (zh) * | 2021-07-01 | 2023-01-05 | 北京百度网讯科技有限公司 | 视频标签推荐模型的训练方法和确定视频标签的方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040122675A1 (en) * | 2002-12-19 | 2004-06-24 | Nefian Ara Victor | Visual feature extraction procedure useful for audiovisual continuous speech recognition |
US20090006368A1 (en) * | 2007-06-29 | 2009-01-01 | Microsoft Corporation | Automatic Video Recommendation |
WO2012097336A1 (en) * | 2011-01-13 | 2012-07-19 | Rutgers, The State University Of New Jersey | Enhanced multi-protocol analysis via intelligent supervised embedding (empravise) for multimodal data fusion |
WO2018124309A1 (en) * | 2016-12-30 | 2018-07-05 | Mitsubishi Electric Corporation | Method and system for multi-modal fusion model |
CN109614895A (zh) * | 2018-10-29 | 2019-04-12 | 山东大学 | 一种基于attention特征融合的多模态情感识别的方法 |
CN109801096A (zh) * | 2018-12-14 | 2019-05-24 | 中国科学院深圳先进技术研究院 | 一种多模态客户满意度综合评价系统、方法 |
CN110245261A (zh) * | 2019-05-24 | 2019-09-17 | 中山大学 | 一种多模态的短视频推荐系统中的特征构造方法及系统 |
CN110337016A (zh) * | 2019-06-13 | 2019-10-15 | 山东大学 | 基于多模态图卷积网络的短视频个性化推荐方法及系统 |
CN110555160A (zh) * | 2018-03-30 | 2019-12-10 | 优酷网络技术(北京)有限公司 | 用于推荐系统的数据处理方法、数据处理装置和电子设备 |
CN110866184A (zh) * | 2019-11-11 | 2020-03-06 | 湖南大学 | 短视频数据标签推荐方法、装置、计算机设备和存储介质 |
-
2020
- 2020-04-13 CN CN202010284993.5A patent/CN111523575B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040122675A1 (en) * | 2002-12-19 | 2004-06-24 | Nefian Ara Victor | Visual feature extraction procedure useful for audiovisual continuous speech recognition |
US20090006368A1 (en) * | 2007-06-29 | 2009-01-01 | Microsoft Corporation | Automatic Video Recommendation |
WO2012097336A1 (en) * | 2011-01-13 | 2012-07-19 | Rutgers, The State University Of New Jersey | Enhanced multi-protocol analysis via intelligent supervised embedding (empravise) for multimodal data fusion |
WO2018124309A1 (en) * | 2016-12-30 | 2018-07-05 | Mitsubishi Electric Corporation | Method and system for multi-modal fusion model |
CN110555160A (zh) * | 2018-03-30 | 2019-12-10 | 优酷网络技术(北京)有限公司 | 用于推荐系统的数据处理方法、数据处理装置和电子设备 |
CN109614895A (zh) * | 2018-10-29 | 2019-04-12 | 山东大学 | 一种基于attention特征融合的多模态情感识别的方法 |
CN109801096A (zh) * | 2018-12-14 | 2019-05-24 | 中国科学院深圳先进技术研究院 | 一种多模态客户满意度综合评价系统、方法 |
CN110245261A (zh) * | 2019-05-24 | 2019-09-17 | 中山大学 | 一种多模态的短视频推荐系统中的特征构造方法及系统 |
CN110337016A (zh) * | 2019-06-13 | 2019-10-15 | 山东大学 | 基于多模态图卷积网络的短视频个性化推荐方法及系统 |
CN110866184A (zh) * | 2019-11-11 | 2020-03-06 | 湖南大学 | 短视频数据标签推荐方法、装置、计算机设备和存储介质 |
Non-Patent Citations (3)
Title |
---|
CUI HONGLIANG等: "The Video Recommendation System Based on DBN", pages 1016 - 1021 * |
赵宇;刘凤;舒巧媛;韦鹏程;: "基于马尔可夫聚类和混合协同过滤的电视节目推荐", no. 02 * |
邱丰羽: "融合多源异构数据的推荐模型与系统", no. 2019 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112182379B (zh) * | 2020-09-28 | 2021-07-13 | 上海嗨普智能信息科技股份有限公司 | 数据处理方法、电子设备及介质 |
CN112182379A (zh) * | 2020-09-28 | 2021-01-05 | 上海宏路数据技术股份有限公司 | 数据处理方法、电子设备及介质 |
CN113158022A (zh) * | 2021-01-29 | 2021-07-23 | 北京达佳互联信息技术有限公司 | 业务推荐方法、装置、服务器及存储介质 |
CN113158022B (zh) * | 2021-01-29 | 2024-03-12 | 北京达佳互联信息技术有限公司 | 业务推荐方法、装置、服务器及存储介质 |
CN113010774A (zh) * | 2021-02-24 | 2021-06-22 | 四川省人工智能研究院(宜宾) | 一种基于动态深度注意力模型的点击率预测方法 |
CN113010774B (zh) * | 2021-02-24 | 2023-04-07 | 四川省人工智能研究院(宜宾) | 一种基于动态深度注意力模型的点击率预测方法 |
CN112905835B (zh) * | 2021-02-26 | 2022-11-11 | 成都潜在人工智能科技有限公司 | 一种多模态乐曲标题生成方法、装置及存储介质 |
CN112905835A (zh) * | 2021-02-26 | 2021-06-04 | 成都潜在人工智能科技有限公司 | 一种多模态乐曲标题生成方法、装置及存储介质 |
CN113064382A (zh) * | 2021-03-30 | 2021-07-02 | 熵智科技(深圳)有限公司 | 数控加工切削振动识别方法、装置、计算机设备及介质 |
CN113064382B (zh) * | 2021-03-30 | 2022-07-29 | 熵智科技(深圳)有限公司 | 数控加工切削振动识别方法、装置、计算机设备及介质 |
WO2023273769A1 (zh) * | 2021-07-01 | 2023-01-05 | 北京百度网讯科技有限公司 | 视频标签推荐模型的训练方法和确定视频标签的方法 |
CN114302225A (zh) * | 2021-12-23 | 2022-04-08 | 阿里巴巴(中国)有限公司 | 视频配乐方法、数据处理方法、设备及存储介质 |
CN114443896A (zh) * | 2022-01-25 | 2022-05-06 | 百度在线网络技术(北京)有限公司 | 数据处理方法和用于训练预测模型的方法 |
CN114443896B (zh) * | 2022-01-25 | 2023-09-15 | 百度在线网络技术(北京)有限公司 | 数据处理方法和用于训练预测模型的方法 |
CN114647785A (zh) * | 2022-03-28 | 2022-06-21 | 北京工业大学 | 基于情感分析的短视频获赞数量预测方法 |
CN114647785B (zh) * | 2022-03-28 | 2024-09-24 | 北京工业大学 | 基于情感分析的短视频获赞数量预测方法 |
CN114970955A (zh) * | 2022-04-15 | 2022-08-30 | 黑龙江省网络空间研究中心 | 基于多模态预训练模型的短视频热度预测方法及装置 |
CN114970955B (zh) * | 2022-04-15 | 2023-12-15 | 黑龙江省网络空间研究中心 | 基于多模态预训练模型的短视频热度预测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111523575B (zh) | 2023-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111523575B (zh) | 基于短视频多模态特征的短视频推荐方法 | |
CN111538912B (zh) | 内容推荐方法、装置、设备及可读存储介质 | |
CN111708950B (zh) | 内容推荐方法、装置及电子设备 | |
Torabi et al. | Learning language-visual embedding for movie understanding with natural-language | |
CN112800292B (zh) | 一种基于模态特定和共享特征学习的跨模态检索方法 | |
CN110737801A (zh) | 内容分类方法、装置、计算机设备和存储介质 | |
CN111797898B (zh) | 一种基于深度语义匹配的在线评论自动回复方法 | |
CN111246256A (zh) | 基于多模态视频内容和多任务学习的视频推荐方法 | |
CN110737783A (zh) | 一种推荐多媒体内容的方法、装置及计算设备 | |
Nguyen et al. | Vireo@ trecvid 2017: Video-to-text, ad-hoc video search and video hyperlinking | |
CN111400601A (zh) | 一种视频推荐的方法及相关设备 | |
CN112989212B (zh) | 媒体内容推荐方法、装置和设备及计算机存储介质 | |
CN111563373A (zh) | 聚焦属性相关文本的属性级情感分类方法 | |
CN115964560B (zh) | 基于多模态预训练模型的资讯推荐方法及设备 | |
CN115204301A (zh) | 视频文本匹配模型训练、视频文本匹配方法和装置 | |
CN115618024A (zh) | 多媒体推荐方法、装置及电子设备 | |
Liu et al. | A multimodal approach for multiple-relation extraction in videos | |
CN117312630A (zh) | 推荐信息的获取方法、模型训练方法、装置、电子设备及存储介质 | |
Liu et al. | Personalized Recommender System for Children's Book Recommendation with A Realtime Interactive Robot | |
CN113688281B (zh) | 一种基于深度学习行为序列的视频推荐方法及系统 | |
Liu et al. | Learning perceptual embeddings with two related tasks for joint predictions of media interestingness and emotions | |
WO2019237461A1 (zh) | 一种基于用户需求的稳态标签开发方法及系统 | |
CN114022822A (zh) | 视频配乐的获取方法、装置、电子设备及计算机可读介质 | |
CN113868463A (zh) | 推荐模型训练方法及装置 | |
Li et al. | CTR prediction with user behavior: An augmented method of deep factorization machines |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |