CN111523575A - 基于短视频多模态特征的短视频推荐模型 - Google Patents

基于短视频多模态特征的短视频推荐模型 Download PDF

Info

Publication number
CN111523575A
CN111523575A CN202010284993.5A CN202010284993A CN111523575A CN 111523575 A CN111523575 A CN 111523575A CN 202010284993 A CN202010284993 A CN 202010284993A CN 111523575 A CN111523575 A CN 111523575A
Authority
CN
China
Prior art keywords
short video
matrix
feature
short
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010284993.5A
Other languages
English (en)
Other versions
CN111523575B (zh
Inventor
邓晓衡
张桦林
黄文俊
赵敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202010284993.5A priority Critical patent/CN111523575B/zh
Publication of CN111523575A publication Critical patent/CN111523575A/zh
Application granted granted Critical
Publication of CN111523575B publication Critical patent/CN111523575B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于短视频多模态特征的短视频推荐模型,包括:步骤1,对短视频标题特征,使用TF‑IDF方法进行特征提取,使用PCA降维算法将短视频标题特征向量维度降维到k维;步骤2,提取短视频内容的128维原始特征,使用PCA降维算法将短视频内容特征向量维度降维到k维;步骤3,提取短视频背景音乐的128维原始特征,使用PCA降维算法将短视频背景音乐特征向量维度降维到k维。本发明考虑到不同模态的特征数据对用户产生的用户行为的影响效果是不同的,并利用隐马尔可夫模型去学习短视频的不同模态数据对于用户的影响比重,基于影响比重将短视频的多模态特征映射到统一向量空间进行融合,获得用多模态数据特征表示的短视频特征数据。

Description

基于短视频多模态特征的短视频推荐模型
技术领域
本发明涉及视频分析技术领域,特别涉及一种基于短视频多模态特征的短视频推荐模型。
背景技术
随着社会的快速发展,人们生活节奏的加快,几乎每个人在工作中或生活中都承受着一定的压力,而大部分人由于生活的负担很难有大量的闲暇时间去娱乐休闲散心,随着手机互联网的迅猛发展以及抖音、快手等短视频app的出现,许多人喜欢在自己有限的碎片化的空闲时间里浏览观看一些短视频来缓解放松自己,但是由于短视频app的低门槛特征,几乎所有人都能在上面发表自己的作品,导致app上面短视频作品数量庞大且内容混杂,人们很难很快的从app上面找到自己感兴趣的短视频,推荐系统是解决这个问题的主要方法。
因为短视频行业是近几年才发展起来的,所以大部分原有的视频算法推荐大多是基于长视频的推荐。例如:电影的推荐,但是短视频和长视频是不同的,大部分短视频的时长大概在6秒至300秒,由于其时长短,故而都偏重于某一个主题,不会有太复杂的情景故事变化。现有视频推荐算法可以从三个角度进行分析。一是基于视频原有标签产生推荐,这种推荐方法并没有分析视频的内容,而是把视频看成一个整体,直接使用视频的属性标签进行推荐。举个例子:有一个足球系列的电影,那么这个电影的视频属性就是“运动”,即会被标上“运动”的标签;另有一个篮球系列的电影,那么这个电影的视频属性也是“运动”,即也会标上“运动”得标签。但是可能就有些人喜欢篮球不喜欢足球,在这种情况下只依据视频的属性标签不依据视频内容去产生推荐的话就会产生不好的推荐结果。二是基于单模态数据产生推荐的。这部分人考虑到了视频内容的重要性,把关注点逐步放在了视频内容上。但这部分人可能只考虑到了一个模态的内容,考虑的并不全面。三是基于多模态数据产生推荐的,这部分人注意到了视频的多模态数据特征,从多个数据角度对视频的内容进行学习并产生推荐,但由于对模态数据的关注点不同,产生的推荐结果也不同。
本发明就是从第三个角度去思考的,一般来说短视频主要包括三部分内容:一个醒目且简要的标题,一段内容丰富的连续画面和一小段背景音乐。由此,可以认为一个短视频总共包含三个模态的特征,即:标题特征、视频内容特征和背景音乐特征。当人们判定自己对某一短视频的喜好程度的时候,通常会综合考虑自己对短视频这三个模态特征的感受。而传统的多模态特征早期融合方式都是将多模态特征按原有数据维度级联在一起。但是这样忽略了不同模态特征对于人的影响大小是不同的。本发明意在将这三个模态的特征基于影响比重融合去表示短视频,再结合手工提取的微视频和用户之间的交互特征输入到模型中去训练,并且将不同模型基于权重进行融合从而获得一个较好的推荐结果。在短视频泛滥的今天,这个课题具有极大的研究价值。
发明内容
本发明提供了一种基于短视频多模态特征的短视频推荐模型,其目的是为了解决基于短视频的多模态特征进行短视频推荐的问题。
为了达到上述目的,本发明的实施例提供了一种基于短视频多模态特征的短视频推荐模型,包括:
步骤1,对短视频标题特征,使用TF-IDF方法进行特征提取,使用PCA降维算法将短视频标题特征向量维度降维到k维;
步骤2,提取短视频内容的128维原始特征,使用PCA降维算法将短视频内容特征向量维度降维到k维;
步骤3,提取短视频背景音乐的128维原始特征,使用PCA降维算法将短视频背景音乐特征向量维度降维到k维;
步骤4,基于用户的行为数据获取到用户的评分数据矩阵;
步骤5,将获取到的用户的评分数据矩阵作为观测序列输入到隐马尔可夫模型中进行训练,获取到最优模型的观测概率矩阵,基于观测概率矩阵计算短视频不同模态特征的对短视频的影响比重;
步骤6,基于获取到的短视频不同模态特征的对短视频的影响比重,分别将获取到的短视频标题特征矩阵、短视频内容特征矩阵和短视频背景音乐特征矩阵基于影响比重的融合在一起形成短视频多模态特征融合矩阵;
步骤7,提取短视频的人脸特征、短视频和作者的热度特征和短视频的时间特征,作为手工提取特征矩阵;
步骤8,将融合之后的短视频多模态特征融合矩阵和获得的手工提取特征矩阵输入到不同的机器学习模型中去训练,并基于模型特点将模型进行融合,输出最终的推荐结果;
步骤9,使用AUC作为评价指标,评价推荐结果的可靠性。
其中,所述步骤1具体包括:
提取短视频标题特征数据,采用TF-IDF方法,TF-IDF方法包括TF和IDF,TF是词频,表示一个字词在指定文件中出现的频率,具体计算公式如下所示:
Figure BDA0002448156160000031
其中,tfi,j表示词语ti出现在文件dj中的词频;ni,j表示词语ti出现在文件dj中的次数,∑knk,j表示在文件dj中出现的所有词语的次数之和;
IDF是逆文本频率,表示一个字词在所有文件中出现的频率,具体计算公式如下所示:
Figure BDA0002448156160000032
其中,idfi表示词语ti出现在所有文件中的词频,|D|表示所有文件总数,式(2)中“:”表示包含词语ti的文件数目,计算tfi,j与idfi的乘积便可计算出一个词的TF-IDF值。
其中,所述步骤1、所述步骤2和所述步骤3具体包括:
用PCA降维算法将特征向量维度降维到k维,主要用于提取最有价值的信息,是无监督的,PCA降维算法的实现的主要步骤,如下所示:
特征标准化,即特征矩阵F中每列特征值减去该列的平均值,已知一个m×n特征矩阵F,特征矩阵F中每一列代表一个属性,计算矩阵中每个属性的均值得到有关属性的1×n均值矩阵
Figure BDA0002448156160000033
将特征矩阵F与均值矩阵
Figure BDA0002448156160000034
相减得到标准化矩阵SF,特征矩阵F、均值矩阵
Figure BDA0002448156160000035
和标准化矩阵SF分别如下所示:
Figure BDA0002448156160000041
Figure BDA0002448156160000042
Figure BDA0002448156160000043
计算协方差矩阵COV_SF,表示两个字段的相关性,具体计算公式如下所示:
Figure BDA0002448156160000044
其中,m表示样本数量,即协方差矩阵COV_SF中行数,SFT表示SF矩阵的转置矩阵;
求取协方差矩阵COV_SF的特征值和特征向量,具体计算公式如下所示:
(λE-COV_SF)X=0 (7)
其中,λ表示特征值,X表示特征向量,E表示单位矩阵;
将多模态特征数据的维度降到k维,选取式(7)计算出来的最大的k个特征值对应的特征向量,得到维度为k的特征向量矩阵DX;将获取的标准化矩阵SF与获取到的k维的特征向量矩阵DX相乘,得到最终的降维后的特征矩阵FF。
其中,所述步骤4具体包括:
将用户的行为数据映射成对应的评分,用户和短视频之间的交互行为主要有两种,一种是用户是否给某一个短视频点赞,用户给某一个短视频点赞就认为用户喜欢该短视频,用户没有给某一个短视频点赞就认为用户不喜欢该短视频,将点赞这个用户行为映射成用户给该短视频基于like的评分:like值为1,表示用户已点赞短视频;like值为0,表示用户没有点赞短视频,另一种交互行为是用户是否看完某一个短视频,其中,有些用户并没有给短视频点赞的习惯,基于此,当用户把某个短视频浏览完的时候,可以认为用户对该短视频有一定的兴趣,将用户是否浏览完某一个短视频的这个用户行为映射成用户给该短视频基于finish的评分:finish值为1,表示用户已浏览完短视频;finish值为0,表示用户没有浏览完短视频。
其中,所述步骤5具体包括:
使用隐马尔可夫模型对用户的评分数据矩阵进行训练获取到最终的观测状态转移矩阵,从而获取到短视频不同模态特征的对短视频的影响比重;
隐马尔可夫模型主要包含两个状态集合和三个概率矩阵,隐含状态S集合,无法通过直接观察获得,具体公式如下所示:
S={s1,s2,…,sn} (8)
其中,n表示隐含状态数量,隐含状态S集合中的任意一个元素si,1≤i≤n,均表示一个隐含状态;
可观测的状态集合O,在模型中与隐含状态相关联,可通过直接观测而得到,具体公式如下所示:
O={o1,o2,…,om} (9)
其中,m表示可观测的状态数量,可观测状态的数目m不一定要和隐含状态的数目n一致,可观测的状态O集合中的任意一个元素oj,1≤j≤m均表示一个可观测状态;
初始状态概率矩阵π,表示隐含状态在初始时刻的概率矩阵,具体公式如下所示:
π={p(s1),p(s2),…,p(sn)} (10)
其中,n表示隐含状态数量,p(si),1≤i≤n表示任意一个隐含状态在初始时刻的概率;
隐含状态转移概率矩阵A,具体公式如下所示:
Figure BDA0002448156160000051
其中,aij=P(It+1=sj|It=si),1≤i,j≤n,I表示隐含状态序列,It表示t时刻的隐含状态,aij表示在t时刻,隐含状态为si的条件下,在t+1时刻是隐含状态sj的概率,n表示隐含状态的数目;
观测状态转移概率矩阵B,具体公式如下所示:
Figure BDA0002448156160000061
其中,bij=P(oj|It=si),1≤i≤n,1≤j≤m,表示在t时刻,隐含状态为si的条件下,可观测状态是oj的概率,m表示可观测状态的数目,n表示隐含状态的数目,可用λ=(A,B,π)三元组来表示一个隐马尔可夫模型,调整这些参数使得可观测序列的概率最大,反过来也可以利用可观测序列来计算模型的参数。
其中,所述步骤5还包括:
基于短视频标题特征、短视频内容特征和短视频背景音乐特征这三个隐含特征去训练的,即n=3,可观测的状态分为两种;一种是喜欢和不喜欢,即like和unLike;一种是浏览完和没有浏览完,即finish和unFinish,观测状态只有两个,即m=2,分别用title data、video data和audio data表示短视频标题特征、短视频内容特征和短视频背景音乐特征,由此可生成两个观测状态集合O(1)和O(2),隐含状态S集合O(1)与可观测状态集合O(2),如下所示:
S={title data,video data,audio data} (13)
O(1)={like,unLike} (14)
O(2)={finish,unFinish} (15)
分别以获取的基于like的用户评分矩阵和基于finish的用户评分矩阵作为可观测序列输入到隐马尔可夫模型中去训练,分别获取到基于like和finish的短视频多模态特征的观测状态转移概率矩阵,样式如下所示:
Figure BDA0002448156160000062
Figure BDA0002448156160000063
其中,Blike矩阵中P(like|title data)和P(unLike|title data)分别表示用户喜欢和不喜欢短视频标题模态数据的观测概率;Bfinish矩阵中P(finish|title data)和P(unFinish|title data)分别表示用户浏览完和没有浏览完短视频标题模态数据的观测概率,除此之外Blike矩阵和Bfinish矩阵中剩余值的含义以此类推;
根据计算出来的观测状态转移概率矩阵Blike和Bfinish,计算出来在同种观测状态下其它模态数据和随机确定一个模态数据的比值;只需计算用户可能会喜欢的短视频的多模态特征对短视频的影响比重,因此计算在喜欢和已浏览完的状态下其它模态和短视频标题模态的比值,具体公式如下所示:
Figure BDA0002448156160000071
Figure BDA0002448156160000072
Figure BDA0002448156160000073
Figure BDA0002448156160000074
其中,αlike表示在喜欢的状态下短视频内容特征和短视频标题特征影响比值,βlike表示在喜欢的状态下短视频背景音乐特征和短视频标题特征影响比值,αfinish表示在已浏览完的状态下短视频内容特征和短视频标题特征影响比值;βfinish表示在已浏览完的状态下短视频背景音乐特征和短视频标题特征影响比值。
其中,所述步骤6具体包括:
依据得到的αlike、βlike、αfinish和βfinish这几个比值将提取到的k维的短视频标题特征向量矩阵、短视频内容特征向量矩阵和短视频背景音乐特征向量矩阵融合在一起,具体融合方式分为以下2步:
最初提取到的短视频的多模态特征矩阵都是k维的,基于获取到的比值,首先确定短视频标题模态特征矩阵、短视频内容模态特征矩阵和短视频背景音乐模态特征矩阵的最终维度,用ti表示最终确定的短视频标题模态特征矩阵的维度,用vi表示最终确定的短视频内容模态特征矩阵的维度,用ai表示确定的短视频背景音乐模态特征矩阵的维度,其中i∈(like,finish),需满足的条件如下所示:
ti≤k,其中i∈(like,finish)
vi≤k,且vi=αiti,其中I∈(like,finish)
ai≤k,且ai=βiti,其中i∈(like,finiSH)
确定了短视频标题模态特征矩阵、短视频内容模态特征矩阵和短视频背景音乐模态特征矩阵的最终维度,使用PCA降维算法分别将短视频标题模态特征矩阵从k维降到Ti维,将短视频内容模态特征矩阵从k维降到vi维,将短视频背景音乐模态特征矩阵从k维降到ai维;
将降到对应维度的短视频多模态特征矩阵级联在一起表示短视频,最终得到短视频多模态特征融合矩阵,短视频多模态特征融合矩阵最终的维度是:Ti+vi+ai,其中,i∈(like,finisH)。
其中,所述步骤7具体包括:
依据短视频数据集的数据特点,计算短视频中的人脸面积,人脸的平均美丽度评分以及每个人脸和平均人脸美丽度的差值,以此作为短视频人脸特征,从短视频浏览热度的角度考虑,给短视频的浏览数量和短视频作者的出现数量进行了一个热度排序,依此构造了短视频和作者的热度矩阵,为了防止矩阵维度过大,使用PCA降维算法将维度降到了500维,从时间的角度考虑,将获取到的作者发布微视频的时间戳信息转换成年、月、日、时和分的时间特征,依此构造了短视频的时间特征矩阵。
其中,所述步骤8具体包括:
将依据获取到的短视频多模态特征融合矩阵和获取到的手工提取特征矩阵,分别输入到xDeepFM模型和LGB模型去学习训练,依据模型输出结果选用合适的模型进行融合,从而获得更精确的的推荐结果,xDeepFM模型融合了神经网络和FM模型,具体计算公式如下所示:
Figure BDA0002448156160000081
其中,σ是Sigmoid函数,是为了将输入值映射到0,1之间,a是原始特征,
Figure BDA0002448156160000082
p+分别是DNN和CIN的输出,W*和B分别代表对应的权重和偏置值,是模型需要学习的参数;
σ的具体计算公式如下所示:
Figure BDA0002448156160000091
LGB模型是一种梯度提升决策树模型,是一种迭代的决策树算法,由多颗决策树组成,每一颗决策树也可以被叫做基学习器或子模型,具体公式如下所示:
Figure BDA0002448156160000092
其中,fm(x)表示基学习器,M表示基学习器的个数,学习过程是一个一个的去增加子模型,并在过程中损失函数不断减小,具体公式如下所示:
Fm(x)=Fm-1(x)+fm(x) (25)
L(Fm(x),y)<L(Fm-1(x),y) (26)
其中,x表示模型的输入向量,y表示用户的真实评分数据,Fm(x)表示经过模型训练预测的评分数据;L符号表示计算经模型预测的评分数据和用户的真实评分数据之间的偏差,即损失函数;
依据这些模型本身的特点以及初步的实验结果,将xDeepFM模型和LGB模型基于权重进行融合,模型融合的想法是想要同时利用到不同模型的优点,让融合的模型充分发挥各个单个模型的优点,融合公式如下所示:
Figure BDA0002448156160000093
其中,wi表示融合的权重,modeli(x)表示融合的子模型,n表示融合模型的数量,只涉及到xDeepFM模型和LGB模型这两个模型的融合,通过实验确定了最优的融合权重0.3xDeepFM和0.7LGB。
其中,所述步骤9具体包括:
使用AUC作为评价指标,具体计算公式如下所示:
Figure BDA0002448156160000094
其中,M表示正样本的个数,N表示负样本的个数,ranki表示第i个样本的序号,∑i∈positiveClassranki表示所有正样本的序号和。
本发明的上述方案有如下的有益效果:
本发明的上述实施例所述的基于短视频多模态特征的短视频推荐模型,考虑到不同模态的特征数据对用户产生的用户行为的影响效果是不同的,并利用隐马尔可夫模型去学习短视频的不同模态数据对于用户的影响比重,基于影响比重将短视频的多模态特征映射到统一向量空间进行融合,获得用多模态数据特征表示的短视频特征数据,基于特征数据能获取到更准确的短视频推荐结果,为了更好的优化推荐结果,手工提取补充了一部分特征和短视频多模态特征一起输入到模型中,基于不同模型的训练输出结果,将xDeepFM模型和LGB模型基于最优权重的融合,从而获取到更加精确的推荐结果。
附图说明
图1为本发明的流程图;
图2为本发明的最优模型的观测矩阵图(1);
图3为本发明的最优模型的观测矩阵图(2);
图4为本发明的推荐结果比较示意图;
图5为本发明的AUC评分示意图(1);
图6为本发明的AUC评分示意图(2)。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有的基于短视频的多模态特征进行短视频推荐的问题,提供了一种基于短视频多模态特征的短视频推荐模型。
如图1至图6所示,本发明的实施例提供了一种基于短视频多模态特征的短视频推荐模型,包括:步骤1,对短视频标题特征,使用TF-IDF方法进行特征提取,使用PCA降维算法将短视频标题特征向量维度降维到k维;步骤2,提取短视频内容的128维原始特征,使用PCA降维算法将短视频内容特征向量维度降维到k维;步骤3,提取短视频背景音乐的128维原始特征,使用PCA降维算法将短视频背景音乐特征向量维度降维到k维;步骤4,基于用户的行为数据获取到用户的评分数据矩阵;步骤5,将获取到的用户的评分数据矩阵作为观测序列输入到隐马尔可夫模型中进行训练,获取到最优模型的观测概率矩阵,基于观测概率矩阵计算短视频不同模态特征的对短视频的影响比重;步骤6,基于获取到的短视频不同模态特征的对短视频的影响比重,分别将获取到的短视频标题特征矩阵、短视频内容特征矩阵和短视频背景音乐特征矩阵基于影响比重的融合在一起形成短视频多模态特征融合矩阵;步骤7,提取短视频的人脸特征、短视频和作者的热度特征和短视频的时间特征,作为手工提取特征矩阵;步骤8,将融合之后的短视频多模态特征融合矩阵和获得的手工提取特征矩阵输入到不同的机器学习模型中去训练,并基于模型特点将模型进行融合,输出最终的推荐结果;步骤9,使用AUC作为评价指标,评价推荐结果的可靠性。
本发明的上述实施例所述的基于短视频多模态特征的短视频推荐模型,短视频行业是近几年才活跃起来的,而且短视频内容数据可能会依据潮流、明星等因素时刻变化的,网上很少有公开可用的数据集。主要是针对ICME2019抖音短视频数据集中数据文件特点进行多模态特征融合研究,该数据集包含千万级数据信息。确定了提取的短视频标题特征数据、短视频内容特征树和短视频背景音乐特征的维度为32维,该数据集中包含两种用户评分数据:一个是用户是否喜欢该短视频,即like;另一个是用户是否浏览完该短视频,即finish。依据这两种用户行为分别提取出两个用户评分数据矩阵,然后分别将这两个用户评分数据矩阵输入到隐马尔科夫模型中去训练。隐含状态分别是:title data、video data和audio data,分别表示短视频标题特征数据、短视频内容特征树和短视频背景音乐特征。观测状态包含两类:一类是like和unLike;一类是finish和unFinish,生成的最优模型的观测矩阵分别如图2和图3所示。
基于图2的观测概率计算出不同模态之间的比重关系:
Figure BDA0002448156160000111
Figure BDA0002448156160000112
基于图3的观测概率计算出不同模态之间的比重关系:
Figure BDA0002448156160000113
Figure BDA0002448156160000114
对于用户是否like一个短视频的多模态特征具体融合方法是:先确定短视频标题特征的维度为16维的基础上确定其它特征的维度。即用PCA降维算法将title data从32维降到16维,则video data需要用PCA降维算法从32维降到26维,audio data保持32维。最终获得16维的短视频标题特征矩阵、26维的短视频内容特征矩阵和32维的短视频背景音乐特征矩阵。然后将降维后的3种模态的特征数据级联在一起形成一个74维的短视频多模态特征矩阵。
对于用户是否finish一个短视频的多模态特征具体融合方法是:先确定短视频标题特征的维度为26维的基础上确定其它特征的维度。即用PCA降维算法将title data从32维降到16维,则video data需要用PCA降维算法从32维降到26维,而audio data需要用PCA降维算法从32维降到24维。最终的获得16维的短视频标题特征矩阵、26维的短视频内容特征矩阵和24维的短视频背景音乐特征矩阵。然后将降维后的3种模态的特征数据拼接在一起形成一个66维的短视频多模态特征矩阵。
然后将74维的短视频多模态特征矩阵和66维的短视频多模态特征矩阵分别输入到模型中去训练,从而得到最终的预测结果,用AUC对推荐结果进行评价,最终的评分以0.7*finish+0.3*like计算。由图4可以看到在三种机器学习模型中,融合后的特征相对原始的特征推荐结果均有一定程度的提升。
为了提升推荐结果,后面将手工提取的特征分别和前面获取到的两个短视频多模态特征矩阵输入到模型中去训练,最终的评分以0.7*finish+0.3*like计算,结果如图5所示。可以看到相对于图4中对应模型的跑出来的数据来说,图5中的AUC评分有了小部分的提升。
最后,将图5中使用的这两个模型,通过实验获取到了最优的融合权重0.3和0.7,将基于最优融合权重的模型融合方式和其它两种模型融合方式做了性能比较,AUC评分如图6所示,由图中数据可以得知,基于最优权重模型融合的效果比其他两种融合方式的优化要好很多,且相对于图5中的单个模型推荐效果来说,融合之后的模型对推荐结果也产生了进一步的优化,由此,确定了最终的基于短视频多模态特征的短视频推荐模型如图1所示。
其中,所述步骤1具体包括:提取短视频标题特征数据,采用TF-IDF方法,TF-IDF方法包括TF和IDF,TF是词频,表示一个字词在指定文件中出现的频率,具体计算公式如下所示:
Figure BDA0002448156160000131
其中,tfi,j表示词语ti出现在文件dj中的词频;ni,j表示词语ti出现在文件dj中的次数,∑knk,j表示在文件dj中出现的所有词语的次数之和;
IDF是逆文本频率,表示一个字词在所有文件中出现的频率,具体计算公式如下所示:
Figure BDA0002448156160000132
其中,idfi表示词语ti出现在所有文件中的词频,|D|表示所有文件总数,式(2)中“:”表示包含词语ti的文件数目,计算tfi,j与idfi的乘积便可计算出一个词的TF-IDF值。
其中,所述步骤1、所述步骤2和所述步骤3具体包括:用PCA降维算法将特征向量维度降维到k维,主要用于提取最有价值的信息,是无监督的,PCA降维算法的实现的主要步骤,如下所示:
特征标准化,即特征矩阵F中每列特征值减去该列的平均值,已知一个m×n特征矩阵F,特征矩阵F中每一列代表一个属性,计算矩阵中每个属性的均值得到有关属性的1×n均值矩阵
Figure BDA0002448156160000133
将特征矩阵F与均值矩阵
Figure BDA0002448156160000134
相减得到标准化矩阵SF,特征矩阵F、均值矩阵
Figure BDA0002448156160000135
和标准化矩阵SF分别如下所示:
Figure BDA0002448156160000136
Figure BDA0002448156160000137
Figure BDA0002448156160000138
计算协方差矩阵COV_SF,表示两个字段的相关性,具体计算公式如下所示:
Figure BDA0002448156160000139
其中,m表示样本数量,即协方差矩阵COV_SF中行数,SFT表示SF矩阵的转置矩阵;
求取协方差矩阵COV_SF的特征值和特征向量,具体计算公式如下所示:
(λE-COV_SF)X=0 (7)
其中,λ表示特征值,X表示特征向量,E表示单位矩阵;
将多模态特征数据的维度降到k维,选取式(7)计算出来的最大的k个特征值对应的特征向量,得到维度为k的特征向量矩阵DX;将获取的标准化矩阵SF与获取到的k维的特征向量矩阵DX相乘,得到最终的降维后的特征矩阵FF。
其中,所述步骤4具体包括:将用户的行为数据映射成对应的评分,用户和短视频之间的交互行为主要有两种,一种是用户是否给某一个短视频点赞,用户给某一个短视频点赞就认为用户喜欢该短视频,用户没有给某一个短视频点赞就认为用户不喜欢该短视频,将点赞这个用户行为映射成用户给该短视频基于like的评分:like值为1,表示用户已点赞短视频;like值为0,表示用户没有点赞短视频,另一种交互行为是用户是否看完某一个短视频,其中,有些用户并没有给短视频点赞的习惯,基于此,当用户把某个短视频浏览完的时候,可以认为用户对该短视频有一定的兴趣,将用户是否浏览完某一个短视频的这个用户行为映射成用户给该短视频基于finish的评分:finish值为1,表示用户已浏览完短视频;finish值为0,表示用户没有浏览完短视频。
其中,所述步骤5具体包括:使用隐马尔可夫模型对用户的评分数据矩阵进行训练获取到最终的观测状态转移矩阵,从而获取到短视频不同模态特征的对短视频的影响比重;
隐马尔可夫模型主要包含两个状态集合和三个概率矩阵,隐含状态S集合,无法通过直接观察获得,具体公式如下所示:
S={s1,s2,…,sn} (8)
其中,n表示隐含状态数量,隐含状态S集合中的任意一个元素si,1≤i≤n,均表示一个隐含状态;
可观测的状态集合O,在模型中与隐含状态相关联,可通过直接观测而得到,具体公式如下所示:
O={o1,o2,…,om} (9)
其中,m表示可观测的状态数量,可观测状态的数目m不一定要和隐含状态的数目n一致,可观测的状态O集合中的任意一个元素oj,1≤j≤m均表示一个可观测状态;
初始状态概率矩阵π,表示隐含状态在初始时刻的概率矩阵,具体公式如下所示:
π={p(s1),p(s2),…,p(sn)} (10)
其中,n表示隐含状态数量,p(si),1≤i≤n表示任意一个隐含状态在初始时刻的概率;
隐含状态转移概率矩阵A,具体公式如下所示:
Figure BDA0002448156160000151
其中,aij=P(It+1=sj|It=si),1≤i,j≤n,I表示隐含状态序列,It表示t时刻的隐含状态,aij表示在t时刻,隐含状态为si的条件下,在t+1时刻是隐含状态sj的概率,n表示隐含状态的数目;
观测状态转移概率矩阵B,具体公式如下所示:
Figure BDA0002448156160000152
其中,bij=P(oj|It=si),1≤i≤n,1≤j≤m,表示在t时刻,隐含状态为si的条件下,可观测状态是oj的概率,m表示可观测状态的数目,n表示隐含状态的数目,可用λ=(A,B,π)三元组来表示一个隐马尔可夫模型,调整这些参数使得可观测序列的概率最大,反过来也可以利用可观测序列来计算模型的参数。
其中,所述步骤5还包括:基于短视频标题特征、短视频内容特征和短视频背景音乐特征这三个隐含特征去训练的,即n=3,可观测的状态分为两种;一种是喜欢和不喜欢,即like和unLike;一种是浏览完和没有浏览完,即finish和unFinish,观测状态只有两个,即m=2,分别用title data、video data和audio data表示短视频标题特征、短视频内容特征和短视频背景音乐特征,由此可生成两个观测状态集合O(1)和O(2),隐含状态S集合O(1)与可观测状态集合O(2),如下所示:
S={title data,video data,audio data} (13)
O(1)={like,unLike} (14)
O(2)={finish,unFinish} (15)
分别以获取的基于like的用户评分矩阵和基于finish的用户评分矩阵作为可观测序列输入到隐马尔可夫模型中去训练,分别获取到基于like和finish的短视频多模态特征的观测状态转移概率矩阵,样式如下所示:
Figure BDA0002448156160000161
Figure BDA0002448156160000162
其中,Blike矩阵中P(like|title data)和P(unLike|title data)分别表示用户喜欢和不喜欢短视频标题模态数据的观测概率;Bfinish矩阵中P(finish|title data)和P(unFinish|title data)分别表示用户浏览完和没有浏览完短视频标题模态数据的观测概率,除此之外Blike矩阵和Bfinish矩阵中剩余值的含义以此类推;
根据计算出来的观测状态转移概率矩阵Blike和Bfinish,计算出来在同种观测状态下其它模态数据和随机确定一个模态数据的比值;只需计算用户可能会喜欢的短视频的多模态特征对短视频的影响比重,因此计算在喜欢和已浏览完的状态下其它模态和短视频标题模态的比值,具体公式如下所示:
Figure BDA0002448156160000163
Figure BDA0002448156160000164
Figure BDA0002448156160000165
Figure BDA0002448156160000171
其中,αlike表示在喜欢的状态下短视频内容特征和短视频标题特征影响比值,βlike表示在喜欢的状态下短视频背景音乐特征和短视频标题特征影响比值,αfinish表示在已浏览完的状态下短视频内容特征和短视频标题特征影响比值;βfinish表示在已浏览完的状态下短视频背景音乐特征和短视频标题特征影响比值。
其中,所述步骤6具体包括:依据得到的αlike、βlike、αfinish和βfinish这几个比值将提取到的k维的短视频标题特征向量矩阵、短视频内容特征向量矩阵和短视频背景音乐特征向量矩阵融合在一起,具体融合方式分为以下2步:
最初提取到的短视频的多模态特征矩阵都是k维的,基于获取到的比值,首先确定短视频标题模态特征矩阵、短视频内容模态特征矩阵和短视频背景音乐模态特征矩阵的最终维度,用ti表示最终确定的短视频标题模态特征矩阵的维度,用vi表示最终确定的短视频内容模态特征矩阵的维度,用ai表示确定的短视频背景音乐模态特征矩阵的维度,其中i∈(like,finish),需满足的条件如下所示:
ti≤k,其中i∈(like,finish)
vi≤k,且vi=αiti,其中I∈(like,finish)
ai≤k,且ai=βiti,其中i∈(like,finish)
确定了短视频标题模态特征矩阵、短视频内容模态特征矩阵和短视频背景音乐模态特征矩阵的最终维度,使用PCA降维算法分别将短视频标题模态特征矩阵从k维降到ti维,将短视频内容模态特征矩阵从k维降到vi维,将短视频背景音乐模态特征矩阵从k维降到ai维;
将降到对应维度的短视频多模态特征矩阵级联在一起表示短视频,最终得到短视频多模态特征融合矩阵,短视频多模态特征融合矩阵最终的维度是:ti+vi+ai,其中,i∈(like,finish)。
其中,所述步骤7具体包括:依据短视频数据集的数据特点,计算短视频中的人脸面积,人脸的平均美丽度评分以及每个人脸和平均人脸美丽度的差值,以此作为短视频人脸特征,从短视频浏览热度的角度考虑,给短视频的浏览数量和短视频作者的出现数量进行了一个热度排序,依此构造了短视频和作者的热度矩阵,为了防止矩阵维度过大,使用PCA降维算法将维度降到了500维,从时间的角度考虑,将获取到的作者发布微视频的时间戳信息转换成年、月、日、时和分的时间特征,依此构造了短视频的时间特征矩阵。
其中,所述步骤8具体包括:将依据获取到的短视频多模态特征融合矩阵和获取到的手工提取特征矩阵,分别输入到xDeepFM模型和LGB模型去学习训练,依据模型输出结果选用合适的模型进行融合,从而获得更精确的的推荐结果,xDeepFM模型融合了神经网络和FM模型,具体计算公式如下所示:
Figure BDA0002448156160000181
其中,σ是Sigmoid函数,是为了将输入值映射到0,1之间,a是原始特征,
Figure BDA0002448156160000182
p+分别是DNN和CIN的输出,w*和b分别代表对应的权重和偏置值,是模型需要学习的参数;
σ的具体计算公式如下所示:
Figure BDA0002448156160000183
LGB模型是一种梯度提升决策树模型,是一种迭代的决策树算法,由多颗决策树组成,每一颗决策树也可以被叫做基学习器或子模型,具体公式如下所示:
Figure BDA0002448156160000184
其中,fm(x)表示基学习器,M表示基学习器的个数,学习过程是一个一个的去增加子模型,并在过程中损失函数不断减小,具体公式如下所示:
Fm(x)=Fm-1(x)+fm(x) (25)
L(Fm(x),y)<L(Fm-1(x),y) (26)
其中,x表示模型的输入向量,y表示用户的真实评分数据,Fm(x)表示经过模型训练预测的评分数据;L符号表示计算经模型预测的评分数据和用户的真实评分数据之间的偏差,即损失函数;
依据这些模型本身的特点以及初步的实验结果,将xDeepFM模型和LGB模型基于权重进行融合,模型融合的想法是想要同时利用到不同模型的优点,让融合的模型充分发挥各个单个模型的优点,融合公式如下所示:
Figure BDA0002448156160000191
其中,wi表示融合的权重,modeli(x)表示融合的子模型,n表示融合模型的数量,只涉及到xDeepFM模型和LGB模型这两个模型的融合,通过实验确定了最优的融合权重0.3xDeepFM和0.7LGB。
其中,所述步骤9具体包括:使用AUC作为评价指标,具体计算公式如下所示:
Figure BDA0002448156160000192
其中,M表示正样本的个数,N表示负样本的个数,ranki表示第i个样本的序号,∑i∈positiveClassranki表示所有正样本的序号和。
本发明的上述实施例所述的基于短视频多模态特征的短视频推荐模型,分析了短视频的多模态特征,考虑到短视频不同模态的特征对于用户的影响程度不同,首先,基于用户不同行为产生的用户评分数据,用隐马尔可夫模型学习到了最优的观测概率,基于观测概率,计算出了短视频不同模态之间的比值关系,提出了一种基于影响比重融合短视频多模态特征的融合算法,然后,将基于影响比重融合之后的短视频多模态矩阵和手工提取特征输入到模型中去训练,并将xDeepFM模型和LGB模型这两个模型的输出结果以0.3和0.7的权重进行融合,最后,获取到最终的推荐结果。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于短视频多模态特征的短视频推荐模型,其特征在于,包括:
步骤1,对短视频标题特征,使用TF-IDF方法进行特征提取,使用PCA降维算法将短视频标题特征向量维度降维到k维;
步骤2,提取短视频内容的128维原始特征,使用PCA降维算法将短视频内容特征向量维度降维到k维;
步骤3,提取短视频背景音乐的128维原始特征,使用PCA降维算法将短视频背景音乐特征向量维度降维到k维;
步骤4,基于用户的行为数据获取到用户的评分数据矩阵;
步骤5,将获取到的用户的评分数据矩阵作为观测序列输入到隐马尔可夫模型中进行训练,获取到最优模型的观测概率矩阵,基于观测概率矩阵计算短视频不同模态特征的对短视频的影响比重;
步骤6,基于获取到的短视频不同模态特征的对短视频的影响比重,分别将获取到的短视频标题特征矩阵、短视频内容特征矩阵和短视频背景音乐特征矩阵基于影响比重的融合在一起形成短视频多模态特征融合矩阵;
步骤7,提取短视频的人脸特征、短视频和作者的热度特征和短视频的时间特征,作为手工提取特征矩阵;
步骤8,将融合之后的短视频多模态特征融合矩阵和获得的手工提取特征矩阵输入到不同的机器学习模型中去训练,并基于模型特点将模型进行融合,输出最终的推荐结果;
步骤9,使用AUC作为评价指标,评价推荐结果的可靠性。
2.根据权利要求1所述的基于短视频多模态特征的短视频推荐模型,其特征在于,所述步骤1具体包括:
提取短视频标题特征数据,采用TF-IDF方法,TF-IDF方法包括TF和IDF,TF是词频,表示一个字词在指定文件中出现的频率,具体计算公式如下所示:
Figure FDA0002448156150000011
其中,tfi,j表示词语ti出现在文件dj中的词频;ni,j表示词语ti出现在文件dj中的次数,∑knk,j表示在文件dj中出现的所有词语的次数之和;
IDF是逆文本频率,表示一个字词在所有文件中出现的频率,具体计算公式如下所示:
Figure FDA0002448156150000021
其中,idfi表示词语ti出现在所有文件中的词频,|D|表示所有文件总数,式(2)中“:”表示包含词语ti的文件数目,计算tfi,j与idfi的乘积便可计算出一个词的TF-IDF值。
3.根据权利要求2所述的基于短视频多模态特征的短视频推荐模型,其特征在于,所述步骤1、所述步骤2和所述步骤3具体包括:
用PCA降维算法将特征向量维度降维到k维,主要用于提取最有价值的信息,是无监督的,PCA降维算法的实现的主要步骤,如下所示:
特征标准化,即特征矩阵F中每列特征值减去该列的平均值,已知一个m×n特征矩阵F,特征矩阵F中每一列代表一个属性,计算矩阵中每个属性的均值得到有关属性的1×n均值矩阵
Figure FDA0002448156150000022
将特征矩阵F与均值矩阵
Figure FDA0002448156150000023
相减得到标准化矩阵SF,特征矩阵F、均值矩阵
Figure FDA0002448156150000024
和标准化矩阵SF分别如下所示:
Figure FDA0002448156150000025
Figure FDA0002448156150000026
Figure FDA0002448156150000027
计算协方差矩阵COV_SF,表示两个字段的相关性,具体计算公式如下所示:
Figure FDA0002448156150000028
其中,m表示样本数量,即协方差矩阵COV_SF中行数,SFT表示SF矩阵的转置矩阵;
求取协方差矩阵COV_SF的特征值和特征向量,具体计算公式如下所示:
(λE-COV_SF)X=0 (7)
其中,λ表示特征值,X表示特征向量,E表示单位矩阵;
将多模态特征数据的维度降到k维,选取式(7)计算出来的最大的k个特征值对应的特征向量,得到维度为k的特征向量矩阵DX;将获取的标准化矩阵SF与获取到的k维的特征向量矩阵DX相乘,得到最终的降维后的特征矩阵FF。
4.根据权利要求3所述的基于短视频多模态特征的短视频推荐模型,其特征在于,所述步骤4具体包括:
将用户的行为数据映射成对应的评分,用户和短视频之间的交互行为主要有两种,一种是用户是否给某一个短视频点赞,用户给某一个短视频点赞就认为用户喜欢该短视频,用户没有给某一个短视频点赞就认为用户不喜欢该短视频,将点赞这个用户行为映射成用户给该短视频基于like的评分:like值为1,表示用户已点赞短视频;like值为0,表示用户没有点赞短视频,另一种交互行为是用户是否看完某一个短视频,其中,有些用户并没有给短视频点赞的习惯,基于此,当用户把某个短视频浏览完的时候,可以认为用户对该短视频有一定的兴趣,将用户是否浏览完某一个短视频的这个用户行为映射成用户给该短视频基于finish的评分:finish值为1,表示用户已浏览完短视频;finish值为0,表示用户没有浏览完短视频。
5.根据权利要求4所述的基于短视频多模态特征的短视频推荐模型,其特征在于,所述步骤5具体包括:
使用隐马尔可夫模型对用户的评分数据矩阵进行训练获取到最终的观测状态转移矩阵,从而获取到短视频不同模态特征的对短视频的影响比重;
隐马尔可夫模型主要包含两个状态集合和三个概率矩阵,隐含状态S集合,无法通过直接观察获得,具体公式如下所示:
S={s1,s2,...,sn} (8)
其中,n表示隐含状态数量,隐含状态S集合中的任意一个元素si,1≤i≤n,均表示一个隐含状态;
可观测的状态集合O,在模型中与隐含状态相关联,可通过直接观测而得到,具体公式如下所示:
O={o1,o2,...,om} (9)
其中,m表示可观测的状态数量,可观测状态的数目m不一定要和隐含状态的数目n一致,可观测的状态O集合中的任意一个元素oj,1≤j≤m均表示一个可观测状态;
初始状态概率矩阵π,表示隐含状态在初始时刻的概率矩阵,具体公式如下所示:
π={p(s1),p(s2),...,p(sn)} (10)
其中,n表示隐含状态数量,p(si),1≤i≤n表示任意一个隐含状态在初始时刻的概率;
隐含状态转移概率矩阵A,具体公式如下所示:
Figure FDA0002448156150000041
其中,aij=P(It+1=sj|It=si),1≤i,j≤n,I表示隐含状态序列,It表示t时刻的隐含状态,aij表示在t时刻,隐含状态为si的条件下,在t+1时刻是隐含状态sj的概率,n表示隐含状态的数目;
观测状态转移概率矩阵B,具体公式如下所示:
Figure FDA0002448156150000042
其中,bij=P(oj|It=si),1≤i≤n,1≤j≤m,表示在t时刻,隐含状态为si的条件下,可观测状态是oj的概率,m表示可观测状态的数目,n表示隐含状态的数目,可用λ=(A,B,π)三元组来表示一个隐马尔可夫模型,调整这些参数使得可观测序列的概率最大,反过来也可以利用可观测序列来计算模型的参数。
6.根据权利要求5所述的基于短视频多模态特征的短视频推荐模型,其特征在于,所述步骤5还包括:
基于短视频标题特征、短视频内容特征和短视频背景音乐特征这三个隐含特征去训练的,即n=3,可观测的状态分为两种;一种是喜欢和不喜欢,即like和unLike;一种是浏览完和没有浏览完,即finish和unFinish,观测状态只有两个,即m=2,分别用title data、video data和audio data表示短视频标题特征、短视频内容特征和短视频背景音乐特征,由此可生成两个观测状态集合O(1)和O(2),隐含状态S集合O(1)与可观测状态集合O(2),如下所示:
S={title data,video data,audio data} (13)
O(1)={like,unLike} (14)
O(2)={finish,unFinish} (15)
分别以获取的基于like的用户评分矩阵和基于finish的用户评分矩阵作为可观测序列输入到隐马尔可夫模型中去训练,分别获取到基于like和finish的短视频多模态特征的观测状态转移概率矩阵,样式如下所示;
Figure FDA0002448156150000051
Figure FDA0002448156150000052
其中,Blike矩阵中P(like|title data)和P(unLike|title data)分别表示用户喜欢和不喜欢短视频标题模态数据的观测概率;Bfinish矩阵中P(finish|title data)和P(unFinish|title data)分别表示用户浏览完和没有浏览完短视频标题模态数据的观测概率,除此之外Blike矩阵和Bfinish矩阵中剩余值的含义以此类推;
根据计算出来的观测状态转移概率矩阵Blike和Bfinish,计算出来在同种观测状态下其它模态数据和随机确定一个模态数据的比值;只需计算用户可能会喜欢的短视频的多模态特征对短视频的影响比重,因此计算在喜欢和已浏览完的状态下其它模态和短视频标题模态的比值,具体公式如下所示:
Figure FDA0002448156150000053
Figure FDA0002448156150000054
Figure FDA0002448156150000061
Figure FDA0002448156150000062
其中,αlike表示在喜欢的状态下短视频内容特征和短视频标题特征影响比值,βlike表示在喜欢的状态下短视频背景音乐特征和短视频标题特征影响比值,αfinish表示在已浏览完的状态下短视频内容特征和短视频标题特征影响比值;βfinish表示在已浏览完的状态下短视频背景音乐特征和短视频标题特征影响比值。
7.根据权利要求4所述的基于短视频多模态特征的短视频推荐模型,其特征在于,所述步骤6具体包括:
依据得到的αlike、βlike、αfinish和βfinish这几个比值将提取到的k维的短视频标题特征向量矩阵、短视频内容特征向量矩阵和短视频背景音乐特征向量矩阵融合在一起,具体融合方式分为以下2步:
最初提取到的短视频的多模态特征矩阵都是k维的,基于获取到的比值,首先确定短视频标题模态特征矩阵、短视频内容模态特征矩阵和短视频背景音乐模态特征矩阵的最终维度,用ti表示最终确定的短视频标题模态特征矩阵的维度,用vi表示最终确定的短视频内容模态特征矩阵的维度,用ai表示确定的短视频背景音乐模态特征矩阵的维度,其中i∈(like,finish),需满足的条件如下所示:
ti≤k,其中i∈(like,finish)
vi≤k,且vi=αiti,其中I∈(like,finish)
ai≤k,且ai=βiti,其中i∈(like,finish)
确定了短视频标题模态特征矩阵、短视频内容模态特征矩阵和短视频背景音乐模态特征矩阵的最终维度,使用PCA降维算法分别将短视频标题模态特征矩阵从k维降到ti维,将短视频内容模态特征矩阵从k维降到vi维,将短视频背景音乐模态特征矩阵从k维降到ai维;
将降到对应维度的短视频多模态特征矩阵级联在一起表示短视频,最终得到短视频多模态特征融合矩阵,短视频多模态特征融合矩阵最终的维度是:ti+vi+ai,其中,i∈(like,finish)。
8.根据权利要求7所述的基于短视频多模态特征的短视频推荐模型,其特征在于,所述步骤7具体包括:
依据短视频数据集的数据特点,计算短视频中的人脸面积,人脸的平均美丽度评分以及每个人脸和平均人脸美丽度的差值,以此作为短视频人脸特征,从短视频浏览热度的角度考虑,给短视频的浏览数量和短视频作者的出现数量进行了一个热度排序,依此构造了短视频和作者的热度矩阵,为了防止矩阵维度过大,使用PCA降维算法将维度降到了500维,从时间的角度考虑,将获取到的作者发布微视频的时间戳信息转换成年、月、日、时和分的时间特征,依此构造了短视频的时间特征矩阵。
9.根据权利要求8所述的基于短视频多模态特征的短视频推荐模型,其特征在于,所述步骤8具体包括:
将依据获取到的短视频多模态特征融合矩阵和获取到的手工提取特征矩阵,分别输入到xDeepFM模型和LGB模型去学习训练,依据模型输出结果选用合适的模型进行融合,从而获得更精确的的推荐结果,xDeepFM模型融合了神经网络和FM模型,具体计算公式如下所示:
Figure FDA0002448156150000071
其中,σ是Sigmoid函数,是为了将输入值映射到0,1之间,a是原始特征,
Figure FDA0002448156150000072
p+分别是DNN和CIN的输出,w*和b分别代表对应的权重和偏置值,是模型需要学习的参数;
σ的具体计算公式如下所示:
Figure FDA0002448156150000073
LGB模型是一种梯度提升决策树模型,是一种迭代的决策树算法,由多颗决策树组成,每一颗决策树也可以被叫做基学习器或子模型,具体公式如下所示:
Figure FDA0002448156150000074
其中,fm(x)表示基学习器,M表示基学习器的个数,学习过程是一个一个的去增加子模型,并在过程中损失函数不断减小,具体公式如下所示:
Fm(x)=Fm-1(x)+fm(x) (25)
L(Fm(x),y)<L(Fm-1(x),y) (26)
其中,x表示模型的输入向量,y表示用户的真实评分数据,Fm(x)表示经过模型训练预测的评分数据;L符号表示计算经模型预测的评分数据和用户的真实评分数据之间的偏差,即损失函数;
依据这些模型本身的特点以及初步的实验结果,将xDeepFM模型和LGB模型基于权重进行融合,模型融合的想法是想要同时利用到不同模型的优点,让融合的模型充分发挥各个单个模型的优点,融合公式如下所示:
Figure FDA0002448156150000081
其中,wi表示融合的权重,modeli(x)表示融合的子模型,n表示融合模型的数量,只涉及到xDeepFM模型和LGB模型这两个模型的融合,通过实验确定了最优的融合权重0.3xDeepFM和0.7LGB。
10.根据权利要求9所述的基于短视频多模态特征的短视频推荐模型,其特征在于,所述步骤9具体包括:
使用AUC作为评价指标,具体计算公式如下所示:
Figure FDA0002448156150000082
其中,M表示正样本的个数,N表示负样本的个数,ranki表示第i个样本的序号,∑i∈positiveClassranki表示所有正样本的序号和。
CN202010284993.5A 2020-04-13 2020-04-13 基于短视频多模态特征的短视频推荐方法 Active CN111523575B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010284993.5A CN111523575B (zh) 2020-04-13 2020-04-13 基于短视频多模态特征的短视频推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010284993.5A CN111523575B (zh) 2020-04-13 2020-04-13 基于短视频多模态特征的短视频推荐方法

Publications (2)

Publication Number Publication Date
CN111523575A true CN111523575A (zh) 2020-08-11
CN111523575B CN111523575B (zh) 2023-12-12

Family

ID=71902865

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010284993.5A Active CN111523575B (zh) 2020-04-13 2020-04-13 基于短视频多模态特征的短视频推荐方法

Country Status (1)

Country Link
CN (1) CN111523575B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112182379A (zh) * 2020-09-28 2021-01-05 上海宏路数据技术股份有限公司 数据处理方法、电子设备及介质
CN112905835A (zh) * 2021-02-26 2021-06-04 成都潜在人工智能科技有限公司 一种多模态乐曲标题生成方法、装置及存储介质
CN113010774A (zh) * 2021-02-24 2021-06-22 四川省人工智能研究院(宜宾) 一种基于动态深度注意力模型的点击率预测方法
CN113064382A (zh) * 2021-03-30 2021-07-02 熵智科技(深圳)有限公司 数控加工切削振动识别方法、装置、计算机设备及介质
CN113158022A (zh) * 2021-01-29 2021-07-23 北京达佳互联信息技术有限公司 业务推荐方法、装置、服务器及存储介质
CN114302225A (zh) * 2021-12-23 2022-04-08 阿里巴巴(中国)有限公司 视频配乐方法、数据处理方法、设备及存储介质
CN114443896A (zh) * 2022-01-25 2022-05-06 百度在线网络技术(北京)有限公司 数据处理方法和用于训练预测模型的方法
CN114647785A (zh) * 2022-03-28 2022-06-21 北京工业大学 基于情感分析的短视频获赞数量预测方法
CN114970955A (zh) * 2022-04-15 2022-08-30 黑龙江省网络空间研究中心 基于多模态预训练模型的短视频热度预测方法及装置
WO2023273769A1 (zh) * 2021-07-01 2023-01-05 北京百度网讯科技有限公司 视频标签推荐模型的训练方法和确定视频标签的方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040122675A1 (en) * 2002-12-19 2004-06-24 Nefian Ara Victor Visual feature extraction procedure useful for audiovisual continuous speech recognition
US20090006368A1 (en) * 2007-06-29 2009-01-01 Microsoft Corporation Automatic Video Recommendation
WO2012097336A1 (en) * 2011-01-13 2012-07-19 Rutgers, The State University Of New Jersey Enhanced multi-protocol analysis via intelligent supervised embedding (empravise) for multimodal data fusion
WO2018124309A1 (en) * 2016-12-30 2018-07-05 Mitsubishi Electric Corporation Method and system for multi-modal fusion model
CN109614895A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于attention特征融合的多模态情感识别的方法
CN109801096A (zh) * 2018-12-14 2019-05-24 中国科学院深圳先进技术研究院 一种多模态客户满意度综合评价系统、方法
CN110245261A (zh) * 2019-05-24 2019-09-17 中山大学 一种多模态的短视频推荐系统中的特征构造方法及系统
CN110337016A (zh) * 2019-06-13 2019-10-15 山东大学 基于多模态图卷积网络的短视频个性化推荐方法及系统
CN110555160A (zh) * 2018-03-30 2019-12-10 优酷网络技术(北京)有限公司 用于推荐系统的数据处理方法、数据处理装置和电子设备
CN110866184A (zh) * 2019-11-11 2020-03-06 湖南大学 短视频数据标签推荐方法、装置、计算机设备和存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040122675A1 (en) * 2002-12-19 2004-06-24 Nefian Ara Victor Visual feature extraction procedure useful for audiovisual continuous speech recognition
US20090006368A1 (en) * 2007-06-29 2009-01-01 Microsoft Corporation Automatic Video Recommendation
WO2012097336A1 (en) * 2011-01-13 2012-07-19 Rutgers, The State University Of New Jersey Enhanced multi-protocol analysis via intelligent supervised embedding (empravise) for multimodal data fusion
WO2018124309A1 (en) * 2016-12-30 2018-07-05 Mitsubishi Electric Corporation Method and system for multi-modal fusion model
CN110555160A (zh) * 2018-03-30 2019-12-10 优酷网络技术(北京)有限公司 用于推荐系统的数据处理方法、数据处理装置和电子设备
CN109614895A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于attention特征融合的多模态情感识别的方法
CN109801096A (zh) * 2018-12-14 2019-05-24 中国科学院深圳先进技术研究院 一种多模态客户满意度综合评价系统、方法
CN110245261A (zh) * 2019-05-24 2019-09-17 中山大学 一种多模态的短视频推荐系统中的特征构造方法及系统
CN110337016A (zh) * 2019-06-13 2019-10-15 山东大学 基于多模态图卷积网络的短视频个性化推荐方法及系统
CN110866184A (zh) * 2019-11-11 2020-03-06 湖南大学 短视频数据标签推荐方法、装置、计算机设备和存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CUI HONGLIANG等: "The Video Recommendation System Based on DBN", pages 1016 - 1021 *
赵宇;刘凤;舒巧媛;韦鹏程;: "基于马尔可夫聚类和混合协同过滤的电视节目推荐", no. 02 *
邱丰羽: "融合多源异构数据的推荐模型与系统", no. 2019 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112182379B (zh) * 2020-09-28 2021-07-13 上海嗨普智能信息科技股份有限公司 数据处理方法、电子设备及介质
CN112182379A (zh) * 2020-09-28 2021-01-05 上海宏路数据技术股份有限公司 数据处理方法、电子设备及介质
CN113158022A (zh) * 2021-01-29 2021-07-23 北京达佳互联信息技术有限公司 业务推荐方法、装置、服务器及存储介质
CN113158022B (zh) * 2021-01-29 2024-03-12 北京达佳互联信息技术有限公司 业务推荐方法、装置、服务器及存储介质
CN113010774A (zh) * 2021-02-24 2021-06-22 四川省人工智能研究院(宜宾) 一种基于动态深度注意力模型的点击率预测方法
CN113010774B (zh) * 2021-02-24 2023-04-07 四川省人工智能研究院(宜宾) 一种基于动态深度注意力模型的点击率预测方法
CN112905835B (zh) * 2021-02-26 2022-11-11 成都潜在人工智能科技有限公司 一种多模态乐曲标题生成方法、装置及存储介质
CN112905835A (zh) * 2021-02-26 2021-06-04 成都潜在人工智能科技有限公司 一种多模态乐曲标题生成方法、装置及存储介质
CN113064382A (zh) * 2021-03-30 2021-07-02 熵智科技(深圳)有限公司 数控加工切削振动识别方法、装置、计算机设备及介质
CN113064382B (zh) * 2021-03-30 2022-07-29 熵智科技(深圳)有限公司 数控加工切削振动识别方法、装置、计算机设备及介质
WO2023273769A1 (zh) * 2021-07-01 2023-01-05 北京百度网讯科技有限公司 视频标签推荐模型的训练方法和确定视频标签的方法
CN114302225A (zh) * 2021-12-23 2022-04-08 阿里巴巴(中国)有限公司 视频配乐方法、数据处理方法、设备及存储介质
CN114443896A (zh) * 2022-01-25 2022-05-06 百度在线网络技术(北京)有限公司 数据处理方法和用于训练预测模型的方法
CN114443896B (zh) * 2022-01-25 2023-09-15 百度在线网络技术(北京)有限公司 数据处理方法和用于训练预测模型的方法
CN114647785A (zh) * 2022-03-28 2022-06-21 北京工业大学 基于情感分析的短视频获赞数量预测方法
CN114647785B (zh) * 2022-03-28 2024-09-24 北京工业大学 基于情感分析的短视频获赞数量预测方法
CN114970955A (zh) * 2022-04-15 2022-08-30 黑龙江省网络空间研究中心 基于多模态预训练模型的短视频热度预测方法及装置
CN114970955B (zh) * 2022-04-15 2023-12-15 黑龙江省网络空间研究中心 基于多模态预训练模型的短视频热度预测方法及装置

Also Published As

Publication number Publication date
CN111523575B (zh) 2023-12-12

Similar Documents

Publication Publication Date Title
CN111523575B (zh) 基于短视频多模态特征的短视频推荐方法
CN111538912B (zh) 内容推荐方法、装置、设备及可读存储介质
CN111708950B (zh) 内容推荐方法、装置及电子设备
Torabi et al. Learning language-visual embedding for movie understanding with natural-language
CN112800292B (zh) 一种基于模态特定和共享特征学习的跨模态检索方法
CN110737801A (zh) 内容分类方法、装置、计算机设备和存储介质
CN111797898B (zh) 一种基于深度语义匹配的在线评论自动回复方法
CN111246256A (zh) 基于多模态视频内容和多任务学习的视频推荐方法
CN110737783A (zh) 一种推荐多媒体内容的方法、装置及计算设备
Nguyen et al. Vireo@ trecvid 2017: Video-to-text, ad-hoc video search and video hyperlinking
CN111400601A (zh) 一种视频推荐的方法及相关设备
CN112989212B (zh) 媒体内容推荐方法、装置和设备及计算机存储介质
CN111563373A (zh) 聚焦属性相关文本的属性级情感分类方法
CN115964560B (zh) 基于多模态预训练模型的资讯推荐方法及设备
CN115204301A (zh) 视频文本匹配模型训练、视频文本匹配方法和装置
CN115618024A (zh) 多媒体推荐方法、装置及电子设备
Liu et al. A multimodal approach for multiple-relation extraction in videos
CN117312630A (zh) 推荐信息的获取方法、模型训练方法、装置、电子设备及存储介质
Liu et al. Personalized Recommender System for Children's Book Recommendation with A Realtime Interactive Robot
CN113688281B (zh) 一种基于深度学习行为序列的视频推荐方法及系统
Liu et al. Learning perceptual embeddings with two related tasks for joint predictions of media interestingness and emotions
WO2019237461A1 (zh) 一种基于用户需求的稳态标签开发方法及系统
CN114022822A (zh) 视频配乐的获取方法、装置、电子设备及计算机可读介质
CN113868463A (zh) 推荐模型训练方法及装置
Li et al. CTR prediction with user behavior: An augmented method of deep factorization machines

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant