CN111523575A

CN111523575A - 基于短视频多模态特征的短视频推荐模型

Info

Publication number: CN111523575A
Application number: CN202010284993.5A
Authority: CN
Inventors: 邓晓衡; 张桦林; 黄文俊; 赵敏
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2020-04-13
Filing date: 2020-04-13
Publication date: 2020-08-11
Anticipated expiration: 2040-04-13
Also published as: CN111523575B

Abstract

本发明提供了一种基于短视频多模态特征的短视频推荐模型，包括：步骤1，对短视频标题特征，使用TF‑IDF方法进行特征提取，使用PCA降维算法将短视频标题特征向量维度降维到k维；步骤2，提取短视频内容的128维原始特征，使用PCA降维算法将短视频内容特征向量维度降维到k维；步骤3，提取短视频背景音乐的128维原始特征，使用PCA降维算法将短视频背景音乐特征向量维度降维到k维。本发明考虑到不同模态的特征数据对用户产生的用户行为的影响效果是不同的，并利用隐马尔可夫模型去学习短视频的不同模态数据对于用户的影响比重，基于影响比重将短视频的多模态特征映射到统一向量空间进行融合，获得用多模态数据特征表示的短视频特征数据。

Description

基于短视频多模态特征的短视频推荐模型

技术领域

本发明涉及视频分析技术领域，特别涉及一种基于短视频多模态特征的短视频推荐模型。

背景技术

随着社会的快速发展，人们生活节奏的加快，几乎每个人在工作中或生活中都承受着一定的压力，而大部分人由于生活的负担很难有大量的闲暇时间去娱乐休闲散心，随着手机互联网的迅猛发展以及抖音、快手等短视频app的出现，许多人喜欢在自己有限的碎片化的空闲时间里浏览观看一些短视频来缓解放松自己，但是由于短视频app的低门槛特征，几乎所有人都能在上面发表自己的作品，导致app上面短视频作品数量庞大且内容混杂，人们很难很快的从app上面找到自己感兴趣的短视频，推荐系统是解决这个问题的主要方法。

因为短视频行业是近几年才发展起来的，所以大部分原有的视频算法推荐大多是基于长视频的推荐。例如：电影的推荐，但是短视频和长视频是不同的，大部分短视频的时长大概在6秒至300秒，由于其时长短，故而都偏重于某一个主题，不会有太复杂的情景故事变化。现有视频推荐算法可以从三个角度进行分析。一是基于视频原有标签产生推荐，这种推荐方法并没有分析视频的内容，而是把视频看成一个整体，直接使用视频的属性标签进行推荐。举个例子：有一个足球系列的电影，那么这个电影的视频属性就是“运动”，即会被标上“运动”的标签；另有一个篮球系列的电影，那么这个电影的视频属性也是“运动”，即也会标上“运动”得标签。但是可能就有些人喜欢篮球不喜欢足球，在这种情况下只依据视频的属性标签不依据视频内容去产生推荐的话就会产生不好的推荐结果。二是基于单模态数据产生推荐的。这部分人考虑到了视频内容的重要性，把关注点逐步放在了视频内容上。但这部分人可能只考虑到了一个模态的内容，考虑的并不全面。三是基于多模态数据产生推荐的，这部分人注意到了视频的多模态数据特征，从多个数据角度对视频的内容进行学习并产生推荐，但由于对模态数据的关注点不同，产生的推荐结果也不同。

本发明就是从第三个角度去思考的，一般来说短视频主要包括三部分内容：一个醒目且简要的标题，一段内容丰富的连续画面和一小段背景音乐。由此，可以认为一个短视频总共包含三个模态的特征，即：标题特征、视频内容特征和背景音乐特征。当人们判定自己对某一短视频的喜好程度的时候，通常会综合考虑自己对短视频这三个模态特征的感受。而传统的多模态特征早期融合方式都是将多模态特征按原有数据维度级联在一起。但是这样忽略了不同模态特征对于人的影响大小是不同的。本发明意在将这三个模态的特征基于影响比重融合去表示短视频，再结合手工提取的微视频和用户之间的交互特征输入到模型中去训练，并且将不同模型基于权重进行融合从而获得一个较好的推荐结果。在短视频泛滥的今天，这个课题具有极大的研究价值。

发明内容

本发明提供了一种基于短视频多模态特征的短视频推荐模型，其目的是为了解决基于短视频的多模态特征进行短视频推荐的问题。

为了达到上述目的，本发明的实施例提供了一种基于短视频多模态特征的短视频推荐模型，包括：

步骤1，对短视频标题特征，使用TF-IDF方法进行特征提取，使用PCA降维算法将短视频标题特征向量维度降维到k维；

步骤2，提取短视频内容的128维原始特征，使用PCA降维算法将短视频内容特征向量维度降维到k维；

步骤3，提取短视频背景音乐的128维原始特征，使用PCA降维算法将短视频背景音乐特征向量维度降维到k维；

步骤4，基于用户的行为数据获取到用户的评分数据矩阵；

步骤5，将获取到的用户的评分数据矩阵作为观测序列输入到隐马尔可夫模型中进行训练，获取到最优模型的观测概率矩阵，基于观测概率矩阵计算短视频不同模态特征的对短视频的影响比重；

步骤6，基于获取到的短视频不同模态特征的对短视频的影响比重，分别将获取到的短视频标题特征矩阵、短视频内容特征矩阵和短视频背景音乐特征矩阵基于影响比重的融合在一起形成短视频多模态特征融合矩阵；

步骤7，提取短视频的人脸特征、短视频和作者的热度特征和短视频的时间特征，作为手工提取特征矩阵；

步骤8，将融合之后的短视频多模态特征融合矩阵和获得的手工提取特征矩阵输入到不同的机器学习模型中去训练，并基于模型特点将模型进行融合，输出最终的推荐结果；

步骤9，使用AUC作为评价指标，评价推荐结果的可靠性。

其中，所述步骤1具体包括：

提取短视频标题特征数据，采用TF-IDF方法，TF-IDF方法包括TF和IDF，TF是词频，表示一个字词在指定文件中出现的频率，具体计算公式如下所示：

其中，tf_i，j表示词语t_i出现在文件d_j中的词频；n_i,j表示词语t_i出现在文件d_j中的次数，∑_kn_k，j表示在文件d_j中出现的所有词语的次数之和；

IDF是逆文本频率，表示一个字词在所有文件中出现的频率，具体计算公式如下所示：

其中，idf_i表示词语t_i出现在所有文件中的词频，|D|表示所有文件总数，式(2)中“：”表示包含词语t_i的文件数目，计算tf_i,j与idf_i的乘积便可计算出一个词的TF-IDF值。

其中，所述步骤1、所述步骤2和所述步骤3具体包括：

用PCA降维算法将特征向量维度降维到k维，主要用于提取最有价值的信息，是无监督的，PCA降维算法的实现的主要步骤，如下所示：

特征标准化，即特征矩阵F中每列特征值减去该列的平均值，已知一个m×n特征矩阵F，特征矩阵F中每一列代表一个属性，计算矩阵中每个属性的均值得到有关属性的1×n均值矩阵

将特征矩阵F与均值矩阵

相减得到标准化矩阵SF，特征矩阵F、均值矩阵

和标准化矩阵SF分别如下所示：

计算协方差矩阵COV_SF，表示两个字段的相关性，具体计算公式如下所示：

其中，m表示样本数量，即协方差矩阵COV_SF中行数，SF^T表示SF矩阵的转置矩阵；

求取协方差矩阵COV_SF的特征值和特征向量，具体计算公式如下所示：

(λE-COV_SF)X＝0 (7)

其中，λ表示特征值，X表示特征向量，E表示单位矩阵；

将多模态特征数据的维度降到k维，选取式(7)计算出来的最大的k个特征值对应的特征向量，得到维度为k的特征向量矩阵DX；将获取的标准化矩阵SF与获取到的k维的特征向量矩阵DX相乘，得到最终的降维后的特征矩阵FF。

其中，所述步骤4具体包括：

将用户的行为数据映射成对应的评分，用户和短视频之间的交互行为主要有两种，一种是用户是否给某一个短视频点赞，用户给某一个短视频点赞就认为用户喜欢该短视频，用户没有给某一个短视频点赞就认为用户不喜欢该短视频，将点赞这个用户行为映射成用户给该短视频基于like的评分：like值为1，表示用户已点赞短视频；like值为0，表示用户没有点赞短视频，另一种交互行为是用户是否看完某一个短视频，其中，有些用户并没有给短视频点赞的习惯，基于此，当用户把某个短视频浏览完的时候，可以认为用户对该短视频有一定的兴趣，将用户是否浏览完某一个短视频的这个用户行为映射成用户给该短视频基于finish的评分：finish值为1，表示用户已浏览完短视频；finish值为0，表示用户没有浏览完短视频。

其中，所述步骤5具体包括：

使用隐马尔可夫模型对用户的评分数据矩阵进行训练获取到最终的观测状态转移矩阵，从而获取到短视频不同模态特征的对短视频的影响比重；

隐马尔可夫模型主要包含两个状态集合和三个概率矩阵，隐含状态S集合，无法通过直接观察获得，具体公式如下所示：

S＝{s₁，s₂，…，s_n} (8)

其中，n表示隐含状态数量，隐含状态S集合中的任意一个元素s_i，1≤i≤n，均表示一个隐含状态；

可观测的状态集合O，在模型中与隐含状态相关联，可通过直接观测而得到，具体公式如下所示：

O＝{o₁，o₂，…，o_m} (9)

其中，m表示可观测的状态数量，可观测状态的数目m不一定要和隐含状态的数目n一致，可观测的状态O集合中的任意一个元素o_j，1≤j≤m均表示一个可观测状态；

初始状态概率矩阵π，表示隐含状态在初始时刻的概率矩阵，具体公式如下所示：

π＝{p(s₁)，p(s₂)，…，p(s_n)} (10)

其中，n表示隐含状态数量，p(s_i)，1≤i≤n表示任意一个隐含状态在初始时刻的概率；

隐含状态转移概率矩阵A，具体公式如下所示：

其中，a_ij＝P(I_t+1＝s_j|I_t＝s_i)，1≤i，j≤n，I表示隐含状态序列，I_t表示t时刻的隐含状态，a_ij表示在t时刻，隐含状态为s_i的条件下，在t+1时刻是隐含状态s_j的概率，n表示隐含状态的数目；

观测状态转移概率矩阵B，具体公式如下所示：

其中，b_ij＝P(o_j|I_t＝s_i)，1≤i≤n，1≤j≤m，表示在t时刻，隐含状态为s_i的条件下，可观测状态是o_j的概率，m表示可观测状态的数目，n表示隐含状态的数目，可用λ＝(A，B,π)三元组来表示一个隐马尔可夫模型，调整这些参数使得可观测序列的概率最大，反过来也可以利用可观测序列来计算模型的参数。

其中，所述步骤5还包括：

基于短视频标题特征、短视频内容特征和短视频背景音乐特征这三个隐含特征去训练的，即n＝3，可观测的状态分为两种；一种是喜欢和不喜欢，即like和unLike；一种是浏览完和没有浏览完，即finish和unFinish，观测状态只有两个，即m＝2，分别用title data、video data和audio data表示短视频标题特征、短视频内容特征和短视频背景音乐特征，由此可生成两个观测状态集合O⁽¹⁾和O⁽²⁾，隐含状态S集合O⁽¹⁾与可观测状态集合O⁽²⁾，如下所示：

S＝{title data,video data，audio data} (13)

O⁽¹⁾＝{like，unLike} (14)

O⁽²⁾＝{finish,unFinish} (15)

分别以获取的基于like的用户评分矩阵和基于finish的用户评分矩阵作为可观测序列输入到隐马尔可夫模型中去训练，分别获取到基于like和finish的短视频多模态特征的观测状态转移概率矩阵，样式如下所示：

其中，B_like矩阵中P(like|title data)和P(unLike|title data)分别表示用户喜欢和不喜欢短视频标题模态数据的观测概率；B_finish矩阵中P(finish|title data)和P(unFinish|title data)分别表示用户浏览完和没有浏览完短视频标题模态数据的观测概率，除此之外B_like矩阵和B_finish矩阵中剩余值的含义以此类推；

根据计算出来的观测状态转移概率矩阵B_like和B_finish，计算出来在同种观测状态下其它模态数据和随机确定一个模态数据的比值；只需计算用户可能会喜欢的短视频的多模态特征对短视频的影响比重，因此计算在喜欢和已浏览完的状态下其它模态和短视频标题模态的比值，具体公式如下所示：

其中，α_like表示在喜欢的状态下短视频内容特征和短视频标题特征影响比值，β_like表示在喜欢的状态下短视频背景音乐特征和短视频标题特征影响比值，α_finish表示在已浏览完的状态下短视频内容特征和短视频标题特征影响比值；β_finish表示在已浏览完的状态下短视频背景音乐特征和短视频标题特征影响比值。

其中，所述步骤6具体包括：

依据得到的α_like、β_like、α_finish和β_finish这几个比值将提取到的k维的短视频标题特征向量矩阵、短视频内容特征向量矩阵和短视频背景音乐特征向量矩阵融合在一起，具体融合方式分为以下2步：

最初提取到的短视频的多模态特征矩阵都是k维的，基于获取到的比值，首先确定短视频标题模态特征矩阵、短视频内容模态特征矩阵和短视频背景音乐模态特征矩阵的最终维度，用t_i表示最终确定的短视频标题模态特征矩阵的维度，用v_i表示最终确定的短视频内容模态特征矩阵的维度，用a_i表示确定的短视频背景音乐模态特征矩阵的维度，其中i∈(like,finish)，需满足的条件如下所示：

t_i≤k,其中i∈(like，finish)

v_i≤k，且v_i＝α_it_i,其中I∈(like，finish)

a_i≤k，且a_i＝β_it_i,其中i∈(like，finiSH)

确定了短视频标题模态特征矩阵、短视频内容模态特征矩阵和短视频背景音乐模态特征矩阵的最终维度，使用PCA降维算法分别将短视频标题模态特征矩阵从k维降到T_i维，将短视频内容模态特征矩阵从k维降到v_i维，将短视频背景音乐模态特征矩阵从k维降到a_i维；

将降到对应维度的短视频多模态特征矩阵级联在一起表示短视频，最终得到短视频多模态特征融合矩阵，短视频多模态特征融合矩阵最终的维度是：T_i+v_i+a_i，其中，i∈(like，finisH)。

其中，所述步骤7具体包括：

依据短视频数据集的数据特点，计算短视频中的人脸面积，人脸的平均美丽度评分以及每个人脸和平均人脸美丽度的差值，以此作为短视频人脸特征，从短视频浏览热度的角度考虑，给短视频的浏览数量和短视频作者的出现数量进行了一个热度排序，依此构造了短视频和作者的热度矩阵，为了防止矩阵维度过大，使用PCA降维算法将维度降到了500维，从时间的角度考虑，将获取到的作者发布微视频的时间戳信息转换成年、月、日、时和分的时间特征，依此构造了短视频的时间特征矩阵。

其中，所述步骤8具体包括：

将依据获取到的短视频多模态特征融合矩阵和获取到的手工提取特征矩阵，分别输入到xDeepFM模型和LGB模型去学习训练，依据模型输出结果选用合适的模型进行融合，从而获得更精确的的推荐结果，xDeepFM模型融合了神经网络和FM模型，具体计算公式如下所示：

其中，σ是Sigmoid函数，是为了将输入值映射到0，1之间，a是原始特征，

p⁺分别是DNN和CIN的输出，W^*和B分别代表对应的权重和偏置值，是模型需要学习的参数；

σ的具体计算公式如下所示：

LGB模型是一种梯度提升决策树模型，是一种迭代的决策树算法，由多颗决策树组成，每一颗决策树也可以被叫做基学习器或子模型，具体公式如下所示：

其中，f_m(x)表示基学习器，M表示基学习器的个数，学习过程是一个一个的去增加子模型，并在过程中损失函数不断减小，具体公式如下所示：

F_m(x)＝F_m-1(x)+f_m(x) (25)

L(F_m(x)，y)＜L(F_m-1(x)，y) (26)

其中，x表示模型的输入向量，y表示用户的真实评分数据，F_m(x)表示经过模型训练预测的评分数据；L符号表示计算经模型预测的评分数据和用户的真实评分数据之间的偏差，即损失函数；

依据这些模型本身的特点以及初步的实验结果，将xDeepFM模型和LGB模型基于权重进行融合，模型融合的想法是想要同时利用到不同模型的优点，让融合的模型充分发挥各个单个模型的优点，融合公式如下所示：

其中，w_i表示融合的权重，model_i(x)表示融合的子模型，n表示融合模型的数量，只涉及到xDeepFM模型和LGB模型这两个模型的融合，通过实验确定了最优的融合权重0.3xDeepFM和0.7LGB。

其中，所述步骤9具体包括：

使用AUC作为评价指标，具体计算公式如下所示：

其中，M表示正样本的个数，N表示负样本的个数，rank_i表示第i个样本的序号，∑_{i∈positiveClass}rank_i表示所有正样本的序号和。

本发明的上述方案有如下的有益效果：

本发明的上述实施例所述的基于短视频多模态特征的短视频推荐模型，考虑到不同模态的特征数据对用户产生的用户行为的影响效果是不同的，并利用隐马尔可夫模型去学习短视频的不同模态数据对于用户的影响比重，基于影响比重将短视频的多模态特征映射到统一向量空间进行融合，获得用多模态数据特征表示的短视频特征数据，基于特征数据能获取到更准确的短视频推荐结果，为了更好的优化推荐结果，手工提取补充了一部分特征和短视频多模态特征一起输入到模型中，基于不同模型的训练输出结果，将xDeepFM模型和LGB模型基于最优权重的融合，从而获取到更加精确的推荐结果。

附图说明

图1为本发明的流程图；

图2为本发明的最优模型的观测矩阵图(1)；

图3为本发明的最优模型的观测矩阵图(2)；

图4为本发明的推荐结果比较示意图；

图5为本发明的AUC评分示意图(1)；

图6为本发明的AUC评分示意图(2)。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明针对现有的基于短视频的多模态特征进行短视频推荐的问题，提供了一种基于短视频多模态特征的短视频推荐模型。

如图1至图6所示，本发明的实施例提供了一种基于短视频多模态特征的短视频推荐模型，包括：步骤1，对短视频标题特征，使用TF-IDF方法进行特征提取，使用PCA降维算法将短视频标题特征向量维度降维到k维；步骤2，提取短视频内容的128维原始特征，使用PCA降维算法将短视频内容特征向量维度降维到k维；步骤3，提取短视频背景音乐的128维原始特征，使用PCA降维算法将短视频背景音乐特征向量维度降维到k维；步骤4，基于用户的行为数据获取到用户的评分数据矩阵；步骤5，将获取到的用户的评分数据矩阵作为观测序列输入到隐马尔可夫模型中进行训练，获取到最优模型的观测概率矩阵，基于观测概率矩阵计算短视频不同模态特征的对短视频的影响比重；步骤6，基于获取到的短视频不同模态特征的对短视频的影响比重，分别将获取到的短视频标题特征矩阵、短视频内容特征矩阵和短视频背景音乐特征矩阵基于影响比重的融合在一起形成短视频多模态特征融合矩阵；步骤7，提取短视频的人脸特征、短视频和作者的热度特征和短视频的时间特征，作为手工提取特征矩阵；步骤8，将融合之后的短视频多模态特征融合矩阵和获得的手工提取特征矩阵输入到不同的机器学习模型中去训练，并基于模型特点将模型进行融合，输出最终的推荐结果；步骤9，使用AUC作为评价指标，评价推荐结果的可靠性。

本发明的上述实施例所述的基于短视频多模态特征的短视频推荐模型，短视频行业是近几年才活跃起来的，而且短视频内容数据可能会依据潮流、明星等因素时刻变化的，网上很少有公开可用的数据集。主要是针对ICME2019抖音短视频数据集中数据文件特点进行多模态特征融合研究，该数据集包含千万级数据信息。确定了提取的短视频标题特征数据、短视频内容特征树和短视频背景音乐特征的维度为32维，该数据集中包含两种用户评分数据：一个是用户是否喜欢该短视频，即like；另一个是用户是否浏览完该短视频，即finish。依据这两种用户行为分别提取出两个用户评分数据矩阵，然后分别将这两个用户评分数据矩阵输入到隐马尔科夫模型中去训练。隐含状态分别是：title data、video data和audio data，分别表示短视频标题特征数据、短视频内容特征树和短视频背景音乐特征。观测状态包含两类：一类是like和unLike；一类是finish和unFinish，生成的最优模型的观测矩阵分别如图2和图3所示。

基于图2的观测概率计算出不同模态之间的比重关系：

基于图3的观测概率计算出不同模态之间的比重关系：

对于用户是否like一个短视频的多模态特征具体融合方法是：先确定短视频标题特征的维度为16维的基础上确定其它特征的维度。即用PCA降维算法将title data从32维降到16维，则video data需要用PCA降维算法从32维降到26维，audio data保持32维。最终获得16维的短视频标题特征矩阵、26维的短视频内容特征矩阵和32维的短视频背景音乐特征矩阵。然后将降维后的3种模态的特征数据级联在一起形成一个74维的短视频多模态特征矩阵。

对于用户是否finish一个短视频的多模态特征具体融合方法是：先确定短视频标题特征的维度为26维的基础上确定其它特征的维度。即用PCA降维算法将title data从32维降到16维，则video data需要用PCA降维算法从32维降到26维，而audio data需要用PCA降维算法从32维降到24维。最终的获得16维的短视频标题特征矩阵、26维的短视频内容特征矩阵和24维的短视频背景音乐特征矩阵。然后将降维后的3种模态的特征数据拼接在一起形成一个66维的短视频多模态特征矩阵。

然后将74维的短视频多模态特征矩阵和66维的短视频多模态特征矩阵分别输入到模型中去训练，从而得到最终的预测结果，用AUC对推荐结果进行评价，最终的评分以0.7*finish+0.3*like计算。由图4可以看到在三种机器学习模型中，融合后的特征相对原始的特征推荐结果均有一定程度的提升。

为了提升推荐结果，后面将手工提取的特征分别和前面获取到的两个短视频多模态特征矩阵输入到模型中去训练，最终的评分以0.7*finish+0.3*like计算，结果如图5所示。可以看到相对于图4中对应模型的跑出来的数据来说，图5中的AUC评分有了小部分的提升。

最后，将图5中使用的这两个模型，通过实验获取到了最优的融合权重0.3和0.7，将基于最优融合权重的模型融合方式和其它两种模型融合方式做了性能比较，AUC评分如图6所示，由图中数据可以得知，基于最优权重模型融合的效果比其他两种融合方式的优化要好很多，且相对于图5中的单个模型推荐效果来说，融合之后的模型对推荐结果也产生了进一步的优化，由此，确定了最终的基于短视频多模态特征的短视频推荐模型如图1所示。

其中，所述步骤1具体包括：提取短视频标题特征数据，采用TF-IDF方法，TF-IDF方法包括TF和IDF，TF是词频，表示一个字词在指定文件中出现的频率，具体计算公式如下所示：

其中，tf_i,j表示词语t_i出现在文件d_j中的词频；n_i,j表示词语t_i出现在文件d_j中的次数，∑_kn_k，j表示在文件d_j中出现的所有词语的次数之和；

其中，idf_i表示词语t_i出现在所有文件中的词频，|D|表示所有文件总数，式(2)中“：”表示包含词语t_i的文件数目，计算tf_i，j与idf_i的乘积便可计算出一个词的TF-IDF值。

其中，所述步骤1、所述步骤2和所述步骤3具体包括：用PCA降维算法将特征向量维度降维到k维，主要用于提取最有价值的信息，是无监督的，PCA降维算法的实现的主要步骤，如下所示：

将特征矩阵F与均值矩阵

相减得到标准化矩阵SF，特征矩阵F、均值矩阵

和标准化矩阵SF分别如下所示：

(λE-COV_SF)X＝0 (7)

其中，λ表示特征值，X表示特征向量，E表示单位矩阵；

其中，所述步骤4具体包括：将用户的行为数据映射成对应的评分，用户和短视频之间的交互行为主要有两种，一种是用户是否给某一个短视频点赞，用户给某一个短视频点赞就认为用户喜欢该短视频，用户没有给某一个短视频点赞就认为用户不喜欢该短视频，将点赞这个用户行为映射成用户给该短视频基于like的评分：like值为1，表示用户已点赞短视频；like值为0，表示用户没有点赞短视频，另一种交互行为是用户是否看完某一个短视频，其中，有些用户并没有给短视频点赞的习惯，基于此，当用户把某个短视频浏览完的时候，可以认为用户对该短视频有一定的兴趣，将用户是否浏览完某一个短视频的这个用户行为映射成用户给该短视频基于finish的评分：finish值为1，表示用户已浏览完短视频；finish值为0，表示用户没有浏览完短视频。

其中，所述步骤5具体包括：使用隐马尔可夫模型对用户的评分数据矩阵进行训练获取到最终的观测状态转移矩阵，从而获取到短视频不同模态特征的对短视频的影响比重；

S＝{s₁,s₂,…,s_n} (8)

其中，n表示隐含状态数量，隐含状态S集合中的任意一个元素s_i,1≤i≤n，均表示一个隐含状态；

O＝{o₁,o₂,…,o_m} (9)

其中，m表示可观测的状态数量，可观测状态的数目m不一定要和隐含状态的数目n一致，可观测的状态O集合中的任意一个元素o_j,1≤j≤m均表示一个可观测状态；

π＝{p(s₁),p(s₂),…,p(s_n)} (10)

其中，n表示隐含状态数量，p(s_i),1≤i≤n表示任意一个隐含状态在初始时刻的概率；

隐含状态转移概率矩阵A，具体公式如下所示：

其中，a_ij＝P(I_t+1＝s_j|I_t＝s_i),1≤i,j≤n，I表示隐含状态序列，I_t表示t时刻的隐含状态，a_ij表示在t时刻，隐含状态为s_i的条件下，在t+1时刻是隐含状态s_j的概率，n表示隐含状态的数目；

观测状态转移概率矩阵B，具体公式如下所示：

其中，b_ij＝P(o_j|I_t＝s_i),1≤i≤n,1≤j≤m，表示在t时刻，隐含状态为s_i的条件下，可观测状态是o_j的概率，m表示可观测状态的数目，n表示隐含状态的数目，可用λ＝(A,B,π)三元组来表示一个隐马尔可夫模型，调整这些参数使得可观测序列的概率最大，反过来也可以利用可观测序列来计算模型的参数。

其中，所述步骤5还包括：基于短视频标题特征、短视频内容特征和短视频背景音乐特征这三个隐含特征去训练的，即n＝3，可观测的状态分为两种；一种是喜欢和不喜欢，即like和unLike；一种是浏览完和没有浏览完，即finish和unFinish，观测状态只有两个，即m＝2，分别用title data、video data和audio data表示短视频标题特征、短视频内容特征和短视频背景音乐特征，由此可生成两个观测状态集合O⁽¹⁾和O⁽²⁾，隐含状态S集合O⁽¹⁾与可观测状态集合O⁽²⁾，如下所示：

S＝{title data,video data,audio data} (13)

O⁽¹⁾＝{like,unLike} (14)

O⁽²⁾＝{finish,unFinish} (15)

其中，所述步骤6具体包括：依据得到的α_like、β_like、α_finish和β_finish这几个比值将提取到的k维的短视频标题特征向量矩阵、短视频内容特征向量矩阵和短视频背景音乐特征向量矩阵融合在一起，具体融合方式分为以下2步：

t_i≤k,其中i∈(like,finish)

v_i≤k,且v_i＝α_it_i,其中I∈(like,finish)

a_i≤k,且a_i＝β_it_i,其中i∈(like,finish)

将降到对应维度的短视频多模态特征矩阵级联在一起表示短视频，最终得到短视频多模态特征融合矩阵，短视频多模态特征融合矩阵最终的维度是：t_i+v_i+a_i，其中，i∈(like,finish)。

其中，所述步骤7具体包括：依据短视频数据集的数据特点，计算短视频中的人脸面积，人脸的平均美丽度评分以及每个人脸和平均人脸美丽度的差值，以此作为短视频人脸特征，从短视频浏览热度的角度考虑，给短视频的浏览数量和短视频作者的出现数量进行了一个热度排序，依此构造了短视频和作者的热度矩阵，为了防止矩阵维度过大，使用PCA降维算法将维度降到了500维，从时间的角度考虑，将获取到的作者发布微视频的时间戳信息转换成年、月、日、时和分的时间特征，依此构造了短视频的时间特征矩阵。

其中，所述步骤8具体包括：将依据获取到的短视频多模态特征融合矩阵和获取到的手工提取特征矩阵，分别输入到xDeepFM模型和LGB模型去学习训练，依据模型输出结果选用合适的模型进行融合，从而获得更精确的的推荐结果，xDeepFM模型融合了神经网络和FM模型，具体计算公式如下所示：

σ的具体计算公式如下所示：

F_m(x)＝F_m-1(x)+f_m(x) (25)

L(F_m(x),y)＜L(F_m-1(x),y) (26)

其中，所述步骤9具体包括：使用AUC作为评价指标，具体计算公式如下所示：

本发明的上述实施例所述的基于短视频多模态特征的短视频推荐模型，分析了短视频的多模态特征，考虑到短视频不同模态的特征对于用户的影响程度不同，首先，基于用户不同行为产生的用户评分数据，用隐马尔可夫模型学习到了最优的观测概率，基于观测概率，计算出了短视频不同模态之间的比值关系，提出了一种基于影响比重融合短视频多模态特征的融合算法，然后，将基于影响比重融合之后的短视频多模态矩阵和手工提取特征输入到模型中去训练，并将xDeepFM模型和LGB模型这两个模型的输出结果以0.3和0.7的权重进行融合，最后，获取到最终的推荐结果。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于短视频多模态特征的短视频推荐模型，其特征在于，包括：

步骤4，基于用户的行为数据获取到用户的评分数据矩阵；

步骤9，使用AUC作为评价指标，评价推荐结果的可靠性。

2.根据权利要求1所述的基于短视频多模态特征的短视频推荐模型，其特征在于，所述步骤1具体包括：

3.根据权利要求2所述的基于短视频多模态特征的短视频推荐模型，其特征在于，所述步骤1、所述步骤2和所述步骤3具体包括：

将特征矩阵F与均值矩阵

相减得到标准化矩阵SF，特征矩阵F、均值矩阵

和标准化矩阵SF分别如下所示：

(λE-COV_SF)X＝0 (7)

其中，λ表示特征值，X表示特征向量，E表示单位矩阵；

4.根据权利要求3所述的基于短视频多模态特征的短视频推荐模型，其特征在于，所述步骤4具体包括：

5.根据权利要求4所述的基于短视频多模态特征的短视频推荐模型，其特征在于，所述步骤5具体包括：

S＝{s₁，s₂，...，s_n} (8)

O＝{o₁，o₂，...，o_m} (9)

π＝{p(s₁)，p(s₂)，...，p(s_n)} (10)

隐含状态转移概率矩阵A，具体公式如下所示：

观测状态转移概率矩阵B，具体公式如下所示：

其中，b_ij＝P(o_j|I_t＝s_i)，1≤i≤n，1≤j≤m，表示在t时刻，隐含状态为s_i的条件下，可观测状态是o_j的概率，m表示可观测状态的数目，n表示隐含状态的数目，可用λ＝(A，B，π)三元组来表示一个隐马尔可夫模型，调整这些参数使得可观测序列的概率最大，反过来也可以利用可观测序列来计算模型的参数。

6.根据权利要求5所述的基于短视频多模态特征的短视频推荐模型，其特征在于，所述步骤5还包括：

S＝{title data，video data，audio data} (13)

O⁽¹⁾＝{like，unLike} (14)

O⁽²⁾＝{finish,unFinish} (15)

分别以获取的基于like的用户评分矩阵和基于finish的用户评分矩阵作为可观测序列输入到隐马尔可夫模型中去训练，分别获取到基于like和finish的短视频多模态特征的观测状态转移概率矩阵，样式如下所示；

7.根据权利要求4所述的基于短视频多模态特征的短视频推荐模型，其特征在于，所述步骤6具体包括：

最初提取到的短视频的多模态特征矩阵都是k维的，基于获取到的比值，首先确定短视频标题模态特征矩阵、短视频内容模态特征矩阵和短视频背景音乐模态特征矩阵的最终维度，用t_i表示最终确定的短视频标题模态特征矩阵的维度，用v_i表示最终确定的短视频内容模态特征矩阵的维度，用a_i表示确定的短视频背景音乐模态特征矩阵的维度，其中i∈(like，finish)，需满足的条件如下所示：

t_i≤k，其中i∈(like，finish)

v_i≤k，且v_i＝α_it_i，其中I∈(like，finish)

a_i≤k，且a_i＝β_it_i，其中i∈(like，finish)

8.根据权利要求7所述的基于短视频多模态特征的短视频推荐模型，其特征在于，所述步骤7具体包括：

9.根据权利要求8所述的基于短视频多模态特征的短视频推荐模型，其特征在于，所述步骤8具体包括：

p+分别是DNN和CIN的输出，w^*和b分别代表对应的权重和偏置值，是模型需要学习的参数；

σ的具体计算公式如下所示：

F_m(x)＝F_m-1(x)+f_m(x) (25)

L(F_m(x)，y)＜L(F_m-1(x)，y) (26)

10.根据权利要求9所述的基于短视频多模态特征的短视频推荐模型，其特征在于，所述步骤9具体包括：

使用AUC作为评价指标，具体计算公式如下所示：