CN107609570B

CN107609570B - 基于属性分类和多视角特征融合的微视频流行度预测方法

Info

Publication number: CN107609570B
Application number: CN201710648068.4A
Authority: CN
Inventors: 苏育挺; 李阳; 白须; 张静
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2017-08-01
Filing date: 2017-08-01
Publication date: 2020-09-22
Anticipated expiration: 2037-08-01
Also published as: CN107609570A

Abstract

本发明公开了一种基于属性分类和多视角特征融合的微视频流行度预测方法，所述方法包括以下步骤：利用社会属性特征对微视频进行分类，将微视频分配到不同的流行度等级层次中，获取微视频的初级流行度范围；计算每一个流行度等级层次中不同模态视角下的微视频的相似关系，并用拉普拉斯矩阵的形式表述；利用不同模态的拉普拉斯矩阵的线性组合作为公共子空间的拉普拉斯矩阵；基于拉普拉斯矩阵，利用半监督的方法对微视频的流行度进行预测。本发明利用属性分类和多视角特征融合的方式进行学习，消除了单一视角特征对于流行度预测的限制，同时强调了社会属性特征对于流行度预测的决定性作用。

Description

基于属性分类和多视角特征融合的微视频流行度预测方法

技术领域

本发明涉及微视频流行度领域，尤其涉及一种基于属性分类和多视角特征融合的微视频流行度预测方法。

背景技术

随着网络技术与社交平台的普及，微视频已经作为一种新的用户内容，受到了越来越多的关注。微视频是指短则30秒，长则不超过20分钟的视频短片。微视频的出现，不仅符合现代社会快节奏生活方式下的网络观看习惯和移动终端特色，也可满足娱乐爆炸、注意力稀缺时代消费者的自主参与感和注意力回报率的需求，可以预见“微视频”带给大众的将是随时随地随意的视频享受。而微视频流行度的预测在广告推送，视频推荐以及预留带宽方面均具有指导作用，因此，对于微视频流行度的预测具有重要的意义。

在现实生活中，每一个对象均可以用多种不同的视角特征进行表示，例如微视频的表示可以存在声学特征、视觉特征、社会属性特征以及文本特征等多种形式，其中社会属性特征属于人工标注的高级特征，对流行度的预测起到了决定性的作用。其他不同视角的特征可以为微视频流行度的预测起到不同的辅助作用，因此特征融合以及特征选择也是目前比较流行的处理多视角特征的方法。

发明人在实现本发明的过程中，发现现有技术至少存在以下缺点和不足：

在实际的应用以及经验中，社会属性特征为人为标注的特征，并不能通过机器学习得到，因此区别于其他机器学习特征。但是目前的方法，如TMALL^[1]等，不能充分理解特征之间的不对等性，将所有的特征同等对待，无法满足实际应用中多种需要。

发明内容

本发明提供了一种基于属性分类和多视角特征融合的微视频流行度预测方法，本发明利用属性分类和多视角特征融合的方式进行学习，消除了单一视角特征对于流行度预测的限制，同时强调了社会属性特征对于流行度预测的决定性作用，详见下文描述：

一种基于属性分类和多视角特征融合的微视频流行度预测方法，所述方法包括以下步骤：

利用社会属性特征对微视频进行分类，将微视频分配到不同的流行度等级层次中，获取微视频的初级流行度范围；

计算每一个流行度等级层次中不同模态视角下的微视频的相似关系，并用拉普拉斯矩阵的形式表述；

利用不同模态的拉普拉斯矩阵的线性组合作为公共子空间的拉普拉斯矩阵；基于拉普拉斯矩阵，利用半监督的方法对微视频的流行度进行预测。

其中，所述方法还包括：对给定的微视频提取4种视角模态特征。

进一步地，所述4种视角模态特征具体为：视觉特征、声学特征、文本特征以及社会属性特征。

其中，所述利用社会属性特征对微视频进行分类，将微视频分配到不同的流行度等级层次中具体为：

利用支持向量机的方法处理社会属性特征，将微视频分为不同的流行度等级；所述支持向量机所用的核函数为高斯核。

其中，所述计算每一个流行度等级层次中不同模态视角下的微视频的相似关系，并用拉普拉斯矩阵的形式表述具体为：

其中，L(S_kl)为在第k个模态特征空间中的处于流行度等级l的微视频的归一化拉普拉斯矩阵，D_kl为对角矩阵，其值为S_kl各列的数值之和，S_kl为第k个特征空间的处于流行度等级l的微视频之间的径向基距离，以此来表征微视频之间的相似度关系。

本发明提供的技术方案的有益效果是：

1、利用社会属性特征对微视频进行流行度档次的划分，有利于发挥社会属性的决定性指导作用，维持微视频流行度的排序；

2、对3种视角信息进行学习，达到特征融合的目的，学习得到公共子空间，以此来消除单一特征空间对于预测结果的局限；

3、利用拉普拉斯矩阵表示各微视频特征之间的图关系，以此来提高流行度预测的精度。

附图说明

图1为一种基于属性分类和多视角特征融合的微视频流行度预测方法的流程图；

图2为本方法与其他流行度预测算法的对比结果示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

为了达到较好的预测效果，需要能够全面、自动、准确进行微视频流行度预测的方法。研究表明：相近特征之间的微视频具有相似的流行度。本发明实施例提出了一种基于属性分类和多视角特征融合的微视频流行度预测方法，参见图1，详见下文描述：

101：利用社会属性特征对微视频进行分类，将微视频分配到不同的流行度等级层次中，获取微视频的初级流行度范围；

其中，流行度等级层次的划分与测试集中的微视频的流行度分数有关。将训练集的微视频的分数由高到低进行排列，然后从流行度分数从高到低将微视频平均分配到不同的等级中，将此作为训练集的流行度等级分类。测试集的微视频等级分类则由训练得到的分类器进行预测得到。

102：计算每一个流行度等级层次中不同模态视角下的微视频的相似关系，并用拉普拉斯矩阵的形式表述；

103：利用不同模态的拉普拉斯矩阵的线性组合作为公共子空间的拉普拉斯矩阵；

104：基于拉普拉斯矩阵，利用半监督的方法对微视频的流行度进行预测。

其中，在步骤101之前，该方法还包括：对给定的微视频提取4种视角模态特征。

进一步地，上述4种视角模态特征具体为：视觉特征、声学特征、文本特征以及社会属性特征。

其中，在步骤101中利用社会属性特征对微视频进行流行度等级的分类具体为：

利用支持向量机的方法处理社会属性特征，将微视频分为不同的流行度等级。其中，支持向量机所用的核函数为高斯核。

其中，在步骤102中计算每一个流行度等级层次中不同模态视角下的微视频的相似关系，并用拉普拉斯矩阵的形式表述具体为：

其中，L(S_kl)为在第k个模态特征空间中的处于流行度等级l的微视频的归一化拉普拉斯矩阵，D_kl为对角矩阵，其值为S_kl各列的数值之和。

综上所述，本发明实施例通过上述步骤101-步骤104避免了单一视角的特征对于流行度预测的局限性。利用社会属性特征进行特殊的分类处理，强调了社会属性特征对于流行度预测的决定性的指导作用，有利于维持流行度分数之间的排序。

实施例2

下面结合具体的计算公式、实例对实施例1中的方案进行进一步地介绍，详见下文描述：

201：对给定的微视频提取4种视角模态特征，即：视觉特征、声学特征、文本特征以及社会属性特征；

本发明实施例首先对给定的微视频提取4种微视频研究的常用特征，包括：视觉特征、声学特征、文本特征以及社会属性特征。

1、视觉特征包括：颜色直方图信息、微视频中的物体信息(可以用卷积神经网络的方法得到，也可以采用其他方法获取，本发明实施例对此不做限制)和美学特征。

2、声学特征包括：微视频中的音乐以及其他主要背景音的特征。

3、文本特征包括：微视频中的文本标注等，可以用word2vec^[2]方法直接得到。

4、社会属性特征是指用户账号的信息，包括：账号是否通过验证，粉丝数等信息。这4种模态的特征均能对流行度的预测起到影响，而且互为补充。

其中，上述视觉特征、声学特征、文本特征以及社会属性特征为微视频领域公知的技术术语，本发明实施例对此仅做简单的介绍，在此不做赘述。

202：利用社会属性特征将微视频分配到不同的流行度等级；

在实际提取的4种视角模态特征中，社会属性特征为人为标注的高级特征，对流行度的预测具有重要的决定性作用，因此利用社会属性特征对微视频进行分类处理，划分不同的流行度档次，对微视频的流行度进行粗略的预测。

由于支持向量机在进行低维度特征的分类时，具有显著的优势，因此利用支持向量机进行流行度等级的分类。为了提升分类的性能，需要解决社会属性维度低的限制，将社会属性特征通过高斯核函数从低维空间映射到高维空间，进而寻找合理有限的线性分类函数。

203：计算处于相同流行度等级的微视频各种模态特征的拉普拉斯图关系；

由于流行度分数只有在微视频之间进行对比时，才有实际的意义，同时具有相似特征的微视频可能具有相同的或者相似的流行度分数，因此考虑微视频之间的内在联系极其重要。

一般地，内在的联系可以用公式化的拉普拉斯矩阵表述，其计算拉普拉斯矩阵的具体方法如下：

其中，S_kl为第k个特征空间的处于流行度等级l的微视频之间的径向基距离，以此来表征微视频之间的相似度关系，

和

为第k个特征空间中的微视频对，σ_k表示第k个特征空间的欧几里得距离的中值，C(l)为处于流行度等级l的微视频集合。

在此基础上，可以按照如下方法计算归一化拉普拉斯矩阵：

其中，L(S_kl)为在第k个模态特征空间中的处于流行度等级l的微视频的归一化拉普拉斯矩阵，D_kl为对角矩阵，其值为S_kl各列的数值之和。则可以将特征相似的微视频可能具有相似的流行度这一先验知识以数学表达式的形式写出如下：

其中，f表示预测的微视频流行度分数，T表示矩阵的转置，K为微视频的特征的模态数目。

204：利用不同模态特征的拉普拉斯矩阵，将特征投影到公共子空间中，构造公共子空间的拉普拉斯矩阵；

为了综合利用不同模态之间的互补特征信息，需要将其余3个视角模态(即视觉特征、声学特征、文本特征)的信息投影到公共子空间。该子空间会保持在原有特征空间中的微视频之间的内在的相似关系。基于此假设，采用原有特征空间的拉普拉斯矩阵的线性组合来构造公共子空间的拉普拉斯矩阵，其公式表示如下所示：

其中，β＝[β₁,β₂,...,β_k]为权重系数，L(S_l)为流行度等级l的微视频的不同模态特征所投影的公共子空间的拉普拉斯矩阵。

205：基于公共子空间的拉普拉斯矩阵，利用半监督的方法对微视频的流行度进行预测。

在公共子空间的拉普拉斯矩阵的基础上，采用半监督回归的方式进行流行度分数的预测。完整的目标函数如下：

其中，λ和α为非负的平衡系数，f_l为预测得到的流行度处于流行度等级l的微视频的流行度具体分数，y_l为真实的流行度，M为对角矩阵，其中有标记的微视频值为1，未标记的微视频值为0，

表示权重系数的2范数来控制模型的复杂度。

在该流行度预测中，只需要保证训练集的流行度与真实值相近，测试集的流行度分数则用图关系进行限定。目标函数的求解可以采用标准的求导方式进行求解，具体求解过程为本领域技术人员所公知，本发明实施例对此不做赘述。

综上所述，本发明实施例通过上述步骤201-步骤205避免了单一视角的特征对于流行度预测的局限性。利用社会属性特征进行特殊的分类处理，强调了社会属性特征对于流行度预测的决定性的指导作用，有利于维持流行度分数之间的排序。

实施例3

下面结合具体的实验数据、实例对实施例1和2中的方案进行可行性验证，详见下文描述：

本实验使用的测试数据集为从Vine社交网站(本领域技术人员所公知，本发明实施例对此不做赘述)上下载的微视频集，其微视频长度均为6S。采用均方误差和斯皮尔曼等级相关值衡量本方法的微视频流行度预测性能，均方误差(nMSE)表征预测的绝对准确性，斯皮尔曼等级相关值(SRC)表征预测的排序准确性。

实验中将本方法与多种方法进行对比，包括TMALL,MLR^[3],Lasso^[4],SVR^[5],RegMVMT^[6],MLHR^[7],MSNL^[8],MvDA^[9]等8种近期比较普遍的微视频流行度预测方法。

图2为本方法与其他8种微视频流行度预测算法的nMSE和SRC指标的对比结果。由对比可知，本方法在现有数据集上其预测的绝对准确度(nMSE值最低)高于其他对比方法，稳定性(nMSE的均方误差比较小)较好，排序准确性(SRC值远远超出其他方法)优于其他对比方法。实验验证了本方法的可行性与优越性。

参考文献：

[1]Chen J,Song X,Nie L,et al.Micro tells macro:predicting thepopularity of micro-videos via a transductive model[C]//Proceedings of the2016ACM on Multimedia Conference.ACM,2016:898-907.

[2]T.Mikolov,I.Sutskever,K.Chen,G.S.Corrado,J.Dean,Distributedrepresentations of words and phrases and their compositionality,in:Advancesin Neural Information Processing Systems,2013,pp.3111–3119.

[3]Aiken L S,West S G,Pitts S C.Multiple linear regression[J].Handbook of psychology,2003.

[4]Hans C.Bayesian lasso regression[J].Biometrika,2009:835-845.

[5]A.J.Smola and B.Scholkopf,“A tutorial on support vectorregression,”Statistics and computing,vol.14,no.3,pp.199–222,2004.

[6]J.Zhang and J.Huan,“Inductive multi-task learning with multipleview data,”in Proceedings of ACM International Conference on KnowledgeDiscovery and Data Mining.ACM,2012,pp.543–551.

[7]Y.Yang,J.Song,Z.Huang,and Z.Ma,“Multi-feature fusion viahierarchical regression for multimedia analysis,”IEEE Transactions onMultimedia,vol.15,no.3,pp.572–581,2013.

[8]X.Song,L.Nie,L.Zhang,M.Akbari,and T.-S.Chua,“Multiple socialnetwork learning and its application in volunteerism tendency prediction,”inProceedings of ACM SIGIR Conference on Research and Development inInformation Retrieval.ACM,2015,pp.213–222.

[9]M.Kan,S.Shan,H.Zhang,S.Lao,and X.Chen,“Multi-view discriminantanalysis,”IEEE Transactions on Pattern Analysis and Machine Intelligence,vol.38,no.1,pp.188–194,2016.

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于属性分类和多视角特征融合的微视频流行度预测方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的一种基于属性分类和多视角特征融合的微视频流行度预测方法，其特征在于，所述方法还包括：对给定的微视频提取4种视角模态特征。

3.根据权利要求2所述的一种基于属性分类和多视角特征融合的微视频流行度预测方法，其特征在于，所述4种视角模态特征具体为：视觉特征、声学特征、文本特征以及社会属性特征。

4.根据权利要求1所述的一种基于属性分类和多视角特征融合的微视频流行度预测方法，其特征在于，所述利用社会属性特征对微视频进行分类，将微视频分配到不同的流行度等级层次中具体为：

5.根据权利要求1所述的一种基于属性分类和多视角特征融合的微视频流行度预测方法，其特征在于，所述计算每一个流行度等级层次中不同模态视角下的微视频的相似关系，并用拉普拉斯矩阵的形式表述具体为：