CN110222231B

CN110222231B - 一种视频片段的热度预测方法

Info

Publication number: CN110222231B
Application number: CN201910502112.XA
Authority: CN
Inventors: 杨阳; 汪政; 周杰
Original assignee: Chengdu Aohaichuan Technology Co ltd
Current assignee: Chengdu Aohaichuan Technology Co ltd
Priority date: 2019-06-11
Filing date: 2019-06-11
Publication date: 2022-10-18
Anticipated expiration: 2039-06-11
Also published as: CN110222231A

Abstract

本发明公开了一种视频片段的热度预测方法，用视频编码模块(Video Encoder)进行视频片段的视频编码特征向量提取的方法，从而获取视频的视觉信息，用视频‑语义映射模型LT(Language Transfer)进行视频语义映射特征向量提取的方法，并进行多模态信息融合，从而可以获取更多关于视频内容的信息。这样实现了结合弹幕的语义信息，对视频片段热度的预测，从而将精彩片段推荐给观众，增加观众观看意愿。

Description

一种视频片段的热度预测方法

技术领域

本发明属于视频信息挖掘技术领域，更为具体地讲，涉及一种视频片段的热度预测方法。

背景技术

在视频热度预测方面，现有技术中，大多数方法会根据历史视频的各个属性：包括视频发布者、视频长度、视频类型、视频发布时间等具体数据，来判断哪些类别的视频可能收到观众的欢迎，没有通过视频的视觉内容直接去预测一个视频是否会受到观众欢迎，因此，预测往往不准确。并且只能预测某个视频在将来是否会受到观众的欢迎，并不能预测一段视频中哪些片段更受观众欢迎。

在弹幕信息挖掘方面，目前大量的工作主要针对弹幕的密集程度，来判断视频中哪个片段正在发生重要的、吸引人的事情，只用到了弹幕的数量信息，没有用到弹幕的语义信息，并用弹幕的语义信息来判断观众的情绪和喜好。

现有的视频热度预测主要集中在预测一个视频在未来是否会受到观众的欢迎。然而对一段视频来讲，可能并不会整段视频都很吸引人，但它可能会存在一些比较精彩的片段。如果能够挖掘出视频中哪些片段在未来更能够吸引观众，并将精彩片段推荐给观众，那么观众可能会更愿意去观看这些视频，增加点击量，进而产生巨大的商业价值。

发明内容

本发明的目的在于克服现有技术的不足，提供一种视频片段的热度预测方法，结合弹幕的语义信息，对视频片段的热度进行预测，从而将精彩片段推荐给观众，增加观众观看意愿。

为实现上述发明目的，本发明视频片段的热度预测方法，其特征在于，包括以下步骤：

(1)、构建训练用数据集

收集视频及对应的弹幕数据，并根据场景的变化将视频划分为连续的若干片段，将弹幕与每一视频片段对应，以视频片段的弹幕多少进行热度划分，并作为该视频片段的标签，即判断视频片段是否受到观众欢迎的依据，弹幕多的视频片段，为受观众欢迎的视频片段；

对于每一视频的关键帧，提取其帧特征FEA；

(2)、构建并训练一视频编码模块VE(Video Encoder)

视频编码模型(VE)有两层，分别是段内编码层和段间连接层，两个层均为双向的LSTM(Long Short-Term Memory，长短期记忆网络)结构；

对输入视频，提取关键帧的帧特征FEA送入段内编码层，在段内编码层，每一帧用LSTM单元依次前向、后向连接(编码)，这样可以获得时间维度的细微变化信息；

在前向连接中，在每一视频片段的最后一个帧特征编码后，得到的前向信息传递送入段间连接层，在后向连接中，在每一视频片段的最前一个帧特征编码后，得到的反向信息传递送入段间连接层；

在段间连接层中，每一视频片段对应有一个前向LSTM单元和一个后向LSTM单元，前向LSTM单元将该视频片段前向信息传递与前一视频片段在段间连接层中对应的前向LSTM单元输出的前向特征向量(FEA_FVE)进行连接(编码)，输出前向特征向量(FEA_FVE)；后向LSTM单元将该视频片段后向信息传递与后一视频片段段间连接层中对应的后向LSTM单元输出的后向特征向量(FEA_BVE)进行连接(编码)，输出后向特征向量(FEA_BVE)，以获得视频相邻片段场景变化的信息；

对于每个视频片段，将前向特征向量(FEA_FVE)与后向特征向量(FEA_BVE)进行连接，合成一个视频编码特征向量FEA_VE；

将视频片段特征向量FEA_VE送入全连接层FC1中进行全连接操作，全连接后输出到Softmax层S1，将视频片段特征向量FEA_VE连接到5类热度，即非常热门、比较热门、一般热门、比较冷门、非常冷门，并用训练用数据集中的视频进行训练：输入视频以及该视频的各个视频片段标签，使用梯度下降法优化视频编码模块；

(3)、构建并训练一视频-语义映射模型LT(Language Transfer)

视频-语义映射模型包含两个层：编码层和比较层；

在LT的训练过程中，对于编码层，对于一条弹幕(相关弹幕)，将其训练标签设置为1，并在训练用数据集中选择其配对的视频片段，然后随机选择一个与这一视频片段的无相关弹幕，将其训练标签设置为-1；对于选择的视频片段，将关键帧的帧特征FEA用LSTM单元依次连接，并获取最后一个LSTM单元的前向信息传递，送入全连接层FC2中进行全连接，得到视频语义映射特征向量FEA_LT；对于相关弹幕和不相关弹幕，使用Doc2Vec(文本向量转换工具)提取弹幕的文本特征，并送入全连接层FC3中进行全连接，得到相关弹幕和不相关弹幕的文本向量，其中，视频语义映射特征向量与文本向量维度相同。

在视频-语义映射模型LT的训练过程中，对于比较层，将视频片段的视频语义映射特征向量分别与该视频片段的相关弹幕文本向量、不相关弹幕文本向量进行相似度计算，再分别以标签1、-1，对视频-语义映射模型进行训练；

(4)、构建并训练一基于弹幕的视频片段热度预测模型

基于弹幕的视频片段热度预测模型包括优化后的视频编码模块(VE模块)、训练后的视频-语义映射模型以及一个特征融合层；

在特征融合层中，将优化后的视频编码模块获取的视频片段特征向量FEA_VE与训练后的视频-语义映射模型获取的视频语义映射特征向量FEA_LT进行多模态信息融合，得到视频片段融合特征向量VL，将视频片段融合特征向量VL送入全连接层FC4中进行全连接，全连接后输出到Softmax层S2，得到5类预测热度，即非常热门、比较热门、一般热门、比较冷门、非常冷门；

将训练用数据集中的视频分别输入到优化后的视频编码模块(VE模块)以及训练后的视频-语义映射模型，以该视频的各个视频片段标签作为训练目标，使用梯度下降法对基于弹幕的视频片段热度预测模型进行训练，得到训练后的基于弹幕的视频片段热度预测模型；

(5)、对新视频各个视频片段进行热度预测

将一新视频根据场景的变化将视频划分为连续的若干片段，并同时输入到训练后的基于弹幕的视频片段热度预测模型中，得到各个视频片段的预测热度。

本发明的目的是这样实现的。

通过分析视频画面的内容，能获取视频每个片段发生的事情，从而分析视频中哪些内容会受到欢迎。针对视频片段的内容分析，本发明创造性地提出了用视频编码模块(Video Encoder)进行视频片段的视频编码特征向量提取的方法，从而获取视频的视觉信息。此外，通过分析弹幕的语义信息，可以更加了解观众的喜好。针对现有研究中，对弹幕语义分析技术缺乏的问题，本发明创造性的提出了视频-语义映射模型LT(LanguageTransfer)进行视频语义映射特征向量提取的方法，并进行多模态信息融合，从而可以获取更多关于视频内容的信息。这样实现了结合弹幕的语义信息，对视频片段热度的预测，从而将精彩片段推荐给观众，增加观众观看意愿。

附图说明

图1是本发明视频片段的热度预测方法一种具体实施方式流程图；

图2是视频编码模块一具体实施方式的结构示意图；

图3是视频-语义映射模型一具体实施方式的结构示意图；；

图4是基于弹幕的视频片段热度预测模型的结构示意图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

图1是本发明视频片段的热度预测方法一种具体实施方式流程图。

在本实施例中，如图1所示，本发明视频片段的热度预测方法包括以下步骤：

步骤S1：构建训练用数据集

针对现有视频热度预测方法中，预测模型普遍存在的数据稀疏性问题，本实施例通过收集主流视频网站上的视频以及对应弹幕来解决。

爬取(收集)Bilibili网站中的视频及对应的弹幕，并根据场景的变化将视频划分为连续的若干片段。在本实施例中，爬取(收集)情况表1所示。

表1

在本实施例中，对收集的视频进行抽帧，每隔10帧取1帧(并作为关键帧)。之后使用提取每帧的颜色直方图，让相邻两帧颜色直方图相差比较大的，作为视频片段的分隔区域，即将视频进行分段，这样一个视频可以被分为长短不同的几段。

将弹幕与每一视频片段对应，以视频片段的弹幕多少进行热度划分，并作为该视频片段的标签，即判断视频片段是否受到观众欢迎的依据，弹幕多的视频片段，为受观众欢迎的视频片段。

对于每一视频的关键帧，输入到Resnet网络(Residual Neural Network，即残差神经网络)提取其帧特征FEA。

步骤S2：构建并训练一视频编码模块VE(Video Encoder)

在本实施例中，构建的视频编码模块如图2所示。视频编码模型(VE)有两层，分别是段内编码层和段间连接层，两个层均为双向的LSTM(Long Short-Term Memory，长短期记忆网络)结构。

对输入视频，提取关键帧的帧特征FEA送入段内编码层，在段内编码层，每一帧用LSTM单元依次前向(箭头向右)、后向(箭头向左)连接即编码，这样可以获得时间维度的细微变化信息。在本实施例中，给出了第一个视频片段即视频片段1(含有K帧关键帧)以及第二个视频片段即视频片段2(含有M-K+1帧关键帧)的连接情形，其他的视频片段的连接方式相同。

在前向连接中，在每一视频片段的最后一个帧特征编码后，得到的前向信息传递送入段间连接层，在后向连接中，在每一视频片段的最前一个帧特征编码后，得到的反向信息传递送入段间连接层。在本实施例中，如图2所示，视频片段1的最后一个帧特征FEA(K-1)编码后、视频片段2的最后一个帧特征FEA(M)编码后，得到的前向信息传递送入段间连接层，视频片段1的最前一个帧特征FEA0编码后、视频片段2的最前一个帧特征FEA(K)编码后，得到的后向信息传递送入段间连接层。

在段间连接层中，每一视频片段对应有一个前向LSTM单元和一个后向LSTM单元，前向LSTM单元将该视频片段前向信息传递与前一视频片段在段间连接层中对应的前向LSTM单元输出的前向特征向量FEA_FVE进行连接(编码)，输出前向特征向量FEA_FVE；后向LSTM单元将该视频片段后向信息传递与后一视频片段段间连接层中对应的后向LSTM单元输出的后向特征向量FEA_BVE进行连接(编码)，输出后向特征向量FEA_BVE，以获得视频相邻片段场景变化的信息。在本实施例中，如图2所示，对于视频片段1，其没有前一视频片段，因此，视频片段1对应的前向LSTM单元输出的前向特征向量为视频片段1的前向信息。

对于每个视频片段，将前向特征向量FEA_FVE与后向特征向量FEA_BVE进行连接，合成一个视频编码特征向量FEA_VE。

将视频片段特征向量FEA_VE送入全连接层FC1中进行全连接操作，全连接后输出到Softmax层S1，将视频片段特征向量FEA_VE连接到5热度分类，即非常热门、比较热门、一般热门、比较冷门、非常冷门，并用训练用数据集中的视频进行训练：输入视频以及该视频的各个视频片段标签，使用梯度下降法优化视频编码模块。

训练过后，视频编码模块VE最终可以对输入视频的每个视频片段进行特征提取，并输出视频片段特征向量FEA_VE。

步骤S3：构建并训练一视频-语义映射模型LT(Language Transfer)

在本实施例中，如图3所示，视频-语义映射模型包含两个层：编码层和比较层。视频-语义映射模型(LT)可以有效地将视频特征映射到语义空间，并带有语义信息。

在视频-语义映射模型LT的训练过程中，对于编码层，对于一条弹幕(相关弹幕)，将其训练标签设置为1，并在训练用数据集中选择其配对的视频片段，然后随机选择一个与这一视频片段的无相关弹幕，将其训练标签设置为-1；对于选择的视频片段，将关键帧的帧特征FEA用LSTM单元依次连接，并获取最后一个LSTM单元的前向信息传递，送入全连接层FC2中进行全连接，得到视频语义映射特征向量FEA_LT。对于相关弹幕和不相关弹幕，使用Doc2Vec(文本向量转换工具)提取弹幕的文本特征，并送入全连接层FC3中进行全连接，得到相关弹幕和不相关弹幕的文本向量，其中，视频语义映射特征向量与文本向量维度相同。

在LT的训练过程中，对于比较层，将视频片段的视频语义映射特征向量分别与该视频片段的相关弹幕文本向量、不相关弹幕文本向量进行相似度计算，再分别以标签1、-1，对视频-语义映射模型进行训练。

在比较层中，让相关弹幕文本向量、视频语义映射特征向量的相似度提高；让不相关弹幕文本向量、视频语义映射特征向量的相似度降低。

在本实施例中，训练时计算损失函数，分别使用欧式距离、协方差、皮尔逊相关、Kendall和Rank方法，来度量相似性。

在本实施例中，对视频-语义映射模型进行训练，采用余弦距离来度量相似性，1表示相似，-1表示不相似。具体而言为：将视频片段的帧特征FEA逐一输入到LT网络中，每个视频片段可以提出特征FEA_LT。同时选一个与视频片段相关的弹幕D1，选一个与视频片段不相关的弹幕D2，使用Doc2Vec模型提出弹幕D1的特征FEA_D1，提出弹幕D2的特征FEA_D2。让FEA_LT与FEA_D1的余弦距离接近1，让FEA_LT与FEA_D2的余弦距离接近-1。使用梯度下降法优化视频-语义映射模型。

步骤S4：构建并训练一基于弹幕的视频片段热度预测模型

在本实施例中，如图4所示，在优化后的视频编码模块获取了视频的视频片段特征向量FEA_VE、训练后的视频-语义映射模型获取的视频语义映射特征向量FEA_LT之后，通过将输出向量相连接的方式，将两个模型进行融合，构建基于弹幕的视频片段热度预测模型模型，用于视频片段热度预测，具体而言，如图4所示，基于弹幕的视频片段热度预测模型包括优化后的视频编码模块(VE模块)、训练后的视频-语义映射模型以及一个特征融合层。

在特征融合层中，将优化后的视频编码模块获取的视频片段特征向量FEA_VE与训练后的视频-语义映射模型获取的视频语义映射特征向量FEA_LT进行多模态信息融合，得到视频片段融合特征向量VL，将视频片段融合特征向量VL送入全连接层FC4中进行全连接，全连接后输出到Softmax层S2，得到5类预测热度，即非常热门、比较热门、一般热门、比较冷门、非常冷门。

将训练用数据集中的视频分别输入到优化后的视频编码模块(VE模块)以及训练后的视频-语义映射模型，以该视频的各个视频片段标签作为训练目标，使用梯度下降法对基于弹幕的视频片段热度预测模型进行训练，得到训练后的基于弹幕的视频片段热度预测模型。

步骤S5：对新视频各个视频片段进行热度预测

实验结果

实验结果见表2，其中，“单层LSTM”是我们的基线模型，其仅应用一层LSTM来编码视频帧并直接使用每个片段的最后一个向量来预测视频片段的热度，“视频编码(VE)”表示，仅用本发明中构建并训练一视频编码模块得到的视频编码特征向量FEA_VE进行预测视频片段的热度。

模型	精确度	召回率
			单层LSTM	0.355	0.267
视频编码(VE)	0.412	0.298
			本发明(相似度度量：协方差)	0.441	0.312
本发明(相似度度量：皮尔森相关)	0.437	0.321
			本发明(相似度度量：Kendall)	0.429	0.313
本发明(相似度度量：Rank)	0.421	0.304

表2

从表2我们可以看出，相对于基线方法，本发明中，依据视频编码从视频中提取了更准确的信息，并且它可以更好地模拟每个视频片段之间的相关性，因此，视频片段热度预测更为精确。结合视频语义映射特征向后，本发明提出的基于弹幕的视频片段热度预测模型的效果得到进一步提升。原因在于视频-语义映射模型LT学习有效的视频-弹幕映射，并减少视频和弹幕评论之间的语义鸿沟。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种视频片段的热度预测方法，其特征在于，包括以下步骤：

(1)、构建训练用数据集

对于每一视频的关键帧，提取其帧特征FEA；

(2)、构建并训练一视频编码模块

视频编码模型有两层，分别是段内编码层和段间连接层，两个层均为双向的LSTM(LongShort-Term Memory，长短期记忆网络)结构；

对输入视频，提取关键帧的帧特征FEA送入段内编码层，在段内编码层，每一帧用LSTM单元依次前向、后向连接，这样可以获得时间维度的细微变化信息；

在段间连接层中，每一视频片段对应有一个前向LSTM单元和一个后向LSTM单元，前向LSTM单元将该视频片段前向信息传递与前一视频片段在段间连接层中对应的前向LSTM单元输出的前向特征向量FEA_FVE进行连接，输出前向特征向量FEA_FVE；后向LSTM单元将该视频片段后向信息传递与后一视频片段段间连接层中对应的后向LSTM单元输出的后向特征向量FEA_BVE进行连接，输出后向特征向量FEA_BVE，以获得视频相邻片段场景变化的信息；

对于每个视频片段，将前向特征向量FEA_FVE与后向特征向量FEA_BVE进行连接，合成一个视频编码特征向量FEA_VE；

(3)、构建并训练一视频-语义映射模型LT(Language Transfer)

视频-语义映射模型包含两个层：编码层和比较层；

在视频-语义映射模型LT的训练过程中，对于编码层，对于一条相关弹幕，将其训练标签设置为1，并在训练用数据集中选择其配对的视频片段，然后随机选择一个与这一视频片段的无相关弹幕，将其训练标签设置为-1；对于选择的视频片段，将关键帧的帧特征FEA用LSTM单元依次连接，并获取最后一个LSTM单元的前向信息传递，送入全连接层FC2中进行全连接，得到视频语义映射特征向量FEA_LT；对于相关弹幕和不相关弹幕，使用文本向量转换工具提取弹幕的文本特征，并送入全连接层FC3中进行全连接，得到相关弹幕和不相关弹幕的文本向量，其中，视频语义映射特征向量与文本向量维度相同；

(4)、构建并训练一基于弹幕的视频片段热度预测模型

基于弹幕的视频片段热度预测模型包括优化后的视频编码模块、训练后的视频-语义映射模型以及一个特征融合层；

将训练用数据集中的视频分别输入到优化后的视频编码模块以及训练后的视频-语义映射模型，以该视频的各个视频片段标签作为训练目标，使用梯度下降法对基于弹幕的视频片段热度预测模型进行训练，得到训练后的基于弹幕的视频片段热度预测模型；

(5)、对新视频各个视频片段进行热度预测