CN112287175B

CN112287175B - 一种视频高亮片段预测方法和系统

Info

Publication number: CN112287175B
Application number: CN202011183864.3A
Authority: CN
Inventors: 徐童; 胡林康; 何伟栋; 张乐; 熊辉; 陈恩红
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2020-10-29
Filing date: 2020-10-29
Publication date: 2024-02-13
Anticipated expiration: 2040-10-29
Also published as: CN112287175A

Abstract

本发明公开了一种视频高亮片段预测方法和系统，方法包括：获取视频数据，将视频数据划分为固定长度的视频片段，并在训练数据上标记出高亮片段；使用神经网络从每个视频片段中分别提取出视觉特征和听觉情感特征；对视觉特征和听觉情感特征进行模态内与跨模态的融合，得到融合特征；基于融合特征对视频片段进行评分；使用成对的高亮‑非高亮片段组合，以及相应的损失函数训练模型；基于模型的训练结果选择合适的参数，对长视频中的所有片段进行评分，根据评分结果预测出视频高亮片段。本发明通过使用声音中蕴含的情感信息来强化视觉和听觉的联合建模过程，可以从难以进行人工标注的、缺少语义信息和细粒度标签的长视频数据中预测高亮片段。

Description

一种视频高亮片段预测方法和系统

技术领域

本发明涉及数据挖掘中的视频分析技术领域，尤其涉及一种视频高亮片段预测方法和系统。

背景技术

在线视频网站近年来取得了巨大的发展，这些网站不仅提供了海量的视频数据，而且数据规模仍在快速增长。因此对于用户而言，从海量视频中直接选取高亮片段(比如情节的高潮部分)进行观看就成为了一种很合理的节省时间的选择。同时，网站也可以通过推荐高亮片段给用户的方法来改善用户体验，并吸引用户去观看完整的视频。

与传统的视频摘要致力于完整地描述视频内容不同，提取高亮片段的目的在于找到那些最受观众欢迎的片段。一般而言，需要通过费时费力的人工标注方法来发现这种高亮片段，并且标注结果受标注者主观判断的影响较大；因此，部分平台使用了基于规则的启发式方法来预测一个片段是否会受到观众的欢迎。比如现在很多网站会向用户提供视频弹幕功能，可以显示过往用户在当前视频中留下的实时评论；这些弹幕评论不仅包含时间轴信息，还可以被用于发现观众的兴趣点所在，从而预测高亮片段。但类似于这样的方法依赖于大量的观看与评论记录，无法应用到缺少观看记录的新视频上。

另一方面，从深度学习技术的角度考虑，现有的预测高亮片段的方法主要针对拥有丰富语义标签的短视频，但这对于缺少细粒度标注的长视频，比如电影和电视剧，是不适用的。一些方法从视频内容所属的领域中获取补充信息，或是使用具有对应的人工剪辑的摘要的视频数据，因而这些方法并不适用于缺少额外内容信息标注的视频。也有一些方法使用了弹幕中的文本信息来帮助预测，但是这些弹幕评论中的文本语义十分复杂，并不一定与预测当前视频片段的受欢迎程度相关。所有上述的困难都限制了对视频高亮片段的预测水平。

与此同时，在上述的各种解决方法中，视频中的声音模态并没有受到足够的重视。如果视频经由专业人士拍摄和剪辑，并且记录了清晰准确的声音信息，那么显然声音模态中就包含了充分的情感信息，而这些情感信息对于帮助判断视频片段是否是高亮的具有重要作用(比如情感发生剧烈冲突的片段往往包含重要的故事情节)，因此利用声音中的情感信息可以帮助判断一个视频片段是否是受到观众欢迎。

综上所述，如何更加有效的预测出视频高亮片段，是一项亟待解决的问题。

发明内容

有鉴于此，本发明提供了一种视频高亮片段预测方法，能够使用情感信息来对视频中的视觉和听觉特征进行联合建模，进而从声波中提炼出情感相关的语义信息，从而在缺少语义信息或细粒度标签的长视频上预测出视频高亮片段。

本发明提供了一种视频高亮片段预测方法，包括：

获取视频数据，其中，所述视频数据包括：带有热度标记或间接统计指标的训练数据，以及未带有热度标记或间接统计指标的预测数据；

将所述视频数据划分为固定长度的视频片段，并在所述训练数据上标记出高亮片段；

使用神经网络从每个视频片段中分别提取出视觉特征和听觉情感特征；

对所述视觉特征和听觉情感特征进行模态内与跨模态的融合，得到融合特征；

基于所述融合特征对视频片段进行评分；

使用成对的高亮-非高亮片段组合，以及相应的损失函数训练模型；

基于模型的训练结果选择合适的参数，对长视频中的所有片段进行评分，根据评分结果预测出视频高亮片段。

优选地，所述使用神经网络从每个视频片段中分别提取出视觉特征，包括：

对每个视频片段按照固定的采样率截取出多个图像帧；

将截取的多个图像帧输入三维卷积神经网络，输出视觉特征。

优选地，所述使用神经网络从每个视频片段中分别提取出听觉情感特征，包括：

使用神经网络从每个视频片段中分别提取出情感强度特征和情感类别特征。

优选地，所述对所述视觉特征和听觉情感特征进行模态内与跨模态的融合，得到融合特征，包括：

使用协同注意力机制对两种听觉情感特征在声音模态内进行融合，使用双线性池化的方法对视觉特征和听觉情感特征进行跨模态融合，得到融合特征。

一种视频高亮片段预测系统，包括：

数据采集模块，用于获取视频数据，其中，所述视频数据包括：带有热度标记或间接统计指标的训练数据，以及未带有热度标记或间接统计指标的预测数据；

数据预处理模块，用于将所述视频数据划分为固定长度的视频片段，并在所述训练数据上标记出高亮片段；

特征提取模块，用于使用神经网络从每个视频片段中分别提取出视觉特征和听觉情感特征；

特征融合模块，用于对所述视觉特征和听觉情感特征进行模态内与跨模态的融合，得到融合特征；

评分模块，用于基于所述融合特征对视频片段进行评分；

模型训练模块，用于使用成对的高亮-非高亮片段组合，以及相应的损失函数训练模型；

预测模块，用于基于模型的训练结果选择合适的参数，对长视频中的所有片段进行评分，根据评分结果预测出视频高亮片段。

优选地，所述特征提取模块具体用于：

对每个视频片段按照固定的采样率截取出多个图像帧；

优选地，所述特征提取模块具体还用于：

优选地，所述特征融合模块具体用于：

综上所述，本发明公开了一种视频高亮片段预测方法，当需要预测视频高亮片段时，首先获取视频数据，其中，视频数据包括：带有热度标记或间接统计指标的训练数据，以及未带有热度标记或间接统计指标的预测数据；将视频数据划分为固定长度的视频片段，并在训练数据上标记出高亮片段；使用神经网络从每个视频片段中分别提取出视觉特征和听觉情感特征；对视觉特征和听觉情感特征进行模态内与跨模态的融合，得到融合特征；基于融合特征对视频片段进行评分；使用成对的高亮-非高亮片段组合，以及相应的损失函数训练模型；基于模型的训练结果选择合适的参数，对长视频中的所有片段进行评分，根据评分结果预测出视频高亮片段。本发明能够使用情感信息来对视频中的视觉和听觉特征进行联合建模，进而从声波中提炼出情感相关的语义信息，从而在缺少语义信息或细粒度标签的长视频上预测出视频高亮片段。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明公开的一种视频高亮片段预测方法实施例的方法流程图；

图2为本发明公开的一种视频高亮片段预测系统实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，为本发明公开的一种视频高亮片段预测方法实施例的方法流程图，所述方法可以包括以下步骤：

S101、获取视频数据，其中，视频数据包括：带有热度标记或间接统计指标的训练数据，以及未带有热度标记或间接统计指标的预测数据；

当需要预测视频高亮片段时，首先获取视频数据，其中，获取的视频数据中包括带有热度标记或间接统计指标的训练数据，以及未带有热度标记或间接统计指标的预测数据。

即，获取的视频数据至少包括：完整的视频数据，以及对应的热度标记或某种间接统计指标(如弹幕数量/评论数量等)。

其中，视频数据应当包括完整的图像和声音信息；在没有直接热度标记的情况下，间接统计信息(如弹幕评论信息)应当在视频中有明确的出现时刻以用于统计。用于训练模型的视频数据需要匹配有足够数量的间接统计数据以确保热度统计的合理性，而最终应用模型进行预测的数据则只需要包括视频数据。

S102、将视频数据划分为固定长度的视频片段，并在训练数据上标记出高亮片段；

在获取到视频数据后，将所有视频数据划分为固定长度的片段；然后对于训练数据的每一个视频，根据间接统计信息(如弹幕评论信息)的出现时刻将它们逐一对应到视频的每个片段，计算每个片段中所具有的间接统计信息数量。比如说，一般而言，观众会在自己感兴趣的片段上留下弹幕评论，因此一个片段内所具有的弹幕评论的密度可以表现出这个片段是否受到大多数观众的欢迎。因而，如果某一个片段中的弹幕数量超过了视频中总弹幕数量的一定比例，则将这个片段标记为这个视频中的高亮片段。利用这些标签在后续步骤中有监督地训练模型，训练之前需要将训练数据中的一部分划分为测试数据，用于选择合适的模型参数用作最终的应用目的。

S103、使用神经网络从每个视频片段中分别提取出视觉特征和听觉情感特征；

每一个视频会被分割为若干等长的视频片段，每个片段上都会提取一组视觉特征和两组听觉情感特征。在提取特征之前，首先按照固定的采样率从连续的视频画面中截取图像帧，然后视频中捕捉并记录声音信号。在提取视频特征时，使用三维卷积神经网络对图像帧进行处理，每个视频片段中应当截取出一组多个图像帧输入三维卷积神经网络，依次通过多层的卷积和池化操作之后，输出一个三维张量作为视觉特征：F_v∈R^h×w×c，在这里h,w,c分别表示张量的高度、宽度与通道数三个维度。

提取的听觉情感特征分为情感强度特征和情感类别特征两种。情感强度描述是人类情绪的极性与强烈程度，极性分为正面情感与负面情感两种，而强烈程度则将不同的情绪按照平和或激烈的程度划分为不同的等级；这两者综合可以将不同的情感标识以或正或负的不同整数，以正负区分极性，并以绝对值区分强烈程度。情感类别则将不同的情绪划分到几种大的情感类别中去，以自然数来标识不同的情感类别。

对于情感强度特征，首先从声音信号中获取声音在频率域上的表示，频谱图A_s∈R^{frequency×time}，频谱图为频率×时间的二维矩阵。每个视频分段的声音信号中可以提取多个在时间轴上有所重叠的频谱图，将这些形式上完全一致的频谱图堆叠后输入卷积神经网络以提取特征。提取情感强度特征的卷积神经网络需要提前在一个声音情感强度相关的数据集上进行预训练，然后在模型整体训练时进行微调。这一卷积神经网络同样由多层的卷积层和池化层组成，最终的情感强度特征表示为一个三维张量：F_ei∈R^l×m×c，在这里l,m,c分别代表张量的宽度、高度与通道数。

对于情感类别特征，首先需要从声音信号中提取一些低等级描述符(LLD)，这些特征已知可以被用于声音中的情感类别识别，它们包括信号过零率(ZCR)、信号能量的均方根(RMS)、声音的音高、谐波—噪声比例(HNR)以及梅尔频率倒谱系数(MFCC)等，除此之外还加入了上述特征的均值、标准差、峰度、偏度等统计属性。这些低等级描述符组成的特征仍然需要通过一个卷积神经网络来提取情感类别特征。这一网络仍然由多层的卷积层和池化层依次排列而成，在模型整体中进行训练，提取的特征也是三维张量形式：F_ec∈R^l×n×c。其中l,n,c依次表示张量的宽度、高度与通道数，注意到情感强度特征与情感类别特征具有相同的高度与通道数。

S104、对视觉特征和听觉情感特征进行模态内与跨模态的融合，得到融合特征；

然后，分别使用协同注意力机制与双线性池化的方法，实现两种听觉情感特征在声音模态内的融合，以及听觉情感特征与视觉特征之间的跨模态融合。

在模态内的融合过程中，协同注意力机制输入的两种特征F_ei与F_ec都是三维的张量，形式为高度×宽度×通道数，并且拥有相同的通道数。对于每一个通道对应的来自F_ei的二维特征D_i∈R^l×m，以及来自F_ec的二维特征Q_i∈R^l×n，分别将它们的每一列视为一个情感强度特征，然后计算关联矩阵：

在这里L_i∈R^m×n，然后计算对于D_i与Q_i的注意力权重：

然后在此基础上计算两者的上下文矩阵：

在这里用[a；b]表示向量a与向量b在水平方向上拼接。最后计算出新的情感表征E_i，然后按照通道顺序堆叠这些情感表征得到最终的听觉情感特征

F_ae＝{E₁,E₂,…,E_c}

在跨模态的融合过程中，输入的特征同样是两组三维张量F_ae与F_v，在这里由于F_ae的形式类似于视觉特征F_v，因此使用双线性池化方法，以类似融合视觉特征的方式进行跨模态的特征融合。为此，首先将三维张量展开为二维矩阵：

引入权重矩阵进行融合：

x＝vec(F_v ^TWF_ae)

最终得到的向量z即是对视频分段的表征，用于对视频片段进行评分。

S105、基于融合特征对视频片段进行评分；

一个视频片段经过融合之后得到的表征(融合特征)输入一个多层的全连接神经网络，最终产生一个值作为对该视频片段的评分。

S106、使用成对的高亮-非高亮片段组合，以及相应的损失函数训练模型；

在模型的训练过程中，将来自同一个视频的不同分段重新组织：每个高亮片段和一个非高亮片段组成一对，考虑到高亮片段的数量较少，应当重复使用高亮片段，使得所有非高亮片段都能参与训练。训练过程中使用相同的网络参数处理一对中的两个片段，分别得到它们的评分，并以此计算损失函数。损失函数的计算过程如下所示：

u＝d-H(S⁺)+H(S^-)

l_p(S⁺,S^-)＝max(0,d-H(S⁺)+H(S^-))^p

其中H(S⁺)与H(S^-)分别代表模型为高亮片段与非高亮片段给出的得分，W是模型参数，λ为正则化系数，δ为线性损失函数与二次损失函数的分界点，d为理想状态下高亮片段与非高亮片段之间得分差值的最小值。优化器的目的是使L最小化，达到使高亮片段的得分与非高亮片段的得分差值尽量大于d，优化器通过反向传播的方式更新模型参数。优化器在尽量扩大高亮片段与非高亮片段之间差值的同时，也尽量简化模型参数W，以防止过拟合现象。

S107、基于模型的训练结果选择合适的参数，对长视频中的所有片段进行评分，根据评分结果预测出视频高亮片段。

训练数据被划分出测试用数据后，剩下的数据用于训练模型，训练的同时在测试数据上进行验证，选择出在测试数据上表现最佳的一组模型参数作为最终采用的参数。具体的测试过程是，对于同一个视频中的所有分段，都通过模型做一次评分，然后选择得分最高的若干片段预测为这个视频中的高亮片段，与根据间接统计信息(如弹幕数量)计算所得出的标签进行对比。设X是由预测出的高亮片段组成的序列，而Y是由标签指出的高亮片段组成的序列，评价模型性能的指标主要包括以下三个：

以F为评价模型参数的主要指标。在实际应用中，评分和预测的过程与测试时相同，选择出得分最高的若干片段即可构成一个视频的高亮片段序列。

综上所述，本发明能够使用情感信息来对视频中的视觉和听觉特征进行联合建模，进而从声波中提炼出情感相关的语义信息，从而在缺少语义信息或细粒度标签的长视频上预测出视频高亮片段。

如图2所示，为本发明公开的一种视频高亮片段预测系统实施例的结构示意图，所述系统可以包括：

数据采集模块201，用于获取视频数据，其中，视频数据包括：带有热度标记或间接统计指标的训练数据，以及未带有热度标记或间接统计指标的预测数据；

数据预处理模块202，用于将视频数据划分为固定长度的视频片段，并在训练数据上标记出高亮片段；

特征提取模块203，用于使用神经网络从每个视频片段中分别提取出视觉特征和听觉情感特征；

特征融合模块204，用于对视觉特征和听觉情感特征进行模态内与跨模态的融合，得到融合特征；

在这里L_i∈R^m×n，然后计算对于D_i与Q_i的注意力权重：

然后在此基础上计算两者的上下文矩阵：

F_ae＝{E₁,E₂,…,E_c}

引入权重矩阵进行融合：

x＝vec(F_v ^TWF_ae)

评分模块205，用于基于融合特征对视频片段进行评分；

模型训练模块206，用于使用成对的高亮-非高亮片段组合，以及相应的损失函数训练模型；

u＝d-H(S⁺)+H(S^-)

l_p(S⁺,S^-)＝max(0,d-H(S⁺)+H(S^-))^p

预测模块207，用于基于模型的训练结果选择合适的参数，对长视频中的所有片段进行评分，根据评分结果预测出视频高亮片段。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种视频高亮片段预测方法，其特征在于，包括：

基于所述融合特征对视频片段进行评分；

基于模型的训练结果选择合适的参数，对长视频中的所有片段进行评分，根据评分结果预测出视频高亮片段；

其中，所述使用神经网络从每个视频片段中分别提取出听觉情感特征，包括：

使用神经网络从每个视频片段中分别提取出情感强度特征和情感类别特征，所述情感强度特征用于描述人类情绪的极性和强烈程度，所述极性包括正面情感与负面情感，所述强烈程度用于表征情绪的激烈程度；所述神经网络模型是由声音信号中的频谱图和声音信号中的等低级描述符作为训练数据训练而成的；

所述情感强度特征表示为如下的三维张量：

F_ei∈R^l×m×c；

其中，l代表情感强度特征的张量的宽度，m代表情感强度特征的张量的高度，c代表情感强度特征的张量的通道数；

所述情感类别特征表示为如下的三维张量：

F_ec∈R^l×n×c；

l代表情感类别特征的张量的宽度，n代表情感类别特征的张量的高度，c代表情感类别特征的张量的通道数；

其中，所述对所述视觉特征和听觉情感特征进行模态内与跨模态的融合，得到融合特征，包括：

使用协同注意力机制对两种听觉情感特征在声音模态内进行融合，具体为：

对于每一个通道对应的来自F_ei的二维特征D_i∈R^l×m，以及来自F_ec的二维特征Q_i∈R^l×n，分别将它们的每一列视为一个情感强度特征，然后计算关联矩阵：

其中，L_i∈R^m×n；

计算对于D_i与Q_i的注意力权重：

计算上下文矩阵：

其中，表示Q_i与/>在水平方向上拼接；

计算新的情感表征E_i，得到最终的听觉情感特征

F_ae＝{E₁,E₂,…,E_c}；

其中，表示D_i与/>在水平方向上拼接；

使用双线性池化的方法对视觉特征和听觉情感特征进行跨模态融合，得到融合特征，具体为：

将三维张量展开为二维矩阵：

F_v为视觉情感特征，h表示视觉情感特征的张量的高度，w表示视觉情感特征的张量的宽度，c表示视觉情感特征的张量的通道数；

引入权重矩阵进行融合：

x＝vecF_v ^TWF_ae；

其中，z为融合特征。

2.根据权利要求1所述的方法，其特征在于，所述使用神经网络从每个视频片段中分别提取出视觉特征，包括：

对每个视频片段按照固定的采样率截取出多个图像帧；

3.一种视频高亮片段预测系统，其特征在于，包括：

评分模块，用于基于所述融合特征对视频片段进行评分；

预测模块，用于基于模型的训练结果选择合适的参数，对长视频中的所有片段进行评分，根据评分结果预测出视频高亮片段；

其中，所述提取模块，具体用于：

所述情感强度特征表示为如下的三维张量：

F_ei∈R^l×m×c；

所述情感类别特征表示为如下的三维张量：

F_ec∈R^l×n×c；

其中，所述特征融合模块，具体用于：

其中，L_i∈R^m×n；

计算对于D_i与Q_i的注意力权重：

计算上下文矩阵：

其中，表示Q_i与/>在水平方向上拼接；

计算新的情感表征E_i，得到最终的听觉情感特征

F_ae＝{E₁,E₂,…,E_c}；

其中，表示D_i与/>在水平方向上拼接；

将三维张量展开为二维矩阵：

F_v∈R^k·m×c,

引入权重矩阵进行融合：

x＝vecF_v ^TWF_ae；

其中，z为融合特征。

4.根据权利要求3所述的系统，其特征在于，所述特征提取模块具体用于：

对每个视频片段按照固定的采样率截取出多个图像帧；