CN109344780A

CN109344780A - 一种基于声音和视觉的多模态视频场景分割方法

Info

Publication number: CN109344780A
Application number: CN201811182971.7A
Authority: CN
Inventors: 张奕; 谢锦滨
Original assignee: Shanghai Jilian Network Technology Co Ltd
Current assignee: Shanghai Jilian Network Technology Co Ltd
Priority date: 2018-10-11
Filing date: 2018-10-11
Publication date: 2019-02-15

Abstract

本发明公开一种基于声音和视觉的多模态视频场景分割方法，方法包括以下步骤：步骤S1：对输入视频进行镜头分割，得到各镜头片段；步骤S2：在分割得到的各镜头片段上进行视觉和声音特征提取，得到镜头对应的视觉和声音特征向量；步骤S3：根据视觉和声音特征，将相邻的属于相同语义的镜头合并入同一场景，得到新的场景时间边界。

Description

一种基于声音和视觉的多模态视频场景分割方法

技术领域

本发明涉及一种视频场景分割方法，尤其涉及一种基于声音和视觉的多模态视频场景分割方法。

背景技术

时间维度上的视频分割是视频结构分析的基础步骤和重要环节。其目的是将原始视频按照其内容结构分段，将包含相同相近内容的部分分到相同片段内，而将不同内容的部分分割开。视频内容结构按照语义层级的高低可分为镜头和场景。镜头是摄像机一次连续拍摄到的视频片段。在一个镜头内图像的变换原因通常为摄像机和物体对象的运动以及光源的变化，是一个渐变而非突变过程。场景是由若干个在语义上相关的连续镜头组成的能够表达共同语义内容的视频片段。场景分割的目标是要找到场景的时间边界，将视频按语义分割为多个场景片段。

现有的视频场景分割方法多主要利用视觉特征信息，通过分析视频各帧图像之间的联系进行，往往忽视声音作为视频内容的重要部分，同样为场景分割提供了大量有用信息。目前尚缺乏一种有效的将声音信息与视觉信息有效结合的多模态联合建模方法，提高场景分割的准确率。

发明内容

本发明的目的是联合利用声音和视觉特征对视频场景进行建模，寻找视频场景的时间边界，对视频按场景语义进行分割。其核心是设计一种声音视觉多模态特征融合框架，使各模态之间互为补充，弥补单一特征模态的不足。

为了实现以上目的，本发明提供的一种基于声音和视觉的多模态视频场景分割方法，分为以下步骤：

步骤S1：对输入视频进行镜头分割，得到各镜头片段；

步骤S2：在分割得到的各镜头片段上进行视觉和声音特征提取，得到镜头对应的视觉和声音特征向量；

步骤S3：根据视觉和声音特征，将相邻的属于相同语义的镜头合并入同一场景，得到新的场景时间边界。

其中，视频镜头分割采用跟踪流与全局图像颜色分布综合特征来判断镜头切换点。

其中，分割得到的各镜头片段上的视觉特征采用镜头内提取的图像关键帧的场景特征来表示，该场景特征可通过将图像关键帧输入预训练的场景分类卷积神经网络获得。

其中，分割得到的各镜头片段上的声音特征采用镜头内各声音关键帧对应的特征描述来表示，该特征可通过将声音关键帧对应的频谱图输入到预训练的声音分类卷积神经网络获得。

其中，相同语义镜头合并的标准由一个似然概率函数给出，该函数的输入为一组镜头合并后的场景分割边界，输出为该组场景分割边界的似然概率，通过求取极大似然概率对应的场景分割边界值来得到最优的场景分割边界。

本发明的优点和技术效果：从具体实施例可以看出本发明的优点和技术效果，充分利用视频中包含的声音和视觉信息，通过概率模型将其有效地组合，建立联合模型，弥补单一模态特征各自的不足，达到提升场景分割准确率的效果。

附图说明

图1本发明基于声音和视觉的多模态视频场景分割的基本流程。

图2通过镜头合并生成场景分割边界示意图。

具体实施方式

下面结合附图详细说明技术方案中所涉及的各个细节问题。应该指出的是，所描述的实施例旨在便于对本发明的理解，而对其不起任何限定作用。

本发明的实施流程如图1所示：

本发明实施例，首先，利用跟踪流与全局图像颜色分布连续性综合特征来确定镜头时间边界，将视频分割为由镜头组成的片段。跟踪流连续性是指视频中出现的物体或区域在单一镜头内的运动具有连续性，而在镜头边界处会发生突变的性质。

本发明实施例中通过计算视频中各相邻帧间的光流场，获得相邻帧之间的运动量，来表示跟踪流的连续性。跟踪流的连续性反映的局部运动信息，是判断镜头切换的重要依据。当相邻帧之间的运动量大于阈值时可判断为在该时间点发生镜头切换。

全局图像颜色分布连续性是指相邻图像帧的颜色分布在单一镜头内具有连续性，而在镜头边界处会发生突变的性质。本发明实施例中通过计算视频中各相邻帧间的颜色直方图分布向量，来表示全局图像颜色分布连续性。全局图像颜色分布连续性反映全局运动信息，也是判断镜头切换的重要依据。当相邻帧直接的全局图像颜色直方图分布向量差大于阈值时可判断为在该时间点发生镜头切换。

在分割好的镜头内进行特征提取包括声音和视觉两个模态的特征提取。

本发明实施例中视觉特征提取采用以下方法：将镜头按2.56秒等间隔采样，获得采样帧，输入卷积神经网络1和卷积神经网络2中，其中卷积神经网络1为用Imagenet数据集预训练的50层Resnet网络，卷积神经网络2为用Places365数据集预训练的50层Resnet网络，均提取1000维pool5层输出作为特征向量，连接合并卷积神经网络1和卷积神经网络2的输出特征向量形成2000维的特征向量，经PCA主元分析法降维到512维并归一化后，作为该采样帧的视觉模态最终特征向量。

本发明实施例中声音特征提取采用以下方法：以20毫秒为间隔对音频进行等间隔采样，对每个采样点进行频谱分析，频谱量化为128个频段，每128个采样点为一采样组，每个采样组时长为0.02秒*128＝2.56秒，构成128*128维的频谱响应图，作为卷积神经网络的输入，该卷积神经网络包括4个卷积层和一个全连接层，预先用10个类别，每类100段30秒时长的不同场景风格音乐类型的音频训练得到，推理时以全连接层的输出1024为特征向量,经PCA主元分析法降维到512维并归一化后，作为该采样组声音模态特征向量。

如图2所示，视频结构可表示为镜头集合s＝{s₁，s₂，...，s_N}和场景集合S＝{S₁，S₂，...，S_M}。场景分割的似然函数表示为其中

用于描述镜头s_i与镜头s_i+1被划分为同一场景或不同场景各自的概率值，w_d＝e^-d为权重，越靠近镜头边界的采样点的权重越高，经过声音和视觉特征提取，任一镜头s_i对应一组采样点声音特征

为视觉特征为γ为可调超参数，控制声音特征和视觉特征的作用权重。

计算L(S)取得最大值时的场景分割S，根据镜头集合s的规模、精度速度要求不同，可以选择多种计算方式，包括穷举法、贪婪搜索法、马尔科夫链蒙特卡洛法等。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于声音和视觉的多模态视频场景分割方法，其特征在于：。

包括以下步骤：

步骤S1：对输入视频进行镜头分割，得到各镜头片段

2.如权利要求1所述的基于声音和视觉的多模态视频场景分割方法，其特征在于：输入视频镜头分割采用跟踪流与全局图像颜色分布连续性来判断镜头切换时间点。

3.如权利要求2所述的基于声音和视觉的多模态视频场景分割方法，其特征在于：声音特征采用将等长间隔音频频谱图输入经预训练的卷积神经网络得到的特征层输出，并经过降维处理后得到的特征向量，视觉特征采用将等长间隔采样得到的采样帧输入经预训练的两个不同卷积神经网络得到的特征层输出，并经过包括连接合并、降维归一化等变换在内的处理后得到的特征向量。

4.如权利要求3所述的基于声音和视觉的多模态视频场景分割方法，其特征在于：建立基于采用点视频和音频特征的联合似然函数，对任一场景分割给出似然度描述，并通过求取似然函数最大取值时输入的场景分割获得最优的场景分割结果。

5.如权利要求1所述的基于声音和视觉的多模态视频场景分割方法，其特征在于：步骤S1，利用跟踪流与全局图像颜色分布连续性综合特征来确定镜头时间边界，将视频分割为由镜头组成的片段。

6.根据权利要求2所述的基于声音和视觉的多模态视频场景分割方法，其特征在于：通过计算视频中各相邻帧间的光流场，获得相邻帧之间的运动量，来表示跟踪流的连续性，当相邻帧之间的运动量大于阈值时可判断为在该时间点发生镜头切换；通过计算视频中各相邻帧间的颜色直方图分布向量，来表示全局图像颜色分布连续性，当相邻帧直接的全局图像颜色直方图分布向量差大于阈值时可判断为在该时间点发生镜头切换。

7.根据权利要求3所述的基于声音和视觉的多模态视频场景分割方法，其特征在于：视觉特征提取采用以下方法：将镜头按2.56秒等间隔采样，获得采样帧，输入卷积神经网络1和卷积神经网络2中，其中卷积神经网络1为用Imagenet数据集预训练的50层Resnet网络，卷积神经网络2为用Places365数据集预训练的50层Resnet网络，均提取1000维pool5层输出作为特征向量，连接合并卷积神经网络1和卷积神经网络2的输出特征向量形成2000维的特征向量，经PCA主元分析法降维到512维并归一化后，作为该采样帧的视觉模态最终特征向量；

声音特征提取采用以下方法：以20毫秒为间隔对音频进行等间隔采样，对每个采样点进行频谱分析，频谱量化为128个频段，每128个采样点为一采样组，每个采样组时长为0.02秒*128＝2.56秒，构成128*128维的频谱响应图，作为卷积神经网络的输入，该卷积神经网络包括4个卷积层和一个全连接层，预先用10个类别，每类100段30秒时长的不同场景风格音乐类型的音频训练得到，推理时以全连接层的输出1024为特征向量,经PCA主元分析法降维到512维并归一化后，作为该采样组声音模态特征向量。

8.根据权利要求4所述的基于声音和视觉的多模态视频场景分割方法，其特征在于：视频结构表示为镜头集合s＝{s₁，s₂，...，s_N}和场景集合S＝{S₁，S₂，...，S_M}。场景分割的似然函数表示为

其中，

用于描述镜头S_i与镜头S_i+1被划分为同一场景或不同场景各自的概率值，w_d＝e^-d为权重，越靠近镜头边界的采样点的权重越高，经过声音和视觉特征提取，任一镜头S_i对应一组采样点声音特征视觉特征为为可调超参数，控制声音特征和视觉特征的作用权重；

计算L(S)取得最大值时的场景分割S，根据镜头集合s的规模、精度速度要求不同，选择计算方式包括穷举法、贪婪搜索法、马尔科夫链蒙特卡洛法。