CN111723239B

CN111723239B - 一种基于多模态的视频标注方法

Info

Publication number: CN111723239B
Application number: CN202010393229.1A
Authority: CN
Inventors: 李瑞轩; 刘旺; 辜希武; 李玉华
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2020-05-11
Filing date: 2020-05-11
Publication date: 2023-06-16
Anticipated expiration: 2040-05-11
Also published as: CN111723239A

Abstract

本发明公开了一种基于多模态的视频标注方法，属于计算机视觉和视频标注技术领域。方法包括：通过聚类的方法提取视频的关键帧；提取关键帧的特征，并将连续的关键帧特征通过学习池聚合生成视频的视觉特征；提取视频中的音频，将音频分为多个独立的帧；提取音频帧特征，然后将连续的音频帧特征通过学习池聚合生成视频的音频特征；将视觉特征和音频特征融合输入到预测模块；进行视频标注。本发明同现有技术相比，同时考虑了视频的视觉特征和音频特征，并在帧特征聚合时加入了注意力机制，使提取的视频特征更加具有代表性，大大提高了视频标注的准确度。

Description

一种基于多模态的视频标注方法

技术领域

本发明属于计算机视觉和视频标注技术领域，更具体地，涉及一种基于多模态的视频标注方法。

背景技术

随着互联网的不断发展，以视频应用为主题的互联网门户在我国迅速发展开来，并且视频已经成为人们相互沟通、分享自己生活的方式。每天都有大量的视频上传到国内视频分享网站，如优酷、抖音等。与语音、文本等媒体文件相比，视频的数据结构更加复杂，并且提供了更多有用的信息，其内容更加生动、形象和直观。虽然视频数据包含了丰富的信息，这是其它数据形式无法比拟的，但是其复杂的数据格式以及其日益庞大的数据量，无疑为用户的交互操作设置了巨大的障碍，影响其发挥更大的作用。如今，人们已经习惯了在互联网上搜索需要的信息，现在搜索引擎已经可以很好的解决文本搜索问题，但是对于视频检索仍是一个研究的热点，这主要的原因是视频数据具有结构性差、信息量大等特点，很难为其建立合适的索引。要对视频进行高效的操作，就要根据视频内容为其添加合适的索引。而视频标注就是根据视频内容为视频添加其合适的标签，正是建立视频索引，高效处理视频数据的必要基础。

目前主要的标注方法有人工标注、基于规则的标注和基于机器学习的标注。人工标注有许多的缺陷，例如主观性大，对于同一个视频不同人标注出来的结果可能不一致；速度慢，标注视频前要先浏览一遍视频，耗费大量时间，并且人的精力有限，不能一直保持高效的状态，所以人工标注的速度很难跟上视频增长的速度；并且人工成本较高。基于规则的视频标注是利用某领域的专业知识建立相应的标准来对视频进行标注，此种方法的缺陷是只适用于特定领域而不具有通用性，并且先验规则的获取需要大量人工的参与。

由于上述两种方法都存在比较大的缺陷，所以目前比较流行的视频标注方法是基于机器学习的视频标注方法，这种方法主要是利用已经标注好的视频训练神经网络，然后利用训练好的神经网络对视频完成自动标注，结果精确、速度快是此方法应用广泛的主要原因。目前大多机器学习方法只根据视频的视觉特征进行标注，但是视频文件的比较复杂，其中不仅包含了图像信息，还包含了音频信息，仅仅通过视频的视觉特征对视频标注是不够准确的，并且当前的帧级特征聚合方法中没有考虑到帧对于视频重要性这一因素，大大降低了聚合特征的质量。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于多模态的视频标注方法，其目的在于提高视频标注的准确度。

为实现上述目的，本发明提供了一种基于多模态的视频标注方法，包括：

S1.通过聚类的方法提取视频的关键帧；

S2.利用深度卷积神经网络对关键帧进行特征提取；

S3.结合注意力机制，对提取到的关键帧特征进行时序建模，生成视觉特征；

S4.提取视频中的音频，并利用深度卷积神经网络对音频进行特征提取；

S5.结合注意力机制，对提取到的音频特征进行时序建模，生成音频特征；

S6.将视觉特征和音频特征融合，得到视频特征；

S7.采用混合专家模型根据融合后的视频特征对视频进行标注。

进一步地，步骤S1具体包括：

S1.1.将视频第一帧作为第一类，计算第一帧颜色直方图，得到第一类的质心；

S1.2.计算下一帧的颜色直方图与当前所有类质心的距离；

S1.3.比较所有距离与设定阈值大小；若所有距离均小于阈值，则新建一类加入该帧；否则，选择一个距离最大的类加入该帧，并更新该类的质心；

S1.4.重复执行步骤S1.2-S1.3，直至所有帧计算完毕；

S1.5.依次从每个类中抽取一帧，构成视频的关键帧。

进一步地，步骤S3具体为，采用以下公式对提取到的关键帧特征进行时序建模，生成视觉特征；

其中，V(j,k)表示关键帧聚合后第k个类别的第j个特征点；N表示视频关键帧的数量；x_i(j)和c_k(j)分别表示第i个关键帧和第k个聚类中心的第j个特征值；t(i,v₁)表示第i个关键帧对于所有关键帧v₁的注意力权重；a_k(x_i)表示第i个关键帧特征属于第k个聚类的权重；

u_i＝tanh(Wx_i+b)

其中u_i为x_i的隐层表示，u为可训练的上下文向量，W和b为需要训练的参数。

进一步地，步骤S4具体包括：

S4.1.利用ffmpeg工具提取视频中的音频；

S4.2.对音频进行预加重，使音频信号的频谱更加平坦；

S4.3.通过加窗操作对预加重后的音频信号进行分帧；

S4.4.对分帧得到的每帧音频信号进行快速傅里叶变换，将其从时域转换到频域，得到每帧音频信号的功率谱；

S4.5.将上述功率谱经过梅尔滤波器转换为梅尔频率下的功率谱；

S4.6.将上述梅尔滤波器的输出经过对数运算后，输入至深度卷积神经网络，提取得到多段连续的音频特征。

进一步地，采用如下预加重滤波器对音频进行预加重：

y(n)＝x(n)-αx(n-1)

其中x(n)是原始的音频信号，y(n)是预加重之后的语音信号，α是预加重系数，n表示音频信号的第n个时刻。

进一步地，步骤S6具体包括：

S6.1.将视觉特征和音频特征拼接；

S6.2.通过一个全连接神经网络融合拼接后的特征；

S6.3.采用门机制来捕获特征之间的依赖关系。

进一步地，混合专家模型包括多个训练好的专家模块。

进一步地，步骤S7具体包括：

S7.1.每个专家模块根据融合后的视频特征预测视频的标注；

S7.2.对每个专家的预测结果进行加权计算，得到视频最终的标注结果。

进一步地，步骤S7.1具体为，每个专家模块根据以下公式得到视频标注的预测值p(y_o|v′,e)；

其中，y_o为视频对应的第o个标注，

表示专家模块需要训练的网络参数，v′表示门机制处理后的视频特征，e表示专家模块，T表示矩阵转置。

进一步地，步骤S7.2具体为，根据以下公式对每个专家模块的预测结果进行加权计算，得到视频最终的标注结果p(y_o|v′)；

其中，p(e|v′)为每个专家模块对应的权重值，m为专家模块的个数。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果。

(1)本发明同时考虑到了视频的视觉特征和音频特征两种模态，让提取的视频特征更加具有代表性，大大提高了视频标注的准确度，能够很好的应用于视频标注。

(2)在音频特征提取时，将传统音频特征提取方法和深度神经网络相结合，可以得到更加准确的音频特征；并且在视觉特征与音频特征聚合时加入了注意力机制，考虑到了帧对于视频的重要性，使得聚合结果更加准确，进一步提高了视频标注的准确度。

附图说明

图1为本发明提供的基于多模态的视频标注方法流程图；

图2为本发明提供的基于聚类的关键帧提取示意图；

图3为本发明提供的视觉特征提取神经网络-1；

图4为本发明提供的视觉特征提取神经网络-2；

图5为本发明提供的视觉特征提取神经网络-3。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，本发明实施例提供了一种基于多模态的视频标注方法，包括：

S1.通过聚类的方法提取视频的关键帧；

关键帧提取过程如图2所示，具体包括：

S1.2.计算下一帧的颜色直方图与当前所有类质心的距离；距离d由公式(1)计算得到；

其中，I为图片像素所分的多个区域，H_q(I)表示第q帧颜色直方图的第I个区域，图片q的颜色直方图平均值

由公式(2)计算得到。

S1.3.比较所有距离与设定阈值大小；若所有距离均小于阈值，则新建一类加入该帧；否则，选择一个距离最大(即相关度最大)的类加入该帧，并更新该类的质心；其中设定阈值根据聚类方法在不同类别视频上的实验结果取值，本发明实施例取值0.85；

S1.4.重复执行步骤S1.2-S1.3，直至所有帧计算完毕；

S1.5.依次从每个类中抽取一帧，构成视频的关键帧。

S2.利用深度卷积神经网络对关键帧进行特征提取；

用于视觉特征提取的深度卷积神经网络架构如表1所示，输入299*299*3的图像，最后得到2048维的图像特征，图像依次经过三个卷积层，一个池化层，三个卷积层，三个混合层和一个池化层，卷积层是使用卷积核对输入进行滑行计算，最后对应每个卷积核获得一个特征图(FeatureMap)；池化操作是对卷积操作输出的FeatureMap来特征选择，可以通过局部特征取均值或者取最大，最小值来进行池化操作。其中混合层包含多个卷积层和池化层的组合，最后将多个组合的结果拼接起来得到混合层的输出，卷积神经网络的每个神经元不再和上一层所有的神经元相连接，而是只和一小部分神经元相连，并且一组连接共享同一个权重，池化层根据图像的局部相关性原理，对图像完成子采样，去除冗余信息，减少下一层的输入。卷积神经网络这些操作可以去掉大量不重要的参数，使得网络容易训练，从而达到更好的学习效果。

表1

类型	卷积核/步长	输入图像大小
			卷积层	3*3/2	2992993
卷积层	3*3/1	14914932
			卷积层	3*3/1	14714732
池化层	3*3/2	14714764
			卷积层	3*3/1	737364
卷积层	3*3/2	717180
			卷积层	3*3/1	3535192
3*混合层-1	如图3所示	3535288
			5*混合层-2	如图4所示	1717768
2*混合层-3	如图5所示	881280
			池化层	8*8	882048

因为视频前后具有关联性，所以将关键帧特征输入学习池进行时序建模，本发明采用以下公式(3)对提取到的关键帧特征进行时序建模，生成视觉特征；

u_i＝tanh(Wx_i+b)

其中

b_k是计算关键帧x_i属于第k个类别权重时需要学习的参数，K为最后生成的类别个数。

步骤S4具体包括：

S4.1.利用ffmpeg工具提取视频中的音频；

S4.2.对音频进行预加重，使音频信号的频谱更加平坦；

因为口鼻辐射和声门激励可以影响到语音信号平均功率谱，在大约800赫兹以上的高频端其按照-6dB/oct(倍频程)衰减，所以要对音频进行预加重，主要目的是提高音频信号的高频部分，使信号的频谱变得更加平坦，有利于进行下一步的频谱分析。预加重不仅可以在A/D转换之前进行，这样的话可以在压缩信号动态范围的同时，还可以提高信噪比。预加重还可以在A/D转换之后实施，用具有6dB/oct的预加重数字滤波器来提高信号的高频部分，通常预加重滤波器如公式(6)所示：

y(n)＝x(n)-αx(n-1)(6)

其中x(n)是原始的音频信号，y(n)是预加重之后的语音信号，α是预加重系数，通常取值为0.98，n表示音频信号的第n个时刻。

S4.3.通过加窗操作对预加重后的音频信号进行分帧；

傅里叶变换处理的信号需要是平稳的信号，但是音频信号从整体上看是不平稳的，具有时变性，而一般认为音频在短时间内10ms～30ms是平稳的，因此，为了能使用傅里叶变换处理音频信号，需要对音频信号分帧，就是将不定长的语音切分成固定长度的小段。分帧需要对音频进行加窗操作，然后将窗在语音信号上滑动计算，在窗滑动的时候，为了避免音频信号的丢失，相邻帧之间应该有帧迭(相邻帧之间重叠的部分)，加窗的目的是使帧两端信号衰减到零，这样可以使得傅里叶变化之后的旁瓣强度减小，以得到高质量的频谱，常见的窗函数有汉宁窗、矩形窗和汉明窗，音频信号分帧通常采用汉明窗，其窗函数公式(7)所示：

因为信号在时域上的变化很难看出它的特性，所以需要将它转换到频域上通过观察其能量分布来观察它的特性，音频信号在通过汉明窗处理之后，每帧信号还需要进行如公式(8)所示的快速傅里叶变换才能得到频谱上的能量分布，即功率谱；

式中N为傅里叶变换的点数，x(n)为输入的音频信号。

人耳之所以能够在嘈杂的环境中还可以正常分辨各种声音，这是因为耳蜗具有滤波的作用，它就相当于一个滤波器。但由于它的滤波是在对数频率的尺度上进行的，所以人耳对低频信号更加敏感。为了模拟人耳耳蜗的作用，我们需要将之前计算的功率谱经过梅尔滤波器转换为Mel频率下的功率谱，其中梅尔滤波器就相当于人耳的耳蜗，计算Mel频率如公式(9)所示：

M(f)＝1125ln(1+f/700)(9)

f表示频率值。

用于音频特征提取的深度卷积神经网络架构如表2所示，输入96*64*1的对数梅尔频谱手工特征，最后得到128维的音频特征，手工特征依次经过多个卷积层、池化层和三个全连接神经网络，得到最终的音频特征，本发明采用了手工特征和深度神经网络相结合的方法，使得所提取的音频特征更加准确。

表2

采用公式(10)对提取到的音频特征进行时序建模：

其中，V′(j,k)表示音频帧聚合后第k个类别的第j个特征点；N′表示音频帧的数量；x′_i(j)和c′_k(j)分别表示第i个音频帧和第k个聚类中心的第j个特征值；t′(i,v₂)表示第i个音频帧对于所有音频帧v₂的注意力权重；a′_k(x′_i)表示第i个音频帧特征属于第k个聚类的权重；

u′_i＝tanh(W′x′_i+b′)

其中u′_i为x′_i的隐层表示，u′为可训练的上下文向量，W′和b′为需要训练的参数。

其中

b′_k是计算音频帧x′_i属于第k个类别权重时需要学习的参数，K为最后生成的类别个数。

S6.将视觉特征和音频特征融合，得到视频特征；

步骤S6具体包括：S6.1.将视觉特征和音频特征拼接；S6.2.通过一个全连接神经网络融合，得到视频特征；S6.3.采用门机制来捕获特征之间的依赖关系。

门机制可以帮助创建视觉特征之间的依赖关系，以滑雪的视频为例，它展示了滑雪的人、雪和树木，尽管树木特征的网络激活可能很高，但在滑雪背景下，树木不是最重要的，更重要的是雪和滑雪，这时门机制就会降低树木的视觉激活，其中门机制的公式如(12)所示。

Y＝σ(WX+b)°X(12)

其中，X∈Rⁿ是输入的特征向量，σ(.)为sigmoid函数，°代表逐个元素相乘，W∈R^n×n和b∈Rⁿ是可训练的参数，向量σ(WX+b)∈[0,1]代表应用于输入特征X个体维度的学习门。

混合专家模型包括多个训练好的专家模块，每个专家模块根据公式(13)得到视频标注的预测值p(y_o|v′,e)；

其中，y_o为视频对应的第o个标注，

根据公式(14)对每个专家模块的预测结果进行加权计算，得到视频最终的标注结果p(y_o|v′)；

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多模态的视频标注方法，其特征在于，包括：

S1.通过聚类的方法提取视频的关键帧；

S2.利用深度卷积神经网络对关键帧进行特征提取；

S6.将视觉特征和音频特征融合，得到视频特征；

S7.采用混合专家模型根据融合后的视频特征对视频进行标注；

步骤S3具体为，采用以下公式对提取到的关键帧特征进行时序建模，生成视觉特征；

u_i＝tanh(Wx_i+b)

其中，u_i为x_i的隐层表示，u为可训练的上下文向量，W和b分别为需要训练的第一参数和第二参数；

其中，

b_k分别是计算关键帧x_i属于第k个类别权重时需要学习的第三参数、第四参数，K为最后生成的类别个数；

步骤S5具体为，采用以下公式对提取到的音频特征进行时序建模；

u′_i＝tanh(W′x′_i+b′)

其中，u′_i为x′_i的隐层表示，u′为可训练的上下文向量，W′和b′分别为需要训练的第五参数和第六参数；

其中，

b′_k分别是计算音频帧x′_i属于第k个类别权重时需要学习的第七参数、第八参数。

2.根据权利要求1所述的一种基于多模态的视频标注方法，其特征在于，步骤S1具体包括：

S1.2.计算下一帧的颜色直方图与当前所有类质心的距离；

S1.4.重复执行步骤S1.2-S1.3，直至所有帧计算完毕；

S1.5.依次从每个类中抽取一帧，构成视频的关键帧。

3.根据权利要求1所述的一种基于多模态的视频标注方法，其特征在于，步骤S4具体包括：

S4.1.利用ffmpeg工具提取视频中的音频；

S4.2.对音频进行预加重，使音频信号的频谱更加平坦；

S4.3.通过加窗操作对预加重后的音频信号进行分帧；

4.根据权利要求3所述的一种基于多模态的视频标注方法，其特征在于，采用如下预加重滤波器对音频进行预加重：

y(n)＝x(n)-αx(n-1)

5.根据权利要求3所述的一种基于多模态的视频标注方法，其特征在于，步骤S6具体包括：

S6.1.将视觉特征和音频特征拼接；

S6.2.通过一个全连接神经网络融合拼接后的特征，得到视频特征；

S6.3.采用门机制来捕获特征之间的依赖关系。

6.根据权利要求3所述的一种基于多模态的视频标注方法，其特征在于，混合专家模型包括多个训练好的专家模块。

7.根据权利要求6所述的一种基于多模态的视频标注方法，其特征在于，步骤S7具体包括：

S7.1.每个专家模块根据融合后的视频特征预测视频的标注；

8.根据权利要求7所述的一种基于多模态的视频标注方法，其特征在于，步骤S7.1具体为，每个专家模块根据以下公式得到视频标注的预测值p(y_o|v^′,e)；

其中，y_o为视频对应的第o个标注，

表示专家模块需要训练的网络参数，v^′表示门机制处理后的视频特征，e表示专家模块，T表示矩阵转置。

9.根据权利要求7或8所述的一种基于多模态的视频标注方法，其特征在于，步骤S7.2具体为，根据以下公式对每个专家模块的预测结果进行加权计算，得到视频最终的标注结果p(y_o|v^′)；

其中，p(e|v^′)为每个专家模块对应的权重值，m为专家模块的个数。