CN112906624A

CN112906624A - 一种基于音视频多模态时序预测的视频数据特征提取方法

Info

Publication number: CN112906624A
Application number: CN202110268187.3A
Authority: CN
Inventors: 陈雁翔; 赵鹏铖; 朱玉鹏; 盛振涛
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2021-03-12
Filing date: 2021-03-12
Publication date: 2021-06-04
Anticipated expiration: 2041-03-12
Also published as: CN112906624B

Abstract

本发明公开了一种基于音视频多模态时序预测的视频数据特征提取方法，包括：1利用视频采集装置获取视频数据集，构建音视频双流数据对；2对视频流中每个视频帧，音频流中每个音频片段，采用一系列各自模态下的数据增强操作，并将一维音频转为二维频谱图；3构建音视频多模态预测模型，包括视频流特征提取网络单元、音频流特征提取网络单元、时序信息聚合网络单元、多模态交互预测网络单元；4根据多模态交互预测得到的不确定特征，计算音视频多模态预测总损失并优化网络。本发明能利用视频自身时序性，结合音视频双流之间交互，自监督式有效挖掘视频有用信息，从而提高特征提取的有效性，并有助于视频理解、声源定位、异常检测等实际下游任务。

Description

一种基于音视频多模态时序预测的视频数据特征提取方法

技术领域

本发明涉及视频数据处理分析领域，特别涉及一种音视频多模态时序预测的视频数据特征提取方法。

背景技术

在当今互联网大数据背景下，对特定数据进行处理分析，变得越来越重要。这种数据分析在人工智能某些领域又可被称作“表征学习”，即从数据中抽取有用信息，机器学习尤其是深度学习的算法很大程度上依赖于数据表征，因而如何利用互联网上海量数据，自监督式挖掘其自身潜在有效信息，受到研究者们的广泛关注。众所周知，人的认知是结合多个模态信息感知下做出的反应，其中视听觉通常相互并存，例如，狂风呼啸，树叶枝头飞舞，该视觉场景下，常常伴随着树叶沙沙作响声，故而利用这种视听觉协同并存关系，将会在一定程度上提升机器的音视频数据表征能力，让机器为下游多模态实际任务提供帮助，例如在声源定位时，利用声音信息定位视频中处在较远的声源，除此之外还有助于诸如视频理解、异常检测等任务的性能提升。

当前视频数据自监督表征学习方法，一般分为单模态即视频流学习和多模态学习。单模态下常常仿照图像领域，例如对视频片段中缺失帧的生成、视频速率预测等，然而对于视频的理解，仅靠视频流单一模态远远是不够的，例如被观测者的大笑声、背景欢快音乐声都有助于提高一段搞笑视频的分类准确度；而对于后者多模态视频表征学习，有研究者利用聚类结果构建伪标签，相互指导特征分类，这种聚类方法的性能严重依赖于所选择的聚类方法或需要提前设定类别簇个数；除此之外，大部分研究者都采用另一模态为音频流或光流的多模态表征学习方法，其中光流信息的提取耗时，且光流好坏，取决于所选择的光流提取网络的性能，而对于音视频的表征学习，通常采用双流间的时序对齐，引入大量负例对，进行自监督式对比学习，然而现有的音视频多模态数据特征提取方法，忽略了音视频间的时序性，即未考虑帧与帧之间的联系，而时序性正是视频相较于图像其本身特有的性质，帧间独立处理会导致一些重要的时序连贯信息丢失，使得机器对于视频的理解有限，并且帧的噪声信息将很容易导致动作识别精度降低，而时序信息的丢失会降低视频动作的精准分类，以及降低模型的噪声鲁棒性。

发明内容

本发明是为了解决上述现有技术存在的不足之处，提出一种基于音视频多模态时序预测的视频数据特征提取方法，以期能利用视频自身时序性，并结合音视频双流之间交互，自监督式有效挖掘视频有用信息，从而提高特征提取的有效性，并有助于视频理解、声源定位、异常检测等实际下游任务。

为实现上述目的，本发明采用以下技术方案：

本发明一种基于音视频多模态时序预测的视频数据特征提取方法的特点包括以下步骤：

步骤1.利用视频采集装置获取视频数据集，记为X＝{X₁,X₂,...,X_i,...,X_N}，X_i代表第i个视频，1≤i≤N，N表示视频总个数，对所述视频数据集X提取音频流A和视频流V，记为

其中，

表示第i个视频X_i的音频流，

表示第i个视频X_i的视频流；令

表示第i个音视频数据对，从而构建音视频数据对集合S＝{S₁,S₂,...,S_i,...,S_N}；

步骤2.对所述视频流V中每个视频流依次采用随机裁剪、随机水平翻转、颜色扰动、尺度放缩操作后得到预处理后的视频流

其中，

表示预处理后的第i个视频X_i的视频流；根据视频下采样率r将预处理后的第i个视频X_i的视频流

分成T个块，每一个块包含q个视频帧；

对所述音频流A中每个音频片段依次采用振幅扰动、时间扰动操作后得到预处理后的音频流

其中，

表示预处理后的第i个视频X_i的音频流；将所述预处理后的第i个视频X_i的音频流

按照时间戳分别与预处理后的第i个视频X_i的视频流

的T个块相对应，并对每个块的音频片段采用梅尔频谱图转换操作，将一维音频信号转为二维频谱，从而构建预处理后的第i个音视频数据对

进而得到预处理后的音视频数据对集合S′＝{S′₁,S′₂,...,S′_i,...,S′_N}；

步骤3.构建音视频多模态时序预测模型；

步骤3.1.构建T个视频流特征提取网络单元；

每个视频流特征提取单元依次由M₁个三维时空卷积blocks和1个三维自适应最大池化层组成，每一个三维时空卷积block包含M₂个子模块，每个子模块包含1个空间三维卷积、1个时间三维卷积，每个空间或时间三维卷积后均连接1个批量归一化层、1个Relu非线性激活函数；

所述预处理后的音视频数据对集合S′＝{S′₁,S′₂,...,S′_i,...,S′_N}输入所述音视频多模态时序预测模型中，其中，预处理后的第i个视频X_i的视频流

中的T个块分别经过T个视频流特征提取网络单元后输出T个视频流特征，其中，前t个视频流特征作为已知视频流信息，后K个视频流特征作为未来视频流信息，t+K＝T；

步骤3.2.构建T个音频流特征提取网络单元；

每个音频流特征提取单元依次由W₁个二维空间卷积blocks和1个二维自适应最大池化层组成，每一个二维空间卷积block包含W₂个子模块，每个子模块包含1个二维空间卷积、1个批量归一化层、1个Relu非线性激活函数；

所述预处理后的第i个视频X_i的音频流

中相对应的T个块分别经过T个音频流特征提取网络单元后输出T个音视频流特征；其中，前t个音频流特征作为已知音频流信息，后K个音频流特征作为未来音频流信息；

步骤3.3.构建时序信息聚合网络单元；

所述时序聚合网络单元由T个卷积门控循环单元ConvGRU组成；

所述时序聚合网络单元分别聚合前t个已知视频流信息和前t个已知音频流信息，从而相应得到已知信息的第t个代表性视频流特征和得到已知信息的第t个代表性音频流特征；

步骤3.4.构建多模态交互预测网络单元；

所述多模态交互预测网络单元，包含1个音频特征映射单元、1个视频特征映射单元、2个音视频特征交互预测单元；

音频或视频特征映射单元、音视频特征交互预测单元均包含1个二维卷积层、1个Relu非线性激活函数、一个二维卷积层；

所述视频特征映射单元对已知信息的代表性视频流特征进行模态信息转换，得到空间映射后的视频特征；

所述音频特征映射单元对已知信息的代表性音频流特征进行模态信息转换，得到空间映射后的音频特征；

所述音视频特征交互预测单元分别对空间映射后的视频特征信息和空间映射后的音频特征信息进行预测，从而相应得到视频模态和音频模态下的第t+1个未来特征信息，将各模态的第t+1个未来特征信息分别再次送入各自对应的时序信息聚合网络单元，得到第t+2个未来特征信息，从而不断循环预测并相应得到视频模态和音频模态下的K个未来特征信息；

步骤4.根据多模态交互预测得到的未来特征信息，构建对比损失函数优化网络；

步骤4.1.利用式(1)预测未来视频流信息下的对比损失loss^v：

式(1)中，E表示期望，

表示特征相似度函数，

表示预处理后的第i个视频X_i的视频流

的第t个块预测的第k个未来特征信息，1≤k≤K，

表示预处理后的第i个视频X_i的视频流

的第t+k个真实的未来特征信息；

表示预处理后的第j个视频X_i的视频流

的第t+k个真实的未来特征信息，1≤j≤N；

步骤4.2.利用式(2)预测未来音频流特征下的对比损失loss^a：

式(2)中，

表示预处理后的第i个视频X_i的音频流

的第t个块预测的第k个未来特征信息，1≤k≤K，

表示预处理后的第i个视频X_i的音频流

的第t+k个真实的未来特征信息；

表示预处理后的第j个视频X_i的音频流

的第t+k个真实的未来特征信息，1≤j≤N；

步骤4.3.利用式(3)计算音视频多模态预测的总损失Loss：

Loss＝loss^v+loss^a (3)

步骤5.利用自适应矩阵估计优化算法对总损失Loss进行优化求解，更新音视频多模态时序预测模型的网络参数，并得到训练好的最优预测模型；从而利用所述训练好的最优预测模型中的视频流特征提取网络单元、音频流特征提取网络单元和时序信息聚合网络单元对待预测的视频进行处理，得到各模态下的代表性特征。

与现有技术相比，本发明的有益效果在于：

1.本发明通过对视频进行帧预测，利用视频帧的高层信息取代帧像素级别的重构预测，避免了一些细节性冗余信息的生成，减轻了网络学习负担，通过加入前后帧间时序信息的聚合操作，尤其是对于视频中动作连贯信息特征的提取，确保模型能够真正理解到当前视频的某些具体内容，提升了机器对视频的理解能力，进一步提高了机器智能化。

2.本发明采用音视频双流输入，利用音视频多模态间的交互，通过引入大量不同实例不同时刻的负例样本，构建了自监督对比学习损失函数，优化视频流特征提取网络和音频流特征提取网络，实现了音频未来片段预测以及视频帧未来预测，提取了音视频共性信息，利用音视频协同信息互补，去除了模态冗余特征，加深对于各自模态信息的理解，有利于下游任务性能的提升。

附图说明

图1为本发明方法的流程示意图；

图2为本发明方法的整体网络结构图；

图3为本发明的视频流特征提取单元的结构框图；

图4为本发明的音频流特征提取单元的结构框图；

图5为本发明的时空卷积模块的结构框图；

图6为本发明的空间卷积模块的结构框图；

图7为本发明的时序信息聚合网络单元的结构框图；

图8为本发明的多模态交互预测网络单元的结构框图。

具体实施方式

本实施例中，如图1所示，一种基于音视频多模态时序预测的视频数据特征提取方法包括以下步骤：

步骤1.利用视频采集装置获取视频数据集，记为X＝{X₁,X₂,...,X_i,...,X_N}，X_i代表第i个视频，1≤i≤N，N表示视频总个数，对视频数据集X提取音频流A和视频流V，记为

其中，

表示第i个视频X_i的音频流，

表示第i个视频X_i的视频流；令

具体实施中，例如利用opencv、moviepy工具(实际操作时也可以利用其他方式)对一段视频分别提取视频帧和音频，构建音视频数据对集合S，同时保留帧时间戳，以便后续截取对应的音频流片段。

步骤2.对视频流V中每个视频流依次采用随机裁剪、随机水平翻转、颜色扰动、尺度放缩操作后得到预处理后的视频流

其中，

分成T个块，每一个块包含q个视频帧；

对音频流A中每个音频片段依次采用振幅扰动、时间扰动操作后得到预处理后的音频流

其中，

表示预处理后的第i个视频X_i的音频流；将预处理后的第i个视频X_i的音频流

按照时间戳分别与预处理后的第i个视频X_i的视频流

具体实施中，可采用例如视频帧下采样率r＝3，对预处理后的第i个视频X_i的视频流

隔3个视频帧取1个帧，每取q＝5帧作为1个块，共T＝8个视频块；对于音频流，按照视频帧的时间戳，分别提取8个视频块对应的音频片段，并将其转为二维频谱图，最终构建预处理后的音视频数据对集合S′。

步骤3.构建音视频多模态时序预测模型，如图2所示，具体实施中，网络训练好后，时序聚合输出特征将用于实际下游任务；

步骤3.1.构建T个视频流特征提取网络单元；

预处理后的音视频数据对集合S′＝{S′₁,S′₂,...,S′_i,...,S′_N}输入音视频多模态时序预测模型中，其中，预处理后的第i个视频X_i的视频流

具体实施中，如图3所示，在三维时空卷积blocks之前，还依次采用1个卷积核为3×7×7、边缘填充1×3×3、步长1×2×2的三维卷积、1个批量归一化、Relu非线性激活函数、1个核大小为1×3×3、边缘填充0×1×1、步长1×2×2的三维最大池化操作，降低模型参数；每个视频流特征提取网络单元都共享参数，取M₁＝4个三维时空卷积blocks，每个block包含M₂＝2个子模块，如图5所示，第一个子模块中空间三维卷积的参数：卷积核为1×3×3、边缘填充1×2×2、步长0×1×1，时间三维卷积的参数：卷积核为3×1×1、边缘填充2×1×1、步长1×0×0；第二个子模块中空间三维卷积的参数：卷积核为1×3×3、边缘填充1×1×1、步长0×1×1，时间三维卷积的参数：卷积核为3×1×1、边缘填充1×1×1、步长1×0×0。以T＝8个blocks为例，音视频多模态时序预测模型取前t＝5个视频流特征作为已知视频流信息，后K＝3个视频流特征作为未来视频流信息。

步骤3.2.构建T个音频流特征提取网络单元；

预处理后的第i个视频X_i的音频流

具体实施中，如图4所示，在二维空间卷积blocks之前，还依次采用1个卷积核为7×7、边缘填充3、步长为2的二维卷积、1个批量归一化、1个Relu非线性激活函数操作，每个音频流特征提取网络单元都共享参数，取W₁＝4个二维空间卷积blocks，每个block包含W₂＝2个子模块，如图6所示，第一个子模块中二维空间卷积参数：卷积核大小3×3、边缘填充均为1、步长均为2，第二个子模块中二维空间卷积参数：卷积核大小3×3、边缘填充均为1、步长均为1。以T＝8个blocks为例，与视频流一致，音视频多模态时序预测模型取前t＝5个音频流特征作为已知音频流信息，后K＝3个音频流特征作为未来音频流信息。

步骤3.3.构建时序信息聚合网络单元；

时序聚合网络单元由T个卷积门控循环单元ConvGRU组成；

时序聚合网络单元分别聚合t个已知视频流信息和t个已知音频流信息，从而相应得到已知信息的第t个代表性视频流特征和得到已知信息的第t个代表性音频流特征；

具体实施中，将音视频流的每个块定义为时刻，T个块对应T个时刻，如图7所示，每个卷积门控循环单元ConvGRU都共享参数，每个单元包含两个输入(隐藏状态特征和实际输入)和一个输出(新的隐藏状态特征)；

隐藏状态特征又被称作条件输入，是当前时刻之前所时序聚合后的代表性特征，对于第1个时刻而言，隐藏状态特征初始为0；时序信息聚合网络的实际输入，为当前时刻经过特征提取网络单元得到的已知信息；

得到的新的隐藏状态特征，作为当前时刻的代表性特征，同时也作为下一时刻的时序信息聚合网络的条件输入。

步骤3.4.构建多模态交互预测网络单元；

多模态交互预测网络单元，包含1个音频特征映射单元、1个视频特征映射单元、2个音视频特征交互预测单元；

视频特征映射单元对已知信息的代表性视频流特征进行模态信息转换，得到空间映射后的视频特征；

音频特征映射单元对已知信息的代表性音频流特征进行模态信息转换，得到空间映射后的音频特征；

音视频特征交互预测单元利用空间映射后的视频特征信息和空间映射后的音频特征信息进行预测，从而得到视频模态和音频模态下的第t+1个未来特征信息；将各模态下的第t+1个未来特征信息分别作为各自对应模态的时序信息聚合网络单元的实际输入，得到第t+1个代表性特征，再将第t+1个代表性特征再次送入多模态交互预测网络单元，得到各模态下的第t+2个未来特征信息，如此循环预测，从而相应得到视频模态和音频模态下的K个未来特征信息；

具体实施中，如图8所示；音频和视频的特征映射单元，分别将各自模态已知信息的代表性特征映射到音视频共有特征空间中，减小模态差异性，再将空间映射后的视频特征和音频特征分别送入对应的音视频特征交互预测单元，得到视频模态和音频模态下的第t+1个未来特征信息，结合图2，将得到的未来特征信息作为实际输入，送入时序信息聚合网络单元，进行循环预测。

步骤4.1.利用式(1)预测未来视频流信息下的对比损失loss^v：

式(1)中，E表示期望，

表示特征相似度函数，

表示预处理后的第i个视频X_i的视频流

的第t个块预测的第k个未来特征信息，1≤k≤K，

表示预处理后的第i个视频X_i的视频流

的第t+k个真实的未来特征信息；

表示预处理后的第j个视频X_i的视频流

的第t+k个真实的未来特征信息，1≤j≤N；

具体实施中，

函数可采用余弦相似度、点积等特征相似度量函数，式(1)使得每个视频流

下预测的每个未来视频流特征信息与真实未来视频流特征信息在特征空间中距离相近，与其余视频流特征距离拉远。

步骤4.2.利用式(2)预测未来音频流特征下的对比损失loss^a：

式(2)中，

表示预处理后的第i个视频X_i的音频流

的第t个块预测的第k个未来特征信息，1≤k≤K，

表示预处理后的第i个视频X_i的音频流

的第t+k个真实的未来特征信息；

表示预处理后的第j个视频X_i的音频流

的第t+k个真实的未来特征信息，1≤j≤N；

具体实施中，式(2)使得每个音频流

下预测的每个未来音频流特征信息与真实未来音频流特征信息在特征空间中距离相近，与其余音频流特征距离拉远。

步骤4.3.利用式(3)计算音视频多模态预测的总损失Loss：

Loss＝loss^v+loss^a (3)

步骤5.利用自适应矩阵估计优化算法对总损失Loss进行优化求解，更新音视频多模态时序预测模型的网络参数，并得到训练好的最优预测模型；从而利用训练好的最优预测模型中的视频流特征提取网络单元、音频流特征提取网络单元和时序信息聚合网络单元对待预测的视频进行处理，得到各模态下的代表性特征。