CN112906624A - 一种基于音视频多模态时序预测的视频数据特征提取方法 - Google Patents

一种基于音视频多模态时序预测的视频数据特征提取方法 Download PDF

Info

Publication number
CN112906624A
CN112906624A CN202110268187.3A CN202110268187A CN112906624A CN 112906624 A CN112906624 A CN 112906624A CN 202110268187 A CN202110268187 A CN 202110268187A CN 112906624 A CN112906624 A CN 112906624A
Authority
CN
China
Prior art keywords
video
audio
stream
information
ith
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110268187.3A
Other languages
English (en)
Other versions
CN112906624B (zh
Inventor
陈雁翔
赵鹏铖
朱玉鹏
盛振涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202110268187.3A priority Critical patent/CN112906624B/zh
Publication of CN112906624A publication Critical patent/CN112906624A/zh
Application granted granted Critical
Publication of CN112906624B publication Critical patent/CN112906624B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Abstract

本发明公开了一种基于音视频多模态时序预测的视频数据特征提取方法,包括:1利用视频采集装置获取视频数据集,构建音视频双流数据对;2对视频流中每个视频帧,音频流中每个音频片段,采用一系列各自模态下的数据增强操作,并将一维音频转为二维频谱图;3构建音视频多模态预测模型,包括视频流特征提取网络单元、音频流特征提取网络单元、时序信息聚合网络单元、多模态交互预测网络单元;4根据多模态交互预测得到的不确定特征,计算音视频多模态预测总损失并优化网络。本发明能利用视频自身时序性,结合音视频双流之间交互,自监督式有效挖掘视频有用信息,从而提高特征提取的有效性,并有助于视频理解、声源定位、异常检测等实际下游任务。

Description

一种基于音视频多模态时序预测的视频数据特征提取方法
技术领域
本发明涉及视频数据处理分析领域,特别涉及一种音视频多模态时序预测的视频数据特征提取方法。
背景技术
在当今互联网大数据背景下,对特定数据进行处理分析,变得越来越重要。这种数据分析在人工智能某些领域又可被称作“表征学习”,即从数据中抽取有用信息,机器学习尤其是深度学习的算法很大程度上依赖于数据表征,因而如何利用互联网上海量数据,自监督式挖掘其自身潜在有效信息,受到研究者们的广泛关注。众所周知,人的认知是结合多个模态信息感知下做出的反应,其中视听觉通常相互并存,例如,狂风呼啸,树叶枝头飞舞,该视觉场景下,常常伴随着树叶沙沙作响声,故而利用这种视听觉协同并存关系,将会在一定程度上提升机器的音视频数据表征能力,让机器为下游多模态实际任务提供帮助,例如在声源定位时,利用声音信息定位视频中处在较远的声源,除此之外还有助于诸如视频理解、异常检测等任务的性能提升。
当前视频数据自监督表征学习方法,一般分为单模态即视频流学习和多模态学习。单模态下常常仿照图像领域,例如对视频片段中缺失帧的生成、视频速率预测等,然而对于视频的理解,仅靠视频流单一模态远远是不够的,例如被观测者的大笑声、背景欢快音乐声都有助于提高一段搞笑视频的分类准确度;而对于后者多模态视频表征学习,有研究者利用聚类结果构建伪标签,相互指导特征分类,这种聚类方法的性能严重依赖于所选择的聚类方法或需要提前设定类别簇个数;除此之外,大部分研究者都采用另一模态为音频流或光流的多模态表征学习方法,其中光流信息的提取耗时,且光流好坏,取决于所选择的光流提取网络的性能,而对于音视频的表征学习,通常采用双流间的时序对齐,引入大量负例对,进行自监督式对比学习,然而现有的音视频多模态数据特征提取方法,忽略了音视频间的时序性,即未考虑帧与帧之间的联系,而时序性正是视频相较于图像其本身特有的性质,帧间独立处理会导致一些重要的时序连贯信息丢失,使得机器对于视频的理解有限,并且帧的噪声信息将很容易导致动作识别精度降低,而时序信息的丢失会降低视频动作的精准分类,以及降低模型的噪声鲁棒性。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于音视频多模态时序预测的视频数据特征提取方法,以期能利用视频自身时序性,并结合音视频双流之间交互,自监督式有效挖掘视频有用信息,从而提高特征提取的有效性,并有助于视频理解、声源定位、异常检测等实际下游任务。
为实现上述目的,本发明采用以下技术方案:
本发明一种基于音视频多模态时序预测的视频数据特征提取方法的特点包括以下步骤:
步骤1.利用视频采集装置获取视频数据集,记为X={X1,X2,...,Xi,...,XN},Xi代表第i个视频,1≤i≤N,N表示视频总个数,对所述视频数据集X提取音频流A和视频流V,记为
Figure BDA0002972921660000021
其中,
Figure BDA0002972921660000022
表示第i个视频Xi的音频流,
Figure BDA0002972921660000023
表示第i个视频Xi的视频流;令
Figure BDA0002972921660000024
表示第i个音视频数据对,从而构建音视频数据对集合S={S1,S2,...,Si,...,SN};
步骤2.对所述视频流V中每个视频流依次采用随机裁剪、随机水平翻转、颜色扰动、尺度放缩操作后得到预处理后的视频流
Figure BDA00029729216600000210
其中,
Figure BDA00029729216600000211
表示预处理后的第i个视频Xi的视频流;根据视频下采样率r将预处理后的第i个视频Xi的视频流
Figure BDA00029729216600000212
分成T个块,每一个块包含q个视频帧;
对所述音频流A中每个音频片段依次采用振幅扰动、时间扰动操作后得到预处理后的音频流
Figure BDA0002972921660000025
其中,
Figure BDA0002972921660000026
表示预处理后的第i个视频Xi的音频流;将所述预处理后的第i个视频Xi的音频流
Figure BDA0002972921660000027
按照时间戳分别与预处理后的第i个视频Xi的视频流
Figure BDA0002972921660000028
的T个块相对应,并对每个块的音频片段采用梅尔频谱图转换操作,将一维音频信号转为二维频谱,从而构建预处理后的第i个音视频数据对
Figure BDA0002972921660000029
进而得到预处理后的音视频数据对集合S′={S′1,S′2,...,S′i,...,S′N};
步骤3.构建音视频多模态时序预测模型;
步骤3.1.构建T个视频流特征提取网络单元;
每个视频流特征提取单元依次由M1个三维时空卷积blocks和1个三维自适应最大池化层组成,每一个三维时空卷积block包含M2个子模块,每个子模块包含1个空间三维卷积、1个时间三维卷积,每个空间或时间三维卷积后均连接1个批量归一化层、1个Relu非线性激活函数;
所述预处理后的音视频数据对集合S′={S′1,S′2,...,S′i,...,S′N}输入所述音视频多模态时序预测模型中,其中,预处理后的第i个视频Xi的视频流
Figure BDA0002972921660000031
中的T个块分别经过T个视频流特征提取网络单元后输出T个视频流特征,其中,前t个视频流特征作为已知视频流信息,后K个视频流特征作为未来视频流信息,t+K=T;
步骤3.2.构建T个音频流特征提取网络单元;
每个音频流特征提取单元依次由W1个二维空间卷积blocks和1个二维自适应最大池化层组成,每一个二维空间卷积block包含W2个子模块,每个子模块包含1个二维空间卷积、1个批量归一化层、1个Relu非线性激活函数;
所述预处理后的第i个视频Xi的音频流
Figure BDA0002972921660000032
中相对应的T个块分别经过T个音频流特征提取网络单元后输出T个音视频流特征;其中,前t个音频流特征作为已知音频流信息,后K个音频流特征作为未来音频流信息;
步骤3.3.构建时序信息聚合网络单元;
所述时序聚合网络单元由T个卷积门控循环单元ConvGRU组成;
所述时序聚合网络单元分别聚合前t个已知视频流信息和前t个已知音频流信息,从而相应得到已知信息的第t个代表性视频流特征和得到已知信息的第t个代表性音频流特征;
步骤3.4.构建多模态交互预测网络单元;
所述多模态交互预测网络单元,包含1个音频特征映射单元、1个视频特征映射单元、2个音视频特征交互预测单元;
音频或视频特征映射单元、音视频特征交互预测单元均包含1个二维卷积层、1个Relu非线性激活函数、一个二维卷积层;
所述视频特征映射单元对已知信息的代表性视频流特征进行模态信息转换,得到空间映射后的视频特征;
所述音频特征映射单元对已知信息的代表性音频流特征进行模态信息转换,得到空间映射后的音频特征;
所述音视频特征交互预测单元分别对空间映射后的视频特征信息和空间映射后的音频特征信息进行预测,从而相应得到视频模态和音频模态下的第t+1个未来特征信息,将各模态的第t+1个未来特征信息分别再次送入各自对应的时序信息聚合网络单元,得到第t+2个未来特征信息,从而不断循环预测并相应得到视频模态和音频模态下的K个未来特征信息;
步骤4.根据多模态交互预测得到的未来特征信息,构建对比损失函数优化网络;
步骤4.1.利用式(1)预测未来视频流信息下的对比损失lossv
Figure BDA0002972921660000041
式(1)中,E表示期望,
Figure BDA0002972921660000042
表示特征相似度函数,
Figure BDA0002972921660000043
表示预处理后的第i个视频Xi的视频流
Figure BDA0002972921660000044
的第t个块预测的第k个未来特征信息,1≤k≤K,
Figure BDA0002972921660000045
表示预处理后的第i个视频Xi的视频流
Figure BDA0002972921660000046
的第t+k个真实的未来特征信息;
Figure BDA0002972921660000047
表示预处理后的第j个视频Xi的视频流
Figure BDA0002972921660000048
的第t+k个真实的未来特征信息,1≤j≤N;
步骤4.2.利用式(2)预测未来音频流特征下的对比损失lossa
Figure BDA0002972921660000049
式(2)中,
Figure BDA00029729216600000410
表示预处理后的第i个视频Xi的音频流
Figure BDA00029729216600000411
的第t个块预测的第k个未来特征信息,1≤k≤K,
Figure BDA00029729216600000412
表示预处理后的第i个视频Xi的音频流
Figure BDA00029729216600000413
的第t+k个真实的未来特征信息;
Figure BDA00029729216600000414
表示预处理后的第j个视频Xi的音频流
Figure BDA00029729216600000415
的第t+k个真实的未来特征信息,1≤j≤N;
步骤4.3.利用式(3)计算音视频多模态预测的总损失Loss:
Loss=lossv+lossa (3)
步骤5.利用自适应矩阵估计优化算法对总损失Loss进行优化求解,更新音视频多模态时序预测模型的网络参数,并得到训练好的最优预测模型;从而利用所述训练好的最优预测模型中的视频流特征提取网络单元、音频流特征提取网络单元和时序信息聚合网络单元对待预测的视频进行处理,得到各模态下的代表性特征。
与现有技术相比,本发明的有益效果在于:
1.本发明通过对视频进行帧预测,利用视频帧的高层信息取代帧像素级别的重构预测,避免了一些细节性冗余信息的生成,减轻了网络学习负担,通过加入前后帧间时序信息的聚合操作,尤其是对于视频中动作连贯信息特征的提取,确保模型能够真正理解到当前视频的某些具体内容,提升了机器对视频的理解能力,进一步提高了机器智能化。
2.本发明采用音视频双流输入,利用音视频多模态间的交互,通过引入大量不同实例不同时刻的负例样本,构建了自监督对比学习损失函数,优化视频流特征提取网络和音频流特征提取网络,实现了音频未来片段预测以及视频帧未来预测,提取了音视频共性信息,利用音视频协同信息互补,去除了模态冗余特征,加深对于各自模态信息的理解,有利于下游任务性能的提升。
附图说明
图1为本发明方法的流程示意图;
图2为本发明方法的整体网络结构图;
图3为本发明的视频流特征提取单元的结构框图;
图4为本发明的音频流特征提取单元的结构框图;
图5为本发明的时空卷积模块的结构框图;
图6为本发明的空间卷积模块的结构框图;
图7为本发明的时序信息聚合网络单元的结构框图;
图8为本发明的多模态交互预测网络单元的结构框图。
具体实施方式
本实施例中,如图1所示,一种基于音视频多模态时序预测的视频数据特征提取方法包括以下步骤:
步骤1.利用视频采集装置获取视频数据集,记为X={X1,X2,...,Xi,...,XN},Xi代表第i个视频,1≤i≤N,N表示视频总个数,对视频数据集X提取音频流A和视频流V,记为
Figure BDA0002972921660000051
其中,
Figure BDA0002972921660000052
表示第i个视频Xi的音频流,
Figure BDA0002972921660000053
表示第i个视频Xi的视频流;令
Figure BDA0002972921660000054
表示第i个音视频数据对,从而构建音视频数据对集合S={S1,S2,...,Si,...,SN};
具体实施中,例如利用opencv、moviepy工具(实际操作时也可以利用其他方式)对一段视频分别提取视频帧和音频,构建音视频数据对集合S,同时保留帧时间戳,以便后续截取对应的音频流片段。
步骤2.对视频流V中每个视频流依次采用随机裁剪、随机水平翻转、颜色扰动、尺度放缩操作后得到预处理后的视频流
Figure BDA0002972921660000055
其中,
Figure BDA0002972921660000056
表示预处理后的第i个视频Xi的视频流;根据视频下采样率r将预处理后的第i个视频Xi的视频流
Figure BDA0002972921660000057
分成T个块,每一个块包含q个视频帧;
对音频流A中每个音频片段依次采用振幅扰动、时间扰动操作后得到预处理后的音频流
Figure BDA0002972921660000061
其中,
Figure BDA0002972921660000062
表示预处理后的第i个视频Xi的音频流;将预处理后的第i个视频Xi的音频流
Figure BDA0002972921660000063
按照时间戳分别与预处理后的第i个视频Xi的视频流
Figure BDA0002972921660000064
的T个块相对应,并对每个块的音频片段采用梅尔频谱图转换操作,将一维音频信号转为二维频谱,从而构建预处理后的第i个音视频数据对
Figure BDA0002972921660000065
进而得到预处理后的音视频数据对集合S′={S′1,S′2,...,S′i,...,S′N};
具体实施中,可采用例如视频帧下采样率r=3,对预处理后的第i个视频Xi的视频流
Figure BDA0002972921660000066
隔3个视频帧取1个帧,每取q=5帧作为1个块,共T=8个视频块;对于音频流,按照视频帧的时间戳,分别提取8个视频块对应的音频片段,并将其转为二维频谱图,最终构建预处理后的音视频数据对集合S′。
步骤3.构建音视频多模态时序预测模型,如图2所示,具体实施中,网络训练好后,时序聚合输出特征将用于实际下游任务;
步骤3.1.构建T个视频流特征提取网络单元;
每个视频流特征提取单元依次由M1个三维时空卷积blocks和1个三维自适应最大池化层组成,每一个三维时空卷积block包含M2个子模块,每个子模块包含1个空间三维卷积、1个时间三维卷积,每个空间或时间三维卷积后均连接1个批量归一化层、1个Relu非线性激活函数;
预处理后的音视频数据对集合S′={S′1,S′2,...,S′i,...,S′N}输入音视频多模态时序预测模型中,其中,预处理后的第i个视频Xi的视频流
Figure BDA0002972921660000067
中的T个块分别经过T个视频流特征提取网络单元后输出T个视频流特征,其中,前t个视频流特征作为已知视频流信息,后K个视频流特征作为未来视频流信息,t+K=T;
具体实施中,如图3所示,在三维时空卷积blocks之前,还依次采用1个卷积核为3×7×7、边缘填充1×3×3、步长1×2×2的三维卷积、1个批量归一化、Relu非线性激活函数、1个核大小为1×3×3、边缘填充0×1×1、步长1×2×2的三维最大池化操作,降低模型参数;每个视频流特征提取网络单元都共享参数,取M1=4个三维时空卷积blocks,每个block包含M2=2个子模块,如图5所示,第一个子模块中空间三维卷积的参数:卷积核为1×3×3、边缘填充1×2×2、步长0×1×1,时间三维卷积的参数:卷积核为3×1×1、边缘填充2×1×1、步长1×0×0;第二个子模块中空间三维卷积的参数:卷积核为1×3×3、边缘填充1×1×1、步长0×1×1,时间三维卷积的参数:卷积核为3×1×1、边缘填充1×1×1、步长1×0×0。以T=8个blocks为例,音视频多模态时序预测模型取前t=5个视频流特征作为已知视频流信息,后K=3个视频流特征作为未来视频流信息。
步骤3.2.构建T个音频流特征提取网络单元;
每个音频流特征提取单元依次由W1个二维空间卷积blocks和1个二维自适应最大池化层组成,每一个二维空间卷积block包含W2个子模块,每个子模块包含1个二维空间卷积、1个批量归一化层、1个Relu非线性激活函数;
预处理后的第i个视频Xi的音频流
Figure BDA0002972921660000071
中相对应的T个块分别经过T个音频流特征提取网络单元后输出T个音视频流特征;其中,前t个音频流特征作为已知音频流信息,后K个音频流特征作为未来音频流信息;
具体实施中,如图4所示,在二维空间卷积blocks之前,还依次采用1个卷积核为7×7、边缘填充3、步长为2的二维卷积、1个批量归一化、1个Relu非线性激活函数操作,每个音频流特征提取网络单元都共享参数,取W1=4个二维空间卷积blocks,每个block包含W2=2个子模块,如图6所示,第一个子模块中二维空间卷积参数:卷积核大小3×3、边缘填充均为1、步长均为2,第二个子模块中二维空间卷积参数:卷积核大小3×3、边缘填充均为1、步长均为1。以T=8个blocks为例,与视频流一致,音视频多模态时序预测模型取前t=5个音频流特征作为已知音频流信息,后K=3个音频流特征作为未来音频流信息。
步骤3.3.构建时序信息聚合网络单元;
时序聚合网络单元由T个卷积门控循环单元ConvGRU组成;
时序聚合网络单元分别聚合t个已知视频流信息和t个已知音频流信息,从而相应得到已知信息的第t个代表性视频流特征和得到已知信息的第t个代表性音频流特征;
具体实施中,将音视频流的每个块定义为时刻,T个块对应T个时刻,如图7所示,每个卷积门控循环单元ConvGRU都共享参数,每个单元包含两个输入(隐藏状态特征和实际输入)和一个输出(新的隐藏状态特征);
隐藏状态特征又被称作条件输入,是当前时刻之前所时序聚合后的代表性特征,对于第1个时刻而言,隐藏状态特征初始为0;时序信息聚合网络的实际输入,为当前时刻经过特征提取网络单元得到的已知信息;
得到的新的隐藏状态特征,作为当前时刻的代表性特征,同时也作为下一时刻的时序信息聚合网络的条件输入。
步骤3.4.构建多模态交互预测网络单元;
多模态交互预测网络单元,包含1个音频特征映射单元、1个视频特征映射单元、2个音视频特征交互预测单元;
音频或视频特征映射单元、音视频特征交互预测单元均包含1个二维卷积层、1个Relu非线性激活函数、一个二维卷积层;
视频特征映射单元对已知信息的代表性视频流特征进行模态信息转换,得到空间映射后的视频特征;
音频特征映射单元对已知信息的代表性音频流特征进行模态信息转换,得到空间映射后的音频特征;
音视频特征交互预测单元利用空间映射后的视频特征信息和空间映射后的音频特征信息进行预测,从而得到视频模态和音频模态下的第t+1个未来特征信息;将各模态下的第t+1个未来特征信息分别作为各自对应模态的时序信息聚合网络单元的实际输入,得到第t+1个代表性特征,再将第t+1个代表性特征再次送入多模态交互预测网络单元,得到各模态下的第t+2个未来特征信息,如此循环预测,从而相应得到视频模态和音频模态下的K个未来特征信息;
具体实施中,如图8所示;音频和视频的特征映射单元,分别将各自模态已知信息的代表性特征映射到音视频共有特征空间中,减小模态差异性,再将空间映射后的视频特征和音频特征分别送入对应的音视频特征交互预测单元,得到视频模态和音频模态下的第t+1个未来特征信息,结合图2,将得到的未来特征信息作为实际输入,送入时序信息聚合网络单元,进行循环预测。
步骤4.根据多模态交互预测得到的未来特征信息,构建对比损失函数优化网络;
步骤4.1.利用式(1)预测未来视频流信息下的对比损失lossv
Figure BDA0002972921660000081
式(1)中,E表示期望,
Figure BDA0002972921660000082
表示特征相似度函数,
Figure BDA0002972921660000083
表示预处理后的第i个视频Xi的视频流
Figure BDA0002972921660000084
的第t个块预测的第k个未来特征信息,1≤k≤K,
Figure BDA0002972921660000085
表示预处理后的第i个视频Xi的视频流
Figure BDA0002972921660000086
的第t+k个真实的未来特征信息;
Figure BDA0002972921660000087
表示预处理后的第j个视频Xi的视频流
Figure BDA0002972921660000091
的第t+k个真实的未来特征信息,1≤j≤N;
具体实施中,
Figure BDA0002972921660000092
函数可采用余弦相似度、点积等特征相似度量函数,式(1)使得每个视频流
Figure BDA0002972921660000093
下预测的每个未来视频流特征信息与真实未来视频流特征信息在特征空间中距离相近,与其余视频流特征距离拉远。
步骤4.2.利用式(2)预测未来音频流特征下的对比损失lossa
Figure BDA0002972921660000094
式(2)中,
Figure BDA0002972921660000095
表示预处理后的第i个视频Xi的音频流
Figure BDA0002972921660000096
的第t个块预测的第k个未来特征信息,1≤k≤K,
Figure BDA0002972921660000097
表示预处理后的第i个视频Xi的音频流
Figure BDA0002972921660000098
的第t+k个真实的未来特征信息;
Figure BDA0002972921660000099
表示预处理后的第j个视频Xi的音频流
Figure BDA00029729216600000910
的第t+k个真实的未来特征信息,1≤j≤N;
具体实施中,式(2)使得每个音频流
Figure BDA00029729216600000911
下预测的每个未来音频流特征信息与真实未来音频流特征信息在特征空间中距离相近,与其余音频流特征距离拉远。
步骤4.3.利用式(3)计算音视频多模态预测的总损失Loss:
Loss=lossv+lossa (3)
步骤5.利用自适应矩阵估计优化算法对总损失Loss进行优化求解,更新音视频多模态时序预测模型的网络参数,并得到训练好的最优预测模型;从而利用训练好的最优预测模型中的视频流特征提取网络单元、音频流特征提取网络单元和时序信息聚合网络单元对待预测的视频进行处理,得到各模态下的代表性特征。

Claims (1)

1.一种基于音视频多模态时序预测的视频数据特征提取方法,其特征包括以下步骤:
步骤1.利用视频采集装置获取视频数据集,记为X={X1,X2,...,Xi,...,XN},Xi代表第i个视频,1≤i≤N,N表示视频总个数,对所述视频数据集X提取音频流A和视频流V,记为
Figure FDA0002972921650000011
其中,
Figure FDA0002972921650000012
表示第i个视频Xi的音频流,
Figure FDA0002972921650000013
表示第i个视频Xi的视频流;令
Figure FDA0002972921650000014
表示第i个音视频数据对,从而构建音视频数据对集合S={S1,S2,...,Si,...,SN};
步骤2.对所述视频流V中每个视频流依次采用随机裁剪、随机水平翻转、颜色扰动、尺度放缩操作后得到预处理后的视频流
Figure FDA0002972921650000015
其中,
Figure FDA0002972921650000016
表示预处理后的第i个视频Xi的视频流;根据视频下采样率r将预处理后的第i个视频Xi的视频流
Figure FDA0002972921650000017
分成T个块,每一个块包含q个视频帧;
对所述音频流A中每个音频片段依次采用振幅扰动、时间扰动操作后得到预处理后的音频流
Figure FDA0002972921650000018
其中,
Figure FDA0002972921650000019
表示预处理后的第i个视频Xi的音频流;将所述预处理后的第i个视频Xi的音频流
Figure FDA00029729216500000110
按照时间戳分别与预处理后的第i个视频Xi的视频流
Figure FDA00029729216500000111
的T个块相对应,并对每个块的音频片段采用梅尔频谱图转换操作,将一维音频信号转为二维频谱,从而构建预处理后的第i个音视频数据对
Figure FDA00029729216500000112
进而得到预处理后的音视频数据对集合S′={S′1,S′2,...,S′i,...,S′N};
步骤3.构建音视频多模态时序预测模型;
步骤3.1.构建T个视频流特征提取网络单元;
每个视频流特征提取单元依次由M1个三维时空卷积blocks和1个三维自适应最大池化层组成,每一个三维时空卷积block包含M2个子模块,每个子模块包含1个空间三维卷积、1个时间三维卷积,每个空间或时间三维卷积后均连接1个批量归一化层、1个Relu非线性激活函数;
所述预处理后的音视频数据对集合S′={S′1,S′2,...,S′i,...,S′N}输入所述音视频多模态时序预测模型中,其中,预处理后的第i个视频Xi的视频流
Figure FDA00029729216500000113
中的T个块分别经过T个视频流特征提取网络单元后输出T个视频流特征,其中,前t个视频流特征作为已知视频流信息,后K个视频流特征作为未来视频流信息,t+K=T;
步骤3.2.构建T个音频流特征提取网络单元;
每个音频流特征提取单元依次由W1个二维空间卷积blocks和1个二维自适应最大池化层组成,每一个二维空间卷积block包含W2个子模块,每个子模块包含1个二维空间卷积、1个批量归一化层、1个Relu非线性激活函数;
所述预处理后的第i个视频Xi的音频流Xi a′中相对应的T个块分别经过T个音频流特征提取网络单元后输出T个音视频流特征;其中,前t个音频流特征作为已知音频流信息,后K个音频流特征作为未来音频流信息;
步骤3.3.构建时序信息聚合网络单元;
所述时序聚合网络单元由T个卷积门控循环单元ConvGRU组成;
所述时序聚合网络单元分别聚合前t个已知视频流信息和前t个已知音频流信息,从而相应得到已知信息的第t个代表性视频流特征和得到已知信息的第t个代表性音频流特征;
步骤3.4.构建多模态交互预测网络单元;
所述多模态交互预测网络单元,包含1个音频特征映射单元、1个视频特征映射单元、2个音视频特征交互预测单元;
音频或视频特征映射单元、音视频特征交互预测单元均包含1个二维卷积层、1个Relu非线性激活函数、一个二维卷积层;
所述视频特征映射单元对已知信息的代表性视频流特征进行模态信息转换,得到空间映射后的视频特征;
所述音频特征映射单元对已知信息的代表性音频流特征进行模态信息转换,得到空间映射后的音频特征;
所述音视频特征交互预测单元分别对空间映射后的视频特征信息和空间映射后的音频特征信息进行预测,从而相应得到视频模态和音频模态下的第t+1个未来特征信息,将各模态的第t+1个未来特征信息分别再次送入各自对应的时序信息聚合网络单元,得到第t+2个未来特征信息,从而不断循环预测并相应得到视频模态和音频模态下的K个未来特征信息;
步骤4.根据多模态交互预测得到的未来特征信息,构建对比损失函数优化网络;
步骤4.1.利用式(1)预测未来视频流信息下的对比损失lossv
Figure FDA0002972921650000021
式(1)中,E表示期望,
Figure FDA0002972921650000022
表示特征相似度函数,
Figure FDA0002972921650000023
表示预处理后的第i个视频Xi的视频流
Figure FDA0002972921650000031
的第t个块预测的第k个未来特征信息,1≤k≤K,
Figure FDA0002972921650000032
表示预处理后的第i个视频Xi的视频流
Figure FDA0002972921650000033
的第t+k个真实的未来特征信息;
Figure FDA0002972921650000034
表示预处理后的第j个视频Xi的视频流
Figure FDA0002972921650000035
的第t+k个真实的未来特征信息,1≤j≤N;
步骤4.2.利用式(2)预测未来音频流特征下的对比损失lossa
Figure FDA0002972921650000036
式(2)中,
Figure FDA0002972921650000037
表示预处理后的第i个视频Xi的音频流
Figure FDA0002972921650000038
的第t个块预测的第k个未来特征信息,1≤k≤K,
Figure FDA0002972921650000039
表示预处理后的第i个视频Xi的音频流
Figure FDA00029729216500000310
的第t+k个真实的未来特征信息;
Figure FDA00029729216500000311
表示预处理后的第j个视频Xi的音频流
Figure FDA00029729216500000312
的第t+k个真实的未来特征信息,1≤j≤N;
步骤4.3.利用式(3)计算音视频多模态预测的总损失Loss:
Loss=lossv+lossa (3)
步骤5.利用自适应矩阵估计优化算法对总损失Loss进行优化求解,更新音视频多模态时序预测模型的网络参数,并得到训练好的最优预测模型;从而利用所述训练好的最优预测模型中的视频流特征提取网络单元、音频流特征提取网络单元和时序信息聚合网络单元对待预测的视频进行处理,得到各模态下的代表性特征。
CN202110268187.3A 2021-03-12 2021-03-12 一种基于音视频多模态时序预测的视频数据特征提取方法 Active CN112906624B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110268187.3A CN112906624B (zh) 2021-03-12 2021-03-12 一种基于音视频多模态时序预测的视频数据特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110268187.3A CN112906624B (zh) 2021-03-12 2021-03-12 一种基于音视频多模态时序预测的视频数据特征提取方法

Publications (2)

Publication Number Publication Date
CN112906624A true CN112906624A (zh) 2021-06-04
CN112906624B CN112906624B (zh) 2022-09-13

Family

ID=76105001

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110268187.3A Active CN112906624B (zh) 2021-03-12 2021-03-12 一种基于音视频多模态时序预测的视频数据特征提取方法

Country Status (1)

Country Link
CN (1) CN112906624B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792597A (zh) * 2021-08-10 2021-12-14 广东省科学院智能制造研究所 一种基于自监督特征提取的机械设备异常声音检测方法
CN114519880A (zh) * 2022-02-09 2022-05-20 复旦大学 基于跨模态自监督学习的主动说话人识别方法
CN115063606A (zh) * 2022-08-16 2022-09-16 有米科技股份有限公司 基于多模态数据的交互训练方法及装置
CN115713722A (zh) * 2023-01-06 2023-02-24 山东建筑大学 一种多模态第一视角视频分类方法及系统
CN117556208A (zh) * 2023-11-20 2024-02-13 中国地质大学(武汉) 多模态数据的智能卷积通用网络预测方法、设备及介质
WO2024037348A1 (zh) * 2022-08-17 2024-02-22 广州市百果园信息技术有限公司 音频处理方法、模型训练方法、装置、设备、介质及产品
CN117556208B (zh) * 2023-11-20 2024-05-14 中国地质大学(武汉) 多模态数据的智能卷积通用网络预测方法、设备及介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080083691A1 (en) * 2006-10-04 2008-04-10 Poynter Richard Q Molded container with raised nipple and method for use
CN105469065A (zh) * 2015-12-07 2016-04-06 中国科学院自动化研究所 一种基于递归神经网络的离散情感识别方法
CN109460737A (zh) * 2018-11-13 2019-03-12 四川大学 一种基于增强式残差神经网络的多模态语音情感识别方法
CN109508375A (zh) * 2018-11-19 2019-03-22 重庆邮电大学 一种基于多模态融合的社交情感分类方法
CN109614895A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于attention特征融合的多模态情感识别的方法
EP3663965A1 (en) * 2018-12-05 2020-06-10 IMRA Europe S.A.S. Method for predicting multiple futures
CN111461235A (zh) * 2020-03-31 2020-07-28 合肥工业大学 音视频数据处理方法、系统、电子设备及存储介质
CN112115832A (zh) * 2020-09-10 2020-12-22 北京影谱科技股份有限公司 一种多模态特征融合的视频时序事件检测方法及系统
CN112233698A (zh) * 2020-10-09 2021-01-15 中国平安人寿保险股份有限公司 人物情绪识别方法、装置、终端设备及存储介质
CN112465008A (zh) * 2020-11-25 2021-03-09 电子科技大学 一种基于自监督课程学习的语音和视觉关联性增强方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080083691A1 (en) * 2006-10-04 2008-04-10 Poynter Richard Q Molded container with raised nipple and method for use
CN105469065A (zh) * 2015-12-07 2016-04-06 中国科学院自动化研究所 一种基于递归神经网络的离散情感识别方法
CN109614895A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于attention特征融合的多模态情感识别的方法
CN109460737A (zh) * 2018-11-13 2019-03-12 四川大学 一种基于增强式残差神经网络的多模态语音情感识别方法
CN109508375A (zh) * 2018-11-19 2019-03-22 重庆邮电大学 一种基于多模态融合的社交情感分类方法
EP3663965A1 (en) * 2018-12-05 2020-06-10 IMRA Europe S.A.S. Method for predicting multiple futures
CN111461235A (zh) * 2020-03-31 2020-07-28 合肥工业大学 音视频数据处理方法、系统、电子设备及存储介质
CN112115832A (zh) * 2020-09-10 2020-12-22 北京影谱科技股份有限公司 一种多模态特征融合的视频时序事件检测方法及系统
CN112233698A (zh) * 2020-10-09 2021-01-15 中国平安人寿保险股份有限公司 人物情绪识别方法、装置、终端设备及存储介质
CN112465008A (zh) * 2020-11-25 2021-03-09 电子科技大学 一种基于自监督课程学习的语音和视觉关联性增强方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
DUNCAN S. BARRACK 等: "AMP: a new time-frequency feature extraction method for intermittent time-series data", 《ARXIV:1507.05455V2》 *
HUADONG TAN 等: "SPECTROGRAM ANALYSIS VIA SELF-ATTENTION FOR REALIZING CROSS-MODEL VISUAL-AUDIO GENERATION", 《ICASSP 2020》 *
INGO MIERSWA 等: "Automatic Feature Extraction for Classifying Audio Data", 《MACHINE LEARNING》 *
卢修生: "基于特征编码与池化的动作识别方法研究", 《中国优秀博硕士学位论文全文数据库(博士) 信息科技辑》 *
罗坚 等: "异常步态 3 维人体建模和可变视角识别", 《中国图象图形学报》 *
陈雁翔 等: "智能环境中音视频双模态的身份辨识", 《中国科学技术大学学报》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792597A (zh) * 2021-08-10 2021-12-14 广东省科学院智能制造研究所 一种基于自监督特征提取的机械设备异常声音检测方法
CN114519880A (zh) * 2022-02-09 2022-05-20 复旦大学 基于跨模态自监督学习的主动说话人识别方法
CN114519880B (zh) * 2022-02-09 2024-04-05 复旦大学 基于跨模态自监督学习的主动说话人识别方法
CN115063606A (zh) * 2022-08-16 2022-09-16 有米科技股份有限公司 基于多模态数据的交互训练方法及装置
CN115063606B (zh) * 2022-08-16 2022-12-16 有米科技股份有限公司 基于多模态数据的交互训练方法及装置
WO2024037348A1 (zh) * 2022-08-17 2024-02-22 广州市百果园信息技术有限公司 音频处理方法、模型训练方法、装置、设备、介质及产品
CN115713722A (zh) * 2023-01-06 2023-02-24 山东建筑大学 一种多模态第一视角视频分类方法及系统
CN117556208A (zh) * 2023-11-20 2024-02-13 中国地质大学(武汉) 多模态数据的智能卷积通用网络预测方法、设备及介质
CN117556208B (zh) * 2023-11-20 2024-05-14 中国地质大学(武汉) 多模态数据的智能卷积通用网络预测方法、设备及介质

Also Published As

Publication number Publication date
CN112906624B (zh) 2022-09-13

Similar Documents

Publication Publication Date Title
CN112906624B (zh) 一种基于音视频多模态时序预测的视频数据特征提取方法
CN108805015B (zh) 加权卷积自编码长短期记忆网络人群异常检测方法
CN110969124B (zh) 基于轻量级多分支网络的二维人体姿态估计方法及系统
CN112016682B (zh) 视频表征学习、预训练方法及装置、电子设备、存储介质
CN108647599B (zh) 结合3d跃层连接和循环神经网络的人体行为识别方法
CN110827265B (zh) 基于深度学习的图片异常检测方法
CN110688927A (zh) 一种基于时序卷积建模的视频动作检测方法
CN111797891A (zh) 基于生成对抗网络的非成对异质人脸图像生成方法、装置
CN113033276B (zh) 一种基于转换模块的行为识别方法
CN114782737A (zh) 一种基于改进残差网络的图像分类方法、设备和存储介质
Algamdi et al. Learning temporal information from spatial information using CapsNets for human action recognition
CN115237255B (zh) 一种基于眼动和语音的自然图像共指目标定位系统及方法
CN115578770A (zh) 基于自监督的小样本面部表情识别方法及系统
CN111881818B (zh) 医疗行为细粒度识别装置及计算机可读存储介质
CN113033283B (zh) 一种改进的视频分类系统
WO2019136591A1 (zh) 基于弱监督时空级联神经网络的显著目标检测方法及系统
CN114782995A (zh) 一种基于自注意力机制的人交互行为检测方法
CN115346259A (zh) 一种结合上下文信息的多粒度学业情绪识别方法
CN114092746A (zh) 一种多属性识别方法、装置、存储介质及电子设备
CN113658188A (zh) 一种基于改进Unet模型的溶液结晶过程图像语义分割方法
EP3401843A1 (en) A method, an apparatus and a computer program product for modifying media content
CN113744306B (zh) 基于时序内容感知注意力机制的视频目标分割方法
CN117636908B (zh) 数字化矿山生产管控系统
Kumar et al. Performance Evaluation of Video-to-Video Synthesis GAN models on Cityscapes Dataset
CN113505266B (zh) 两阶段的anchor-based动态视频摘要方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant