CN115471774A - 基于音视频双模态特征融合的视频时域动作分割方法 - Google Patents

基于音视频双模态特征融合的视频时域动作分割方法 Download PDF

Info

Publication number
CN115471774A
CN115471774A CN202211139594.5A CN202211139594A CN115471774A CN 115471774 A CN115471774 A CN 115471774A CN 202211139594 A CN202211139594 A CN 202211139594A CN 115471774 A CN115471774 A CN 115471774A
Authority
CN
China
Prior art keywords
video
audio
stage
boundary
cascade
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211139594.5A
Other languages
English (en)
Inventor
杨柳
殷鑫
龙军
蒋豫
吴振杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202211139594.5A priority Critical patent/CN115471774A/zh
Publication of CN115471774A publication Critical patent/CN115471774A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于音视频双模态特征融合的视频时域动作分割方法,设计了一种视频时域动作分割网络模型,将音频特征引入到视频时域动作分割任务中,利用音频天然的波形特征以及视频特征用于回归动作边界概率,并设计多阶段视听双模态级联网络,用以捕获视频的边界信息,细化网络的逐帧动作预测;同时设计视听双模态边界回归模块计算音频特征和视频特征得到动作边界概率并对上述多阶段视听双模态级联网络的动作分类结果进行细化,捕获可靠的视频片段与正确的视频动作分类,用以缓解视频分割时的边界模糊问题,提高视频动作分割效果。

Description

基于音视频双模态特征融合的视频时域动作分割方法
技术领域
本发明涉及视频动作分割技术领域,具体涉及一种基于音视频双模态特征融合的视频时域动作分割方法。
背景技术
随着深度学习在短的剪辑视频分类中的成功应用,对于未经剪辑的长视频的时域动作分割与动作分类受到了越来越多的关注,并已成为视频内容理解的一个热门研究方向。
视频时域动作分割任务即指在一段未经剪裁的视频中对每一帧所属的动作类别进行分类,需要回答的问题是:哪些视频帧属于哪个动作类别。视频时域动作分割方法能够体现对未经剪裁视频的智能化自动化分析过程,可以帮助视频中多个动作段划分,能够对视频中动作进行细粒度的分析,用以提升动作理解效率。视频时域动作分割方法可以用于有连续动作的应用场景,如生产线生产装配、人机交互、教学视频以及医务人员的实际操作流程等,同时对视频处理技术的现代化、智能化和自动化也有重大的推进作用。因此,针对视频时域动作分割方法在视频智能化与自动化处理领域具有极其重要的应用价值。
目前最先进的视频时域动作分割方法是利用多层时域卷积和时域池化实现的,这些方法能够捕捉视频时域相关性,但几乎都存在过度分割与边界模糊的问题。
综上所述,急需一种基于音视频双模态特征融合的视频时域动作分割方法以解决现有技术中存在的问题。
发明内容
本发明目的在于提供一种基于音视频双模态特征融合的视频时域动作分割方法,旨在解决现有技术存在过度分割与边界模糊的问题,具体技术方案如下:
基于音视频双模态特征融合的视频时域动作分割方法,包括以下步骤:
S1:提取多媒体数据的视频特征和音频特征;
S2:建立视频时域动作分割网络模型,并依据视频时域动作分割网络模型输出视频时域动作分割分类结果,所述视频时域动作分割网络模型包括多阶段视听双模态级联网络与视听双模态边界回归模块,具体步骤包括:
S2-1:将多媒体数据的音频特征融入视频特征,得到融合后的视听双模态特征,输入多阶段视听多模态级联网络中;
S2-2:基于音频特征和视频特征,通过视听双模态边界回归模块生成视听双模态边界平滑算子,通过视听双模态边界平滑算子平滑多阶段视听多模态级联网络中每个级联阶段的帧置信度得分,并生成自注意力权重;
S2-3:将多阶段视听多模态级联网络中每个级联阶段的帧置信度得分根据自注意力权重矩阵加权求和,输入融合阶段,得到融合分类分数,根据融合分类分数输出视频时域动作分割分类结果。
优选的,所述步骤S2-2中通过视听双模态边界平滑算子平滑多阶段视听多模态级联网络中每个级联阶段的帧置信度得分的表达式为:
Figure BDA0003852967560000021
b′=(bvideo+βbaudio)/2;
其中,
Figure BDA0003852967560000022
为加入平滑算子后网络预测的帧置信度得分;
Figure BDA0003852967560000023
为帧置信度得分;s为池化的方向;β为确定不同特征贡献的模型超参数;L为长度,池化窗口的长度为2L+1;
Figure BDA0003852967560000024
为池化窗口内帧的帧置信度得分;α为自注意力权重的衰减率;j为池化窗口中每个方向取的元素数目;b′t+s·j为池化窗口内的动作边界概率;att为自注意力调整单元;b′为融合边界概率;bvideo为视频边界概率;baudio为音频边界概率。
优选的,所述步骤S2-2中自注意力权重的表达式为:
Figure BDA0003852967560000025
其中,
Figure BDA0003852967560000026
为多阶段视听多模态级联网络中每个级联阶段的自注意力权重;e为自然常数;ρ为设置的帧置信度得分阈值;
Figure BDA0003852967560000027
为时间为t,阶段为j′时的帧置信度得分。
优选的,所述步骤S2-3中融合分类分数的表达式为:
Figure BDA0003852967560000031
其中,
Figure BDA0003852967560000032
为融合分类分数。
优选的,所述步骤S2-3中还包括以下步骤:通过视听双模态边界平滑算子平滑融合分类分数,其表达式如下:
Figure BDA0003852967560000033
b′=(bvideo+βbaudio)/2;
其中,
Figure BDA0003852967560000034
为加入平滑算子后网络预测的平滑融合分类分数。
优选的,还包括级联阶段在帧上的损失分布,表达式如下:
Figure BDA0003852967560000035
其中,
Figure BDA0003852967560000036
为级联阶段在帧上的损失分布;yt,c为在时间t时类别C的预测概率;t为某一时间;
以及融合阶段在帧上的分类损失,表达式如下:
Figure BDA0003852967560000037
其中,
Figure BDA0003852967560000038
为分类损失;T为多媒体数据的总时长。
优选的,通过视听双模态边界平滑算子平滑级联阶段的帧置信度得分和融合分类分数时的平滑损失,其表达式如下:
Figure BDA0003852967560000041
Figure BDA0003852967560000042
Δt,c=|logyt,c-logyt-1,c|;
其中,
Figure BDA0003852967560000043
为平滑损失;Cn为类别总数;σ为标准差;xt为在t时间的帧置信度得分;
Figure BDA0003852967560000044
为前后两帧置信度得分的对数差的平方;Δt,c为前后两帧置信度得分的对数差;τ为阈值。
优选的,所述级联阶段的最终损失函数的表达式为:
Figure BDA0003852967560000045
其中,λ为确定不同损失贡献的模型超参数;
Figure BDA0003852967560000046
为级联阶段的最终损失函数;
所述融合阶段的最终损失函数的表达式为:
Figure BDA0003852967560000047
其中,
Figure BDA0003852967560000048
为融合阶段的最终损失函数。
优选的,所有级联阶段和融合阶段的最小化损失总和的表达式为:
Figure BDA0003852967560000049
其中,
Figure BDA00038529675600000410
为所有级联阶段和融合阶段的最小化损失总和。
优选的,还包括视听双模态边界回归的损失函数,其表达式如下:
Figure BDA00038529675600000411
其中,N是预测阶段数;
Figure BDA00038529675600000412
为视听双模态边界回归的损失函数;
Figure BDA00038529675600000413
为边界回归每个阶段的交叉熵损失。
应用本发明的技术方案,具有以下有益效果:
(1)本发明专利提出了一种基于音视频双模态特征融合的视频时域动作分割方法,设计了一种视频时域动作分割网络模型,将音频特征引入到视频时域动作分割任务中(即将将多媒体数据的音频特征融入视频特征,得到融合后的视听双模态特征,输入视频时域动作分割网络模型的多阶段视听多模态级联网络中),利用音频天然的波形特征以及视频特征用于回归动作边界概率,并设计多阶段视听双模态级联网络,用以捕获视频的边界信息,细化网络的逐帧动作预测;同时设计视听双模态边界回归模块计算音频特征和视频特征得到动作边界概率并对上述多阶段视听双模态级联网络的动作分类结果进行细化,捕获可靠的视频片段与正确的视频动作分类,用以缓解视频分割时的边界模糊问题,提高视频动作分割效果。
(2)本发明中还分别设置了所有级联阶段和融合阶段的最小化损失总和以及视听双模态边界回归的损失函数,使得本发明提供的视频时域动作分割网络模型,在训练阶段中,每个批次的训练数据送入模型后,通过前向传播输出预测值,然后损失函数会计算出预测值和真实值之间的差异值,也就是损失值。得到损失值之后,模型通过反向传播调整视频时域动作分割网络模型中的各个参数,来降低真实值与预测值之间的损失,使得模型生成的预测值往真实值方向靠拢,从而达到学习的目的。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明优选实施例1的整体流程示意图;
图2是图1中音频特征和视频特征提取的流程示意图;
图3是基于自注意力机制的边界平滑算子与边界平滑算子对比示意图;
图4是音频边界回归的多阶段结构的示意图;
图5是在EPIC-KITCHENS数据集上的时域动作分割任务的定性结果;
具体实施方式
为了便于理解本发明,下面将对本发明进行更全面的描述,并给出了本发明的较佳实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
实施例1:
参见图1,基于音视频双模态特征融合的视频时域动作分割方法,包括以下步骤:
S1:提取多媒体数据的视频特征和音频特征,参见图2;
具体是:
(1)利用TSN提取视频特征,包括:
利用ffmpeg工具从视频数据集中的mp4文件中提取RGB帧;建立并行环境实现并行快速提取视频RGB帧的RGB特征;TSN模型的输入为一个视频(多媒体数据)的所有RGB帧,输出的特征大小为T x1024,其中T为视频帧的数量,1024为特征的维度;最终提取得到视频数据集的视频特征集。
(2)利用VGGish提取音频特征,包括:
利用ffmpeg工具从视频数据集中的mp4文件提取wav和acc文件;建立并行环境实现并行快速提取视频的音频特征;VGGish模型在AudioSet上进行了预训练,提取的特征来自激活后的预分类层;VGGish模型的输入一个视频(多媒体数据)的所有的音频文件,输出的特征维度为128维;最终提取得到视频数据集的音频特征集。
以EPIC-KITCHENS视频数据集为例,该数据集共有633个视频,视频大小1866.4GB,利用上述方法提取到80.2GB的视频特征以及0.2GB的音频特征。从特征集大小的巨大差距,也能看出视频和音频特征所包含的信息差距。因此,在利用音视频特征时,也仅将音频特征作为视频特征的辅助信息,将音频特征主要用于学习边界,并参与到部分动作分类任务中。
从EPIC-KITCHENS数据集提取的视频特征与音频特征如表1所示。
表1 EPIC-KITCHENS数据集中视频特征和音频特征
#Hour #Action class #Number #Dimension #Size(GB)
EPIC-KITCHENS 100 125 700 - 1866.4
RGBfeatures - - 633 1024 80.2
Audiofeatures - - 633 128 0.2
S2:建立视频时域动作分割网络模型,并依据视频时域动作分割网络模型输出视频时域动作分割分类结果,所述视频时域动作分割网络模型包括多阶段视听双模态级联网络与视听双模态边界回归模块,具体步骤包括:
S2-1:将多媒体数据的音频特征融入视频特征,得到融合后的1152维视听双模态特征,输入多阶段视听多模态级联网络中;
S2-2:基于音频特征和视频特征,通过视听双模态边界回归模块生成视听双模态边界平滑算子,具体步骤包括:
(1)视频边界回归
对于视频数据集中视频特征的边界信息,利用BSN模型中的时间评估模块(TEM)回归视频边界概率,并与音频边界回归生成的音频边界概率融合,生成视听双模态边界平滑算子。
(2)音频边界回归
对于视频数据集中音频特征的边界信息,设计一种具有扩张残差层的时域卷积网络,并将其扩展为多阶段结构,这种多阶段结构用于音频边界回归生成音频边界概率。在本实施例中,多阶段结构参见图4所示,每个阶段由一个卷积核大小为1,具有64个滤波器的时间卷积,10个扩张残差卷积和另一个用于将特征维度减少到动作类的数量的时间卷积组成,每个扩张卷积的扩张率按层数加倍,在初始预测层之后将阶段数设置为3。
(3)融合双模态边界概率
将视频边界概率与音频边界概率融合后输入自注意力调整单元,将边界概率映射到新的区间,生成融合视频模态的动作边界信息以及音频特征中天然的波形特征的视听双模态边界平滑算子,参见图3(a为视听双模态边界平滑算子,b为普通边界平滑算子),可以看出视听双模态边界平滑算子能以当前帧为中心的局部池化窗口,并从中心计算左右两个方向的自注意力权重,自适应地平滑多阶段视听双模态级联网络的输出结果(相比于边界平滑算子,本申请中的视听双模态边界平滑算子遇到边界时,能自适应地降低权重;当池化窗口内出现不在边界附近但本身对网络动作分割结果影响非常大的帧时,也能自适应地增加权重,捕获更多有效信息)。
然后通过视听双模态边界平滑算子平滑多阶段视听多模态级联网络中每个级联阶段的帧置信度得分,表达式如下:
Figure BDA0003852967560000081
b′=(bvideo+βbaudio)/2;
其中,
Figure BDA0003852967560000082
为加入平滑算子后网络预测的帧置信度得分;
Figure BDA0003852967560000083
为每个级联阶段在时间t的帧置信度得分;s为池化的方向;β为确定不同特征贡献的模型超参数;L为长度,池化窗口的长度为2L+1;
Figure BDA0003852967560000084
为池化窗口内帧的帧置信度得分;α为自注意力权重的衰减率;j为池化窗口中每个方向取的元素数目;b′t+s·j为池化窗口内的动作边界概率;att为自注意力调整单元;b为融合边界概率;bvideo为视频边界概率;baudio为音频边界概率;
因为所有级联阶段的权重由上一个级联阶段的帧置信度得分与权重共同决定,因此生成自注意力权重,表达式为:
Figure BDA0003852967560000085
其中,
Figure BDA0003852967560000086
为多阶段视听多模态级联网络中每个级联阶段的自注意力权重;e为自然常数;ρ为设置的帧置信度得分阈值;
Figure BDA0003852967560000087
为时间为t,阶段为j′时的帧置信度得分;
S2-3:将多阶段视听多模态级联网络中每个级联阶段的帧置信度得分根据自注意力权重矩阵加权求和,输入融合阶段,得到融合分类分数;融合分类分数的表达式为:
Figure BDA0003852967560000088
其中,
Figure BDA0003852967560000089
为融合分类分数;融合分类分数
Figure BDA00038529675600000810
能自适应地组合每一帧在不同级联阶段的输出,并将其传递到融合阶段以产生阶段级联的最终预测;
通过视听双模态边界平滑算子平滑融合分类分数,进一步减少边界模糊问题,根据平滑后的融合分类分数输出视频时域动作分割分类结果,平滑后的融合分类分数表达式如下:
Figure BDA0003852967560000091
b′=(bvideo+βbaudio)/2;
其中,
Figure BDA0003852967560000092
为加入平滑算子后网络预测的平滑融合分类分数。
视听双模态边界感知的视频时域动作分割算法的输入是视频特征和音频特征,输出是视频动作分割结果。视听双模态边界感知的视频时域动作分割的实现伪代码如表2所示。
表2视听双模态边界感知的视频时域动作分割算法
Figure BDA0003852967560000093
Figure BDA0003852967560000101
在本实施例中,为了保证模型训练趋于稳定收敛,设计了多阶段视听双模态级联网络结构与视听双模态边界回归模块的损失函数。
对于多阶段视听多模态级联网络结构,为所有级联阶段和融合阶段设计了损失函数,包括分类损失和平滑损失。
级联阶段在帧上的损失分布,表达式如下:
Figure BDA0003852967560000102
其中,
Figure BDA0003852967560000103
为级联阶段在帧上的损失分布;yt,c为在时间t时类别c的预测概率;t为某一时间;
以及融合阶段在帧上的分类损失,表达式如下:
Figure BDA0003852967560000104
其中,
Figure BDA0003852967560000109
为分类损失;T多媒体数据的总时长;由于在真实数据集中,每个动作类别的频率不同,会导致训练期间的严重不平衡。如果负样本过多的话,会导致损失值过大,以至于模型会不自觉地忽略正样本的损失值,不利于收敛,而正样本之间数目差距过大也会导致训练期间的严重不平衡。因此,融合阶段在帧上的分类损失
Figure BDA0003852967560000106
中的每个动作类别施加了一个权重,其中每个动作类别的权重是通过将所有动作类别频率的中位数除以每个动作类别频率得到的;
为了进一步提高预测质量,现有方法通常使用额外的平滑损失来减少这种过度分割错误,例如在帧间对数概率上使用截断均方误差T-MSE,其表达式如下:
Figure BDA0003852967560000107
Figure BDA0003852967560000108
Δt,c=|logyt,c-logyt-1,c|;
但是T-MSE会惩罚视频中的所有帧以平滑帧之间的动作概率转换,这会导致实际动作转换的帧受到惩罚,也就是说,T-MSE作用于视频时,无论当前帧是否为边界,会统一受到惩罚。这会平滑视频中实际存在的边界,可能会产生边界模糊问题。为了解决这个问题,提出了高斯相似度加权T-MSE(GS-T-MSE)作为平滑损失函数。
因此在本实施例中,提出了高斯相似度加权T-MSE(GS-T-MSE)作为平滑损失函数,即通过视听双模态边界平滑算子平滑级联阶段的帧置信度得分和融合分类分数时的平滑损失,其表达式如下:
Figure BDA0003852967560000111
Figure BDA0003852967560000112
Δt,c=logyt,c-logyt-1,c|;
其中,
Figure BDA0003852967560000113
为平滑损失;Cn为类别总数;σ为标准差;xt为在t时间的帧置信度得分;
Figure BDA0003852967560000114
为前后两帧置信度得分的对数差的平方;Δt,c为前后两帧置信度得分的对数差;τ为阈值。
在本实施例中,所述级联阶段的最终损失函数的表达式为:
Figure BDA0003852967560000115
其中,λ为确定不同损失贡献的模型超参数;
Figure BDA0003852967560000116
为级联阶段的最终损失函数;
所述融合阶段的最终损失函数的表达式为:
Figure BDA0003852967560000117
其中,
Figure BDA0003852967560000118
为融合阶段的最终损失函数。
在本实施例中,为了训练完整模型,最小化所有级联阶段和融合阶段的损失总和,最小化损失总和的表达式为:
Figure BDA0003852967560000119
其中,
Figure BDA00038529675600001110
为所有级联阶段和融合阶段的最小化损失总和。
在本实施例中,针对视听双模态边界回归,设计了二元逻辑回归损失函数,其表达式如下:
Figure BDA0003852967560000121
其中yt是时间为t时帧的真实概率;pt是时间为t时帧的动作边界概率。通过wp对正样本(即除了背景之外的所有帧)进行加权,因为作为动作边界的帧数远小于其他帧数。计算正数据点在整个训练数据中的比率,并使用它的倒数作为权重。最终,对视听双模态边界回归模块中每个边界预测的损失进行平均,得到视听双模态边界回归的损失函数,其表达式如下:
Figure BDA0003852967560000122
其中,N是预测阶段数;
Figure BDA0003852967560000123
为视听双模态边界回归的损失函数;
Figure BDA0003852967560000124
为每个阶段边界回归的损失值。
实验与结果分析
针对EPIC-KITCHENS数据集,利用本专利提出的音视频特征提取方法提取了数据集的音频特征与视频特征,用以验证本专利提出的多阶段音视频双模态特征融合的视频时域动作分割方法的有效性。
数据集与评估指标
采用提取自EPIC-KITCHENS数据集的音频特征和视频特征,具体信息如表1所示,视频特征的数量为633个,特征维度为1024维,音频特征的数量为633个,特征维度为128维。采用的评价指标包括:帧级准确性Acc、分段编辑距离Edit、以及分段F1在重叠阈值10%、25%和50%时的分数,用F1@{10,25,50}表示。
实验参数设置
使用具有三个级联阶段和一个融合阶段的多阶段视听双模态级联网络,每个阶段包含10个扩张卷积层,其中扩张卷积的扩张率按层数加倍,每一层之后使用dropout层防止过拟合,在级联网络的所有层中设置过滤器的数量为64,过滤器的大小为3。视听双模态边界回归模块采用一个初始预测阶段和三个优化阶段的多阶段结构,每个阶段由一个卷积核大小为1,具有64个滤波器的时间卷积、10个扩张残差卷积和另一个用于将特征维度减少到动作类的数量的时间卷积组成,每个扩张卷积的扩张率按层数加倍。对于损失函数,设置τ=4以及λ=0.15。在所有的实验中,使用深度学习中常用的Adam优化器,学习率为0.0005。
消融实验
(1)视听双模态边界回归模块阶段数量的影响
视听双模态边界回归模块要考虑阶段数量对视频分割效果的影响,在50Salads数据集上比较了视听双模态边界回归模块阶段数量的影响。
在EPIC-KITCHENS数据集上视听双模态边界回归模块阶段数量的影响如表3所示。采用不同视听双模态边界回归模块阶段数量的模型都达到了比较好的帧级准确性Acc得分。然而,观察这些模型的分段编辑距离Edit和分段F1得分,单阶段模型的F1得分较低,有可能是因为阶段数量太少,不足以捕获足够的边界信息,产生了大量的过度分割错误。从阶段数量上升之后,分段F1得分的提高可以得知,多级架构有助于捕获边界信息。然而,增加到第四阶段后,可以看到性能开始下降,这可能是参数数量增加导致的过拟合问题。因此,在之后的实验中,使用具有三个阶段的视听双模态边界回归模块。
表3在EPIC-KITCHENS数据集上视听双模态边界回归模块阶段数量的影响
Figure BDA0003852967560000131
(2)音频特征对视频动作分割的作用
提出的视频时域动作分割网络模型,首次将音频特征信息引入视频动作分割技术领域,以下比较了音频特征对视频动作分割的作用。
视频时域动作分割网络模型MS-AVBAN变体的描述如表4所示,MS-BAN表示针对视频模态的多阶段视听多模态级联网络,MS-AVBAN(fusion)表示音频特征参与边界回归和帧级动作分类,MS-AVBAN(classification)表示音频特征仅参与帧级动作分类,不参与边界回归,MS-AVBAN(boundary)表示音频特征仅参与边界回归,不参与帧级动作分类。
表4视频时域动作分割网络模型MS-AVBAN变体的描述
Figure BDA0003852967560000141
在EPIC-KITCHENS数据集上视频时域动作分割网络模型的变体的对比结果如表5所示,比较了视听双模态边界回归模块对多阶段视听多模态级联网络的优化效果以及音频特征对多阶段视听多模态级联网络逐帧预测结果的影响。
MS-AVBAN(fusion)取得了最佳的效果,在F1@{10,25,50}、分段编辑距离Edit以及帧级准确性Acc指标上相比MS-BAN分别提高了2.5%、2.4%、4.3%、2.3%以及3.5%,这表明,音频特征共同参与边界回归和帧级动作分类可以有效提升网络的动作分割结果。MS-AVBAN(fusion)、MS-AVBAN(classification)和MS-AVBAN(boundary)三者相比MS-BAN都取得了更好的分段编辑距离Edit和分段F1得分,这说明了将音频特征引入动作分割可以有效平衡过度分割问题和边界模糊问题。
表5在EPIC-KITCHENS数据集上视频时域动作分割网络模型的变体的对比结果
Figure BDA0003852967560000142
视频时域动作分割网络模型MS-AVBAN与最先进方法的对比实验
在提取的视听双模态特征数据集上,将视频时域动作分割网络模型与最先进方法(MS-TCN、MS-TCN++、SSTDA+HASR、DTGRM、MS-TCN+HASR、ASRF、BCN以及SSTDA)进行对比,实验结果如表6所示。
为了合理地评估模型的效果,统一使用提取的EPIC-KITCHENS数据集特征对现有方法进行实验,因为视频时域动作分割领域现有最先进的模型都是针对视频特征进行动作分割,而本申请中视频时域动作分割网络模型是领域内首次提出引入音频特征的方法。因此,对其它方法进行实验时仅使用EPIC-KITCHENS数据集的视频特征。
表6在EPIC-KITCHENS数据集上与最先进方法的对比结果
Figure BDA0003852967560000151
视频时域动作分割网络模型在评估指标帧级准确性Acc、分段编辑距离Edit和分段F1得分上均取得了最先进的性能。在帧级准确性Acc上取得了3.3%的提升,在分段编辑距离Edit上取得了2.2%的提升,在F1@{10,25,50}上分别取得了2.3%、2.4%和4.3%的提升。提出的多阶段视听多模态级联网络MS-BAN也能很好地捕获视频中的信息,效果在所有方法中排在前列,但它的效果远远不如视频时域动作分割网络模型,这也从另一方面证明了音频特征信息拥有着解决过度分割问题和边界模糊问题的能力。
为了展示视频时域动作分割网络模型的真实分割结果,从EPIC-KITCHENS数据集中选择了两个代表性的视频进行实例分析。以提出的多阶段视听多模态级联网络MS-BAN作为参照,视频时域动作分割网络模型MS-AVBAN与多阶段视听多模态级联网络MS-BAN的定性结果如图5所示,图中GT表示真实标签,每一个颜色块代表一个动作片段。从定性结果上来看,尽管MS-BAN已经取得了非常好的效果,但还是存在部分边界模糊和过度分割问题。
边界模糊:如图5(a)中所示,MS-BAN将第二段动作和第三段动作错误地融合到一个动作片段中,这可能是由于MS-BAN为了缓解过度分割问题,在模型中采用了高斯相似度加权T-MSE,未能完全区分边界,导致了比较严重的边界模糊问题,而MS-AVBAN捕获了音频的波形特征,能够避免平滑边界信息,非常有效地缓解了边界模糊问题。因此,MS-AVBAN正确地分割了第二段动作和第三段动作。
过度分割:如图5(b)中所示,MS-BAN产生了部分过度分割错误,在一个动作片段预测出了其它动作,MS-BAN效果不佳的原因是自注意力边界平滑算子不足以解决过度分割问题,而MS-AVBAN将视听双模态边界信息引入多阶段级联网络,优化每个阶段。的帧级动作预测,从而获得更加精准的预测结果,很好地解决了过度分割问题。
综上,多阶段视听双模态边界感知的视频时域动作分割模型,根据音频特征和视频特征动作分类的困难程度灵活地采用不同阶段的级联网络进行处理,低阶段的级联网络处理易分类的音视频,高阶段的级联网络处理难分类的音视频。同时利用音频天然的波形特征,回归动作边界概率,以得到视听双模态边界平滑算子,对各个阶段的预测结果进行优化。因而本发明提出的视频时域动作分割模型,可以有效缓解视频分割边界模糊问题,提高视频分割的精度。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.基于音视频双模态特征融合的视频时域动作分割方法,其特征在于,包括以下步骤:
S1:提取多媒体数据的视频特征和音频特征;
S2:建立视频时域动作分割网络模型,并依据视频时域动作分割网络模型输出视频时域动作分割分类结果,所述视频时域动作分割网络模型包括多阶段视听双模态级联网络与视听双模态边界回归模块,具体步骤包括:
S2-1:将多媒体数据的音频特征融入视频特征,得到融合后的视听双模态特征,输入多阶段视听多模态级联网络中;
S2-2:基于音频特征和视频特征,通过视听双模态边界回归模块生成视听双模态边界平滑算子,通过视听双模态边界平滑算子平滑多阶段视听多模态级联网络中每个级联阶段的帧置信度得分,并生成自注意力权重;
S2-3:将多阶段视听多模态级联网络中每个级联阶段的帧置信度得分根据自注意力权重矩阵加权求和,输入融合阶段,得到融合分类分数,根据融合分类分数输出视频时域动作分割分类结果。
2.根据权利要求1所述的视频时域动作分割方法,其特征在于,所述步骤S2-2中通过视听双模态边界平滑算子平滑多阶段视听多模态级联网络中每个级联阶段的帧置信度得分的表达式为:
Figure FDA0003852967550000011
b′=(bvideo+βbaudio)/2;
其中,
Figure FDA0003852967550000012
为加入平滑算子后网络预测的帧置信度得分;
Figure FDA0003852967550000013
为帧置信度得分;s为池化的方向;β为确定不同特征贡献的模型超参数;L为长度,池化窗口的长度为2L+1;
Figure FDA0003852967550000014
为池化窗口内帧的帧置信度得分;α为自注意力权重的衰减率;j为池化窗口中每个方向取的元素数目;b′t+s·j为池化窗口内的动作边界概率;att为自注意力调整单元;b′为融合边界概率;bvideo为视频边界概率;baudio为音频边界概率。
3.根据权利要求2所述的视频时域动作分割方法,其特征在于,所述步骤S2-2中自注意力权重的表达式为:
Figure FDA0003852967550000021
其中,
Figure FDA0003852967550000022
为多阶段视听多模态级联网络中每个级联阶段的自注意力权重;e为自然常数;ρ为设置的帧置信度得分阈值;
Figure FDA0003852967550000023
为时间为t,阶段为j′时的帧置信度得分。
4.根据权利要求3所述的视频时域动作分割方法,其特征在于,所述步骤S2-3中融合分类分数的表达式为:
Figure FDA0003852967550000024
其中,
Figure FDA0003852967550000025
为融合分类分数。
5.根据权利要求4所述的视频时域动作分割方法,其特征在于,所述步骤S2-3中还包括以下步骤:通过视听双模态边界平滑算子平滑融合分类分数,其表达式如下:
Figure FDA0003852967550000026
b′=(bvideo+βbaudio)/2;
其中,
Figure FDA0003852967550000027
为加入平滑算子后网络预测的平滑融合分类分数。
6.根据权利要求5所述的视频时域动作分割方法,其特征在于,还包括级联阶段在帧上的损失分布,表达式如下:
Figure FDA0003852967550000031
其中,
Figure FDA0003852967550000032
为级联阶段在帧上的损失分布;yt,c为在时间t时类别c的预测概率;t为某一时间;
以及融合阶段在帧上的分类损失,表达式如下:
Figure FDA0003852967550000033
其中,
Figure FDA0003852967550000034
为分类损失;T为多媒体数据的总时长。
7.根据权利要求6所述的视频时域动作分割方法,其特征在于,通过视听双模态边界平滑算子平滑级联阶段的帧置信度得分和融合分类分数时的平滑损失,其表达式如下:
Figure FDA0003852967550000035
Figure FDA0003852967550000036
Δt,c=|log yt,c-log yt-1,c|;
其中,
Figure FDA0003852967550000037
为平滑损失;Cn为类别总数;σ为标准差;xt为在t时间的帧置信度得分;
Figure FDA0003852967550000038
为前后两帧置信度得分的对数差的平方;Δt,c为前后两帧置信度得分的对数差;τ为阈值。
8.根据权利要求7所述的视频时域动作分割方法,其特征在于,所述级联阶段的最终损失函数的表达式为:
Figure FDA0003852967550000039
其中,λ为确定不同损失贡献的模型超参数;
Figure FDA00038529675500000310
为级联阶段的最终损失函数;
所述融合阶段的最终损失函数的表达式为:
Figure FDA00038529675500000311
其中,
Figure FDA00038529675500000312
为融合阶段的最终损失函数。
9.根据权利要求8所述的视频时域动作分割方法,其特征在于,所有级联阶段和融合阶段的最小化损失总和的表达式为:
Figure FDA0003852967550000041
其中,
Figure FDA0003852967550000042
为所有级联阶段和融合阶段的最小化损失总和。
10.根据权利要求9所述的视频时域动作分割方法,其特征在于,还包括视听双模态边界回归的损失函数,其表达式如下:
Figure FDA0003852967550000043
其中,N是预测阶段数;
Figure FDA0003852967550000044
为视听双模态边界回归的损失函数;
Figure FDA0003852967550000045
为边界回归每个阶段的交叉熵损失。
CN202211139594.5A 2022-09-19 2022-09-19 基于音视频双模态特征融合的视频时域动作分割方法 Pending CN115471774A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211139594.5A CN115471774A (zh) 2022-09-19 2022-09-19 基于音视频双模态特征融合的视频时域动作分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211139594.5A CN115471774A (zh) 2022-09-19 2022-09-19 基于音视频双模态特征融合的视频时域动作分割方法

Publications (1)

Publication Number Publication Date
CN115471774A true CN115471774A (zh) 2022-12-13

Family

ID=84333897

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211139594.5A Pending CN115471774A (zh) 2022-09-19 2022-09-19 基于音视频双模态特征融合的视频时域动作分割方法

Country Status (1)

Country Link
CN (1) CN115471774A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116703950A (zh) * 2023-08-07 2023-09-05 中南大学 一种基于多层次特征融合的伪装目标图像分割方法和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116703950A (zh) * 2023-08-07 2023-09-05 中南大学 一种基于多层次特征融合的伪装目标图像分割方法和系统
CN116703950B (zh) * 2023-08-07 2023-10-20 中南大学 一种基于多层次特征融合的伪装目标图像分割方法和系统

Similar Documents

Publication Publication Date Title
Gao et al. Cascaded boundary regression for temporal action detection
Mandal et al. Out-of-distribution detection for generalized zero-shot action recognition
Nguyen et al. Weakly-supervised action localization with background modeling
Seo et al. End-to-end generative pretraining for multimodal video captioning
Tzinis et al. Improving universal sound separation using sound classification
Tzinis et al. Into the wild with audioscope: Unsupervised audio-visual separation of on-screen sounds
CN112685597B (zh) 一种基于擦除机制的弱监督视频片段检索方法和系统
CN109409307B (zh) 一种基于时空上下文分析的在线视频行为检测方法
CN103400145A (zh) 基于线索神经网络的语音-视觉融合情感识别方法
CN109271876B (zh) 基于时间演化建模和多示例学习的视频动作检测方法
CN110458038A (zh) 基于双链深度双流网络的小数据跨域动作识别方法
CN102930297B (zh) 基于增强耦合hmm的语音-视觉融合的情感识别方法
CN111243579A (zh) 一种时域单通道多说话人语音识别方法与系统
Cherian et al. Spatio-temporal ranked-attention networks for video captioning
CN115471774A (zh) 基于音视频双模态特征融合的视频时域动作分割方法
Bagchi et al. Hear me out: Fusional approaches for audio augmented temporal action localization
Chen et al. Tagging before alignment: Integrating multi-modal tags for video-text retrieval
Wang et al. Recapnet: Action proposal generation mimicking human cognitive process
Lin et al. DeepEmoCluster: A semi-supervised framework for latent cluster representation of speech emotions
CN115294380A (zh) 一种用于深度学习目标检测的动态训练方法
Gimeno et al. Partial AUC Optimisation Using Recurrent Neural Networks for Music Detection with Limited Training Data.
CN113936236A (zh) 一种基于多模态特征的视频实体关系及交互识别方法
CN112597979B (zh) 一种实时更新余弦夹角损失函数参数的人脸识别方法
CN113707175A (zh) 基于特征分解分类器与自适应后处理的声学事件检测系统
Qiao et al. Joint Learning of Audio–Visual Saliency Prediction and Sound Source Localization on Multi-face Videos

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination