CN115861879A - 基于事件一致性的视听事件检测方法及装置 - Google Patents

基于事件一致性的视听事件检测方法及装置 Download PDF

Info

Publication number
CN115861879A
CN115861879A CN202211490319.8A CN202211490319A CN115861879A CN 115861879 A CN115861879 A CN 115861879A CN 202211490319 A CN202211490319 A CN 202211490319A CN 115861879 A CN115861879 A CN 115861879A
Authority
CN
China
Prior art keywords
audio
visual
event
level
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211490319.8A
Other languages
English (en)
Inventor
尹建芹
蒋圆圆
党永浩
孙源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202211490319.8A priority Critical patent/CN115861879A/zh
Publication of CN115861879A publication Critical patent/CN115861879A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明提出一种基于事件一致性的视听事件检测方法,包括:获取目标视频;将目标视频划分为N个不重叠的连续片段,获取图像流和音频流;对图像流和音频流进行特征提取,获取视听特征;通过视听联合学习将视听特征融合,其中,视听联合学习包括片段层面的特征编码以及视频层面的语义指导;将融合后的视听特征输入分类器中,得到目标视频的预测结果。本发明的方法利用事件的语义一致性来分别指导视觉和听觉模态的学习,可以确保模型更好地聚焦和定位发声对象。

Description

基于事件一致性的视听事件检测方法及装置
技术领域
本发明涉及计算机视觉、智能视频分析技术领域。
背景技术
视听事件定位任务自提出以来吸引了越来越多的业界关注。
许多方法已经被提出用于视听事件的定位。早期的模型主要集中在挖掘模态之间的互补性和融合跨模态的特征。他们通过利用跨模态的注意力来调对齐来自音频和图像两个模态信息。然而,由于背景类片段不能被有效识别,其性能较差。在此基础上,目前的一些方法致力于过滤掉未配对的样本(即背景片段),因为视频中的音频和视觉内容并不总是匹配的。他们采用正样本对对传播或背景抑制的方案,大大增加了背景片段和包含视听事件片段之间的区别。然而,他们忽略了同一完整视频中事件的语义一致性(可视为事件的视频级表示)。在同一视频中,视听事件往往属于语义上相似或相同的类别。因此,具有鉴别性语义的事件的视频级表示可以协助对剩余片段进行类别识别。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的目的在于提出一种基于事件一致性的视听事件检测方法,用于利用事件的语义一致性来分别指导视觉和听觉模态的学习。
为达上述目的,本发明第一方面实施例提出了一种基于事件一致性的视听事件检测方法,包括:
获取目标视频;将所述目标视频划分为N个不重叠的连续片段,获取图像流和音频流;
对所述图像流和音频流进行特征提取,获取视听特征;
通过视听联合学习将所述视听特征融合,其中,所述视听联合学习包括片段层面的特征编码以及视频层面的语义指导;
将融合后的视听特征输入分类器中,得到所述目标视频的预测结果。
另外,根据本发明上述实施例的一种基于事件一致性的视听事件检测方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述片段层面的特征编码,包括:
通过音频引导的视觉注意力模块进行视听特征的早期融合;
通过使用单层Bi-LSTM完成对早期融合视听特征的初始时序建模;
利用正样本传播模块,去除初始时序建模中相似度较弱的音频和图像样本,获取片段层面编码的特征。
进一步地,在本发明的一个实施例中,所述视频层面的语义指导,包括:
通过跨模态事件表征提取器对所述片段层面编码的特征进行视频层面的视听事件表征提取,利用视听融合后的事件语义表征指导进行语义一致性建模。
进一步地,在本发明的一个实施例中,所述分类器的目标函数全监督下的背景类筛选损失包括类别损失和背景损失,即:
Figure BDA0003964667140000021
Figure BDA0003964667140000022
其中,
Figure BDA0003964667140000023
是网络输出Oc和真值标签Ytc的交叉熵损失,
Figure BDA0003964667140000024
指网络输出Ot和二值背景标签Yt1的二分类交叉熵损失,
Figure BDA0003964667140000025
计算l1归一化相似度向量S和l1归一化背景标签Yt2之间的均方误差。
进一步地,在本发明的一个实施例中,所述分类器的目标函数弱监督下的片段间平滑损失,表示为:
Figure BDA0003964667140000026
Figure BDA0003964667140000027
Figure BDA0003964667140000028
其中,S是一个SoftMax函数,
Figure BDA0003964667140000029
表示视频级事件的类别标签,通过使用两次SoftMax函数,在C个事件类别上生成一个更平滑的概率分布
Figure BDA00039646671400000210
为达上述目的,本发明第二方面实施例提出了一种基于事件一致性的视听事件检测装置,包括:
获取模块,用于获取目标视频;将所述目标视频划分为N个不重叠的连续片段,获取图像流和音频流;
提取模块,用于对所述图像流和音频流进行特征提取,获取视听特征;
融合模块,用于通过视听联合学习将所述视听特征融合,其中,所述视听联合学习包括片段层面的特征编码以及视频层面的语义指导;
分类模块,用于将融合后的视听特征输入分类器中,得到所述目标视频的预测结果。
进一步地,在本发明的一个实施例中,所述融合模块还包括片段层面模块,用于:
通过音频引导的视觉注意力模块进行视听特征的早期融合;
通过使用单层Bi-LSTM完成对早期融合视听特征的初始时序建模;
利用正样本传播模块,去除初始时序建模中相似度较弱的音频和图像样本,获取片段层面编码的特征。
进一步地,在本发明的一个实施例中,所述融合模块还包括视频层面模块,用于:
通过跨模态事件表征提取器对所述片段层面编码的特征进行视频层面的视听事件表征提取,利用视听融合后的事件语义表征指导进行语义一致性建模。
为达上述目的,本发明第三方面实施例提出了一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上所述的基于事件一致性的视听事件检测方法。
为达上述目的,本发明第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上所述的基于事件一致性的视听事件检测方法。
本发明实施例的基于事件一致性的视听事件检测方法,一方面提出了一个事件语义一致性建模(ESCM)模块,可以提取视频级的事件语义表征来同时指导听觉和视觉特征的语义连续性建模。第二方面分别在全监督和弱监督的设置中提出了新的背景类筛选损失函数和片段间平滑损失,这两种损失使得ESCM在每种设置下都能进一步提高对不同视听对的区分度。第三方面提出了一个视频级语义一致性指导网络。实验结果表明,我们的方法在AVE数据集的完全和弱监督任务中都优于最先进的方法。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例提供的基于事件一致性的视听事件检测方法的流程示意图。
图2为本发明实施例提供的视频级语义一致性指导网络示意图。
图3为本发明实施例提供的基于事件一致性的视听事件检测装置的流程示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的基于事件一致性的视听事件检测方法。
图1为本发明实施例所提供的一种基于事件一致性的视听事件检测方法的流程示意图。
如图1所示,该基于事件一致性的视听事件检测方法包括以下步骤:
S101:获取目标视频;将目标视频划分为N个不重叠的连续片段,获取图像流和音频流;
视听事件定位首先需要定位视听内容匹配的片段,然后识别具体的事件类别。具体来说,给定的视频S被分为T个不重叠的连续片段
Figure BDA0003964667140000041
(t代表片段的时序索引),其中每个片段通常长为1秒(与人类对时间界线的分辨率相匹配)。视听事件定位将预训练模型所提取的视听特征
Figure BDA0003964667140000042
作为输入。模型需要预测出每个片段的事件标签为
Figure BDA0003964667140000043
这里,C是视听事件的总类别数(包括背景类,即视听内容冲突的片段)。在全监督的设置中,每个片段的类别标签在训练阶段是可见的,单个视频的标签表示为
Figure BDA0003964667140000044
与全监督不同,在弱监督设置中,我们只能获得视频级的标签Yweakly,其中
Figure BDA0003964667140000045
是Yfully在时间维度上的均值。
如图2为本发明提出的视频级语义一致性指导网络。(a)部分为模型的主要框架。视听联合学习由两部分组成:由音频引导的视觉注意力、LSTM和PSP[24]组成的片段级编码过程,以及我们提出的事件语义一致性建模模块。(b)部分为跨模态语义一致性提取模块的说明。我们利用一维卷积网络来聚合事件的在时间维度上的片段信息,以获得事件的视频级语义表示。(c)部分为ESCM模块的图示,注意图示的CERE模块是在音频和视觉模态之间共享的。
本发明的结构包括特征提取、视听联合学习和预测。视听联合学习是我们提出的模型的重要组成部分,它包括两个步骤:片段层面的特征编码和通过事件语义一致性建模(ESCM)模块实现的视频层面的语义指导。片段层面的特征编码包括初始的特征融合和背景筛选。本文所提出的ESCM模块则增加了视频层面上不同事件特征之间的区别,并根据先验知识对事件在时间维度上的发展进行建模。最终,由ESCM建模的视听特征被融合,然后被送入最终的分类模块,预测哪些视频片段包含视听事件以及事件类别。
S102:对图像流和音频流进行特征提取,获取视听特征;
本发明直接将AGVA和PSP用于视听双模态的的早期融合和编码。首先,在编码模块中,音频引导的视觉注意力(AGVA)模块被用来进行视听信息的早期融合,使模型关注于与对应的音频片段相关性较高的视觉区域。然后,通过使用单层Bi-LSTM完成初始的时序建模,得到
Figure BDA0003964667140000051
接下来,我们利用正样本传播模块(PSP),通过去除相似度较弱的音频和图像样本来增强对特征的片段层面的编码。这样,视听特征分别与正相关的另一模态片段聚合在一起,得到片段层面编码的特征
Figure BDA0003964667140000052
通过对经过PSP模块后的
Figure BDA0003964667140000053
进行投影和规一化。每个投影归一化块由线性投影层、ReLU函数、丢弃率为rp的dropout层以及层归一化层组成。
S103:通过视听联合学习将视听特征融合,其中,视听联合学习包括片段层面的特征编码以及视频层面的语义指导;
进一步地,在本发明的一个实施例中,片段层面的特征编码,包括:
通过音频引导的视觉注意力模块进行视听特征的早期融合;
通过使用单层Bi-LSTM完成对早期融合视听特征的初始时序建模;
利用正样本传播模块,去除初始时序建模中相似度较弱的音频和图像样本,获取片段层面编码的特征。
作为典型的自然信号,听觉和视觉特征都有一定的冗余和噪音,对另一模态来说是无用甚至是误导的。因此,解决这个问题的关键是使模型专注于语义分辨性高的视频级事件的关键特征。
ESCM模块将事件的连续性与统一性考虑在内,并进一步利用视频层面的视听事件表征来对片段级编码后特征进行语义一致性建模。首先,视频级的事件的视觉与听觉语义表征分别由跨模态事件表征提取器提取。其次,为了建模鲁棒性强的事件特征,模态内语义一致性增强器利用视听融合后的事件语义表征来指导每个模态内的时序建模。
大多数现有的方法对每个片段进行编码以获得片段级的预测,而忽略了事件在视频层面的语义一致性。与以前的方法不同,我们提出了一个跨模态事件表征提取器(CERE),以获得具有鉴别性语义的视频级事件表征,如图2所示。
听觉分支和视觉分支里的CERE均由两个连续CNN块组成。为简便说明,以视觉分支为例。首先对片段级编码后的视觉特征
Figure BDA0003964667140000061
进行转置,转置后的
Figure BDA0003964667140000062
的每一列为一个视频片段的特征。CERE将转置后的视觉特征作为输入,为了随后可以在时间维度而不是特征维度上对进行操作。经过CERE模块后,我们将得到由显著特征主导的视频级的视觉事件表征,可以抽象出整个视频的视觉语义。具体来说,对于一个CNN块,我们采用卷积核大小为T/2(视频时长为T秒)的一维卷积网络在时间维度上对
Figure BDA0003964667140000063
进行卷积,然后用最大池化进行降采样以获得最具代表性的视觉特征,其携带着高分辨率的视频级事件语义信息。另外,为了获得跨模态同步的视听事件表征,我们使用了两个完全相同的CERE模块来分别提取视频级的听觉事件表征和视觉事件表征。这样一来,具有更具代表性视频级语义的模态可以直接影响另一模态的表征学习,而时间维度上的卷积保证了听觉和视觉事件的同步性。共享的CERE模块还能将输入的听觉和视觉特征同步映射到一个统一的特征空间,以确保来自不同模态的特征的有效融合。经过CERE,我们得到了视频级的音频事件表示
Figure BDA0003964667140000066
以及视频级的视觉事件表示
Figure BDA0003964667140000067
计算公式如下:
Figure BDA0003964667140000064
Figure BDA0003964667140000065
CNNBlock=MAX(δ(K*f)),
其中,f是指模型中的
Figure BDA0003964667140000068
Figure BDA0003964667140000069
K是可学习的核参数,核大小为T/2(输出通道的维度为de),*表示卷积运算,δ是ReLU激活函数,MAX表示沿时间维度的最大池化运算。注意,音频和视觉分支共享相同的CNN块,具有相同的学习参数,我们认为这有助于学习属于跨模态时序同步的视听事件语义表征,而不是学习在不同时间步上各自显著的单模态事件,从而保证学习到的aevent和aevent在语义上的互补性。
进一步地,在本发明的一个实施例中,视频层面的语义指导,包括:
通过跨模态事件表征提取器对片段层面编码的特征进行视频层面的视听事件表征提取,利用视听融合后的事件语义表征指导进行语义一致性建模。
自然环境中事件往往具有视听一致性和互补性。由于两个CERE之间的参数共享,我们可以将提取的听觉事件表征aevent和视觉事件表征aevent融合起来,得到时序同步的视频级视听事件表征,它携带了视频的完整视听语义。然后,ISCE将视听事件表征作为不同模态的共同指导,而不是独立地指导其自身模态特征的建模。如图2所示,首先我们将CERE提取的aevent和aevent进行融合,得到视听事件最终的视频级语义表示
Figure BDA0003964667140000071
其中包含两种模态的信息,其公式为:
Figure BDA0003964667140000072
在ISCE模块中,我们将利用两个独立的GRU,将aseg,vseg作为输入,分别对每种模态内事件的语义一致性进行建模。对于时间步骤t的输入特征向量Ft,GRU会更新隐藏状态向量ht和存储单元状态向量ct,如下所示:
ht,ct=GRUcell(Ft,ht-1,ct-1),
通常来说,大多数方法将GRU的隐藏状态向量h0初始化为零,以表示序列的开始,导致模型对每个序列的初始片段进行平等处理,那么事件的关键特征在开始时就会受到一定程度的抑制。然而,对于AVE任务来说,在时间维度上同一类型的事件有着类似的发展规律,即语义连续性上。换句话说,相同或类似事件的视觉和听觉特征分别沿着时间有类似的变化。例如,当我们在观察“直升机向我们飞来”(视频级事件)时,画面中的直升机由小变大,我们听到的声音也由弱变强,无论是什么类型的飞行器总遵循这样的变化规律。因此,事件的语义信息可以指导时间维度上的视觉和听觉特征的学习。
在时间建模中引入先验信息。基于上述观察,我们提出ISCE模块,利用视频级事件的语义表示AVevent作为先验知识。具体来说,我们将AVevent作为两个独立的GRU的共同初始隐藏状态,以指导模型基于经验在时间维度上对视听特征变化进行建模。通过这种方式,GRU可以关注与视频级事件在语义上一致的重要特征,而不是在初始阶段无差别地对待每个特征。此外,AVevent包括事件的视觉和听觉信息。因此,在对视觉(听觉)特征的时间变化进行建模时,听觉(视觉)特征可以作为补充信息,协助模型学习更稳健的语义连续的视觉(音频)表示。最终的特征计算公式如下:
aISCE=GRU(aseg,ha),
vISCE=GRU(vseg,hv),
ha=hv=AVevent
其中,
Figure BDA0003964667140000081
Figure BDA0003964667140000082
是最终的视频表征,其既包含视频层面的判别语义特征,又包含片段层面的清晰时间边界。我们采用的是单层的双向GRU,其中,ds等于2dp
同样,我们将得到的αISCE和vISCE分别送入投影归一化块,然后进行后期融合,具体操作如下:
Figure BDA0003964667140000083
Figure BDA0003964667140000084
其中,
Figure BDA0003964667140000085
表示线性层中的可学习参数,δ为ReLU激活函数,D表示丢弃率为rg的Dropout层,
Figure BDA0003964667140000086
表示层归一化。输出
Figure BDA0003964667140000087
可以为后续的分类模块提供更具区分度的特征,因为ISCE关注了视频层面上的事件的判别语义,且更好地建模了其变化规律。
S104:将融合后的视听特征输入分类器中,得到目标视频的预测结果。
本发明将全监督下的视听事件定位任务分解为两个子任务。首先,根据事件相关得分
Figure BDA0003964667140000088
预测该片段是否包含视听事件,即判断是否为背景类。然后,另一个根据事件类别标签
Figure BDA0003964667140000089
来预测事件的类别。具体来说,Ot和Oc可以由下式得到:
Figure BDA00039646671400000810
Figure BDA00039646671400000811
其中,
Figure BDA00039646671400000812
是线性层里的可学习参数,
Figure BDA00039646671400000813
代表Squeeze,
Figure BDA00039646671400000814
Figure BDA00039646671400000815
沿行的最大值。因为事件类别共有C类包括一个背景类,我们根据Ot的值来确定第t个视频片段是否包含视听事件,即是否属于背景。因此,我们只需要预测C-1类视听事件而不是C类事件。
此外,我们计算每个片段的视觉特征vISCE和音频特征alSCE之间的l1归一化相似度向量
Figure BDA0003964667140000091
它将视听对相似度损失
Figure BDA0003964667140000092
优化,它鼓励ESCM模块在时间建模时保持片段级的视听相关性。在训练过程中,我们同时获得由注释提供的片段级对应的事件类别
Figure BDA0003964667140000093
和完全监督设置的背景标签
Figure BDA0003964667140000094
(这里Yt2为Yt1进行l1归一化后的结果)。因此,总体目标函数背景类筛选损失包括类别损失和背景损失。
进一步地,在本发明的一个实施例中,分类器的目标函数全监督下的背景类筛选损失包括类别损失和背景损失,即:
Figure BDA0003964667140000095
Figure BDA0003964667140000096
其中,
Figure BDA0003964667140000097
是网络输出Oc和真值标签Ytc的交叉熵损失,
Figure BDA0003964667140000098
指网络输出Ot和二值背景标签Yt1的二分类交叉熵损失,
Figure BDA0003964667140000099
计算l1归一化相似度向量S和l1归一化背景标签Yt2之间的均方误差。
由于
Figure BDA00039646671400000910
Figure BDA00039646671400000911
Figure BDA00039646671400000912
组成,鼓励模型增加正样本对(即包视听事件的前景类)和负样本对(即背景类)之间的差距,背景类筛选损失
Figure BDA00039646671400000913
允许更好地利用片段级编码模块从而优化整个网络。在推理阶段,通常来说背景片段的事件相关分数较小,所以我们简单地采用阈值法来滤除掉背景。具体来说,我们设置了一个阈值τb,如果Ot>τb,那么第t个视频段被预测为Oc个前景类。否则,第t个视频段就被归类为背景。我们将Oc设置为0.7而不是0.5,因为我们所采用的PSP模块已经增强了包含视听事件片段的特征。
对于弱监督设置,由于训练期间只有事件类别标签可用,我们只预测事件类别标签
Figure BDA00039646671400000914
我们在弱监督分类模块上采用了一个加权分支,使该模型能够突出属于不同事件类别的视听对之间的差异。该过程表示如下:
Figure BDA00039646671400000915
Figure BDA0003964667140000101
Figure BDA0003964667140000102
其中,
Figure BDA0003964667140000103
是线性层里的可学习参数,
Figure BDA0003964667140000104
表示推理阶段的最终预测结果。
Figure BDA0003964667140000105
对视频时序片段的重要性进行加权,
Figure BDA0003964667140000106
是通过对φ进行C次复制得到的,是元素乘法,pavg是沿时间维度的平均运算,s代表一个SoftMax函数。输出
Figure BDA0003964667140000107
代表视频级别视听事件。
目标函数采用片段间平滑损失,具体由二元交叉熵(BCE)损失实现。
进一步地,在本发明的一个实施例中,分类器的目标函数弱监督下的片段间平滑损失,表示为:
Figure BDA0003964667140000108
Figure BDA0003964667140000109
Figure BDA00039646671400001010
其中,S是一个SoftMax函数,
Figure BDA00039646671400001011
表示视频级事件的类别标签,通过使用两次SoftMax函数,在C个事件类别上生成一个更平滑的概率分布
Figure BDA00039646671400001012
这将促进模型在弱监督环境下捕获更多高鉴别性特征。具体来说为,通过在推理阶段引入鉴别性较低类别输出作为判断依据,从而促使模型在训练阶段进一步增加不同类别事件的差距。
本发明实施例的基于事件一致性的视听事件检测方法,一方面提出了一个事件语义一致性建模(ESCM)模块,可以提取视频级的事件语义表征来同时指导听觉和视觉特征的语义连续性建模。第二方面分别在全监督和弱监督的设置中提出了新的背景类筛选损失函数和片段间平滑损失,这两种损失使得ESCM在每种设置下都能进一步提高对不同视听对的区分度。第三方面提出了一个视频级语义一致性指导网络。本发明将视听事件检测分为两个步骤:1)判断该片段是否存在视听事件,若不存在则为背景类2)识别该片段具体的视听事件的类别。并且本发明区别于其他方法的地方在于视频层面的语义引导,而非片段层面的特征编码。实验结果表明,我们的方法在AVE数据集的完全和弱监督任务中都优于最先进的方法。
图3为本发明实施例提供的一种基于事件一致性的视听事件检测装置的结构示意图。
如图3所示,该基于事件一致性的视听事件检测装置包括:获取模块100,提取模块200,融合模块300,分类模块400,其中,
获取模块,用于获取目标视频;将目标视频划分为N个不重叠的连续片段,获取图像流和音频流;
提取模块,用于对图像流和音频流进行特征提取,获取视听特征;
融合模块,用于通过视听联合学习将视听特征融合,其中,视听联合学习包括片段层面的特征编码以及视频层面的语义指导;
分类模块,用于将融合后的视听特征输入分类器中,得到目标视频的预测结果。
进一步地,在本发明的一个实施例中,融合模块还包括片段层面模块,用于:
通过音频引导的视觉注意力模块进行视听特征的早期融合;
通过使用单层Bi-LSTM完成对早期融合视听特征的初始时序建模;
利用正样本传播模块,去除初始时序建模中相似度较弱的音频和图像样本,获取片段层面编码的特征。
进一步地,在本发明的一个实施例中,融合模块还包括视频层面模块,用于:
通过跨模态事件表征提取器对片段层面编码的特征进行视频层面的视听事件表征提取,利用视听融合后的事件语义表征指导进行语义一致性建模。
为达上述目的,本发明第三方面实施例提出了一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上所述的基于事件一致性的视听事件检测方法。
为达上述目的,本发明第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上所述的基于事件一致性的视听事件检测方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于事件一致性的视听事件检测方法,其特征在于,包括以下步骤:
获取目标视频;将所述目标视频划分为N个不重叠的连续片段,获取图像流和音频流;
对所述图像流和音频流进行特征提取,获取视听特征;
通过视听联合学习将所述视听特征融合,其中,所述视听联合学习包括片段层面的特征编码以及视频层面的语义指导;
将融合后的视听特征输入分类器中,得到所述目标视频的预测结果。
2.根据权利要求1所述的方法,其特征在于,所述片段层面的特征编码,包括:
通过音频引导的视觉注意力模块进行视听特征的早期融合;
通过使用单层Bi-LSTM完成对早期融合视听特征的初始时序建模;
利用正样本传播模块,去除初始时序建模中相似度较弱的音频和图像样本,获取片段层面编码的特征。
3.根据权利要求1或2所述的方法,其特征在于,所述视频层面的语义指导,包括:
通过跨模态事件表征提取器对所述片段层面编码的特征进行视频层面的视听事件表征提取,利用视听融合后的事件语义表征指导进行语义一致性建模。
4.根据权利要求1所述的方法,其特征在于,所述分类器的目标函数全监督下的背景类筛选损失包括类别损失和背景损失,即:
Figure FDA0003964667130000011
Figure FDA0003964667130000012
其中,
Figure FDA0003964667130000013
是网络输出Oc和真值标签Ytc的交叉熵损失,
Figure FDA0003964667130000014
指网络输出Ot和二值背景标签Yt1的二分类交叉熵损失,
Figure FDA0003964667130000015
计算l1归一化相似度向量S和l1归一化背景标签Yt2之间的均方误差。
5.根据权利要求1所述的方法,其特征在于,所述分类器的目标函数弱监督下的片段间平滑损失,表示为:
Figure FDA0003964667130000021
Figure FDA0003964667130000022
Figure FDA0003964667130000023
其中,S是一个SoftMax函数,
Figure FDA0003964667130000024
表示视频级事件的类别标签,通过使用两次SoftMax函数,在C个事件类别上生成一个更平滑的概率分布
Figure FDA0003964667130000025
6.一种基于事件一致性的视听事件检测装置,其特征在于,包括:
获取模块,用于获取目标视频;将所述目标视频划分为N个不重叠的连续片段,获取图像流和音频流;
提取模块,用于对所述图像流和音频流进行特征提取,获取视听特征;
融合模块,用于通过视听联合学习将所述视听特征融合,其中,所述视听联合学习包括片段层面的特征编码以及视频层面的语义指导;
分类模块,用于将融合后的视听特征输入分类器中,得到所述目标视频的预测结果。
7.根据权利要求6所述的装置,其特征在于,所述融合模块还包括片段层面模块,用于:
通过音频引导的视觉注意力模块进行视听特征的早期融合;
通过使用单层Bi-LSTM完成对早期融合视听特征的初始时序建模;
利用正样本传播模块,去除初始时序建模中相似度较弱的音频和图像样本,获取片段层面编码的特征。
8.根据权利要求6所述的装置,其特征在于,所述融合模块还包括视频层面模块,用于:
通过跨模态事件表征提取器对所述片段层面编码的特征进行视频层面的视听事件表征提取,利用视听融合后的事件语义表征指导进行语义一致性建模。
9.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-5中任一所述的基于事件一致性的视听事件检测方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5任意一项所述的基于事件一致性的视听事件检测方法。
CN202211490319.8A 2022-11-25 2022-11-25 基于事件一致性的视听事件检测方法及装置 Pending CN115861879A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211490319.8A CN115861879A (zh) 2022-11-25 2022-11-25 基于事件一致性的视听事件检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211490319.8A CN115861879A (zh) 2022-11-25 2022-11-25 基于事件一致性的视听事件检测方法及装置

Publications (1)

Publication Number Publication Date
CN115861879A true CN115861879A (zh) 2023-03-28

Family

ID=85666501

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211490319.8A Pending CN115861879A (zh) 2022-11-25 2022-11-25 基于事件一致性的视听事件检测方法及装置

Country Status (1)

Country Link
CN (1) CN115861879A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116246214A (zh) * 2023-05-08 2023-06-09 浪潮电子信息产业股份有限公司 视听事件定位方法、模型训练方法、装置及设备和介质
CN117037046A (zh) * 2023-10-08 2023-11-10 之江实验室 一种视听事件检测方法、装置、存储介质及电子设备
CN117035419A (zh) * 2023-08-16 2023-11-10 浙江蓝城萧立建设管理有限公司 企业项目实施智能管理系统及方法
CN118395196A (zh) * 2024-06-28 2024-07-26 浪潮电子信息产业股份有限公司 模型训练方法、视频定位方法、系统、设备、产品及介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116246214A (zh) * 2023-05-08 2023-06-09 浪潮电子信息产业股份有限公司 视听事件定位方法、模型训练方法、装置及设备和介质
CN116246214B (zh) * 2023-05-08 2023-08-11 浪潮电子信息产业股份有限公司 视听事件定位方法、模型训练方法、装置及设备和介质
CN117035419A (zh) * 2023-08-16 2023-11-10 浙江蓝城萧立建设管理有限公司 企业项目实施智能管理系统及方法
CN117035419B (zh) * 2023-08-16 2024-02-13 浙江蓝城萧立建设管理有限公司 企业项目实施智能管理系统及方法
CN117037046A (zh) * 2023-10-08 2023-11-10 之江实验室 一种视听事件检测方法、装置、存储介质及电子设备
CN117037046B (zh) * 2023-10-08 2024-01-09 之江实验室 一种视听事件检测方法、装置、存储介质及电子设备
CN118395196A (zh) * 2024-06-28 2024-07-26 浪潮电子信息产业股份有限公司 模型训练方法、视频定位方法、系统、设备、产品及介质

Similar Documents

Publication Publication Date Title
Tian et al. Unified multisensory perception: Weakly-supervised audio-visual video parsing
Wu et al. Exploring heterogeneous clues for weakly-supervised audio-visual video parsing
Kukleva et al. Unsupervised learning of action classes with continuous temporal embedding
US11663823B2 (en) Dual-modality relation networks for audio-visual event localization
Wu et al. Self-supervised sparse representation for video anomaly detection
CN115861879A (zh) 基于事件一致性的视听事件检测方法及装置
Vahdani et al. Deep learning-based action detection in untrimmed videos: A survey
Deldari et al. Beyond just vision: A review on self-supervised representation learning on multimodal and temporal data
Zhou et al. Contrastive positive sample propagation along the audio-visual event line
CN114519809A (zh) 一种基于多尺度语义网络的视听视频解析装置及方法
CN110619284B (zh) 一种视频场景划分方法、装置、设备及介质
Jiang et al. Dhhn: Dual hierarchical hybrid network for weakly-supervised audio-visual video parsing
Cheng et al. Joint-modal label denoising for weakly-supervised audio-visual video parsing
CN115860102B (zh) 一种自动驾驶感知模型的预训练方法、装置、设备和介质
Wang et al. Semantic and relation modulation for audio-visual event localization
CN114528762A (zh) 一种模型训练方法、装置、设备和存储介质
Wei et al. Sequence-to-segment networks for segment detection
He et al. Multimodal transformer networks with latent interaction for audio-visual event localization
Baraka et al. Weakly-supervised temporal action localization: a survey
CN113395584B (zh) 一种视频数据处理方法、装置、设备以及介质
CN117576648A (zh) 自动驾驶的场景挖掘方法、装置、电子设备及存储介质
Yao et al. Weakly supervised graph learning for action recognition in untrimmed video
Feng et al. Css-net: A consistent segment selection network for audio-visual event localization
Fu et al. Abnormal activity recognition based on deep learning in crowd
CN114708523B (zh) 基于集合预测的时序动作定位方法、系统、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination