CN115620110B

CN115620110B - 一种视频事件定位与识别方法、装置及存储介质

Info

Publication number: CN115620110B
Application number: CN202211619599.8A
Authority: CN
Inventors: 谭明奎; 徐浩明; 吉冬昱; 杜卿; 胡灏; 李利
Original assignee: Guangdong Guangwu Internet Technology Co ltd; South China University of Technology SCUT
Current assignee: Guangdong Guangwu Internet Technology Co ltd; South China University of Technology SCUT
Priority date: 2022-12-16
Filing date: 2022-12-16
Publication date: 2023-03-21
Anticipated expiration: 2042-12-16
Also published as: CN115620110A

Abstract

本发明公开了一种视频事件定位与识别方法、装置及存储介质，其中方法包括：获取同步的视频数据和音频数据；提取视觉特征和音频特征；利用声音引导的视觉注意力机制模块和视觉引导的声音注意力机制模块进行特征增强；将增强的特征输入跨模态关系感知模块，进行建模以及利用音视频模态内和模态间的关系，实现模态间的信息互补，增强特征表达能力，输出事件定位和识别的结果。本发明有效地建模和利用了音视频模态内和模态间的关系，实现跨模态信息互相补充，具有更强的表征能力；同时，能够有效缓解复杂视频背景和音频无关声音带来的干扰，因而事件的定位和识别的准确度更高。本发明可广泛应用于智能识别技术领域。

Description

一种视频事件定位与识别方法、装置及存储介质

技术领域

本发明涉及智能识别技术领域，尤其涉及一种视频事件定位与识别方法、装置及存储介质。

背景技术

视频事件定位与识别是视频理解领域的一个重要研究方向，其要求智能算法自动定位视频和音频中所发生事件的起始和结束时间并识别事件的类别。在现实生活中，事件定位与识别有着广泛的潜在应用场景，具备重要的应用价值，例如安防领域的智能监控预警及信息安全监测、医疗领域的视频影像辅助分析、娱乐领域的视频高光片段捕捉等。

然而，由于实际应用场景中视频时空内容变化大、视觉背景和音频内容复杂、音视频背景等冗余干扰信息多，事件难以准确定位和识别。例如，在轨道交通场景中，人员复杂，人流密集，视频内容多变，视觉背景复杂，声音来源多样且背景杂音大，准确定位和识别冲突盗窃等异常事件极具挑战性。实际上，人类在定位和识别事件时，视频和音频模态间的关系信息发挥着重要作用。这种关联关系往往起着相互引导和互相补充的作用。如何有效利用音视频模态内和模态间的关系，实现跨模态信息互补，提高特征表达能力，同时减少视觉和音频背景的干扰，是目前该领域仍未解决的问题。

综上所述，如何建模和利用音视频模态间和模态内关系，为模型提供事件定位和识别推理线索，同时减少复杂视频背景和音频背景无关声音带来的干扰，是当前该领域亟待解决的问题。

发明内容

为至少一定程度上解决现有技术中存在的技术问题之一，本发明的目的在于提供一种视频事件定位与识别方法、装置及存储介质。

本发明所采用的技术方案是：

一种视频事件定位与识别方法，包括以下步骤：

获取同步的视频数据和音频数据；

根据视频数据提取视觉特征，根据音频数据提取音频特征；

将视觉特征输入声音引导的视觉注意力机制模块进行增强处理，输出视觉增强特征；

将音频特征输入视觉引导的声音注意力机制模块进行增强处理，输出音频增强特征；

将视觉增强特征和音频增强特征输入跨模态关系感知模块，进行建模以及利用音视频模态内和模态间的关系，实现模态间的信息互补，增强特征表达能力，输出事件定位和识别的结果。

进一步地，所述获取同步的视频数据和音频数据，包括：

获取音频数据，利用短时傅里叶变换将音频数据转化为对数梅尔频谱图；

获取视频数据，利用Decord视频解码包对视频数据进行分帧处理，利用稀疏采样策略对视频帧进行稀疏采样，得到视频帧和对应的音频的对数梅尔频谱图。

进一步地，所述根据视频数据提取视觉特征，根据音频数据提取音频特征，包括：

采用ResNet网络作为视觉特征提取器，提取视觉特征

；

采用VGGish网络作为音频特征提取器，提取音频特征

。

进一步地，所述将视觉特征输入声音引导的视觉注意力机制模块进行增强处理，输出视觉增强特征，包括：

对于视觉特征

和音频特征

，利用声音信号对视觉信息建模的引导作用，分别在通道和空间维度指导视觉注意力，使模型着重关注重要特征和空间区域，缓解无关信息干扰，得到视觉增强特征

，公式表达如下：

式中，

和

分别表示空间和通道维度视觉注意力权重，

和

表示可学习参数矩阵，

表示空间维度的全局平均池化层，

表示多层感知机，

表示Sigmoid函数，

表示矩阵乘法操作，

表示逐元素的乘法运算，

表示Soft-max函数；

表示通道注意力，

表示空间注意力，

表示音视频片段的时序位置；

表示作用于音频特征的空间注意力可学习参数，

表示作用于视频特征的空间注意力可学习参数，

表示作用于音频特征的通道注意力可学习参数，

表示作用于视频特征的通道注意力可学习参数，

表示通道注意的视频特征。

进一步地，所述将音频特征输入视觉引导的声音注意力机制模块进行增强处理，输出音频增强特征，包括：

对于视觉特征

和音频特征

，利用视觉信号对声音信息的建模引导作用，在通道维度引导声音注意力，使模型关注更具信息量的声音通道特征，得到音频增强特征

，公式表达如下：

其中，

表示通道维度声音注意力权重，

和

表示可学习参数矩阵，

表示空间维度的全局平均池化层，

表示Sigmoid函数，

表示逐元素的乘法运算；

表示音频通道注意力中的用于可学习参数。

进一步地，所述跨模态关系感知模块包括跨模态注意力机制和基于门控机制的特征选择模块；所述跨模态注意力机制通过全连接层、层归一化函数、线性整流函数构建获得，所述基于门控机制的特征选择模块通过全连接层、双曲正切函数、S型函数构建获得；

利用跨模态注意力机制建模以及利用音视频模态内和模态间的关系，提高特征表达能力；

利用基于门控机制的特征选择模块，自适应选择另一模态部分信息作为补充信息，实现跨模态信息互补。

进一步地，所述将视觉增强特征和音频增强特征输入跨模态关系感知模块，进行建模以及利用音视频模态内和模态间的关系，实现模态间的信息互补，增强特征表达能力，输出事件定位和识别的结果，包括：

对于跨模态注意力机制，根据视觉增强特征

和音频增强特征

，通过建模以及利用模态内和模态间关系，聚合自身和其他模态的信息来提高当前模态的特征表达能力，得到关系感知的视频特征

和关系感知的音频特征

；

对于基于门控机制的特征选择模块，根据视频特征

和音频特征

以及提取的视觉特征

和音频特征

，利用门控机制来自动选择另一模态的部分信息作为补充，得到跨模态互补的视频特征

和跨模态互补的音频特

；

利用逐元素乘法运算将两个模态特征进行融合，得到音视频联合特征

；

基于联合特征

，利用两个分类器分别进行事件类别相关性预测和事件类别预测，输出事件定位和识别的结果。

进一步地，所述关系感知的视频特征

的表达式如下：

其中，

、

中的下标1、2表示不同模态，

表示时序维度特征拼接操作，

、

和

表示可学习参数矩阵，

为输入特征的维度；

表示包含一种模态的查询特征，

表示包含两种模态的键特征，

表示包含两种模态的值特征；

表示视觉增强特征

和音频增强特征

两者拼接后特征；

跨模态互补的视频特征

的表达式如下：

式中，

和

为待学习参数，

表示逐元素的乘法运算，

表示双曲正切函数，

表示Sigmoid函数；

表示互补特征的权重。

本发明所采用的另一技术方案是：

一种视频事件定位与识别装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上所述方法。

本发明所采用的另一技术方案是：

一种计算机可读存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。

本发明的有益效果是：本发明有效地建模和利用了音视频模态内和模态间的关系，实现跨模态信息互相补充，为模型提供更全面的事件定位和识别推理线索，具有更强的表征能力。同时，能够有效缓解复杂视频背景和音频无关声音带来的干扰，因而事件的定位和识别的准确度更高。

附图说明

为了更清楚地说明本发明实施例或者现有技术中的技术方案，下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员而言，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1是本发明实施例中一种视频事件定位与识别方法的步骤流程图；

图2是本发明实施例中一种视频事件定位与识别方法的网络结构示意图；

图3是本发明实施例中声音引导的视觉注意力机制的示意图；

图4是本发明实施例中视觉引导的声音注意力机制的示意图；

图5是本发明实施例中跨模态关系感知模块的示意图；

图6是本发明实施例中一种视频事件定位与识别方法在AVE数据集上的可视化结果。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

如图1和图2所示，本实施例提供一种视频事件定位与识别方法，包括以下步骤：

S1、获取同步的视频数据和音频数据。

在本实施例中，首先，获取摄像头拍摄的视频数据及录制的音频数据，并对视频分帧及将音频转为时频信号处理保存。

作为一种可选的实施方式，获取待识别的视频和音频数据，并利用短时傅里叶变换将音频信号转化为对数梅尔频谱图。同时利用Decord视频解码包对视频进行分帧处理，然后利用稀疏采样策略对待识别的视频帧进行稀疏采样，得到待输入网络的视频帧和对应的音频的对数梅尔频谱图。

S2、根据视频数据提取视觉特征，根据音频数据提取音频特征。

将视频数据和音频数据输入至预训练过的卷积神经网络中进行特征提取，对于预训练的卷积神经网络，可以任意选择现有的典型卷积神经网络分别作为视觉特征提取器和音频特征提取器进行特征提取。

作为一种可选的实施方式，视觉特征提取器可以选择ResNet网络，音频特征提取器可以选择VGGish网络，得到的视觉特征和音频特征分别记为

和

。

S3、将视觉特征输入声音引导的视觉注意力机制模块进行增强处理，输出视觉增强特征。

将提取的视觉特征输入声音引导的视觉注意力机制模块中进行增强，采用声音引导的视觉注意力机制，使模型关注更有信息量的特征并聚焦场景画面中发声的重要区域；利用声音信号对视觉信息的建模引导作用，声音信号分别在视觉特征的通道维度和空间维度引导视觉注意力。

对于声音引导的视觉注意力机制，图3展示了其结构示意图。给定视觉特征

和音频特征

，利用声音信号对视觉信息建模的引导作用，分别在通道和空间维度指导视觉注意力，使模型着重关注重要特征和空间区域，缓解无关信息干扰，得到增强后的视觉特征

：

其中，

（这里忽略上下角标）和

表示可学习参数矩阵，

表示空间维度的全局平均池化层，

表示多层感知机，

表示Sigmoid函数，

表示矩阵乘法操作，

表示逐元素的乘法运算，

表示Soft-max函数。

S4、将音频特征输入视觉引导的声音注意力机制模块进行增强处理，输出音频增强特征。

将提取的音频增强特征输入视觉引导的声音注意力机制模块进行增强，采用视觉引导的声音注意力机制，使模型过滤背景无关声音信息；利用视频的视觉信息来引导声音在通道维度进行通道间的关系建模，从而帮助过滤声音信号中与事件无关的部分。

对于视觉引导的声音注意力机制，图4展示了其结构示意图。给定视觉特征

和音频特征

，利用视觉信号对声音信息的建模引导作用，在通道维度引导声音注意力，使模型关注更具信息量的声音通道特征，得到增强后的音频特征

：

其中

和

表示可学习参数矩阵（这里忽略上下角标），

表示空间维度的全局平均池化层，

表示Sigmoid函数，

表示逐元素的乘法运算。

S5、将视觉增强特征和音频增强特征输入跨模态关系感知模块，进行建模以及利用音视频模态内和模态间的关系，实现模态间的信息互补，增强特征表达能力，输出事件定位和识别的结果。

通过跨模态关系感知模块，建模和利用音视频模态内和模态间的关系，实现模态间的信息互补，增强特征表达能力，最后定位事件的时序位置并预测事件类别。该跨模态关系感知模块包括跨模态注意力机制和基于门控机制的特征选择模块，图5展示了该模块的结构示意图。首先，利用跨模态注意力机制建模和利用音视频模态内和模态间的关系，提高特征表达能力；然后，利用基于门控机制的特征选择模块，自适应选择另一模态部分信息作为补充信息，实现跨模态信息互补。下面分别介绍两个子模块：

对于跨模态注意力机制，给定增强后的视觉特征

和音频特征

，在本实施例中，通过如下计算来建模和利用模态内和模态间关系，聚合自身和其他模态的信息来提高当前模态的特征表达能力，得到关系感知的视频特征

：

其中，下标1、2表示不同模态，

表示时序维度特征拼接操作，

、

和

表示可学习参数矩阵，

为输入特征的维度。通过同样的计算方式可得关系感知的音频特征

，这里不在赘述。

对于基于门控机制的特征选择模块，给定经过跨模态注意力机制的视频特征

和音频特征

以及步骤S2中提取的原始输入特征

和

其中，

和

为待学习参数，

表示逐元素的乘法运算，

表示双曲正切函数，

表示Sigmoid函数。通过同样的计算方式可得到跨模态互补的音频特

。

经过跨模态关系模块之后，可得到视频特征

和音频特征

。接下来利用逐元素乘法运算将两个模态特征进行融合，得到音视频联合特征

。基于联合特征

，再利用两个分类器分别进行事件类别相关性预测和事件类别预测，输出事件定位和识别的结果。

作为一种可选的实施方式，所提出的模型整体采用交叉熵损失函数进行端到端训练。

作为一种可选的实施方式，跨模态注意力机制通过全连接层、层归一化函数、线性整流函数构建获得，其中，基于缩放点积注意力机制，能够同时建模和利用音视频模态内和模态间的关系信息。

基于门控机制的特征选择模块通过全连接层、双曲正切函数、S型函数构建获得，其中，根据跨模态关系信息，自适应选择另一个模态特征的重要信息作为补充。

利用跨模态注意力机制建模和利用模态内和模态间关系，并利用基于门控机制的特征选择模块所选择的补充信息，对当前模态信息进行补充，从而实现跨模态信息互补。最后定位事件的时序位置并预测事件类别。

实验数值结果

将上述跨模态关系感知的视频事件定位与识别方法应用到相关数据集AVE上，在全监督设定下，本实施例方法取得目前的最好性能，具体事件定位与识别准确度如表1所示：

表1为在AVE数据集的全监督设定下与现有方法的性能对比（全监督设定）

方法	视觉特征	音频特征	准确度(%)
				ED-TCN	VGG-19	--	46.9
Audio	--	VGG-like	59.5
				Visual	VGG-19	--	55.3
Audio-Visual	VGG-19	VGGish	71.4
				AVSDN	VGG-19	VGGish	72.6
Audio-Visual+Attn	VGG-19	VGGish	72.7
				DAM	VGG-19	VGGish	74.5
AV-Transformer	VGG-19	VGGish	76.8
				本实施例方法	VGG-19	VGGish	78.3

为了进一步验证方法的有效性，还将本实施例方法在AVE数据集的弱监督设定上，与其他方法相比，本实施例方法的达到了目前的最好性能，具体数值对比结果如表2所示：

表2为在AVE数据集的弱监督设定下与现有方法的性能对比

方法	视觉特征	音频特征	准确度(%)
				AVEL（视觉）	VGG-19	--	52.9
AVEL（声音）	--	VGGish	53.4
				AVEL（视觉+声音）	VGG-19	VGGish	63.7
AVEL（视觉+声音+Attn）	VGG-19	VGGish	66.7
				AVSDN	VGG-19	VGGish	66.8
AV-Transformer	VGG-19	VGGish	70.2
				本实施例方法	VGG-19	VGGish	73.6

可视化结果

为了进一步说明本方法的有效性，下图展示了可视化结果。

在图6中，在AVE数据集上展示了方法中声音引导的视觉注意力机制中的注意力图。从结果中可以看出，本实施例的方法能够捕捉更具信息量或发声空间区域，从而大大缓解复杂视频背景带来的干扰，最终提高事件定位和识别的准确度。

综上所述，本发明方法能够有效减少复杂视频和音频无关声音的干扰，同时可有效建模和利用音视频模态内和模态间的关系，实现信息互补，事件定位和识别的推理线索更加丰富。因而，事件定位和识别的准确度有显著提升。进一步，由于该方法框架是通用的，可以适用于不同的应用场景。该发明实施例中所提供的一种跨模态关系感知的视频事件定位与识别方法可广泛应用到智能监控、智慧交通、智能驾驶等智慧城市体系中的关键领域。

本实施例还提供一种视频事件定位与识别装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现图1所示方法。

本实施例的一种视频事件定位与识别装置，可执行本发明方法实施例所提供的一种视频事件定位与识别方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本申请实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1所示的方法。

本实施例还提供了一种存储介质，存储有可执行本发明方法实施例所提供的图1所示方法的指令或程序，当运行该指令或程序时，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施方式，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于上述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。