CN114841278A

CN114841278A - 一种基于空间通道特征融合的视听事件定位方法及系统

Info

Publication number: CN114841278A
Application number: CN202210535982.9A
Authority: CN
Inventors: 魏莹; 郑晓龙
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2022-08-02

Abstract

本发明公开一种基于空间通道特征融合的视听事件定位方法及系统，包括：对目标音视频分别提取视觉特征和听觉特征；对视觉特征和听觉特征进行空间和通道的特征融合，得到空间通道特征；其中，将视觉特征和听觉特征分别经线性变换，且将线性变换后的视觉特征和听觉特征进行矩阵乘法操作后，得到初始融合特征，对初始融合特征分别进行通道维度和空间维度的特征提取后，得到空间注意力图和通道注意力图，根据空间注意力图和通道注意力图得到空间通道特征；根据听觉特征和空间通道特征得到视听特征，根据视听特征进行事件与背景的识别以及事件类别的分类。有效提取视听空间和通道信息，有效提高视听事件识别任务准确率。

Description

一种基于空间通道特征融合的视听事件定位方法及系统

技术领域

本发明涉及视听事件定位技术领域，特别是涉及一种基于空间通道特征融合的视听事件定位方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

视觉和音频信号通常在自然环境中共存，将视频片段中视听流同时出现的场景称为视听事件(AVEs)。比如听到火车的轰鸣声时，可以联想到火车飞驰而过的画面；看到火车在铁路上运行的图片时，可以想象火车的轰鸣。近年来对视听双模态深度学习的研究表明，听觉和视觉信息的融合将提高系统处理视听任务的性能。

视听事件定位任务需要确定视频片段中可见和可听的部分。但是，不受约束的视频通常包含各种噪音，如风声、视觉场景之外的声音，或视觉中与声音无关的干扰物体，增加了定位视听活动的难度。再者视觉和音频信号中存在丰富的互补信息，如何有效地挖掘和融合音视频中的互补信息也是也是目前需解决的问题。

发明内容

为了解决上述问题，本发明提出了一种基于空间通道特征融合的视听事件定位方法及系统，提出融合视听空间特征和通道特征的空间通道特征融合模块，有效提取视听空间和通道信息，有效提高视听事件识别任务准确率。

为了实现上述目的，本发明采用如下技术方案：

第一方面，本发明提供一种基于空间通道特征融合的视听事件定位方法，包括：

对目标音视频分别提取视觉特征和听觉特征；

对视觉特征和听觉特征进行空间和通道的特征融合，得到空间通道特征；其中，将视觉特征和听觉特征分别经不同维度的线性变换，且将线性变换后的视觉特征和听觉特征进行矩阵乘法操作后，得到初始融合特征，对初始融合特征分别进行通道维度和空间维度的特征提取后，得到空间注意力图和通道注意力图，根据空间注意力图和通道注意力图得到空间通道特征；

根据听觉特征和空间通道特征得到视听特征，根据视听特征进行事件与背景的识别以及事件类别的分类从而实现视听事件定位。

作为可选择的实施方式，将目标音视频分割成若干个不重叠的片段，提取每个片段中的视觉内容与听觉内容，对视觉内容和听觉内容分别提取视觉特征和听觉特征。

作为可选择的实施方式，对初始融合特征进行通道维度上的平均池化与softmax操作，得到空间注意力图。

作为可选择的实施方式，对初始融合特征进行空间维度上的平均池化与sigmoid操作，得到通道注意力图。

作为可选择的实施方式，根据空间注意力图和通道注意力图得到空间通道特征的过程包括：

将空间注意力图与视觉特征进行矩阵乘法得到空间注意特征；

将通道注意力图与视觉特征进行矩阵乘法得到通道注意特征；

将视觉特征与通道注意特征相加后得到通道特征，对通道特征进行线性变换，将线性变换后的通道特征和空间注意特征相加得到空间通道特征。

作为可选择的实施方式，根据听觉特征和空间通道特征得到视听特征的过程包括：采用双向LSTM网络，对听觉特征和空间通道特征分别进行特征提取，对双向LSTM网络的输出特征采用特征拼接方法得到视听特征。

作为可选择的实施方式，根据视听特征进行事件与背景的识别以及事件类别的分类过程包括：对预测得分高于阈值的音视频片段判定其存在视听事件，低于阈值的音视频片段判定其为背景片段，在视听事件的音视频片段中标注事件类别。

第二方面，本发明提供一种基于空间通道特征融合的视听事件定位系统，包括：

特征提取模块，被配置为对目标音视频分别提取视觉特征和听觉特征；

空间通道特征融合模块，被配置为对视觉特征和听觉特征进行空间和通道的特征融合，得到空间通道特征；其中，将视觉特征和听觉特征分别经线性变换，且将线性变换后的视觉特征和听觉特征进行矩阵乘法操作后，得到初始融合特征，对初始融合特征分别进行通道维度和空间维度的特征提取后，得到空间注意力图和通道注意力图，根据空间注意力图和通道注意力图得到空间通道特征；

定位模块，被配置为根据听觉特征和空间通道特征得到视听特征，根据视听特征进行事件与背景的识别以及事件类别的分类从而实现视听事件定位。

第三方面，本发明提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述的方法。

第四方面，本发明提供一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

与现有技术相比，本发明的有益效果为：

本发明提出了一种基于空间通道特征融合的视听事件定位方法及系统，提出融合视听空间特征和通道特征的空间通道特征融合模块，有效地提取视听空间和通道信息。摒弃复杂的融合模块，采用简单的特征拼接方法进行视听事件识别，有效提高视听事件识别任务准确率，同时也能很好地完成声源定位任务。

本发明提出了一种基于空间通道特征融合的视听事件定位方法及系统，主要研究无约束视频片段中有监督和弱监督的视听事件定位以及视听事件中的声源定位，还在公共数据集中标记视听事件的声源位置。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例1提供的基于空间通道特征融合的视听事件定位方法流程图；

图2为本发明实施例1提供的基于空间通道特征融合的视听事件定位网络结构图。

具体实施方式

下面结合附图与实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例1

目前对视听事件定位的相关研究包括，田亚鹏等首先提出视听事件定位，并收集全新的视听事件数据集，提出双多模态残差模块对分别经过两个LSTM的视觉信息和听觉信息进行提取，进而实现视听事件定位。此外，Ramaswamy为了提高视听事件定位的准确性，提出一种基于双线性模型的融合模块和分段注意机制。

声源定位问题需要识别视频中的哪个像素或区域发出声音。早期的研究发现，重要的声音位置信息被编码在音频和视频信号的同步中。最近的研究表明在视听分类任务学习中，一个简单的跨模态注意模型也可以用于准确定位声源。因此，本实施例的视听定位通过类激活映射在空间通道特征融合模块的中间层定位声源。

如图1-2所示，本实施例提出一种基于空间通道特征融合的视听事件定位方法，包括：

对目标音视频分别提取视觉特征和听觉特征；

根据听觉特征和空间通道特征得到视听特征，根据视听特征进行事件与背景的识别以及事件类别的分类。

在本实施例中，令目标音视频

其中，C表示事件类别的总数与背景之和；首先将目标音视频分割成T个不重叠的片段

其中，V_t和A_t分别表示视觉内容与听觉内容；

采用训练后的卷积神经网络，对视觉内容和听觉内容分别提取视觉特征

和听觉特征

其中，d_v表示视觉内容经卷积神经网络处理后的通道数，S表示空间维度，d_a表示听觉内容经卷积神经网络处理后的通道数。

在本实施例中，设计空间通道特征融合模块，以提取融合视觉特征和听觉特征的空间信息和通道信息。

现有的注意力模型一般是基于空间的，即对输入图像编码的卷积神经网络的最后一个转换层特征图重新加权的空间概率；然而由于卷积神经网络是通过在局部接受域内融合空间和通道信息来提取信息特征，因此本实施例提出的空间通道特征融合模块是在空间注意机制的基础上引入通道注意机制，有助于建模不同卷积核所提取的特征之间的重要性。

具体地，在空间注意部分：

首先，将视觉特征

和听觉特征

分别进行对应的线性变换得到

与

然后，将线性变换后的视觉特征

与听觉特征

做矩阵乘法，得到初始融合特征

最后，对

进行通道维度上的平均池化与softmax操作，得到空间注意力图α，将空间注意力图α与视觉特征

进行矩阵乘法得到空间注意特征

在通道注意部分，与空间注意部分相似：

首先，将视觉特征

和听觉特征

分别进行对应的线性变换得到

与

然后，将

与

做矩阵乘法得到初始融合特征

不同的是，此时对

进行空间维度上的平均池化与sigmoid操作，得到通道注意力图β，将通道注意力图β与视觉特征

进行矩阵乘法得到通道注意特征

同时，通道注意部分，在为了减少信息丢失，本实施例基于残差网络的思想，将视觉特征

与通道注意特征之间构建一条直连通道，从而得到所需要的通道特征；对通道特征进行线性变换，使之与空间注意特征的维度一致，然后将线性变换后的通道特征和空间注意特征相加求平均后，得到空间通道特征

在本实施例中，将听觉特征

和空间通道特征

分别送入双向LSTM网络中，与现有的各种复杂结构不同，本实施例采用简单的特征拼接方法，对双向LSTM网络输出的特征采用直接拼接方式进行融合，得到视听特征，且获取到视听特征序列的时间信息。

在本实施例中，对视听特征分别进行事件背景识别与事件分类。具体地：

首先，通过全连接层对视听特征进行事件与背景的识别，预测得分高于阈值的片段认为其存在视听事件，而低于阈值的片段则认为其是背景片段；事件背景识别的损失函数设置为二分类交叉熵损失函数Loss_binary；

然后，对视听特征进行事件类别分类，采用多分类交叉熵损失函数Loss_multi，将所预测的事件类别标注在预测为视听事件的片段中；

总损失函数为：Loss＝Loss_binary+Loss_multi。

本实施例采用公共数据集The Audio-Visual Event dataset来评估上述方法。该数据集包含4143个视频片段，28种类别，涵盖人类演讲、汽车行驶、飞机轰鸣、动物声音等各种视听活动，每个视频片段持续时间为10秒，对每个视频片段在秒级别上做标注，对于弱监督任务，还引入178个不加标注的噪声样本。预测每个视频片段的事件分类，以AVE两个任务的总体准确率作为性能评价的指标。

视听事件定位：分别以VGG-19与VGGish提取得到的每个10秒视频的视觉特征

和听觉特征

其中d_v值为512，S代表空间维度H×W，H与W均为7，d_a值为128。值得注意的是，对于监督视听事件定位任务，在训练中提供事件相关的片段标签和事件类别标签。在弱监督方式中，只能访问视频级别的事件类别标签，但是同样要做到预测视频的片段标签和事件类别标签。

表1为本实施例方法与各种方法在监督与弱监督的事件定位任务中的性能比较。可见，本实施例方法的预测准确率达到了76.02％，在弱监督的视听事件定位任务中达到了70.5％，均超过了对比的各种方法，可见模型的有效性。

表1性能比较

为评估我们提出的空间通道特征融合模块的有效性，采用两组消融实验。在第一组实验中，直接删除空间通道特征融合模块，将视听特征输入双向LSTM。结果如表2所示，可以看出，缺少空间通道特征融合模块的网络在监督与弱监督的视听事件定位的指标都有较大的下降。

在第二组实验中，将通道注意模块部分进行屏蔽，使得网络只使用空间注意模块，但是只使用空间注意模块的网络指标也有明显的下降。这验证了空间通道特征融合模块能够有效的对视听特征进行建模，从而提高AVE任务的精度。

表2消融实验结果

视听事件中间帧的声源定位：因为原始的视听事件数据集没有声源位置的标注，本实施例使用labelImg对测试集视频中的视听事件片段的中间帧进行声源位置标注，其中帧尺寸为224x224像素。具体地，将标注为声源位置框内的像素点标注为1，其余标注为0；其中，声源所在位置的热力图α在空间通道特征融合模块处获取。

本实施例引入量化的声音定位性能评估指标，即联合上的一致性交集(cIoU)，将cIoU定义为：

其中，i表示中间帧的像素索引，τ代表阈值设为0.01，A(τ)表示热力图α上的所有值大于τ的像素点的集合，g_i表示标注数据为1的像素点的集合。

该公式中的分子表示热力图α上的所有值大于τ的像素点与g_i值为1的像素点对应点的乘积之和，分母则由g_i表示标注数据为1的像素点之和与热力图α上的所有值大于τ的像素点与g_i值为0的像素点(此时将标注框外的像素点标注为1)对应点的乘积之和组成。由此得到声源定位表现的cIoU值为0.343。

将视频片段中视听流同时出现的场景称为视听事件，本实施例主要研究无约束视频片段中有监督和弱监督的视听事件定位以及视听事件中的声源定位。提出了一种融合视听空间特征和通道特征的空间通道特征融合模块，有效地提取和融合视听特征的空间和通道信息，摒弃复杂的融合模块，采用简单的特征拼接方法进行视听事件识别。

在改进视听事件识别模块后，本实施例在公共数据集AVE上进行了实验，还标记AVE数据集中视听事件存在的中间帧的声源位置，经验证，本实施例方法能够有效提高视听事件识别任务，同时也能很好地完成声源定位任务。

实施例2

本实施例提供一种基于空间通道特征融合的视听事件定位系统，包括：

空间通道特征融合模块，被配置为对视觉特征和听觉特征进行空间和通道的特征融合，得到空间通道特征；其中，将视觉特征和听觉特征分别经不同维度的线性变换，且将线性变换后的视觉特征和听觉特征进行矩阵乘法操作后，得到初始融合特征，对初始融合特征分别进行通道维度和空间维度的特征提取后，得到空间注意力图和通道注意力图，根据空间注意力图和通道注意力图得到空间通道特征；

定位模块，被配置为根据听觉特征和空间通道特征得到视听特征，根据视听特征进行事件与背景的识别以及事件类别的分类。

此处需要说明的是，上述模块对应于实施例1中所述的步骤，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

在更多实施例中，还提供：

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1中所述的方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1中所述的方法。

实施例1中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于空间通道特征融合的视听事件定位方法，其特征在于，包括：

对目标音视频分别提取视觉特征和听觉特征；

2.如权利要求1所述的一种基于空间通道特征融合的视听事件定位方法，其特征在于，将目标音视频分割成若干个不重叠的片段，提取每个片段中的视觉内容与听觉内容，对视觉内容和听觉内容分别提取视觉特征和听觉特征。

3.如权利要求1所述的一种基于空间通道特征融合的视听事件定位方法，其特征在于，对初始融合特征进行通道维度上的平均池化与softmax操作，得到空间注意力图。

4.如权利要求1所述的一种基于空间通道特征融合的视听事件定位方法，其特征在于，对初始融合特征进行空间维度上的平均池化与sigmoid操作，得到通道注意力图。

5.如权利要求1所述的一种基于空间通道特征融合的视听事件定位方法，其特征在于，根据空间注意力图和通道注意力图得到空间通道特征的过程包括：

6.如权利要求1所述的一种基于空间通道特征融合的视听事件定位方法，其特征在于，根据听觉特征和空间通道特征得到视听特征的过程包括：采用双向LSTM网络，对听觉特征和空间通道特征分别进行特征提取，对双向LSTM网络的输出特征采用特征拼接方法得到视听特征。

7.如权利要求1所述的一种基于空间通道特征融合的视听事件定位方法，其特征在于，根据视听特征进行事件与背景的识别以及事件类别的分类过程包括：对预测得分高于阈值的音视频片段判定其存在视听事件，低于阈值的音视频片段判定其为背景片段，在视听事件的音视频片段中标注事件类别。

8.一种基于空间通道特征融合的视听事件定位系统，其特征在于，包括：

9.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项所述的方法。