CN116310975A

CN116310975A - 一种基于一致片段选择的视听事件定位方法

Info

Publication number: CN116310975A
Application number: CN202310241056.5A
Authority: CN
Inventors: 明悦; 冯帆; 周江琬; 吕柏阳; 刘元安
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2023-03-14
Filing date: 2023-03-14
Publication date: 2023-06-23
Anticipated expiration: 2043-03-14
Also published as: CN116310975B

Abstract

本发明提供了一种基于一致片段选择的视听事件定位方法。该方法包括：从待进行识别的视听事件的视频流中提取初步的视觉特征和听觉特征；将初步的视觉特征和听觉特征通过双向引导的共同注意力，得到增强后的视觉特征和听觉特征；从增强后的视觉特征和听觉特征中选择出语义一致的视听片段对；对语义一致的视听片段对进行视听特征融合，得到视听融合特征；根据视听融合特征对待进行识别的视听事件进行识别，获取待进行识别的视听事件的事件定位信息。本发明方法通过一致片段选择模块计算两两视听片段的关联关系，对于关联得分高的视听对有着一致的语义，将其保留，并对保留下来的视听对进行全局建模，获取整个视频的语义信息。

Description

一种基于一致片段选择的视听事件定位方法

技术领域

本发明涉及视听事件定位技术领域，尤其涉及一种基于一致片段选择的视听事件定位方法。

背景技术

视听事件定位(Audio-visual Event Localization，AVEL)是当前认知智能的热门研究，跨越了计算机视觉和语音识别两大领域，旨在使机器模拟人类的感知，在智能监控、自动驾驶、人机交互和增强现实等多项智能领域中极具应用潜力。随着深度学习技术和硬件水平的发展，视听事件定位技术得到了显著进步，在标准数据集上已经获得了可以媲美人类的视听事件定位的效果。然而，由于现有海量视频数据中广泛存在的环境噪声和无关的视觉目标，多数模型通过连续的时间建模或对不同时间步特征进行平均池化引入了大量与视听事件无关信息，这影响了视听事件定位的精度，无法满足现实应用场景中的高精度需求。为了加快扩展视听事件定位在实际场景中的应用，有效且准确的视听事件定位技术尤为关键。

单模态内的时序建模问题。全局语义在视听事件定位过程中起着重要的作用，然而目前大多数方法往往对连续的时间步进行时序建模，或者对连续时间步的视听特征进行池化操作，这使得模型不可避免地引入了大量的噪声信息，包括环境音与无关的视觉目标。

多模态间的特征融合问题。以往的方法主要集中在简单融合视听特征的事件时间建模上。然而，视听模态在时间上的不一致性在真实世界的视频中很普遍。一方面，在典型的多媒体演示中，音频和视觉信号由独立的工作流管理；另一方面，视觉场景可能包含多个对象，这些对象可以是声音制造者，也可以不是，相应的音频是一种多源混合。因此，两种特征的直接融合往往会导致事件的错误定位。

视听事件定位是指在一段视频中确定同时包含事件的视觉信息和听觉信息片段的起始时间位置，并识别其事件类别。视听事件定位集成了来自计算机视觉和语音识别等多个领域的技术，专注于视觉和听觉模态的联合学习。这不仅需要识别图像中的物体，还需要识别声音的语义，深入了解与发声物体相关的视觉区域。

随着多模态学习的兴起，视听事件定位被越来越多的研究者所关注。其利用视听信号之间的互补性建立视听模态间的联系，打破了单一模态建模的模糊性，提高了定位的精度。在视听事件定位过程中，视听对应、注意力机制和多模态融合这三项技术尤为重要。

(1)视听对应旨在预测给定的视觉图像是否对应音频的持续时间。一个模型被要求判断音频和视觉信号是否描述同一个对象，例如，狗和吠叫，猫和喵叫。这是一个自我监督的问题，因为视觉图像通常伴随着相应的声音。现有的方法试图通过测量视听相似度来评估对应性。如果视听对是对应的，则相似度得分较高，反之相似度得分较低。这促使我们通过考虑视听相似度来解决视听事件定位问题中丰富的视听对。

(2)注意机制模仿人类感知系统，自动捕获长期依赖关系，并有选择地突出输入信号的关键部分。基于通道的注意机制考虑每个通道的全局信息，选择有意义的特征图，抑制其他特征图。该机制旨在模拟其空间特征通道之间的相互依赖关系。空间-通道注意力通过进一步结合通道型注意力和空间型注意力，并验证了两者的使用优于仅使用通道型注意力。自注意机制通过获取输入和输出之间的全局依赖关系，极大地提高了机器翻译性能。基于预训练词嵌入的自注意机制，在自注意机制的基础上取得了较好的效果。视觉域的自注意机制，试图通过非局部操作在空间和时间维度上捕获像素级的长期依赖关系。

(3)多模态融合包括三种类型的方法，即基于简单操作的方法、基于注意力的方法和基于双线性池的方法，用于融合多模态表示。

基于简单操作的方法通常通过简单操作来融合多模态特征，例如加法、加权和、元素乘或连接。这些方法的一个明显的优点是通常只需要很少或不需要参数就可以进行学习，其在以往的视听事件定位工作中得到了广泛的应用。

基于注意力的方法主要是通过一组具有标量权重的特征的加权和来更新特征，这些标量权重是通过对两个特征之间的一定相关性建模来计算的。经典的基于自我注意的方法，即Transformer，用于建模单词之间的长距离依赖关系。在Transformer的基础上，BERT(来自变压器的双向编码器表示)用于预训练语言表示。LXMERT通过使用独立编码器学习每个模态的模态内特征，并通过使用额外的交叉注意编码器学习模态间特征。OmniNet将电流模态特征与其他模态特征融合，利用嵌入在每个解码器块中的门控多头注意模型。最近，多头注意模块将自我注意和交叉注意进行组合，同时对模态内关系和模态间关系进行建模。但是，该模块中相同的相关权重计算导致查询模态选择自己模态的信息，阻碍了两种模态的融合。

基于双线性池化的方法学习双模态特征向量的联合表示空间。针对双线性池化的项目矩阵中参数较多的问题，提出了一些寻求紧凑双线性表示的逼近方法。多模态紧凑双线性池化方法通过将两模态向量随机投影到高维空间，然后在快速傅里叶变换空间中使用元素乘对它们进行卷积来组合它们。为了降低此方法的内存需求，低秩双线性池化方法首先使用线性映射将两个模态特征投影到相同的低维空间，然后应用元素乘和非线性激活来获得融合特征。随后多模态分解双线性池化方法，该方法对低秩双线性池化方法进行了扩展和挤压操作。

目前，现有技术中的一种跨模态的关系感知网络包括声音引导的空间通道注意力、视频关系感知模块，其中关系感知模块又包括跨模态的关系注意力、内部时间关系模块、视听交互模块，其主要算法流程包括：

视听特征获取：对于视觉模态，采用VGGNet-19对视频帧进行特征提取；对于声音模态，首先将输入的音频转换为声谱图，再用VGGish提取声谱图特征。

声音引导的空间通道注意力(Audio-guided Spatial-Channel Attention)：以视频帧特征做为输入，由通道注意力和空间注意力组成。对于通道注意力，首先将视觉和听觉特征投影到相同的维度，然后利用逐元素相乘融合听觉引导特征和视觉特征，最后经过两层全连接层得到通道注意力地图。对于空间注意力，首先由输入的视觉特征得到通道注意的视觉特征，然后利用声音特征经过两个全连接层得到空间注意力地图，最后利用加权和操作得到通道-空间注意的视觉特征。

视频关系感知模块(Video Relation Aware Module)：对于，跨模态的关系注意力，采用Transformer结构，将一种模态作为Query值，此模态和另一种模态的通道级联作为Key值和Value值，输出跨模态关系感知的特征。对于内部时间关系模块，对于单一模态采用Transformer结构，探索内部事件关系对部分记忆特征的帮助。对于视听交互模块，同样采用Transformer结构，将视觉特征和听觉特征逐元素相乘的结果作为Query值，视觉特征和听觉特征的通道级联作为Key值和Value值，输出融合特征用于后面的事件相关分类和事件类别分类。

上述现有技术中的跨模态的关系感知网络的缺点包括：

仅考虑了声音到视觉的注意力，忽略了视觉到声音的注意力。此类方法采用声音模态从通道角度和空间角度对视觉模态进行注意力学习，利用生成的空间注意力图对三维视觉特征的空间维度进行加权融合，有效地关联了声音特征和对应的视觉区域。然而，考虑到视听信号的互补性，其忽略了声音到视觉模态的注意力，这有助于使模型关注视觉相关的声音片段，在视听事件定位中起着重要的作用。

视听表征之间的差异性较大，直接进行多模态融合效果不佳。由于视听模态之间存在着巨大的异质性差异，直接进行多模态融合，导致模态特征的不对齐。这往往会造成视听事件定位精度的降低。

现有技术中的一种正样本传播网络包括特征提取和编码模块、正样本传播模块、分类模块，其主要算法流程如下所示：

特征提取和编码模块：首先采用VGGNet-19和VGGish分别提取视觉特征和听觉特征，然后利用声音引导的视觉注意力学习与声音相关的视觉特征，最后采用双向长短时记忆网络编码连续的时序信息。

正样本传播模块：首先利用内积操作为所有的视听样本建立联系，然后依据内积得分修剪负连接和弱连接，选择正的视听样本，最后利用正的视听样本进行在线的特征聚合。

分类模块：对于视听特征分别经过全连接层得到最后的分类特征，联合时间相关损失、事件类别损失和设计的视听对相似性损失对模型进行联合优化。

上述现有技术中的正样本传播网络的缺点包括：

仅考虑了声音到视觉的注意力，忽略了视觉到声音的注意力。此类方法仅采用声音模态从空间角度对视觉模态进行注意力学习，关联声音特征和对应的视觉区域。然而，考虑到视听信号的互补性，其忽略了声音到视觉模态的注意力，这有助于使模型关注视觉相关的声音片段，在视听事件定位中起着重要的作用。

仅采用简单的内积计算表示视听样本的联系，相似性描述模糊。正样本传播模块通过内积操作计算视听样本间的联系，这种朴素的相似度计算方法无法准确衡量视听模态之间的关系，影响视听事件定位的精度。

发明内容

本发明的实施例提供了一种基于一致片段选择的视听事件定位方法，以实现有效地对视听事件进行定位。

为了实现上述目的，本发明采取了如下技术方案。

一种基于一致片段选择的视听事件定位方法，包括：

从待进行识别的视听事件的视频流中提取初步的视觉特征和听觉特征；

将初步的视觉特征和听觉特征通过双向引导的共同注意力，得到增强后的视觉特征和听觉特征；

从增强后的视觉特征和听觉特征中选择出语义一致的视听片段对；

对所述语义一致的视听片段对进行视听特征融合，得到视听融合特征；

根据所述视听融合特征对所述待进行识别的视听事件进行识别，获取所述待进行识别的视听事件的事件定位信息。

优选地，所述的从待进行识别的视听事件的视频流中提取初步的视觉特征和听觉特征，包括：

从待进行识别的视听事件的视频流中提取视频帧和声谱图，利用预训练的VGGNet-19对视频帧提取初步的视觉特征，利用预训练的VGGish对声谱图提取初步的听觉特征。

优选地，所述的将初步的视觉特征和听觉特征通过双向引导的共同注意力，得到增强后的视觉特征和听觉特征，包括：

利用关系增强的空间通道注意力对初步的视觉特征

和听觉特征

的通道信息进行1-D多模态分解双线性池化操作，d_v表示视觉特征的通道维度，H和W分别表示视觉特征的高和宽，d_a表示听觉特征的通道维度，操作过程如下：

其中，Dropout操作在训练阶段随机的将一些输入元素变为0，SumPooling₁操作对两种1-D特征进行融合，k为池化因子系数；Φ和Ψ表示线性映射；gap操作将空间尺寸压缩为1；⊙表示逐元素相乘；sign是符号函数；

上述操作过程输出的通道注意力权重

d₀＝d_v，使用残差连接得到通道增强的视觉特征/>

expand操作将

的维度扩展至d₀×H×W，计算空间注意力权重/>

计算过程如下：

其中，SumPooling₃对3-D特征进行池化因子系数为k的线性融合，得到关系增强的视觉特征

其中，reshape操作将空间特征H×W转化为HW，W₁为线性层，σ为激活函数。

利用视觉引导的声音注意力利用通道注意力权重

对声音特征进行增强，计算过程如下：

其中W₂为线性层，输出通道增强的听觉特征

优选地，所述的从增强后的视觉特征和听觉特征中选择出语义一致的视听片段对，包括：

对于每个时间步的增强后的视觉特征和听觉特征，采用相关系数

来表示两种特征的关联程度：

其中，协方差

方差/>

将相关数

记为ρ_t,t，得到每个时刻视听特征的互相关矩阵

通过设置阈值ω得到由高相关性视听片段构成的索引矩阵

和/>

其中，Softmax_r表示逐行的Softmax操作，1是指示函数，∈是极小的正数，对

实施Softmax_r操作，利用索引矩阵/>

和/>

来保留关联得分高的视听对，摒弃关联得分低的视听对，利用线性融合的方法获得语义一致的视觉特征v^cc和听觉特征a^cc，其表示为：

其中，λ是线性融合系数，输出的

优选地，所述的对语义一致的视听片段对进行视听特征融合，得到视听融合特征，包括：

基于Transformer结构设置模态内特征融合、模态间特征融合和视听交互融合三个组件，依次执行模态内特征融合、模态间特征融合和视听交互融合三个组件；

对于模态内特征融合，将语义一致的视听片段对中的视觉特征作为Transformer结构的Query值、key值和value值，将语义一致的视听片段对中的听觉特征作为Transformer结构的Query值、key值和value值，将模态内特征融合后的视觉特征和听觉特征，作为下一步模态间融合中输入的视觉特征和听觉特征；

对于模态间融合，一个Transformer结构以视觉特征作为Query值，以视觉特征和听觉特征的通道级联作为key值和value值，输出模态间融合后的视觉特征；另一个Transformer结构以听觉特征作为Query值，以视觉特征和听觉特征的通道级联作为key值和value值，输出模态间融合后的听觉特征，将模态间融合后的视觉特征和听觉特征，作为下一步视听交互融合中输入的视觉特征和听觉特征；

对于视听交互融合，以视觉特征和听觉特征的逐元素乘作为Transformer结构的Query值，视觉特征和听觉特征的通道级联作为key值和value值，Transformer结构输出视听交互融合后的视听融合特征av^o。

优选地，所述的根据视听融合特征对所述待进行识别的视听事件进行识别，获取所述待进行识别的视听事件的事件定位信息，包括：

将视听融合特征av^o分别经过两个全连接层得到所述待进行识别的视听事件的事件类别得分

和事件相关得分/>

在监督学习设置下，已知视听时间的表示事件分类信息的类别标签y^c和表示事件定位信息的相关标签y^r，采用事件类别损失

和事件相关损失/>

并引入视听对比损失/>

对模型进行联合优化，其过程表示如下：

其中，CrossEntropt为交叉熵损失，BinaryCrossEntropy为二值交叉熵损失，1(·)表示指示函数，cos(·)为余弦距离，‖·‖为L2距离，η为边界参数，γ为融合系数，

表示第t秒的拥有全局语义的视觉特征，/>

表示第t秒的拥有全局语义的听觉特征。

由上述本发明的实施例提供的技术方案可以看出，本发明实施例专注于时序建模过程中的噪声信息问题和视听模态的有效融合问题，皆在推进本领域前沿技术的发展和落地，具有重要的意义。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种基于一致片段选择的视听事件定位方法的处理流程图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

为了解决真实世界环境下视频中的视听语义不一致问题，更好的聚焦感兴趣的事件本身，提高视听事件定位任务的精度，本发明提出了一种基于一致片段选择的视听事件定位方法。该方法是一种多模态处理模型，该模型基于双流网络设计，使视听两种模态信号同时作为输入，集成了双向引导的共同注意力模块。为了在视听模态之间的建立紧密的关联联系，该方法设计了一个双向引导的联合注意力模块，包括听觉到视觉的注意力和视觉到听觉的注意力，使得模型不仅能关注到与声音相关的视觉区域，也能关注到与视觉相关的声音片段。本发明还设计了一个一致片段选择模块，筛选出语义一致的视听片段对进行全局建模；视听联合损失约束视觉和听觉全局特征的相似性。计算所有时间步视听模态特征的互相关矩阵，筛选高相关性的视听对，抛弃低相关性的视听对，获取更精确的全局语义。此外，本发明在训练时添加一个额外的视听对比损失函数，利用视听对比损失联合事件相关损失和事件类别损失对模型进行协同优化。约束视听特征之间的相似性，解决结构异质问题，并联合时间相关损失和时间类别损失对网络进行协同优化。

本发明方法可以应用于视听跨模态智能信息理解任务中。如：在视听跨模态检索中，可以为跨模态语义对齐提供先进经验；在人机交互学习中，可以自动对说话人进行语音增强和情感识别，实现更便捷的人机交流；在智能视频监控中，可以对视频流中感兴趣的事件或动作进行提取和识别。

本发明实施例提供的一种基于一致片段选择的视听事件定位方法的处理流程如图1所示，包括如下的处理步骤：

步骤S10、从待进行识别的视听事件的视频流中提取初步的视觉特征和听觉特征。

从待进行识别的视听事件的视频流中提取视频帧和声谱图，利用预训练的VGGNet-19(视觉特征提取网络)对视频帧提取初步的视觉特征，利用预训练的VGGish(听觉特征提取网络)对声谱图提取初步的听觉特征。

步骤S20、将初步的视觉特征和听觉特征通过双向引导的共同注意力，得到增强后的视觉特征和听觉特征。

步骤S30、从增强后的视觉特征和听觉特征中选择出语义一致的视听片段对。

步骤S40、对语义一致的视听片段对进行视听特征融合，得到视听融合特征。

步骤S50、根据视听融合特征对所述待进行识别的视听事件进行识别，获取视听事件的事件定位和分类信息。

具体的，上述步骤S20包括：本发明引入了一个双向引导的共同注意力来引导视听模态间的互相学习，其包括关系增强的空间通道注意力和视觉引导的声音注意力。

对于关系增强的空间通道注意力，首先将初步提取得到的视觉特征

和听觉特征/>

的通道信息通过1-D多模态分解双线性池化操作进行融合，d_v表示视觉特征的通道维度，H和W分别表示视觉特征的高和宽，d_a表示听觉特征的通道维度；

其过程如下：

其中，Dropout操作在训练阶段随机的将一些输入元素变为0，降低过拟合的风险；SumPooling₁操作对两种1-D特征进行融合，k为池化因子系数；Φ和Ψ表示线性映射；gap操作将空间尺寸压缩为1；⊙表示逐元素相乘；sign是符号函数。该过程输出的通道注意力权重

d₀＝d_v。然后使用残差连接得到通道增强的视觉特征/>

expand操作将

的维度扩展至d₀×H×W。接着，我们进一步计算空间注意力权重

其步骤如下：

其中，SumPooling₃对3-D特征进行池化因子系数为k的线性融合。最后，我们得到关系增强的视觉特征

其中，reshape操作将空间特征H×W转化为HW，W₁为线性层，σ为激活函数。由听觉特征引导的视觉特征在空间和通道维度上都进行了增强，同时使视觉特征能够关注和声音相关的空间位置。

对于视觉引导的声音注意力，利用通道注意力权重

对声音特征进行增强，过程如下：

其中W₂为线性层，输出通道增强的听觉特征

视觉引导的声音注意力使声音特征根据视觉特征的通道信息激活与事件的通道，抑制与事件无关的通道，提高听觉特征的鲁棒性。

具体的，上述步骤S30包括：

本发明利用一致片段选择模块从增强后的视觉特征和听觉特征中选择出语义一致的视听片段对。首先，对于每个时间步的增强后的视觉特征和听觉特征，我们采用相关系数

来表示两种特征的关联程度

其中，协方差

方差/>

此外，我们将相关数记为ρ_t,t，得到每个时刻视听特征的互相关矩阵

然后，通过设置阈值ω，我们得到由高相关性视听片段构成的索引矩阵

和/>

其中，Softmax_r表示逐行的Softmax操作；1是指示函数；∈是极小的正数。接着，我们继续对

实施Softmax_r操作。利用索引矩阵/>

和/>

来保留关联得分高的视听对，摒弃关联得分低的视听对。然后，利用线性融合的方法获得语义一致的拥有全局语义的视觉和听觉特征，其表示为：

其中，λ是线性融合系数；输出的

具体的，上述步骤S40包括：对语义一致的视听片段对进行视听特征融合，得到视听融合特征。

在本发明中，视听特征融合基于Transformer结构，包含三个组件：模态内特征融合、模态间特征融合和视听交互融合。模态内特征融合→模态间特征融合→视听交互融合三个组件依次执行，对视听片段对进行视听特征融合过程中需要利用视听片段对的语义信息。

对于模态内特征融合，视觉模态和听觉模态独立建模：视觉特征作为Transformer结构的Query值、key值和value值，听觉特征也作为Transformer结构的Query值、key值和value值，将模态内特征融合后的视觉特征和听觉特征，作为下一步模态间融合中输入的视觉特征和听觉特征。。

对于模态间融合，一个Transformer结构以视觉特征作为Query值，以视觉特征和听觉特征的通道级联作为key值和value值，输出模态间融合后的视觉特征；另一个Transformer结构以听觉特征作为Query值，以视觉特征和听觉特征的通道级联作为key值和value值，输出模态间融合后的听觉特征。将模态间融合后的视觉特征和听觉特征，作为下一步视听交互融合中输入的视觉特征和听觉特征。

对于视听交互融合，以视觉特征和听觉特征的逐元素乘作为Transformer结构的Query值，视觉特征和听觉特征的通道级联作为key值和value值，Transformer结构输出视听交互融合后的视听融合特征，用于最后的视听事件定位和分类。

具体的，上述步骤S50包括：

在视听交互融合之后得到视听融合特征av^o，将视听融合特征av^o分别经过两个全连接层得到事件类别得分

和事件相关得分/>

在监督学习设置下，已知视听时间的类别标签y^c(事件分类信息)和相关标签y^r(事件定位信息)，采用事件类别损失/>

和事件相关损失/>

并引入视听对比损失/>

对模型进行联合优化，其过程表示如下：

其中，CrossEntropy为交叉熵损失，BinaryCrossEntropy为二值交叉熵损失，1(·)表示指示函数，cos(·)为余弦距离，‖·‖为L2距离，η为边界参数，γ为融合系数，

表示第t秒的拥有全局语义的视觉特征，/>

表示第t秒的拥有全局语义的听觉特征。

综上所述，本发明方法通过视觉引导的声音注意力，将视觉特征加入听觉特征的通道维度中，激活与事件相关的声音特征通道，抑制与事件无关的声音特征通道，提高声音特征的鲁棒性。

本发明方法通过一致片段选择模块计算两两视听片段的关联关系，对于关联得分高的视听对有着一致的语义，并将其保留；对于关联得分低的视听对有着不一致的语义，并将其摒弃。只对保留下来的视听对进行全局建模，获取整个视频的语义信息。

本发明方法提出了一种视听对比损失，通过约束视觉全局特征和听觉全局特征间的相似性，使其拥有相似的特征表示，为多模态融合提供语义对齐的特征表示，提高融合的精度。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。