CN112820320A

CN112820320A - 跨模态注意力一致性网络自监督学习方法

Info

Publication number: CN112820320A
Application number: CN202011644929.XA
Authority: CN
Inventors: 张勇东; 闵少波; 谢洪涛
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-05-18
Anticipated expiration: 2040-12-31
Also published as: CN112820320B

Abstract

本发明公开了一种跨模态注意力一致性网络自监督学习方法，包括：获取视频信号和音频信号；进行自适应卷积运算得到视频自适应卷积核和音频自适应卷积核；进行跨模态对比损失计算得到视频自适应卷积核对比损失和音频自适应卷积核对比损失；在音频/视频模态下进行金字塔协同滤波得到视频引导下的音频注意力图和音频引导下的视频注意力图；通过显著性检测计算获得自身视频注意力图和自身音频注意力图；进行一致性运算得到音频注意力图对比损失和视频注意力图对比损失；将视频自适应卷积核对比损失、音频自适应卷积核对比损失、音频注意力图对比损失和视频注意力图对比损失求和，并优化至收敛，获得发声物体的区域和目标物体发出的声音频率。

Description

跨模态注意力一致性网络自监督学习方法

技术领域

本发明涉及数据处理技术领域，尤其涉及一种跨模态注意力一致性网络自监督学习方法。

背景技术

视觉-音频自监督技术旨在探索跨模态数据之间的内在关联来无监督的学习视觉和音频特征编码器。由于没有人工标注，最新的方法侧重于设计某种代理任务来更新网络，例如检测输入的视觉和音频信号是否来自于同一个视频。然而，在人类的认知系统中，我们的视觉系统会关注到发声的区域，而我们的听觉系统则会关注到感兴趣目标发出的声音。这样一种天然的监督信息非常重要，但往往被现有技术所忽略。

因此，目前亟待解决的技术问题是，如何利用视频信号-音频信号之间的关联性，更准确的获得发声物体的区域信息和目标物体发出的声音信息，改善无监督学习的效果。

发明内容

为了解决上述技术问题，本发明提供一种跨模态注意力一致性网络自监督学习方法，可以利用视频信号-音频信号之间的关联性，更准确的获得发声物体的区域信息和目标物体发出的声音信息，改善无监督学习的效果。具体方案如下。

一种跨模态注意力一致性网络自监督学习方法，包括：

获取无标注视频编码后的视频信号和音频信号；

对所述视频信号进行自适应卷积运算得到视频自适应卷积核，对所述音频信号进行自适应据卷积运算得到音频自适应卷积核；

将所述视频自适应卷积核进行跨模态对比损失计算得到视频自适应卷积核对比损失，将音频自适应卷积核进行跨模态对比损失计算得到音频自适应卷积核对比损失；

对所述视频自适应卷积核在音频模态下进行金字塔协同滤波得到视频引导下的音频注意力图，对所述音频自适应卷积核在视频模态下进行金字塔协同滤波得到音频引导下的视频注意力图；

通过对所述视频信号显著性检测计算获得自身视频注意力图，通过对所述音频信号显著性检测计算获得自身音频注意力图；

将所述视频引导下的音频注意力图和所述自身音频注意力图进行一致性运算得到音频注意力图对比损失，将所述音频引导下的视频注意力图和所述自身视频注意力图进行一致性运算得到视频注意力图对比损失；

将所述视频自适应卷积核对比损失、所述音频自适应卷积核对比损失、所述音频注意力图对比损失和所述视频注意力图对比损失求和，并对求和结果进行优化至最小值收敛，以获得发声物体的区域和目标物体发出的声音频率。

根据本发明的一些实施例，对所述视频信号进行自适应据卷积运算得到视频自适应卷积核，对所述音频信号进行自适应据卷积运算得到音频自适应卷积核包括：

其中，v_n为第n个视频编码后的视频信号，a_n为第n个视频编码后的音频信号，g_v(·)和g_a(·)是两个转换函数，

为视频自适应卷积核，

为音频自适应卷积核。

根据本发明的一些实施例，所述转换函数包括：

g_v(v_n)＝W_v*v_n (3)

g_a(a_n)＝W_a*a_n (4)

其中，W_v和W_a分别为可学习的卷积核参数，*为卷积计算。

根据本发明的一些实施例，所述跨模态对比损失计包括引入负样本对参与计算，所述负样本对包括跨模态负样本对和模态内负样本对。

根据本发明的一些实施例，所述将所述视频自适应卷积核进行跨模态对比损失计算得到视频自适应卷积核对比损失，将音频自适应卷积核进行跨模态对比损失计算得到音频自适应卷积核对比损失还包括：

其中，

为跨模态正样本对，度量同一个视频的视觉模态和音频模态特征之间的相似度，

为跨模态负样本对，度量第n个视频的视觉模态特征和第m个视频的音频模态特征之间的相似度，

为视频模态内负样本对，度量了第n个视频的视觉模态特征和第m个视频的视觉模态特征之间的相似度，

为音频模态内负样本对，度量了第n个视频的音频模态特征和第m个视频的音频模态特征之间的相似度。

根据本发明的一些实施例，所述对所述视频自适应卷积核在音频模态下进行金字塔协同滤波得到视频引导下的音频注意力图，对所述音频自适应卷积核在视频模态下进行金字塔协同滤波得到音频引导下的视频注意力图，包括：

其中，

是音频引导下的视觉注意图，而

是视觉引导下的音频注意力图。(*)表示卷积运算，norm()为余弦归一化函数。

根据本发明的一些实施例，所述通过对所述视频信号显著性检测计算获得自身视频注意力图，通过对所述音频信号显著性检测计算获得自身音频注意力图包括：

其中，h_v(·)和h_a(·)为卷积操作，σ(·)是Sigmoid激活函数，

为自身视频注意力图，

为自身音频注意力图。

根据本发明的一些实施例，将所述视频引导下的音频注意力图和所述自身音频注意力图进行一致性运算得到音频注意力图对比损失，将所述音频引导下的视频注意力图和所述自身视频注意力图进行一致性运算得到视频注意力图对比损失包括：

根据本发明的一些实施例，所述将所述视频自适应卷积核对比损失、所述音频自适应卷积核对比损失、所述音频注意力图对比损失和所述视频注意力图对比损失求和，并对求和结果进行优化至最小值收敛包括：

其中，

为求和结果，将

优化至最小值收敛以获得发声物体的区域和目标物体发出的声音频率。

根据本发明的一些实施例，所述视频自适应卷积核包括颜色或形状，所述音频自适应卷积核包括声音频率或语义内容。

本发明通过将视频信号的自身注意力区域对齐到在音频信号引导下产生的目标注意力区域，将音频信号的自身注意力区域对齐到视频信号引导下产生的目标注意力区域，结合损失函数进行优化至最小值收敛，进而准确的获得发声物体的区域和目标物体发出的声音频率，改善无监督学习的效果。

附图说明

图1示意性示出了本公开实施例的跨模态注意力一致性网络自监督学习方法的原理概念示意图；

图2示意性示出了本公开实施例的跨模态注意力一致性网络自监督学习方法的原理示意图；

图3示意性示出了本公开实施例的跨模态注意力一致性网络自监督学习方法的金字塔相关滤波技术示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

但是应该理解，这些描述只是示例性的，而并非要限制本发明的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本发明实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知技术的描述，以避免不必要地混淆本发明的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本发明。在此使用的术语“包括”表明了特征、步骤、操作的存在，但是并不排除存在或添加一个或多个其他特征。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释，例如，跨模态注意力一致性(CMAC)，用于探索视觉和听觉信号之间的双向局部对应特性。

为了解决上述技术问题，本发明提供一种跨模态注意力一致性网络自监督学习方法，可以利用视频信号-音频信号之间的关联性，更准确的获得发声物体的区域信息和目标物体发出的声音信息，改善无监督学习的效果。

在以下基准数据集上验证本发明公开的的方法。Kinetics-400，该数据集包含约10秒的240K视频，过滤掉不良实例后，例如没有音频信号，约有220K视频用于预训练；UCF-101，包含101种现实行为类别的动作识别数据集，共含13320个视频；HMDB-51，该数据集包含51类动作，共6849个视频，每个动作至少包含51个分辨率为320*240的视频；ESC50，该数据集包含2000个音频片段，共50个不同的类别；DCASE2013，该数据集包含200个音频片段，共10个不同类别。

以Kinetics-400为例，在Kinetics-400数据集上进行预训练。Kinetics-400是一个大规模的视频数据集，预训练指的是不使用人工标注，仅仅使用视频数据训练模型的参数。预训练结束后，将预训练的模型参数，在一些小规模、有标注数据集上进行微调，将大规模数据集上学习到的知识迁移到小数据集上。

根据本发明公开的跨模态注意力一致性网络自监督学习方法，获取一组无标注视频{x_n}，例如Kinetics-400中的所有视频数据。其中每个x_n都由视觉RGB帧和音轨信号组成。跨模态无监督学习在一个大规模无标注数据集上，例如Kinectis-400，同时学习两种模态的特征编码f_v(·)和f_a(·)，使它们可以很好地转移到小规模有标注下游任务上，例如UCF1010或者HMDB51。形式上，将(v_n，a_n)定义为第n个视频编码后的视觉和音频信号。本发明利用v和a之间的双向局部对应关系，用于监督学习视觉编码器f_v(·)和音频编码器f_a(·)。

图1示意性示出了本公开实施例的跨模态注意力一致性网络自监督学习方法的原理概念示意图。

根据本发明的一些实施例，如图1所示，本发明公开的一种跨模态注意力一致性网络自监督学习方法，其原理为视觉编码器关注发出声音的区域，音频编码器关注感兴趣对象的声音频率，将视觉编码器自身的注意力区域对齐到在声学信号引导下产生的目标注意力区域，并在声学频率上进行类似的对齐，通过注意一致性来考虑时空视觉线索与音频频谱图信号之间的双向局部一致性，实现视觉和听觉信号之间的双向局部对应特性的自监督。

图2示意性示出了本公开实施例的跨模态注意力一致性网络自监督学习方法的原理示意图。

根据本发明的一些实施例，如图2所示，本发明公开一种跨模态注意力一致性网络自监督学习方法，包括如下步骤。

获取无标注视频编码后的视频信号和音频信号；

对视频信号进行自适应卷积运算得到视频自适应卷积核，对音频信号进行自适应据卷积运算得到音频自适应卷积核；

将视频自适应卷积核进行跨模态对比损失计算得到视频自适应卷积核对比损失，将音频自适应卷积核进行跨模态对比损失计算得到音频自适应卷积核对比损失；

对视频自适应卷积核在音频模态下进行金字塔协同滤波得到视频引导下的音频注意力图，对音频自适应卷积核在视频模态下进行金字塔协同滤波得到音频引导下的视频注意力图；

通过对视频信号显著性检测计算获得自身视频注意力图，通过对音频信号显著性检测计算获得自身音频注意力图；

将视频引导下的音频注意力图和自身音频注意力图进行一致性运算得到音频注意力图对比损失，将音频引导下的视频注意力图和自身视频注意力图进行一致性运算得到视频注意力图对比损失；

将视频自适应卷积核对比损失、音频自适应卷积核对比损失、音频注意力图对比损失和视频注意力图对比损失求和，并对求和结果进行优化至最小值收敛，以获得发声物体的区域和目标物体发出的声音频率。

根据本发明的一些实施例，可以建立数据集，数据集包括无标注视频编码后的视频信号和音频信号，可用于训练和测试。

根据本发明的一些实施例，本发明采用金字塔协同滤波的核心目的为根据视频/音频模态数据生成的卷积核来匹配当前模态数据中最匹配的特性或内容，也即利用视频信号－音频信号之间的关联性来匹配当前模态数据中最匹配的特性或内容。

根据本发明的一些实施例，对视频信号进行自适应据卷积运算得到视频自适应卷积核，对音频信号进行自适应据卷积运算得到音频自适应卷积核包括：

为视频自适应卷积核，

为音频自适应卷积核。

根据本发明的一些实施例，转换函数包括：

g_v(v_n)＝W_v*v_n (3)

g_a(a_n)＝W_a*a_n (4)

其中，W_v和W_a分别为可学习的卷积核参数，*为卷积计算。

根据本发明的一些实施例，跨模态对比损失计包括引入负样本对参与计算，负样本对包括跨模态负样本对和模态内负样本对。

根据本发明的一些实施例，将视频自适应卷积核进行跨模态对比损失计算得到视频自适应卷积核对比损失，将音频自适应卷积核进行跨模态对比损失计算得到音频自适应卷积核对比损失还包括：

其中，

根据本发明的一些实施例，对视频自适应卷积核在音频模态下进行金字塔协同滤波得到视频引导下的音频注意力图，对音频自适应卷积核在视频模态下进行金字塔协同滤波得到音频引导下的视频注意力图，包括：

其中，

是音频引导下的视觉注意图，而

根据本发明的一些实施例，采用视觉和音频编码器f_v(·)和f_a(·)进行学习，

和

分别指明了哪些区域是发声区域和哪些声音频率是目标物体发出。

根据本发明的一些实施例，norm()为余弦归一化函数，将响应映射为[0，1]。

表明了与音频信号中最相关的时空区域，即发出声音的区域。类似地，视觉引导下的音频注意力图

表示来自感兴趣对象的声频。

根据本发明的一些实施例，如图3及结合图2所示，采用金字塔缩放策略以获得更好的视频/音频注意力图，在公式(7)和(8)的基础上，将v_n，a_n下采样至一半分辨率，并定义为

然后再次计算卷积核响应：

相比于

和

和

探索了低分辨率下的音视频模态间的相似性响应，因此能捕捉一些粗粒度信息。

根据本发明的一些实施例，如图3所示，可以进行多次下采样，获得不同尺度下的注意力图，将不同尺度下的注意力图进行融合，生成最终的注意力图：

最终，

和

分别融合了原始分辨率，1/2分辨率，和1/4分辨率下的注意力图。该多尺度信息能生成更好的视频/音频注意力图，分别指出哪里是发声区域和指示目标物体的发声频率。

根据本发明的一些实施例，通过对视频信号显著性检测计算获得自身视频注意力图，通过对音频信号显著性检测计算获得自身音频注意力图包括：

其中，h_v(·)和h_a(·)为卷积操作，σ(·)是Sigmoid激活函数，

为自身视频注意力图，

为自身音频注意力图。

根据本发明的一些实施例，将视频引导下的音频注意力图和自身音频注意力图进行一致性运算得到音频注意力图对比损失，将音频引导下的视频注意力图和自身视频注意力图进行一致性运算得到视频注意力图对比损失包括：

根据本发明的一些实施例，将视频自适应卷积核对比损失、音频自适应卷积核对比损失、音频注意力图对比损失和视频注意力图对比损失求和，并对求和结果进行优化至最小值收敛包括：

其中，

为求和结果，将

根据本发明的一些实施例，最小化

将会使同一视频的视觉和音频模态特征离得近，不同视频间不管是视觉-音频模态还是视觉-视觉模态特征都离得远。

根据本发明的一些实施例，在损失函数中引入了模态内负样本对

可以使不同视频的视觉模态特征也存在区分性，因此能提高特征判别能力。同时，

因为优化

特征离得近，因此也弥合了同一视频，不同模态之间的模态差异问题，使得上述金字塔协同滤波技术可以顺利施行。

根据本发明的一些实施例，进行跨模态对比损失计算之前还包括：将视频自适应卷积核和音频自适应卷积核通过全连接模块映射到联合潜空间，包括：

其中，W_kv和W_ka为两个可学习的参数矩阵。

根据本发明的一些实施例，视频自适应卷积核包括颜色或形状，音频自适应卷积核包括声音频率或语义内容。

通过上述技术方案，比如经过200个epoch在大规模数据集Kinetics-400上的预训练，将得到训练充分的视觉特征编码器f_v(·)和音频特征编码器f_a(·)，能够准确的关注到发声物体的区域和目标物体发出的声音频率。将学习到的f_v(·)和f_a(·)运用于一些小规模有标注的数据集UCF-101(行为识别)，HMDB-51(行为识别)，ESC50(声音分类)，和DCASE2013(声音分类)，本发明公开的的模型/方法分别取得了90.3％，61.1％，81.4％，和76％的最高准确率。

至此，已经结合附图对本公开实施例进行了详细描述。需要说明的是，在附图或说明书正文中，未绘示或描述的实现方式，均为所属技术领域中普通技术人员所知的形式，并未进行详细说明。此外，上述对各零部件的定义并不仅限于实施例中提到的各种具体结构、形状或方式，本领域普通技术人员可对其进行简单地更改或替换。

还需要说明的是，在本公开的具体实施例中，除非有所知名为相反之意，本说明书及所附权利要求中的数值参数是近似值，能够根据通过本公开的内容所得的所需特性改变。具体而言，所有使用于说明书及权利要求中表示组成的尺寸、范围条件等等的数字，应理解为在所有情况中是受到“约”的用语所修饰。一般情况下，其表达的含义是指包含由特定数量在一些实施例中±10％的变化、在一些实施例中±5％的变化、在一些实施例中±1％的变化、在一些实施例中±0.5％的变化。

本领域技术人员可以理解，本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本发明中。特别地，在不脱离本发明精神和教导的情况下，本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本发明的范围。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。