CN112820320A - 跨模态注意力一致性网络自监督学习方法 - Google Patents

跨模态注意力一致性网络自监督学习方法 Download PDF

Info

Publication number
CN112820320A
CN112820320A CN202011644929.XA CN202011644929A CN112820320A CN 112820320 A CN112820320 A CN 112820320A CN 202011644929 A CN202011644929 A CN 202011644929A CN 112820320 A CN112820320 A CN 112820320A
Authority
CN
China
Prior art keywords
video
audio
attention
convolution kernel
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011644929.XA
Other languages
English (en)
Other versions
CN112820320B (zh
Inventor
张勇东
闵少波
谢洪涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202011644929.XA priority Critical patent/CN112820320B/zh
Publication of CN112820320A publication Critical patent/CN112820320A/zh
Application granted granted Critical
Publication of CN112820320B publication Critical patent/CN112820320B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种跨模态注意力一致性网络自监督学习方法,包括:获取视频信号和音频信号;进行自适应卷积运算得到视频自适应卷积核和音频自适应卷积核;进行跨模态对比损失计算得到视频自适应卷积核对比损失和音频自适应卷积核对比损失;在音频/视频模态下进行金字塔协同滤波得到视频引导下的音频注意力图和音频引导下的视频注意力图;通过显著性检测计算获得自身视频注意力图和自身音频注意力图;进行一致性运算得到音频注意力图对比损失和视频注意力图对比损失;将视频自适应卷积核对比损失、音频自适应卷积核对比损失、音频注意力图对比损失和视频注意力图对比损失求和,并优化至收敛,获得发声物体的区域和目标物体发出的声音频率。

Description

跨模态注意力一致性网络自监督学习方法
技术领域
本发明涉及数据处理技术领域,尤其涉及一种跨模态注意力一致性网络自监督学习方法。
背景技术
视觉-音频自监督技术旨在探索跨模态数据之间的内在关联来无监督的学习视觉和音频特征编码器。由于没有人工标注,最新的方法侧重于设计某种代理任务来更新网络,例如检测输入的视觉和音频信号是否来自于同一个视频。然而,在人类的认知系统中,我们的视觉系统会关注到发声的区域,而我们的听觉系统则会关注到感兴趣目标发出的声音。这样一种天然的监督信息非常重要,但往往被现有技术所忽略。
因此,目前亟待解决的技术问题是,如何利用视频信号-音频信号之间的关联性,更准确的获得发声物体的区域信息和目标物体发出的声音信息,改善无监督学习的效果。
发明内容
为了解决上述技术问题,本发明提供一种跨模态注意力一致性网络自监督学习方法,可以利用视频信号-音频信号之间的关联性,更准确的获得发声物体的区域信息和目标物体发出的声音信息,改善无监督学习的效果。具体方案如下。
一种跨模态注意力一致性网络自监督学习方法,包括:
获取无标注视频编码后的视频信号和音频信号;
对所述视频信号进行自适应卷积运算得到视频自适应卷积核,对所述音频信号进行自适应据卷积运算得到音频自适应卷积核;
将所述视频自适应卷积核进行跨模态对比损失计算得到视频自适应卷积核对比损失,将音频自适应卷积核进行跨模态对比损失计算得到音频自适应卷积核对比损失;
对所述视频自适应卷积核在音频模态下进行金字塔协同滤波得到视频引导下的音频注意力图,对所述音频自适应卷积核在视频模态下进行金字塔协同滤波得到音频引导下的视频注意力图;
通过对所述视频信号显著性检测计算获得自身视频注意力图,通过对所述音频信号显著性检测计算获得自身音频注意力图;
将所述视频引导下的音频注意力图和所述自身音频注意力图进行一致性运算得到音频注意力图对比损失,将所述音频引导下的视频注意力图和所述自身视频注意力图进行一致性运算得到视频注意力图对比损失;
将所述视频自适应卷积核对比损失、所述音频自适应卷积核对比损失、所述音频注意力图对比损失和所述视频注意力图对比损失求和,并对求和结果进行优化至最小值收敛,以获得发声物体的区域和目标物体发出的声音频率。
根据本发明的一些实施例,对所述视频信号进行自适应据卷积运算得到视频自适应卷积核,对所述音频信号进行自适应据卷积运算得到音频自适应卷积核包括:
Figure BDA0002874909030000021
Figure BDA0002874909030000022
其中,vn为第n个视频编码后的视频信号,an为第n个视频编码后的音频信号,gv(·)和ga(·)是两个转换函数,
Figure BDA0002874909030000023
为视频自适应卷积核,
Figure BDA0002874909030000024
为音频自适应卷积核。
根据本发明的一些实施例,所述转换函数包括:
gv(vn)=Wv*vn (3)
ga(an)=Wa*an (4)
其中,Wv和Wa分别为可学习的卷积核参数,*为卷积计算。
根据本发明的一些实施例,所述跨模态对比损失计包括引入负样本对参与计算,所述负样本对包括跨模态负样本对和模态内负样本对。
根据本发明的一些实施例,所述将所述视频自适应卷积核进行跨模态对比损失计算得到视频自适应卷积核对比损失,将音频自适应卷积核进行跨模态对比损失计算得到音频自适应卷积核对比损失还包括:
Figure BDA0002874909030000031
Figure BDA0002874909030000032
其中,
Figure BDA0002874909030000033
为跨模态正样本对,度量同一个视频的视觉模态和音频模态特征之间的相似度,
Figure BDA0002874909030000034
为跨模态负样本对,度量第n个视频的视觉模态特征和第m个视频的音频模态特征之间的相似度,
Figure BDA0002874909030000035
为视频模态内负样本对,度量了第n个视频的视觉模态特征和第m个视频的视觉模态特征之间的相似度,
Figure BDA0002874909030000036
为音频模态内负样本对,度量了第n个视频的音频模态特征和第m个视频的音频模态特征之间的相似度。
根据本发明的一些实施例,所述对所述视频自适应卷积核在音频模态下进行金字塔协同滤波得到视频引导下的音频注意力图,对所述音频自适应卷积核在视频模态下进行金字塔协同滤波得到音频引导下的视频注意力图,包括:
Figure BDA0002874909030000037
Figure BDA0002874909030000038
其中,
Figure BDA0002874909030000039
是音频引导下的视觉注意图,而
Figure BDA00028749090300000310
是视觉引导下的音频注意力图。(*)表示卷积运算,norm()为余弦归一化函数。
根据本发明的一些实施例,所述通过对所述视频信号显著性检测计算获得自身视频注意力图,通过对所述音频信号显著性检测计算获得自身音频注意力图包括:
Figure BDA00028749090300000311
Figure BDA00028749090300000312
其中,hv(·)和ha(·)为卷积操作,σ(·)是Sigmoid激活函数,
Figure BDA00028749090300000313
为自身视频注意力图,
Figure BDA00028749090300000314
为自身音频注意力图。
根据本发明的一些实施例,将所述视频引导下的音频注意力图和所述自身音频注意力图进行一致性运算得到音频注意力图对比损失,将所述音频引导下的视频注意力图和所述自身视频注意力图进行一致性运算得到视频注意力图对比损失包括:
Figure BDA0002874909030000041
Figure BDA0002874909030000042
根据本发明的一些实施例,所述将所述视频自适应卷积核对比损失、所述音频自适应卷积核对比损失、所述音频注意力图对比损失和所述视频注意力图对比损失求和,并对求和结果进行优化至最小值收敛包括:
Figure BDA0002874909030000043
其中,
Figure BDA0002874909030000044
为求和结果,将
Figure BDA0002874909030000045
优化至最小值收敛以获得发声物体的区域和目标物体发出的声音频率。
根据本发明的一些实施例,所述视频自适应卷积核包括颜色或形状,所述音频自适应卷积核包括声音频率或语义内容。
本发明通过将视频信号的自身注意力区域对齐到在音频信号引导下产生的目标注意力区域,将音频信号的自身注意力区域对齐到视频信号引导下产生的目标注意力区域,结合损失函数进行优化至最小值收敛,进而准确的获得发声物体的区域和目标物体发出的声音频率,改善无监督学习的效果。
附图说明
图1示意性示出了本公开实施例的跨模态注意力一致性网络自监督学习方法的原理概念示意图;
图2示意性示出了本公开实施例的跨模态注意力一致性网络自监督学习方法的原理示意图;
图3示意性示出了本公开实施例的跨模态注意力一致性网络自监督学习方法的金字塔相关滤波技术示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
但是应该理解,这些描述只是示例性的,而并非要限制本发明的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本发明实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知技术的描述,以避免不必要地混淆本发明的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本发明。在此使用的术语“包括”表明了特征、步骤、操作的存在,但是并不排除存在或添加一个或多个其他特征。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释,例如,跨模态注意力一致性(CMAC),用于探索视觉和听觉信号之间的双向局部对应特性。
为了解决上述技术问题,本发明提供一种跨模态注意力一致性网络自监督学习方法,可以利用视频信号-音频信号之间的关联性,更准确的获得发声物体的区域信息和目标物体发出的声音信息,改善无监督学习的效果。
在以下基准数据集上验证本发明公开的的方法。Kinetics-400,该数据集包含约10秒的240K视频,过滤掉不良实例后,例如没有音频信号,约有220K视频用于预训练;UCF-101,包含101种现实行为类别的动作识别数据集,共含13320个视频;HMDB-51,该数据集包含51类动作,共6849个视频,每个动作至少包含51个分辨率为320*240的视频;ESC50,该数据集包含2000个音频片段,共50个不同的类别;DCASE2013,该数据集包含200个音频片段,共10个不同类别。
以Kinetics-400为例,在Kinetics-400数据集上进行预训练。Kinetics-400是一个大规模的视频数据集,预训练指的是不使用人工标注,仅仅使用视频数据训练模型的参数。预训练结束后,将预训练的模型参数,在一些小规模、有标注数据集上进行微调,将大规模数据集上学习到的知识迁移到小数据集上。
根据本发明公开的跨模态注意力一致性网络自监督学习方法,获取一组无标注视频{xn},例如Kinetics-400中的所有视频数据。其中每个xn都由视觉RGB帧和音轨信号组成。跨模态无监督学习在一个大规模无标注数据集上,例如Kinectis-400,同时学习两种模态的特征编码fv(·)和fa(·),使它们可以很好地转移到小规模有标注下游任务上,例如UCF1010或者HMDB51。形式上,将(vn,an)定义为第n个视频编码后的视觉和音频信号。本发明利用v和a之间的双向局部对应关系,用于监督学习视觉编码器fv(·)和音频编码器fa(·)。
图1示意性示出了本公开实施例的跨模态注意力一致性网络自监督学习方法的原理概念示意图。
根据本发明的一些实施例,如图1所示,本发明公开的一种跨模态注意力一致性网络自监督学习方法,其原理为视觉编码器关注发出声音的区域,音频编码器关注感兴趣对象的声音频率,将视觉编码器自身的注意力区域对齐到在声学信号引导下产生的目标注意力区域,并在声学频率上进行类似的对齐,通过注意一致性来考虑时空视觉线索与音频频谱图信号之间的双向局部一致性,实现视觉和听觉信号之间的双向局部对应特性的自监督。
图2示意性示出了本公开实施例的跨模态注意力一致性网络自监督学习方法的原理示意图。
根据本发明的一些实施例,如图2所示,本发明公开一种跨模态注意力一致性网络自监督学习方法,包括如下步骤。
获取无标注视频编码后的视频信号和音频信号;
对视频信号进行自适应卷积运算得到视频自适应卷积核,对音频信号进行自适应据卷积运算得到音频自适应卷积核;
将视频自适应卷积核进行跨模态对比损失计算得到视频自适应卷积核对比损失,将音频自适应卷积核进行跨模态对比损失计算得到音频自适应卷积核对比损失;
对视频自适应卷积核在音频模态下进行金字塔协同滤波得到视频引导下的音频注意力图,对音频自适应卷积核在视频模态下进行金字塔协同滤波得到音频引导下的视频注意力图;
通过对视频信号显著性检测计算获得自身视频注意力图,通过对音频信号显著性检测计算获得自身音频注意力图;
将视频引导下的音频注意力图和自身音频注意力图进行一致性运算得到音频注意力图对比损失,将音频引导下的视频注意力图和自身视频注意力图进行一致性运算得到视频注意力图对比损失;
将视频自适应卷积核对比损失、音频自适应卷积核对比损失、音频注意力图对比损失和视频注意力图对比损失求和,并对求和结果进行优化至最小值收敛,以获得发声物体的区域和目标物体发出的声音频率。
根据本发明的一些实施例,可以建立数据集,数据集包括无标注视频编码后的视频信号和音频信号,可用于训练和测试。
根据本发明的一些实施例,本发明采用金字塔协同滤波的核心目的为根据视频/音频模态数据生成的卷积核来匹配当前模态数据中最匹配的特性或内容,也即利用视频信号-音频信号之间的关联性来匹配当前模态数据中最匹配的特性或内容。
根据本发明的一些实施例,对视频信号进行自适应据卷积运算得到视频自适应卷积核,对音频信号进行自适应据卷积运算得到音频自适应卷积核包括:
Figure BDA0002874909030000071
Figure BDA0002874909030000072
其中,vn为第n个视频编码后的视频信号,an为第n个视频编码后的音频信号,gv(·)和ga(·)是两个转换函数,
Figure BDA0002874909030000073
为视频自适应卷积核,
Figure BDA0002874909030000074
为音频自适应卷积核。
根据本发明的一些实施例,转换函数包括:
gv(vn)=Wv*vn (3)
ga(an)=Wa*an (4)
其中,Wv和Wa分别为可学习的卷积核参数,*为卷积计算。
根据本发明的一些实施例,跨模态对比损失计包括引入负样本对参与计算,负样本对包括跨模态负样本对和模态内负样本对。
根据本发明的一些实施例,将视频自适应卷积核进行跨模态对比损失计算得到视频自适应卷积核对比损失,将音频自适应卷积核进行跨模态对比损失计算得到音频自适应卷积核对比损失还包括:
Figure BDA0002874909030000081
Figure BDA0002874909030000082
其中,
Figure BDA0002874909030000083
为跨模态正样本对,度量同一个视频的视觉模态和音频模态特征之间的相似度,
Figure BDA0002874909030000084
为跨模态负样本对,度量第n个视频的视觉模态特征和第m个视频的音频模态特征之间的相似度,
Figure BDA0002874909030000085
为视频模态内负样本对,度量了第n个视频的视觉模态特征和第m个视频的视觉模态特征之间的相似度,
Figure BDA0002874909030000086
为音频模态内负样本对,度量了第n个视频的音频模态特征和第m个视频的音频模态特征之间的相似度。
根据本发明的一些实施例,对视频自适应卷积核在音频模态下进行金字塔协同滤波得到视频引导下的音频注意力图,对音频自适应卷积核在视频模态下进行金字塔协同滤波得到音频引导下的视频注意力图,包括:
Figure BDA0002874909030000087
Figure BDA0002874909030000088
其中,
Figure BDA0002874909030000089
是音频引导下的视觉注意图,而
Figure BDA00028749090300000810
是视觉引导下的音频注意力图。(*)表示卷积运算,norm()为余弦归一化函数。
根据本发明的一些实施例,采用视觉和音频编码器fv(·)和fa(·)进行学习,
Figure BDA00028749090300000811
Figure BDA00028749090300000812
分别指明了哪些区域是发声区域和哪些声音频率是目标物体发出。
根据本发明的一些实施例,norm()为余弦归一化函数,将响应映射为[0,1]。
Figure BDA00028749090300000813
表明了与音频信号中最相关的时空区域,即发出声音的区域。类似地,视觉引导下的音频注意力图
Figure BDA00028749090300000814
表示来自感兴趣对象的声频。
图3示意性示出了本公开实施例的跨模态注意力一致性网络自监督学习方法的金字塔相关滤波技术示意图。
根据本发明的一些实施例,如图3及结合图2所示,采用金字塔缩放策略以获得更好的视频/音频注意力图,在公式(7)和(8)的基础上,将vn,an下采样至一半分辨率,并定义为
Figure BDA0002874909030000091
然后再次计算卷积核响应:
Figure BDA0002874909030000092
相比于
Figure BDA0002874909030000093
Figure BDA0002874909030000094
Figure BDA0002874909030000095
探索了低分辨率下的音视频模态间的相似性响应,因此能捕捉一些粗粒度信息。
根据本发明的一些实施例,如图3所示,可以进行多次下采样,获得不同尺度下的注意力图,将不同尺度下的注意力图进行融合,生成最终的注意力图:
Figure BDA0002874909030000096
最终,
Figure BDA0002874909030000097
Figure BDA0002874909030000098
分别融合了原始分辨率,1/2分辨率,和1/4分辨率下的注意力图。该多尺度信息能生成更好的视频/音频注意力图,分别指出哪里是发声区域和指示目标物体的发声频率。
根据本发明的一些实施例,通过对视频信号显著性检测计算获得自身视频注意力图,通过对音频信号显著性检测计算获得自身音频注意力图包括:
Figure BDA0002874909030000099
Figure BDA00028749090300000910
其中,hv(·)和ha(·)为卷积操作,σ(·)是Sigmoid激活函数,
Figure BDA00028749090300000911
为自身视频注意力图,
Figure BDA00028749090300000912
为自身音频注意力图。
根据本发明的一些实施例,将视频引导下的音频注意力图和自身音频注意力图进行一致性运算得到音频注意力图对比损失,将音频引导下的视频注意力图和自身视频注意力图进行一致性运算得到视频注意力图对比损失包括:
Figure BDA0002874909030000101
Figure BDA0002874909030000102
根据本发明的一些实施例,将视频自适应卷积核对比损失、音频自适应卷积核对比损失、音频注意力图对比损失和视频注意力图对比损失求和,并对求和结果进行优化至最小值收敛包括:
Figure BDA0002874909030000103
其中,
Figure BDA0002874909030000104
为求和结果,将
Figure BDA0002874909030000105
优化至最小值收敛以获得发声物体的区域和目标物体发出的声音频率。
根据本发明的一些实施例,最小化
Figure BDA0002874909030000106
将会使同一视频的视觉和音频模态特征离得近,不同视频间不管是视觉-音频模态还是视觉-视觉模态特征都离得远。
根据本发明的一些实施例,在损失函数中引入了模态内负样本对
Figure BDA0002874909030000107
可以使不同视频的视觉模态特征也存在区分性,因此能提高特征判别能力。同时,
Figure BDA0002874909030000108
因为优化
Figure BDA0002874909030000109
特征离得近,因此也弥合了同一视频,不同模态之间的模态差异问题,使得上述金字塔协同滤波技术可以顺利施行。
根据本发明的一些实施例,进行跨模态对比损失计算之前还包括:将视频自适应卷积核和音频自适应卷积核通过全连接模块映射到联合潜空间,包括:
Figure BDA00028749090300001010
Figure BDA00028749090300001011
其中,Wkv和Wka为两个可学习的参数矩阵。
根据本发明的一些实施例,视频自适应卷积核包括颜色或形状,音频自适应卷积核包括声音频率或语义内容。
通过上述技术方案,比如经过200个epoch在大规模数据集Kinetics-400上的预训练,将得到训练充分的视觉特征编码器fv(·)和音频特征编码器fa(·),能够准确的关注到发声物体的区域和目标物体发出的声音频率。将学习到的fv(·)和fa(·)运用于一些小规模有标注的数据集UCF-101(行为识别),HMDB-51(行为识别),ESC50(声音分类),和DCASE2013(声音分类),本发明公开的的模型/方法分别取得了90.3%,61.1%,81.4%,和76%的最高准确率。
本发明通过将视频信号的自身注意力区域对齐到在音频信号引导下产生的目标注意力区域,将音频信号的自身注意力区域对齐到视频信号引导下产生的目标注意力区域,结合损失函数进行优化至最小值收敛,进而准确的获得发声物体的区域和目标物体发出的声音频率,改善无监督学习的效果。
至此,已经结合附图对本公开实施例进行了详细描述。需要说明的是,在附图或说明书正文中,未绘示或描述的实现方式,均为所属技术领域中普通技术人员所知的形式,并未进行详细说明。此外,上述对各零部件的定义并不仅限于实施例中提到的各种具体结构、形状或方式,本领域普通技术人员可对其进行简单地更改或替换。
还需要说明的是,在本公开的具体实施例中,除非有所知名为相反之意,本说明书及所附权利要求中的数值参数是近似值,能够根据通过本公开的内容所得的所需特性改变。具体而言,所有使用于说明书及权利要求中表示组成的尺寸、范围条件等等的数字,应理解为在所有情况中是受到“约”的用语所修饰。一般情况下,其表达的含义是指包含由特定数量在一些实施例中±10%的变化、在一些实施例中±5%的变化、在一些实施例中±1%的变化、在一些实施例中±0.5%的变化。
本领域技术人员可以理解,本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本发明中。特别地,在不脱离本发明精神和教导的情况下,本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本发明的范围。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种跨模态注意力一致性网络自监督学习方法,其特征在于,包括:
获取无标注视频编码后的视频信号和音频信号;
对所述视频信号进行自适应卷积运算得到视频自适应卷积核,对所述音频信号进行自适应据卷积运算得到音频自适应卷积核;
将所述视频自适应卷积核进行跨模态对比损失计算得到视频自适应卷积核对比损失,将音频自适应卷积核进行跨模态对比损失计算得到音频自适应卷积核对比损失;
对所述视频自适应卷积核在音频模态下进行金字塔协同滤波得到视频引导下的音频注意力图,对所述音频自适应卷积核在视频模态下进行金字塔协同滤波得到音频引导下的视频注意力图;
通过对所述视频信号显著性检测计算获得自身视频注意力图,通过对所述音频信号显著性检测计算获得自身音频注意力图;
将所述视频引导下的音频注意力图和所述自身音频注意力图进行一致性运算得到音频注意力图对比损失,将所述音频引导下的视频注意力图和所述自身视频注意力图进行一致性运算得到视频注意力图对比损失;
将所述视频自适应卷积核对比损失、所述音频自适应卷积核对比损失、所述音频注意力图对比损失和所述视频注意力图对比损失求和,并对求和结果进行优化至最小值收敛,以获得发声物体的区域和目标物体发出的声音频率。
2.根据权利要求1所述的方法,其特征在于,对所述视频信号进行自适应据卷积运算得到视频自适应卷积核,对所述音频信号进行自适应据卷积运算得到音频自适应卷积核包括:
Figure FDA0002874909020000011
Figure FDA0002874909020000012
其中,vn为第n个视频编码后的视频信号,an为第n个视频编码后的音频信号,gv(·)和ga(·)是两个转换函数,
Figure FDA0002874909020000013
为视频自适应卷积核,
Figure FDA0002874909020000014
为音频自适应卷积核。
3.根据权利要求2所述的方法,其特征在于,所述转换函数包括:
gv(vn)=Wv*vn (3)
ga(an)=Wa*an (4)
其中,Wv和Wa分别为可学习的卷积核参数,*为卷积计算。
4.根据权利要求1所述的方法,其特征在于,所述跨模态对比损失计包括引入负样本对参与计算,所述负样本对包括跨模态负样本对和模态内负样本对。
5.根据权利要求4所述的方法,其特征在于,所述将所述视频自适应卷积核进行跨模态对比损失计算得到视频自适应卷积核对比损失,将音频自适应卷积核进行跨模态对比损失计算得到音频自适应卷积核对比损失还包括:
Figure FDA0002874909020000021
Figure FDA0002874909020000022
其中,
Figure FDA0002874909020000023
为跨模态正样本对,度量同一个视频的视觉模态和音频模态特征之间的相似度,
Figure FDA0002874909020000024
为跨模态负样本对,度量第n个视频的视觉模态特征和第m个视频的音频模态特征之间的相似度,
Figure FDA0002874909020000025
为视频模态内负样本对,度量了第n个视频的视觉模态特征和第m个视频的视觉模态特征之间的相似度,
Figure FDA0002874909020000026
为音频模态内负样本对,度量了第n个视频的音频模态特征和第m个视频的音频模态特征之间的相似度。
6.根据权利要求1所述的方法,其特征在于,所述对所述视频自适应卷积核在音频模态下进行金字塔协同滤波得到视频引导下的音频注意力图,对所述音频自适应卷积核在视频模态下进行金字塔协同滤波得到音频引导下的视频注意力图,包括:
Figure FDA0002874909020000027
Figure FDA0002874909020000028
其中,
Figure FDA0002874909020000031
是音频引导下的视觉注意图,而
Figure FDA0002874909020000032
是视觉引导下的音频注意力图。(*)表示卷积运算,norm()为余弦归一化函数。
7.根据权利要求4所述的方法,其特征在于,所述通过对所述视频信号显著性检测计算获得自身视频注意力图,通过对所述音频信号显著性检测计算获得自身音频注意力图包括:
Figure FDA0002874909020000033
Figure FDA0002874909020000034
其中,hv(·)和ha(·)为卷积操作,σ(·)是Sigmoid激活函数,
Figure FDA0002874909020000035
为自身视频注意力图,
Figure FDA0002874909020000036
为自身音频注意力图。
8.根据权利要求7所述的方法,其特征在于,将所述视频引导下的音频注意力图和所述自身音频注意力图进行一致性运算得到音频注意力图对比损失,将所述音频引导下的视频注意力图和所述自身视频注意力图进行一致性运算得到视频注意力图对比损失包括:
Figure FDA0002874909020000037
Figure FDA0002874909020000038
9.根据权利要求7所述的方法,其特征在于,所述将所述视频自适应卷积核对比损失、所述音频自适应卷积核对比损失、所述音频注意力图对比损失和所述视频注意力图对比损失求和,并对求和结果进行优化至最小值收敛包括:
Figure FDA0002874909020000039
其中,
Figure FDA00028749090200000310
为求和结果,将
Figure FDA00028749090200000311
优化至最小值收敛以获得发声物体的区域和目标物体发出的声音频率。
10.根据权利要求1所述的方法,其特征在于,所述视频自适应卷积核包括颜色或形状,所述音频自适应卷积核包括声音频率或语义内容。
CN202011644929.XA 2020-12-31 2020-12-31 跨模态注意力一致性网络自监督学习方法 Active CN112820320B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011644929.XA CN112820320B (zh) 2020-12-31 2020-12-31 跨模态注意力一致性网络自监督学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011644929.XA CN112820320B (zh) 2020-12-31 2020-12-31 跨模态注意力一致性网络自监督学习方法

Publications (2)

Publication Number Publication Date
CN112820320A true CN112820320A (zh) 2021-05-18
CN112820320B CN112820320B (zh) 2023-10-20

Family

ID=75856629

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011644929.XA Active CN112820320B (zh) 2020-12-31 2020-12-31 跨模态注意力一致性网络自监督学习方法

Country Status (1)

Country Link
CN (1) CN112820320B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591655A (zh) * 2021-07-23 2021-11-02 上海明略人工智能(集团)有限公司 视频的对比损失计算方法、系统、存储介质及电子设备
CN114329036A (zh) * 2022-03-16 2022-04-12 中山大学 一种基于注意力机制的跨模态特征融合系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107979764A (zh) * 2017-12-06 2018-05-01 中国石油大学(华东) 基于语义分割和多层注意力框架的视频字幕生成方法
CN111259930A (zh) * 2020-01-09 2020-06-09 南京信息工程大学 自适应注意力指导机制的一般性目标检测方法
CN111539449A (zh) * 2020-03-23 2020-08-14 广东省智能制造研究所 一种基于二阶融合注意力网络模型的声源分离及定位方法
WO2020190112A1 (en) * 2019-03-21 2020-09-24 Samsung Electronics Co., Ltd. Method, apparatus, device and medium for generating captioning information of multimedia data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107979764A (zh) * 2017-12-06 2018-05-01 中国石油大学(华东) 基于语义分割和多层注意力框架的视频字幕生成方法
WO2020190112A1 (en) * 2019-03-21 2020-09-24 Samsung Electronics Co., Ltd. Method, apparatus, device and medium for generating captioning information of multimedia data
CN111259930A (zh) * 2020-01-09 2020-06-09 南京信息工程大学 自适应注意力指导机制的一般性目标检测方法
CN111539449A (zh) * 2020-03-23 2020-08-14 广东省智能制造研究所 一种基于二阶融合注意力网络模型的声源分离及定位方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
董猛;吴戈;曹洪玉;景文博;于洪洋;: "基于注意力残差卷积网络的视频超分辨率重构", 长春理工大学学报(自然科学版), no. 01 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591655A (zh) * 2021-07-23 2021-11-02 上海明略人工智能(集团)有限公司 视频的对比损失计算方法、系统、存储介质及电子设备
CN114329036A (zh) * 2022-03-16 2022-04-12 中山大学 一种基于注意力机制的跨模态特征融合系统

Also Published As

Publication number Publication date
CN112820320B (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
US11093734B2 (en) Method and apparatus with emotion recognition
CN113792113A (zh) 视觉语言模型获得及任务处理方法、装置、设备及介质
KR20180125905A (ko) 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치
CN116171473A (zh) 用于视听事件定位的双模态关系网络
Areeb et al. Helping hearing-impaired in emergency situations: A deep learning-based approach
CN112541529A (zh) 表情与姿态融合的双模态教学评价方法、设备及存储介质
CN112820320A (zh) 跨模态注意力一致性网络自监督学习方法
CN116564338B (zh) 语音动画生成方法、装置、电子设备和介质
CN114550057A (zh) 一种基于多模态表示学习的视频情绪识别方法
CN115223020B (zh) 图像处理方法、装置、设备、存储介质及计算机程序产品
Han et al. Underwater acoustic target recognition method based on a joint neural network
CN116975776A (zh) 一种基于张量和互信息的多模态数据融合方法和设备
Mi et al. Intention-related natural language grounding via object affordance detection and intention semantic extraction
CN114358249A (zh) 目标识别模型训练、目标识别方法及装置
Liu et al. The use of deep learning technology in dance movement generation
Hu et al. Speech Emotion Recognition Based on Attention MCNN Combined With Gender Information
Akhter et al. Diverse pose lip-reading framework
Santos et al. Using feature visualisation for explaining deep learning models in visual speech
CN115472182A (zh) 一种基于注意力特征融合的多通道自编码器的语音情感识别方法及装置
Thiruthuvanathan et al. EMONET: A Cross Database Progressive Deep Network for Facial Expression.
CN110825861A (zh) 一种基于分布式表示模型困惑度的人机对话方法与系统
Tran et al. Augmentation-Enhanced Deep Learning for Face Detection and Emotion Recognition in Elderly Care Robots
Shashidhar et al. Enhancing Visual Speech Recognition for Deaf Individuals: A Hybrid LSTM and CNN 3D Model for Improved Accuracy
Barros et al. Expectation learning for stimulus prediction across modalities improves unisensory classification
Suraj et al. Deep Learning Approach For Human Emotion-Gender-Age Recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant