CN112820320A - 跨模态注意力一致性网络自监督学习方法 - Google Patents
跨模态注意力一致性网络自监督学习方法 Download PDFInfo
- Publication number
- CN112820320A CN112820320A CN202011644929.XA CN202011644929A CN112820320A CN 112820320 A CN112820320 A CN 112820320A CN 202011644929 A CN202011644929 A CN 202011644929A CN 112820320 A CN112820320 A CN 112820320A
- Authority
- CN
- China
- Prior art keywords
- video
- audio
- attention
- convolution kernel
- self
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000003044 adaptive effect Effects 0.000 claims abstract description 63
- 238000010586 diagram Methods 0.000 claims abstract description 42
- 230000005236 sound signal Effects 0.000 claims abstract description 32
- 238000004364 calculation method Methods 0.000 claims abstract description 29
- 238000001914 filtration Methods 0.000 claims abstract description 18
- 238000001514 detection method Methods 0.000 claims abstract description 13
- 230000000007 visual effect Effects 0.000 claims description 34
- 230000006870 function Effects 0.000 claims description 15
- 238000005457 optimization Methods 0.000 claims description 6
- 238000012546 transfer Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- ONUFESLQCSAYKA-UHFFFAOYSA-N iprodione Chemical compound O=C1N(C(=O)NC(C)C)CC(=O)N1C1=CC(Cl)=CC(Cl)=C1 ONUFESLQCSAYKA-UHFFFAOYSA-N 0.000 claims description 3
- 238000012549 training Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000006399 behavior Effects 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种跨模态注意力一致性网络自监督学习方法,包括:获取视频信号和音频信号;进行自适应卷积运算得到视频自适应卷积核和音频自适应卷积核;进行跨模态对比损失计算得到视频自适应卷积核对比损失和音频自适应卷积核对比损失;在音频/视频模态下进行金字塔协同滤波得到视频引导下的音频注意力图和音频引导下的视频注意力图;通过显著性检测计算获得自身视频注意力图和自身音频注意力图;进行一致性运算得到音频注意力图对比损失和视频注意力图对比损失;将视频自适应卷积核对比损失、音频自适应卷积核对比损失、音频注意力图对比损失和视频注意力图对比损失求和,并优化至收敛,获得发声物体的区域和目标物体发出的声音频率。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种跨模态注意力一致性网络自监督学习方法。
背景技术
视觉-音频自监督技术旨在探索跨模态数据之间的内在关联来无监督的学习视觉和音频特征编码器。由于没有人工标注,最新的方法侧重于设计某种代理任务来更新网络,例如检测输入的视觉和音频信号是否来自于同一个视频。然而,在人类的认知系统中,我们的视觉系统会关注到发声的区域,而我们的听觉系统则会关注到感兴趣目标发出的声音。这样一种天然的监督信息非常重要,但往往被现有技术所忽略。
因此,目前亟待解决的技术问题是,如何利用视频信号-音频信号之间的关联性,更准确的获得发声物体的区域信息和目标物体发出的声音信息,改善无监督学习的效果。
发明内容
为了解决上述技术问题,本发明提供一种跨模态注意力一致性网络自监督学习方法,可以利用视频信号-音频信号之间的关联性,更准确的获得发声物体的区域信息和目标物体发出的声音信息,改善无监督学习的效果。具体方案如下。
一种跨模态注意力一致性网络自监督学习方法,包括:
获取无标注视频编码后的视频信号和音频信号;
对所述视频信号进行自适应卷积运算得到视频自适应卷积核,对所述音频信号进行自适应据卷积运算得到音频自适应卷积核;
将所述视频自适应卷积核进行跨模态对比损失计算得到视频自适应卷积核对比损失,将音频自适应卷积核进行跨模态对比损失计算得到音频自适应卷积核对比损失;
对所述视频自适应卷积核在音频模态下进行金字塔协同滤波得到视频引导下的音频注意力图,对所述音频自适应卷积核在视频模态下进行金字塔协同滤波得到音频引导下的视频注意力图;
通过对所述视频信号显著性检测计算获得自身视频注意力图,通过对所述音频信号显著性检测计算获得自身音频注意力图;
将所述视频引导下的音频注意力图和所述自身音频注意力图进行一致性运算得到音频注意力图对比损失,将所述音频引导下的视频注意力图和所述自身视频注意力图进行一致性运算得到视频注意力图对比损失;
将所述视频自适应卷积核对比损失、所述音频自适应卷积核对比损失、所述音频注意力图对比损失和所述视频注意力图对比损失求和,并对求和结果进行优化至最小值收敛,以获得发声物体的区域和目标物体发出的声音频率。
根据本发明的一些实施例,对所述视频信号进行自适应据卷积运算得到视频自适应卷积核,对所述音频信号进行自适应据卷积运算得到音频自适应卷积核包括:
根据本发明的一些实施例,所述转换函数包括:
gv(vn)=Wv*vn (3)
ga(an)=Wa*an (4)
其中,Wv和Wa分别为可学习的卷积核参数,*为卷积计算。
根据本发明的一些实施例,所述跨模态对比损失计包括引入负样本对参与计算,所述负样本对包括跨模态负样本对和模态内负样本对。
根据本发明的一些实施例,所述将所述视频自适应卷积核进行跨模态对比损失计算得到视频自适应卷积核对比损失,将音频自适应卷积核进行跨模态对比损失计算得到音频自适应卷积核对比损失还包括:
其中,为跨模态正样本对,度量同一个视频的视觉模态和音频模态特征之间的相似度,为跨模态负样本对,度量第n个视频的视觉模态特征和第m个视频的音频模态特征之间的相似度,为视频模态内负样本对,度量了第n个视频的视觉模态特征和第m个视频的视觉模态特征之间的相似度,为音频模态内负样本对,度量了第n个视频的音频模态特征和第m个视频的音频模态特征之间的相似度。
根据本发明的一些实施例,所述对所述视频自适应卷积核在音频模态下进行金字塔协同滤波得到视频引导下的音频注意力图,对所述音频自适应卷积核在视频模态下进行金字塔协同滤波得到音频引导下的视频注意力图,包括:
根据本发明的一些实施例,所述通过对所述视频信号显著性检测计算获得自身视频注意力图,通过对所述音频信号显著性检测计算获得自身音频注意力图包括:
根据本发明的一些实施例,将所述视频引导下的音频注意力图和所述自身音频注意力图进行一致性运算得到音频注意力图对比损失,将所述音频引导下的视频注意力图和所述自身视频注意力图进行一致性运算得到视频注意力图对比损失包括:
根据本发明的一些实施例,所述将所述视频自适应卷积核对比损失、所述音频自适应卷积核对比损失、所述音频注意力图对比损失和所述视频注意力图对比损失求和,并对求和结果进行优化至最小值收敛包括:
根据本发明的一些实施例,所述视频自适应卷积核包括颜色或形状,所述音频自适应卷积核包括声音频率或语义内容。
本发明通过将视频信号的自身注意力区域对齐到在音频信号引导下产生的目标注意力区域,将音频信号的自身注意力区域对齐到视频信号引导下产生的目标注意力区域,结合损失函数进行优化至最小值收敛,进而准确的获得发声物体的区域和目标物体发出的声音频率,改善无监督学习的效果。
附图说明
图1示意性示出了本公开实施例的跨模态注意力一致性网络自监督学习方法的原理概念示意图;
图2示意性示出了本公开实施例的跨模态注意力一致性网络自监督学习方法的原理示意图;
图3示意性示出了本公开实施例的跨模态注意力一致性网络自监督学习方法的金字塔相关滤波技术示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
但是应该理解,这些描述只是示例性的,而并非要限制本发明的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本发明实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知技术的描述,以避免不必要地混淆本发明的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本发明。在此使用的术语“包括”表明了特征、步骤、操作的存在,但是并不排除存在或添加一个或多个其他特征。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释,例如,跨模态注意力一致性(CMAC),用于探索视觉和听觉信号之间的双向局部对应特性。
为了解决上述技术问题,本发明提供一种跨模态注意力一致性网络自监督学习方法,可以利用视频信号-音频信号之间的关联性,更准确的获得发声物体的区域信息和目标物体发出的声音信息,改善无监督学习的效果。
在以下基准数据集上验证本发明公开的的方法。Kinetics-400,该数据集包含约10秒的240K视频,过滤掉不良实例后,例如没有音频信号,约有220K视频用于预训练;UCF-101,包含101种现实行为类别的动作识别数据集,共含13320个视频;HMDB-51,该数据集包含51类动作,共6849个视频,每个动作至少包含51个分辨率为320*240的视频;ESC50,该数据集包含2000个音频片段,共50个不同的类别;DCASE2013,该数据集包含200个音频片段,共10个不同类别。
以Kinetics-400为例,在Kinetics-400数据集上进行预训练。Kinetics-400是一个大规模的视频数据集,预训练指的是不使用人工标注,仅仅使用视频数据训练模型的参数。预训练结束后,将预训练的模型参数,在一些小规模、有标注数据集上进行微调,将大规模数据集上学习到的知识迁移到小数据集上。
根据本发明公开的跨模态注意力一致性网络自监督学习方法,获取一组无标注视频{xn},例如Kinetics-400中的所有视频数据。其中每个xn都由视觉RGB帧和音轨信号组成。跨模态无监督学习在一个大规模无标注数据集上,例如Kinectis-400,同时学习两种模态的特征编码fv(·)和fa(·),使它们可以很好地转移到小规模有标注下游任务上,例如UCF1010或者HMDB51。形式上,将(vn,an)定义为第n个视频编码后的视觉和音频信号。本发明利用v和a之间的双向局部对应关系,用于监督学习视觉编码器fv(·)和音频编码器fa(·)。
图1示意性示出了本公开实施例的跨模态注意力一致性网络自监督学习方法的原理概念示意图。
根据本发明的一些实施例,如图1所示,本发明公开的一种跨模态注意力一致性网络自监督学习方法,其原理为视觉编码器关注发出声音的区域,音频编码器关注感兴趣对象的声音频率,将视觉编码器自身的注意力区域对齐到在声学信号引导下产生的目标注意力区域,并在声学频率上进行类似的对齐,通过注意一致性来考虑时空视觉线索与音频频谱图信号之间的双向局部一致性,实现视觉和听觉信号之间的双向局部对应特性的自监督。
图2示意性示出了本公开实施例的跨模态注意力一致性网络自监督学习方法的原理示意图。
根据本发明的一些实施例,如图2所示,本发明公开一种跨模态注意力一致性网络自监督学习方法,包括如下步骤。
获取无标注视频编码后的视频信号和音频信号;
对视频信号进行自适应卷积运算得到视频自适应卷积核,对音频信号进行自适应据卷积运算得到音频自适应卷积核;
将视频自适应卷积核进行跨模态对比损失计算得到视频自适应卷积核对比损失,将音频自适应卷积核进行跨模态对比损失计算得到音频自适应卷积核对比损失;
对视频自适应卷积核在音频模态下进行金字塔协同滤波得到视频引导下的音频注意力图,对音频自适应卷积核在视频模态下进行金字塔协同滤波得到音频引导下的视频注意力图;
通过对视频信号显著性检测计算获得自身视频注意力图,通过对音频信号显著性检测计算获得自身音频注意力图;
将视频引导下的音频注意力图和自身音频注意力图进行一致性运算得到音频注意力图对比损失,将音频引导下的视频注意力图和自身视频注意力图进行一致性运算得到视频注意力图对比损失;
将视频自适应卷积核对比损失、音频自适应卷积核对比损失、音频注意力图对比损失和视频注意力图对比损失求和,并对求和结果进行优化至最小值收敛,以获得发声物体的区域和目标物体发出的声音频率。
根据本发明的一些实施例,可以建立数据集,数据集包括无标注视频编码后的视频信号和音频信号,可用于训练和测试。
根据本发明的一些实施例,本发明采用金字塔协同滤波的核心目的为根据视频/音频模态数据生成的卷积核来匹配当前模态数据中最匹配的特性或内容,也即利用视频信号-音频信号之间的关联性来匹配当前模态数据中最匹配的特性或内容。
根据本发明的一些实施例,对视频信号进行自适应据卷积运算得到视频自适应卷积核,对音频信号进行自适应据卷积运算得到音频自适应卷积核包括:
根据本发明的一些实施例,转换函数包括:
gv(vn)=Wv*vn (3)
ga(an)=Wa*an (4)
其中,Wv和Wa分别为可学习的卷积核参数,*为卷积计算。
根据本发明的一些实施例,跨模态对比损失计包括引入负样本对参与计算,负样本对包括跨模态负样本对和模态内负样本对。
根据本发明的一些实施例,将视频自适应卷积核进行跨模态对比损失计算得到视频自适应卷积核对比损失,将音频自适应卷积核进行跨模态对比损失计算得到音频自适应卷积核对比损失还包括:
其中,为跨模态正样本对,度量同一个视频的视觉模态和音频模态特征之间的相似度,为跨模态负样本对,度量第n个视频的视觉模态特征和第m个视频的音频模态特征之间的相似度,为视频模态内负样本对,度量了第n个视频的视觉模态特征和第m个视频的视觉模态特征之间的相似度,为音频模态内负样本对,度量了第n个视频的音频模态特征和第m个视频的音频模态特征之间的相似度。
根据本发明的一些实施例,对视频自适应卷积核在音频模态下进行金字塔协同滤波得到视频引导下的音频注意力图,对音频自适应卷积核在视频模态下进行金字塔协同滤波得到音频引导下的视频注意力图,包括:
图3示意性示出了本公开实施例的跨模态注意力一致性网络自监督学习方法的金字塔相关滤波技术示意图。
根据本发明的一些实施例,如图3所示,可以进行多次下采样,获得不同尺度下的注意力图,将不同尺度下的注意力图进行融合,生成最终的注意力图:
根据本发明的一些实施例,通过对视频信号显著性检测计算获得自身视频注意力图,通过对音频信号显著性检测计算获得自身音频注意力图包括:
根据本发明的一些实施例,将视频引导下的音频注意力图和自身音频注意力图进行一致性运算得到音频注意力图对比损失,将音频引导下的视频注意力图和自身视频注意力图进行一致性运算得到视频注意力图对比损失包括:
根据本发明的一些实施例,将视频自适应卷积核对比损失、音频自适应卷积核对比损失、音频注意力图对比损失和视频注意力图对比损失求和,并对求和结果进行优化至最小值收敛包括:
根据本发明的一些实施例,在损失函数中引入了模态内负样本对可以使不同视频的视觉模态特征也存在区分性,因此能提高特征判别能力。同时,因为优化特征离得近,因此也弥合了同一视频,不同模态之间的模态差异问题,使得上述金字塔协同滤波技术可以顺利施行。
根据本发明的一些实施例,进行跨模态对比损失计算之前还包括:将视频自适应卷积核和音频自适应卷积核通过全连接模块映射到联合潜空间,包括:
其中,Wkv和Wka为两个可学习的参数矩阵。
根据本发明的一些实施例,视频自适应卷积核包括颜色或形状,音频自适应卷积核包括声音频率或语义内容。
通过上述技术方案,比如经过200个epoch在大规模数据集Kinetics-400上的预训练,将得到训练充分的视觉特征编码器fv(·)和音频特征编码器fa(·),能够准确的关注到发声物体的区域和目标物体发出的声音频率。将学习到的fv(·)和fa(·)运用于一些小规模有标注的数据集UCF-101(行为识别),HMDB-51(行为识别),ESC50(声音分类),和DCASE2013(声音分类),本发明公开的的模型/方法分别取得了90.3%,61.1%,81.4%,和76%的最高准确率。
本发明通过将视频信号的自身注意力区域对齐到在音频信号引导下产生的目标注意力区域,将音频信号的自身注意力区域对齐到视频信号引导下产生的目标注意力区域,结合损失函数进行优化至最小值收敛,进而准确的获得发声物体的区域和目标物体发出的声音频率,改善无监督学习的效果。
至此,已经结合附图对本公开实施例进行了详细描述。需要说明的是,在附图或说明书正文中,未绘示或描述的实现方式,均为所属技术领域中普通技术人员所知的形式,并未进行详细说明。此外,上述对各零部件的定义并不仅限于实施例中提到的各种具体结构、形状或方式,本领域普通技术人员可对其进行简单地更改或替换。
还需要说明的是,在本公开的具体实施例中,除非有所知名为相反之意,本说明书及所附权利要求中的数值参数是近似值,能够根据通过本公开的内容所得的所需特性改变。具体而言,所有使用于说明书及权利要求中表示组成的尺寸、范围条件等等的数字,应理解为在所有情况中是受到“约”的用语所修饰。一般情况下,其表达的含义是指包含由特定数量在一些实施例中±10%的变化、在一些实施例中±5%的变化、在一些实施例中±1%的变化、在一些实施例中±0.5%的变化。
本领域技术人员可以理解,本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本发明中。特别地,在不脱离本发明精神和教导的情况下,本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本发明的范围。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种跨模态注意力一致性网络自监督学习方法,其特征在于,包括:
获取无标注视频编码后的视频信号和音频信号;
对所述视频信号进行自适应卷积运算得到视频自适应卷积核,对所述音频信号进行自适应据卷积运算得到音频自适应卷积核;
将所述视频自适应卷积核进行跨模态对比损失计算得到视频自适应卷积核对比损失,将音频自适应卷积核进行跨模态对比损失计算得到音频自适应卷积核对比损失;
对所述视频自适应卷积核在音频模态下进行金字塔协同滤波得到视频引导下的音频注意力图,对所述音频自适应卷积核在视频模态下进行金字塔协同滤波得到音频引导下的视频注意力图;
通过对所述视频信号显著性检测计算获得自身视频注意力图,通过对所述音频信号显著性检测计算获得自身音频注意力图;
将所述视频引导下的音频注意力图和所述自身音频注意力图进行一致性运算得到音频注意力图对比损失,将所述音频引导下的视频注意力图和所述自身视频注意力图进行一致性运算得到视频注意力图对比损失;
将所述视频自适应卷积核对比损失、所述音频自适应卷积核对比损失、所述音频注意力图对比损失和所述视频注意力图对比损失求和,并对求和结果进行优化至最小值收敛,以获得发声物体的区域和目标物体发出的声音频率。
3.根据权利要求2所述的方法,其特征在于,所述转换函数包括:
gv(vn)=Wv*vn (3)
ga(an)=Wa*an (4)
其中,Wv和Wa分别为可学习的卷积核参数,*为卷积计算。
4.根据权利要求1所述的方法,其特征在于,所述跨模态对比损失计包括引入负样本对参与计算,所述负样本对包括跨模态负样本对和模态内负样本对。
10.根据权利要求1所述的方法,其特征在于,所述视频自适应卷积核包括颜色或形状,所述音频自适应卷积核包括声音频率或语义内容。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011644929.XA CN112820320B (zh) | 2020-12-31 | 2020-12-31 | 跨模态注意力一致性网络自监督学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011644929.XA CN112820320B (zh) | 2020-12-31 | 2020-12-31 | 跨模态注意力一致性网络自监督学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112820320A true CN112820320A (zh) | 2021-05-18 |
CN112820320B CN112820320B (zh) | 2023-10-20 |
Family
ID=75856629
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011644929.XA Active CN112820320B (zh) | 2020-12-31 | 2020-12-31 | 跨模态注意力一致性网络自监督学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112820320B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113591655A (zh) * | 2021-07-23 | 2021-11-02 | 上海明略人工智能(集团)有限公司 | 视频的对比损失计算方法、系统、存储介质及电子设备 |
CN114329036A (zh) * | 2022-03-16 | 2022-04-12 | 中山大学 | 一种基于注意力机制的跨模态特征融合系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107979764A (zh) * | 2017-12-06 | 2018-05-01 | 中国石油大学(华东) | 基于语义分割和多层注意力框架的视频字幕生成方法 |
CN111259930A (zh) * | 2020-01-09 | 2020-06-09 | 南京信息工程大学 | 自适应注意力指导机制的一般性目标检测方法 |
CN111539449A (zh) * | 2020-03-23 | 2020-08-14 | 广东省智能制造研究所 | 一种基于二阶融合注意力网络模型的声源分离及定位方法 |
WO2020190112A1 (en) * | 2019-03-21 | 2020-09-24 | Samsung Electronics Co., Ltd. | Method, apparatus, device and medium for generating captioning information of multimedia data |
-
2020
- 2020-12-31 CN CN202011644929.XA patent/CN112820320B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107979764A (zh) * | 2017-12-06 | 2018-05-01 | 中国石油大学(华东) | 基于语义分割和多层注意力框架的视频字幕生成方法 |
WO2020190112A1 (en) * | 2019-03-21 | 2020-09-24 | Samsung Electronics Co., Ltd. | Method, apparatus, device and medium for generating captioning information of multimedia data |
CN111259930A (zh) * | 2020-01-09 | 2020-06-09 | 南京信息工程大学 | 自适应注意力指导机制的一般性目标检测方法 |
CN111539449A (zh) * | 2020-03-23 | 2020-08-14 | 广东省智能制造研究所 | 一种基于二阶融合注意力网络模型的声源分离及定位方法 |
Non-Patent Citations (1)
Title |
---|
董猛;吴戈;曹洪玉;景文博;于洪洋;: "基于注意力残差卷积网络的视频超分辨率重构", 长春理工大学学报(自然科学版), no. 01 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113591655A (zh) * | 2021-07-23 | 2021-11-02 | 上海明略人工智能(集团)有限公司 | 视频的对比损失计算方法、系统、存储介质及电子设备 |
CN114329036A (zh) * | 2022-03-16 | 2022-04-12 | 中山大学 | 一种基于注意力机制的跨模态特征融合系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112820320B (zh) | 2023-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11093734B2 (en) | Method and apparatus with emotion recognition | |
CN113792113A (zh) | 视觉语言模型获得及任务处理方法、装置、设备及介质 | |
KR20180125905A (ko) | 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치 | |
CN116171473A (zh) | 用于视听事件定位的双模态关系网络 | |
Areeb et al. | Helping hearing-impaired in emergency situations: A deep learning-based approach | |
CN112541529A (zh) | 表情与姿态融合的双模态教学评价方法、设备及存储介质 | |
CN112820320A (zh) | 跨模态注意力一致性网络自监督学习方法 | |
CN116564338B (zh) | 语音动画生成方法、装置、电子设备和介质 | |
CN114550057A (zh) | 一种基于多模态表示学习的视频情绪识别方法 | |
CN115223020B (zh) | 图像处理方法、装置、设备、存储介质及计算机程序产品 | |
Han et al. | Underwater acoustic target recognition method based on a joint neural network | |
CN116975776A (zh) | 一种基于张量和互信息的多模态数据融合方法和设备 | |
Mi et al. | Intention-related natural language grounding via object affordance detection and intention semantic extraction | |
CN114358249A (zh) | 目标识别模型训练、目标识别方法及装置 | |
Liu et al. | The use of deep learning technology in dance movement generation | |
Hu et al. | Speech Emotion Recognition Based on Attention MCNN Combined With Gender Information | |
Akhter et al. | Diverse pose lip-reading framework | |
Santos et al. | Using feature visualisation for explaining deep learning models in visual speech | |
CN115472182A (zh) | 一种基于注意力特征融合的多通道自编码器的语音情感识别方法及装置 | |
Thiruthuvanathan et al. | EMONET: A Cross Database Progressive Deep Network for Facial Expression. | |
CN110825861A (zh) | 一种基于分布式表示模型困惑度的人机对话方法与系统 | |
Tran et al. | Augmentation-Enhanced Deep Learning for Face Detection and Emotion Recognition in Elderly Care Robots | |
Shashidhar et al. | Enhancing Visual Speech Recognition for Deaf Individuals: A Hybrid LSTM and CNN 3D Model for Improved Accuracy | |
Barros et al. | Expectation learning for stimulus prediction across modalities improves unisensory classification | |
Suraj et al. | Deep Learning Approach For Human Emotion-Gender-Age Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |