CN112989977B - 一种基于跨模态注意力机制的视听事件定位方法及装置 - Google Patents

一种基于跨模态注意力机制的视听事件定位方法及装置 Download PDF

Info

Publication number
CN112989977B
CN112989977B CN202110235810.5A CN202110235810A CN112989977B CN 112989977 B CN112989977 B CN 112989977B CN 202110235810 A CN202110235810 A CN 202110235810A CN 112989977 B CN112989977 B CN 112989977B
Authority
CN
China
Prior art keywords
features
cross
audio
attention mechanism
modal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110235810.5A
Other languages
English (en)
Other versions
CN112989977A (zh
Inventor
于家硕
程颖
冯瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN202110235810.5A priority Critical patent/CN112989977B/zh
Publication of CN112989977A publication Critical patent/CN112989977A/zh
Application granted granted Critical
Publication of CN112989977B publication Critical patent/CN112989977B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/44Event detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Image Analysis (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明提供了一种基于跨模态注意力机制的视听事件定位方法及装置,用于对目标音视频中的事件进行识别与定位,其特征在于,包括如下步骤:对目标音视频进行预处理得到图像特征以及音频特征;基于图像特征以及音频特征利用预先训练好的基于跨模态注意力机制的神经网络模型进行识别与定位,从而得出目标音视频中每一个时刻的事件类别。其中,神经网络模型包括跨模态注意力机制模块、单模态自注意力机制模块、循环神经网络模块以及分类模块。跨模态注意力机制模块用于获取视频模态与音频模态间的信息,并使用一个模态的信息处理另一模态的信息,实现模态间的信息交互。单模态自注意力机制模块以及循环神经网络模块用于捕捉模态内的长距离依赖关系。

Description

一种基于跨模态注意力机制的视听事件定位方法及装置
技术领域
本发明属于数据识别领域,具体涉及一种基于跨模态注意力机制的视听事件定位方法及装置。
背景技术
在当前机器学习技术及计算机硬件性能高速提升的情况下,近年来计算机视觉、自然语言处理和语音检测等应用领域取得了突破性进展。而着眼于研究不同模态之间关系的跨模态任务也随之出现,并得到了广泛的研究。
其中,模态是指数据的存在形式,比如文本、音频、图像、视频等不同的文件格式为不同模态。有些数据的存在形式不同,但都是描述同一事物或事件。而在信息检索的需求往往不只是同一事件单一模态的数据,也可能需要其他模态的数据来增强对同一事物或事件的认知,此时就需要跨模态算法来研究不同模态数据之间的联系。跨模态任务能够通过对不同模态之间数据的关联和联系进行研究,从而得到超出两种模态数据本身的信息。
事件/动作识别和定位任务拥有广阔的应用范围,比如对于一段给定的视频,算法可以自动识别出视频中每一秒钟的事件类别,也能对视频中某一事件的起始时间进行定位。同时,该算法也可以应用到实时视频的检测中,比如在视频监控领域中,算法可以实时识别出所监控的场景下发生的事件类别,如检测到异常事件可以第一时间进行报告。事件/动作识别和定位一直被看成一个单模态问题,不管是动作识别,还是时序动作定位,都有多种计算机视觉领域的算法对其进行处理,并取得了比较不错的结果。然而正如之前,如果将视频中的音频信息也考虑进来,把视频中的视觉模态的信息和听觉模态的信息同时结合起来,就能进一步提高识别与定位准确率。
虽然,在当下也存在少数使用多模态信息进行事件/动作识别任务的算法。但是,现有的视听事件定位算法,一般采取注意力机制和传统循环神经网络结合的方式。在这些算法中,注意力机制一般使用的是软注意力机制,而该软注意力机制的效果相对较差。而自注意力机制的效果虽然优秀,但是该自注意力机制无法直接应用到跨模态任务上。
发明内容
为解决上述问题,提供了一种将自注意力机制应用到跨模态任务上的视听事件定位方法及装置,本发明采用了如下技术方案:
本发明提供了一种基于跨模态注意力机制的视听事件定位方法,用于对目标音视频中的事件进行识别与定位,其特征在于,包括如下步骤:步骤S1-1,利用预定的预处理方法对目标音视频进行预处理得到图像特征以及音频特征;步骤S1-2,基于图像特征以及音频特征利用预先训练好的基于跨模态注意力机制的神经网络模型进行识别与定位,从而得出目标音视频中每一个时刻的事件类别,其中,神经网络模型包括跨模态注意力机制模块、单模态自注意力机制模块、循环神经网络模块以及分类模块,跨模态注意力机制模块利用多头注意力机制针对图像特征融合音频特征得到视觉双模态特征,并通过残差结构将视觉双模态特征与图像特征相加得到视觉跨模态特征,跨模态注意力机制模块利用多头注意力机制针对音频特征融合图像特征得到听觉双模态特征,并通过残差结构将听觉双模态特征与音频特征相加得到听觉跨模态特征,单模态自注意力机制模块分别对视觉跨模态特征以及听觉跨模态特征进行单模态片段间关系捕捉,得到对应的视觉自注意力特征以及听觉自注意力特征,循环神经网络模块分别对视觉自注意力特征以及听觉自注意力特征进行长距离依赖关系捕捉,得到对应的视觉特征以及听觉特征,分类模块包括全连接层以及Softmax函数,该分类模块基于视觉特征以及听觉特征进行分类,从而得出目标音视频中每一个时刻的事件类别。
根据本发明提供的一种基于跨模态注意力机制的视听事件定位方法,还可以具有这样的技术特征,其中,在单模态自注意力机制模块分别对视觉跨模态特征以及听觉跨模态特征进行单模态片段间关系捕捉处理前,利用层归一化操作分别对视觉跨模态特征以及听觉跨模态特征进行归一化处理。
根据本发明提供的一种基于跨模态注意力机制的视听事件定位方法,还可以具有这样的技术特征,其中,预处理方法包括如下步骤:步骤S2-1,分别对目标音视频中的视频以及音频进行处理,得到对应的图像序列以及音频序列;步骤S2-2,利用预先训练好的图像特征提取模型从图像序列中提取到图像特征,利用预先训练好的音频特征提取模型从音频序列中提取得到音频特征,步骤S2-1包括如下子步骤:步骤S2-1-1,将视频按照预定的时间间隔分割,得到多个视频片段,从每个视频片段中抽取预定数量的图像帧,从而构成图像序列,步骤S2-1-2,利用梅尔频谱处理音频,从而得到音频序列。
根据本发明提供的一种基于跨模态注意力机制的视听事件定位方法,还可以具有这样的技术特征,其中,图像特征提取模型为VGG-19模型,音频特征提取模型为VGGish模型。
根据本发明提供的一种基于跨模态注意力机制的视听事件定位方法,还可以具有这样的技术特征,其中,循环神经网络模块为LSTM模块。
本发明提供了基于跨模态注意力机制的视听事件定位装置,用于对目标音视频中的事件进行识别与定位,其特征在于,包括如下步骤:预处理部,利用预定的预处理方法对目标音视频进行预处理得到图像特征以及音频特征;识别定位部,基于图像特征以及音频特征利用预先训练好的基于跨模态注意力机制的神经网络模型进行识别与定位,从而得出目标音视频中每一个时刻的事件类别,其中,神经网络模型包括跨模态注意力机制模块、单模态自注意力机制模块、循环神经网络模块以及分类模块,跨模态注意力机制模块利用多头注意力机制针对图像特征融合音频特征得到视觉双模态特征,并通过残差结构将视觉双模态特征与图像特征相加得到视觉跨模态特征,跨模态注意力机制模块利用多头注意力机制针对音频特征融合图像特征得到听觉双模态特征,并通过残差结构将听觉双模态特征与音频特征相加得到听觉跨模态特征,单模态自注意力机制模块分别对视觉跨模态特征以及听觉跨模态特征进行单模态片段间关系捕捉,得到对应的视觉自注意力特征以及听觉自注意力特征,循环神经网络模块分别对视觉自注意力特征以及听觉自注意力特征进行长距离依赖关系捕捉,得到对应的视觉特征以及听觉特征,分类模块包括全连接层以及Softmax函数,该分类模块基于视觉特征以及听觉特征进行分类,从而得出目标音视频中每一个时刻的事件类别。
发明作用与效果
根据本发明的一种基于跨模态注意力机制的视听事件定位方法及装置,由于跨模态注意力机制模块通过多头注意力机制进行视频模态以及音频模态的信息融合从而得到视觉双模态特征以及听觉双模态特征,因此可以捕捉同一时刻两个模态特征信息间的联系,从而生成更具有表现力的表示,从而很好地整合和处理两个模态的信息。
另外,由于通过单模态自注意力机制模块以及循环神经网络模块进行处理,因此能够更加有效地捕捉到特征序列的长距离依赖关系,使得目标音视频序列中每一时间步的特征信息都能有效的作用于任一时间步的特征获取中,从而提高视听事件定位任务的准确率。
除此之外,由于神经网络模型包括跨模态注意力机制模块、单模态自注意力机制模块、循环神经网络模块以及分类模块,因此,整体结构简单,没有大量的重复模块的堆积,也没有结构复杂的子模块,同时整个网络的设计模块化,模型构建快速方便,训练过程所消耗的计算量小,从而能够应用的移动设备中。
附图说明
图1为本发明实施例的一种基于跨模态注意力机制的视听事件定位方法的流程图;
图2为本发明实施例的神经网络模型的结构示意图;
图3为本发明实施例的跨模态注意力机制模块工作过程的流程示意图;以及
图4为本发明实施例的视听事件定位方法实验对比图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下结合实施例及附图对本发明的一种基于跨模态注意力机制的视听事件定位方法及装置作具体阐述。
<实施例>
本实施例中一种基于跨模态注意力机制的视听事件定位方法及装置在一张NVIDIA GTX 1080Ti显卡的辅助下实现相应训练与预测功能。
图1为本发明实施例的一种基于跨模态注意力机制的视听事件定位方法的流程图。
如图1所示,一种基于跨模态注意力机制的视听事件定位方法包括如下步骤:
步骤S1-1,利用预定的预处理方法对目标音视频进行预处理得到图像特征以及音频特征。
其中,预处理方法包括如下步骤:
步骤S2-1,分别对目标音视频中的视频以及音频进行处理,得到对应的图像序列以及音频序列。
步骤S2-2,利用预先训练好的图像特征提取模型从图像序列中提取到图像特征,利用预先训练好的音频特征提取模型从音频序列中提取得到音频特征。
步骤S2-1包括如下子步骤:
步骤S2-1-1,将视频按照预定的时间间隔分割,得到多个视频片段,从每个视频片段中抽取预定数量的图像帧,从而构成图像序列。
本实施例中,将视频按照1s的时间间隔分割,得到多个视频片段,从每个视频片段中抽取16帧的图像帧,从而构成图像序列。
另外,步骤S2-1-1中还包括对抽取到的图像帧进行大小归一化处理。
步骤S2-1-2,利用梅尔频谱处理音频,从而得到音频序列。
其中,图像特征提取模型为VGG-19模型,音频特征提取模型为VGGish模型。
本实施例中,VGG-19模型为基于ImageNet数据集预训练得到,VGGish模型为基于AudioSet数据集预训练得到。
步骤S1-2,基于图像特征以及音频特征利用预先训练好的基于跨模态注意力机制的神经网络模型进行识别与定位,从而得出目标音视频中每一个时刻的事件类别。
图2为本发明实施例的神经网络模型的结构示意图。
如图2所示,神经网络模型包括输入层、跨模态注意力机制模块、单模态自注意力机制模块、循环神经网络模块以及分类模块。
输入层用于将图像特征以及音频特征对应的维度调节为相同维度。
本实施例中,步骤S1-1输出的图像特征大小为64×10×7×7×512以及音频特征大小为64×10×128。输入层通过输入维度为128,输出维度为512的全连接层FC1对音频特征进行处理,使用输入维度为512,输出维度为512的全连接层FC2、输入维度为49,输出维度为1的全连接层FC3对图像特征进行处理。最后,将音频特征和图像特征统一处理为64×10×512的维度。
跨模态注意力机制模块由自注意力机制修改而来,仍然包括了自注意力机制的Q,K,V矩阵,用于获取模态间的信息,并使用一个模态的信息处理另一模态的信息,实现模态间的信息交互。
单模态自注意力机制模块和循环神经网络模块用于捕捉单模态内的长距离依赖关系。
分类模块包括全连接层以及Softmax函数,用于分类。
图3为本发明实施例的跨模态注意力机制模块工作过程的流程示意图。
如图3所示,跨模态注意力机制模块利用多头注意力机制针对图像特征融合音频特征得到视觉双模态特征,并通过残差结构将视觉双模态特征与图像特征相加得到视觉跨模态特征。
跨模态注意力机制模块利用多头注意力机制针对音频特征融合图像特征得到听觉双模态特征,并通过残差结构将听觉双模态特征与音频特征相加得到听觉跨模态特征。
本实施例中,跨模态注意力机制模块包括了三个尺寸为512×512自注意力机制的Q,K,V矩阵。
输入跨模态注意力机制模块的图像特征以及音频特征先使用QKV矩阵进行放缩点积注意力(Scaled Dot-Product Attention)操作,经过Softmax和dropout函数处理后,得到注意力值。其中,通过多头注意力机制将注意力分为多个头(head),而每一个头中采用不同的权重,将最后的结果链接在一起。
本实施例中,头的数量设为8,并且将每个头的结果计算完毕后,使用一个512×512的全连接层进行结果集成,从而得到对应的视觉双模态特征以及听觉双模态特征。由于使用的是跨模态注意力机制,因此在每一个模态中,Q矩阵来自原模态,而KV则来自于另一模态,即视频模态中融合了音频信息,音频模态中融合了视频信息。
另外,在单模态自注意力机制模块分别对视觉跨模态特征以及听觉跨模态特征进行单模态片段间关系捕捉处理前,利用层归一化操作分别对视觉跨模态特征以及听觉跨模态特征进行归一化处理。
单模态自注意力机制模块分别对视觉跨模态特征以及听觉跨模态特征进行单模态片段间关系捕捉,得到对应的视觉自注意力特征以及听觉自注意力特征。
其中,单模态自注意力机制模块的QKV矩阵全部来自于当前模态,该单模态自注意力机制能够捕捉单模态内的长距离依赖性,从而整合整个目标音视频的信息。
循环神经网络模块分别对视觉自注意力特征以及听觉自注意力特征进行长距离依赖关系捕捉,得到对应的视觉特征以及听觉特征。
其中,循环神经网络模块为LSTM模块。
本实施例中,LSTM模块中隐藏层数量为2,batch_size为64,隐藏层维度为128,并采用双向模式,即Bi-LSTM,因此能够更好的处理全局数据。
分类模块基于视觉特征以及听觉特征进行分类,从而得出目标音视频中每一个时刻的事件类别。
本实施例中,分类模块中两个全连接层FC4和FC5相堆叠,维度分别为512×64和64×29。通过全连接层FC4和FC5处理后,使用Softmax完成分类,从而生成目标音视频中的每一个时刻属于每种事件类别的概率,概率最高的事件类别即为该时刻最为可能的事件类别。
其中,基于跨模态注意力机制的神经网络模型训练过程包括如下步骤:
步骤S3-1,获取视听事件定位任务相关的视音频,并进行预处理得到训练集。
其中,预处理过程与步骤S1-1中的预处理过程相同。
本实施例中,用来获取训练集的视音频为AVE Dataset。AVE Dataset是AudioSet数据集的一个子集,共含有28个类别的4143个视频,每一个视频含有至少2s长的视听事件。整个数据集含有多个领域的多个事件,能够评价相关模型在各个领域事件的识别表现。每个类别中最少含有60个视频,最多的类别有188个视频。
从AVE Dataset的28个类别的4143个视频中,选择80%进行预处理得到训练集,剩下的20%中一半作为测试集,一半作为验证集。
步骤S3-2,构建基于跨模态注意力机制的神经网络模型作为初始网络模型,并且进行随机初始化。
本实施例中,利用现有的深度学习框架PyTorch,搭建基于跨模态注意力机制的神经网络模型。
步骤S3-3,将训练集中的图像输入初始网络模型进行正向传播,利用该初始网络模型的最后一层模型参数计算出损失误差。
本实例中,使用Multi Label Soft Margin Loss损失函数计算得到损失误差。
步骤S3-4,将损失误差反向传播,从而更新初始网络模型的所有参数。
步骤S3-5,重复步骤S3-3至步骤S3-4直到达到训练完成条件,得到训练好的基于跨模态注意力机制的神经网络模型。
本实施例中,神经网络模型训练时,批次大小为64,迭代次数为300次,学习率设置为0.001,使用Adam优化方法进行优化,每经过15000次反向传播,学习率就会除以10,从而使算法更为细致和准确的进行学习。
本实施例的基于跨模态注意力机制的视听事件定位装置包括预处理部以及识别定位部。本实施例中,基于跨模态注意力机制的视听事件定位装置是基于本发明的基于跨模态注意力机制的视听事件定位装置方法得到的,用于对目标音视频中的事件进行识别与定位,并可应用于嵌入式设备。
预处理部利用预定的预处理方法对目标音视频进行预处理得到图像特征以及音频特征。
识别定位部基于图像特征以及音频特征利用预先训练好的基于跨模态注意力机制的神经网络模型进行识别与定位,从而得出目标音视频中每一个时刻的事件类别。
图4为本发明实施例的视听事件定位方法实验对比图。
为了验证本发明实施例的基于跨模态注意力机制的视听事件定位方法及装置的效果,与现有的定位方法AVEL、AVSDN以及AVIN在AVE测试集上进行定位准确率的实验对比(如图4所示)。
由图4可知,本发明的基于跨模态注意力机制的视听事件定位方法的定位准确率为76.5%,均高于现有的定位方法,从而证明本发明的视听事件定位方法有效。
实施例作用与效果
根据本实施例提供的基于跨模态注意力机制的视听事件定位方法及装置,由于跨模态注意力机制模块通过多头注意力机制进行视频模态以及音频模态的信息融合从而得到视觉双模态特征以及听觉双模态特征,因此可以捕捉同一时刻两个模态特征信息间的联系,从而生成更具有表现力的表示,从而很好地整合和处理两个模态的信息。
另外,由于通过单模态自注意力机制模块以及循环神经网络模块进行处理,因此能够更加有效地捕捉到特征序列的长距离依赖关系,使得目标音视频序列中每一时间步的特征信息都能有效的作用于任一时间步的特征获取中,从而提高视听事件定位任务的准确率。
除此之外,由于神经网络模型包括跨模态注意力机制模块、单模态自注意力机制模块、循环神经网络模块以及分类模块,因此,整体结构简单,没有大量的重复模块的堆积,也没有结构复杂的子模块,同时整个网络的设计模块化,模型构建快速方便,训练过程所消耗的计算量小,从而能够应用的移动设备中。
实施例中,由于跨模态注意力机制模块在每一个卷积层后进行层归一化操作,相较于传统的批量归一化操作而言,经过层归一化后的均值与方差更能反映全局的统计分布量,针对样本较少的情境具有较好的效果,也更加适用于本发明的动态的神经网络模型,因此很好的避免了批量均一化的样本过少问题,能够取得表现更好、结果更稳定的神经网络模型。
实施例中,由于预处理时将视频按照1s的时间间隔分割,得到多个视频片段,从每个视频片段中抽取16帧的图像帧,从而构成图像序列,因此减少了后续神经网络模型的计算量,降低复杂度。
实施例中,由于循环神经网络模块为LSTM模块,且采用双向模式,因此能够更好的处理全局数据。
上述实施例仅用于举例说明本发明的具体实施方式,而本发明不限于上述实施例的描述范围。

Claims (6)

1.一种基于跨模态注意力机制的视听事件定位方法,用于对目标音视频中的事件进行识别与定位,其特征在于,包括如下步骤:
步骤S1-1,利用预定的预处理方法对所述目标音视频进行预处理得到图像特征以及音频特征;
步骤S1-2,基于所述图像特征以及所述音频特征利用预先训练好的基于跨模态注意力机制的神经网络模型进行识别与定位,从而得出所述目标音视频中每一个时刻的事件类别,
其中,所述神经网络模型包括跨模态注意力机制模块、单模态自注意力机制模块、循环神经网络模块以及分类模块,
所述跨模态注意力机制模块利用多头注意力机制针对所述图像特征融合所述音频特征得到视觉双模态特征,并通过残差结构将所述视觉双模态特征与所述图像特征相加得到视觉跨模态特征,
所述跨模态注意力机制模块利用多头注意力机制针对所述音频特征融合所述图像特征得到听觉双模态特征,并通过残差结构将所述听觉双模态特征与所述音频特征相加得到听觉跨模态特征,
所述单模态自注意力机制模块分别对所述视觉跨模态特征以及所述听觉跨模态特征进行单模态片段间关系捕捉,得到对应的视觉自注意力特征以及听觉自注意力特征,所述单模态自注意力机制模块的QKV矩阵全部来自于当前模态,从而能够捕捉单模态内的长距离依赖关系,
所述循环神经网络模块分别对所述视觉自注意力特征以及所述听觉自注意力特征进行长距离依赖关系捕捉,得到对应的视觉特征以及听觉特征,
所述分类模块包括全连接层以及Softmax函数,该分类模块基于所述视觉特征以及所述听觉特征进行分类,从而得出所述目标音视频中每一个时刻的事件类别。
2.根据权利要求1所述的基于跨模态注意力机制的视听事件定位方法,其特征在于:
其中,在所述单模态自注意力机制模块分别对所述视觉跨模态特征以及所述听觉跨模态特征进行单模态片段间关系捕捉处理前,利用层归一化操作分别对所述视觉跨模态特征以及所述听觉跨模态特征进行归一化处理。
3.根据权利要求1所述的基于跨模态注意力机制的视听事件定位方法,其特征在于:
其中,所述预处理方法包括如下步骤:
步骤S2-1,分别对所述目标音视频中的视频以及音频进行处理,得到对应的图像序列以及音频序列;
步骤S2-2,利用预先训练好的图像特征提取模型从所述图像序列中提取到所述图像特征,利用预先训练好的音频特征提取模型从所述音频序列中提取得到所述音频特征,
所述步骤S2-1包括如下子步骤:
步骤S2-1-1,将所述视频按照预定的时间间隔分割,得到多个视频片段,从每个所述视频片段中抽取预定数量的图像帧,从而构成所述图像序列,
步骤S2-1-2,利用梅尔频谱处理所述音频,从而得到所述音频序列。
4.根据权利要求3所述的基于跨模态注意力机制的视听事件定位方法,其特征在于:
其中,所述图像特征提取模型为VGG-19模型,所述音频特征提取模型为VGGish模型。
5.根据权利要求1所述的基于跨模态注意力机制的视听事件定位方法,其特征在于:
其中,所述循环神经网络模块为LSTM模块。
6.一种基于跨模态注意力机制的视听事件定位装置,用于对目标音视频中的事件进行识别与定位,其特征在于,包括如下步骤:
预处理部,利用预定的预处理方法对所述目标音视频进行预处理得到图像特征以及音频特征;
识别定位部,基于所述图像特征以及所述音频特征利用预先训练好的基于跨模态注意力机制的神经网络模型进行识别与定位,从而得出所述目标音视频中每一个时刻的事件类别,
其中,所述神经网络模型包括跨模态注意力机制模块、单模态自注意力机制模块、循环神经网络模块以及分类模块,
所述跨模态注意力机制模块利用多头注意力机制针对所述图像特征融合所述音频特征得到视觉双模态特征,并通过残差结构将所述视觉双模态特征与所述图像特征相加得到视觉跨模态特征,
所述跨模态注意力机制模块利用多头注意力机制针对所述音频特征融合所述图像特征得到听觉双模态特征,并通过残差结构将所述听觉双模态特征与所述音频特征相加得到听觉跨模态特征,
所述单模态自注意力机制模块分别对所述视觉跨模态特征以及所述听觉跨模态特征进行单模态片段间关系捕捉,得到对应的视觉自注意力特征以及听觉自注意力特征,所述单模态自注意力机制模块的QKV矩阵全部来自于当前模态,从而能够捕捉单模态内的长距离依赖关系,
所述循环神经网络模块分别对所述视觉自注意力特征以及所述听觉自注意力特征进行长距离依赖关系捕捉,得到对应的视觉特征以及听觉特征,
所述分类模块包括全连接层以及Softmax函数,该分类模块基于所述视觉特征以及所述听觉特征进行分类,从而得出所述目标音视频中每一个时刻的事件类别。
CN202110235810.5A 2021-03-03 2021-03-03 一种基于跨模态注意力机制的视听事件定位方法及装置 Active CN112989977B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110235810.5A CN112989977B (zh) 2021-03-03 2021-03-03 一种基于跨模态注意力机制的视听事件定位方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110235810.5A CN112989977B (zh) 2021-03-03 2021-03-03 一种基于跨模态注意力机制的视听事件定位方法及装置

Publications (2)

Publication Number Publication Date
CN112989977A CN112989977A (zh) 2021-06-18
CN112989977B true CN112989977B (zh) 2022-09-06

Family

ID=76352475

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110235810.5A Active CN112989977B (zh) 2021-03-03 2021-03-03 一种基于跨模态注意力机制的视听事件定位方法及装置

Country Status (1)

Country Link
CN (1) CN112989977B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113781401A (zh) * 2021-08-17 2021-12-10 浙江工业大学 一种无人车车辆偏移预警方法和系统
CN114387977A (zh) * 2021-12-24 2022-04-22 深圳大学 基于双域深度特征和注意力机制的语音裁剪痕迹定位方法
CN114339355B (zh) * 2021-12-31 2023-02-21 思必驰科技股份有限公司 事件检测模型训练方法、系统、电子设备和存储介质
CN115620110B (zh) * 2022-12-16 2023-03-21 华南理工大学 一种视频事件定位与识别方法、装置及存储介质
CN115862682B (zh) * 2023-01-03 2023-06-20 杭州觅睿科技股份有限公司 声音检测方法及相关设备
CN116310975A (zh) * 2023-03-14 2023-06-23 北京邮电大学 一种基于一致片段选择的视听事件定位方法
CN116246214B (zh) * 2023-05-08 2023-08-11 浪潮电子信息产业股份有限公司 视听事件定位方法、模型训练方法、装置及设备和介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183747A (zh) * 2020-09-29 2021-01-05 华为技术有限公司 神经网络训练的方法、神经网络的压缩方法以及相关设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11074829B2 (en) * 2018-04-12 2021-07-27 Baidu Usa Llc Systems and methods for interactive language acquisition with one-shot visual concept learning through a conversational game
CN111324769A (zh) * 2020-01-20 2020-06-23 腾讯科技(北京)有限公司 视频信息处理模型的训练方法、视频信息处理方法及装置
CN111680541B (zh) * 2020-04-14 2022-06-21 华中科技大学 一种基于多维度注意力融合网络的多模态情绪分析方法
CN111597830A (zh) * 2020-05-20 2020-08-28 腾讯科技(深圳)有限公司 基于多模态机器学习的翻译方法、装置、设备及存储介质
CN111625660A (zh) * 2020-05-27 2020-09-04 腾讯科技(深圳)有限公司 对话生成方法、视频评论方法、装置、设备及存储介质
CN112053690B (zh) * 2020-09-22 2023-12-29 湖南大学 一种跨模态多特征融合的音视频语音识别方法及系统
CN112364204B (zh) * 2020-11-12 2024-03-12 北京达佳互联信息技术有限公司 视频搜索方法、装置、计算机设备及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183747A (zh) * 2020-09-29 2021-01-05 华为技术有限公司 神经网络训练的方法、神经网络的压缩方法以及相关设备

Also Published As

Publication number Publication date
CN112989977A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN112989977B (zh) 一种基于跨模态注意力机制的视听事件定位方法及装置
CN111181939B (zh) 一种基于集成学习的网络入侵检测方法及装置
CN110516536B (zh) 一种基于时序类别激活图互补的弱监督视频行为检测方法
CN108537119B (zh) 一种小样本视频识别方法
CN110569814B (zh) 视频类别识别方法、装置、计算机设备及计算机存储介质
Park et al. Probabilistic representations for video contrastive learning
CN110287879B (zh) 一种基于注意力机制的视频行为识别方法
CN110390308B (zh) 一种基于时空对抗生成网络的视频行为识别方法
CN111401149B (zh) 基于长短期时域建模算法的轻量级视频行为识别方法
CN112966088B (zh) 未知意图的识别方法、装置、设备及存储介质
Fatima et al. Global feature aggregation for accident anticipation
CN110111365B (zh) 基于深度学习的训练方法和装置以及目标跟踪方法和装置
Wang et al. Yolov5 enhanced learning behavior recognition and analysis in smart classroom with multiple students
Kansizoglou et al. Haseparator: Hyperplane-assisted softmax
CN112560668A (zh) 一种基于场景先验知识的人体行为识别方法
CN117351392A (zh) 一种视频异常行为检测的方法
CN116956128A (zh) 一种基于超图的多模态多标签分类方法及系统
Novakovic et al. Classification accuracy of neural networks with pca in emotion recognition
CN115620083A (zh) 模型训练方法、人脸图像质量评价方法、设备及介质
CN111652083B (zh) 一种基于自适应采样的弱监督时序动作检测方法及系统
Arshad et al. Anomalous Situations Recognition in Surveillance Images Using Deep Learning
CN111143544B (zh) 一种基于神经网络的柱形图信息提取方法及装置
Liu et al. Component detection for power line inspection using a graph-based relation guiding network
CN114663910A (zh) 基于多模态学习状态分析系统
CN113537240A (zh) 一种基于雷达序列图像的形变区智能提取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant