CN116171473A

CN116171473A - 用于视听事件定位的双模态关系网络

Info

Publication number: CN116171473A
Application number: CN202180056375.8A
Authority: CN
Inventors: 淦创; 王大阔; 张阳; 吴波; 郭潇潇
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-08-10
Filing date: 2021-07-05
Publication date: 2023-05-26
Also published as: WO2022033231A1; GB202303454D0; GB2613507A; US20220044022A1; US11663823B2; JP2023537705A; DE112021004261T5

Abstract

可以提供用于视听事件定位的双模态关系网络。可以接收用于视听事件定位的视频馈送。基于视频馈送的所提取的音频特征和视频特征的组合，可以通过运行第一神经网络来确定视频馈送中的信息特征和区域。基于由第一神经网络确定的视频馈送中的信息特征和区域，可以通过运行第二神经网络来确定关系感知视频特征。基于视频馈送中的信息特征和区域，可以通过运行第三神经网络来确定关系感知音频特征。可以通过运行第四神经网络基于相关感知视频特征和相关感知音频特征获得双模态表示。可以将双模态表示输入到分类器以识别视频馈送中的视听事件。

Description

用于视听事件定位的双模态关系网络

背景技术

本申请总体上涉及计算机和计算机应用，并且更具体地涉及人工智能、机器学习、神经网络以及视听(audio-visual)学习和视听事件定位。

事件定位对于视频理解是有挑战性的任务，其需要机器来定位事件或动作，以及识别无约束视频中的类别。一些现有方法仅采用红-绿-蓝(RGB)帧或光流作为输入来定位和识别事件。然而，由于强烈的视觉背景干扰和大的视觉内容变化，可能难以仅用视觉信息来定位事件。

视听事件(AVE)定位任务已经引起越来越多的关注，AVE定位任务要求机器确定在视频片段中可听和可见的事件的存在以及事件属于什么类别。AVE定位任务可能由于以下困难而具有挑战性：1)无约束视频中的复杂视觉背景使得难以定位AVE，以及2)定位和识别AVE要求机器同时考虑来自两个模态(即，音频和视频)的信息并且利用它们的关系。在复杂的视觉场景和错综复杂的声音之间建立连接是重要的。此任务中的一些方法独立地处理两个模态，且仅在最终分类器之前将其融合在一起。现有方法主要聚焦于捕获单个模态内的片段之中的时间关系作为用于事件定位的潜在提示。

发明内容

给出本公开的概述以帮助理解计算机系统、计算机应用、机器学习、神经网络、视听学习和视听事件定位，并且不旨在限制本公开或本发明。应理解，本公开的各个方面和特征可有利地在一些情况下单独地使用，或在其他实例中与本公开的其他方面和特征组合使用。因此，可以对计算机系统、计算机应用、机器学习、神经网络和/或它们的操作方法作出变化和修改以实现不同的效果。

可以提供一种系统和方法，其可以实现用于视听事件定位的双模态关系网络。在一个方面中，所述系统可包括硬件处理器和与所述硬件处理器耦合的存储器。硬件处理器可以被配置为接收用于视听事件定位的视频馈送。硬件处理器还可以被配置为基于视频馈送的所提取的音频特征和视频特征的组合，通过运行第一神经网络来确定视频馈送中的信息特征和区域。硬件处理器还可以被配置为基于由第一神经网络确定的视频馈送中的信息特征和区域，通过运行第二神经网络来确定关系感知视频特征。硬件处理器还可以被配置为基于由第一神经网络确定的视频馈送中的信息特征和区域，通过运行第三神经网络来确定关系感知音频特征。硬件处理器还可以被配置为通过运行第四神经网络，基于关系感知视频特征和关系感知音频特征获得双模态表示。硬件处理器还可以被配置为将双模态表示输入到分类器，以识别视频馈送中的视听事件。

在另一方面中，该系统可包括硬件处理器和与该硬件处理器耦合的存储器。硬件处理器可以被配置为接收用于视听事件定位的视频馈送。硬件处理器还可以被配置为基于视频馈送的所提取的音频特征和视频特征的组合，通过运行第一神经网络来确定视频馈送中的信息特征和区域。硬件处理器还可以被配置为基于由第一神经网络确定的视频馈送中的信息特征和区域，通过运行第二神经网络来确定关系感知视频特征。硬件处理器还可以被配置为基于由第一神经网络确定的视频馈送中的信息特征和区域，通过运行第三神经网络来确定关系感知音频特征。硬件处理器还可以被配置为通过运行第四神经网络，基于关系感知视频特征和关系感知音频特征获得双模态表示。硬件处理器还可以被配置为将双模态表示输入到分类器，以识别视频馈送中的视听事件。硬件处理器还可以被配置为至少用视频馈送的视频部分运行第一卷积神经网络以提取视频特征。

在又一方面中，该系统可以包括硬件处理器和与该硬件处理器耦合的存储器。硬件处理器可以被配置为接收用于视听事件定位的视频馈送。硬件处理器还可以被配置为基于视频馈送的所提取的音频特征和视频特征的组合，通过运行第一神经网络来确定视频馈送中的信息特征和区域。硬件处理器还可以被配置为基于由第一神经网络确定的视频馈送中的信息特征和区域，通过运行第二神经网络来确定关系感知视频特征。硬件处理器还可以被配置为基于由第一神经网络确定的视频馈送中的信息特征和区域，通过运行第三神经网络来确定关系感知音频特征。硬件处理器还可以被配置为通过运行第四神经网络，基于关系感知视频特征和关系感知音频特征获得双模态表示。硬件处理器还可以被配置为将双模态表示输入到分类器，以识别视频馈送中的视听事件。硬件处理器还可以被配置为至少用视频馈送的音频部分运行第二卷积神经网络以提取音频特征。

在又一方面中，该系统可以包括硬件处理器和与该硬件处理器耦合的存储器。硬件处理器可以被配置为接收用于视听事件定位的视频馈送。硬件处理器还可以被配置为基于视频馈送的所提取的音频特征和视频特征的组合，通过运行第一神经网络来确定视频馈送中的信息特征和区域。硬件处理器还可以被配置为基于由第一神经网络确定的视频馈送中的信息特征和区域，通过运行第二神经网络来确定关系感知视频特征。硬件处理器还可以被配置为基于由第一神经网络确定的视频馈送中的信息特征和区域，通过运行第三神经网络来确定关系感知音频特征。硬件处理器还可以被配置为通过运行第四神经网络，基于关系感知视频特征和关系感知音频特征获得双模态表示。硬件处理器还可以被配置为将双模态表示输入到分类器，以识别视频馈送中的视听事件。该双模态表示可以在识别视听事件中被用作分类器的最后一层。

在另一方面中，该系统可包含硬件处理器和与该硬件处理器耦合的存储器。硬件处理器可以被配置为接收用于视听事件定位的视频馈送。硬件处理器还可以被配置为基于视频馈送的所提取的音频特征和视频特征的组合，通过运行第一神经网络来确定视频馈送中的信息特征和区域。硬件处理器还可以被配置为基于由第一神经网络确定的视频馈送中的信息特征和区域，通过运行第二神经网络来确定关系感知视频特征。硬件处理器还可以被配置为基于由第一神经网络确定的视频馈送中的信息特征和区域，通过运行第三神经网络来确定关系感知音频特征。硬件处理器还可以被配置为通过运行第四神经网络，基于关系感知视频特征和关系感知音频特征获得双模态表示。硬件处理器还可以被配置为将双模态表示输入到分类器，以识别视频馈送中的视听事件。该分类器识别视频馈送中的视听事件包括识别视频馈送中发生视听事件的位置以及视听事件的类别。

在另一方面中，该系统可包含硬件处理器和与该硬件处理器耦合的存储器。硬件处理器可以被配置为接收用于视听事件定位的视频馈送。硬件处理器还可以被配置为基于视频馈送的所提取的音频特征和视频特征的组合，通过运行第一神经网络来确定视频馈送中的信息特征和区域。硬件处理器还可以被配置为基于由第一神经网络确定的视频馈送中的信息特征和区域，通过运行第二神经网络来确定关系感知视频特征。硬件处理器还可以被配置为基于由第一神经网络确定的视频馈送中的信息特征和区域，通过运行第三神经网络来确定关系感知音频特征。硬件处理器还可以被配置为通过运行第四神经网络，基于关系感知视频特征和关系感知音频特征获得双模态表示。硬件处理器还可以被配置为将双模态表示输入到分类器，以识别视频馈送中的视听事件。第二神经网络可以在确定关系感知视频特征时获取视频特征中的时间信息和视频特征与音频特征之间的跨模态信息两者。

在另一方面中，该系统可包括硬件处理器和与该硬件处理器耦合的存储器。硬件处理器可以被配置为接收用于视听事件定位的视频馈送。硬件处理器还可以被配置为基于视频馈送的所提取的音频特征和视频特征的组合，通过运行第一神经网络来确定视频馈送中的信息特征和区域。硬件处理器还可以被配置为基于由第一神经网络确定的视频馈送中的信息特征和区域，通过运行第二神经网络来确定关系感知视频特征。硬件处理器还可以被配置为基于由第一神经网络确定的视频馈送中的信息特征和区域，通过运行第三神经网络来确定关系感知音频特征。硬件处理器还可以被配置为通过运行第四神经网络，基于关系感知视频特征和关系感知音频特征获得双模态表示。硬件处理器还可以被配置为将双模态表示输入到分类器，以识别视频馈送中的视听事件。第三神经网络可以在确定关系感知音频特征时获取音频特征中的时间信息和视频特征与音频特征之间的跨模态信息两者。

在一方面中，一种方法可包括接收用于视听事件定位的视频馈送。该方法还可以包括基于视频馈送的所提取的音频特征和视频特征的组合，通过运行第一神经网络来确定该视频馈送中的信息特征和区域。该方法还可以包括基于由第一神经网络确定的视频馈送中的信息特征和区域，通过运行第二神经网络来确定关系感知视频特征。该方法还可以包括基于由第一神经网络确定的视频馈送中的信息特征和区域，通过运行第三神经网络来确定关系感知音频特征。该方法还可以包括通过运行第四神经网络，基于关系感知视频特征和关系感知音频特征获得双模态表示。该方法还可以包括将该双模态表示输入到分类器以识别该视频馈送中的视听事件。

在另一方面中，该方法可包括接收用于视听事件定位的视频馈送。该方法还可以包括基于视频馈送的所提取的音频特征和视频特征的组合，通过运行第一神经网络来确定该视频馈送中的信息特征和区域。该方法还可以包括基于由第一神经网络确定的视频馈送中的信息特征和区域，通过运行第二神经网络来确定关系感知视频特征。该方法还可以包括基于由第一神经网络确定的视频馈送中的信息特征和区域，通过运行第三神经网络来确定关系感知音频特征。该方法还可以包括通过运行第四神经网络，基于关系感知视频特征和关系感知音频特征获得双模态表示。该方法还可以包括将该双模态表示输入到分类器以识别该视频馈送中的视听事件。该方法还可以包括至少用视频馈送的视频部分运行第一卷积神经网络以提取视频特征。

在又一方面中，该方法可包括接收用于视听事件定位的视频馈送。该方法还可以包括基于视频馈送的所提取的音频特征和视频特征的组合，通过运行第一神经网络来确定该视频馈送中的信息特征和区域。该方法还可以包括基于由第一神经网络确定的视频馈送中的信息特征和区域，通过运行第二神经网络来确定关系感知视频特征。该方法还可以包括基于由第一神经网络确定的视频馈送中的信息特征和区域，通过运行第三神经网络来确定关系感知音频特征。该方法还可以包括通过运行第四神经网络，基于关系感知视频特征和关系感知音频特征获得双模态表示。该方法还可以包括将该双模态表示输入到分类器以识别该视频馈送中的视听事件。该方法还可以包括至少用视频馈送的音频部分运行第二卷积神经网络以提取音频特征。

在又一方面中，该方法可包括接收用于视听事件定位的视频馈送。该方法还可以包括基于视频馈送的所提取的音频特征和视频特征的组合，通过运行第一神经网络来确定该视频馈送中的信息特征和区域。该方法还可以包括基于由第一神经网络确定的视频馈送中的信息特征和区域，通过运行第二神经网络来确定关系感知视频特征。该方法还可以包括基于由第一神经网络确定的视频馈送中的信息特征和区域，通过运行第三神经网络来确定关系感知音频特征。该方法还可以包括通过运行第四神经网络，基于关系感知视频特征和关系感知音频特征获得双模态表示。该方法还可以包括将该双模态表示输入到分类器以识别该视频馈送中的视听事件。该双模态表示可以在识别视听事件中被用作分类器的最后一层。

在另一方面中，该方法可包括接收用于视听事件定位的视频馈送。该方法还可以包括基于视频馈送的所提取的音频特征和视频特征的组合，通过运行第一神经网络来确定该视频馈送中的信息特征和区域。该方法还可以包括基于由第一神经网络确定的视频馈送中的信息特征和区域，通过运行第二神经网络来确定关系感知视频特征。该方法还可以包括基于由第一神经网络确定的视频馈送中的信息特征和区域，通过运行第三神经网络来确定关系感知音频特征。该方法还可以包括通过运行第四神经网络，基于关系感知视频特征和关系感知音频特征获得双模态表示。该方法还可以包括将该双模态表示输入到分类器以识别该视频馈送中的视听事件。分类器识别视频馈送中的视听事件可以包括识别视频馈送中发生视听事件的位置以及视听事件的类别。

在另一方面中，该方法可包括接收用于视听事件定位的视频馈送。该方法还可以包括基于视频馈送的所提取的音频特征和视频特征的组合，通过运行第一神经网络来确定该视频馈送中的信息特征和区域。该方法还可以包括基于由第一神经网络确定的视频馈送中的信息特征和区域，通过运行第二神经网络来确定关系感知视频特征。该方法还可以包括基于由第一神经网络确定的视频馈送中的信息特征和区域，通过运行第三神经网络来确定关系感知音频特征。该方法还可以包括通过运行第四神经网络，基于关系感知视频特征和关系感知音频特征获得双模态表示。该方法还可以包括将该双模态表示输入到分类器以识别该视频馈送中的视听事件。第二神经网络可以在确定关系感知视频特征时获取视频特征中的时间信息和视频特征与音频特征之间的跨模态信息两者。

在另一方面中，该方法可包括接收用于视听事件定位的视频馈送。该方法还可以包括基于视频馈送的所提取的音频特征和视频特征的组合，通过运行第一神经网络来确定该视频馈送中的信息特征和区域。该方法还可以包括基于由第一神经网络确定的视频馈送中的信息特征和区域，通过运行第二神经网络来确定关系感知视频特征。该方法还可以包括基于由第一神经网络确定的视频馈送中的信息特征和区域，通过运行第三神经网络来确定关系感知音频特征。该方法还可以包括通过运行第四神经网络，基于关系感知视频特征和关系感知音频特征获得双模态表示。该方法还可以包括将该双模态表示输入到分类器以识别该视频馈送中的视听事件。第三神经网络在确定关系感知音频特征时获取音频特征中的时间信息和视频特征与音频特征之间的跨模态信息两者。

还可提供存储能够由机器执行以执行本文描述的一个或多个方法的指令程序的计算机可读存储介质。

下面参考附图详细描述各种实施例的其他特征以及结构和操作。在附图中，相同的附图标记表示相同或功能相似的元素。

附图说明

图1是视听事件定位任务的说明性示例。

图2是示出实施例中的双模态关系网络的示图。

图3是示出实施例中的双模态关系网络的另一示图。

图4示出一个实施例中的音频引导的空间通道注意力(AGSCA)模块。

图5示出了实施例中的跨模态关系注意力(CMRA)机制。

图6示出了实施例中的由方法和/或系统输出的示例定位结果。

图7是示出实施例中的用于视听事件定位的方法的流程图。

图8是示出一个实施例中的系统的部件的示图，该系统可以实现用于视听事件定位的双模态关系网络。

图9示出了一个实施例中的可以实现双模态关系网络系统的示例计算机或处理系统的示意图。

具体实施方式

可以提供系统、方法和技术，其可以在给定具有视觉和声音(音频)通道的未修整视频序列的情况下，标识视频片段中既可听又可视的事件的存在，以及确定该事件属于什么类别。例如，机器可被训练成执行视听事件位置。在识别视频序列中的视听事件时，该系统、方法和技术考虑视觉场景与音频信号之间的跨模态或模态间关系信息。

在实施例中，双模态关系网络是用于执行视听事件定位任务的端到端网络，并且可以包括音频引导的视觉注意模块、模态内关系块、以及模态间关系块。在实施例中，音频引导的视觉注意模块用来突出显示用于减少视觉背景干扰的信息区域。在实施例中，模态内和模态间关系块可以单独地利用模态内和模态间关系信息以用于呈现学习(例如，用于视听表示学习)的促进，这促进既可听又可见的事件的识别。一方面，双模态关系网络可以通过突出显示某些区域来减少视觉背景干扰，并且通过将模态内和模态间关系考虑为潜在有用的信息来改善两个模态的表示的质量。一方面，该双模态关系网络使能捕捉视觉场景与声音之间的有价值的模态间关系，这在现有方法中大部分是不可用的。例如，实施例中的方法可以将所提取的视觉和音频特征馈送到音频引导的视觉注意模块中以强调用于背景干扰降低的信息区域。该方法可以准备模态内和模态间关系块，以单独地利用用于音频/视觉表示学习的对应关系信息。该方法可以将关系感知视觉和音频特征合并在一起以获得用于分类器的全面双模态表示。

可以实现机器以执行事件定位的任务。执行事件定位的任务的机器自动定位事件并在无约束视频中识别其类别。大多数现有方法仅利用视频的视觉信息，而忽略其音频信息。然而，同时利用视觉和音频内容的推理可有助于事件定位，例如，因为音频信号经常携带用于推理的有用提示。此外，音频信息可以引导机器或机器模型更多地关注或聚焦在视觉场景的信息区域上，这可以帮助减少由背景带来的干扰。在实施例中，关系感知网络利用音频和视觉信息两者来用于准确的事件定位，例如，在识别视频流中的音频视频事件时在机器中提供技术改进。在实施例中，为了减少由背景引入的干扰，系统、方法和技术可以实现音频引导的空间通道注意模块以引导模型聚焦于事件相关的视觉区域。系统、方法和技术还可以利用关系感知模块建立视觉和音频模态之间的连接。例如，系统、方法和技术通过根据跨模态关系聚集来自其他模态的信息来学习视频和/或音频片段的表示。依赖于关系感知表示，系统、方法和技术可通过预测事件相关分数和分类分数来进行事件定位。在各实施例中，神经网络可被训练来在视频流中执行事件定位。可使用神经网络操作的各种实现方式，诸如不同的激活函数和优化，诸如梯度优化。

系统、方法和技术考虑视觉场景和音频信号之间的跨模态或模态间关系信息，例如，用于AVE定位。跨模态关系是音频片段和视频片段之间的视听相关性。图1是视听事件定位任务的说明性示例。在实施例中，在该任务中，机器102采取具有视觉通道106和声学通道108的视频序列104作为输入。机器102例如包括硬件处理器。硬件处理器例如可以包括诸如可编程逻辑设备、微控制器、存储器设备和/或其他硬件组件之类的组件，这些组件可以被配置为执行本公开中所描述的相应任务。机器102被请求为确定在片段中是否存在既可听又可见的事件以及该事件属于什么类别。在一方面，挑战是需要机器同时考虑来自两个模态的信息以及利用它们的关系。例如，如图1所示，视频序列可包括火车喇叭的声音，同时可视化移动的火车，例如，在110b处以帧或片段示出的。该视听相关性建议可听和可见的事件。因此，跨模态或模态间关系也有助于视听事件的检测。

自注意力机制可以用于捕获自然语言处理(NLP)中的单词之间的模态内关系。它首先将输入特征变换成查询、键和值(即，存储器)特征。然后，其使用对存储器中的所有值的加权求和来计算注意的输出，其中权重(即，关系)是从存储器中的键和查询中学习的。然而，在一方面，在NLP使用中，由于查询和存储器是从同一模态导出的，因此将自注意力直接应用于事件定位不能利用视觉和声学内容之间的跨模态关系。相反，如果存储器获取两个模态的特征，则(来自两个模态之一的)查询可以使能跨模态关系的探索，而不丢失模态内相关信息。

在实施例中，系统、方法和技术提供关系感知模块，以通过利用模态间关系在视觉信息和音频信息之间建立连接。在实施例中，该模块包裹被称为跨模态关系注意力的注意力机制。与自注意力不同，在跨模态关系注意力中，查询是从一个模态导出的，而键和值是从两个模态导出的。以此方式，来自模态的单个分段可以基于所学习的模态内和模态间关系来聚合来自来自两个模态的所有相关分段的有用信息。同时观看视觉场景和收听声音(即，同时利用来自两个模态的信息)可比单独地感知它们以用于定位可听和可见事件更有效和高效。在一方面，系统、方法和技术可利用两种有用的关系来促进表示学习以及进一步提升AVE定位的性能。

在实施例中，因为强的视觉背景干扰可以阻碍准确的事件定位，所以系统、方法和技术可以突出显示信息视觉区域和特征以减少干扰。例如，系统、方法和技术可包括音频引导的空间通道注意力模块，其利用音频信息在空间和通道级建立视觉注意力。系统、方法和技术将这些组件集成在一起，并提供跨模态关系感知网络，该跨模态关系感知网络可在AVE数据集上的监督和弱监督的AVE定位任务中远远超过最先进的技术。

在实施例中，系统、方法和技术可以包括音频引导的空间通道注意力模块(AGSCA)以利用音频信号的引导能力用于视觉注意力，这可以准确地突出显示信息特征和声音区域；关系感知模块，以利用模态内和模态间关系用于事件定位。在实施例中，可以为监督和弱监督AVE定位任务建立跨模态关系感知网络(也称为双模态关系网络)。

视听学习在许多领域中可以是有用的，诸如动作识别、声源定位以及视听事件定位。例如，工作使用音频来构建预览机制，以减少时间冗余；稀疏时间采样策略可以融合多个模态，以增强动作识别；音频可以被用作用于以无监督方式学习视觉模型的监督信号；可以呈现Speech2Face框架，其使用语音-面部相关性来生成语音后面的面部图像；为了利用容易获得的大规模未标记视频，工作利用视听对应来以自监督方式学习视听表示。

用于视听事件定位的另一工作使用两个长-短期存储器(LSTM)来单独地建模音频和视频片段序列的时间依赖性，然后简单地经由添加融合和平均池来融合音频和视觉特征以用于事件类别预测。又一项工作首先单独地处理音频和视觉模态，然后经由LSTM融合两个模态的特征，LSTM以序列到序列的方式工作。另一项工作提出了双注意力匹配模块，其使用通过模态内关系建模获得的全局信息和本地信息，经由内积运算来测量跨模态相似性。跨模态相似性直接用作最终事件相关性预测。这些方法主要集中于利用模态内关系作为潜在提示，忽略用于事件定位的同样有价值的跨模态关系信息。与这些方法不同，实施例中的系统、方法和技术提供或实现跨模态关系感知网络，使能例如通过同时利用模态内和模态间相关信息两者来桥接视觉模态与音频模态之间的连接。

注意力机制模仿人类视觉感知功能。其试图自动聚焦于输入的具有高激活的某些部分。注意力机制具有许多变型，包括自注意力。不同于聚焦于捕捉模态内的关系的自注意力，实施例中的系统、方法和技术可以提供跨模态关系注意力，其使能同时利用模态内和模态间关系来进行视听表示学习。

在本公开中，使用以下符号。让

是具有T个非重叠片段的视频序列。这里，Vt和At分别表示第t片段的视觉内容及其对应的音频内容。

例如，图1示出了视频中的片段110a、110b、110c、110d、110e、110f。如图1中的示例所示，给定视频序列S 104，AVE定位请求机器预测依靠Vt和At的每个片段St的事件标签(包括背景)。视听事件被定义为既可听又可见的事件(即，听到由对象发出的声音并且同时看到该对象)。如果片段St不是既可听又可见的，则应将其预测为背景。该任务中的挑战是需要机器分析两个模态并捕捉它们的关系。在实施例中，系统、方法和技术可以使用跨模态相关信息来提升性能。在实施例中，该任务可以在不同的设置中执行。例如，在实施例中，可以在监督设置中执行该任务。在另一实施例中，该任务可以在弱监督设置中执行。在监督设置中，系统、方法和技术可以在训练阶段期间访问片段级标签。片段级标签指示对应片段的类别(包括背景)。在实施例中，仅在声音和对应的发声对象被呈现时才给出非背景类别标签。在弱监督设置中，在实施例中，系统、方法和技术可以在训练期间仅访问视频级标签，并且系统、方法和技术旨在在测试期间预测每个片段的类别。视频级标签指示视频是否包含视听事件以及该事件属于什么类别。

在实施例中，系统、方法和技术解决了大多数现有的事件定位方法忽略来自视频中的音频信号的信息的问题，然而，这可以帮助减轻复杂背景的干扰并为推理提供更多的提示。例如，一种方法利用视觉和音频信息两者用于事件定位，并且在视听事件定位任务上对其进行评估，这要求机器对在未修整视频中既可听又可见的事件进行定位。这个任务是有挑战性的，因为无约束视频经常包含复杂的背景，并且在复杂的视觉场景和错综复杂的声音之间建立连接是重要的。为了解决这些挑战，在实施例中，系统、方法和技术提供了音频引导的注意力模块来突出显示某些空间区域和特征以减少背景干扰。在实施例中，系统、方法和技术还设计了关系感知模块，以利用模态间关系以及模态内关系用于定位视听事件。

图2是示出实施例中的双模态关系网络的示图。所示出的组件包括计算机实现的组件，例如，在一个或多个硬件处理器上实现和/或运行，或者与一个或多个硬件处理器耦合。一个或多个硬件处理器或处理器例如可以包括诸如可编程逻辑设备、微控制器、存储器设备和/或其他硬件组件之类的组件，这些组件可以被配置成执行本公开中所描述的相应任务。耦合的存储器设备可以被配置为选择性地存储能够由一个或多个硬件处理器执行的指令。处理器可以是中央处理单元(CPU)、图形处理单元(GPU)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、另一合适的处理组件或设备，或它们的一个或多个组合。处理器可以与存储器设备耦合。存储器设备可包括随机存取存储器(RAM)、只读存储器(ROM)或另一存储器设备，并且可存储用于实现与本文描述的方法和/或系统相关联的各个功能的数据和/或处理器指令。处理器可以执行存储在存储器中或者从另一计算机设备或介质接收的计算机指令。本文所使用的模块可以被实现为在一个或多个硬件处理器上可执行的软件、硬件组件、可编程硬件、固件或其任意组合。

双模态关系网络也被称为跨模态关系感知网络。在实施例中，双模态关系网络200是用于执行视听事件定位任务的端到端网络，并且可以包括音频引导的视觉注意力模块212、模态内关系块214、216，以及模态间关系块218、220。音频引导的视觉注意力模块212可以包括神经网络(例如，被称为第一神经网络以用于解释或说明)。在实施例中，音频引导的视觉注意力模块212用来突出显示用于减少视觉背景干扰的信息区域。

在实施例中，模态内和模态间关系块214、216、218、220可以单独地利用模态内和模态间关系信息以用于促进呈现学习，例如，用于视听表示学习，其促进既可听又可见的事件的识别。模态内和模态间关系块214、218可包括神经网络(例如，被称为第二神经网络以用于解释)。模态内和模态间关系块216、220可以包括神经网络(例如，被称为第三神经网络以用于解释)。在一方面，双模态关系网络200可以通过突出显示某些区域来减少视觉背景干扰，以及通过利用模态内和模态间关系作为潜在有用的信息来改善两个模态的表示的质量。在一方面，双模态关系网络使能捕捉视觉场景202与声音204之间的有价值的模态间关系。

例如，实施例中的方法可以将所提取的视觉和音频特征馈送到音频引导的视觉注意力模块212中以强调用于背景干扰减少的信息区域。例如，馈送到音频引导的视觉注意力模块212中的视频特征可以通过将输入视频202输入至卷积神经网络206来提取，例如，该卷积神经网络206被训练以提取视频特征。可以使用对数梅尔频谱图表示208处理输入音频204，对数梅尔频谱图表示208可以输入至卷积神经网络210，被训练以提取音频特征，以提取用于馈送到音频引导的视觉注意力模块212中的音频特征。输入视频202和输入音频204是视频馈送、流或序列的组件。该方法可以准备模态内和模态间关系块214、216、218、220，以分别利用针对音频/视觉表示学习的对应关系信息。例如，模态内关系块214和模态间关系块218生成关系感知特征222；模态内关系块216和模态间关系块220生成关系感知特征224。音频-视频交互模块226可以将关系感知视觉和音频特征222、224合并在一起以获得用于分类器的全面双模态表示。音频-视频交互模块226可以包括神经网络(例如，被称为第四神经网络以用于解释)。由音频-视频交互模块226输出的全面双模态表示可以被馈送到分类器(例如，神经网络)中用于事件分类230和/或事件相关预测228。

作为示例，输入AVE数据集(例如，视频和音频输入202、204)可以包含覆盖宽范围的域事件(例如，人类活动、动物活动、音乐表演和车辆声音)的视频。事件可涉及多种类别(例如，教堂铃、哭泣、狗叫、油炸食物、拉小提琴和/或其他)。作为示例，视频可以包含一个事件，并且可以被划分成多个时间间隔片段(例如，十个一秒的片段)，用于由双模态关系网络处理。在实施例中，视频序列中的视频和音频场景(例如，视频和音频输入202、204)对准。在另一实施例中，视频序列中的视频和音频场景(例如，视频和音频输入202、204)不需要对准。

作为示例，CNN 206可以是卷积神经网络，诸如但不限于VGG-19、残差神经网络(例如，ResNet-151)，并且可以例如在ImageNet上作为视觉特征提取器来被预训练。例如，可以在每个片段内选择16个帧作为输入。作为示例，VGG-19中的具有7×7×512的尺寸的pool5层的输出可以被视为视觉特征。对于ResNet-151，具有7×7×2048的尺寸的conv5层的输出可以被视为视觉特征。每个片段内的帧级特征可以在时间上被平均为片段级特征。

通过示例的方式，输入音频204(其可以是原始音频)可以被转换成对数梅尔频谱图208。该方法和/或系统可以例如使用在AudioSet上预训练的类似VGG的网络来提取每个片段的尺寸为128的声学特征。

图3是示出实施例中的双模态关系网络的另一示图。所示出的组件包括计算机实现的组件，例如，在一个或多个硬件处理器上实现和/或运行，或者与一个或多个硬件处理器耦合。一个或多个硬件处理器或处理器例如可以包括诸如可编程逻辑设备、微控制器、存储器设备和/或其他硬件组件之类的组件，这些组件可以被配置为执行本公开中所描述的相应任务。耦合的存储器设备可以被配置为选择性地存储能够由一个或多个硬件处理器执行的指令。处理器可以是中央处理单元(CPU)、图形处理单元(GPU)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、另一合适的处理组件或设备，或它们的一个或多个组合。处理器可以与存储器设备耦合。存储器设备可包括随机存取存储器(RAM)、只读存储器(ROM)或另一存储器设备，并且可存储用于实现与本文描述的方法和/或系统相关联的不同功能的数据和/或处理器指令。处理器可以执行存储在存储器中或者从另一个计算机设备或介质接收的计算机指令。本文所使用的模块可以被实现为在一个或多个硬件处理器上可执行的软件、硬件组件、可编程硬件、固件或其任意组合。

双模态关系网络也被称为跨模态关系感知网络(CMRAN)。输入视频302被馈送或输入至卷积神经网络(CNN)306，例如，被训练以提取视频特征。可以使用对数梅尔频谱图表示308来处理输入音频304，对数梅尔频谱图表示308可以输入至卷积神经网络(CNN)310，被训练以提取音频特征，以提取用于馈送到音频引导的空间通道注意力模块(AGSCA)(例如，在图2中也称为音频引导的视觉注意力模块)312中的音频特征。使用从CNN 306提取的视频特征和从CNN 310提取的音频特征，音频引导的空间通道注意力模块(AGSCA)(例如，在图2中也称为音频引导的视觉注意力模块)312用来利用音频信息(例如，由CNN 310输出)来引导在空间和通道级(例如，视频通道)的视觉注意力，从而产生增强的视觉特征314。CNN 310提取音频特征316。两个关系感知模块322、324分别针对两个模态(视频和音频)捕获模态内关系和模态间关系两者，从而产生关系感知视觉特征322和关系感知音频特征324。跨模态关系感知视觉特征322和跨模态关系感知音频特征324经由音频-视频交互模块326被合并在一起，从而产生联合双模态表示，该联合双模态表示可以被输入到分类器以用于事件相关预测328和/或事件分类330。

给定视频序列S，一种方法和/或系统例如通过预训练的CNN骨干网306、308转发每个视听对{V_t,A_t}302、304以提取片段级特征

该方法和/或系统通过AGSCA模块312转发音频和视觉特征以获得增强的视觉特征314。利用音频特征316和增强的视觉特征314，该方法和/或系统准备了两个关系感知模块，视频关系感知模块318和音频关系感知模块320，它们分别针对音频和视觉特征来包裹跨模态或双模态关系注意力。该方法和/或系统将视觉和音频特征314、316馈送到关系感知模块318、329中以针对两种模态利用两种关系。关系感知视觉和音频特征322、324被馈送到音频-视频交互模块326中，从而产生用于一个或多个事件分类器330或预测328的全面联合双模态表示。

音频引导的空间通道注意力

音频信号能够引导视觉建模。通道注意力使能丢弃不相关特征并提高视觉表示的质量。音频引导的空间通道注意力模块(AGSCA)312在实施例中寻求使音频引导能力最佳用于视觉建模。在一方面中，在实施例中，AGSCA312利用音频信号来引导空间维度和通道维度两者中的视觉注意力，而不是使音频特征仅参与空间维度中的视觉注意力，这强调信息特征和空间区域以提高定位准确性。已知的方法或技术可以用于顺序地执行通道和空间注意力。

图4示出了在一个实施例中例如在图3的312处所示的音频引导的空间通道注意力(AGSCA)模块。在实施例中，AGSCA利用音频引导能力来在通道级(左部分)和空间级(右部分)引导视觉注意力。给定音频特征

402和视觉特征

404，其中H和W分别是特征图的高度和宽度，AGSCA生成逐通道(channel-wise)注意力图

406以自适应地强调信息特征。然后，AGSCA产生用于通道注意力特征410的空间注意力图

408以突出显示发声区域，从而产生通道空间注意力视觉特征

412。注意力过程可以总结为，

其中

表示矩阵乘法，并且

表示逐元素乘法。

逐通道注意力406生成注意力图

并且空间注意力408产生注意力图

逐通道注意力

在实施例中，一种方法和/或系统用音频信号的引导对特征的通道之间的依赖性进行建模。在实施例中，该方法和/或系统使用具有非线性的全连接层将音频和视觉特征转换成公共空间，从而产生音频引导图

和具有d_v×(H*W)的尺寸的经转换的视觉特征。在实施例中，该方法和/或系统通过全局平均池化在空间上挤压经转换的视觉特征。然后，该方法和/或系统通过经由逐元素乘法将视觉特征与

融合来利用

的引导信息。该方法和/或系统通过具有非线性的两个全连接层转发融合的视觉特征以对通道之间的关系进行建模，从而产生通道注意力图

在实施例中，细节示出如下：

其中，

和

是具有校正线性单元(ReLU)作为激活函数的全连接层，

是可学习参数，其中d＝256作为隐藏维度，δa指示全局平均池化，并且σ表示sigmoid函数。

空间注意力

该方法和/或系统还利用音频信号的引导能力来引导视觉空间注意力408。空间注意力408遵循与逐通道注意力406相似的模式。在一方面，输入视觉特征

410是通道注意力的。

在实施例中，该方法和/或系统公式化空间注意力过程如下：

其中，

是具有ReLU作为激活函数的全连接层，

是以d＝256为隐藏维度的可学习参数，δ表示双曲正切函数。利用空间注意力图

该方法和/或系统根据

在v_t上执行加权求和以突出显示信息区域和缩小空间维度，从而产生通道空间注意力视觉特征向量

412作为输出。

跨模态关系注意力

在实施例中，跨模态关系注意力是关系感知模块的组件(例如，在图3中在318和320处示出)。给定视觉和声学特征，该方法和/或系统可以利用跨模态关系来在两个模态之间建立桥，而不忽略模态内关系信息。对于该任务，在实施例中，该方法和/或系统实现或提供跨模态关系注意力(CMRA)机制。图5示出了实施例中的跨模态关系注意力(CMRA)机制。不同阴影中的条表示来自不同模态的片段级特征。CMRA同时利用音频或视频片段特征的模态内和模态间关系，并使能自适应地学习这两个关系之间的平衡。查询502是从一种模态(例如，音频或视频)的特征推导出的，被表示为q₁。例如，输入特征可以包括在512处所示的音频和视频特征。键-值对504、506是从两种模态(例如，音频和视频)特征导出的，并且该方法和/或系统将它们封装成键矩阵K_1,2和值矩阵V_1,2。在实施例中，该方法和/或系统将点积操作当作为逐对关系函数。该方法和/或系统然后计算q₁与所有键K_1,2的点积，将其各自除以其共享特征维度dm的平方根，并且应用softmax函数以获得值V_1,2的注意力权重。通过由从q₁和K_1,2学习的关系(即，注意力权重)508加权的所有值V_1,2的总和来计算关注的输出510。

在实施例中，CMRA被定义为：

其中索引1或2表示不同的模态。由于q₁来自音频或视觉特征而K_1,2和V_1,2来自音频或视觉特征两者，CMRA使能对模态内和模态间关系两者的适应性学习以及它们之间的平衡。来自视频序列中的模态的单独片段使能基于所学习的关系从两个模态的所有相关片段获得有用信息，这促进视听表示学习并且进一步提高AVE定位的性能。

下面说明了AVE定位中CMRA的具体实例的示例。在不失一般性的情况下，为了说明的目的，以下描述将视觉特征作为查询。给定音频特征

和视觉特征

该方法和/或系统用线性变换将v投影到查询特征中，表示为

然后，该方法和/或系统暂时地级联v与a，以获得原始记忆库

然后，该方法和/或系统将m_a,v线性转换成键特征

和值特征

跨模态注意力输出v_q被计算为

其中W^Q、W^K、W^V是具有d_m×d_m的尺寸的可学习参数。虽然在此示例中，为了说明目的将视觉特征v用作查询，但应注意，音频特征可以用作利用音频特征的关系的查询。相比之下，当存储器仅包含与查询相同的模态特征时，自注意力可被认为是CMRA的特殊情况。在实施例中，CMRA可在以下描述的关系感知模块中实现。

关系感知模块

在实施例中，关系感知模块(例如，在图3中在318和320处示出的)涉及跨模态关系模块和内部时间关系块，分别表示为M_cmra和B_self。图2还示出了218和220处的跨模态关系模块以及214和216处的内部时间关系块(也称为模态内关系块)的示例。在实施例中，模块M_cmra包含跨模态关系注意力机制(CMRA)以利用关系。B_self用作M_cmra的助手。在实施例中，示例架构中的视频/音频关系感知模块是关系感知模块，其在CMRA操作中将视觉或音频特征作为查询。

为了说明的目的，来自AGSCA模块的视觉特征

被作为查询(例如，在图3中318处所示的视频关系感知模块)。给定要被查询的视觉特征v、以及要成为存储器的一部分的音频特征

该方法和/或系统经由线性层将它们转换成公共空间。例如，变换后的视觉和音频特征分别被表示为具有T×d_m的相同尺寸的F_v和F_a。然后，B_self作为输入F_a预先探索内部时间关系，产生表示为

的自注意的音频特征。M_cmra作为输入F_v以及

在CMRA的帮助下探索视觉特征的模态内关系和模态间关系，并且产生关系感知视觉特征v_o(例如，在图3中在322处示出)作为输出。整个过程可以总结为

其中

和

是可学习参数。

跨模态关系模块。

在实施例中，使用CMRA操作，跨模态关系模块M_cmra用来利用模态间关系以及模态内关系。在实施例中，该方法和/或系统在多头设置中如下执行CMRA：

H＝Concat(h₁,...,h_n)W_h,

其中||表示时间级联操作，W_i ^Q、W_i ^K、W_i ^V、W_h是要学习的参数，并且n表示并行CMRA模块的数量。为了避免来自CMRA的传输损耗，该方法和/或系统可以将F_v作为残差连接添加到H连同层归一化为

Hr＝LayerNorm(H+F_v). (8)

为了进一步融合来自若干并行CMRA操作的信息，该方法和/或系统利用ReLU通过两个线性层转发H_r。在实施例中，输出v_o的详细计算可以被给出为

v_o＝LayerNorm(O_f+H_r),

其中δ表示ReLU函数，并且W₃和W₄是两个线性层的可学习参数。

内部时间关系块

在实施例中，该方法和/或系统用自注意力在M_cmra中替换CMRA，以获得内部时间关系块B_self。块B_self预先集中于探索存储器特征的一部分的内部时间关系以协助M_cmra。

音频-视频交互模块

关系感知模块输出跨模态关系感知视觉和声学表示，分别表示为

和

在图2中的222、224处示出，并且还在图3中的322、324处示出。在实施例中，音频-视频交互模块获得一个或多个分类器的两个模态的全面表示。在实施例中，音频-视频交互模块通过将v₀与a₀结合设法捕获视觉与声学通道之间的共振。

在实施例中，该方法和/或系统用逐元素乘法来融合v_o和a_o，以获得这两个模态的联合表示，表示为f_av。然后，该方法和/或系统利用f_av来参加视觉表示vo和声学表示a_o，其中v_o和a_o单独地提供视觉和声学信息以用于更好的视觉理解和声学感觉。此操作可以被视为CMRA的变型，其中查询是存储器特征的融合。该方法和/或系统然后将残差连接和层标准化添加到注意力输出，类似于关系感知模块。

在实施例中，全面双模态表示O_av计算如下：

O_av＝LayerNorm(O+f_av),

其中

表示逐元素乘法，并且

是要学习的参数。

监督和弱监督视听事件定位

监督本地化

在实施例中，音频-视频交互模块(例如，在图2中的226处示出，并且还在图3中的336处示出)获得具有T×d_m的尺寸的特征O_av。在实施例中，该方法和/或系统将该定位分解为预测两个分数。一种是确定视听事件是否存在于第t视频片段中的置信度分数

另一个是事件类别分数，其中C表示前台(foreground)类别的数量。置信度分数

计算为

其中W_s是可学习参数，并且σ表示sigmoid函数。对于类别分数

实施例中的方法和/或系统对融合特征O_av进行最大池化，从而产生特征向量

事件类别分类器(例如，在图3中330处所示)作为输入o_av，以预测事件类别分数

其中，W_c为要学习的参数矩阵。

在推理阶段期间，最终预测由

和

确定。如果

则第t片段被预测为是事件相关的，其中事件类别根据

如果

则第t片段被预测为背景。

在训练中，系统和/或方法可具有片段级标签，包括事件相关标签和事件类别标签。总体目标函数是用于事件分类的交叉熵损失和用于事件相关预测的二进制交叉熵损失的总和。

弱监督定位

在弱监督方式中，方法和/或系统也可以如上所述预测

和

在一方面中，由于方法和/或系统可仅访问视频级标签，因此方法和/或系统可对

重复T次，以及对

重复C次，并且然后经由逐元素乘法融合它们，从而产生联合分数

在实施例中，该方法和/或系统可将该问题公式化为多实例学习(MIL)问题并聚合片段级预测

以在训练期间经由MIL池化获得视频级预测。在推理期间，在实施例中，预测过程可以与监督任务的预测过程相同。

例如，训练设置可包括将关系感知模块中的隐藏维度dm设置为256。对于CMRA和关系感知模块中的自注意力，系统和/或方法可将平行头部的数量设置为4。批大小是32。作为示例，该方法和/或系统可应用Adam作为优化器以基于训练数据迭代地更新神经网络的权重。作为示例，该方法和/或系统可以将初始学习设置为5×10^-4并且通过在历元10、20和30处乘以0.5而使其逐渐衰减。可以使用另一个优化器。

图6示出了实施例中的方法和/或系统所输出的示例定位结果。该方法和/或系统正确地预测每个片段的事件类别(例如，作为背景(BG)或猫尖叫)，并且因此精确地定位猫尖叫事件。

图7是示出实施例中的用于视听事件定位的方法的流程图。在实施例中，本文所描述的双模态关系网络可以执行视听事件的定位。该方法可以由一个或多个处理器(诸如硬件处理器)运行或执行，或者在一个或多个处理器上运行或执行。在702处，该方法包括接收用于视听事件定位的视频馈送。在704处，该方法包括基于视频馈送的所提取的音频特征和视频特征的组合，通过运行第一神经网络来确定视频馈送中的信息特征和区域。例如，可运行可包括第一神经网络的音频引导的视觉注意力模块。

在706处，该方法包括，基于由第一神经网络确定的视频馈送中的信息特征和区域，该方法可以包括通过运行第二神经网络来确定关系感知视频特征。在708处，基于由第一神经网络确定的视频馈送中的信息特征和区域，该方法可以包括通过运行第三神经网络来确定关系感知音频特征。例如，可以实现和/或运行模态内和模态间模块(例如，上面参考图2中的214、216、218和220所描述的)。在实施例中，第二神经网络在确定关系感知视频特征时获取视频特征中的时间信息和视频特征与音频特征之间的跨模态信息两者。在实施例中，第三神经网络在确定关系感知音频特征时获取音频特征中的时间信息和视频特征与音频特征之间的跨模态信息两者。

在710处，该方法包括：通过运行第四神经网络，基于关系感知视频特征和关系感知音频特征获得双模态表示。例如，可以实现和/或运行音频-视频交互模块(例如，以上参考226所描述的)。

在712处，该方法包括将双模态表示输入到分类器，以识别视频馈送中的视听事件。在实施例中，双模态表示在标识视听事件中被用作为分类器的最后一层。标识视频馈送中的视听事件的分类器可以包括标识视频馈送中发生视听事件的位置以及视听事件的类别。

在实施例中，卷积神经网络(例如，被称为第一卷积神经网络以用于解释)可以至少与视频馈送的视频部分一起运行以提取视频特征。在实施例中，可以至少用视频馈送的音频部分运行卷积神经网络(例如，被称为第二卷积神经网络以用于解释)以提取音频特征。

图8是示出一个实施例中的系统的组件的图，该系统可以实现用于视听事件定位的双模态关系网络。诸如中央处理单元(CPU)、图形处理单元(GPU)和/或现场可编程门阵列(FPGA)、专用集成电路(ASIC)和/或另一处理器之类的一个或多个硬件处理器802可以与存储设备804耦合，实现双模态关系网络并执行视听事件定位。存储器设备804可以包括随机存取存储器(RAM)、只读存储器(ROM)或另一存储器设备，并且可以存储用于实现与在此描述的方法和/或系统相关联的不同功能的数据和/或处理器指令。一个或多个处理器802可执行存储在存储器804中或者从另一个计算机设备或介质接收的计算机指令。存储器设备804可以例如存储用于一个或多个硬件处理器802的功能的指令和/或数据，并且可以包括操作系统和指令和/或数据的其他程序。一个或多个硬件处理器802可以接收包括视频馈送的输入，例如，可以从视频馈送提取视频和音频特征。例如，至少一个硬件处理器802可使用本文描述的方法和技术来执行视听事件定位。在一个方面，诸如输入数据和/或中间数据之类的数据可以被存储在存储设备806中或者经由网络接口808从远程设备接收，并且可以被临时加载到存储器设备804中以用于实现双模态关系网络并且执行视听事件定位。双模态关系网络中的经学习的模型(诸如神经网络模型)可以被存储在存储器设备804上，例如，用于由一个或多个硬件处理器802执行。一个或多个硬件处理器802可以与接口设备耦合，该接口设备诸如用于例如经由网络与远程系统通信的网络接口808和用于与诸如键盘、鼠标、显示器和/或其他之类的输入和/或输出设备通信的输入/输出接口810。

图9示出了在一个实施例中可以实现双模态关系网络系统的示例计算机或处理系统的示意图。计算机系统仅是合适的处理系统的一个示例，并且不旨在对本文描述的方法的实施例的使用范围或功能提出任何限制。所示的处理系统可以与许多其他通用或专用计算系统环境或配置一起操作。适用于图9所示的处理系统的众所周知的计算系统、环境和/或配置的示例可以包括但不限于个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持式或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型计算机系统、大型计算机系统和包括任何上述系统或设备的分布式云计算环境等。

可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般上下文中描述计算机系统。一般而言，程序模块可包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等。计算机系统可在分布式云计算环境中实践，其中任务由通过通信网络链接的远程处理设备执行。在分布式云计算环境中，程序模块可以位于包括存储器存储设备的本地和远程计算机系统存储媒质中。

计算机系统的组件可以包括但不限于一个或多个处理器或处理单元12、系统存储器16和将包括系统存储器16的不同系统组件耦合到处理器12的总线14。处理器12可包括执行本文描述的方法的一个或多个模块30。模块30可被编程到处理器12的集成电路中，或从存储器16、存储设备18或网络24或其组合加载。

总线14可以表示若干类型的总线结构中的任何一种中的一个或多个，包括存储器总线或存储器控制器、外围总线、加速图形端口、以及使用各种总线架构中的任一种的处理器或局部总线。作为示例而非限制，此类架构包括工业标准架构(ISA)总线、微通道架构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线以及外围组件互连(PCI)总线。

计算机系统可以包括各种计算机系统可读介质。这样的介质可以是可由计算机系统访问的任何可用介质，并且其可以包括易失性和非易失性介质、可移动和不可移动介质。

系统存储器16可包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)和/或高速缓冲存储器或其他。计算机系统可以进一步包括其他可移动/不可移动、易失性/非易失性计算机系统存储媒质。仅通过示例的方式，存储系统18可以被提供用于从不可移动、非易失性磁介质(例如，“硬盘驱动器”)中读取和向其写入。尽管未示出，可以提供用于从可移动非易失性磁盘(例如，“软盘”)读取或向其写入的磁盘驱动器，以及用于从可移动非易失性光盘(如CD-ROM、DVD-ROM或其他光学介质)读取或向其写入的光盘驱动器。在这样的情况下，每一个可以通过一个或多个数据介质接口连接到总线14。

计算机系统还可与一个或一个以上外部设备26(诸如键盘、指向设备、显示器28等)通信；和/或使计算机系统能够与一个或多个其他计算设备通信的任何设备(例如，网卡、调制解调器等)。这样的通信可经由输入/输出(I/O)接口20发生。

此外，计算机系统可经由网络适配器22与一个或多个网络24(诸如局域网(LAN)、通用广域网(WAN)和/或公共网络(例如，因特网))通信。如图所示，网络适配器22通过总线14与计算机系统的其他组件通信。应当理解，虽然未示出，但是其他硬件和/或软件组件可以与计算机系统结合使用。示例包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器和数据归档存储系统等。

本发明可以是任何可能的技术细节集成度的系统、方法和/或计算机程序产品。计算机程序产品可包括其上具有用于使处理器执行本发明的各方面的计算机可读程序指令的计算机可读存储介质(或多个介质)。

计算机可读存储介质可为可保留和存储供指令执行装置使用的指令的有形装置。计算机可读存储介质可以是，例如但不限于，电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备、或者上述的任意合适的组合。计算机可读存储介质的更具体示例的非穷尽列表包括以下各项：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式紧凑盘只读存储器(CD-ROM)、数字通用盘(DVD)、记忆棒、软盘、诸如穿孔卡之类的机械编码设备或具有记录在其上的指令的槽中的凸出结构、以及上述各项的任何合适的组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身，例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，穿过光纤电缆的光脉冲)或通过电线发射的电信号。

本文中所描述的计算机可读程序指令可以经由网络(例如，互联网、局域网、广域网和/或无线网络)从计算机可读存储介质下载到相应的计算/处理设备，或者下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输纤维、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口接收来自网络的计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据、或以一种或多种程序设计语言的任何组合编写的源代码或目标代码，这些程序设计语言包括面向对象的程序设计语言(诸如Smalltalk、C++等)和过程程序设计语言(诸如“C”程序设计语言或类似程序设计语言)。计算机可读程序指令可以完全地在用户计算机上执行、部分在用户计算机上执行、作为独立软件包执行、部分在用户计算机上部分在远程计算机上执行或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接至用户计算机，或者可连接至外部计算机(例如，使用互联网服务提供商通过互联网)。在一些实施例中，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来使电子电路个性化来执行计算机可读程序指令，以便执行本发明的各方面。

下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可被提供给计算机或其他可编程数据处理装置的处理器以产生机器，使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现在流程图和/或框图的或多个框中指定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储媒质中，这些指令使得计算机、可编程数据处理装置、和/或其他设备以特定方式工作，从而，其中存储有指令的计算机可读存储媒质包括包含实现流程图和/或框图中的或多个方框中规定的功能/动作的方面的指令的制造品。

也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤，以产生计算机实现的处理，使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图中的或多个方框中规定的功能/动作。

附图中的流程图和框图示出了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。对此，流程图或框图中的每个框可表示指令的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些备选实现中，框中标注的功能可以不按照图中标注的顺序发生。例如，连续示出的两个方框实际上可以作为一个步骤完成，同时、基本上同时、以部分或完全时间上重叠的方式执行，或者方框有时可以以相反的顺序执行，这取决于所涉及的功能。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作或执行专用硬件与计算机指令的组合的专用的基于硬件的系统来实现。

本文中使用的术语仅用于描述具体实施方式的目的，而并非旨在限制本发明。如本文中使用的，除非上下文另有明确指示，否则单数形式“一”、“一个”和“该”旨在也包括复数形式。如本文中使用的，术语“或”是包括性的算子并且可以意指“和/或”，除非上下文另有明确或明确指示。还应当理解，当在本文中使用时，术语“包括(comprise)”、“包括(comprises)”、“包括(comprising)”、“包括(includes)”、“包括(includes)”、“包括(including)”和/或“具有(having)”可以指定所述特征、整体、步骤、操作、元件和/或部件的存在，但不排除一个或多个其他特征、整体、步骤、操作、元件、部件和/或其组合的存在或添加。如本文中使用的，短语“在实施方式中”不一定指相同的实施方式，尽管它可以指相同的实施方式。如本文中使用的，短语“在一个实施方式中”不一定指相同的实施方式，尽管它可以指相同的实施方式。如本文中使用的，短语“在另一实施方式中”不一定指不同的实施方式，尽管它可以指不同的实施方式。此外，实施例和/或实施例的部件可以彼此自由组合，除非它们相互排斥。

以下权利要求中的所有装置或步骤加功能元件(如果有的话)的相应结构、材料、动作和等同物旨在包括用于与如具体要求保护的其他要求保护的元件组合执行所述功能的任何结构、材料或动作。已经出于说明和描述的目的呈现了本发明的描述，但并不旨在是详尽的或限于所公开形式的本发明。在不背离本发明的范围的情况下，许多修改和变化对于本领域普通技术人员来说是显而易见的。选择和描述实施例以便最好地解释本发明的原理和实际应用，并且使本领域的其他普通技术人员能够理解本发明的具有适合于预期的特定用途的各种修改的各种实施例。

Claims

1.一种系统，包括：

硬件处理器；

存储器，所述存储器与所述硬件处理器耦合；

所述硬件处理器被配置为：

接收用于音频-视觉事件定位的视频馈送；

基于所述视频馈送的所提取的音频特征和视频特征的组合，通过运行第一神经网络来确定所述视频馈送中的信息特征和区域；

基于由所述第一神经网络确定的所述视频馈送中的所述信息特征和区域，通过运行第二神经网络来确定关系感知视频特征；

基于由所述第一神经网络确定的所述视频馈送中的所述信息特征和区域，通过运行第三神经网络来确定关系感知音频特征；

通过运行第四神经网络，基于所述关系感知视频特征和所述关系感知音频特征获得双模态表示；

将所述双模态表示输入到分类器，以识别所述视频馈送中的音频-视觉事件。

2.根据权利要求1所述的系统，其中，所述硬件处理器还被配置为至少用所述视频馈送的视频部分运行第一卷积神经网络以提取所述视频特征。

3.根据权利要求1所述的系统，其中，所述硬件处理器还被配置为至少用所述视频馈送的音频部分运行第二卷积神经网络以提取所述音频特征。

4.根据权利要求1所述的系统，其中，所述双模态表示在识别所述音频-视觉事件中被用作所述分类器的最后一层。

5.根据权利要求1所述的系统，其中，所述分类器识别所述视频馈送中的所述音频-视觉事件包括识别所述视频馈送中发生所述音频-视觉事件的位置以及所述音频-视觉事件的类别。

6.根据权利要求1所述的系统，其中，所述第二神经网络在确定所述关系感知视频特征时获取所述视频特征中的时间信息和所述视频特征与所述音频特征之间的跨模态信息两者。

7.根据权利要求1所述的系统，其中，所述第三神经网络在确定所述关系感知音频特征时获取所述音频特征中的时间信息和所述视频特征与所述音频特征之间的跨模态信息两者。

8.一种计算机实现的方法，包括：

接收用于音频-视觉事件定位的视频馈送；

9.根据权利要求8所述的方法，还包括至少用所述视频馈送的视频部分运行第一卷积神经网络以提取所述视频特征。

10.根据权利要求8所述的方法，还包括至少用所述视频馈送的音频部分运行第二卷积神经网络以提取所述音频特征。

11.根据权利要求8所述的方法，其中，所述双模态表示在识别所述音频-视觉事件中被用作所述分类器的最后一层。

12.根据权利要求8所述的方法，其中，所述分类器识别所述视频馈送中的所述音频-视觉事件包括识别所述视频馈送中发生所述音频-视觉事件的位置以及所述音频-视觉事件的类别。

13.根据权利要求8所述的方法，其中，所述第二神经网络在确定所述关系感知视频特征时获取所述视频特征中的时间信息和所述视频特征与所述音频特征之间的跨模态信息两者。

14.根据权利要求8所述的方法，其中，所述第三神经网络在确定所述关系感知音频特征时获取所述音频特征中的时间信息和所述视频特征与所述音频特征之间的跨模态信息两者。

15.一种计算机程序产品，包括具有随其体现的程序指令的计算机可读存储介质，所述程序指令能够由设备读取/执行以使所述设备：

接收用于音频-视觉事件定位的视频馈送；

通过运行第四神经网络，基于所述关系感知视频特征和所述关系感知音频特征获得双模态表示；以及

16.根据权利要求15所述的计算机程序产品，其中，所述设备还被使得至少用所述视频馈送的视频部分运行第一卷积神经网络以提取所述视频特征。

17.根据权利要求15所述的计算机程序产品，其中，所述设备还被使得至少用所述视频馈送的音频部分运行第二卷积神经网络以提取所述音频特征。

18.根据权利要求15所述的计算机程序产品，其中，所述双模态表示在识别所述音频-视觉事件中被用作所述分类器的最后一层。

19.根据权利要求15所述的计算机程序产品，其中，所述分类器识别所述视频馈送中的所述音频-视觉事件包括识别所述视频馈送中发生所述音频-视觉事件的位置以及所述音频-视觉事件的类别。

20.根据权利要求15所述的计算机程序产品，其中，所述第二神经网络在确定所述关系感知视频特征时获取所述视频特征中的时间信息和所述视频特征与所述音频特征之间的跨模态信息两者，以及所述第三神经网络在确定所述关系感知音频特征时获取所述音频特征中的时间信息和所述视频特征与所述音频特征之间的所述跨模态信息两者。