CN114841278A - 一种基于空间通道特征融合的视听事件定位方法及系统 - Google Patents

一种基于空间通道特征融合的视听事件定位方法及系统 Download PDF

Info

Publication number
CN114841278A
CN114841278A CN202210535982.9A CN202210535982A CN114841278A CN 114841278 A CN114841278 A CN 114841278A CN 202210535982 A CN202210535982 A CN 202210535982A CN 114841278 A CN114841278 A CN 114841278A
Authority
CN
China
Prior art keywords
features
channel
visual
audio
auditory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210535982.9A
Other languages
English (en)
Inventor
魏莹
郑晓龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202210535982.9A priority Critical patent/CN114841278A/zh
Publication of CN114841278A publication Critical patent/CN114841278A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/44Event detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Stereophonic System (AREA)

Abstract

本发明公开一种基于空间通道特征融合的视听事件定位方法及系统,包括:对目标音视频分别提取视觉特征和听觉特征;对视觉特征和听觉特征进行空间和通道的特征融合,得到空间通道特征;其中,将视觉特征和听觉特征分别经线性变换,且将线性变换后的视觉特征和听觉特征进行矩阵乘法操作后,得到初始融合特征,对初始融合特征分别进行通道维度和空间维度的特征提取后,得到空间注意力图和通道注意力图,根据空间注意力图和通道注意力图得到空间通道特征;根据听觉特征和空间通道特征得到视听特征,根据视听特征进行事件与背景的识别以及事件类别的分类。有效提取视听空间和通道信息,有效提高视听事件识别任务准确率。

Description

一种基于空间通道特征融合的视听事件定位方法及系统
技术领域
本发明涉及视听事件定位技术领域,特别是涉及一种基于空间通道特征融合的视听事件定位方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
视觉和音频信号通常在自然环境中共存,将视频片段中视听流同时出现的场景称为视听事件(AVEs)。比如听到火车的轰鸣声时,可以联想到火车飞驰而过的画面;看到火车在铁路上运行的图片时,可以想象火车的轰鸣。近年来对视听双模态深度学习的研究表明,听觉和视觉信息的融合将提高系统处理视听任务的性能。
视听事件定位任务需要确定视频片段中可见和可听的部分。但是,不受约束的视频通常包含各种噪音,如风声、视觉场景之外的声音,或视觉中与声音无关的干扰物体,增加了定位视听活动的难度。再者视觉和音频信号中存在丰富的互补信息,如何有效地挖掘和融合音视频中的互补信息也是也是目前需解决的问题。
发明内容
为了解决上述问题,本发明提出了一种基于空间通道特征融合的视听事件定位方法及系统,提出融合视听空间特征和通道特征的空间通道特征融合模块,有效提取视听空间和通道信息,有效提高视听事件识别任务准确率。
为了实现上述目的,本发明采用如下技术方案:
第一方面,本发明提供一种基于空间通道特征融合的视听事件定位方法,包括:
对目标音视频分别提取视觉特征和听觉特征;
对视觉特征和听觉特征进行空间和通道的特征融合,得到空间通道特征;其中,将视觉特征和听觉特征分别经不同维度的线性变换,且将线性变换后的视觉特征和听觉特征进行矩阵乘法操作后,得到初始融合特征,对初始融合特征分别进行通道维度和空间维度的特征提取后,得到空间注意力图和通道注意力图,根据空间注意力图和通道注意力图得到空间通道特征;
根据听觉特征和空间通道特征得到视听特征,根据视听特征进行事件与背景的识别以及事件类别的分类从而实现视听事件定位。
作为可选择的实施方式,将目标音视频分割成若干个不重叠的片段,提取每个片段中的视觉内容与听觉内容,对视觉内容和听觉内容分别提取视觉特征和听觉特征。
作为可选择的实施方式,对初始融合特征进行通道维度上的平均池化与softmax操作,得到空间注意力图。
作为可选择的实施方式,对初始融合特征进行空间维度上的平均池化与sigmoid操作,得到通道注意力图。
作为可选择的实施方式,根据空间注意力图和通道注意力图得到空间通道特征的过程包括:
将空间注意力图与视觉特征进行矩阵乘法得到空间注意特征;
将通道注意力图与视觉特征进行矩阵乘法得到通道注意特征;
将视觉特征与通道注意特征相加后得到通道特征,对通道特征进行线性变换,将线性变换后的通道特征和空间注意特征相加得到空间通道特征。
作为可选择的实施方式,根据听觉特征和空间通道特征得到视听特征的过程包括:采用双向LSTM网络,对听觉特征和空间通道特征分别进行特征提取,对双向LSTM网络的输出特征采用特征拼接方法得到视听特征。
作为可选择的实施方式,根据视听特征进行事件与背景的识别以及事件类别的分类过程包括:对预测得分高于阈值的音视频片段判定其存在视听事件,低于阈值的音视频片段判定其为背景片段,在视听事件的音视频片段中标注事件类别。
第二方面,本发明提供一种基于空间通道特征融合的视听事件定位系统,包括:
特征提取模块,被配置为对目标音视频分别提取视觉特征和听觉特征;
空间通道特征融合模块,被配置为对视觉特征和听觉特征进行空间和通道的特征融合,得到空间通道特征;其中,将视觉特征和听觉特征分别经线性变换,且将线性变换后的视觉特征和听觉特征进行矩阵乘法操作后,得到初始融合特征,对初始融合特征分别进行通道维度和空间维度的特征提取后,得到空间注意力图和通道注意力图,根据空间注意力图和通道注意力图得到空间通道特征;
定位模块,被配置为根据听觉特征和空间通道特征得到视听特征,根据视听特征进行事件与背景的识别以及事件类别的分类从而实现视听事件定位。
第三方面,本发明提供一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成第一方面所述的方法。
第四方面,本发明提供一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的方法。
与现有技术相比,本发明的有益效果为:
本发明提出了一种基于空间通道特征融合的视听事件定位方法及系统,提出融合视听空间特征和通道特征的空间通道特征融合模块,有效地提取视听空间和通道信息。摒弃复杂的融合模块,采用简单的特征拼接方法进行视听事件识别,有效提高视听事件识别任务准确率,同时也能很好地完成声源定位任务。
本发明提出了一种基于空间通道特征融合的视听事件定位方法及系统,主要研究无约束视频片段中有监督和弱监督的视听事件定位以及视听事件中的声源定位,还在公共数据集中标记视听事件的声源位置。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例1提供的基于空间通道特征融合的视听事件定位方法流程图;
图2为本发明实施例1提供的基于空间通道特征融合的视听事件定位网络结构图。
具体实施方式
下面结合附图与实施例对本发明做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例1
目前对视听事件定位的相关研究包括,田亚鹏等首先提出视听事件定位,并收集全新的视听事件数据集,提出双多模态残差模块对分别经过两个LSTM的视觉信息和听觉信息进行提取,进而实现视听事件定位。此外,Ramaswamy为了提高视听事件定位的准确性,提出一种基于双线性模型的融合模块和分段注意机制。
声源定位问题需要识别视频中的哪个像素或区域发出声音。早期的研究发现,重要的声音位置信息被编码在音频和视频信号的同步中。最近的研究表明在视听分类任务学习中,一个简单的跨模态注意模型也可以用于准确定位声源。因此,本实施例的视听定位通过类激活映射在空间通道特征融合模块的中间层定位声源。
如图1-2所示,本实施例提出一种基于空间通道特征融合的视听事件定位方法,包括:
对目标音视频分别提取视觉特征和听觉特征;
对视觉特征和听觉特征进行空间和通道的特征融合,得到空间通道特征;其中,将视觉特征和听觉特征分别经不同维度的线性变换,且将线性变换后的视觉特征和听觉特征进行矩阵乘法操作后,得到初始融合特征,对初始融合特征分别进行通道维度和空间维度的特征提取后,得到空间注意力图和通道注意力图,根据空间注意力图和通道注意力图得到空间通道特征;
根据听觉特征和空间通道特征得到视听特征,根据视听特征进行事件与背景的识别以及事件类别的分类。
在本实施例中,令目标音视频
Figure BDA0003648253780000061
其中,C表示事件类别的总数与背景之和;首先将目标音视频分割成T个不重叠的片段
Figure BDA0003648253780000062
其中,Vt和At分别表示视觉内容与听觉内容;
采用训练后的卷积神经网络,对视觉内容和听觉内容分别提取视觉特征
Figure BDA0003648253780000063
和听觉特征
Figure BDA0003648253780000064
其中,dv表示视觉内容经卷积神经网络处理后的通道数,S表示空间维度,da表示听觉内容经卷积神经网络处理后的通道数。
在本实施例中,设计空间通道特征融合模块,以提取融合视觉特征和听觉特征的空间信息和通道信息。
现有的注意力模型一般是基于空间的,即对输入图像编码的卷积神经网络的最后一个转换层特征图重新加权的空间概率;然而由于卷积神经网络是通过在局部接受域内融合空间和通道信息来提取信息特征,因此本实施例提出的空间通道特征融合模块是在空间注意机制的基础上引入通道注意机制,有助于建模不同卷积核所提取的特征之间的重要性。
具体地,在空间注意部分:
首先,将视觉特征
Figure BDA0003648253780000071
和听觉特征
Figure BDA0003648253780000072
分别进行对应的线性变换得到
Figure BDA0003648253780000073
Figure BDA0003648253780000074
然后,将线性变换后的视觉特征
Figure BDA0003648253780000075
与听觉特征
Figure BDA0003648253780000076
做矩阵乘法,得到初始融合特征
Figure BDA0003648253780000077
Figure BDA0003648253780000078
最后,对
Figure BDA0003648253780000079
进行通道维度上的平均池化与softmax操作,得到空间注意力图α,将空间注意力图α与视觉特征
Figure BDA00036482537800000710
进行矩阵乘法得到空间注意特征
Figure BDA00036482537800000711
在通道注意部分,与空间注意部分相似:
首先,将视觉特征
Figure BDA00036482537800000712
和听觉特征
Figure BDA00036482537800000713
分别进行对应的线性变换得到
Figure BDA00036482537800000714
Figure BDA00036482537800000715
然后,将
Figure BDA00036482537800000716
Figure BDA00036482537800000717
做矩阵乘法得到初始融合特征
Figure BDA00036482537800000718
不同的是,此时对
Figure BDA00036482537800000719
进行空间维度上的平均池化与sigmoid操作,得到通道注意力图β,将通道注意力图β与视觉特征
Figure BDA00036482537800000720
进行矩阵乘法得到通道注意特征
Figure BDA00036482537800000721
同时,通道注意部分,在为了减少信息丢失,本实施例基于残差网络的思想,将视觉特征
Figure BDA00036482537800000722
与通道注意特征之间构建一条直连通道,从而得到所需要的通道特征;对通道特征进行线性变换,使之与空间注意特征的维度一致,然后将线性变换后的通道特征和空间注意特征相加求平均后,得到空间通道特征
Figure BDA0003648253780000081
在本实施例中,将听觉特征
Figure BDA0003648253780000082
和空间通道特征
Figure BDA0003648253780000083
分别送入双向LSTM网络中,与现有的各种复杂结构不同,本实施例采用简单的特征拼接方法,对双向LSTM网络输出的特征采用直接拼接方式进行融合,得到视听特征,且获取到视听特征序列的时间信息。
在本实施例中,对视听特征分别进行事件背景识别与事件分类。具体地:
首先,通过全连接层对视听特征进行事件与背景的识别,预测得分高于阈值的片段认为其存在视听事件,而低于阈值的片段则认为其是背景片段;事件背景识别的损失函数设置为二分类交叉熵损失函数Lossbinary
然后,对视听特征进行事件类别分类,采用多分类交叉熵损失函数Lossmulti,将所预测的事件类别标注在预测为视听事件的片段中;
总损失函数为:Loss=Lossbinary+Lossmulti
本实施例采用公共数据集The Audio-Visual Event dataset来评估上述方法。该数据集包含4143个视频片段,28种类别,涵盖人类演讲、汽车行驶、飞机轰鸣、动物声音等各种视听活动,每个视频片段持续时间为10秒,对每个视频片段在秒级别上做标注,对于弱监督任务,还引入178个不加标注的噪声样本。预测每个视频片段的事件分类,以AVE两个任务的总体准确率作为性能评价的指标。
视听事件定位:分别以VGG-19与VGGish提取得到的每个10秒视频的视觉特征
Figure BDA0003648253780000084
和听觉特征
Figure BDA0003648253780000085
其中dv值为512,S代表空间维度H×W,H与W均为7,da值为128。值得注意的是,对于监督视听事件定位任务,在训练中提供事件相关的片段标签和事件类别标签。在弱监督方式中,只能访问视频级别的事件类别标签,但是同样要做到预测视频的片段标签和事件类别标签。
表1为本实施例方法与各种方法在监督与弱监督的事件定位任务中的性能比较。可见,本实施例方法的预测准确率达到了76.02%,在弱监督的视听事件定位任务中达到了70.5%,均超过了对比的各种方法,可见模型的有效性。
表1性能比较
Figure BDA0003648253780000091
为评估我们提出的空间通道特征融合模块的有效性,采用两组消融实验。在第一组实验中,直接删除空间通道特征融合模块,将视听特征输入双向LSTM。结果如表2所示,可以看出,缺少空间通道特征融合模块的网络在监督与弱监督的视听事件定位的指标都有较大的下降。
在第二组实验中,将通道注意模块部分进行屏蔽,使得网络只使用空间注意模块,但是只使用空间注意模块的网络指标也有明显的下降。这验证了空间通道特征融合模块能够有效的对视听特征进行建模,从而提高AVE任务的精度。
表2消融实验结果
Figure BDA0003648253780000092
Figure BDA0003648253780000101
视听事件中间帧的声源定位:因为原始的视听事件数据集没有声源位置的标注,本实施例使用labelImg对测试集视频中的视听事件片段的中间帧进行声源位置标注,其中帧尺寸为224x224像素。具体地,将标注为声源位置框内的像素点标注为1,其余标注为0;其中,声源所在位置的热力图α在空间通道特征融合模块处获取。
本实施例引入量化的声音定位性能评估指标,即联合上的一致性交集(cIoU),将cIoU定义为:
Figure BDA0003648253780000102
其中,i表示中间帧的像素索引,τ代表阈值设为0.01,A(τ)表示热力图α上的所有值大于τ的像素点的集合,gi表示标注数据为1的像素点的集合。
该公式中的分子表示热力图α上的所有值大于τ的像素点与gi值为1的像素点对应点的乘积之和,分母则由gi表示标注数据为1的像素点之和与热力图α上的所有值大于τ的像素点与gi值为0的像素点(此时将标注框外的像素点标注为1)对应点的乘积之和组成。由此得到声源定位表现的cIoU值为0.343。
将视频片段中视听流同时出现的场景称为视听事件,本实施例主要研究无约束视频片段中有监督和弱监督的视听事件定位以及视听事件中的声源定位。提出了一种融合视听空间特征和通道特征的空间通道特征融合模块,有效地提取和融合视听特征的空间和通道信息,摒弃复杂的融合模块,采用简单的特征拼接方法进行视听事件识别。
在改进视听事件识别模块后,本实施例在公共数据集AVE上进行了实验,还标记AVE数据集中视听事件存在的中间帧的声源位置,经验证,本实施例方法能够有效提高视听事件识别任务,同时也能很好地完成声源定位任务。
实施例2
本实施例提供一种基于空间通道特征融合的视听事件定位系统,包括:
特征提取模块,被配置为对目标音视频分别提取视觉特征和听觉特征;
空间通道特征融合模块,被配置为对视觉特征和听觉特征进行空间和通道的特征融合,得到空间通道特征;其中,将视觉特征和听觉特征分别经不同维度的线性变换,且将线性变换后的视觉特征和听觉特征进行矩阵乘法操作后,得到初始融合特征,对初始融合特征分别进行通道维度和空间维度的特征提取后,得到空间注意力图和通道注意力图,根据空间注意力图和通道注意力图得到空间通道特征;
定位模块,被配置为根据听觉特征和空间通道特征得到视听特征,根据视听特征进行事件与背景的识别以及事件类别的分类。
此处需要说明的是,上述模块对应于实施例1中所述的步骤,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
在更多实施例中,还提供:
一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例1中所述的方法。为了简洁,在此不再赘述。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例1中所述的方法。
实施例1中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (10)

1.一种基于空间通道特征融合的视听事件定位方法,其特征在于,包括:
对目标音视频分别提取视觉特征和听觉特征;
对视觉特征和听觉特征进行空间和通道的特征融合,得到空间通道特征;其中,将视觉特征和听觉特征分别经不同维度的线性变换,且将线性变换后的视觉特征和听觉特征进行矩阵乘法操作后,得到初始融合特征,对初始融合特征分别进行通道维度和空间维度的特征提取后,得到空间注意力图和通道注意力图,根据空间注意力图和通道注意力图得到空间通道特征;
根据听觉特征和空间通道特征得到视听特征,根据视听特征进行事件与背景的识别以及事件类别的分类。
2.如权利要求1所述的一种基于空间通道特征融合的视听事件定位方法,其特征在于,将目标音视频分割成若干个不重叠的片段,提取每个片段中的视觉内容与听觉内容,对视觉内容和听觉内容分别提取视觉特征和听觉特征。
3.如权利要求1所述的一种基于空间通道特征融合的视听事件定位方法,其特征在于,对初始融合特征进行通道维度上的平均池化与softmax操作,得到空间注意力图。
4.如权利要求1所述的一种基于空间通道特征融合的视听事件定位方法,其特征在于,对初始融合特征进行空间维度上的平均池化与sigmoid操作,得到通道注意力图。
5.如权利要求1所述的一种基于空间通道特征融合的视听事件定位方法,其特征在于,根据空间注意力图和通道注意力图得到空间通道特征的过程包括:
将空间注意力图与视觉特征进行矩阵乘法得到空间注意特征;
将通道注意力图与视觉特征进行矩阵乘法得到通道注意特征;
将视觉特征与通道注意特征相加后得到通道特征,对通道特征进行线性变换,将线性变换后的通道特征和空间注意特征相加得到空间通道特征。
6.如权利要求1所述的一种基于空间通道特征融合的视听事件定位方法,其特征在于,根据听觉特征和空间通道特征得到视听特征的过程包括:采用双向LSTM网络,对听觉特征和空间通道特征分别进行特征提取,对双向LSTM网络的输出特征采用特征拼接方法得到视听特征。
7.如权利要求1所述的一种基于空间通道特征融合的视听事件定位方法,其特征在于,根据视听特征进行事件与背景的识别以及事件类别的分类过程包括:对预测得分高于阈值的音视频片段判定其存在视听事件,低于阈值的音视频片段判定其为背景片段,在视听事件的音视频片段中标注事件类别。
8.一种基于空间通道特征融合的视听事件定位系统,其特征在于,包括:
特征提取模块,被配置为对目标音视频分别提取视觉特征和听觉特征;
空间通道特征融合模块,被配置为对视觉特征和听觉特征进行空间和通道的特征融合,得到空间通道特征;其中,将视觉特征和听觉特征分别经不同维度的线性变换,且将线性变换后的视觉特征和听觉特征进行矩阵乘法操作后,得到初始融合特征,对初始融合特征分别进行通道维度和空间维度的特征提取后,得到空间注意力图和通道注意力图,根据空间注意力图和通道注意力图得到空间通道特征;
定位模块,被配置为根据听觉特征和空间通道特征得到视听特征,根据视听特征进行事件与背景的识别以及事件类别的分类。
9.一种电子设备,其特征在于,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-7任一项所述的方法。
CN202210535982.9A 2022-05-17 2022-05-17 一种基于空间通道特征融合的视听事件定位方法及系统 Pending CN114841278A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210535982.9A CN114841278A (zh) 2022-05-17 2022-05-17 一种基于空间通道特征融合的视听事件定位方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210535982.9A CN114841278A (zh) 2022-05-17 2022-05-17 一种基于空间通道特征融合的视听事件定位方法及系统

Publications (1)

Publication Number Publication Date
CN114841278A true CN114841278A (zh) 2022-08-02

Family

ID=82570651

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210535982.9A Pending CN114841278A (zh) 2022-05-17 2022-05-17 一种基于空间通道特征融合的视听事件定位方法及系统

Country Status (1)

Country Link
CN (1) CN114841278A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116310975A (zh) * 2023-03-14 2023-06-23 北京邮电大学 一种基于一致片段选择的视听事件定位方法
CN118395196A (zh) * 2024-06-28 2024-07-26 浪潮电子信息产业股份有限公司 模型训练方法、视频定位方法、系统、设备、产品及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116310975A (zh) * 2023-03-14 2023-06-23 北京邮电大学 一种基于一致片段选择的视听事件定位方法
CN118395196A (zh) * 2024-06-28 2024-07-26 浪潮电子信息产业股份有限公司 模型训练方法、视频定位方法、系统、设备、产品及介质

Similar Documents

Publication Publication Date Title
CN110781916B (zh) 视频数据的欺诈检测方法、装置、计算机设备和存储介质
Chung et al. Lip reading in the wild
US10565435B2 (en) Apparatus and method for determining video-related emotion and method of generating data for learning video-related emotion
CN109635676B (zh) 一种从视频中定位音源的方法
CN114841278A (zh) 一种基于空间通道特征融合的视听事件定位方法及系统
CN111339913A (zh) 一种视频中的人物情绪识别方法及装置
Borde et al. Recognition of isolated words using Zernike and MFCC features for audio visual speech recognition
CN109495766A (zh) 一种视频审核的方法、装置、设备和存储介质
US10768887B2 (en) Electronic apparatus, document displaying method thereof and non-transitory computer readable recording medium
CN110851641A (zh) 跨模态检索方法、装置和可读存储介质
KR20190059225A (ko) 점진적 딥러닝 학습을 이용한 적응적 영상 인식 기반 감성 추정 방법 및 장치
CN114333896A (zh) 语音分离方法、电子设备、芯片及计算机可读存储介质
CN114357206A (zh) 基于语义分析的教育类视频彩色字幕生成方法及系统
CN114330454A (zh) 一种基于ds证据理论融合特征的生猪咳嗽声音识别方法
CN113128284A (zh) 一种多模态情感识别方法和装置
CN114492579A (zh) 情绪识别方法、摄像装置、情绪识别装置及存储装置
Thiracitta et al. The comparison of some hidden markov models for sign language recognition
Saleem et al. Stateful human-centered visual captioning system to aid video surveillance
CN117729390A (zh) 基于多模态大模型的视频剪辑方法、装置及设备
CN116522212B (zh) 基于图像文本融合的谎言检测方法、装置、设备及介质
WO2023208134A1 (zh) 图像处理方法及模型生成方法、装置、车辆、存储介质及计算机程序产品
CN114022938A (zh) 视素识别的方法、装置、设备和存储介质
KR102564570B1 (ko) 멀티모달 감성 분석 시스템 및 방법
CN114780757A (zh) 短媒体标签抽取方法、装置、计算机设备和存储介质
CN114708653A (zh) 基于行人重识别算法的指定行人动作检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination