CN115620110B - 一种视频事件定位与识别方法、装置及存储介质 - Google Patents

一种视频事件定位与识别方法、装置及存储介质 Download PDF

Info

Publication number
CN115620110B
CN115620110B CN202211619599.8A CN202211619599A CN115620110B CN 115620110 B CN115620110 B CN 115620110B CN 202211619599 A CN202211619599 A CN 202211619599A CN 115620110 B CN115620110 B CN 115620110B
Authority
CN
China
Prior art keywords
features
audio
video
visual
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211619599.8A
Other languages
English (en)
Other versions
CN115620110A (zh
Inventor
谭明奎
徐浩明
吉冬昱
杜卿
胡灏
李利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Guangwu Internet Technology Co ltd
South China University of Technology SCUT
Original Assignee
Guangdong Guangwu Internet Technology Co ltd
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Guangwu Internet Technology Co ltd, South China University of Technology SCUT filed Critical Guangdong Guangwu Internet Technology Co ltd
Priority to CN202211619599.8A priority Critical patent/CN115620110B/zh
Publication of CN115620110A publication Critical patent/CN115620110A/zh
Application granted granted Critical
Publication of CN115620110B publication Critical patent/CN115620110B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/44Event detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种视频事件定位与识别方法、装置及存储介质,其中方法包括:获取同步的视频数据和音频数据;提取视觉特征和音频特征;利用声音引导的视觉注意力机制模块和视觉引导的声音注意力机制模块进行特征增强;将增强的特征输入跨模态关系感知模块,进行建模以及利用音视频模态内和模态间的关系,实现模态间的信息互补,增强特征表达能力,输出事件定位和识别的结果。本发明有效地建模和利用了音视频模态内和模态间的关系,实现跨模态信息互相补充,具有更强的表征能力;同时,能够有效缓解复杂视频背景和音频无关声音带来的干扰,因而事件的定位和识别的准确度更高。本发明可广泛应用于智能识别技术领域。

Description

一种视频事件定位与识别方法、装置及存储介质
技术领域
本发明涉及智能识别技术领域,尤其涉及一种视频事件定位与识别方法、装置及存储介质。
背景技术
视频事件定位与识别是视频理解领域的一个重要研究方向,其要求智能算法自动定位视频和音频中所发生事件的起始和结束时间并识别事件的类别。在现实生活中,事件定位与识别有着广泛的潜在应用场景,具备重要的应用价值,例如安防领域的智能监控预警及信息安全监测、医疗领域的视频影像辅助分析、娱乐领域的视频高光片段捕捉等。
然而,由于实际应用场景中视频时空内容变化大、视觉背景和音频内容复杂、音视频背景等冗余干扰信息多,事件难以准确定位和识别。例如,在轨道交通场景中,人员复杂,人流密集,视频内容多变,视觉背景复杂,声音来源多样且背景杂音大,准确定位和识别冲突盗窃等异常事件极具挑战性。实际上,人类在定位和识别事件时,视频和音频模态间的关系信息发挥着重要作用。这种关联关系往往起着相互引导和互相补充的作用。如何有效利用音视频模态内和模态间的关系,实现跨模态信息互补,提高特征表达能力,同时减少视觉和音频背景的干扰,是目前该领域仍未解决的问题。
综上所述,如何建模和利用音视频模态间和模态内关系,为模型提供事件定位和识别推理线索,同时减少复杂视频背景和音频背景无关声音带来的干扰,是当前该领域亟待解决的问题。
发明内容
为至少一定程度上解决现有技术中存在的技术问题之一,本发明的目的在于提供一种视频事件定位与识别方法、装置及存储介质。
本发明所采用的技术方案是:
一种视频事件定位与识别方法,包括以下步骤:
获取同步的视频数据和音频数据;
根据视频数据提取视觉特征,根据音频数据提取音频特征;
将视觉特征输入声音引导的视觉注意力机制模块进行增强处理,输出视觉增强特征;
将音频特征输入视觉引导的声音注意力机制模块进行增强处理,输出音频增强特征;
将视觉增强特征和音频增强特征输入跨模态关系感知模块,进行建模以及利用音视频模态内和模态间的关系,实现模态间的信息互补,增强特征表达能力,输出事件定位和识别的结果。
进一步地,所述获取同步的视频数据和音频数据,包括:
获取音频数据,利用短时傅里叶变换将音频数据转化为对数梅尔频谱图;
获取视频数据,利用Decord视频解码包对视频数据进行分帧处理,利用稀疏采样策略对视频帧进行稀疏采样,得到视频帧和对应的音频的对数梅尔频谱图。
进一步地,所述根据视频数据提取视觉特征,根据音频数据提取音频特征,包括:
采用ResNet网络作为视觉特征提取器,提取视觉特征
Figure 337389DEST_PATH_IMAGE001
采用VGGish网络作为音频特征提取器,提取音频特征
Figure 602148DEST_PATH_IMAGE002
进一步地,所述将视觉特征输入声音引导的视觉注意力机制模块进行增强处理,输出视觉增强特征,包括:
对于视觉特征
Figure 152078DEST_PATH_IMAGE003
和音频特征
Figure 33447DEST_PATH_IMAGE004
,利用声音信号对视觉信息建模的引导作用,分别在通道和空间维度指导视觉注意力,使模型着重关注重要特征和空间区域,缓解无关信息干扰,得到视觉增强特征
Figure 264708DEST_PATH_IMAGE005
,公式表达如下:
Figure 711870DEST_PATH_IMAGE006
Figure 104805DEST_PATH_IMAGE007
Figure 270207DEST_PATH_IMAGE008
Figure 39580DEST_PATH_IMAGE009
式中,
Figure 606827DEST_PATH_IMAGE010
Figure 433313DEST_PATH_IMAGE011
分别表示空间和通道维度视觉注意力权重,
Figure 23695DEST_PATH_IMAGE012
Figure 659075DEST_PATH_IMAGE013
表示可学习参数矩阵,
Figure 752933DEST_PATH_IMAGE014
表示空间维度的全局平均池化层,
Figure 815567DEST_PATH_IMAGE015
表示多层感知机,
Figure 627666DEST_PATH_IMAGE016
表示Sigmoid函数,
Figure 66737DEST_PATH_IMAGE017
表示矩阵乘法操作,
Figure 280681DEST_PATH_IMAGE018
表示逐元素的乘法运算,
Figure 717478DEST_PATH_IMAGE019
表示Soft-max函数;
Figure 79190DEST_PATH_IMAGE020
表示通道注意力,
Figure 994056DEST_PATH_IMAGE021
表示空间注意力,
Figure 124823DEST_PATH_IMAGE022
表示音视频片段的时序位置;
Figure 466943DEST_PATH_IMAGE023
表示作用于音频特征的空间注意力可学习参数,
Figure 315950DEST_PATH_IMAGE024
表示作用于视频特征的空间注意力可学习参数,
Figure 768928DEST_PATH_IMAGE025
表示作用于音频特征的通道注意力可学习参数,
Figure 19781DEST_PATH_IMAGE026
表示作用于视频特征的通道注意力可学习参数,
Figure 798381DEST_PATH_IMAGE027
表示通道注意的视频特征。
进一步地,所述将音频特征输入视觉引导的声音注意力机制模块进行增强处理,输出音频增强特征,包括:
对于视觉特征
Figure 72367DEST_PATH_IMAGE003
和音频特征
Figure 391353DEST_PATH_IMAGE004
,利用视觉信号对声音信息的建模引导作用,在通道维度引导声音注意力,使模型关注更具信息量的声音通道特征,得到音频增强特征
Figure 434396DEST_PATH_IMAGE028
,公式表达如下:
Figure 180635DEST_PATH_IMAGE029
Figure 676338DEST_PATH_IMAGE030
其中,
Figure 799015DEST_PATH_IMAGE031
表示通道维度声音注意力权重,
Figure 696564DEST_PATH_IMAGE032
Figure 816967DEST_PATH_IMAGE033
表示可学习参数矩阵,
Figure 127862DEST_PATH_IMAGE014
表示空间维度的全局平均池化层,
Figure 726334DEST_PATH_IMAGE016
表示Sigmoid函数,
Figure 540706DEST_PATH_IMAGE018
表示逐元素的乘法运算;
Figure 829080DEST_PATH_IMAGE034
表示音频通道注意力中的用于可学习参数。
进一步地,所述跨模态关系感知模块包括跨模态注意力机制和基于门控机制的特征选择模块;所述跨模态注意力机制通过全连接层、层归一化函数、线性整流函数构建获得,所述基于门控机制的特征选择模块通过全连接层、双曲正切函数、S型函数构建获得;
利用跨模态注意力机制建模以及利用音视频模态内和模态间的关系,提高特征表达能力;
利用基于门控机制的特征选择模块,自适应选择另一模态部分信息作为补充信息,实现跨模态信息互补。
进一步地,所述将视觉增强特征和音频增强特征输入跨模态关系感知模块,进行建模以及利用音视频模态内和模态间的关系,实现模态间的信息互补,增强特征表达能力,输出事件定位和识别的结果,包括:
对于跨模态注意力机制,根据视觉增强特征
Figure 361693DEST_PATH_IMAGE035
和音频增强特征
Figure 763855DEST_PATH_IMAGE028
,通过建模以及利用模态内和模态间关系,聚合自身和其他模态的信息来提高当前模态的特征表达能力,得到关系感知的视频特征
Figure 635997DEST_PATH_IMAGE036
和关系感知的音频特征
Figure 160519DEST_PATH_IMAGE037
对于基于门控机制的特征选择模块,根据视频特征
Figure 118110DEST_PATH_IMAGE036
和音频特征
Figure 120702DEST_PATH_IMAGE037
以及提取的视觉特征
Figure 847349DEST_PATH_IMAGE003
和音频特征
Figure 542773DEST_PATH_IMAGE004
,利用门控机制来自动选择另一模态的部分信息作为补充,得到跨模态互补的视频特征
Figure 722081DEST_PATH_IMAGE038
和跨模态互补的音频特
Figure 528363DEST_PATH_IMAGE039
利用逐元素乘法运算将两个模态特征进行融合,得到音视频联合特征
Figure 640676DEST_PATH_IMAGE040
基于联合特征
Figure 179104DEST_PATH_IMAGE041
,利用两个分类器分别进行事件类别相关性预测和事件类别预测,输出事件定位和识别的结果。
进一步地,所述关系感知的视频特征
Figure 173605DEST_PATH_IMAGE036
的表达式如下:
Figure 455682DEST_PATH_IMAGE042
Figure 219239DEST_PATH_IMAGE043
Figure 928569DEST_PATH_IMAGE044
其中,
Figure 410366DEST_PATH_IMAGE045
Figure 496133DEST_PATH_IMAGE046
中的下标1、2表示不同模态,
Figure 317459DEST_PATH_IMAGE047
表示时序维度特征拼接操作,
Figure 525586DEST_PATH_IMAGE048
Figure 166783DEST_PATH_IMAGE049
Figure 852979DEST_PATH_IMAGE050
表示可学习参数矩阵,
Figure 528811DEST_PATH_IMAGE051
为输入特征的维度;
Figure 642261DEST_PATH_IMAGE052
表示包含一种模态的查询特征,
Figure 770754DEST_PATH_IMAGE045
表示包含两种模态的键特征,
Figure 260641DEST_PATH_IMAGE046
表示包含两种模态的值特征;
Figure 790980DEST_PATH_IMAGE053
表示视觉增强特征
Figure 340910DEST_PATH_IMAGE035
和音频增强特征
Figure 55286DEST_PATH_IMAGE054
两者拼接后特征;
跨模态互补的视频特征
Figure 20968DEST_PATH_IMAGE038
的表达式如下:
Figure 468130DEST_PATH_IMAGE055
Figure 126644DEST_PATH_IMAGE056
式中,
Figure 292046DEST_PATH_IMAGE057
Figure 61419DEST_PATH_IMAGE058
为待学习参数,
Figure 363087DEST_PATH_IMAGE018
表示逐元素的乘法运算,
Figure 192503DEST_PATH_IMAGE059
表示双曲正切函数,
Figure 845201DEST_PATH_IMAGE016
表示Sigmoid函数;
Figure 418265DEST_PATH_IMAGE060
表示互补特征的权重。
本发明所采用的另一技术方案是:
一种视频事件定位与识别装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上所述方法。
本发明所采用的另一技术方案是:
一种计算机可读存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。
本发明的有益效果是:本发明有效地建模和利用了音视频模态内和模态间的关系,实现跨模态信息互相补充,为模型提供更全面的事件定位和识别推理线索,具有更强的表征能力。同时,能够有效缓解复杂视频背景和音频无关声音带来的干扰,因而事件的定位和识别的准确度更高。
附图说明
为了更清楚地说明本发明实施例或者现有技术中的技术方案,下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例,对于本领域的技术人员而言,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
图1是本发明实施例中一种视频事件定位与识别方法的步骤流程图;
图2是本发明实施例中一种视频事件定位与识别方法的网络结构示意图;
图3是本发明实施例中声音引导的视觉注意力机制的示意图;
图4是本发明实施例中视觉引导的声音注意力机制的示意图;
图5是本发明实施例中跨模态关系感知模块的示意图;
图6是本发明实施例中一种视频事件定位与识别方法在AVE数据集上的可视化结果。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
如图1和图2所示,本实施例提供一种视频事件定位与识别方法,包括以下步骤:
S1、获取同步的视频数据和音频数据。
在本实施例中,首先,获取摄像头拍摄的视频数据及录制的音频数据,并对视频分帧及将音频转为时频信号处理保存。
作为一种可选的实施方式,获取待识别的视频和音频数据,并利用短时傅里叶变换将音频信号转化为对数梅尔频谱图。同时利用Decord视频解码包对视频进行分帧处理,然后利用稀疏采样策略对待识别的视频帧进行稀疏采样,得到待输入网络的视频帧和对应的音频的对数梅尔频谱图。
S2、根据视频数据提取视觉特征,根据音频数据提取音频特征。
将视频数据和音频数据输入至预训练过的卷积神经网络中进行特征提取,对于预训练的卷积神经网络,可以任意选择现有的典型卷积神经网络分别作为视觉特征提取器和音频特征提取器进行特征提取。
作为一种可选的实施方式,视觉特征提取器可以选择ResNet网络,音频特征提取器可以选择VGGish网络,得到的视觉特征和音频特征分别记为
Figure 777702DEST_PATH_IMAGE003
Figure 840336DEST_PATH_IMAGE004
S3、将视觉特征输入声音引导的视觉注意力机制模块进行增强处理,输出视觉增强特征。
将提取的视觉特征输入声音引导的视觉注意力机制模块中进行增强,采用声音引导的视觉注意力机制,使模型关注更有信息量的特征并聚焦场景画面中发声的重要区域;利用声音信号对视觉信息的建模引导作用,声音信号分别在视觉特征的通道维度和空间维度引导视觉注意力。
对于声音引导的视觉注意力机制,图3展示了其结构示意图。给定视觉特征
Figure 652434DEST_PATH_IMAGE003
和音频特征
Figure 91506DEST_PATH_IMAGE004
,利用声音信号对视觉信息建模的引导作用,分别在通道和空间维度指导视觉注意力,使模型着重关注重要特征和空间区域,缓解无关信息干扰,得到增强后的视觉特征
Figure 305450DEST_PATH_IMAGE005
Figure 538985DEST_PATH_IMAGE061
Figure 103958DEST_PATH_IMAGE062
Figure 753246DEST_PATH_IMAGE063
Figure 149592DEST_PATH_IMAGE064
其中,
Figure 491711DEST_PATH_IMAGE012
(这里忽略上下角标)和
Figure 543981DEST_PATH_IMAGE013
表示可学习参数矩阵,
Figure 59276DEST_PATH_IMAGE014
表示空间维度的全局平均池化层,
Figure 513391DEST_PATH_IMAGE065
表示多层感知机,
Figure 26412DEST_PATH_IMAGE016
表示Sigmoid函数,
Figure 362716DEST_PATH_IMAGE017
表示矩阵乘法操作,
Figure 619385DEST_PATH_IMAGE018
表示逐元素的乘法运算,
Figure 724744DEST_PATH_IMAGE019
表示Soft-max函数。
S4、将音频特征输入视觉引导的声音注意力机制模块进行增强处理,输出音频增强特征。
将提取的音频增强特征输入视觉引导的声音注意力机制模块进行增强,采用视觉引导的声音注意力机制,使模型过滤背景无关声音信息;利用视频的视觉信息来引导声音在通道维度进行通道间的关系建模,从而帮助过滤声音信号中与事件无关的部分。
对于视觉引导的声音注意力机制,图4展示了其结构示意图。给定视觉特征
Figure 671316DEST_PATH_IMAGE003
和音频特征
Figure 167019DEST_PATH_IMAGE004
,利用视觉信号对声音信息的建模引导作用,在通道维度引导声音注意力,使模型关注更具信息量的声音通道特征,得到增强后的音频特征
Figure 289696DEST_PATH_IMAGE028
Figure 187245DEST_PATH_IMAGE066
Figure 104385DEST_PATH_IMAGE067
其中
Figure 352964DEST_PATH_IMAGE032
Figure 13752DEST_PATH_IMAGE033
表示可学习参数矩阵(这里忽略上下角标),
Figure 765808DEST_PATH_IMAGE014
表示空间维度的全局平均池化层,
Figure 119429DEST_PATH_IMAGE016
表示Sigmoid函数,
Figure 855303DEST_PATH_IMAGE018
表示逐元素的乘法运算。
S5、将视觉增强特征和音频增强特征输入跨模态关系感知模块,进行建模以及利用音视频模态内和模态间的关系,实现模态间的信息互补,增强特征表达能力,输出事件定位和识别的结果。
通过跨模态关系感知模块,建模和利用音视频模态内和模态间的关系,实现模态间的信息互补,增强特征表达能力,最后定位事件的时序位置并预测事件类别。该跨模态关系感知模块包括跨模态注意力机制和基于门控机制的特征选择模块,图5展示了该模块的结构示意图。首先,利用跨模态注意力机制建模和利用音视频模态内和模态间的关系,提高特征表达能力;然后,利用基于门控机制的特征选择模块,自适应选择另一模态部分信息作为补充信息,实现跨模态信息互补。下面分别介绍两个子模块:
对于跨模态注意力机制,给定增强后的视觉特征
Figure 991887DEST_PATH_IMAGE035
和音频特征
Figure 926345DEST_PATH_IMAGE028
,在本实施例中,通过如下计算来建模和利用模态内和模态间关系,聚合自身和其他模态的信息来提高当前模态的特征表达能力,得到关系感知的视频特征
Figure 388550DEST_PATH_IMAGE036
Figure 142879DEST_PATH_IMAGE068
Figure 614312DEST_PATH_IMAGE069
Figure 340959DEST_PATH_IMAGE070
其中,下标1、2表示不同模态,
Figure 770804DEST_PATH_IMAGE047
表示时序维度特征拼接操作,
Figure 215692DEST_PATH_IMAGE048
Figure 21974DEST_PATH_IMAGE049
Figure 603128DEST_PATH_IMAGE050
表示可学习参数矩阵,
Figure 672715DEST_PATH_IMAGE051
为输入特征的维度。通过同样的计算方式可得关系感知的音频特征
Figure 401636DEST_PATH_IMAGE037
,这里不在赘述。
对于基于门控机制的特征选择模块,给定经过跨模态注意力机制的视频特征
Figure 949292DEST_PATH_IMAGE036
和音频特征
Figure 712849DEST_PATH_IMAGE037
以及步骤S2中提取的原始输入特征
Figure 422179DEST_PATH_IMAGE003
Figure 903976DEST_PATH_IMAGE004
,利用门控机制来自动选择另一模态的部分信息作为补充,得到跨模态互补的视频特征
Figure 989744DEST_PATH_IMAGE071
Figure 607807DEST_PATH_IMAGE072
Figure 750688DEST_PATH_IMAGE073
其中,
Figure 391885DEST_PATH_IMAGE074
Figure 343660DEST_PATH_IMAGE058
为待学习参数,
Figure 753913DEST_PATH_IMAGE018
表示逐元素的乘法运算,
Figure 132942DEST_PATH_IMAGE059
表示双曲正切函数,
Figure 261435DEST_PATH_IMAGE016
表示Sigmoid函数。通过同样的计算方式可得到跨模态互补的音频特
Figure 751322DEST_PATH_IMAGE039
经过跨模态关系模块之后,可得到视频特征
Figure 281660DEST_PATH_IMAGE075
和音频特征
Figure 34853DEST_PATH_IMAGE039
。接下来利用逐元素乘法运算将两个模态特征进行融合,得到音视频联合特征
Figure 447379DEST_PATH_IMAGE040
。基于联合特征
Figure 678641DEST_PATH_IMAGE041
,再利用两个分类器分别进行事件类别相关性预测和事件类别预测,输出事件定位和识别的结果。
作为一种可选的实施方式,所提出的模型整体采用交叉熵损失函数进行端到端训练。
作为一种可选的实施方式,跨模态注意力机制通过全连接层、层归一化函数、线性整流函数构建获得,其中,基于缩放点积注意力机制,能够同时建模和利用音视频模态内和模态间的关系信息。
基于门控机制的特征选择模块通过全连接层、双曲正切函数、S型函数构建获得,其中,根据跨模态关系信息,自适应选择另一个模态特征的重要信息作为补充。
利用跨模态注意力机制建模和利用模态内和模态间关系,并利用基于门控机制的特征选择模块所选择的补充信息,对当前模态信息进行补充,从而实现跨模态信息互补。最后定位事件的时序位置并预测事件类别。
实验数值结果
将上述跨模态关系感知的视频事件定位与识别方法应用到相关数据集AVE上,在全监督设定下,本实施例方法取得目前的最好性能,具体事件定位与识别准确度如表1所示:
表1为在AVE数据集的全监督设定下与现有方法的性能对比(全监督设定)
方法 视觉特征 音频特征 准确度(%)
ED-TCN VGG-19 -- 46.9
Audio -- VGG-like 59.5
Visual VGG-19 -- 55.3
Audio-Visual VGG-19 VGGish 71.4
AVSDN VGG-19 VGGish 72.6
Audio-Visual+Attn VGG-19 VGGish 72.7
DAM VGG-19 VGGish 74.5
AV-Transformer VGG-19 VGGish 76.8
本实施例方法 VGG-19 VGGish 78.3
为了进一步验证方法的有效性,还将本实施例方法在AVE数据集的弱监督设定上,与其他方法相比,本实施例方法的达到了目前的最好性能,具体数值对比结果如表2所示:
表2为在AVE数据集的弱监督设定下与现有方法的性能对比
方法 视觉特征 音频特征 准确度(%)
AVEL(视觉) VGG-19 -- 52.9
AVEL(声音) -- VGGish 53.4
AVEL(视觉+声音) VGG-19 VGGish 63.7
AVEL(视觉+声音+Attn) VGG-19 VGGish 66.7
AVSDN VGG-19 VGGish 66.8
AV-Transformer VGG-19 VGGish 70.2
本实施例方法 VGG-19 VGGish 73.6
可视化结果
为了进一步说明本方法的有效性,下图展示了可视化结果。
在图6中,在AVE数据集上展示了方法中声音引导的视觉注意力机制中的注意力图。从结果中可以看出,本实施例的方法能够捕捉更具信息量或发声空间区域,从而大大缓解复杂视频背景带来的干扰,最终提高事件定位和识别的准确度。
综上所述,本发明方法能够有效减少复杂视频和音频无关声音的干扰,同时可有效建模和利用音视频模态内和模态间的关系,实现信息互补,事件定位和识别的推理线索更加丰富。因而,事件定位和识别的准确度有显著提升。进一步,由于该方法框架是通用的,可以适用于不同的应用场景。该发明实施例中所提供的一种跨模态关系感知的视频事件定位与识别方法可广泛应用到智能监控、智慧交通、智能驾驶等智慧城市体系中的关键领域。
本实施例还提供一种视频事件定位与识别装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现图1所示方法。
本实施例的一种视频事件定位与识别装置,可执行本发明方法实施例所提供的一种视频事件定位与识别方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
本申请实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图1所示的方法。
本实施例还提供了一种存储介质,存储有可执行本发明方法实施例所提供的图1所示方法的指令或程序,当运行该指令或程序时,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施方式,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于上述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (7)

1.一种视频事件定位与识别方法,其特征在于,包括以下步骤:
获取同步的视频数据和音频数据;
根据视频数据提取视觉特征,根据音频数据提取音频特征;
将视觉特征输入声音引导的视觉注意力机制模块进行增强处理,输出视觉增强特征;
将音频特征输入视觉引导的声音注意力机制模块进行增强处理,输出音频增强特征;
将视觉增强特征和音频增强特征输入跨模态关系感知模块,进行建模以及利用音视频模态内和模态间的关系,实现模态间的信息互补,增强特征表达能力,输出事件定位和识别的结果;
所述将音频特征输入视觉引导的声音注意力机制模块进行增强处理,输出音频增强特征,包括:
对于视觉特征
Figure QLYQS_1
和音频特征
Figure QLYQS_2
,利用视觉信号对声音信息的建模引导作用,在通道维度引导声音注意力,使模型关注更具信息量的声音通道特征,得到音频增强特征
Figure QLYQS_3
,公式表达如下:
Figure QLYQS_4
Figure QLYQS_5
其中,
Figure QLYQS_6
表示通道维度声音注意力权重,
Figure QLYQS_7
Figure QLYQS_8
表示可学习参数矩阵,
Figure QLYQS_9
表示空间维度的全局平均池化层,
Figure QLYQS_10
表示Sigmoid函数,
Figure QLYQS_11
表示逐元素的乘法运算;
Figure QLYQS_12
表示音频通道注意力中的用于可学习参数;
所述跨模态关系感知模块包括跨模态注意力机制和基于门控机制的特征选择模块;
利用跨模态注意力机制建模以及利用音视频模态内和模态间的关系,提高特征表达能力;
利用基于门控机制的特征选择模块,自适应选择另一模态部分信息作为补充信息,实现跨模态信息互补;
所述将视觉增强特征和音频增强特征输入跨模态关系感知模块,进行建模以及利用音视频模态内和模态间的关系,实现模态间的信息互补,增强特征表达能力,输出事件定位和识别的结果,包括:
对于跨模态注意力机制,根据视觉增强特征
Figure QLYQS_13
和音频增强特征
Figure QLYQS_14
,通过建模以及利用模态内和模态间关系,聚合自身和其他模态的信息来提高当前模态的特征表达能力,得到关系感知的视频特征
Figure QLYQS_15
和关系感知的音频特征
Figure QLYQS_16
对于基于门控机制的特征选择模块,根据视频特征
Figure QLYQS_17
和音频特征
Figure QLYQS_18
以及提取的视觉特征
Figure QLYQS_19
和音频特征
Figure QLYQS_20
,利用门控机制来自动选择另一模态的部分信息作为补充,得到跨模态互补的视频特征
Figure QLYQS_21
和跨模态互补的音频特征
Figure QLYQS_22
利用逐元素乘法运算将两个模态特征进行融合,得到音视频联合特征
Figure QLYQS_23
基于联合特征
Figure QLYQS_24
,利用两个分类器分别进行事件类别相关性预测和事件类别预测,输出事件定位和识别的结果。
2.根据权利要求1所述的一种视频事件定位与识别方法,其特征在于,所述获取同步的视频数据和音频数据,包括:
获取音频数据,利用短时傅里叶变换将音频数据转化为对数梅尔频谱图;
获取视频数据,利用Decord视频解码包对视频数据进行分帧处理,利用稀疏采样策略对视频帧进行稀疏采样,得到视频帧和对应的音频的对数梅尔频谱图。
3.根据权利要求1所述的一种视频事件定位与识别方法,其特征在于,所述根据视频数据提取视觉特征,根据音频数据提取音频特征,包括:
采用ResNet网络作为视觉特征提取器,提取视觉特征
Figure QLYQS_25
采用VGGish网络作为音频特征提取器,提取音频特征
Figure QLYQS_26
4.根据权利要求1所述的一种视频事件定位与识别方法,其特征在于,所述将视觉特征输入声音引导的视觉注意力机制模块进行增强处理,输出视觉增强特征,包括:
对于视觉特征
Figure QLYQS_27
和音频特征
Figure QLYQS_28
,利用声音信号对视觉信息建模的引导作用,分别在通道和空间维度指导视觉注意力,使模型着重关注重要特征和空间区域,缓解无关信息干扰,得到视觉增强特征
Figure QLYQS_29
,公式表达如下:
Figure QLYQS_30
Figure QLYQS_31
Figure QLYQS_32
Figure QLYQS_33
式中,
Figure QLYQS_39
Figure QLYQS_34
分别表示空间和通道维度视觉注意力权重,
Figure QLYQS_49
Figure QLYQS_40
表示可学习参数矩阵,
Figure QLYQS_48
表示空间维度的全局平均池化层,
Figure QLYQS_41
表示多层感知机,
Figure QLYQS_45
表示Sigmoid函数,
Figure QLYQS_36
表示矩阵乘法操作,
Figure QLYQS_47
表示逐元素的乘法运算,
Figure QLYQS_35
表示Soft-max函数;
Figure QLYQS_44
表示通道注意力,
Figure QLYQS_38
表示空间注意力,
Figure QLYQS_46
表示音视频片段的时序位置;
Figure QLYQS_50
表示作用于音频特征的空间注意力可学习参数,
Figure QLYQS_51
表示作用于视频特征的空间注意力可学习参数,
Figure QLYQS_37
表示作用于音频特征的通道注意力可学习参数,
Figure QLYQS_42
表示作用于视频特征的通道注意力可学习参数,
Figure QLYQS_43
表示通道注意的视频特征。
5.根据权利要求1所述的一种视频事件定位与识别方法,其特征在于,所述关系感知的视频特征
Figure QLYQS_52
的表达式如下:
Figure QLYQS_53
Figure QLYQS_54
Figure QLYQS_55
其中,
Figure QLYQS_58
Figure QLYQS_60
中的下标1、2表示不同模态,
Figure QLYQS_66
表示时序维度特征拼接操作,
Figure QLYQS_56
Figure QLYQS_61
Figure QLYQS_64
表示可学习参数矩阵,
Figure QLYQS_68
为输入特征的维度;
Figure QLYQS_57
表示包含一种模态的查询特征,
Figure QLYQS_62
表示包含两种模态的键特征,
Figure QLYQS_65
表示包含两种模态的值特征;
Figure QLYQS_67
表示视觉增强特征
Figure QLYQS_59
和音频增强特征
Figure QLYQS_63
两者拼接后特征;
跨模态互补的视频特征
Figure QLYQS_69
的表达式如下:
Figure QLYQS_70
Figure QLYQS_71
式中,
Figure QLYQS_72
Figure QLYQS_73
为待学习参数,
Figure QLYQS_74
表示逐元素的乘法运算,
Figure QLYQS_75
表示双曲正切函数,
Figure QLYQS_76
表示Sigmoid函数;
Figure QLYQS_77
表示互补特征的权重。
6.一种视频事件定位与识别装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现权利要求1-5任一项所述方法。
7.一种计算机可读存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-5任一项所述方法。
CN202211619599.8A 2022-12-16 2022-12-16 一种视频事件定位与识别方法、装置及存储介质 Active CN115620110B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211619599.8A CN115620110B (zh) 2022-12-16 2022-12-16 一种视频事件定位与识别方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211619599.8A CN115620110B (zh) 2022-12-16 2022-12-16 一种视频事件定位与识别方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN115620110A CN115620110A (zh) 2023-01-17
CN115620110B true CN115620110B (zh) 2023-03-21

Family

ID=84879838

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211619599.8A Active CN115620110B (zh) 2022-12-16 2022-12-16 一种视频事件定位与识别方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN115620110B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112053690A (zh) * 2020-09-22 2020-12-08 湖南大学 一种跨模态多特征融合的音视频语音识别方法及系统
CN114329036A (zh) * 2022-03-16 2022-04-12 中山大学 一种基于注意力机制的跨模态特征融合系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11663823B2 (en) * 2020-08-10 2023-05-30 International Business Machines Corporation Dual-modality relation networks for audio-visual event localization
CN112989977B (zh) * 2021-03-03 2022-09-06 复旦大学 一种基于跨模态注意力机制的视听事件定位方法及装置
CN113971776A (zh) * 2021-10-15 2022-01-25 浙江大学 视听事件定位方法和系统
CN114519809A (zh) * 2022-02-14 2022-05-20 复旦大学 一种基于多尺度语义网络的视听视频解析装置及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112053690A (zh) * 2020-09-22 2020-12-08 湖南大学 一种跨模态多特征融合的音视频语音识别方法及系统
CN114329036A (zh) * 2022-03-16 2022-04-12 中山大学 一种基于注意力机制的跨模态特征融合系统

Also Published As

Publication number Publication date
CN115620110A (zh) 2023-01-17

Similar Documents

Publication Publication Date Title
Kong et al. Sound event detection of weakly labelled data with cnn-transformer and automatic threshold optimization
Duan et al. Audio-visual event localization via recursive fusion by joint co-attention
Su et al. Weakly-supervised audio event detection using event-specific gaussian filters and fully convolutional networks
DE112021004261T5 (de) Dualmodale beziehungsnetzwerke zur audiovisuellen ereignislokalisierung
CN110851835A (zh) 图像模型检测方法、装置、电子设备及存储介质
CN114519809A (zh) 一种基于多尺度语义网络的视听视频解析装置及方法
US11238289B1 (en) Automatic lie detection method and apparatus for interactive scenarios, device and medium
Saddique et al. Classification of authentic and tampered video using motion residual and parasitic layers
CN115393968A (zh) 一种融合自监督多模态特征的视听事件定位方法
CN114581749A (zh) 视听特征融合的目标行为识别方法、装置及应用
Vryzas et al. Audiovisual speaker indexing for Web-TV automations
CN114170585B (zh) 危险驾驶行为的识别方法、装置、电子设备及存储介质
CN113992970A (zh) 视频数据处理方法、装置、电子设备及计算机存储介质
CN116502174A (zh) 一种基于多模态深度学习的环境识别方法及装置
Moliner et al. Bootstrapped representation learning for skeleton-based action recognition
Ramasso et al. Human action recognition in videos based on the transferable belief model: application to athletics jumps
CN116310975B (zh) 一种基于一致片段选择的视听事件定位方法
CN115620110B (zh) 一种视频事件定位与识别方法、装置及存储介质
Chen et al. Modelling of content-aware indicators for effective determination of shot boundaries in compressed MPEG videos
Mumtaz et al. Robust learning for real-world anomalies in surveillance videos
CN115565548A (zh) 异常声音检测方法、装置、存储介质及电子设备
CN113408356A (zh) 基于深度学习的行人重识别方法、装置、设备及存储介质
Zhang et al. An improved system for dcase 2019 challenge task 4
Hou et al. Multi-scale gated attention for weakly labelled sound event detection
CN116052725B (zh) 一种基于深度神经网络的细粒度肠鸣音识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant