CN115620110B - 一种视频事件定位与识别方法、装置及存储介质 - Google Patents
一种视频事件定位与识别方法、装置及存储介质 Download PDFInfo
- Publication number
- CN115620110B CN115620110B CN202211619599.8A CN202211619599A CN115620110B CN 115620110 B CN115620110 B CN 115620110B CN 202211619599 A CN202211619599 A CN 202211619599A CN 115620110 B CN115620110 B CN 115620110B
- Authority
- CN
- China
- Prior art keywords
- features
- audio
- video
- visual
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000000007 visual effect Effects 0.000 claims abstract description 74
- 230000007246 mechanism Effects 0.000 claims abstract description 48
- 230000008447 perception Effects 0.000 claims abstract description 12
- 239000013589 supplement Substances 0.000 claims abstract description 7
- 230000001360 synchronised effect Effects 0.000 claims abstract description 6
- 230000002708 enhancing effect Effects 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 38
- 239000011159 matrix material Substances 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 12
- 230000000295 complement effect Effects 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 230000005236 sound signal Effects 0.000 claims description 6
- 150000001875 compounds Chemical class 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/44—Event detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种视频事件定位与识别方法、装置及存储介质,其中方法包括:获取同步的视频数据和音频数据;提取视觉特征和音频特征;利用声音引导的视觉注意力机制模块和视觉引导的声音注意力机制模块进行特征增强;将增强的特征输入跨模态关系感知模块,进行建模以及利用音视频模态内和模态间的关系,实现模态间的信息互补,增强特征表达能力,输出事件定位和识别的结果。本发明有效地建模和利用了音视频模态内和模态间的关系,实现跨模态信息互相补充,具有更强的表征能力;同时,能够有效缓解复杂视频背景和音频无关声音带来的干扰,因而事件的定位和识别的准确度更高。本发明可广泛应用于智能识别技术领域。
Description
技术领域
本发明涉及智能识别技术领域,尤其涉及一种视频事件定位与识别方法、装置及存储介质。
背景技术
视频事件定位与识别是视频理解领域的一个重要研究方向,其要求智能算法自动定位视频和音频中所发生事件的起始和结束时间并识别事件的类别。在现实生活中,事件定位与识别有着广泛的潜在应用场景,具备重要的应用价值,例如安防领域的智能监控预警及信息安全监测、医疗领域的视频影像辅助分析、娱乐领域的视频高光片段捕捉等。
然而,由于实际应用场景中视频时空内容变化大、视觉背景和音频内容复杂、音视频背景等冗余干扰信息多,事件难以准确定位和识别。例如,在轨道交通场景中,人员复杂,人流密集,视频内容多变,视觉背景复杂,声音来源多样且背景杂音大,准确定位和识别冲突盗窃等异常事件极具挑战性。实际上,人类在定位和识别事件时,视频和音频模态间的关系信息发挥着重要作用。这种关联关系往往起着相互引导和互相补充的作用。如何有效利用音视频模态内和模态间的关系,实现跨模态信息互补,提高特征表达能力,同时减少视觉和音频背景的干扰,是目前该领域仍未解决的问题。
综上所述,如何建模和利用音视频模态间和模态内关系,为模型提供事件定位和识别推理线索,同时减少复杂视频背景和音频背景无关声音带来的干扰,是当前该领域亟待解决的问题。
发明内容
为至少一定程度上解决现有技术中存在的技术问题之一,本发明的目的在于提供一种视频事件定位与识别方法、装置及存储介质。
本发明所采用的技术方案是:
一种视频事件定位与识别方法,包括以下步骤:
获取同步的视频数据和音频数据;
根据视频数据提取视觉特征,根据音频数据提取音频特征;
将视觉特征输入声音引导的视觉注意力机制模块进行增强处理,输出视觉增强特征;
将音频特征输入视觉引导的声音注意力机制模块进行增强处理,输出音频增强特征;
将视觉增强特征和音频增强特征输入跨模态关系感知模块,进行建模以及利用音视频模态内和模态间的关系,实现模态间的信息互补,增强特征表达能力,输出事件定位和识别的结果。
进一步地,所述获取同步的视频数据和音频数据,包括:
获取音频数据,利用短时傅里叶变换将音频数据转化为对数梅尔频谱图;
获取视频数据,利用Decord视频解码包对视频数据进行分帧处理,利用稀疏采样策略对视频帧进行稀疏采样,得到视频帧和对应的音频的对数梅尔频谱图。
进一步地,所述根据视频数据提取视觉特征,根据音频数据提取音频特征,包括:
进一步地,所述将视觉特征输入声音引导的视觉注意力机制模块进行增强处理,输出视觉增强特征,包括:
式中,和分别表示空间和通道维度视觉注意力权重,和表示可学习参数矩阵,表示空间维度的全局平均池化层,表示多层感知机,表示Sigmoid函数,表示矩阵乘法操作,表示逐元素的乘法运算,表示Soft-max函数;表示通道注意力,表示空间注意力,表示音视频片段的时序位置;表示作用于音频特征的空间注意力可学习参数,表示作用于视频特征的空间注意力可学习参数,表示作用于音频特征的通道注意力可学习参数,表示作用于视频特征的通道注意力可学习参数,表示通道注意的视频特征。
进一步地,所述将音频特征输入视觉引导的声音注意力机制模块进行增强处理,输出音频增强特征,包括:
进一步地,所述跨模态关系感知模块包括跨模态注意力机制和基于门控机制的特征选择模块;所述跨模态注意力机制通过全连接层、层归一化函数、线性整流函数构建获得,所述基于门控机制的特征选择模块通过全连接层、双曲正切函数、S型函数构建获得;
利用跨模态注意力机制建模以及利用音视频模态内和模态间的关系,提高特征表达能力;
利用基于门控机制的特征选择模块,自适应选择另一模态部分信息作为补充信息,实现跨模态信息互补。
进一步地,所述将视觉增强特征和音频增强特征输入跨模态关系感知模块,进行建模以及利用音视频模态内和模态间的关系,实现模态间的信息互补,增强特征表达能力,输出事件定位和识别的结果,包括:
其中,、中的下标1、2表示不同模态,表示时序维度特征拼接操作,、和表示可学习参数矩阵,为输入特征的维度;表示包含一种模态的查询特征,表示包含两种模态的键特征,表示包含两种模态的值特征;表示视觉增强特征和音频增强特征两者拼接后特征;
本发明所采用的另一技术方案是:
一种视频事件定位与识别装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上所述方法。
本发明所采用的另一技术方案是:
一种计算机可读存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。
本发明的有益效果是:本发明有效地建模和利用了音视频模态内和模态间的关系,实现跨模态信息互相补充,为模型提供更全面的事件定位和识别推理线索,具有更强的表征能力。同时,能够有效缓解复杂视频背景和音频无关声音带来的干扰,因而事件的定位和识别的准确度更高。
附图说明
为了更清楚地说明本发明实施例或者现有技术中的技术方案,下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例,对于本领域的技术人员而言,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
图1是本发明实施例中一种视频事件定位与识别方法的步骤流程图;
图2是本发明实施例中一种视频事件定位与识别方法的网络结构示意图;
图3是本发明实施例中声音引导的视觉注意力机制的示意图;
图4是本发明实施例中视觉引导的声音注意力机制的示意图;
图5是本发明实施例中跨模态关系感知模块的示意图;
图6是本发明实施例中一种视频事件定位与识别方法在AVE数据集上的可视化结果。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
如图1和图2所示,本实施例提供一种视频事件定位与识别方法,包括以下步骤:
S1、获取同步的视频数据和音频数据。
在本实施例中,首先,获取摄像头拍摄的视频数据及录制的音频数据,并对视频分帧及将音频转为时频信号处理保存。
作为一种可选的实施方式,获取待识别的视频和音频数据,并利用短时傅里叶变换将音频信号转化为对数梅尔频谱图。同时利用Decord视频解码包对视频进行分帧处理,然后利用稀疏采样策略对待识别的视频帧进行稀疏采样,得到待输入网络的视频帧和对应的音频的对数梅尔频谱图。
S2、根据视频数据提取视觉特征,根据音频数据提取音频特征。
将视频数据和音频数据输入至预训练过的卷积神经网络中进行特征提取,对于预训练的卷积神经网络,可以任意选择现有的典型卷积神经网络分别作为视觉特征提取器和音频特征提取器进行特征提取。
S3、将视觉特征输入声音引导的视觉注意力机制模块进行增强处理,输出视觉增强特征。
将提取的视觉特征输入声音引导的视觉注意力机制模块中进行增强,采用声音引导的视觉注意力机制,使模型关注更有信息量的特征并聚焦场景画面中发声的重要区域;利用声音信号对视觉信息的建模引导作用,声音信号分别在视觉特征的通道维度和空间维度引导视觉注意力。
对于声音引导的视觉注意力机制,图3展示了其结构示意图。给定视觉特征和音频特征,利用声音信号对视觉信息建模的引导作用,分别在通道和空间维度指导视觉注意力,使模型着重关注重要特征和空间区域,缓解无关信息干扰,得到增强后的视觉特征:
S4、将音频特征输入视觉引导的声音注意力机制模块进行增强处理,输出音频增强特征。
将提取的音频增强特征输入视觉引导的声音注意力机制模块进行增强,采用视觉引导的声音注意力机制,使模型过滤背景无关声音信息;利用视频的视觉信息来引导声音在通道维度进行通道间的关系建模,从而帮助过滤声音信号中与事件无关的部分。
对于视觉引导的声音注意力机制,图4展示了其结构示意图。给定视觉特征和音频特征,利用视觉信号对声音信息的建模引导作用,在通道维度引导声音注意力,使模型关注更具信息量的声音通道特征,得到增强后的音频特征:
S5、将视觉增强特征和音频增强特征输入跨模态关系感知模块,进行建模以及利用音视频模态内和模态间的关系,实现模态间的信息互补,增强特征表达能力,输出事件定位和识别的结果。
通过跨模态关系感知模块,建模和利用音视频模态内和模态间的关系,实现模态间的信息互补,增强特征表达能力,最后定位事件的时序位置并预测事件类别。该跨模态关系感知模块包括跨模态注意力机制和基于门控机制的特征选择模块,图5展示了该模块的结构示意图。首先,利用跨模态注意力机制建模和利用音视频模态内和模态间的关系,提高特征表达能力;然后,利用基于门控机制的特征选择模块,自适应选择另一模态部分信息作为补充信息,实现跨模态信息互补。下面分别介绍两个子模块:
经过跨模态关系模块之后,可得到视频特征和音频特征。接下来利用逐元素乘法运算将两个模态特征进行融合,得到音视频联合特征。基于联合特征,再利用两个分类器分别进行事件类别相关性预测和事件类别预测,输出事件定位和识别的结果。
作为一种可选的实施方式,所提出的模型整体采用交叉熵损失函数进行端到端训练。
作为一种可选的实施方式,跨模态注意力机制通过全连接层、层归一化函数、线性整流函数构建获得,其中,基于缩放点积注意力机制,能够同时建模和利用音视频模态内和模态间的关系信息。
基于门控机制的特征选择模块通过全连接层、双曲正切函数、S型函数构建获得,其中,根据跨模态关系信息,自适应选择另一个模态特征的重要信息作为补充。
利用跨模态注意力机制建模和利用模态内和模态间关系,并利用基于门控机制的特征选择模块所选择的补充信息,对当前模态信息进行补充,从而实现跨模态信息互补。最后定位事件的时序位置并预测事件类别。
实验数值结果
将上述跨模态关系感知的视频事件定位与识别方法应用到相关数据集AVE上,在全监督设定下,本实施例方法取得目前的最好性能,具体事件定位与识别准确度如表1所示:
表1为在AVE数据集的全监督设定下与现有方法的性能对比(全监督设定)
方法 | 视觉特征 | 音频特征 | 准确度(%) |
ED-TCN | VGG-19 | -- | 46.9 |
Audio | -- | VGG-like | 59.5 |
Visual | VGG-19 | -- | 55.3 |
Audio-Visual | VGG-19 | VGGish | 71.4 |
AVSDN | VGG-19 | VGGish | 72.6 |
Audio-Visual+Attn | VGG-19 | VGGish | 72.7 |
DAM | VGG-19 | VGGish | 74.5 |
AV-Transformer | VGG-19 | VGGish | 76.8 |
本实施例方法 | VGG-19 | VGGish | 78.3 |
为了进一步验证方法的有效性,还将本实施例方法在AVE数据集的弱监督设定上,与其他方法相比,本实施例方法的达到了目前的最好性能,具体数值对比结果如表2所示:
表2为在AVE数据集的弱监督设定下与现有方法的性能对比
方法 | 视觉特征 | 音频特征 | 准确度(%) |
AVEL(视觉) | VGG-19 | -- | 52.9 |
AVEL(声音) | -- | VGGish | 53.4 |
AVEL(视觉+声音) | VGG-19 | VGGish | 63.7 |
AVEL(视觉+声音+Attn) | VGG-19 | VGGish | 66.7 |
AVSDN | VGG-19 | VGGish | 66.8 |
AV-Transformer | VGG-19 | VGGish | 70.2 |
本实施例方法 | VGG-19 | VGGish | 73.6 |
可视化结果
为了进一步说明本方法的有效性,下图展示了可视化结果。
在图6中,在AVE数据集上展示了方法中声音引导的视觉注意力机制中的注意力图。从结果中可以看出,本实施例的方法能够捕捉更具信息量或发声空间区域,从而大大缓解复杂视频背景带来的干扰,最终提高事件定位和识别的准确度。
综上所述,本发明方法能够有效减少复杂视频和音频无关声音的干扰,同时可有效建模和利用音视频模态内和模态间的关系,实现信息互补,事件定位和识别的推理线索更加丰富。因而,事件定位和识别的准确度有显著提升。进一步,由于该方法框架是通用的,可以适用于不同的应用场景。该发明实施例中所提供的一种跨模态关系感知的视频事件定位与识别方法可广泛应用到智能监控、智慧交通、智能驾驶等智慧城市体系中的关键领域。
本实施例还提供一种视频事件定位与识别装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现图1所示方法。
本实施例的一种视频事件定位与识别装置,可执行本发明方法实施例所提供的一种视频事件定位与识别方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
本申请实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图1所示的方法。
本实施例还提供了一种存储介质,存储有可执行本发明方法实施例所提供的图1所示方法的指令或程序,当运行该指令或程序时,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施方式,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于上述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (7)
1.一种视频事件定位与识别方法,其特征在于,包括以下步骤:
获取同步的视频数据和音频数据;
根据视频数据提取视觉特征,根据音频数据提取音频特征;
将视觉特征输入声音引导的视觉注意力机制模块进行增强处理,输出视觉增强特征;
将音频特征输入视觉引导的声音注意力机制模块进行增强处理,输出音频增强特征;
将视觉增强特征和音频增强特征输入跨模态关系感知模块,进行建模以及利用音视频模态内和模态间的关系,实现模态间的信息互补,增强特征表达能力,输出事件定位和识别的结果;
所述将音频特征输入视觉引导的声音注意力机制模块进行增强处理,输出音频增强特征,包括:
所述跨模态关系感知模块包括跨模态注意力机制和基于门控机制的特征选择模块;
利用跨模态注意力机制建模以及利用音视频模态内和模态间的关系,提高特征表达能力;
利用基于门控机制的特征选择模块,自适应选择另一模态部分信息作为补充信息,实现跨模态信息互补;
所述将视觉增强特征和音频增强特征输入跨模态关系感知模块,进行建模以及利用音视频模态内和模态间的关系,实现模态间的信息互补,增强特征表达能力,输出事件定位和识别的结果,包括:
2.根据权利要求1所述的一种视频事件定位与识别方法,其特征在于,所述获取同步的视频数据和音频数据,包括:
获取音频数据,利用短时傅里叶变换将音频数据转化为对数梅尔频谱图;
获取视频数据,利用Decord视频解码包对视频数据进行分帧处理,利用稀疏采样策略对视频帧进行稀疏采样,得到视频帧和对应的音频的对数梅尔频谱图。
4.根据权利要求1所述的一种视频事件定位与识别方法,其特征在于,所述将视觉特征输入声音引导的视觉注意力机制模块进行增强处理,输出视觉增强特征,包括:
6.一种视频事件定位与识别装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现权利要求1-5任一项所述方法。
7.一种计算机可读存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-5任一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211619599.8A CN115620110B (zh) | 2022-12-16 | 2022-12-16 | 一种视频事件定位与识别方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211619599.8A CN115620110B (zh) | 2022-12-16 | 2022-12-16 | 一种视频事件定位与识别方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115620110A CN115620110A (zh) | 2023-01-17 |
CN115620110B true CN115620110B (zh) | 2023-03-21 |
Family
ID=84879838
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211619599.8A Active CN115620110B (zh) | 2022-12-16 | 2022-12-16 | 一种视频事件定位与识别方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115620110B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112053690A (zh) * | 2020-09-22 | 2020-12-08 | 湖南大学 | 一种跨模态多特征融合的音视频语音识别方法及系统 |
CN114329036A (zh) * | 2022-03-16 | 2022-04-12 | 中山大学 | 一种基于注意力机制的跨模态特征融合系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11663823B2 (en) * | 2020-08-10 | 2023-05-30 | International Business Machines Corporation | Dual-modality relation networks for audio-visual event localization |
CN112989977B (zh) * | 2021-03-03 | 2022-09-06 | 复旦大学 | 一种基于跨模态注意力机制的视听事件定位方法及装置 |
CN113971776A (zh) * | 2021-10-15 | 2022-01-25 | 浙江大学 | 视听事件定位方法和系统 |
CN114519809A (zh) * | 2022-02-14 | 2022-05-20 | 复旦大学 | 一种基于多尺度语义网络的视听视频解析装置及方法 |
-
2022
- 2022-12-16 CN CN202211619599.8A patent/CN115620110B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112053690A (zh) * | 2020-09-22 | 2020-12-08 | 湖南大学 | 一种跨模态多特征融合的音视频语音识别方法及系统 |
CN114329036A (zh) * | 2022-03-16 | 2022-04-12 | 中山大学 | 一种基于注意力机制的跨模态特征融合系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115620110A (zh) | 2023-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kong et al. | Sound event detection of weakly labelled data with cnn-transformer and automatic threshold optimization | |
Duan et al. | Audio-visual event localization via recursive fusion by joint co-attention | |
Su et al. | Weakly-supervised audio event detection using event-specific gaussian filters and fully convolutional networks | |
DE112021004261T5 (de) | Dualmodale beziehungsnetzwerke zur audiovisuellen ereignislokalisierung | |
CN110851835A (zh) | 图像模型检测方法、装置、电子设备及存储介质 | |
CN114519809A (zh) | 一种基于多尺度语义网络的视听视频解析装置及方法 | |
US11238289B1 (en) | Automatic lie detection method and apparatus for interactive scenarios, device and medium | |
Saddique et al. | Classification of authentic and tampered video using motion residual and parasitic layers | |
CN115393968A (zh) | 一种融合自监督多模态特征的视听事件定位方法 | |
CN114581749A (zh) | 视听特征融合的目标行为识别方法、装置及应用 | |
Vryzas et al. | Audiovisual speaker indexing for Web-TV automations | |
CN114170585B (zh) | 危险驾驶行为的识别方法、装置、电子设备及存储介质 | |
CN113992970A (zh) | 视频数据处理方法、装置、电子设备及计算机存储介质 | |
CN116502174A (zh) | 一种基于多模态深度学习的环境识别方法及装置 | |
Moliner et al. | Bootstrapped representation learning for skeleton-based action recognition | |
Ramasso et al. | Human action recognition in videos based on the transferable belief model: application to athletics jumps | |
CN116310975B (zh) | 一种基于一致片段选择的视听事件定位方法 | |
CN115620110B (zh) | 一种视频事件定位与识别方法、装置及存储介质 | |
Chen et al. | Modelling of content-aware indicators for effective determination of shot boundaries in compressed MPEG videos | |
Mumtaz et al. | Robust learning for real-world anomalies in surveillance videos | |
CN115565548A (zh) | 异常声音检测方法、装置、存储介质及电子设备 | |
CN113408356A (zh) | 基于深度学习的行人重识别方法、装置、设备及存储介质 | |
Zhang et al. | An improved system for dcase 2019 challenge task 4 | |
Hou et al. | Multi-scale gated attention for weakly labelled sound event detection | |
CN116052725B (zh) | 一种基于深度神经网络的细粒度肠鸣音识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |