CN115240271A - 基于时空建模的视频行为识别方法与系统 - Google Patents

基于时空建模的视频行为识别方法与系统 Download PDF

Info

Publication number
CN115240271A
CN115240271A CN202210815445.XA CN202210815445A CN115240271A CN 115240271 A CN115240271 A CN 115240271A CN 202210815445 A CN202210815445 A CN 202210815445A CN 115240271 A CN115240271 A CN 115240271A
Authority
CN
China
Prior art keywords
video
sampling
module
space
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210815445.XA
Other languages
English (en)
Inventor
叶青
梁政豪
张永梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North China University of Technology
Original Assignee
North China University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China University of Technology filed Critical North China University of Technology
Priority to CN202210815445.XA priority Critical patent/CN115240271A/zh
Publication of CN115240271A publication Critical patent/CN115240271A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于时空建模的视频行为识别方法及系统,其中方法包括:S1:将完整的视频输入视频图像采样模块,采用分段随机视频帧采样方法进行视频图像采样,得到多个采样帧图像;S2:构建基于三元组损失函数的空间注意力模块,并对多个采样帧图像的动作部分进行特征提取,得到空间特征信息;S3:构建时间金字塔模块,并对得到的空间特征信息以不同帧速率进行采样,得到多组特征信息;S4:采用早期融合的方式对得到的多组特征信息进行融合,具体为采用add操作将多组特征的特征向量进行拼接;S5:将融合后的特征信息输入Softmax分类器进行视频行为分类,为每个视频行为生成一个概率标签,并输出识别结果。

Description

基于时空建模的视频行为识别方法与系统
技术领域
本发明涉及计算机视觉领域,具体而言,涉及一种基于时空建模的视频行为识别方法与系统,可用于视频行为识别的分析研究。
背景技术
人类与外界交互所产生的庞大信息中,视觉信息占了很大的比重。在科技日益发展的当下,随着信息传输技术的高速发展以及短视频基于移动设备和互联网的兴起,每时每刻都在产生巨大的视觉信息量,这使得视频信息的大量获取变得容易,但同时,如何对庞大的视频信息量进行处理、识别、分类等也是一个不小的挑战。通过人工从繁多冗杂的视频中获取信息的成本越来越高,利用人工智能快速筛选信息的需求不断增加,对视频行为识别的研究就尤为重要。视频行为识别是计算机视觉领域的重要研究方向,是视频理解中关键的任务之一。随着信息化的逐步普及以及计算机视觉领域的蓬勃发展,视频行为识别在智能监控、智能课堂、智能预警等领域都有广泛的应用,已经成为一项研究热点。以防护领域为例来进行说明,小到城市中的事故预警,大到边界防护预警,都是安全防护的范围,通过将视频行为识别应用到该领域,加之计算机可以长时间进行监控,因而可以迅速对事故的具体情况作出分析并进行预警,从而大大的提高了安全防护的效率并降低了人力物力的消耗,能够给人们的生活带来极大的便利,有着广泛的应用前景。
目前,视频行为识别的方法大体分为两种:一种是基于传统特征提取的方法,一种是基于深度学习的方法,即使用神经网络学习特征的方法。基于传统特征提取的视频行为识别方法通过人工提取出能够表征动作的特征来实现行为识别,但同时也受所提取的特征的限制。虽然传统的人工提取特征经过不断的改进拥有了不错的表现,但仍有其局限之处,如噪声会对性能产生较大影响。人工提取特征的改进需要不断尝试,但其成本太高,提升空间已经不多,还需要构造更强大、更鲁棒的时空特征来进行更好的行为识别。为了进一步提高算法的识别率,随着深度学习方法的提出,基于深度神经网络学习自动提取特征的方法应用到了人体动作识别中。然而现有的基于深度学习的人体动作识别方法中,如采用双流卷积神经网络及其变体以及3D卷积神经网络,虽然都对时间信息进行了利用,但还都存在一定的问题尚待解决,如所需的计算时间长、计算成本高、实时性差等问题。此外,现有的深度学习方法在提取时间特征时对于时间信息的利用还不够充分,在提取空间特征时容易受到背景信息的干扰,提取到无用的特征,影响视频行为识别的准确率。
发明内容
为了解决上述问题,本发明提供一种基于时空建模的视频行为识别方法与系统,针对现有的深度学习方法在提取空间特征时易受背景信息干扰、易提取到无效信息的问题,构建了基于三元组损失函数的空间注意力模块,通过采用三元组损失函数,经过不断学习,使提取的特征集中于视频图像的动作部分,降低对背景部分无效特征的提取,从而提高特征提取的有效性,提高视频行为识别性能;针对现有技术中对时间信息利用不充分的问题,构建了时间模块,在时间模块对神经网络单层输出的特征根据不同的采样帧进行采样,从而构建出时间金字塔,对视频中时间特征进行多层次提取的同时,降低了融合的难度和时间的要求;然后通过早期特征融合,对不同帧速率的特征进行融合,从而对视频的短时特征以及全局时间特征进行整体利用;最后利用Softmax分类器进行分类,以此能够得到对于输入视频中行为的准确判断。
本发明提供的基于时空建模的视频行为识别方法与系统,其核心为对时空信息进行建模的深度神经网络,该网络以ResNet(残差网络)网络模型作为骨干网络,引入三元组损失(Triplet loss)函数,创建基于三元组损失的注意力模块,其只针对动作部分而忽略背景部分,以提高网络对动作部分特征的提取,从而实现对空间信息建模;引入时间金字塔结构构建时间模块,在特征层级构建时间金字塔结构,对时间信息进行多层次的利用,从而实现对时间信息进行建模。通过对视频中的时空特征信息建模,最终提高视频行为识别的性能。
为达到上述目的,本发明提供了一种基于时空建模的视频行为识别方法,具体包括:
步骤S1:将完整的视频输入视频图像采样模块,采用分段随机视频帧采样方法进行视频图像采样,得到多个采样帧图像;
步骤S2:构建基于三元组损失函数的空间注意力模块,并对多个采样帧图像的动作部分进行特征提取,得到空间特征信息;
步骤S3:构建时间金字塔模块,并对得到的空间特征信息以不同帧速率进行采样,得到多组特征信息;
步骤S4:采用早期融合的方式对得到的多组特征信息进行融合,具体为采用add操作将多组特征的特征向量进行拼接;
步骤S5:将融合后的特征信息输入Softmax分类器进行视频行为分类,为每个视频行为生成一个概率标签,并输出识别结果。
在本发明一实施例中,其中,步骤S1的具体过程包括:
步骤S11:将输入的完整的视频序列V均匀分为U个片段,分别为S1、S2…SU,其中U为常数;
步骤S12:分别对每个片段进行随机采样得到采样帧图像T1、T2…TU
在本发明一实施例中,其中,步骤S2中构建基于三元组损失函数的空间注意力模块具体为:
步骤S201:在骨干网络中对图像进行空间特征提取的空间模块中插入三元组损失函数,用以选择性收集空间域的特征信息,所述骨干网络为ResNet网络;
步骤S202:将多个特征图送入插入三元组损失函数的空间模块进行挑选,选出合适的锚示例、正示例与负示例,其中锚示例为用正示例的每个元素减去正示例各元素的平均值所得到的;
步骤S203:训练空间模块不断学习,以使锚示例的特征提取更接近正示例,即损失函数最小,所述损失函数为:
Figure BDA0003737274830000041
其中,
Figure BDA0003737274830000042
表示正示例与锚示例之间的欧式距离度量,
Figure BDA0003737274830000043
表示负示例与锚示例之间的欧式距离度量,α为两个欧式距离度量的最小间隔。
在本发明一实施例中,其中,步骤S2中对多个采样帧图像的动作部分进行特征提取,得到空间特征信息的具体过程为:
步骤S211:对多个采样帧图像进行空间特征提取得到多帧特征图,每帧特征图的维度为C×H×W,其中,C为通道数,H和W分别为特征图的高和宽;
步骤S212:对任一特征图A的特征进行重塑,将特征维度转换为C×N,其中N为特征图A的像素数;
步骤S213:使用Top-K排序函数提取出上K个注意图Sp和下K个注意图Sn,其中,Sp为影响行为分类的特征,Sn为与行为识别无关的特征;
步骤S214:对Sp进行重塑转换为K×H×W维度后,进行平均池化;
步骤S215:使用Sigmoid函数进行归一化,得到强调动作部分的空间注意力权重;
步骤S216:将得到的注意力权重与特征图A进行逐元素相乘,得到空间注意力模块的输出A*为:
A*=σ(Avgp(Resh(sP)))*A (2)
其中,A*为强调动作部分的特征图,Resh为维度转换,Avgp为平均池化,σ为Sigmoid函数。
在本发明一实施例中,其中,步骤S3具体为:
步骤S301:将空间注意力模块提取的同一层的多张特征图作为该层特征并记为Fbase,其特征维度为C×T×H×W,其中C为通道数,T为帧数,H和W分别为特征图的高和宽;
步骤S302:在维度T上选定m个不同的采样比例,分别为:
{r1,r2,…,rm;r1<r2<…<rm} (3);
步骤S303:根据m个不同的采样比例分别对该层特征Fbase进行采样,得到多组特征图,分别为:
Figure BDA0003737274830000051
其中,多组特征图对应的维度分别为:
Figure BDA0003737274830000052
在本发明一实施例中,其中,步骤s5中为每个视频行为生成一个概率标签的具体过程为:
步骤S51:设待分类的特征集{(z(1),g(1)),...,(z(n),g(n))}有k个分类,g(i)∈{1,2,3,...,k},则对应任一输入z的每个类的概率为p(g=j|z),j=(1,2,...,k);
步骤S52:通过函数hθ(z)输出一个k维的向量表示对应k个分类估计的概率值为:
Figure BDA0003737274830000061
其中,θ1,θ2,...,
Figure BDA0003737274830000062
为Softmax的模型参数,T为转置符号。
为达到上述目的,本发明还提供了一种基于时空建模的视频行为识别系统,用于执行前述方法,其包括:
一视频图像采样模块,用于对输入视频进行分段随机视频帧采样;
一空间注意力模块,连接所述视频图像采样模块,所述空间注意力模块为基于三元组损失函数的空间注意力模块,用于提取空间特征信息;
一时间金字塔模块,连接所述空间注意力模块,通过在特征维度以不同的帧速率对空间特征信息进行采样输出多组特征信息;
一特征融合模块,连接所述时间金字塔模块,用于融合多组特征信息;
一Softmax模块,包括Softmax分类器并连接所述特征融合模块,用于对融合的特征信息进行视频行为分类,并输出识别结果。
本发明提供的基于时空建模的视频行为识别方法与系统,与现有技术相比较至少包括以下优点:
1)基于三元组损失函数构建的空间注意力模块能够充分发挥三元组损失函数的优势,通过不断学习,着重提取动作相关的特征,从而提高特征提取的有效性,提升视频行为识别的性能;
2)通过构建时间金字塔模块,在特征层面对单层特征以不同帧速率进行采样,在实现对时间特征的多层次提取的同时降低了融合难度,达到对不同时间尺度上时间关系的建模;
3)通过构建的时空建模网络对视频中的时空信息分别进行建模,实现对视频中时空特征的充分提取和利用,从而实现视频行为识别性能的提升。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例中基于时空建模的视频行为识别流程图;
图2为本发明一实施例中分段随机视频帧采样示意图;
图3为三元组损失函数示意图;
图4为本发明一实施例中基于三元组损失函数的空间注意力模块进行特征提取的流程图;
图5为本发明一实施例中经过空间注意力模块进行特征提取的效果示意图;
图6为本发明一实施例中时间模块以不同帧速率对特征图采样的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出一种基于时空建模的神经网络结构模型,该网络以目前较为流行的ResNet网络模型作为骨干网络,引入三元组损失(Triplet loss)函数,通过不断迭代,提高对动作部分特征的提取,降低对无效的背景部分的提取,提高提取的特征的有效性;然后对神经网络输出的特征图以不同的帧速率进行采样,从而在特征层面实现对时间信息进行建模;然后使用早期融合方法,对不同帧速率训练的特征图进行特征融合;最后由Softmax分类器进行分类,得到视频行为识别结果。本发明的网络通过引入三元组损失函数以及在特征层面构建时间金字塔结构实现对视频中的时空信息进行建模,从而进一步提高网络对时空特征的提取和利用,最终提升整个网络的视频行为识别性能。
图1为本发明一实施例中基于时空建模的视频行为识别流程图,如图1所示,本实施例提供一种基于时空建模的视频行为识别方法,具体包括:
步骤S1:将完整的视频输入视频图像采样模块,采用分段随机视频帧采样方法进行视频图像采样,得到多个采样帧图像;
在视频特征识别领域,在将完整视频输入卷积神经网络时,考虑到相邻帧之间有大量的相似信息以及视频中关键信息分布的不均匀性,如果对视频的每一帧都进行特征提取,会出现大量的信息冗余现象,从而造成不必要的计算成本,同时也会影响识别的速度,此外,输入视频的长短也很难统一,因此对输入视频进行合理的采样处理是十分必要的。本实施例的视频图像采样模块,是采用分段随机视频帧采样方法进行视频图像采样的,分段随机视频帧采样是指先从完整的视频序列中平均截取多个视频帧片段,随后在这些片段中进行随机采样。本实施例之所以采用此采样方法,是因为后续的时间模块需要在特征层面进行二次采样,因此,采用分段随机视频帧采样方法能够在降低冗余信息的同时尽可能确保采样得到的视频帧对于视频行为的完整性和随机性。
图2为本发明一实施例中分段随机视频帧采样示意图,如图2所示,在本实施例中,其中,步骤S1的具体过程包括:
步骤S11:将输入的完整的视频序列V均匀分为U个片段,分别为S1、S2…SU,其中U为常数;
步骤S12:分别对每个片段进行随机采样得到采样帧图像T1、T2…TU
步骤S2:构建基于三元组损失函数的空间注意力模块,并对多个采样帧图像的动作部分进行特征提取,得到空间特征信息;
图3为三元组损失函数示意图,如图3所示,三元组损失函数是Google研究团队在2015年提出的一种损失函数,其优势在于细节区分,即当两个输入相似时,三元组损失函数能够更好的对细节进行建模,相当于加入了对两个输入差异性的度量,从而学习到输入的更好表示。三元组损失函数中的三元即一个三元组,其为从训练数据集中随机选一个样本,该样本称为Anchor,然后再随机选取一个与Anchor属于同一类的样本称为Positive,及一个与Anchor不同类的样本对应的称为Negative,由Anchor、Positive和Negative三个样本构成一个三元组。三元组损失函数的目标是使得相同标签的特征在空间位置上尽量靠近,同时不同标签的特征在空间位置上尽量远离,即同类的Positive样本和Anchor样本的距离越来越近,而不同类的Negative样本和Anchor样本的距离越来越远。
针对三元组中的每个元素,训练一个参数共享或不共享的网络,得到三个元素的特征表达,分别记为
Figure BDA0003737274830000092
Figure BDA0003737274830000093
三元组损失的目的就是通过学习,让
Figure BDA0003737274830000094
Figure BDA0003737274830000095
之间的距离尽可能小,
Figure BDA0003737274830000096
Figure BDA0003737274830000097
之间的的距离尽可能大,同时,要让
Figure BDA0003737274830000098
Figure BDA0003737274830000099
之间的距离和
Figure BDA00037372748300000910
Figure BDA00037372748300000911
之间的距离有一个最小的间隔α,因此一个基本的三元组损失函数公式为:
Figure BDA0003737274830000091
其中,
Figure BDA00037372748300000912
表示Positive样本与Anchor样本之间的欧式距离度量,
Figure BDA00037372748300000913
表示Negative样本与Anchor样本之间的欧式距离度量。
根据上述特点,三元组损失函数常用于人脸识别任务中,考虑到在视频行为识别领域,在进行特征提取时,容易受到背景信息的干扰,从而提取到无效的特征,因此本实施例的空间特征提取需构建一基于三元组损失函数的空间注意力模块。
在本实施例中,其中,步骤S2中构建基于三元组损失函数的空间注意力模块具体为:
步骤S201:在骨干网络中对图像进行空间特征提取的空间模块中插入三元组损失函数,用以选择性收集空间域的特征信息,所述骨干网络为ResNet网络(残差网络);
步骤S202:将多个特征图送入插入三元组损失函数的空间模块进行挑选,选出合适的锚示例、正示例与负示例,其中锚示例为用正示例的每个元素减去正示例各元素的平均值所得到的;
步骤S203:训练空间模块不断学习,以使锚示例的特征提取更接近正示例,即损失函数最小,所述损失函数为:
Figure BDA0003737274830000101
其中,
Figure BDA0003737274830000102
表示正示例与锚示例之间的欧式距离度量,
Figure BDA0003737274830000103
表示负示例与锚示例之间的欧式距离度量,α为两个欧式距离度量的最小间隔。
由于三元组损失函数具有能够更好的对细节进行建模的特点,本实施例使用三元组损失函数来选择性的收集空间域的特征,通过加权构建特征图,经过不断学习实现对空间域特征的选择性收集,以使得提取的特征更专注于动作,忽略背景信息的影响,从而提高提取的特征信息的有效性。
图4为本发明一实施例中基于三元组损失函数的空间注意力模块进行特征提取的流程图,如图4所示,在本实施例中,其中,步骤S2中对多个采样帧图像的动作部分进行特征提取,得到空间特征信息的具体过程为:
步骤S211:对多个采样帧图像进行空间特征提取得到多帧特征图,每帧特征图的维度为C×H×W,其中,C为通道数,H和W分别为特征图的高和宽;
步骤S212:对任一特征图A的特征进行重塑(reshape),将特征维度转换为C×N,其中N为特征图A的像素数;
步骤S213:使用Top-K排序函数提取出上K个注意图Sp和下K个注意图Sn,其中,Sp为影响行为分类的特征,Sn为与行为识别无关的特征;Top-K排序函数为一种常用的排序函数,用于取得某一维度前K大的值或前K小的值及其标签,前述对空间注意力模块进行训练时,可以通过训练样本激活每个分类所需的特征,因此在对特征进行排序时就可以得到与所需特征的相关度的值,从而提取出Sp及Sn
步骤S214:对Sp进行重塑(reshape)转换为K×H×W维度后进行平均池化(AvgPool);
步骤S215:使用Sigmoid函数进行归一化,得到强调动作部分的空间注意力权重;Sigmoid函数被称为S型生长曲线,在信息科学中,由于其单增以及反函数单增等性质,Sigmoid函数常被用作神经网络的激活函数,将变量映射到0,1之间。
步骤S216:将得到的注意力权重与特征图A进行逐元素相乘,得到空间注意力模块的输出A*为:
A*=σ(Avgp(Resh(SP)))*A (2)
其中,A*为强调动作部分的特征图,Resh为维度转换,Avgp为平均池化,σ为Sigmoid函数。
图5为本发明一实施例中经过空间注意力模块进行特征提取的效果示意图,如图5所示,本实施例的空间注意力模块中应用三元组损失函数的意义在于,锚示例经过不断学习后更接近正示例远离负示例,以实现Sp和Sn的明显区分,最终使整个网络更多关注身体动作区域,降低背景信息的干扰。
步骤S3:构建时间金字塔模块,并对得到的空间特征信息以不同帧速率进行采样,得到多组特征信息;
本模块的目标是对时间信息进行多层次多尺度利用,因此,为了充分利用神经网络内在包含多尺度信息的隐含优势,本实施例提出构建时间金字塔模块以挖掘不同的时间关系,从而实现对不同时间尺度上的时间关系进行建模。与传统的特征金字塔结构不同,由于本实施例的空间注意力模块为基于三元组损失函数的空间注意力模块,因此,在构建金字塔结构时,本实施例选择只对单层特征在时间维度进行采样,从而构建时间金字塔,在实现多层次利用时间信息的同时降低了特征融合的难度以及时间要求。
图6为本发明一实施例中时间模块以不同帧速率对特征图采样的示意图,如图6所示,在本实施例中,其中,步骤S3具体为:
步骤S301:将空间注意力模块提取的同一层的多张特征图作为该层特征并记为Fbase,其特征维度为C×T×H×W,其中C为通道数,T为帧数,H和W分别为特征图的高和宽;
步骤S302:在维度T上选定m个不同的采样比例,分别为:
{r1,r2,…,rm;r1<r2<…<rm} (3);
步骤S303:根据m个不同的采样比例分别对该层特征Fbase进行采样,得到多组特征图,分别为:
Figure BDA0003737274830000121
其中,多组特征图对应的维度分别为:
Figure BDA0003737274830000122
以上得到的即为通过时间金字塔模块处理后得到的多组特征信息,本实施例通过在特征维度以不同的帧速率对特征图进行采样,从而能够更好的利用时间信息。
步骤S4:采用早期融合的方式对得到的多组特征信息进行融合,具体为采用add操作将多组特征的特征向量进行拼接;
特征融合方法通常分为早融合和晚融合。早融合是先对特征进行融合,然后在融合后的特征上进行训练,这类方法被称为skip connection,即采用Concat(Concatenation)操作和add(addition)操作对特征进行连接,然后再获得识别结果。其中Concat操作为直接将两个特征进行连接,例如两个输入特征x和y的维数若为p和q,输出特征z的维数为p+q;add操作为并行策略,即将两个特征向量组合成复向量,例如对于输入特征x和y,输出特征z=x+iy,其中i是虚数单位。晚融合则是先根据特征进行分类,然后对分类结果进行融合,晚融合好处是融合模型的错误之间互不相关、互不影响,不会造成错误的进一步累加。由于本实施例在前述步骤中在特征层面以不同帧速率对特征图进行采样,从而对不同尺度上的时间关系进行建模,因此得到了不同的几组特征图,考虑到要充分利用不同尺度的时间关系,因此本实施选择早融合的方法对特征进行融合。
步骤S5:将融合后的特征信息输入Softmax分类器进行视频行为分类,为每个视频行为生成一个概率标签,并输出识别结果。Softmax回归模型是logistic回归模型在多分类问题上的推广,在多分类问题中应用广泛。
在本实施例中,其中,步骤S5中为每个视频行为生成一个概率标签的具体过程为:
步骤S51:设待分类的特征集{(z(1),g(1)),...,(z(n),g(n))}有k个分类,g(i)∈{1,2,3,...,k},则对应任一输入z的每个类的概率为p(g=j|z),j=(1,2,...,k);
步骤S52:通过函数hθ(z)输出一个k维的向量表示对应k个分类估计的概率值为:
Figure BDA0003737274830000131
其中,
Figure BDA0003737274830000141
为Softmax的模型参数,T为转置符号。
再请参考图1,本发明另一实施例提供一种基于时空建模的视频行为识别系统,用于执行前述方法,其包括:
一视频图像采样模块,用于对输入视频进行分段随机视频帧采样;
一空间注意力模块,连接所述视频图像采样模块,所述空间注意力模块为基于三元组损失函数的空间注意力模块,用于提取空间特征信息;
一时间金字塔模块,连接所述空间注意力模块,通过在特征维度以不同的帧速率对空间特征信息进行采样输出多组特征信息;
一特征融合模块,连接所述时间金字塔模块,用于融合多组特征信息;
一Softmax模块,包括Softmax分类器并连接所述特征融合模块,用于对融合的特征信息进行视频行为分类,并输出识别结果。
现有深度学习方法如双流网络,3D卷积神经网络等,尽管都对时间信息有过一定程度的利用,但会出现如双流网络,提取光流图耗时长的问题,3D卷积神经网络结构复杂导致计算量大的问题,以及现有的网络对于时间信息的利用不够充分,在提取特征时易收背景信息干扰,提取到无用特征等。本发明提供的基于时空建模的视频行为识别方法与系统,与现有技术相比较至少包括以下优点:
1)基于三元组损失函数构建的空间注意力模块能够充分发挥三元组损失函数的优势,通过不断学习,着重提取动作相关的特征,从而提高特征提取的有效性,提升视频行为识别的性能;
2)通过构建时间金字塔模块,在特征层面对单层特征以不同帧速率进行采样,在实现对时间特征的多层次提取的同时降低了融合难度,达到对不同时间尺度上时间关系的建模;
3)通过构建的时空建模网络对视频中的时空信息分别进行建模,实现对视频中时空特征的充分提取和利用,从而实现视频行为识别性能的提升。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域普通技术人员可以理解:实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims (7)

1.一种基于时空建模的视频行为识别方法,其特征在于,包括:
步骤S1:将完整的视频输入视频图像采样模块,采用分段随机视频帧采样方法进行视频图像采样,得到多个采样帧图像;
步骤S2:构建基于三元组损失函数的空间注意力模块,并对多个采样帧图像的动作部分进行特征提取,得到空间特征信息;
步骤S3:构建时间金字塔模块,并对得到的空间特征信息以不同帧速率进行采样,得到多组特征信息;
步骤S4:采用早期融合的方式对得到的多组特征信息进行融合,具体为采用add操作将多组特征的特征向量进行拼接;
步骤S5:将融合后的特征信息输入Softmax分类器进行视频行为分类,为每个视频行为生成一个概率标签,并输出识别结果。
2.根据权利要求1所述的基于时空建模的视频行为识别方法,其特征在于,步骤S1的具体过程包括:
步骤S11:将输入的完整的视频序列V均匀分为U个片段,分别为S1、S2…SU,其中U为常数;
步骤S12:分别对每个片段进行随机采样得到采样帧图像T1、T2…TU
3.根据权利要求1所述的基于时空建模的视频行为识别方法,其特征在于,步骤S2中构建基于三元组损失函数的空间注意力模块具体为:
步骤S201:在骨干网络中对图像进行空间特征提取的空间模块中插入三元组损失函数,用以选择性收集空间域的特征信息,所述骨干网络为ResNet网络;
步骤S202:将多个特征图送入插入三元组损失函数的空间模块进行挑选,选出合适的锚示例、正示例与负示例,其中锚示例为用正示例的每个元素减去正示例各元素的平均值所得到的;
步骤S203:训练空间模块不断学习,以使锚示例的特征提取更接近正示例,即损失函数最小,所述损失函数为:
Figure FDA0003737274820000021
其中,
Figure FDA0003737274820000022
表示正示例与锚示例之间的欧式距离度量,
Figure FDA0003737274820000023
表示负示例与锚示例之间的欧式距离度量,α为两个欧式距离度量的最小间隔。
4.根据权利要求3所述的基于时空建模的视频行为识别方法,其特征在于,步骤S2中对多个采样帧图像的动作部分进行特征提取,得到空间特征信息的具体过程为:
步骤S211:对多个采样帧图像进行空间特征提取得到多帧特征图,每帧特征图的维度为C×H×W,其中,C为通道数,H和W分别为特征图的高和宽;
步骤S212:对任一特征图A的特征进行重塑,将特征维度转换为C×N,其中N为特征图A的像素数;
步骤S213:使用Top-K排序函数提取出上K个注意图Sp和下K个注意图Sn,其中,Sp为影响行为分类的特征,Sn为与行为识别无关的特征;
步骤S214:对Sp进行重塑转换为K×H×W维度后,进行平均池化;
步骤S215:使用Sigmoid函数进行归一化,得到强调动作部分的空间注意力权重;
步骤S216:将得到的注意力权重与特征图A进行逐元素相乘,得到空间注意力模块的输出A*为:
A*=σ(Avgp(Resh(SP)))*A (2)
其中,A*为强调动作部分的特征图,Resh为维度转换,Avgp为平均池化,σ为Sigmoid函数。
5.根据权利要求1所述的基于时空建模的视频行为识别方法,其特征在于,步骤S3具体为:
步骤S301:将空间注意力模块提取的同一层的多张特征图作为该层特征并记为Fbase,其特征维度为C×T×H×W,其中C为通道数,T为帧数,H和W分别为特征图的高和宽;
步骤S302:在维度T上选定m个不同的采样比例,分别为:
{r1,r2,…,rm;r1<r2<…<rm} (3);
步骤S303:根据m个不同的采样比例分别对该层特征Fbase进行采样,得到多组特征图,分别为:
Figure FDA0003737274820000031
其中,多组特征图对应的维度分别为:
Figure FDA0003737274820000032
6.根据权利要求1所述的基于时空建模的视频行为识别方法,其特征在于,步骤S5中为每个视频行为生成一个概率标签的具体过程为:
步骤S51:设待分类的特征集{(z(1),g(1)),...,(z(n),g(n))}有k个分类,g(i)∈{1,2,3,...,k},则对应任一输入z的每个类的概率为p(g=j|z),j=(1,2,...,k);
步骤S52:通过函数hθ(z)输出一个k维的向量表示对应k个分类估计的概率值为:
Figure FDA0003737274820000033
其中,θ1,θ2,...,
Figure FDA0003737274820000041
为Softmax的模型参数,T为转置符号。
7.一种基于时空建模的视频行为识别系统,用于执行权利要求1~6任一项的方法,其特征在于,包括:
一视频图像采样模块,用于对输入视频进行分段随机视频帧采样;
一空间注意力模块,连接所述视频图像采样模块,所述空间注意力模块为基于三元组损失函数的空间注意力模块,用于提取空间特征信息;
一时间金字塔模块,连接所述空间注意力模块,通过在特征维度以不同的帧速率对空间特征信息进行采样输出多组特征信息;
一特征融合模块,连接所述时间金字塔模块,用于融合多组特征信息;
一Softmax模块,包括Softmax分类器并连接所述特征融合模块,用于对融合的特征信息进行视频行为分类,并输出识别结果。
CN202210815445.XA 2022-07-08 2022-07-08 基于时空建模的视频行为识别方法与系统 Pending CN115240271A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210815445.XA CN115240271A (zh) 2022-07-08 2022-07-08 基于时空建模的视频行为识别方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210815445.XA CN115240271A (zh) 2022-07-08 2022-07-08 基于时空建模的视频行为识别方法与系统

Publications (1)

Publication Number Publication Date
CN115240271A true CN115240271A (zh) 2022-10-25

Family

ID=83674075

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210815445.XA Pending CN115240271A (zh) 2022-07-08 2022-07-08 基于时空建模的视频行为识别方法与系统

Country Status (1)

Country Link
CN (1) CN115240271A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115527152A (zh) * 2022-11-10 2022-12-27 南京恩博科技有限公司 一种小样本视频动作分析方法、系统及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115527152A (zh) * 2022-11-10 2022-12-27 南京恩博科技有限公司 一种小样本视频动作分析方法、系统及装置

Similar Documents

Publication Publication Date Title
CN109949317B (zh) 基于逐步对抗学习的半监督图像实例分割方法
Gao et al. Cnn-based density estimation and crowd counting: A survey
CN110070183B (zh) 一种弱标注数据的神经网络模型训练方法及装置
CN110334705B (zh) 一种结合全局和局部信息的场景文本图像的语种识别方法
CN109063723B (zh) 基于迭代挖掘物体共同特征的弱监督图像语义分割方法
CN111368886B (zh) 一种基于样本筛选的无标注车辆图片分类方法
CN110929622B (zh) 视频分类方法、模型训练方法、装置、设备及存储介质
CN103984959A (zh) 一种基于数据与任务驱动的图像分类方法
CN112750129B (zh) 一种基于特征增强位置注意力机制的图像语义分割模型
CN112396587B (zh) 一种基于协同训练和密度图的公交车厢内拥挤度检测方法
CN110532911B (zh) 协方差度量驱动小样本gif短视频情感识别方法及系统
CN110599459A (zh) 基于深度学习的地下管网风险评估云系统
CN112001939A (zh) 基于边缘知识转化的图像前景分割算法
CN115240024A (zh) 一种联合自监督学习和半监督学习的地外图片分割方法和系统
CN115131747A (zh) 基于知识蒸馏的输电通道工程车辆目标检测方法及系统
Yang et al. C-RPNs: Promoting object detection in real world via a cascade structure of Region Proposal Networks
CN115240271A (zh) 基于时空建模的视频行为识别方法与系统
CN112580616B (zh) 人群数量确定方法、装置、设备及存储介质
Jiang et al. Dynamic proposal sampling for weakly supervised object detection
CN113221683A (zh) 教学场景下基于cnn模型的表情识别方法
CN116721458A (zh) 一种基于跨模态时序对比学习的自监督动作识别方法
CN115797701A (zh) 目标分类方法、装置、电子设备及存储介质
CN110705638A (zh) 一种利用深度网络学习模糊信息特征技术的信用评级预测分类方法
CN113076963B (zh) 一种图像识别方法、装置和计算机可读存储介质
CN115147864A (zh) 一种基于协同异质深度学习网络的红外人体行为识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination