CN114926900A - 一种前背景分离的人体动作在线检测方法 - Google Patents

一种前背景分离的人体动作在线检测方法 Download PDF

Info

Publication number
CN114926900A
CN114926900A CN202210532569.7A CN202210532569A CN114926900A CN 114926900 A CN114926900 A CN 114926900A CN 202210532569 A CN202210532569 A CN 202210532569A CN 114926900 A CN114926900 A CN 114926900A
Authority
CN
China
Prior art keywords
foreground
feature
sequence
human body
background
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210532569.7A
Other languages
English (en)
Other versions
CN114926900B (zh
Inventor
程建
夏子瀛
刘思宇
侯琴
吴雨恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202210532569.7A priority Critical patent/CN114926900B/zh
Publication of CN114926900A publication Critical patent/CN114926900A/zh
Application granted granted Critical
Publication of CN114926900B publication Critical patent/CN114926900B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明属于视频处理技术领域,具体涉及一种前背景分离的人体动作在线检测方法,本发明包括:采集包含人体动作的视频数据并做时序标注;对原始视频数据进行预处理生成数据集;构建基于I3D的骨干网络进行特征提取;构建特征映射模块,设计基于特征模长的对比损失函数,对前背景特征进行初次分离;构建可学习的前景记忆特征与互注意力模块,计算特征序列元素与前景的相似性以分离前背景;构建基于自注意力机制的时序推理器,结合前背景分离结果对特征序列编码;构建分类器基于编码结果完成对人体动作的在线检测。本发明在极少增加模型运算量的前提下,极大提高了待检测人体动作视频帧与历史视频帧之间的辨别性,进而提高人体动作在线检测的检测精度。

Description

一种前背景分离的人体动作在线检测方法
技术领域
本发明涉及机器学习技术领域,尤其涉及一种前背景分离的人体动作在线检测方法。
背景技术
在信息通信技术以及多媒体技术日益发展的数字化时代背景下,视频或在线视频流已成为人类日常社交、安防分析以及智能城市等多个技术领域的关键信息载体,对视频内容进行分析和理解相关技术的需求也日益增加。其中,对视频中的人类动作检测与识别,是视频分析与理解问题的重要组成部分。现有基于视频的人体动作分析与理解技术主要集中于对已剪辑好的视频中的人体动作进行识别以及对未剪辑的视频中的动作进行检测分类,难以满足现实各类应用任务如无人驾驶,智慧监控等应用中的实时分析应用需求,人体动作在线检测为以上技术缺陷提供了一种解决方法。
人体动作在线检测任务要求基于已观测到的历史视频图像信息以及当前时刻的图像信息,对当前时刻的人体动作进行识别。该任务可应用于在线视频流中,可实现对人体动作的实时检测。现有的动作在线检测方法中,主要基于深度学习进行实现。具体地,由于该任务无法得到未来动作信息,现有方法主要基于RNN以及Transformer等时序推理模型,通过特征映射及计算注意力等方式,探寻当前时刻图像与历史帧序列中各图像间的相关性,通过增加非相关帧间特征的距离或对图像序列进行相关性加权,提升模型推理时当前图像与其余非相关图像之间的辨别性,以提高检测性能。
然而,由于人体动作与背景间存在类间差异大,类内差异小的特性,且各类动作背景间表现差异极大,几乎不存在共享语义信息。因此当前时刻图像帧与其余历史图像帧间的相关性无论从原始图像层面还是特征层面都并不明显,从而导致现有基于相关性分析的人体动作在线检测方法无法有效提升帧间辨别性,进而导致检测精度普遍较低。
发明内容
为了解决上述现有技术中存在的技术问题,本发明提供了一种前背景分离的人体动作在线检测方法,拟解决现有人体检测方法中动作与背景的特征辨别性不足而导致的检测精度较低的问题。
本发明采用的技术方案如下:
一种前背景分离的人体动作在线检测方法,包括以下步骤:
步骤1:采集包含人体动作的视频数据,并对视频数据中的人体动作标注动作起始时间、结束时间以及动作类别,得到原始视频数据集;
步骤2:对原始视频数据集按预定比例进行随机划分得到训练集和测试集,并分别对原始视频数据集中的数据进行预处理和构建训练样本;
步骤3:基于I3D(Inflated 3D ConvNet)构建特征提取模块,对原始视频数据集中的数据进行特征提取,得到人体动作特征;
步骤4:构建基于多层感知机的特征映射模块,并通过基于特征模长设计的对比损失对输入特征序列中的前背景特征在特征空间中分离;
步骤5:构建维度与步骤4中的输出维度相同的可学习前景记忆特征向量与基于互注意力的相似性度量模块,得到与输入特征序列对应的前背景类别概率向量;
步骤6:构建基于自注意力机制的时序推理器,利用步骤5中得到的前背景类别概率向量对输入特征序列进行加权后,输入时序推理器进行编码,得到编码序列特征;
步骤7:构建分类器,并将构建的分类器送入编码序列特征得到人体动作在线检测结果,并基于结果通过联合损失函数对模型进行优化。
本发明首先采用基于特征模长的对比损失函数在特征空间上提升前景与背景特征之间的特征辨别性后,基于互注意力机制计算与可学习前景特征向量的特征相似性,进而得到各图像前背景类别概率向量。基于以上分离结果对原特征提取输出的特征序列进行加权,并送入基于自注意力机制搭建的时序推理器进行时序编码,最后通过分类器得到在线动作检测结果,有效提高人体动作在线检测的精度。
优选的,所述步骤2包括以下步骤:
步骤2.1:按照预定的比例将原始视频数据集随机划分得到训练集和测试集;
步骤2.2:将原始视频数据集中的原始视频以32FPS进行抽帧,得到RGB图像帧序列;
步骤2.3:将RGB图像帧序列的分辨率调整至256*256,并对训练集中的视频数据进行随机裁剪得到分辨率为224*224的图像,并以概率p进行随机翻转;并将测试集中的视频数据的分辨率大小调整至224*224;
步骤2.4:对经过步骤2.3处理的RGB图像帧序列采用TVL1算法计算光流图像;
步骤2.5:将包含16帧RGB图像和16帧光流图像的16帧图像构成一组视频块,作为动作特征提取的最小单元,以L个单元构成输入的单个训练样本X=(x-L+1,...,x0)。
优选的,步骤3中所述的特征提取模块,基于I3D网络结构,由1个3D卷积模块以及3个Inception模块组成,对步骤2中输出序列进行特征提取后分别得到维度为N的RGB特征向量以及光流特征向量,并将RGB特征向量以及光流特征向量级联得到人体动作特征Xf
优选的,步骤4中所述的多层感知机由两层输入输出维度相等,且大小为N的线性层级联而成,所述多层感知机的输出为特征序列X′c
优选的,步骤4中所述的基于特征模长设计的对比损失的表达式如下:
Figure BDA0003636566140000031
式中:M表示前背景特征模长分离阈值,
Figure BDA0003636566140000032
Figure BDA0003636566140000033
分别表示输入特征序列X′c中第i个前景特征第j个背景特征的2范数大小,A和B分别表示输入特征序列中前景特征与背景特征的数目。
优选的,所述步骤5包括以下步骤:
步骤5.1:使用线性层将输入特征序列X′c映射为Xfb,维度大小为N;
步骤5.2:使用参数初始化方法构建长度为N的可学习前景记忆特征向量;
步骤5.3:使用矩阵乘法计算Xfb中各特征与前景记忆特征向量的相似性;具体表达式如下所示:
Figure BDA0003636566140000034
式中:S表示相似性;
Figure BDA0003636566140000035
表示记忆特征向量的转置,N表示Xfb的维度大小。
步骤5.4:基于相似性使用Sigmoid函数计算二分类前背景类别预测概率;具体表达式如下所示:
pfb=Sigmoid(S);
式中:pfb表示前背景类别预测概率;
步骤5.5:基于前背景类别预测概率使用基于Focal Loss二元交叉熵损失对特征映射模块以及相似性度量模块中的网络进行优化;具体表达式如下所示:
Figure BDA0003636566140000036
式中:
Figure BDA0003636566140000037
表示交叉熵损失,pfb,l与yfb,l分别表示样本中第l单元的前背景类别预测概率与真实标签;
优选的,所述步骤6包括以下步骤:
步骤6.1:通过一个全连接层将特征序列Xf映射至维度N得到X′f;根据前背景类别预测概率,设定激活阈值,再使用阶跃函数得到二值序列,具体表达式如下所述:
S=ε(pfbf)
Figure BDA0003636566140000041
式中:Si表示二值序列S中的第i个元素,对S中的元素进行复制与升维,得到
Figure BDA0003636566140000042
其中L表示时间长度,N表示特征维数;pfb表示前背景类别预测概率;θf表示激活阈值;Pfb,i表示二值序列中第i个元素的前背景类别预测概率;
步骤6.2:基于二值序列,使用残差连接对X′f进行加权,得到待推理样本,具体表达式如下所述:
X′=X′f+X′f⊙S′;
步骤6.3:使用自注意力模块与全连接层组成的时序编码器对待推理样本进行时序推理并进行编码,得到编码序列特征,具体表达式为:
Y=Reasoner(X′);
式中:Y表示编码序列特征。
本发明由步骤6.1中的映射网络、步骤6.2中的加权操作以及步骤6.3中的时序编码器共同构成所述时序推理器。
优选的,所述时序编码器由一个自注意力层与一个全连接层组成,自注意力层和全连接层的输入输出均存在残差连接。
优选的,步骤7中通过分类器得到在线动作预测概率后,将在线动作预测概率中概率最大的动作/背景类别作为动作在线检测结果,使用交叉熵损失函数
Figure BDA0003636566140000043
计算损失,其表达式为:
Figure BDA0003636566140000044
式中:pn,yn分别表示在线动作预测概率与真实动作标签。
联合损失函数
Figure BDA0003636566140000045
为:
Figure BDA0003636566140000046
式中:α表示损失平衡系数;Lc为前背景分离对比损失;
Figure BDA0003636566140000047
为二元交叉熵损失。
本发明的有益效果包括:本发明从前背景分离的角度出发,采用基于对比损失与可学习前景特征向量的互注意力相似性计算,实现对输入特征序列所属前背景类别的有效分离;基于分离结果对输入特征进行加权有效提升了待检测图像帧与历史帧间的特征辨别性,进一步结合自注意力模块与分类器进行在线动作检测,并通过联合损失优化模型以有效提升在线动作检测精度。
附图说明
图1为本发明中一种前背景分离的人体动作在线检测方法流程示意图;
图2为本发明中数据预处理流程图;
图3为本发明中特征提取模块结构图;
图4为本发明中一种前背景分离的动作检测器结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面结合附图1和附图4对本发明的实施例作进一步的详细说明:
以下结合具体实施例对本发明作进一步详细描述:
参见附图1所示,一种背景分离的人体动作在线检测方法,包括以下步骤:
步骤1中:利用视频采集设备采集原始人体动作视频数据,通过人工进行动作在时序上的标注,得到原始视频数据集;具体包括动作起始时间s,动作结束时间e以及动作类别c。其中动作起始时间s与结束时间e标注的时间精度为毫秒级。
步骤2中:对原始视频图像进行预处理。首先对原始视频数据进行随机划分,具体为按比例1:1将已采集的n个视频随机划分为训练集和测试集。对训练集和测试集中的视频按32FPS进行抽帧处理,使连续16帧图像包含原视频中0.5s的信息。将原始分辨率为W×H的抽帧图像分辨率改为256×256。对于训练集图像通过随机裁剪与概率为0.5的随机翻转操作进行数据增强,对于训练集则将分辨率改为224×224以保证与训练集图像分辨率大小一致。对各视频使用TVL1算法计算视频的光流图,其输出光流图分辨率为224×224。最后以16帧连续视频图像(分别包含16帧RGB图像和16帧光流图像)为一组构成视频块作为后续特征提取的输入单元,以连续L个单元作为单个训练样本和测试样本X=(x-L+1,...,x0),在本实例中L=64,其详细处理步骤如图2所示。
步骤3中:基于I3D网络结构构建双流特征提取器,分别对输入序列中各单元提取外观特征和运动特征。特征提取器结构由1个卷积模块和3个Inception模块组成。经过特征提取后分别得到RGB特征fi RGB与光流特征fi FLOW,维度都为N=1024,其中i={-L+1,...,0}。将RGB特征fi RGB与光流特征fi FLOW在特征维度级联,得到输入序列中各单元时空特征
Figure BDA0003636566140000061
后,得到本发明中前背景分离的人体动作在线检测器输入Xf={f-L+1,...,f-1,f0}。
步骤4中:将Xf输入到特征映射模块,该模块由两层输入输出维度相等,大小为2N的线性层构成,这里的线性层结构为:全连接层-ReLU层-Dropout层(p=0.5),模块输出为X′c={f′-L+1,...,f′-1,f′0}。以上线性层通过基于模长的前背景分离对比损失作为映射损失进行优化,其表达式为:
Figure BDA0003636566140000062
其中M表示前背景特征模长分离阈值,
Figure BDA0003636566140000063
Figure BDA0003636566140000064
分别表示输入特征序列X′c中第i个前景特征第j个背景特征的2范数大小,A和B分别表示输入特征序列中前景特征与背景特征的数目,在本实例中M=50。
步骤5中:将X′c输入到基于互注意力的相似性度量模块,具体为首先将X′c输入一个线性层得到
Figure BDA0003636566140000065
使用标准正态分布初始化一个可学习前景记忆特征向量fm,作为动作示例。之后基于矩阵乘法计算Xfb与fm之间的相似性S,其表达式为:
Figure BDA0003636566140000066
其中
Figure BDA0003636566140000067
使用Sigmoid函数计算二分类前背景类别预测概率pfb,其表达式为:
pfb=Sigmoid(S);
其中
Figure BDA0003636566140000068
在训练过程中,使用基于Focal Loss二元交叉熵损失作为前背景分离损失
Figure BDA0003636566140000069
对上述网络进行优化,其表达式为:
Figure BDA0003636566140000071
其中
Figure BDA0003636566140000072
Figure BDA0003636566140000073
分别表示该样本中第l单元的前背景预测概率与真实标签,γ表示调制系数,L表示单元序列长度,本实例中γ=2。
步骤6中:首先通过一个全连接层将特征序列Xf映射至维度N=1024得到X′f。基于前背景分离结果pfb对特征序列X′f时序编码。具体为设定激活阈值θf,本实例中θf=0.5,使用阶跃函数ε(x)得到二值序列S,其表达式为:
S=ε(pfbf)
Figure BDA0003636566140000074
其中Si表示S中的第i个元素,
Figure BDA0003636566140000075
对S中的元素进行复制与升维,得到
Figure BDA0003636566140000076
N与X′f中的单元维度相同,本实例中N=1024。之后使用残差连接基于S′对X′f进行加权,得到待推理样本X′,具体表达式为:
X′=X′f+X′f⊙S′;
将X′送入基于自注意力模块与全连接层组成的时序编码器进行时序推理并编码。为了在编码过程中加入X′各单元的位置信息,需要对X′进行位置编码,在本实例中使用可学习的位置编码
Figure BDA0003636566140000077
P中各元素使用标准正态分布进行初始化,位置编码后送入自注意力模块计算注意力A:
Figure BDA0003636566140000078
通过A对X′加权并残差连接后得到XA
XA=(A+I)X′;
将XA送入线性层进行映射,本实例中的线性层为单层全连接层,映射后得到编码特征序列Y={y-L+1,...,y-1,y0}:
Y=XA+ReLU(FC(XA));
其中FC表示全连接层。
步骤7中:将编码特征序列Y中表示当前时刻的待检测编码特征
Figure BDA0003636566140000081
取出,设动作类别总数为numa,加上背景类,构造一个输入维度为N,输出维度为numa+1的单层全连接层作为分类器Classifier,将y0映射至类别空间后,使用Softmax函数得到在线动作检测概率
Figure BDA0003636566140000082
并将p中概率最大的动作/背景类别作为动作在线检测结果:
p=Softmax(Classifier(y0));
使用交叉熵损失函数
Figure BDA0003636566140000083
计算检测损失,其表达式为:
Figure BDA0003636566140000084
其中pn,yn分别表示在线动作预测概率与真实动作标签。
最后基于以上步骤中的多个损失函数构造联合损失函数
Figure BDA0003636566140000085
对检测器进行优化:
Figure BDA0003636566140000086
其中
Figure BDA0003636566140000087
表示检测损失,
Figure BDA0003636566140000088
分别表示前背景分离损失和映射损失,α表示平衡系数,在本实例中α=0.5。
以上所述实施例仅表达了本申请的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请技术方案构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。

Claims (9)

1.一种前背景分离的人体动作在线检测方法,其特征在于,包括以下步骤:
步骤1:采集包含人体动作的视频数据,并对视频数据中的人体动作标注动作起始时间、结束时间以及动作类别,得到原始视频数据集;
步骤2:对原始视频数据集按预定比例进行随机划分得到训练集和测试集,并分别对原始视频数据集中的数据进行预处理和构建训练样本;
步骤3:基于I3D(Inflated 3D ConvNet)构建特征提取模块,对原始视频数据集中的数据进行特征提取,得到人体动作特征;
步骤4:构建基于多层感知机的特征映射模块,并通过基于特征模长设计的对比损失对输入特征序列中的前背景特征在特征空间中分离;
步骤5:构建维度与步骤4中的输出维度相同的可学习前景记忆特征向量与基于互注意力的相似性度量模块,得到与输入特征序列对应的前背景类别概率向量;
步骤6:构建基于自注意力机制的时序推理器,利用步骤5中得到的前背景类别概率向量对输入特征序列进行加权后,输入时序推理器进行编码,得到编码序列特征;
步骤7:构建分类器,并将构建的分类器送入编码序列特征得到人体动作在线检测结果,并基于结果通过联合损失函数对模型进行优化。
2.根据权利要求1所述的一种前背景分离的人体动作在线检测方法,其特征在于,所述步骤2包括以下步骤:
步骤2.1:按照预定的比例将原始视频数据集随机划分得到训练集和测试集;
步骤2.2:将原始视频数据集中的原始视频以32FPS进行抽帧,得到RGB图像帧序列;
步骤2.3:将RGB图像帧序列的分辨率调整至256*256,并对训练集中的视频数据进行随机裁剪得到分辨率为224*224的图像,并以概率p进行随机翻转;并将测试集中的视频数据的分辨率大小调整至224*224;
步骤2.4:对经过步骤2.3处理的RGB图像帧序列采用TVL1算法计算光流图像;
步骤2.5:将包含16帧RGB图像和16帧光流图像的16帧图像构成一组视频块,作为动作特征提取的最小单元,以L个单元构成输入的单个训练样本X=(x-L+1,...,x0)。
3.根据权利要求1所述的一种前背景分离的人体动作在线检测方法,其特征在于,步骤3中所述的特征提取模块,基于I3D网络结构,由1个3D卷积模块以及3个Inception模块组成,对步骤2中输出序列进行特征提取后分别得到维度为N的RGB特征向量以及光流特征向量,并将RGB特征向量以及光流特征向量级联得到人体动作特征序列Xf
4.根据权利要求1所述的一种前背景分离的人体动作在线检测方法,其特征在于,步骤4中所述的多层感知机由两层输入输出维度相等,且大小为N的线性层级联而成,所述多层感知机的输出为特征序列X′c
5.根据权利要求1所述的一种前背景分离的人体动作在线检测方法,其特征在于,步骤4中所述的基于特征模长设计的对比损失的表达式如下:
Figure FDA0003636566130000021
式中:M表示前背景特征模长分离阈值,
Figure FDA0003636566130000022
Figure FDA0003636566130000023
分别表示特征序列X′c中第i个前景特征第j个背景特征的2范数大小,A和B分别表示输入特征序列中的前景特征与背景特征的数目。
6.根据权利要求1所述的一种前背景分离的人体动作在线检测方法,其特征在于,所述步骤5包括以下步骤:
步骤5.1:使用线性层将输入特征序列X′c映射为Xfb,维度大小为N;
步骤5.2:使用参数初始化方法构建长度为N的可学习前景记忆特征向量;
步骤5.3:使用矩阵乘法计算Xfb中各特征与前景记忆特征向量的相似性;
步骤5.4:基于相似性使用Sigmoid函数计算二分类前背景类别预测概率;
步骤5.5:基于前背景类别预测概率使用基于Focal Loss二元交叉熵损失对特征映射模块以及相似性度量模块中的网络进行优化。
7.根据权利要求1所述的一种前背景分离的人体动作在线检测方法,其特征在于,所述步骤6包括以下步骤:
步骤6.1:通过一个全连接层将特征序列Xf映射至维度N得到X′f;根据前背景类别预测概率,设定激活阈值,再使用阶跃函数得到二值序列;
步骤6.2:基于二值序列,使用残差连接对X′f进行加权,得到待推理样本;
步骤6.3:使用自注意力模块与全连接层组成的时序编码器对待推理样本进行时序推理并进行编码,得到编码序列特征。
8.根据权利要求1所述的一种前背景分离的人体动作在线检测方法,其特征在于,所述时序编码器由一个自注意力层与一个全连接层组成,自注意力层和全连接层的输入输出均存在残差连接。
9.根据权利要求1所述的一种前背景分离的人体动作在线检测方法,其特征在于,步骤7中通过分类器得到在线动作预测概率后,将在线动作预测概率中概率最大的动作/背景类别作为动作在线检测结果,使用交叉熵损失函数
Figure FDA0003636566130000031
计算损失,其表达式为:
Figure FDA0003636566130000032
式中:pn,yn分别表示在线动作预测概率与真实动作标签。
联合损失函数
Figure FDA0003636566130000033
为:
Figure FDA0003636566130000034
式中:α表示损失平衡系数;Lc为前背景分离对比损失;
Figure FDA0003636566130000035
为二元交叉熵损失。
CN202210532569.7A 2022-05-10 2022-05-10 一种前背景分离的人体动作在线检测方法 Active CN114926900B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210532569.7A CN114926900B (zh) 2022-05-10 2022-05-10 一种前背景分离的人体动作在线检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210532569.7A CN114926900B (zh) 2022-05-10 2022-05-10 一种前背景分离的人体动作在线检测方法

Publications (2)

Publication Number Publication Date
CN114926900A true CN114926900A (zh) 2022-08-19
CN114926900B CN114926900B (zh) 2023-06-16

Family

ID=82807900

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210532569.7A Active CN114926900B (zh) 2022-05-10 2022-05-10 一种前背景分离的人体动作在线检测方法

Country Status (1)

Country Link
CN (1) CN114926900B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116170638A (zh) * 2023-02-01 2023-05-26 山东大学 用于在线动作检测任务的自注意力视频流压缩方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018142228A2 (en) * 2017-01-19 2018-08-09 Mindmaze Holding Sa Systems, methods, apparatuses and devices for detecting facial expression and for tracking movement and location including for at least one of a virtual and augmented reality system
CN110458085A (zh) * 2019-08-06 2019-11-15 中国海洋大学 基于注意力增强三维时空表征学习的视频行为识别方法
CN111401177A (zh) * 2020-03-09 2020-07-10 山东大学 基于自适应时空注意力机制的端到端行为识别方法及系统
CN111611847A (zh) * 2020-04-01 2020-09-01 杭州电子科技大学 基于尺度注意力空洞卷积网络的视频动作检测方法
CN111709316A (zh) * 2020-05-27 2020-09-25 杰创智能科技股份有限公司 一种结合时空判别滤波器组的行为识别方法
CN112651292A (zh) * 2020-10-01 2021-04-13 新加坡依图有限责任公司(私有) 基于视频的人体动作识别方法、装置、介质及电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018142228A2 (en) * 2017-01-19 2018-08-09 Mindmaze Holding Sa Systems, methods, apparatuses and devices for detecting facial expression and for tracking movement and location including for at least one of a virtual and augmented reality system
US20190155386A1 (en) * 2017-01-19 2019-05-23 Mindmaze Holding Sa Systems, methods, apparatuses and devices for detecting facial expression and for tracking movement and location in at least one of a virtual and augmented reality system
CN110458085A (zh) * 2019-08-06 2019-11-15 中国海洋大学 基于注意力增强三维时空表征学习的视频行为识别方法
CN111401177A (zh) * 2020-03-09 2020-07-10 山东大学 基于自适应时空注意力机制的端到端行为识别方法及系统
CN111611847A (zh) * 2020-04-01 2020-09-01 杭州电子科技大学 基于尺度注意力空洞卷积网络的视频动作检测方法
CN111709316A (zh) * 2020-05-27 2020-09-25 杰创智能科技股份有限公司 一种结合时空判别滤波器组的行为识别方法
CN112651292A (zh) * 2020-10-01 2021-04-13 新加坡依图有限责任公司(私有) 基于视频的人体动作识别方法、装置、介质及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KIM J等: "weakly-supervised temporal attention 3D network for human action recognition", pages 119 *
孙秋媚;李蒙;: "深度视频中人体行为识别的图建模技术", vol. 36, no. 07, pages 1 - 8 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116170638A (zh) * 2023-02-01 2023-05-26 山东大学 用于在线动作检测任务的自注意力视频流压缩方法及系统
CN116170638B (zh) * 2023-02-01 2024-04-30 山东大学 用于在线动作检测任务的自注意力视频流压缩方法及系统

Also Published As

Publication number Publication date
CN114926900B (zh) 2023-06-16

Similar Documents

Publication Publication Date Title
Huang et al. Location-aware graph convolutional networks for video question answering
CN113936339B (zh) 基于双通道交叉注意力机制的打架识别方法和装置
CN111639544B (zh) 基于多分支跨连接卷积神经网络的表情识别方法
CN112766158B (zh) 基于多任务级联式人脸遮挡表情识别方法
CN111259786B (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN109543602B (zh) 一种基于多视角图像特征分解的行人再识别方法
CN108090472B (zh) 基于多通道一致性特征的行人重识别方法及其系统
CN112926396A (zh) 一种基于双流卷积注意力的动作识别方法
Yang et al. Hierarchical soft quantization for skeleton-based human action recognition
CN110569814A (zh) 视频类别识别方法、装置、计算机设备及计算机存储介质
CN114202740A (zh) 一种基于多尺度特征融合的行人重识别方法
CN109446897B (zh) 基于图像上下文信息的场景识别方法及装置
Pham et al. Skeletal movement to color map: A novel representation for 3D action recognition with inception residual networks
Baddar et al. On-the-fly facial expression prediction using lstm encoded appearance-suppressed dynamics
CN114387641A (zh) 基于多尺度卷积网络和ViT的虚假视频检测方法及系统
CN114613004B (zh) 一种人体动作的轻量化在线检测方法
CN114913396A (zh) 一种电机轴承故障诊断方法
CN114926900A (zh) 一种前背景分离的人体动作在线检测方法
CN114241606A (zh) 一种基于自适应集学习预测的人物交互检测方法
Wang et al. Dreamnet: A deep riemannian manifold network for spd matrix learning
CN115797952B (zh) 基于深度学习的手写英文行识别方法及系统
Yuan et al. CTIF-Net: A CNN-Transformer Iterative Fusion Network for Salient Object Detection
CN115909408A (zh) 一种基于Transformer网络的行人重识别方法及装置
CN112200840B (zh) 一种可见光和红外图像组合中的运动物体检测系统
CN114780767A (zh) 一种基于深度卷积神经网络的大规模图像检索方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant