CN114613004B - 一种人体动作的轻量化在线检测方法 - Google Patents

一种人体动作的轻量化在线检测方法 Download PDF

Info

Publication number
CN114613004B
CN114613004B CN202210206087.2A CN202210206087A CN114613004B CN 114613004 B CN114613004 B CN 114613004B CN 202210206087 A CN202210206087 A CN 202210206087A CN 114613004 B CN114613004 B CN 114613004B
Authority
CN
China
Prior art keywords
sequence
attention
network
human body
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210206087.2A
Other languages
English (en)
Other versions
CN114613004A (zh
Inventor
程建
夏子瀛
刘思宇
王琪
马琦钧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202210206087.2A priority Critical patent/CN114613004B/zh
Publication of CN114613004A publication Critical patent/CN114613004A/zh
Application granted granted Critical
Publication of CN114613004B publication Critical patent/CN114613004B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于视频处理技术领域,具体涉及一种人体动作的轻量化在线检测方法,本发明包括:步骤1:采集视频数据并标注分块;步骤2:对视频块预处理并生成在线检测数据集;步骤3:基于SlowFast构建特征提取网络,得到视频块特征;步骤4:构建基于双路孪生网络对特征进行辨别性映射;步骤5:构建基于Informer概率稀疏注意力与注意力蒸馏的时序编码器,得到时序编码特征;步骤6:构建基于Informer概率稀疏注意力的时序解码器进行时序解码,将解码结果送入分类器得到人体动作在线检测结果,基于多时态检测结果对整体网络联合优化;本发明通过上述技术方案,极大减少了时序推理运算量,提高了在线动作检测效率和精度。

Description

一种人体动作的轻量化在线检测方法
技术领域
本发明属于视频处理技术领域,具体涉及一种人体动作的轻量化在线检测方法。
背景技术
目前,人体动作在线检测任务要求在一个视频流中,根据已观测到的多帧图像结合当前时刻图像帧对该时刻的人体动作进行识别。人体动作在线检测是视频理解领域一个极具挑战性的任务,在不取得完整时空动作信息的前提下对人体动作进行实时帧级动作类别划分,要求模型更高更快的时序推理能力,这对于该领域的发展存在重大研究意义。另一方面,人体动作在线检测对于多项现实任务具有发展意义,由于该技术无需对动作完整观测即可对动作进行识别,从而使智能设备对该动作实时做出反应,在视频监控、无人驾驶与智能人机交互等技术领域存在极大的应用价值。
现有人体动作在线检测方法主要是基于深度循环神经网络对人体动作进行在线识别。该类方法通过将多个连续视频块提取特征后送入循环神经序列进行时序推理得到在线检测结果,该类方法受限于循环神经网络自身的序列结构特性,必须将按时间顺序进行逐步推理,计算耗时耗力,且对于长序列输入不仅推理缓慢无法做到实时检测,且推理过程随网络加深中会大量丢失时间信息。因此现有技术的人体动作在线检测效率和精度普遍较低。
发明内容
本发明拟提供一种人体动作的轻量化在线检测方法,拟解决人体动作在线检测效率和精度较低的问题。
为解决上述技术问题,本发明采用的技术方案如下:
一种人体动作的轻量化在线检测方法,包括以下步骤:
步骤1:采集人体动作视频数据,对人体动作视频进行标注分块,得到作为训练样本的多个视频块序列;
步骤2:对步骤1中得到的所有视频块做预处理,得到视频序列数据集,并将视频序列数据集分为测试集和训练集;
步骤3:基于SlowFast模型构建特征提取网络,并基于所构建的特征提取网络提取人体动作在线检测数据集中的每个视频块的特征,得到视频块时空特征;
步骤4:基于双路孪生网络设计辨别性特征映射网络,并基于所述辨别性特征映射网络对视频块时空特征进行辨别性映射,得到映射向量;
步骤5:基于Informer模型的概率稀疏注意力与注意力蒸馏,构建时序编码器,并通过时序编码器对映射向量进行特征编码,得到编码向量序列;
步骤6:基于Informer模型的概率稀疏注意力构建时序解码器,并通过时序解码器对编码向量序列进行时序解码,得到解码结果;将解码结果送入分类器得到人体动作在线检测结果,并基于多时态的检测结果对整体网络联合优化;
对整体网络联合优化的具体步骤如下:
步骤A:对过去时刻以及未来时刻进行人体动作识别,得到预测概率pi,具体为:
pi=Classifier(yi) (i=-T+1,...P,i≠0);
其中yi表示解码输出序列中第i个解码向量,Classifier()表示动作识别分类器,由一个输出维度为动作类别数的全连接层和Softmax函数级联而成;
步骤B:利用标准交叉熵函数计算过去时刻预测损失Lp以及未来时刻损失Lf,具体的:
其中gi表示第i个视频块对应的动作标签,pi为该时刻预测概率;
步骤C:对于现在时刻,将y中过去时刻与未来时刻向量平均后与y0级联得到人体动作在线预测向量Y;将人体动作在线预测向量Y送入分类器后得到人体在线动作检测概率p0,并用标准交叉熵计算预测损失Ln
并利用多时态联合损失函数L对整体网络参数进行优化,其表达式为:
其中λ12为人为设定的平衡系数,Lc表示对比损失,最后将p0中概率最大的动作类别作为在线动作检测结果。
本发明采用孪生网络对特征序列进行映射,增加输入时序特征序列辨别性。为了减少长时信息丢失与时序推理的时间问题,本发明基于Informer模型的概率稀疏注意力构建时序编码器进行时序推理,并结合注意力蒸馏进一步的提高推理效率。采用Informer模型的概率稀疏注意力构建时序解码器,通过多时态融合生成式解码提升人体动作在线检测精度和速度。
优选的,所述步骤1包括以下步骤:
步骤1.1:采用影像设备采集人体动作视频数据;
步骤1.2:对人体动作视频数据中的人体动作做时序上的标注;
步骤1.3:对人体动作视频数据按预设的固定时间长度进行分块,得到视频块序列;
步骤1.4:设定输入时间序列长度,按时间顺序将长度为序列长度的视频块序列作为单个训练样本。
优选的,所述步骤2包括以下步骤:
步骤2.1:将训练样本中的所有视频块序列中的图像帧分辨率修改为256*256;
步骤2.2:对修改后的图像帧分辨率进行随机裁剪,得到图像帧分辨率为224*224的视频块序列数据集;
步骤2.3:将原始视频(刚采集到的视频数据)按照1:1的比例划分为训练集和测试集,分别用于训练和测试。
优选的,为了获取更优的特征提取能力,所述步骤3中构建特征提取网络时,还需将特征提取网络在Kinetics数据集上进行训练。
优选的,步骤3中所述的特征提取网络结构采用SlowFast模型中的date layer的时序抽取操作,以及Slow Pathway中的conv1到res5的卷积层和池化层。
优选的,所述双路孪生网络采用两层共享参数的全连接层网络构建,使用Xavier初始化策略对全连接层网络的网络参数进行初始化,即:层输入维度为fin,层输出维度为fout,其初始化参数ω服从均值为0,方差为的高斯分布:
网络训练时,将步骤3中输出的视频块时空特征序列x-T+1,…,x2,x1,x0中的x0与序列的其余特征{x-T+1,…,x2,x1}分别配对,得到(x-T+1,x0),…,(x1,x0)特征对序列,其中x0代表当前时刻的视频块时空特征;将经过配对的特征对送入辨别性特征映射网络进行训练,通过对比损失LC对辨别性特征映射网络进行优化,其表达式为:
其中W为网络参数,当X1,X2为同一类别时Y=1,否则Y=0,Dw为两向量间的欧式距离,m为向量间距离阈值。
优选的,所述时序编码器首先将输入的特征向量序列进行位置编码,加入序列的位置信息,基于Informer编码器对z进行编码,得到编码后的向量序列h;
h=EN(z);
利用概率稀疏自注意力层计算z的中序列间的时序自注意力,利用注意力蒸馏层对注意力序列进行蒸馏压缩;采用多个概率稀疏注意力和注意力蒸馏层级联而成,数量为n:n-1。
优选的,所述时序解码器构建出P个可学习向量,且时序解码器所构建的向量维度与步骤4中的输出维度相同,且与步骤4中的输出向量级联,利用1个概率稀疏注意力层计算可学习向量间的自注意力后,再通过一个全注意力层计算与编码输出间的互注意力,得到过去、现在以及未来三时态解码向量。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
本发明通过使用对比学习的孪生网络对特征序列进行映射,增加了输入时序特征序列辨别性;并且为了减少长时信息丢失与时序推理的时间问题,基于Informer模型的概率稀疏注意力结构构建时序编码器进行时序推理,并结合注意力蒸馏进一步提高推理效率。采用Informer模型的概率稀疏注意力构建时序解码器,通过多时态融合生成式解码提升人体动作在线检测精度与速度。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1为本发明的流程示意图;
图2为本发明的数据样本构建流程图;
图3为本发明所构建的视频块特征提取网络结构图;
图4为本发明的时序解码器结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面结合附图1和附图4对本发明的实施例作详细描述;
一种人体动作的轻量化在线检测方法,包括以下步骤:
步骤1:采集人体动作视频数据,对人体动作视频进行标注分块,得到作为训练样本的多个视频块序列;
所述步骤1包括以下步骤:
步骤1.1:采用影像设备采集人体动作视频数据;
步骤1.2:对人体动作视频数据中的人体动作做时序上的标注;
步骤1.3:对人体动作视频数据按预设的固定时间长度进行分块,得到视频块序列;
步骤1.4:设定输入时间序列长度,按时间顺序将长度为序列长度的视频块序列作为单个训练样本。
步骤2:对步骤1中得到的所有视频块做预处理,得到视频序列数据集,并将视频序列数据集分为测试集和训练集;
所述步骤2包括以下步骤:
步骤2.1:将训练样本中的所有视频块序列中的图像帧分辨率修改为256*256;
步骤2.2:对修改后的图像帧分辨率进行随机裁剪,得到图像帧分辨率为224*224的视频块序列数据集;
步骤2.3:将原始视频(刚采集到的视频数据)按照1:1的比例划分为训练集和测试集,分别用于训练和测试。
步骤3:基于SlowFast模型构建特征提取网络,并基于所构建的特征提取网络提取人体动作在线检测数据集中的每个视频块的特征,得到视频块时空特征;为了获取更优的特征提取能力,在构建特征提取网络时,还需将特征提取网络在Kinetics数据集上进行训练。所述的特征提取网络结构采用SlowFast模型中的date layer的时序抽取操作,以及Slow Pathway中的conv1到res5的卷积层和池化层。
步骤4:基于双路孪生网络设计辨别性特征映射网络,并基于所述辨别性特征映射网络对视频块时空特征进行辨别性映射,得到映射向量;所述双路孪生网络采用两层共享参数的全连接层网络构建,使用Xavier初始化策略对全连接层网络的网络参数进行初始化,即:层输入维度为fin,层输出维度为fout,其初始化参数ω服从均值为0,方差为的高斯分布:
网络训练时,将步骤3中输出的视频块时空特征序列x-T+1,…,x2,x1,x0中的x0与序列的其余特征{x-T+1,…,x2,x1}分别配对,得到(x-T+1,x0),…,(x1,x0)特征对序列,其中x0代表当前时刻的视频块时空特征;将经过配对的特征对送入辨别性特征映射网络进行训练,通过对比损失LC对辨别性特征映射网络进行优化,其表达式为:
其中W为网络参数,当X1,X2为同一类别时Y=1,否则Y=0,Dw为两向量间的欧式距离,m为向量间距离阈值。
步骤5:基于Informer模型的概率稀疏注意力与注意力蒸馏,构建时序编码器,并通过时序编码器对映射向量进行特征编码,得到编码向量序列;所述时序编码器首先将输入的映射向量序列进行位置编码,加入序列的位置信息,基于Informer编码器对z进行编码,得到编码后的向量序列h;
h=EN(z);
利用概率稀疏自注意力层计算z的中序列间的时序自注意力,利用注意力蒸馏层对注意力序列进行蒸馏压缩;采用多个概率稀疏注意力和注意力蒸馏层级联而成,数量为n:n-1。
步骤6:基于Informer模型的概率稀疏注意力构建时序解码器,并通过时序解码器对编码向量序列进行时序解码,得到解码结果;所述时序解码器构建出P个可学习向量,且时序解码器所构建的向量维度与步骤4中的输出维度相同,且与步骤4中的输出向量级联,利用1个概率稀疏注意力层计算可学习向量间的自注意力后,再通过一个全注意力层计算与编码输出间的互注意力,得到过去、现在以及未来三时态解码向量。
将解码结果送入分类器得到人体动作在线检测结果,并基于多时态的检测结果对整体网络联合优化。对整体网络联合优化的具体步骤如下:
步骤A:对过去时刻以及未来时刻进行人体动作识别,得到预测概率pi,具体为:
pi=Classifier(yi) (i=-T+1,...P,i≠0);
其中yi表示解码输出序列中第i个解码向量,Classifier()表示动作识别分类器,由一个输出维度为动作类别数的全连接层和Softmax函数级联而成;
步骤B:利用标准交叉熵函数计算过去时刻预测损失Lp以及未来时刻损失Lf,具体的:
其中gi表示第i个视频块对应的动作标签,pi为该时刻预测概率;
步骤C:对于现在时刻,将y中过去时刻与未来时刻向量平均后与y0级联得到人体动作在线预测向量Y;将人体动作在线预测向量Y送入分类器后得到人体在线动作检测概率p0,并用标准交叉熵计算预测损失Ln
并利用多时态联合损失函数L对整体网络参数进行优化,其表达式为:
其中λ12为人为设定的平衡系数,Lc表示对比损失,最后将p0中概率最大的动作类别作为在线动作检测结果。
本发明采用孪生网络对特征序列进行映射,增加输入时序特征序列辨别性。为了减少长时信息丢失与时序推理的时间问题,本发明基于Informer概率稀疏注意力构建时序编码器进行时序推理,并结合注意力蒸馏进一步的提高推理效率。采用Informer概率稀疏注意力构建时序解码器,通过多时态融合生成式解码提升人体动作在线检测精度和速度。
下面通过具体的实施方式对本发明作出进一步的描述:
步骤1:利用影响设备采集原始视频,人为对视频中的人体动作进行时序上的标注,将所采集的原始视频按帧率τ进行采样后,得到该视频图像的帧序列;设定视频块长度为L,按时间顺序将每L帧图像组成一个视频块(chunk),每个视频块对应的原始视频时间的长度为特别的,对于帧序列尾部不足长度L的视频块,通过复制该视频块最后一帧图像来补足长度L。本发明使用视频块作为最小时间处理单元,形状为3×L×H×W,其中H和W表示图像的高和宽,将该视频块的中间帧(/>帧)所对应的动作类别作为该视频块的动作类别。
步骤2:对经过步骤1得到的视频块进行预处理;在本实施例中,首先将视频块的图像帧分别率调整为256*256,再对图像帧进行随机裁剪得到224*224分别率的图像帧,预处理后视频块的形状为3×L×224×224;对原视频以随机抽取的方式,按照1:1的比例将原始视频(刚获取到未经过处理的视频)划分为训练集和测试集,对每个视频中基于预处理的视频块序列构建数据样本;具体的,按原始视频时间顺序对视频块进行排列;设定输入序列长度为T的时间窗,以步长1对视频块序列进行重叠滑窗,每次得到长度为T的视频块序列作为一个数据样本,其数据形状为T×3×L×224×224,具体操作步骤如图2所示。
步骤3:为增加同类时空特征间的相似性与异类时空特征间的辨别性,基于对比学习中双路孪生网络的思想设计辨别性特征映射模块。本实施例中,利用双层全连接层进行模块构建,其输出维度分别为1024,2048,使用Xavier初始化策略对该模块网络参数进行初始化,具体的,层输入维度为fin,层输出维度为fout,其初始化参数为:
网络训练时,将步骤3中输出的视频块时空特征序列x-T+1,…,x2,x1,x0中的x0与序列特征分别配对,得到(x-T+1,x0),…,(x1,x0)特征对序列,其中x0代表当前时刻的视频块时空特征,将该视频块时空特征送入映射模块进行训练,通过对比损失对该模块进行优化,其表达式为:
其中,W为网络参数,当X1,X2为同一类别时Y=1,否则Y=0,Dw为两向量间的欧式距离,m为向量间距离阈值,在本实例中m=0.25。最后得到辨别性映射向量序列x′。
步骤5:如图4所示,基于Informer模型的稀疏注意力机制构建时序编码器,通过所构建的时序编码器对映射后的特征进行编码。具体的,将特征序列进行位置编码以加入序列位置信息,在本实施例中,采用固定位置编码生成编码向量,表达式如下所示:
其中,pos代表位置下标,i代表向量维度下标,dmodel表示编码向量维度,在本实例中与映射后特征序列相同,为2048。将生成位置向量与x′相加得到编码后向量z作为编码器输入。基于时序编码器对z进行编码,得到编码后向量序列h:
h=EN(z);
具体的,利用概率稀疏自注意力(ProbAttention)层计算z中序列间的时序自注意力,利用注意力蒸馏层对注意力序列进行蒸馏压缩,具体表达式如下:
hi=Distil(ProbAtten(hi-1,hi-1,c))(h0=z);
其中c表示稀疏系数,hi表示第i个注意力蒸馏层的输出,蒸馏层函数表达式为:
Distil(hi′)=MaxPool(ELU(Conv1d(hi′)));
其中:卷积层卷积核大小为3,步长为1,padding为1,最大池化层核大小为3,步长为2,padding为1。具体地,在本实例中c=5,注意力输出维度为1024,并使用4个概率稀疏注意力层以及3个注意力蒸馏层构成时序编码器,最后编码输出形状为
步骤6:如图4所示,基于Informer解码器结构构建时序解码器,并将时序解码器的解码结果送入分类器得到人体动作在线检测结果。设定预测长度P,首先生成P个维度为1×1024的可学习向量作为预测解码向量,将步骤104中所得映射向量与预测解码向量级联得到解码输入向量Xd,其形状为(T+P)×1024。基于时序解码器对Xd进行时序解码,得到解码输出y。具体地,将Xd送入概率稀疏注意力层计算解码序列间自注意力后再通过全注意力层计算与编码输出序列间的互注意力,其表达式为:
在本实例中,设定动作类别数量为N,构建输入维度为1024,输出维度为N的分类层。训练时,首先对过去时刻以及未来时刻进行人体动作识别,得到预测概率pi,具体为:
pi=Classifier(yi) (i=-T+1,...P,i≠0);
利用标准交叉熵函数计算过去时刻预测损失Lp以及未来时刻损失Lf,具体的:
其中gi表示第i个视频块对应的动作标签。对于现在时刻,将y中过去时刻与未来时刻向量平均后与y0级联得到人体动作在线预测向量Y。将预测向量Y送入分类器后得到人体在线动作检测概率p0,并用标准交叉熵计算预测损失Ln
并利用多时态联合损失函数L对整体网络参数进行优化,其表达式为:
其中λ12为人为设定的平衡系数,在本实例中λ1=0.25,λ2=0.25。
最后将p0中概率最大的动作类别作为在线动作检测结果。
以上所述实施例仅表达了本申请的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请技术方案构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。

Claims (8)

1.一种人体动作的轻量化在线检测方法,其特征在于,包括以下步骤:
步骤1:采集人体动作视频数据,对人体动作视频进行标注分块,得到作为训练样本的多个视频块序列;
步骤2:对步骤1中得到的所有视频块做预处理,得到视频序列数据集,并将视频序列数据集分为测试集和训练集;
步骤3:基于SlowFast模型构建特征提取网络,并基于所构建的特征提取网络提取人体动作在线检测数据集中的每个视频块的特征,得到视频块时空特征;
步骤4:基于双路孪生网络设计辨别性特征映射网络,并基于所述辨别性特征映射网络对视频块时空特征进行辨别性映射,得到映射向量;
步骤5:基于Informer模型的概率稀疏注意力与注意力蒸馏,构建时序编码器,并通过时序编码器对映射向量进行特征编码,得到编码向量序列;
步骤6:基于Informer模型的概率稀疏注意力构建时序解码器,并通过时序解码器对编码向量序列进行时序解码,得到解码结果;将解码结果送入分类器得到人体动作在线检测结果,并基于多时态的检测结果对整体网络联合优化;
对整体网络联合优化的具体步骤如下:
步骤A:对过去时刻以及未来时刻进行人体动作识别,得到预测概率pi,具体为:
pi=Classifier(yi)(i=-T+1,...P,i≠0);
其中yi表示解码输出序列中第i个解码向量,Classifier()表示动作识别分类器,由一个输出维度为动作类别数的全连接层和Softmax函数级联而成;
步骤B:利用标准交叉熵函数计算过去时刻预测损失Lp以及未来时刻损失Lf,具体的:
其中gi表示第i个视频块对应的动作标签,pi为该时刻预测概率;
步骤C:对于现在时刻,将y中过去时刻与未来时刻向量平均后与y0级联得到人体动作在线预测向量Y;将人体动作在线预测向量Y送入分类器后得到人体在线动作检测概率p0,并用标准交叉熵计算预测损失Ln
并利用多时态联合损失函数L对整体网络参数进行优化,其表达式为:
其中λ12为人为设定的平衡系数,Lc表示对比损失,最后将p0中概率最大的动作类别作为在线动作检测结果。
2.根据权利要求1所述的一种人体动作的轻量化在线检测方法,其特征在于,所述步骤1包括以下步骤:
步骤1.1:采用影像设备采集人体动作视频数据;
步骤1.2:对人体动作视频数据中的人体动作做时序上的标注;
步骤1.3:对人体动作视频数据按预设的固定时间长度进行分块,得到视频块序列;
步骤1.4:设定输入时间序列长度,按时间顺序将长度为序列长度的视频块序列作为单个训练样本。
3.根据权利要求1所述的一种人体动作的轻量化在线检测方法,其特征在于,所述步骤2包括以下步骤:
步骤2.1:将训练样本中的所有视频块序列中的图像帧分辨率修改为256*256;
步骤2.2:对修改后的图像帧分辨率进行随机裁剪,得到图像帧分辨率为224*224的视频块序列数据集;
步骤2.3:将原始视频数据按照1:1的比例划分为训练集和测试集,分别用于训练和测试。
4.根据权利要求1所述的一种人体动作的轻量化在线检测方法,其特征在于,所述步骤3中构建特征提取网络时,还需将特征提取网络在Kinetics数据集上进行训练。
5.根据权利要求1所述的一种人体动作的轻量化在线检测方法,其特征在于,步骤3中所述的特征提取网络结构采用SlowFast模型中的date layer的时序抽取操作,以及SlowPathway中的conv1到res5的卷积层和池化层。
6.根据权利要求1所述的一种人体动作的轻量化在线检测方法,其特征在于,所述双路孪生网络采用两层共享参数的全连接层网络构建,使用Xavier初始化策略对全连接层网络的网络参数进行初始化,即:层输入维度为fin,层输出维度为fout,其初始化参数ω服从均值为0,方差为的高斯分布:
网络训练时,将步骤3中输出的视频块时空特征序列x-T+1,…,x2,x1,x0中的x0与序列的其余特征{x-T+1,…,x2,x1}分别配对,得到(x-T+1,x0),…,(x1,x0)特征对序列,其中x0代表当前时刻的视频块时空特征;将经过配对的特征对送入辨别性特征映射网络进行训练,通过对比损失Lc对辨别性特征映射网络进行优化,其表达式为:
其中W为网络参数,当X1,X2为同一类别时Y=1,否则Y=0,Dw为两向量间的欧式距离,m为向量间距离阈值。
7.根据权利要求1所述的一种人体动作的轻量化在线检测方法,其特征在于,所述时序编码器首先将输入的特征向量序列进行位置编码,加入序列的位置信息,基于Informer编码器对z进行编码,得到编码后的向量序列h;
h=EN(z);
利用概率稀疏自注意力层计算z的中序列间的时序自注意力,利用注意力蒸馏层对注意力序列进行蒸馏压缩;采用多个概率稀疏注意力和注意力蒸馏层级联而成,数量为n:n-1。
8.根据权利要求1所述的一种人体动作的轻量化在线检测方法,其特征在于,所述时序解码器构建出P个可学习向量,且时序解码器所构建的向量维度与步骤4中的输出维度相同,且与步骤4中的输出向量级联,利用1个概率稀疏注意力层计算可学习向量间的自注意力后,再通过一个全注意力层计算与编码输出间的互注意力,得到过去、现在以及未来三时态解码向量。
CN202210206087.2A 2022-02-28 2022-02-28 一种人体动作的轻量化在线检测方法 Active CN114613004B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210206087.2A CN114613004B (zh) 2022-02-28 2022-02-28 一种人体动作的轻量化在线检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210206087.2A CN114613004B (zh) 2022-02-28 2022-02-28 一种人体动作的轻量化在线检测方法

Publications (2)

Publication Number Publication Date
CN114613004A CN114613004A (zh) 2022-06-10
CN114613004B true CN114613004B (zh) 2023-08-01

Family

ID=81861104

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210206087.2A Active CN114613004B (zh) 2022-02-28 2022-02-28 一种人体动作的轻量化在线检测方法

Country Status (1)

Country Link
CN (1) CN114613004B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115081752B (zh) * 2022-08-11 2022-11-22 浙江君同智能科技有限责任公司 黑灰产众包流量预测装置及方法
CN117354042A (zh) * 2023-11-14 2024-01-05 龙坤(无锡)智慧科技有限公司 一种动态监控的边缘网关设备异常流量监测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492679A (zh) * 2018-10-24 2019-03-19 杭州电子科技大学 基于注意力机制与联结时间分类损失的文字识别方法
CN111325099A (zh) * 2020-01-21 2020-06-23 南京邮电大学 一种基于双流时空图卷积神经网络的手语识别方法及系统

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8365164B1 (en) * 2008-02-21 2013-01-29 T-APP Ltd. Portable software applications
KR102042115B1 (ko) * 2014-12-26 2019-11-08 카와사키 주코교 카부시키 카이샤 로봇의 동작프로그램 생성방법 및 로봇의 동작프로그램 생성장치
CN107273782B (zh) * 2016-04-08 2022-12-16 微软技术许可有限责任公司 使用递归神经网络的在线动作检测
CN108062505B (zh) * 2016-11-09 2022-03-18 微软技术许可有限责任公司 用于基于神经网络的动作检测的方法和设备
US10929602B2 (en) * 2018-08-06 2021-02-23 International Business Machines Corporation Training of cognitive systems
CN109801310A (zh) * 2018-11-23 2019-05-24 南京信息工程大学 一种方位和尺度判别深度网络的目标跟踪方法
CN109961019B (zh) * 2019-02-28 2021-03-26 华中科技大学 一种时空行为检测方法
CN111739078B (zh) * 2020-06-15 2022-11-18 大连理工大学 一种基于上下文注意力机制的单目无监督深度估计方法
SG10202006932TA (en) * 2020-07-21 2021-09-29 Yitu Pte Ltd Online Temporal Action Detection Method and Device
CN113487061A (zh) * 2021-05-28 2021-10-08 山西云时代智慧城市技术发展有限公司 一种基于图卷积-Informer模型的长时序交通流量预测方法
CN113269115B (zh) * 2021-06-04 2024-02-09 北京易航远智科技有限公司 一种基于Informer的行人轨迹预测方法
CN113688761B (zh) * 2021-08-31 2024-02-20 安徽大学 一种基于图像序列的行人行为类别检测方法
CN113744311A (zh) * 2021-09-02 2021-12-03 北京理工大学 基于全连接注意力模块的孪生神经网络运动目标跟踪方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492679A (zh) * 2018-10-24 2019-03-19 杭州电子科技大学 基于注意力机制与联结时间分类损失的文字识别方法
CN111325099A (zh) * 2020-01-21 2020-06-23 南京邮电大学 一种基于双流时空图卷积神经网络的手语识别方法及系统

Also Published As

Publication number Publication date
CN114613004A (zh) 2022-06-10

Similar Documents

Publication Publication Date Title
CN114169330B (zh) 融合时序卷积与Transformer编码器的中文命名实体识别方法
CN114613004B (zh) 一种人体动作的轻量化在线检测方法
CN110929092B (zh) 一种基于动态注意力机制的多事件视频描述方法
CN109492679A (zh) 基于注意力机制与联结时间分类损失的文字识别方法
CN110134803B (zh) 基于哈希学习的图像数据快速检索方法
CN113328755B (zh) 一种面向边缘计算的压缩数据传输方法
CN114529903A (zh) 文本细化网络
CN111078895A (zh) 基于去噪卷积神经网络的远程监督实体关系抽取方法
CN111723667A (zh) 基于人体关节点坐标的智慧灯杆人群行为识别方法和装置
CN114067162A (zh) 一种基于多尺度多粒度特征解耦的图像重构方法及系统
Zhu et al. Parallel interaction spatiotemporal constrained variational autoencoder for soft sensor modeling
CN113989933A (zh) 一种在线行为识别模型训练、检测方法及系统
CN114241606A (zh) 一种基于自适应集学习预测的人物交互检测方法
CN114926900B (zh) 一种前背景分离的人体动作在线检测方法
CN116594994B (zh) 视觉语言知识蒸馏在跨模态哈希检索的应用方法
CN115171029B (zh) 基于无人驾驶的城市场景下的实例分割方法及系统
CN113688204B (zh) 一种利用相似场景及混合注意力的多人会话情感预测方法
CN114661874B (zh) 基于多角度语义理解与自适应双通道的视觉问答方法
CN115953592A (zh) 一种基于变分自编码器vae的太赫兹安检图像识别方法
CN115964497A (zh) 一种融合注意力机制与卷积神经网络的事件抽取方法
CN115035455A (zh) 一种基于对抗多模态领域自适应的跨类别视频时间定位方法、系统和存储介质
Ringqvist et al. Interpolation in auto encoders with bridge processes
CN113095386B (zh) 一种基于三轴加速度空时特征融合的手势识别方法及系统
CN115147864A (zh) 一种基于协同异质深度学习网络的红外人体行为识别方法
CN115408603A (zh) 一种基于多头自注意力机制的在线问答社区专家推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant