CN112560618A - 基于骨架和视频特征融合的行为分类方法 - Google Patents

基于骨架和视频特征融合的行为分类方法 Download PDF

Info

Publication number
CN112560618A
CN112560618A CN202011419698.2A CN202011419698A CN112560618A CN 112560618 A CN112560618 A CN 112560618A CN 202011419698 A CN202011419698 A CN 202011419698A CN 112560618 A CN112560618 A CN 112560618A
Authority
CN
China
Prior art keywords
skeleton
data
video
training
feature fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011419698.2A
Other languages
English (en)
Other versions
CN112560618B (zh
Inventor
路红
汪子健
杨博弘
冉武
沈梦琦
任浩然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN202011419698.2A priority Critical patent/CN112560618B/zh
Publication of CN112560618A publication Critical patent/CN112560618A/zh
Application granted granted Critical
Publication of CN112560618B publication Critical patent/CN112560618B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明属于计算机图像处理技术领域,具体为一种基于骨架和视频特征融合的行为分类方法。本发明方法包括:对已有的人类行为视频数据进行预处理,通过人体检测模型和OpenPose分别获取对应的人体检测框和人体骨架数据,作为深度学习模型的训练数据;其中视频数据和人体检测框数据作为前景与背景特征融合网络的输入,骨架特征作为个体与群体特征融合网络的输入;两个网络的输出结果进行平均为最终分类结果;接着对训练集进行监督式学习,得到泛化的深度学习模型;然后,对识别的视频进行和模型训练时一样的预处理,然后作为输入,放进预先训练好深度学习模型里,就能得到行为分类的结果。

Description

基于骨架和视频特征融合的行为分类方法
技术领域
本发明属于计算机图像处理技术领域,具体涉及一种利用骨架特征和视频特征融合的行为分类方法。
背景技术
在计算机视觉任务中,行为识别是十分具有挑战性的领域。行为识别主要有两类研究方法,一类是基于 RGB 图像的行为识别,另外一类是基于骨架的行为识别。基于 RGB的方法,其优点是拥有所有视觉层面上的信息,特征完备,但其缺点是场景过于丰富,而人体姿态在不同的相机角度下变化太大,模型无法完全理解人体姿态语义信息,可能学习到更多的背景特征。基于骨架的方法,其优点人体姿态结构清晰,天然的图模型,对相机视角变化和背景不敏感,特征聚焦在人体。但其缺点也很明显,没有其他物体和背景相关特征,导致当人体与物体进行交互时,往往很难识别其行为类别。因此可以通过将视频特征与骨架特征相融合,以解决单一特征不鲁棒的缺点。
发明内容
本发明的目的在于提供一种鲁棒性好的将视频与骨架特征融合的行为分类方法。
本发明提供的将视频与骨架特征融合的行为分类方法,是基于深度学习的;基本步骤为:对已有的人类行为视频数据进行预处理,通过人体检测模型和OpenPose[1]分别获取对应的人体检测框和人体骨架数据,作为深度学习模型的训练数据;其中视频数据和人体检测框数据作为前景与背景特征融合网络的输入,骨架特征作为个体与群体特征融合网络的输入;两个网络的输出结果进行平均为最终分类结果;接着对训练集进行监督式学习,得到泛化的深度学习模型;然后,对识别的视频进行和模型训练时一样的预处理,然后作为输入,放进预先训练好深度学习模型里,就能得到行为分类的结果。
本发明提出的基于骨架和视频特征融合的行为分类方法,具体步骤如下:
(1)获取深度学习的训练数据;
(2)训练深度学习模型;
(3)用训练好的模型对视频进行行为分。
步骤(1)中所述获取深度学习训练数据的具体流程为:
(11)首先处理视频数据;所有的视频数据都按30FPS处理,所有视频缩放至256×256,并同时从视频中随机抽取一段视频帧,长度为𝑇,采样率为2(即每隔一帧采样一次);
(12)用ResNet-101-FPN为骨干的Faster-RCNN[2]模型对流程(11)中处理好的视频数据进行人体检测,得到人体检测框;该ResNet-101-FPN为骨干的Faster-RCNN模型是在ImageNet和COCO人体关键点数据集上预训练得到的;
(13)对流程(12)中获取的人体检测框数据,在每个人体框内使用OpenPose的2D姿态估计来获取骨架数据,其数据结构为18个关节的2D空间坐标。
步骤(2)中所述训练深度学习模型,具体包括:
对于视频数据使用前景与背景特征融合网络进行训练;所述前景与背景特征融合网络是由3DCNN网络提取的背景特征与人体检测框内的前景特征进行融合的网络,其中3DCNN网络使用SlowFast[3]网络;
对于骨架数据使用个体与群体特征融合网络进行训练;所述个体与群体特征融合网络主要由ST-GCN[4]网络构成,通过注意力机制自适应调整个体行为在群体行为中的权重;
将前景与背景特征融合网络和个体与群体特征融合网络的输出结果进行平均,得到最后的分类结果。
本发明中,对于数据集较小的情形,对数据进行数据增强处理;对视频数据和骨架数据同时做随机缩放、随机旋转 −20 度至 20 度、随机裁剪以及随机水平翻转操作;对视频数据做随机颜色抖动操作。针对每个骨架节点的空间位置做轻微随机抖动;
训练深度学习模型的具体流程为:
(21)设置模型超参数;
模型中主要超参数有:GPU个数,批次大小,动量参数,权重衰减项,学习率,丢弃率,迭代次数;
本发明中,模型超参数可设置如下:GPU个数:设置为8;批次大小:设置为64;动量参数:这个值影响着梯度下降到最优值的速度,设置为0.9;权重衰减项:权重衰减正则项值越大对过拟合的抑制能力越大,设置为0.0001;学习率调整策略:使用带有线性warmup策略的SGDR,计算方式为𝜂⋅[cos(1+𝑖/𝑖𝑚𝑎𝑥⋅𝜋)];其中𝜂为初始学习率,设置为0.1,imax为总迭代次数,i为第i次迭代;丢弃率:设置为0.5;迭代次数:训练的总次数,10万次以上。
(22)超参数设置好后,开始训练,注意训练时的训练损失和验证损失值,两者同时减小说明网络预测能力正逐步增加,当两者不再减小时,说明网络已经收敛,结束训练;
(23)多次调整超参数,得到泛化性能最好的模型;
步骤(3)中所述用训练好的模型对带分类视频进行行为分类,具体包括:
对视频数据的处理,与步骤(1)相同;
视频数据和人体检测框输入到前景与背景特征融合网络,骨架数据输入到个体与群体特征融合网络;最后对两者的输出结果进行平均,得到最后的分类结果。其中:
(3.1)前景与背景特征融合网络的实现,具体流程为:
设视频片段RGB数据经过时空卷积神经网络的前向传播后得到的特征图为𝑋𝑆𝑇∈ℝ𝐵×𝐶×𝑇×𝐻×𝑊,其中B为批大小,C为通道数,T、H和W分别为特征图的时长、高以及宽。首先对𝑋𝑆𝑇进行时序全局池化消去时序维度,得到𝑋 ∈ ℝ𝐵×𝐶×𝑇×𝐻×𝑊,接着用提前训练好的人体检测器检测出该视频段内关键帧的人体边界框,设为𝑛 × [𝑥1, 𝑦1, 𝑥2, 𝑦2, 𝑠𝑐𝑜𝑟𝑒],其中𝑛为检测框的数量,𝑠𝑐𝑜𝑟𝑒为检测框的置信度。前景特征图𝑋𝑓为经过𝑅𝑂𝐼𝐴l𝑖𝑔𝑛操作后的特征。𝑋𝑏为下采样后的𝑋,也是全局特征,𝑋𝑏∈ ℝ𝐵×𝐶×𝐻′×𝑊′。前景特征与背景特征的融合操作在第二个维度上。
(3,2)个体与群体特征融合网络的实现,具体流程为:
这里使用ST-GCN作为骨架特征抽取的基本模块,对于群体骨架序列,其输入的数据为𝑋𝑔∈ ℝ𝐵×𝑁×𝑇×𝑉,其中B代表批次大小,N代表固定的群体人数,T为时间序列长度,V为骨架节点个数。当视频帧中人数大于N时,取其中N个置信度最大的骨架序列。当视频中人数小于N时,对于缺少的人数的骨架序列都设为{B,N′,T,V} =1𝑒-8,其中N′为缺少的人数。而对于个体骨架序列,每个骨架序列𝑋𝑖,1≤𝑗≤𝑁的维度都为{B,1,T,V}。对于群体骨架序列,我们使用ST-GCN𝑔进行时空图卷积,获取群体骨架特征𝐹𝑔。对于每个个体骨架序列,我们使用ST-GCN𝑖,1≤𝑖≤𝑁进行时空图卷积,获取个体骨架特征𝐹𝑖。然后对不同个体的骨架特征进行融合,这里直接进行特征拼接。为了对时序维度T’和骨架节点维度V调整时空权重,先站着通道维度进行最大池化。接着将个体特征通过Sigmoid运算,把所有值转化到0到1之间,得到注意力特征,然后通过注意力特征与群体特征的点乘,使群体特征图进行一次权重重新分配,增加重要个体行为在群体行为中的权重同时弱化非相关个体行为在群体行为中的重要性。
(3.3)图像与骨架特征融合网络的实现,具体流程为:
对视频数据的处理与步骤(1)相同,其中视频数据和人体检测框输入到前景与背景特征融合网络,骨架数据输入到个体与群体特征融合网络;最后对两者的输出结果进行平均,得到最后的分类结果。
附图说明
图1为本发明的总流程框图。
图2为数据提取的结果展示。其中,(a)为原图,(b)中绿色框为人体检测框,红色代表提取的人体骨架结构。
图3为本发明中的前景与背景特征融合网络的模型架构图。
图4为本发明中的个体与群体特征融合网络的模型架构图。
图5为本发明的骨架与视频特征融合网络的模型架构图。
图6为本发明的模型架构的实验结果图。
图7为本发明的模型架构的部分实验数据展示图。其中,(a)和(c)分别为Run和Carry object动作发生处的图片,(b)和(d)分别为其对应的骨架。
具体实施方式
模型中主要超参数有:GPU个数,批次大小,动量参数,权重衰减项,学习率,丢弃率,迭代次数;
本发明中,模型超参数可设置如下:GPU个数:设置为8;批次大小:设置为64;动量参数:这个值影响着梯度下降到最优值的速度,设置为0.9;权重衰减项:权重衰减正则项值越大对过拟合的抑制能力越大,设置为0.0001;学习率调整策略:使用带有线性warmup策略的SGDR,计算方式为𝜂⋅[cos(1+𝑖/𝑖𝑚𝑎𝑥⋅𝜋)];其中𝜂为初始学习率,设置为0.1,imax为总迭代次数,i为第i次迭代;丢弃率:设置为0.5;迭代次数:训练的总次数,10万次以上。
最后,用训练好的模型对带分类视频进行行为分类,其中:
(3.1)前景与背景特征融合网络实现,具体流程为:
设视频片段RGB数据经过时空卷积神经网络的前向传播后得到的特征图为𝑋𝑆𝑇∈ℝ𝐵×𝐶×𝑇×𝐻×𝑊,其中B为批大小,C为通道数,T、H和W分别为特征图的时长、高以及宽。首先对𝑋𝑆𝑇进行时序全局池化消去时序维度,得到𝑋 ∈ ℝ𝐵×𝐶×𝑇×𝐻×𝑊,接着用提前训练好的人体检测器检测出该视频段内关键帧的人体边界框,设为𝑛 × [𝑥1, 𝑦1, 𝑥2, 𝑦2, 𝑠𝑐𝑜𝑟𝑒],其中𝑛为检测框的数量,𝑠𝑐𝑜𝑟𝑒为检测框的置信度。前景特征图𝑋𝑓为经过𝑅𝑂𝐼𝐴l𝑖𝑔𝑛操作后的特征。𝑋𝑏为下采样后的𝑋,也是全局特征,𝑋𝑏∈ ℝ𝐵×𝐶×𝐻′×𝑊′。前景特征与背景特征的融合操作在第二个维度上。
(3,2)个体与群体特征融合网络实现,具体流程为:
这里使用ST-GCN作为骨架特征抽取的基本模块,对于群体骨架序列,其输入的数据为𝑋𝑔∈ ℝ𝐵×𝑁×𝑇×𝑉,其中B代表批次大小,N代表固定的群体人数,T为时间序列长度,V为骨架节点个数。当视频帧中人数大于N时,取其中N个置信度最大的骨架序列。当视频中人数小于N时,对于缺少的人数的骨架序列都设为{B,N′,T,V} =1𝑒-8,其中N′为缺少的人数。而对于个体骨架序列,每个骨架序列𝑋𝑖,1≤𝑗≤𝑁的维度都为{B,1,T,V}。对于群体骨架序列,我们使用ST-GCN𝑔进行时空图卷积,获取群体骨架特征𝐹𝑔。对于每个个体骨架序列,我们使用ST-GCN𝑖,1≤𝑖≤𝑁进行时空图卷积,获取个体骨架特征𝐹𝑖。然后对不同个体的骨架特征进行融合,这里直接进行特征拼接。为了对时序维度T’和骨架节点维度V调整时空权重,先站着通道维度进行最大池化。接着将个体特征通过Sigmoid运算,把所有值转化到0到1之间,得到注意力特征,然后通过注意力特征与群体特征的点乘,使群体特征图进行一次权重重新分配,增加重要个体行为在群体行为中的权重同时弱化非相关个体行为在群体行为中的重要性。
(3.3)图像与骨架特征融合网络实现,具体流程为:
对视频数据的处理与步骤(1)相同,其中视频数据和人体检测框输入到前景与背景特征融合网络,骨架数据输入到个体与群体特征融合网络;最后对两者的输出结果进行平均,得到最后的分类结果。
从图6中可以看到,骨架网络在Run一类上具有较高的精度,而在Carry Object一类上的精度很低。而RGB网络却与骨架网络得到的结果相反。基于图像和骨架特征融合的网络在两类上都达到了最高精度。从图7可以看出当人没有与其他物体发生交互时,我们可以通过骨架推断出动作,但是对于人与物体交互的动作(拿手机),无法通过骨架行识别。这说明了图像与骨架特征融合的有效性,也说明了本发明的有效性和优越性。
参考文献
(1)Cao Z , Hidalgo G , Simon T , et al. OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields[J]. IEEE Transactions onPattern Analysis and Machine Intelligence, 2018.
(2)Ren S , He K , Girshick R , et al. Faster R-CNN: Towards Real-TimeObject Detection with Region Proposal Networks[J]. IEEE Transactions onPattern Analysis & Machine Intelligence, 2017, 39(6):1137-1149.
(3)Feichtenhofer C , Fan H , Malik J , et al. SlowFast Networks forVideo Recognition[C]// 2019 IEEE/CVF International Conference on ComputerVision (ICCV). IEEE, 2019.
(4)Yan S , Xiong Y , Lin D . Spatial Temporal Graph ConvolutionalNetworks for Skeleton-Based Action Recognition[J]. 2018。

Claims (4)

1.一种基于骨架和视频特征融合的行为分类方法,其特征在于,具体步骤如下:
(1)获取深度学习的训练数据;
(2)训练深度学习模型;
(3)用训练好的模型对视频进行行为分类;
步骤(1)中所述获取深度学习训练数据的具体流程为:
(11)首先处理视频数据;所有的视频数据都按30FPS处理,所有视频缩放至256×256,并同时从视频中随机抽取一段视频帧,长度为𝑇,采样率为2,即每隔一帧采样一次;
(12)以ResNet-101-FPN为骨干的Faster-RCNN模型对流程(11)中处理好的视频数据进行人体检测,得到人体检测框;该ResNet-101-FPN为骨干的Faster-RCNN模型是在ImageNet和COCO人体关键点数据集上预训练得到的;
(13)对流程(12)中获取的人体检测框数据,在每个人体框内使用OpenPose的2D姿态估计来获取骨架数据,其数据结构为18个关节的2D空间坐标;
步骤(2)中所述训练深度学习模型,具体包括:
对于视频数据使用前景与背景特征融合网络进行训练;所述前景与背景特征融合网络是由3DCNN网络提取的背景特征与人体检测框内的前景特征进行融合的网络,其中3DCNN网络使用SlowFast网络;
对于骨架数据使用个体与群体特征融合网络进行训练;所述个体与群体特征融合网络主要由ST-GCN网络构成,通过注意力机制自适应调整个体行为在群体行为中的权重;
训练深度学习模型的具体流程为:
(21)设置模型超参数;
模型中主要超参数有:GPU个数,批次大小,动量参数,权重衰减项,学习率,丢弃率,迭代次数;
(22)超参数设置好后,开始训练,注意训练时的训练损失和验证损失值,两者同时减小说明网络预测能力正逐步增加,当两者不再减小时,说明网络已经收敛,结束训练;
(23)多次调整超参数,得到泛化性能最好的模型;
步骤(3)用训练好的模型对带分类视频进行行为分类,包括:对视频数据的处理,与步骤(1)相同;其中视频数据和人体检测框输入到前景与背景特征融合网络,骨架数据输入到个体与群体特征融合网络;最后对两者的输出结果进行平均,得到最后的分类结果。
2.根据权利要求1所述的基于骨架和视频特征融合的行为分类方法,其特征在于,步骤(2)中,对于数据集较小的情形,对数据进行数据增强处理;包括对视频数据和骨架数据同时做随机缩放,随机旋转 −20 度至 20 度,随机裁剪以及随机水平翻转操作;对视频数据做随机颜色抖动操作;针对每个骨架节点的空间位置做轻微随机抖动。
3.根据权利要求1或2所述的基于骨架和视频特征融合的行为分类方法,其特征在于,步骤(2)中,模型中超参数具体设置如下:GPU个数:设置为8;批次大小:设置为64;动量参数:这个值影响着梯度下降到最优值的速度,设置为0.9;权重衰减项:权重衰减正则项值越大对过拟合的抑制能力越大,设置为0.0001;学习率调整策略:使用带有线性warmup策略的SGDR,计算方式为𝜂⋅[cos(1+𝑖/𝑖𝑚𝑎𝑥⋅𝜋)];其中𝜂为初始学习率,设置为0.1,imax为总迭代次数,i为第i次迭代;丢弃率:设置为0.5;迭代次数:训练的总次数,10万次以上。
4.根据权利要求3所述的基于骨架和视频特征融合的行为分类方法,其特征在于:
前景与背景特征融合网络实现的具体流程为:
设视频片段RGB数据经过时空卷积神经网络的前向传播后得到的特征图为𝑋𝑆𝑇∈ℝ𝐵×𝐶×𝑇 ×𝐻×𝑊,其中B为批大小,C为通道数,T、H和W分别为特征图的时长、高以及宽;首先对𝑋𝑆𝑇进行时序全局池化消去时序维度,得到𝑋 ∈ ℝ𝐵×𝐶×𝑇×𝐻×𝑊,接着用提前训练好的人体检测器检测出该视频段内关键帧的人体边界框,设为𝑛 × [𝑥1, 𝑦1, 𝑥2, 𝑦2, 𝑠𝑐𝑜𝑟𝑒],其中𝑛为检测框的数量,𝑠𝑐𝑜𝑟𝑒为检测框的置信度;前景特征图𝑋𝑓为经过𝑅𝑂𝐼𝐴l𝑖𝑔𝑛操作后的特征;𝑋𝑏为下采样后的𝑋,也是全局特征,𝑋𝑏∈ ℝ𝐵×𝐶×𝐻′×𝑊′;前景特征与背景特征的融合操作在第二个维度上;
个体与群体特征融合网络实现的具体流程为:
使用ST-GCN作为骨架特征抽取的基本模块;对于群体骨架序列,其输入的数据为𝑋𝑔∈ℝ𝐵×𝑁×𝑇×𝑉,其中B代表批次大小,N代表固定的群体人数,T为时间序列长度,V为骨架节点个数;当视频帧中人数大于N时,取其中N个置信度最大的骨架序列;当视频中人数小于N时,对于缺少的人数的骨架序列都设为{B,N′,T,V} =1𝑒-8,其中N′为缺少的人数;对于个体骨架序列,每个骨架序列𝑋𝑖,1≤𝑗≤𝑁的维度都为{B,1,T,V};对于群体骨架序列,使用ST-GCN𝑔进行时空图卷积,获取群体骨架特征𝐹𝑔;对于每个个体骨架序列,使用ST-GCN𝑖,1≤𝑖≤𝑁进行时空图卷积,获取个体骨架特征𝐹𝑖;然后对不同个体的骨架特征进行融合,这里直接进行特征拼接;为了对时序维度T’和骨架节点维度V调整时空权重,先站着通道维度进行最大池化;接着将个体特征通过Sigmoid运算,把所有值转化到0到1之间,得到注意力特征,然后通过注意力特征与群体特征的点乘,使群体特征图进行一次权重重新分配,增加重要个体行为在群体行为中的权重,同时弱化非相关个体行为在群体行为中的重要性。
CN202011419698.2A 2020-12-06 2020-12-06 基于骨架和视频特征融合的行为分类方法 Active CN112560618B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011419698.2A CN112560618B (zh) 2020-12-06 2020-12-06 基于骨架和视频特征融合的行为分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011419698.2A CN112560618B (zh) 2020-12-06 2020-12-06 基于骨架和视频特征融合的行为分类方法

Publications (2)

Publication Number Publication Date
CN112560618A true CN112560618A (zh) 2021-03-26
CN112560618B CN112560618B (zh) 2022-09-16

Family

ID=75059367

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011419698.2A Active CN112560618B (zh) 2020-12-06 2020-12-06 基于骨架和视频特征融合的行为分类方法

Country Status (1)

Country Link
CN (1) CN112560618B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113343950A (zh) * 2021-08-04 2021-09-03 之江实验室 一种基于多特征融合的视频行为识别方法
CN113627410A (zh) * 2021-10-14 2021-11-09 江苏奥斯汀光电科技股份有限公司 一种视频中动作语义识别检索的方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190080176A1 (en) * 2016-04-08 2019-03-14 Microsoft Technology Licensing, Llc On-line action detection using recurrent neural network
CN109948475A (zh) * 2019-03-06 2019-06-28 武汉大学 一种基于骨架特征和深度学习的人体动作识别方法
CN110334607A (zh) * 2019-06-12 2019-10-15 武汉大学 一种视频人体交互行为识别方法及系统
CN110363140A (zh) * 2019-07-15 2019-10-22 成都理工大学 一种基于红外图像的人体动作实时识别方法
CN110532861A (zh) * 2019-07-18 2019-12-03 西安电子科技大学 基于骨架引导多模态融合神经网络的行为识别方法
CN111597976A (zh) * 2020-05-14 2020-08-28 杭州相芯科技有限公司 一种基于rgbd相机的多人三维姿态估计方法
CN111967433A (zh) * 2020-08-31 2020-11-20 重庆科技学院 一种基于自监督学习网络的动作识别办法
CN112001347A (zh) * 2020-08-31 2020-11-27 重庆科技学院 一种基于人体骨架形态与检测目标的动作识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190080176A1 (en) * 2016-04-08 2019-03-14 Microsoft Technology Licensing, Llc On-line action detection using recurrent neural network
CN109948475A (zh) * 2019-03-06 2019-06-28 武汉大学 一种基于骨架特征和深度学习的人体动作识别方法
CN110334607A (zh) * 2019-06-12 2019-10-15 武汉大学 一种视频人体交互行为识别方法及系统
CN110363140A (zh) * 2019-07-15 2019-10-22 成都理工大学 一种基于红外图像的人体动作实时识别方法
CN110532861A (zh) * 2019-07-18 2019-12-03 西安电子科技大学 基于骨架引导多模态融合神经网络的行为识别方法
CN111597976A (zh) * 2020-05-14 2020-08-28 杭州相芯科技有限公司 一种基于rgbd相机的多人三维姿态估计方法
CN111967433A (zh) * 2020-08-31 2020-11-20 重庆科技学院 一种基于自监督学习网络的动作识别办法
CN112001347A (zh) * 2020-08-31 2020-11-27 重庆科技学院 一种基于人体骨架形态与检测目标的动作识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ALBAN MAIN DE BOISSIERE ET AL.: "Infrared and 3D Skeleton Feature Fusion for RGB-D Action Recognition", 《IEEE ACCESS》, 11 September 2020 (2020-09-11), pages 168297 - 168308, XP011810476, DOI: 10.1109/ACCESS.2020.3023599 *
HAIYANG JIANG ET AL.: "Battlefield Target Aggregation Behavior Recognition", 《SYMMETRY》, 5 June 2019 (2019-06-05), pages 1 - 12 *
KEYU LI ET AL.: "Human action recognition using associated depth and skeleton information", 《2016 2ND IEEE INTERNATIONAL CONFERENCE ON COMPUTER AND COMMUNICATIONS (ICCC)》, 11 May 2017 (2017-05-11), pages 418 - 422 *
刘桂玉等: "基于3D骨架和RGB图片的时空动作识别", 《信息技术》, 21 May 2020 (2020-05-21), pages 121 - 124 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113343950A (zh) * 2021-08-04 2021-09-03 之江实验室 一种基于多特征融合的视频行为识别方法
CN113627410A (zh) * 2021-10-14 2021-11-09 江苏奥斯汀光电科技股份有限公司 一种视频中动作语义识别检索的方法
CN113627410B (zh) * 2021-10-14 2022-03-18 江苏奥斯汀光电科技股份有限公司 一种视频中动作语义识别检索的方法

Also Published As

Publication number Publication date
CN112560618B (zh) 2022-09-16

Similar Documents

Publication Publication Date Title
CN108830252B (zh) 一种融合全局时空特征的卷积神经网络人体动作识别方法
Chung et al. An efficient hand gesture recognition system based on deep CNN
CN107341452B (zh) 基于四元数时空卷积神经网络的人体行为识别方法
CN109815826B (zh) 人脸属性模型的生成方法及装置
CN109886225A (zh) 一种基于深度学习的图像手势动作在线检测与识别方法
WO2022111236A1 (zh) 一种结合注意力机制的面部表情识别方法及系统
CN113688723A (zh) 一种基于改进YOLOv5的红外图像行人目标检测方法
CN107590432A (zh) 一种基于循环三维卷积神经网络的手势识别方法
CN112560618B (zh) 基于骨架和视频特征融合的行为分类方法
CN111476178A (zh) 一种基于2d-3d cnn的微表情识别方法
CN110110648A (zh) 基于视觉感知与人工智能的动作提名方法
CN111428664A (zh) 一种基于人工智能深度学习技术的计算机视觉的实时多人姿态估计方法
CN109325435B (zh) 基于级联神经网络的视频动作识别及定位方法
Zhou et al. Underwater scene segmentation by deep neural network
CN112487926A (zh) 一种基于时空图卷积网络的景区投喂行为识别方法
Fan et al. Multi-modality recognition of human face and ear based on deep learning
Elbarawy et al. Facial expressions recognition in thermal images based on deep learning techniques
CN110766093A (zh) 一种基于多帧特征融合的视频目标重识别方法
Tur et al. Isolated sign recognition with a siamese neural network of RGB and depth streams
CN113537164B (zh) 一种实时的动作时序定位方法
KR20210018600A (ko) 얼굴 표정 인식 시스템
Képešiová et al. An effective face detection algorithm
Huang et al. Temporally-aggregating multiple-discontinuous-image saliency prediction with transformer-based attention
Waseem et al. A multi-color spatio-temporal approach for detecting deepfake
Saha et al. Age and gender prediction using adaptive gamma correction and convolutional neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant