CN111523377A - 一种多任务的人体姿态估计和行为识别的方法 - Google Patents

一种多任务的人体姿态估计和行为识别的方法 Download PDF

Info

Publication number
CN111523377A
CN111523377A CN202010160461.0A CN202010160461A CN111523377A CN 111523377 A CN111523377 A CN 111523377A CN 202010160461 A CN202010160461 A CN 202010160461A CN 111523377 A CN111523377 A CN 111523377A
Authority
CN
China
Prior art keywords
estimation
attitude
network
behavior recognition
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010160461.0A
Other languages
English (en)
Inventor
吴哲夫
蒋岳锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202010160461.0A priority Critical patent/CN111523377A/zh
Publication of CN111523377A publication Critical patent/CN111523377A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

一种多任务的人体姿态估计和行为识别方法,采用端到端的多任务框架,主要实现功能有:对RGB图片进行3D姿态估计,输出3维坐标点;对连续视频帧,该系统将图片的视觉特征和中间联合概率热图作为外观特征与姿态估计获得坐标来进行人体姿态行为识别。本发明过单个体系结构有效解决了计算机视觉领域姿态估计和行为识别两种问题,具有一定的应用价值。

Description

一种多任务的人体姿态估计和行为识别的方法
技术领域
本发明涉及计算机视觉中的人体姿态估计以及行为识别技术,具体涉及一种多任务的姿态估计和行为识别的方法。
背景技术
人体姿态估计和人体行为识别都是计算机视觉中重要的研究课题,但目前将人体姿态估计和行为识别结合起来形成一个的体系还较少。
实现2D姿态估计的方法有基于检测方法和基于回归方法,基于检测方法一般直接根据特征热图对关节点位置进行估计,但该方法不能直接提供关节点坐标。
也有学者通过soft-argmax函数将热图直接转化为坐标点,因此基于检测的方法可以转化为基于回归的方法,有利于系统进行后续处理和调整。
基于回归的方法也开始从2D姿态估计应用到3D姿态估计上去,通过将2D热图转换成体积热图,从而可以获得关节点的3D坐标,从而能进行简单的姿态估计。因为获得坐标,使得一些函数方法也能应用到姿态估计上来,如通过获得多视角的相机参数同时使用soft-argmax获得坐标点映射来进行三角测量,学习姿态估计,这使得姿态估计的精度更加提高。
不只是2D/3D转换方面,基于回归的方法可以使姿态估计和视频行为识别在一个体系下进行一同处理。如果只靠图片上的一些视觉信息来进行姿态估计,在某些动作识别上会有局限性,同理,如果只用连续姿态来识别视频动作同样会有局限性。
发明内容
为了克服现有技术的组本发明目的在于提供一种多任务的人体姿态估计和行为识别的方法,该方法能够对输入的单个RGB图像进行2D/3D姿态估计,同时又能对输入视频帧进行行为识别,将姿态估计与视觉特征相结合来进行行为识别,来提高行为识别精度,同时多任务处理提高了系统的鲁棒性。
为达到上述目的,本发明提供的技术方案如下:
一种多任务的人体姿态估计和行为识别方法,该方法包括以下步骤:
步骤1:输入连续视频帧,将摄像头采集视频帧输入计算机,单个RGB图像I∈RT ×H×W×3,其中H×W为输入图像大小;
步骤2:通过一个inception-v4网络的多任务主干模型提取特征,采用多次卷积和2次pooling,并行结构用来防止bottleneck问题,最后还有一个可分离残差模块;
步骤3:将多任务主干模型输出输入到姿势估计模型,里面有K个预测块,预测块由分成3种不同分辨率的8个可分离残差模块组成;
步骤4:使用soft-argmax函数获得各关节点的联合概率图,进行回归不断优化姿态估计与真实姿态位置误差,最终第K个估计姿态位置即为最终姿态位置;通过将2D热图转化为体积热图,定义的堆叠2D热图对应于深度分辨率;通过对z平均热图应用2D-Soft-argmax操作执行进行(x,y)坐标预测,z分量通过对x和y维均值的体积表示应用1D-Soft-argmax进行回归;
通过以上步骤1-4,输出视频的2D/3D姿态坐标;
步骤5:通过姿势识别模型,将姿态估计模块输出的带有Nj个关节点的T时间序列转化为类似图像的表现形式,时间T为垂直轴,关节点Nj为水平轴,并将每个点的坐标编码为通道;将其输入到姿态识别网络,该网络将输入通过一个全卷积神经网络将输入的姿势中提取的特征转化为动作热图;并且,经过K个预测块优化预测、max+min池化以及softmax函数激活生成每个动作的输出概率;
步骤6:通过外观识别模型输出视觉特征
Figure BDA0002405590790000021
和姿态估计输出关节点联合概率热图
Figure BDA0002405590790000027
这里Nf为特征点个数,Nj为关节点个数;将视觉特征Vt乘以联合概率热图的每个关节点通道得到外观特征,然后将空间维数收缩得到t时刻的
Figure BDA0002405590790000023
即外观特征为
Figure BDA0002405590790000024
生成每个动作的输出概率;
步骤7:将基于姿态识别的输出与基于外观识别输出相结合得到最终视频动作输出。
进一步,对于姿态估计任务,运用弹性网络损失函数训练网络,如以下等式所定义:
Figure BDA0002405590790000025
其中
Figure BDA0002405590790000026
和pn分别为第n关节的估计位置和真实位置,Nj为关节个数,||||1为L1范数,||||2为L2范数,Lp为姿态的损失函数;使用SDG优化器优化姿态估计部分,当验证达到稳定水平时,学习率将减少0.2倍,并分批处理24张图像。
再进一步,对于行为识别任务,使用预先训练的姿势估计模型权重来同时训练姿势和外观模型;运用交叉熵损失训练网络,使用经典的SGD优化器,在验证时学习率减少0.2倍,并分批处理2个视频剪辑;当验证准确性不再提高时,将最终学习率除以10,然后对整个网络进行微调,以获得更多的5个时期;在视频帧中选择固定时间T的样本剪辑进行训练,最后的识别结果为一个片段的平均结果。
使用MPⅡ、Human3.6、Penn Action数据集进行训练,为了合并不同的数据集,将姿势转换为通用布局,固定关节的数量等于具有更多关节的数据集。
当只进行姿势估计时,使用8个预测块;对于动作识别,则使用4个预测块;对于所有实验,使用大小为256×256的裁切RGB图像,并通过旋转图像、垂直水平平移图像、缩小放大图像、将视频进行2次采样以及随机水平化来扩充数据。
本发明中,网络体系结构主要分为四部分:多任务主干模型,姿势估计模型,姿势识别模型,外观识别模型。
使用soft-argmax函数获得各关节点的联合概率图,进行回归不断优化姿态估计与真实姿态位置误差,最终第8个估计姿态位置即为最终姿态位置;
通过将2D热图转化为体积热图,我们定义了堆叠的2D热图,对应于深度分辨率。在(x,y)坐标中的预测是通过对z平均热图应用2D-Soft-argmax操作执行的,而z分量通过对x和y维均值的体积表示应用1D-Soft-argmax进行回归。
本发明的有益效果为:将姿态估计与视觉特征相结合来进行行为识别,来提高行为识别精度,同时多任务处理提高了系统的鲁棒性。
附图说明
图1为姿态估计和行为识别时,多任务主干模型和姿态估计模型的网络结构;
图2为行为识别时,姿态识别模型和外观识别模型的网络结构。
具体实施方式
下面结合附图对本发明做进一步说明。
参照图1和图2,一种多任务的人体姿态估计和行为识别方法,该方法能够对输入的单个RGB图像进行2D/3D姿态估计,同时又能对输入视频帧进行行为识别。
网络体系结构主要分为四部分:多任务主干模型,姿势估计模型,姿势识别模型,外观识别模型。
多任务主干模型,如附图1所示,主要由Inception-v4组成,Inception-v4的整体结构,其实就是多次卷积和2次pooling,其中pooling采用卷积+pooling并行的结构,来防止bottleneck问题,最后还有一个可分离残差模块;
姿势估计模型,如附图1所示,主要由预测块组成,预测块由分成3种不同分辨率的8个可分离残差模块组成;
姿势识别模型,外观识别模型,如附图2所示,这两个模型结构相似,都有动作预测块,动作预测块主要多次卷积,经过max+min池化以及softmax函数激活生成每个动作的输出概率。
本发明多任务的人体姿态估计和行为识别方法,包括以下步骤:
步骤1:使用MPⅡ、Human3.6、Penn Action数据集进行评估方法,为了合并不同的数据集,将姿势转换为通用布局,固定关节的数量等于具有更多关节的数据集。固定关节数量为16。本发明,使用大小为256×256的裁切RGB图像。并通过旋转图像,垂直水平平移图像,缩小放大图像,对视频进行采样以及随机水平化来扩充训练集;
步骤2:如附图1所示,只进行姿态估计时,用MPⅡ、Human3.6数据集进行评估,单个RGB图像I∈RH×W×3,其中H×W为输入图像大小;
步骤3:通过多任务主干模型,先经过三次3×3卷积,再经过池化层,池化层采用3×3卷积和maxpooling并行的结构,用全连接层连接,再并行经过2次卷积和4次卷积进行全连接,再经过池化层,全连接层最后通过可分离残差模块,可分离残差模块的过滤器大小为5×5,输出图像基础特征。
步骤4:将多任务主干模型输出输入到姿势估计模型,里面有8个预测块;预测块由分成3种不同分辨率的8个可分离残差模块组成,可分离残差模块的过滤器大小为5×5;
步骤5:使用soft-argmax函数得到各关节点的联合概率图,进行回归不断优化姿态估计与真实姿态位置误差,最终第8个估计姿态位置即为最终姿态位置;
如果对2D关节点热图进行输入,通过归一化信号可以获得概率图,如果要得到关节点位置,只需进行求数学期望,公式如下:
Figure BDA0002405590790000041
其中,x为输入热图,Wx,Hx为输入图尺寸大小,φ(x)为softmax函数,
Figure BDA0002405590790000042
为输出坐标点;
步骤6:通过将2D热图转化为体积热图,我们定义了堆叠的2D热图,堆叠深度Nd为16,对应于深度分辨率。在(x,y)坐标中的预测是通过对z平均热图应用2D-Soft-argmax操作执行的,而z分量通过对x和y维均值的体积表示应用1D-Soft-argmax进行回归;
步骤7:运用弹性网络损失函数训练网络,如以下等式所定义:
Figure BDA0002405590790000043
其中
Figure BDA0002405590790000044
和pn分别为第n关节的估计位置和真实位置,Nj为关节个数,||||1为L1范数,||||2为L2范数,Lp为姿态的损失函数。
用SDG优化器优化姿态估计部分,当验证达到稳定水平时,学习率将减少0.2倍,并分批处理24张图像;
步骤8:可以需选择单幅图和多幅图进行评估,对于单幅图只需取中心图像进行姿态估计,对于多幅图,对图像进行小幅旋转,平移进行平均预测。
步骤9:当进行行为识别时,用MPⅡ、Penn Action数据集进行评估,使用16个关节点,使用由T=16帧的剪辑进行训练。
步骤10:输入的视频I∈RT×H×W×3仍然通过inception-v4网络提取基础特征,与进行姿态估计不同,这里只经过4个预测块回归优化估计得到坐标点;
步骤11:如附图2所示,将带有Nj个关节点的T时间序列转化为类似图像的表现形式,时间T为垂直轴,关节点Nj为水平轴,并将每个点的坐标编码为通道。然后输入到姿态识别网络,该网络将输入通过一个全卷积神经网络将输入的姿势中提取的特征转化为动作热图。该全卷积神经网络和姿态估计模型一样有4个预测块优化预测。行为预测块中,先进行卷积和max+min池化,最后通过步长为Na的3×3卷积,Na为动作数量设为15,输出动作热图,经过max+min池化以及softmax函数激活生成每个动作的输出概率;
步骤12:如附图2所示,将主干生成模块输出的视觉特征
Figure BDA0002405590790000045
和姿态估计输出关节点联合概率热图
Figure BDA0002405590790000046
这里Nf为特征点个数,Nj为关节点个数,将视觉特征Vt乘以联合概率热图的每个关节点通道得到外观特征,然后空间维数收缩得到t时刻的
Figure BDA0002405590790000047
输出外观特征为
Figure BDA0002405590790000048
和姿态识别模型类似,通过一个全卷积神经网络将输入的姿势中提取的特征转化为动作热图。该全卷积神经网络和姿态估计模型一样有4个预测块优化预测。
行为预测块中,先进行卷积和max+min池化,最后通过步长为Na的3×3卷积,Na为动作数量设为15,输出动作热图,经过max+min池化以及softmax函数激活生成每个动作的输出概率;
步骤13:将基于姿态识别的输出与基于外观识别输出相结合得到最终视频动作输出;
步骤14:使用预先训练的姿势估计模型的权重同时训练姿势和外观模型;
步骤15:运用交叉熵损失训练网络,使用经典的SGD优化器,在验证时学习率减少0.2倍,并分批处理2个视频剪辑。当验证准确性不再提高时,我们将最终学习率除以10,然后对整个网络进行微调,以获得更多的5个时期。在视频帧中选择固定时间T的样本剪辑进行训练;
步骤16:可以选择单剪辑和多剪辑进行识别评估,对于单剪辑只需剪视频中间片段,对于多剪辑,每个T/2时刻进行片段剪辑,最后的识别结果为一个片段的平均结果;
步骤17:对仅使用外观特征识别、仅使用姿态识别以及结合外观姿态进行识别进行了对比,结果如表1。表1仅进行外观识别、姿态识别和结合外观姿势的行为识别对比表;
Figure BDA0002405590790000051
表1
从表1可以看出结合姿势特征和外观特征后,动作识别精度分别比仅使用姿势特征提高0.6,比仅使用外观特征提高0.3。
同时本发明还能进行一个体系下进行姿态估计和行为识别,具有较高的鲁棒性和灵活性。

Claims (5)

1.一种多任务的人体姿态估计和行为识别方法,其特征在于,该方法包括以下步骤:
步骤1:输入连续视频帧,将摄像头采集视频帧输入计算机,单个RGB图像I∈RT×H×W×3,其中H×W为输入图像大小;
步骤2:通过一个inception-v4网络的多任务主干模型提取特征,采用多次卷积和2次pooling,并行结构用来防止bottleneck问题,最后还有一个可分离残差模块;
步骤3:将多任务主干模型输出输入到姿势估计模型,里面有K个预测块,预测块由分成3种不同分辨率的8个可分离残差模块组成;
步骤4:使用soft-argmax函数获得各关节点的联合概率图,进行回归不断优化姿态估计与真实姿态位置误差,最终第K个估计姿态位置即为最终姿态位置;通过将2D热图转化为体积热图,定义的堆叠2D热图对应于深度分辨率;通过对z平均热图应用2D-Soft-argmax操作执行进行(x,y)坐标预测,z分量通过对x和y维均值的体积表示应用1D-Soft-argmax进行回归;
通过以上步骤1-4,输出视频的2D/3D姿态坐标;
步骤5:通过姿势识别模型,将姿态估计模块输出的带有Nj个关节点的T时间序列转化为类似图像的表现形式,时间T为垂直轴,关节点Nj为水平轴,并将每个点的坐标编码为通道;将其输入到姿态识别网络,该网络将输入通过一个全卷积神经网络将输入的姿势中提取的特征转化为动作热图;并且,经过K个预测块优化预测、max+min池化以及softmax函数激活生成每个动作的输出概率;
步骤6:通过外观识别模型输出视觉特征
Figure FDA0002405590780000011
和姿态估计输出关节点联合概率热图
Figure FDA0002405590780000012
这里Nf为特征点个数,Nj为关节点个数;将视觉特征Vt乘以联合概率热图的每个关节点通道得到外观特征,然后将空间维数收缩得到t时刻的
Figure FDA0002405590780000013
即外观特征为
Figure FDA0002405590780000014
生成每个动作的输出概率;
步骤7:将基于姿态识别的输出与基于外观识别输出相结合得到最终视频动作输出。
2.根据权利要求1所述的一种多任务的人体姿态估计和行为识别方法,其特征在于,对于姿态估计任务,运用弹性网络损失函数训练网络,如以下等式所定义:
Figure FDA0002405590780000015
其中
Figure FDA0002405590780000016
和pn分别为第n关节的估计位置和真实位置,Nj为关节个数,|| ||1为L1范数,||||2为L2范数,Lp为姿态的损失函数;使用SDG优化器优化姿态估计部分,当验证达到稳定水平时,学习率将减少0.2倍,并分批处理24张图像。
3.根据权利要求2所述的一种多任务的人体姿态估计和行为识别方法,其特征在于,对于行为识别任务,使用预先训练的姿势估计模型权重来同时训练姿势和外观模型;运用交叉熵损失训练网络,使用经典的SGD优化器,在验证时学习率减少0.2倍,并分批处理2个视频剪辑;当验证准确性不再提高时,将最终学习率除以10,然后对整个网络进行微调,以获得更多的5个时期;在视频帧中选择固定时间T的样本剪辑进行训练,最后的识别结果为一个片段的平均结果。
4.根据权利要求1~3之一所述的一种多任务的人体姿态估计和行为识别方法,其特征在于,使用MPⅡ、Human3.6、Penn Action数据集进行训练,为了合并不同的数据集,将姿势转换为通用布局,固定关节的数量等于具有更多关节的数据集。
5.根据权利要求1~3之一所述的一种多任务的人体姿态估计和行为识别方法,其特征在于,当只进行姿势估计时,使用8个预测块;对于动作识别,则使用4个预测块;对于所有实验,使用大小为256×256的裁切RGB图像,并通过旋转图像、垂直水平平移图像、缩小放大图像、将视频进行2次采样以及随机水平化来扩充数据。
CN202010160461.0A 2020-03-10 2020-03-10 一种多任务的人体姿态估计和行为识别的方法 Pending CN111523377A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010160461.0A CN111523377A (zh) 2020-03-10 2020-03-10 一种多任务的人体姿态估计和行为识别的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010160461.0A CN111523377A (zh) 2020-03-10 2020-03-10 一种多任务的人体姿态估计和行为识别的方法

Publications (1)

Publication Number Publication Date
CN111523377A true CN111523377A (zh) 2020-08-11

Family

ID=71900417

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010160461.0A Pending CN111523377A (zh) 2020-03-10 2020-03-10 一种多任务的人体姿态估计和行为识别的方法

Country Status (1)

Country Link
CN (1) CN111523377A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112541529A (zh) * 2020-12-04 2021-03-23 北京科技大学 表情与姿态融合的双模态教学评价方法、设备及存储介质
CN112597954A (zh) * 2020-12-30 2021-04-02 华侨大学 一种基于自底向上的多人姿态估计方法及系统
CN112651316A (zh) * 2020-12-18 2021-04-13 上海交通大学 二维和三维多人姿态估计系统及方法
CN112651345A (zh) * 2020-12-29 2021-04-13 深圳市优必选科技股份有限公司 一种人体姿态识别模型优化方法、装置和终端设备
CN114036969A (zh) * 2021-03-16 2022-02-11 上海大学 一种多视角情况下的3d人体动作识别算法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106780569A (zh) * 2016-11-18 2017-05-31 深圳市唯特视科技有限公司 一种人体姿态估计行为分析方法
CN108460338A (zh) * 2018-02-02 2018-08-28 北京市商汤科技开发有限公司 人体姿态估计方法和装置、电子设备、存储介质、程序
CN108549844A (zh) * 2018-03-22 2018-09-18 华侨大学 一种基于多层分形网络和关节亲属模式的多人姿态估计方法
WO2019020075A1 (zh) * 2017-07-28 2019-01-31 北京市商汤科技开发有限公司 图像处理方法、装置、存储介质、计算机程序和电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106780569A (zh) * 2016-11-18 2017-05-31 深圳市唯特视科技有限公司 一种人体姿态估计行为分析方法
WO2019020075A1 (zh) * 2017-07-28 2019-01-31 北京市商汤科技开发有限公司 图像处理方法、装置、存储介质、计算机程序和电子设备
CN108460338A (zh) * 2018-02-02 2018-08-28 北京市商汤科技开发有限公司 人体姿态估计方法和装置、电子设备、存储介质、程序
CN108549844A (zh) * 2018-03-22 2018-09-18 华侨大学 一种基于多层分形网络和关节亲属模式的多人姿态估计方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DIOGO C. LUVIZON: "2D/3D Pose Estimation and Action Recognition using Multitask Deep Learning" *
DIOGO C.LUVIZON ET AL: "Multi-task Deep Learning for Real-Time 3D Human Pose Estimation and Action Recognition" *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112541529A (zh) * 2020-12-04 2021-03-23 北京科技大学 表情与姿态融合的双模态教学评价方法、设备及存储介质
CN112651316A (zh) * 2020-12-18 2021-04-13 上海交通大学 二维和三维多人姿态估计系统及方法
CN112651316B (zh) * 2020-12-18 2022-07-15 上海交通大学 二维和三维多人姿态估计系统及方法
CN112651345A (zh) * 2020-12-29 2021-04-13 深圳市优必选科技股份有限公司 一种人体姿态识别模型优化方法、装置和终端设备
CN112651345B (zh) * 2020-12-29 2023-11-10 深圳市优必选科技股份有限公司 一种人体姿态识别模型优化方法、装置和终端设备
CN112597954A (zh) * 2020-12-30 2021-04-02 华侨大学 一种基于自底向上的多人姿态估计方法及系统
CN112597954B (zh) * 2020-12-30 2023-06-02 华侨大学 一种基于自底向上的多人姿态估计方法及系统
CN114036969A (zh) * 2021-03-16 2022-02-11 上海大学 一种多视角情况下的3d人体动作识别算法

Similar Documents

Publication Publication Date Title
CN111523377A (zh) 一种多任务的人体姿态估计和行为识别的方法
CN110119780B (zh) 基于生成对抗网络的高光谱图像超分辨重建方法
US11238602B2 (en) Method for estimating high-quality depth maps based on depth prediction and enhancement subnetworks
CN111639692A (zh) 一种基于注意力机制的阴影检测方法
CN108038420B (zh) 一种基于深度视频的人体行为识别方法
CN112434655B (zh) 一种基于自适应置信度图卷积网络的步态识别方法
JP2020507864A (ja) コンテンツ検出のための画像処理方法
CN110956082B (zh) 基于深度学习的人脸关键点检测方法和检测系统
CN104077742B (zh) 基于Gabor特征的人脸素描合成方法及系统
CN112766186B (zh) 一种基于多任务学习的实时人脸检测及头部姿态估计方法
CN113283525A (zh) 一种基于深度学习的图像匹配方法
CN113516693B (zh) 一种快速通用的图像配准方法
WO2022052782A1 (zh) 图像的处理方法及相关设备
CN111291669A (zh) 一种双通道俯角人脸融合校正gan网络及人脸融合校正方法
CN116258757A (zh) 一种基于多尺度交叉注意力的单目图像深度估计方法
CN112785636A (zh) 一种多尺度增强式的单目深度估计方法
CN110135277B (zh) 一种基于卷积神经网络的人体行为识别方法
JP2014116716A (ja) 追尾装置
CN111027350A (zh) 一种基于人脸三维重建的改进pca算法
CN111339888B (zh) 基于关节点运动图的双人交互行为识别方法
CN116246338B (zh) 一种基于图卷积和Transformer复合神经网络的行为识别方法
CN115620016B (zh) 一种骨架检测模型的构建方法、图像数据识别方法
WO2023142886A1 (zh) 表情迁移方法、模型训练方法和装置
CN116797640A (zh) 一种面向智能伴行巡视器的深度及3d关键点估计方法
CN117078539A (zh) 基于CNN-Transformer的局部全局交互式图像恢复方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination