CN112149645A - 基于生成对抗学习和图神经网络的人体姿势关键点识别方法 - Google Patents
基于生成对抗学习和图神经网络的人体姿势关键点识别方法 Download PDFInfo
- Publication number
- CN112149645A CN112149645A CN202011248793.0A CN202011248793A CN112149645A CN 112149645 A CN112149645 A CN 112149645A CN 202011248793 A CN202011248793 A CN 202011248793A CN 112149645 A CN112149645 A CN 112149645A
- Authority
- CN
- China
- Prior art keywords
- node
- human body
- neural network
- size
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 30
- 230000003042 antagnostic effect Effects 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 230000036544 posture Effects 0.000 description 35
- 238000012549 training Methods 0.000 description 16
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 210000003423 ankle Anatomy 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 210000002414 leg Anatomy 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明涉及一种生成对抗学习和图神经网络的人体姿势关键点识别方法,属于人体姿势关键点识别领域。一方面采用卷积网络作为生成器提取图片特征,然后结合反卷积学习其中的人体姿势关键点,另一方面采用图神经网络作为判别器对学习生成的人体姿势关键点进行正误判别,促使生成器加强对错误的关键点再学习,以适应更复杂环境下的人体姿势关键点识别。
Description
技术领域
本发明属于人体姿势关键点识别领域,具体是提出一种结合生成对抗学习和图神经网络的人体姿势关键点识别方法和系统。整个系统一方面采用resnet卷积网络作为生成器提取图片特征,然后结合反卷积学习其中的人体姿势关键点,另一方面采用图神经网络作为判别器对学习生成的人体姿势关键点进行正误判别,促使生成器加强对错误的关键点再学习,以适应更复杂环境下的人体姿势关键点识别。
背景技术
人体姿态关键点识别是计算机视觉领域的基本研究方向之一,在传统算法遭遇瓶颈之时,卷积神经网络的再次崛起和快速迭代为解决这一问题带来了新工具,最近几年,尽管人体姿势关键点识别任务在使用深度卷积神经网络的情况下已经取得了极大的进步,但是由于光照、遮挡和变化大的身体姿势等导致关键点不可见的问题,2D人体姿势关键点识别仍然是一项具有挑战性和重要意义的任务。人体姿势关键点识别任务广泛的应用于行为动作识别、人机交互和游戏动画等相关任务中,该任务的主要难点是识别手臂的肘和腕以及腿部的踝和膝盖。
人体姿势识别任务中人体不同关节部分的相关空间语义信息起到非常关键的作用,考虑到人体各个关节本身部分就可以看作是一个连接的图结构,本发明采用图神经网络作为生成对抗学习中的判别器对人体各个关节部分的关键点识别的正误判别。
发明内容
要解决的技术问题
为了避免现有技术的不足之处,本发明提出一种基于生成对抗学习和图神经网络的人体姿势关键点识别方法。
技术方案
一种基于生成对抗学习和图神经网络的人体姿势关键点识别方法,其特征在于步骤如下:
步骤1:输入为一张含有人体姿势的图片,大小为3*256*256,表示为V∈RC×W×H,其中C表示的是图像channel的大小,W和H是图像的宽和高,然后经过5层包含残差的卷积神经网络,得到256个8*8大小的特征图,接着将此256个8*8大小的特征图经过三层反卷积层放大和一层卷积神经网络得到相对应的人体姿势预测关节点的节点信息,即16个64*64大小的特征图;最后,提取每个64*64大小的特征图中的最大值作为人体关节点坐标,此处人体关节点坐标总共是16个;
步骤2:将步骤1中得到的16个64*64大小的特征图作为判别器的输入,判别器用来判断生成器生成的当前预测节点是否符合人为先验是否合理,如果合理即为1,否则为0;具体过程为:通过对输入的16个64*64大小特征图后两维进行拉伸得到16个长度为64*64的向量,经过全连接层的处理得到16个长度为256的向量,分别对每个关节点过门控图神经网络GGNN来得到更新后的节点信息,最后通过全连接层处理得到16个一维向量,即人体姿势关键点。
步骤2中所述的门控图神经网络GGNN的更新过程:第一,依靠自建的人体姿势图结构和公式(1),得到每个节点和相邻节点构成的边邻域信息j;第二,结合每个节点(t-1)时刻的状态信息i和边邻域信息j经过公式(3)得到更新后的节点信息:
公式(1)中n表示某个关节点,M是第n个关节点的邻域关节点集合,m表示其中某个邻域节点,t是当前更新时步,i为该节点状态信息,j为每个节点和相邻节点构成的边邻域信息,F和GRU分别表示从相邻节点收集信息和更新节点隐藏状态信息的函数,F可以表示为公式(2),GRU可以用公式(4)-(7)表示;
门控机制GRU的具体计算公式如下:
其中,W和U都是第n个关键点的卷积权重,b是卷积偏置;sigmoid和tanh为常用的激活函数。
有益效果
本发明提出的一种基于生成对抗学习和图神经网络的人体姿势关键点识别方法,可以得到更稳定更精确的人体姿势关键点,基于图神经网络的结构充分利用了人体姿势本身内在的语义空间结构关系,结合生成对抗式的学习可以应对更多复杂的环境和变换大的姿势,而在本发明应用时不需要判别器部分,仅仅使用生成器生成所需的结果即可,如此使得网络更简单高效,运行速度更快。
附图说明
图1图结构
图2生成器结构图
图3判别器结构图
具体实施方式
现结合实施例、附图对本发明作进一步描述:
本发明的技术方案主要分为两个模块:第一个模块是生成器(如图2),第二个模块是判别器(如图3)。
生成器结构:输入为3*256*256的图像,表示为V∈RC×W×H,此处的C表示的是图像channel的大小,W和H是图像的宽和高,经过多层卷积神经网络得到256*8*8的特征图(feature map),此处主要是提取图片特征信息的主干网络。将此256*8*8大小的特征图经过三层反卷积层(Deconv)放大得到256*64*64的特征图,最后通过一层输出卷积得到相对应的预测关节点的节点信息,即16*64*64的特征图,此处的16为人体关节点数量。
判别器结构:判别器的输入是生成器输出的16*64*64特征图,首先将64*64的两维特征转换为一维特征,经过一层全连接神经网络变为16*256的特征大小。通过人体关节自身的空间语义信息构建图结构(如图2),利用图结构的关系对于每个节点加上相邻节点的特征信息,得到的仍然是16*256的特征。最后通过一层全连接神经网络得到16*1的一个向量特征。
图结构的构建:利用人体姿势本身的依赖关系构建图结构(如图1所示),具体为:将人体姿势的16个关节点作为图结构中的节点,将人体姿势的每个关节点和相邻关节点的依赖关系作为图结构中节点和节点的连接。
端到端的训练过程:在随机初始化所有参数后,按照传统的生成对抗网络一般训练过程交替训练生成器和判别器。具体来说,生成器训练3次,判别器训练1次。在训练判别器的过程中,我们把真实的标签作为判别器的输入,让判别器来学习这是真的。同时,本发明将生成器生成的预测结果作为判别器的输入,训练判别器来学习这是假的。在训练生成器的过程中,通过生成对抗学习直接优化生成器来欺骗判别器。换句话说,判别器将把生成器产生的预测结果视为真实的结果。最后通过加权结合两部分的损失值生成对抗性的学习,用第二个模块辅助确保第一个模块有能力对各种复杂环境下的大姿势实现更稳定更精准的人体关键点定位。
测试过程:在测试时,只需要用到生成器的输出作为最终结果即可,本身的判别器只用做训练部分来提高生成器的预测能力,测试部分不需要用到,很显然,本发明设计具有诸如速度快、模型结构简单、参数量少等多个优点。
该人体姿势关键点识别方法有以下主要步骤:
(1)生成器的训练:将一张图片通过生成器提取特征并输出得到相对应的预测关节点的节点信息。具体过程为:输入为一张含有人体姿势的图片,大小为3*256*256,表示为V∈RC×W×H,此处的C表示的是图像channel的大小,W和H是图像的宽和高,然后经过5层包含残差的卷积神经网络,得到256个8*8大小的特征图(feature map),接着将此256个8*8大小的特征图经过三层反卷积层(Deconv)放大和一层卷积神经网络得到相对应的人体姿势预测关节点的节点信息,即16个64*64大小的特征图。最后,提取每个64*64大小的特征图中的最大值作为人体关节点坐标,此处人体关节点坐标总共是16个。
(2)判别器的训练:将(1)中得到的16个64*64大小的特征图作为判别器的输入,判别器用来判断生成器生成的当前预测节点是否符合人为先验是否合理,如果合理即为1,否则为0。具体过程为:通过对输入的16个64*64大小特征图后两维进行拉伸得到16个长度为64*64的向量,经过全连接层的处理得到16个长度为256的向量,分别对每个关节点过门控图神经网络(步骤3)来得到更新后的节点信息,最后通过全连接层处理得到16个一维向量。
(3)门控图神经网络(GGNN)的更新过程:第一,依靠自建的人体姿势图结构和公式(1),可以得到每个节点和相邻节点构成的边邻域信息j;第二,结合每个节点(t-1)时刻的状态信息i和边邻域信息j经过公式(3)得到更新后的节点信息。
公式(1)中n表示某个关节点,M是第n个关节点的邻域关节点集合,m表示其中某个邻域节点,t是当前更新时步,i为该节点状态信息,j为每个节点和相邻节点构成的边邻域信息,F和GRU分别表示从相邻节点收集信息和更新节点隐藏状态信息的函数,F可以表示为公式(2),GRU可以用公式(4)-(7)表示。
(4)门控机制(GRU)的具体计算公式如下:
这里的W和U都是第n个关键点的卷积权重,b是卷积偏置。sigmoid和tanh为常用的激活函数。
本发明提供了一种基于结合生成对抗学习和图神经网络的人体姿势关键点识别方法,具体过程如下:
1、数据预处理
给定一张包含人体姿势的图片,根据图片中人体的边界框把人裁剪出来,然后使用双线性插值的方法将图片尺寸大小调整到256×256,在裁剪和调整图片的同时需要对相应的关键点真实标签做处理。
2、数据增强
将同一张图片随机尺度缩放、随机左右翻转以及随机旋转一定角度θ∈[-30°,+30°],使用双线性插值的方法调整图片大小到256×256,最后归一化处理得到张量256×256×3。在图片处理变为张量256×256×3作为输入后,而图像上对应人体姿势关键点的坐标也要做相应变化。图像在左右翻转时,人体姿势左边点的坐标需要和对应的右边点的坐标交换,随机尺度缩放、随机旋转和图像大小调整时的关键点坐标也要做相应变换调整。
3、生成器网络模块训练
输入图片经过数据预处理后变为(256×256×3)张量,然后输入张量到Resnet网络,去掉Resnet网络最后的两层即平均池化层和全连接层,在网络后面增加三个反卷积层和一层卷积层,得到网络输出的特征图,此时的特征图大小为64×64。输出的特征图的个数即是人体姿势关键点的数量,关键点数设置为16,即输出16个关键点的坐标,然后根据这16个关键点的坐标来编码生成64×64的热图(heatmap),然后与真实标签对应的热力图(64×64)计算归一化平均误差。训练时使用Adam优化器来更新参数。
4、图网络构建
根据人体姿势构建图结构,如图2所示。图神经网络需要图(图被表示为G={I,E})作为它的输入,其中I和E分别表示为图的节点和边,每个节点i∈I拥有自身的隐藏状态,在更新每个节点的隐藏状态之前,需要先通过公式(1)(2)聚合邻域节点的隐藏状态,然后结合聚合邻域节点得到的信息和上一时步状态信息通过公式(3)更新当前时步的隐藏状态信息,其中时步t为循环次数。
5、判别器网络模块训练
将生成器得到的16个关键点的热图作为判别器的输入,然后将每个64×64热图处理为256的向量信息表征,此时这16个大小256的向量为关键点的信息表征,这16个关键点可看做图结构中的16个节点,每个节点和邻域节点的关联信息称作边,将节点和边的信息输入到图神经网络得到更新后的节点信息,将更新后的节点信息反复经过图神经网络更新几次得到最终更新完的节点信息,然后将16个大小256的向量处理成为16个大小为1的向量,范围是0到1,从而判别生成器生成的16个关键点质量好坏,增强生成器的性能。
6、模型训练
整个训练过程为端到端的训练,在训练生成器时,把处理过后的图片数据作为输入,最后一层卷积的输出维度等同于所有的关键点数,得到16个关键点特征。损失函数使用均方差损失函数:
这里的||·||为欧几里德距离,v为第n个关键点的可见性(0不可见,1可见),X和Y分别为第n个关键点的预测的结果和真实标签。
在训练判别器时,把生成器生成的关键点特征作为输入,最后得到对于16个关键点质量好坏判别的向量。损失函数使用交叉熵损失函数:
这里的x为预测向量,gt为真实标签(在训练真样本时此处全为1,训练假样本时全为0)。
主要损失函数使用均方差损失函数和交叉熵损失函数:
L=LMSE+αLBCE (10)α为分配的损失权重,得到总的损失函数L。优化器统一般选用Adam优化器来计算梯度并进行反向传播。训练更新参数时需要设置学习率,生成器的初始学习率设置为0.001,判别器的初始学习率比生成器的初始学习率小10倍,然后分别在90和120个epoch时都将学习率降低10倍。每次迭代的图片数设置为32张图片。130个epoch后损失趋于平稳,并在140个epoch时结束训练为。
7、模型应用
通过上面的训练过程,可以得到多个模型,选取其中最优的模型用于应用测试,图片数据处理在这里并不需要数据增强,只需要把图像调整到256×256大小,然后对数据做归一化即可作为生成器模块的输入。整个的网络模型的参数都固定不动,只要输入图像数据并向前推理即可。在模型应用时不需要判别器模块,只需把生成器最后得到的特征作为预测关键点的特征,然后将预测到的关键点特征解码为坐标点,计算预测坐标点和真实标签坐标点的欧几里德距离,将此距离做归一化处理即得到预测关键点误差,用于评判模型性能,而预测得到精确的关键点坐标可以作为其他应用,人体动作识别、动画制作、游戏设计以及其他的相关视觉领域等。本发明不仅简化了应用时的模型结构,还减少了参数量,运行速度也极大的提高。
以上仅为本发明的较佳实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内所做的任何修改、等同替换和改进等,均在本发明的保护范围之内。
Claims (2)
1.一种基于生成对抗学习和图神经网络的人体姿势关键点识别方法,其特征在于步骤如下:
步骤1:输入为一张含有人体姿势的图片,大小为3*256*256,表示为V∈RC×W×H,其中C表示的是图像channel的大小,W和H是图像的宽和高,然后经过5层包含残差的卷积神经网络,得到256个8*8大小的特征图,接着将此256个8*8大小的特征图经过三层反卷积层放大和一层卷积神经网络得到相对应的人体姿势预测关节点的节点信息,即16个64*64大小的特征图;最后,提取每个64*64大小的特征图中的最大值作为人体关节点坐标,此处人体关节点坐标总共是16个;
步骤2:将步骤1中得到的16个64*64大小的特征图作为判别器的输入,判别器用来判断生成器生成的当前预测节点是否符合人为先验是否合理,如果合理即为1,否则为0;具体过程为:通过对输入的16个64*64大小特征图后两维进行拉伸得到16个长度为64*64的向量,经过全连接层的处理得到16个长度为256的向量,分别对每个关节点过门控图神经网络GGNN来得到更新后的节点信息,最后通过全连接层处理得到16个一维向量,即人体姿势关键点。
2.根据权利要求1所述的一种基于生成对抗学习和图神经网络的人体姿势关键点识别方法,其特征在于步骤2中所述的门控图神经网络GGNN的更新过程:第一,依靠自建的人体姿势图结构和公式(1),得到每个节点和相邻节点构成的边邻域信息j;第二,结合每个节点(t-1)时刻的状态信息i和边邻域信息j经过公式(3)得到更新后的节点信息:
公式(1)中n表示某个关节点,M是第n个关节点的邻域关节点集合,m表示其中某个邻域节点,t是当前更新时步,i为该节点状态信息,j为每个节点和相邻节点构成的边邻域信息,F和GRU分别表示从相邻节点收集信息和更新节点隐藏状态信息的函数,F可以表示为公式(2),GRU可以用公式(4)-(7)表示;
门控机制GRU的具体计算公式如下:
其中,W和U都是第n个关键点的卷积权重,b是卷积偏置;sigmoid和tanh为常用的激活函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011248793.0A CN112149645A (zh) | 2020-11-10 | 2020-11-10 | 基于生成对抗学习和图神经网络的人体姿势关键点识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011248793.0A CN112149645A (zh) | 2020-11-10 | 2020-11-10 | 基于生成对抗学习和图神经网络的人体姿势关键点识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112149645A true CN112149645A (zh) | 2020-12-29 |
Family
ID=73887160
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011248793.0A Pending CN112149645A (zh) | 2020-11-10 | 2020-11-10 | 基于生成对抗学习和图神经网络的人体姿势关键点识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112149645A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112699837A (zh) * | 2021-01-13 | 2021-04-23 | 新大陆数字技术股份有限公司 | 一种基于深度学习的手势识别方法及设备 |
CN113569627A (zh) * | 2021-06-11 | 2021-10-29 | 北京旷视科技有限公司 | 人体姿态预测模型训练方法、人体姿态预测方法及装置 |
CN115439845A (zh) * | 2022-08-02 | 2022-12-06 | 北京邮电大学 | 基于图神经网络的图像外推方法、装置、存储介质及终端 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107545262A (zh) * | 2017-07-31 | 2018-01-05 | 华为技术有限公司 | 一种在自然场景图像中检测文本的方法及装置 |
CN107945265A (zh) * | 2017-11-29 | 2018-04-20 | 华中科技大学 | 基于在线学习深度预测网络的实时稠密单目slam方法与系统 |
CN108549863A (zh) * | 2018-04-11 | 2018-09-18 | 腾讯科技(深圳)有限公司 | 人体姿态预测方法、装置、设备及存储介质 |
CN109190524A (zh) * | 2018-08-17 | 2019-01-11 | 南通大学 | 一种基于生成对抗网络的人体动作识别方法 |
CN109657538A (zh) * | 2018-11-05 | 2019-04-19 | 中国科学院计算技术研究所 | 基于上下文信息指导的场景分割方法和系统 |
CN109858390A (zh) * | 2019-01-10 | 2019-06-07 | 浙江大学 | 基于端到端时空图学习神经网络的人体骨架的行为识别方法 |
CN110210426A (zh) * | 2019-06-05 | 2019-09-06 | 中国人民解放军国防科技大学 | 基于注意力机制从单幅彩色图像进行手部姿态估计的方法 |
CN110598554A (zh) * | 2019-08-09 | 2019-12-20 | 中国地质大学(武汉) | 基于对抗学习的多人姿态估计方法 |
CN110796080A (zh) * | 2019-10-29 | 2020-02-14 | 重庆大学 | 一种基于生成对抗网络的多姿态行人图像合成算法 |
CN110929679A (zh) * | 2019-12-05 | 2020-03-27 | 杭州电子科技大学 | 一种基于gan的无监督自适应行人重识别方法 |
CN111161200A (zh) * | 2019-12-22 | 2020-05-15 | 天津大学 | 基于注意力机制的人体姿态迁移方法 |
CN111160085A (zh) * | 2019-11-19 | 2020-05-15 | 天津中科智能识别产业技术研究院有限公司 | 一种人体图像关键点姿态估计方法 |
CN111428664A (zh) * | 2020-03-30 | 2020-07-17 | 厦门瑞为信息技术有限公司 | 一种基于人工智能深度学习技术的计算机视觉的实时多人姿态估计方法 |
CN111709321A (zh) * | 2020-05-28 | 2020-09-25 | 西安交通大学 | 一种基于图卷积神经网络的人体行为识别方法 |
CN111753684A (zh) * | 2020-06-11 | 2020-10-09 | 昆明理工大学 | 一种利用目标姿势进行生成的行人重识别方法 |
-
2020
- 2020-11-10 CN CN202011248793.0A patent/CN112149645A/zh active Pending
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107545262A (zh) * | 2017-07-31 | 2018-01-05 | 华为技术有限公司 | 一种在自然场景图像中检测文本的方法及装置 |
CN107945265A (zh) * | 2017-11-29 | 2018-04-20 | 华中科技大学 | 基于在线学习深度预测网络的实时稠密单目slam方法与系统 |
CN108549863A (zh) * | 2018-04-11 | 2018-09-18 | 腾讯科技(深圳)有限公司 | 人体姿态预测方法、装置、设备及存储介质 |
CN109190524A (zh) * | 2018-08-17 | 2019-01-11 | 南通大学 | 一种基于生成对抗网络的人体动作识别方法 |
CN109657538A (zh) * | 2018-11-05 | 2019-04-19 | 中国科学院计算技术研究所 | 基于上下文信息指导的场景分割方法和系统 |
CN109858390A (zh) * | 2019-01-10 | 2019-06-07 | 浙江大学 | 基于端到端时空图学习神经网络的人体骨架的行为识别方法 |
CN110210426A (zh) * | 2019-06-05 | 2019-09-06 | 中国人民解放军国防科技大学 | 基于注意力机制从单幅彩色图像进行手部姿态估计的方法 |
CN110598554A (zh) * | 2019-08-09 | 2019-12-20 | 中国地质大学(武汉) | 基于对抗学习的多人姿态估计方法 |
CN110796080A (zh) * | 2019-10-29 | 2020-02-14 | 重庆大学 | 一种基于生成对抗网络的多姿态行人图像合成算法 |
CN111160085A (zh) * | 2019-11-19 | 2020-05-15 | 天津中科智能识别产业技术研究院有限公司 | 一种人体图像关键点姿态估计方法 |
CN110929679A (zh) * | 2019-12-05 | 2020-03-27 | 杭州电子科技大学 | 一种基于gan的无监督自适应行人重识别方法 |
CN111161200A (zh) * | 2019-12-22 | 2020-05-15 | 天津大学 | 基于注意力机制的人体姿态迁移方法 |
CN111428664A (zh) * | 2020-03-30 | 2020-07-17 | 厦门瑞为信息技术有限公司 | 一种基于人工智能深度学习技术的计算机视觉的实时多人姿态估计方法 |
CN111709321A (zh) * | 2020-05-28 | 2020-09-25 | 西安交通大学 | 一种基于图卷积神经网络的人体行为识别方法 |
CN111753684A (zh) * | 2020-06-11 | 2020-10-09 | 昆明理工大学 | 一种利用目标姿势进行生成的行人重识别方法 |
Non-Patent Citations (4)
Title |
---|
YANRUI BIN 等: "Structure-aware human pose estimation with graph convolutional networks", 《PATTERN RECOGNITION》 * |
YIMING HE 等: "GraphPoseGAN: 3D Hand Pose Estimation from a Monocular RGB Image via Adversarial Learning on Graphs", 《ARXIV:1912.01875V1》 * |
YU CHEN 等: "Adversarial PoseNet: A Structure-aware Convolutional Network for Human Pose Estimation", 《ARXIV:1705.00389V2》 * |
吴春梅 等: "利用改进生成对抗网络进行人体姿态识别", 《计算机工程与应用》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112699837A (zh) * | 2021-01-13 | 2021-04-23 | 新大陆数字技术股份有限公司 | 一种基于深度学习的手势识别方法及设备 |
CN113569627A (zh) * | 2021-06-11 | 2021-10-29 | 北京旷视科技有限公司 | 人体姿态预测模型训练方法、人体姿态预测方法及装置 |
CN115439845A (zh) * | 2022-08-02 | 2022-12-06 | 北京邮电大学 | 基于图神经网络的图像外推方法、装置、存储介质及终端 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109858390B (zh) | 基于端到端时空图学习神经网络的人体骨架行为识别方法 | |
CN112784764B (zh) | 一种基于局部与全局注意力机制的表情识别方法及系统 | |
CN110163299B (zh) | 一种基于自底向上注意力机制和记忆网络的视觉问答方法 | |
CN107492121B (zh) | 一种单目深度视频的二维人体骨骼点定位方法 | |
CN111652124A (zh) | 一种基于图卷积网络的人体行为识别模型的构建方法 | |
CN112149645A (zh) | 基于生成对抗学习和图神经网络的人体姿势关键点识别方法 | |
CN110378208B (zh) | 一种基于深度残差网络的行为识别方法 | |
CN112330719B (zh) | 基于特征图分割和自适应融合的深度学习目标跟踪方法 | |
CN112232134B (zh) | 一种基于沙漏网络结合注意力机制的人体姿态估计方法 | |
CN106548194B (zh) | 二维图像人体关节点定位模型的构建方法及定位方法 | |
CN112801015A (zh) | 一种基于注意力机制的多模态人脸识别方法 | |
Ha et al. | Deep neural networks using capsule networks and skeleton-based attentions for action recognition | |
CN115222998B (zh) | 一种图像分类方法 | |
Liu et al. | Pose-adaptive hierarchical attention network for facial expression recognition | |
CN111695523A (zh) | 基于骨骼时空及动态信息的双流卷积神经网络动作识别方法 | |
Tan et al. | Depth scale balance saliency detection with connective feature pyramid and edge guidance | |
CN116030498A (zh) | 面向虚拟服装走秀的三维人体姿态估计方法 | |
CN110111365B (zh) | 基于深度学习的训练方法和装置以及目标跟踪方法和装置 | |
CN117079098A (zh) | 一种基于位置编码的空间小目标检测方法 | |
CN114780767A (zh) | 一种基于深度卷积神经网络的大规模图像检索方法及系统 | |
CN112668543B (zh) | 一种手模型感知的孤立词手语识别方法 | |
CN117115911A (zh) | 一种基于注意力机制的超图学习动作识别系统 | |
CN113936333A (zh) | 一种基于人体骨架序列的动作识别算法 | |
CN114613011A (zh) | 基于图注意力卷积神经网络的人体3d骨骼行为识别方法 | |
CN114066844A (zh) | 一种基于注意力叠加与特征融合的肺炎x光片图像分析模型及分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20201229 |
|
WD01 | Invention patent application deemed withdrawn after publication |