CN112906675A - 一种固定场景中的无监督人体关键点检测方法及系统 - Google Patents

一种固定场景中的无监督人体关键点检测方法及系统 Download PDF

Info

Publication number
CN112906675A
CN112906675A CN202110457655.1A CN202110457655A CN112906675A CN 112906675 A CN112906675 A CN 112906675A CN 202110457655 A CN202110457655 A CN 202110457655A CN 112906675 A CN112906675 A CN 112906675A
Authority
CN
China
Prior art keywords
heat map
sample
neural network
color image
human body
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110457655.1A
Other languages
English (en)
Other versions
CN112906675B (zh
Inventor
于耀
李昆伦
周余
都思丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202110457655.1A priority Critical patent/CN112906675B/zh
Publication of CN112906675A publication Critical patent/CN112906675A/zh
Application granted granted Critical
Publication of CN112906675B publication Critical patent/CN112906675B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种固定场景中的无监督人体关键点检测方法及系统,利用相机阵列中不同拍摄视角的彩色相机同步拍摄的多个人物彩色图像样本对卷积神经网络进行训练,将不同拍摄视角的待检测人物彩色图像输入训练好的卷积神经网络的编码器,获得不同拍摄视角的待检测人物热度图,从不同拍摄视角的待检测人物热度图中即可提取待检测人物的人体关键点的三维坐标。本发明对卷积神经网络进行无监督训练,解决了神经网络的训练需要大量标注数据的问题,并利用卷积神经网络实现人体关键点的三维坐标的精确测量,解决了传统人体关键点监测时需要穿戴marker的问题。

Description

一种固定场景中的无监督人体关键点检测方法及系统
技术领域
本发明涉及人体关键点检测技术领域,特别是涉及一种固定场景中的无监督人体关键点检测方法及系统。
背景技术
人体关键点检测在人机交互、虚拟现实、电影特效制作中扮演着重要的角色。目前,绝大部分人体关键点检测方案都采用了以下两种思路之一:1.由人物穿上若干特征明显的marker,再用传感器或特征检测算法检测marker的空间坐标;2.抛弃传统的基于传感器和特征检测的算法,事先由人工标注大量的彩色图像中的人体关键点位置,再用大量数据训练神经网络,最后使用训练好的神经网络检测人物的关键点。然而,这两种方法都有一定的缺陷。基于传感器和特征检测算法的方法由于需要人物穿戴marker,以及需要配套的传感器或特征检测算法,使用场景比较受限。另一方面,基于神经网络的方法,由于需要大量的人工标注数据训练,人工成本较大。近年来,随着神经网络技术的发展,无监督训练越来越受到人们的重视,因为它可以解决基于监督训练的神经网络需要大量标注数据的问题。但是,目前的无监督神经网络技术还局限在图像识别等计算机视觉的经典方向,如何将它与人体关键点检测结合起来,让其真正具备实用价值,是人体关键点检测领域的一个重要问题。
发明内容
本发明的目的是提供一种固定场景中的无监督人体关键点检测方法及系统,利用无监督神经网络技术实现人体关键点的三维坐标的精确测量,以解决传统人体关键点监测时需要穿戴marker的问题以及神经网络的训练需要大量标注数据的问题。
为实现上述目的,本发明提供了如下方案:
一种固定场景中的无监督人体关键点检测方法,所述方法包括:
获取相机阵列中不同拍摄视角的彩色相机同步拍摄的多个人物彩色图像样本;
构建卷积神经网络;所述卷积神经网络包括编码器和解码器;
采用卷积神经网络的编码器将每个人物彩色图像样本编码为样本热度图;
根据每个样本热度图,利用卷积神经网络的解码器,获得每个样本热度图对应的重建彩色图像;
选取重建彩色图像与人物彩色图像样本的重建效果和样本热度图的一致性作为损失函数,对所述卷积神经网络进行训练,获得训练好的卷积神经网络;
获取相机阵列采集的不同拍摄视角的待检测人物彩色图像;
将所述不同拍摄视角的待检测人物彩色图像输入训练好的卷积神经网络的编码器,获得不同拍摄视角的待检测人物热度图;
从不同拍摄视角的待检测人物热度图中提取待检测人物的人体关键点的三维坐标。
进一步地,所述卷积神经网络的编码器包括预处理模块、多尺度特征提取模块和归一化模块;
预处理模块由多级CONV-BN-RELU神经网络以线性顺序组成;其中,CONV表示卷积层,BN表示批量归一化层,RELU表示线性整流激活函数;
多尺度特征提取模块包含多级CONV-BN-RELU-MAXPOOL组成的尺度缩小模块和多级CONV-BN-RELU-UPSAMPLE组成的尺度放大模块;其中,MAXPOOL表示最大池化层,UPSAMPLE表示上采样;
所述卷积神经网络的解码器包括由多级CONV-BN-RELU组成的神经网络以及一个和原始图像尺寸相同、权重可变的张量。
进一步地,所述根据每个样本热度图,利用卷积神经网络的解码器,获得每个样本热度图对应的重建彩色图像,具体包括:
利用soft-argmax获得样本热度图中包含的多个人体关键点二维坐标;
以样本热度图中包含的每个人体关键点二维坐标为中心,对样本热度图对应的人物彩色图像样本进行可微分裁剪操作,获得人物彩色图像样本的裁剪子图;
将人物彩色图像样本的裁剪子图输入所述卷积神经网络的解码器,获得样本热度图对应的重建彩色图像。
进一步地,所述利用soft-argmax获得样本热度图中包含的多个人体关键点二维坐标,具体包括:
将所述样本热度图输入soft-argmax,利用公式
Figure BDA0003041072320000031
获得样本热度图中包含的每个人体关键点二维坐标;
其中,(Xc,Yc)为样本热度图中第c个人体关键点的二维坐标,
Figure BDA0003041072320000032
为第c个人体关键点在样本热度图中像素(i,j)的概率,H为样本热度图的高,W为样本热度图的宽。
进一步地,所述以样本热度图中包含的每个人体关键点二维坐标为中心,对样本热度图对应的人物彩色图像样本进行可微分裁剪操作,获得人物彩色图像样本的裁剪子图,具体包括:
以样本热度图中包含的每个人体关键点二维坐标为中心,利用公式
Figure BDA0003041072320000033
对样本热度图对应的人物彩色图像样本进行可微分裁剪操作,获得人物彩色图像样本的裁剪子图;
其中,yc,i,j为裁剪子图的第c个通道在像素(i,j)的像素值,一个通道对应一个人体关键点,xc,i,j为样本热度图第c个通道在像素(i,j)的像素值,(Xc,Yc)为样本热度图中第c个人体关键点的二维坐标,σ为高斯分布的标准差。
进一步地,所述选取重建彩色图像与人物彩色图像样本的重建效果和样本热度图的一致性作为损失函数,具体包括:
根据每个样本热度图中包含的多个人体关键点二维坐标,利用最小二乘法计算每个样本热度图中人体关键点的三维坐标;
将每个样本热度图中人体关键点的三维坐标投影到二维坐标系上,获得每个样本热度图中人体关键点的二维投影坐标;
根据重建彩色图像与人物彩色图像样本的差值,以及每个样本热度图中人体关键点的二维投影坐标与每个样本热度图中人体关键点二维坐标的差值,构建损失函数为
Figure BDA0003041072320000041
其中,y为损失函数的值,xn,c,h,w为重建彩色图像,gn,c,h,w为人物彩色图像样本,x2d为人体关键点二维坐标,xproj为人体关键点的二维投影坐标,n为批量维度,c为通道维度,h为高维度,w为宽维度,N为批量数,C为通道数,H′为总高维度,W′为总宽维度,v为视角的索引,g为关键点的索引,V为视角的数量,G为关键点的数量。
一种固定场景中的无监督人体关键点检测系统,所述系统包括:
人物彩色图像样本获取模块,用于获取相机阵列中不同拍摄视角的彩色相机同步拍摄的多个人物彩色图像样本;
卷积神经网络构建模块,用于构建卷积神经网络;所述卷积神经网络包括编码器和解码器;
样本热度图编码模块,用于采用卷积神经网络的编码器将每个人物彩色图像样本编码为样本热度图;
重建彩色图像获得模块,用于根据每个样本热度图,利用卷积神经网络的解码器,获得每个样本热度图对应的重建彩色图像;
训练好的卷积神经网络获得模块,用于选取重建彩色图像与人物彩色图像样本的重建效果和样本热度图的一致性作为损失函数,对所述卷积神经网络进行训练,获得训练好的卷积神经网络;
待检测人物彩色图像获取模块,用于获取相机阵列采集的不同拍摄视角的待检测人物彩色图像;
待检测人物热度图获得模块,用于将所述不同拍摄视角的待检测人物彩色图像输入训练好的卷积神经网络的编码器,获得不同拍摄视角的待检测人物热度图;
人体关键点的三维坐标提取模块,用于从不同拍摄视角的待检测人物热度图中提取待检测人物的人体关键点的三维坐标。
进一步地,所述卷积神经网络的编码器包括预处理模块、多尺度特征提取模块和归一化模块;
预处理模块由多级CONV-BN-RELU神经网络以线性顺序组成;其中,CONV表示卷积层,BN表示批量归一化层,RELU表示线性整流激活函数;
多尺度特征提取模块包含多级CONV-BN-RELU-MAXPOOL组成的尺度缩小模块和多级CONV-BN-RELU-UPSAMPLE组成的尺度放大模块;其中,MAXPOOL表示最大池化层,UPSAMPLE表示上采样;
所述卷积神经网络的解码器包括由多级CONV-BN-RELU组成的神经网络以及一个和原始图像尺寸相同、权重可变的张量。
进一步地,所述重建彩色图像获得模块,具体包括:
人体关键点二维坐标获得子模块,用于利用soft-argmax获得样本热度图中包含的多个人体关键点二维坐标;
裁剪子图获得子模块,用于以样本热度图中包含的每个人体关键点二维坐标为中心,对样本热度图对应的人物彩色图像样本进行可微分裁剪操作,获得人物彩色图像样本的裁剪子图;
重建彩色图像获得子模块,用于将人物彩色图像样本的裁剪子图输入所述卷积神经网络的解码器,获得样本热度图对应的重建彩色图像。
进一步地,所述人体关键点二维坐标获得子模块,具体包括:
人体关键点二维坐标获得单元,用于将所述样本热度图输入soft-argmax,利用公式
Figure BDA0003041072320000051
获得样本热度图中包含的每个人体关键点二维坐标;
其中,(Xc,Yc)为样本热度图中第c个人体关键点的二维坐标,
Figure BDA0003041072320000052
为第c个人体关键点在样本热度图中像素(i,j)的概率,H为样本热度图的高,W为样本热度图的宽。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供了一种固定场景中的无监督人体关键点检测方法及系统,利用相机阵列中不同拍摄视角的彩色相机同步拍摄的多个人物彩色图像样本对卷积神经网络进行训练,将不同拍摄视角的待检测人物彩色图像输入训练好的卷积神经网络的编码器,获得不同拍摄视角的待检测人物热度图,从不同拍摄视角的待检测人物热度图中即可提取待检测人物的人体关键点的三维坐标。本发明对卷积神经网络进行无监督训练,解决了神经网络的训练需要大量标注数据的问题,并利用卷积神经网络实现人体关键点的三维坐标的精确测量,解决了传统人体关键点监测时需要穿戴marker的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种固定场景中的无监督人体关键点检测方法的流程图;
图2为本发明提供的利用卷积神经网络重建原始图像的原理图;
图3为典型的多视角相机阵列布局的俯视图;
图4为本发明提供的一个视角的原始图像获得重建图像的原理图;图4(a)为一个视角的原始图像,图4(b)为经过编码器编码得到热度图的一个通道,图4(c)为经过soft-argmax转化后得到的关键点坐标绘制在输入图像后的效果图,图4(d)为裁剪后得到的关键子图,图4(e)为重建图像的效果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种固定场景中的无监督人体关键点检测方法及系统,利用无监督神经网络技术实现人体关键点的三维坐标的精确测量,以解决传统人体关键点监测时需要穿戴marker的问题以及神经网络的训练需要大量标注数据的问题。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明是一种针对固定场景中缺少人工标注数据或缺少传感器数据情况下的人体关键点检测方法。本发明在不需要事先由人工标注人体关键点或使用传感器检测人体关键点的条件下,首先通过多个彩色相机采集目标人物在固定场景中不同角度的彩色图像,再利用卷积神经网络组成的编码器将彩色图像编码成包含人体关键点概率分布的热度图,并利用soft-argmax变换将热度图转化为二维坐标;然后使用得到的二维坐标在原始图像中裁剪出对应的部分关键子图;最后使用由卷积神经网络组成的解码器对裁剪得到的子图执行重建原始图像的任务,以此作为损失函数训练神经网络,同时结合多个视角在三维世界中的一致性作为约束,得到人体关键点的三维坐标。本方法属于无监督方法,只需要彩色图像作为输入,既不需要人工对图像进行标注,也不需要目标人物穿戴传感器,在需要采集人体姿态的领域可以得到广泛的应用。
本发明提供了一种固定场景中的无监督人体关键点检测方法,如图1-2所示,方法包括:
S101,获取相机阵列中不同拍摄视角的彩色相机同步拍摄的多个人物彩色图像样本;
S102,构建卷积神经网络;卷积神经网络包括编码器和解码器;
S103,采用卷积神经网络的编码器将每个人物彩色图像样本编码为样本热度图;
S104,根据每个样本热度图,利用卷积神经网络的解码器,获得每个样本热度图对应的重建彩色图像;
S105,选取重建彩色图像与人物彩色图像样本的重建效果和样本热度图的一致性作为损失函数,对卷积神经网络进行训练,获得训练好的卷积神经网络;
S106,获取相机阵列采集的不同拍摄视角的待检测人物彩色图像;
S107,将不同拍摄视角的待检测人物彩色图像输入训练好的卷积神经网络的编码器,获得不同拍摄视角的待检测人物热度图;
S108,从不同拍摄视角的待检测人物热度图中提取待检测人物的人体关键点的三维坐标。
步骤S102,卷积神经网络的编码器包括预处理模块、多尺度特征提取模块和归一化模块;
预处理模块由多级CONV-BN-RELU神经网络以线性顺序组成;其中,CONV表示卷积层,BN表示批量归一化层,RELU表示线性整流激活函数;
多尺度特征提取模块包含多级CONV-BN-RELU-MAXPOOL组成的尺度缩小模块和多级CONV-BN-RELU-UPSAMPLE组成的尺度放大模块;其中,MAXPOOL表示最大池化层,UPSAMPLE表示上采样;尺度缩小模块和尺度放大模块最终组合成沙漏型的神经网络模型;
归一化模块,对张量进行空间域上的归一化运算,其过程可以抽象为
Figure BDA0003041072320000081
其中x为输入的张量,y为输出的张量,数据格式均为NCHW,H为图像的高,W为图像的宽。
卷积神经网络的解码器包括由多级CONV-BN-RELU组成的神经网络以及一个和原始图像尺寸相同、权重可变的张量。
步骤S104,根据每个样本热度图,利用卷积神经网络的解码器,获得每个样本热度图对应的重建彩色图像,具体包括:
利用soft-argmax获得样本热度图中包含的多个人体关键点二维坐标,具体包括:
将样本热度图输入soft-argmax,利用公式
Figure BDA0003041072320000082
获得样本热度图中包含的每个人体关键点二维坐标;
其中,(Xc,Yc)为样本热度图中第c个人体关键点的二维坐标,pi c ,j为第c个人体关键点在样本热度图中像素(i,j)的概率,H为样本热度图的高,W为样本热度图的宽。
以样本热度图中包含的每个人体关键点二维坐标为中心,对样本热度图对应的人物彩色图像样本进行可微分裁剪操作,获得人物彩色图像样本的裁剪子图,具体包括:
以样本热度图中包含的每个人体关键点二维坐标为中心,利用公式
Figure BDA0003041072320000091
对样本热度图对应的人物彩色图像样本进行可微分裁剪操作,获得人物彩色图像样本的裁剪子图;
其中,yc,i,j为裁剪子图的第c个通道在像素(i,j)的像素值,一个通道对应一个人体关键点,xc,i,j为样本热度图第c个通道在像素(i,j)的像素值,(Xc,Yc)为样本热度图中第c个人体关键点的二维坐标,σ为高斯分布的标准差;
将人物彩色图像样本的裁剪子图输入卷积神经网络的解码器,获得样本热度图对应的重建彩色图像。
图2中,编码器后面的四个长方体表示每张输入图编码得到的热度图(每个热度图都是16*宽*高的张量),热度图右边的4个灰色长方形表示二维坐标,每个热度图都会编码成16个二维坐标。
步骤S105,选取重建彩色图像与人物彩色图像样本的重建效果和样本热度图的一致性作为损失函数,具体包括:
根据每个样本热度图中包含的多个人体关键点二维坐标,利用最小二乘法计算每个样本热度图中人体关键点的三维坐标;
将每个样本热度图中人体关键点的三维坐标投影到二维坐标系上,获得每个样本热度图中人体关键点的二维投影坐标;
根据重建彩色图像与人物彩色图像样本的差值,以及每个样本热度图中人体关键点的二维投影坐标与每个样本热度图中人体关键点二维坐标的差值,构建损失函数为
Figure BDA0003041072320000092
其中,y为损失函数的值,xn,c,h,w为重建彩色图像,gn,c,h,w为人物彩色图像样本,x2d为人体关键点二维坐标,xproj为人体关键点的二维投影坐标,n为批量维度,c为通道维度,h为高维度,w为宽维度,N为批量数,C为通道数,H′为总高维度,W′为总宽维度,v为视角的索引,g为关键点的索引,V为视角的数量,G为关键点的数量。
步骤S108,从不同拍摄视角的待检测人物热度图中提取待检测人物的人体关键点的三维坐标,具体包括:
利用soft-argmax确定所述每个拍摄视角的待检测人物热度图中的多个人体关键点二维坐标;
根据所有拍摄视角的人物热度图中的多个人体关键点二维坐标,利用最小二乘法计算人物的人体关键点的三维坐标。
针对目前的人体关键点检测技术存在的问题,本发明采用了神经网络来解决传统人体关键点检测时需要穿戴marker的问题,同时创造性的将无监督训练方法引入人体关键点检测领域,来解决神经网络的训练需要的大量标注数据的问题,实现了在成本较低、人工参与较少的情况下检测准确的三维人体关键点。
本发明的具体实现过程如下:
本方法由三个主要阶段组成。
第一阶段为数据采集阶段。本阶段使用多个彩色相机组成的相机阵列,对目标人物拍摄多个视角、连续、同步的彩色图像序列。
第二阶段为神经网络的无监督训练阶段。在这一阶段,相机阵列采集到的彩色图像先送入由卷积神经网络组成的编码器。编码器由三个模块组成:第一个模块为预处理模块,由多个CONV-BN-RELU神经网络串行连接而成,其中CONV表示卷积层,BN表示批量归一化层,RELU表示线性整流激活函数;编码器的第二个模块是多尺度的特征提取模块,其前半部分由多个CONV-BN-RELU-MAXPOOL神经网络组成,其中MAXPOOL表示最大池化层,张量每次经过MAXPOOL层,空间尺度都会缩小为原来的一半,多尺度特征提取模块的后半部分由多个CONV-BN-RELU-UPSAMPLE组成,其中UPSAMPLE为上采样,用于对缩小后的张量进行放大。最终两个部分组合成一个沙漏型的网络结构,用于提取不同尺度下的空间特征。编码器的第三个模块是归一化模块,用于将经过预处理和多尺度特征提取的张量转化为有明确物理含义的热度图,对张量在空间域上执行softmax归一化,其过程可以描述为:
Figure BDA0003041072320000111
其中,x为四维的张量,分别表示batch(批量数)、channel(通道数)、height(空间域的高)、width(空间域的宽),y为输出的张量,数据格式和输入相同。
得到编码器输出的热度图后,将热度图的每一个像素视作关键点出现在该坐标的概率,对整个热度图求期望,得到关键点的二维坐标,记pi,j为热度图在像素(i,j)的数值,(x,y)为关键点的二维坐标,计算过程可以描述为:
Figure BDA0003041072320000112
Figure BDA0003041072320000113
然后,以得到的二维坐标为中心,将其转化为标准二维高斯分布图,和原始图像相乘,得到以二维坐标为中心的子图,其过程可以描述为:
Figure BDA0003041072320000114
其中,xc,i,j为原始图像第c个通道在(i,j)位置的像素值,yc,i,j为裁剪后的子图的第c个通道在(i,j)位置的像素值,(x,y)是作为中心的二维坐标,σ为高斯分布的标准差,是一个根据原始图像尺寸调整的超参数。
得到裁剪后的子图后,以子图作为输入,用由卷积神经网络组成的解码器恢复原始图像,以重建效果作为损失函数,对神经网络执行无监督的训练。损失函数选用标准二范数,其形式为:
Figure BDA0003041072320000121
其中y为损失函数的值,x表示重建的图像,g表示原始图像。
在整个训练过程中,为了得到更好的重建效果,裁剪得到的子图必定包含原始图像中的重要信息,同时又由于原始图像的场景是固定的,原始图像的不同帧之间在不断发生变化的即是人体的姿态信息,以重建效果为约束,就会迫使编码器检测的二维坐标不断逼近人体的关键点。
同时,由于神经网络是一个连续函数,而裁剪后的子图中包含大量重复的全黑区域,连续的神经网路很难从这些重复的黑色区域中重建出不同的背景图像,所以除了裁剪的子图作为输入,编码器中还包含了一个和原始图像空间尺寸相同的张量,其权重可变,随着网络的训练而不断优化。这个包含固定场景信息的张量参与重建网络的形式为:
y=f(concat(xinpnt,bg))
其中y表示重建的图像,xinput表示作为输入的裁剪后的子图,bg代表上述的包含固定场景信息的张量,concat(*)表示在channel(通道)维度拼接张量的操作,f()表示解码器本身。
此外,为了获得关键点更精确的三维坐标,在训练的过程中,本方法还使用了多个视角的二维坐标经过反投影到三维世界后应该位于同一点作为约束,其过程为:先用最小二乘法对多个视角的二维坐标反投影计算得到误差最小的三维坐标,记该三维坐标为x3d,该三维坐标不仅参与后续的损失函数计算,同时也作为人体关键点的三维坐标输出;对每一个视角,将x3d投影到该视角的二维坐标系上,并记为xproj;三维世界上的一致性约束可以抽象为:
Figure BDA0003041072320000122
其中y表示损失函数的值,v表示视角的索引,n表示关键点的索引,x2d表示二维关键点的坐标,xproj表示三维坐标投影后的位置。
本方法的第三阶段为神经网络的推理阶段。在这一阶段中,将训练完成的编码器和相机阵列的输出连接,使用神经网络进行推理,得到不同视角下的关键点的二维坐标,并采用二阶段中x3d的计算方法得到人体的三维坐标。
以上三个阶段总结为以下步骤:
步骤1.数据采集:使用多个彩色相机组成的相机阵列采集目标人物一段连续、同步的彩色图像,作为训练数据。多个相机的相对位置没有要求,一个典型的八相机阵列如图3所示,其中每一个长方体表示一个相机,线段方向表示其朝向。
步骤2.神经网络的训练:搭建好神经网络之后,从采集到的彩色图像中随机挑选内存(或显存)能够容纳下的数量的图片,作为一次迭代的训练数据。然后将挑选出来的训练数据送入编码器,依次经历预处理、多尺度特征提取、空间归一化的数据处理,得到热度图;接下来经过soft-argmax变化将热度图转化为关键点坐标;最后,同时用重建原始图像的效果、多个视角的二维关键点在三维世界中的一致性计算损失函数,再经过反向传播、梯度更新后,完成一次迭代。并一直重复前述过程直到网络收敛。
图4为一个视角的原始图像获得重建图像的原理图。图4(a)为一个视角的原始图像,图4(b)为经过编码器编码得到热度图的一个通道,图4(c)为经过soft-argmax转化后得到的关键点坐标绘制在输入图像后的效果图,图4(d)为裁剪后得到的关键子图,图4(e)为重建图像的效果图。
步骤3.神经网络推理:神经网络训练完成后,将相机阵列采集到的目标人物图像送入编码器,经过soft-argmax变化和最小二乘法计算,即可得到人体关键点坐标。
本发明的目的是:在仅使用彩色相机组成的阵列,以及没有人工标注人体关键点数据的情况下,实现人体关键点的三维坐标的精确测量,主要应用于人机交互、虚拟现实、电影特效制作等应用。
本发明还提供了一种固定场景中的无监督人体关键点检测系统,系统包括:
人物彩色图像样本获取模块,用于获取相机阵列中不同拍摄视角的彩色相机同步拍摄的多个人物彩色图像样本;
卷积神经网络构建模块,用于构建卷积神经网络;卷积神经网络包括编码器和解码器;
样本热度图编码模块,用于采用卷积神经网络的编码器将每个人物彩色图像样本编码为样本热度图;
重建彩色图像获得模块,用于根据每个样本热度图,利用卷积神经网络的解码器,获得每个样本热度图对应的重建彩色图像;
训练好的卷积神经网络获得模块,用于选取重建彩色图像与人物彩色图像样本的重建效果和样本热度图的一致性作为损失函数,对卷积神经网络进行训练,获得训练好的卷积神经网络;
待检测人物彩色图像获取模块,用于获取相机阵列采集的不同拍摄视角的待检测人物彩色图像;
待检测人物热度图获得模块,用于将不同拍摄视角的待检测人物彩色图像输入训练好的卷积神经网络的编码器,获得不同拍摄视角的待检测人物热度图;
人体关键点的三维坐标提取模块,用于从不同拍摄视角的待检测人物热度图中提取待检测人物的人体关键点的三维坐标。
卷积神经网络的编码器包括预处理模块、多尺度特征提取模块和归一化模块;
预处理模块由多级CONV-BN-RELU神经网络以线性顺序组成;其中,CONV表示卷积层,BN表示批量归一化层,RELU表示线性整流激活函数;
多尺度特征提取模块包含多级CONV-BN-RELU-MAXPOOL组成的尺度缩小模块和多级CONV-BN-RELU-UPSAMPLE组成的尺度放大模块;其中,MAXPOOL表示最大池化层,UPSAMPLE表示上采样;
卷积神经网络的解码器包括由多级CONV-BN-RELU组成的神经网络以及一个和原始图像尺寸相同、权重可变的张量。
重建彩色图像获得模块,具体包括:
人体关键点二维坐标获得子模块,用于利用soft-argmax获得样本热度图中包含的多个人体关键点二维坐标;
裁剪子图获得子模块,用于以样本热度图中包含的每个人体关键点二维坐标为中心,对样本热度图对应的人物彩色图像样本进行可微分裁剪操作,获得人物彩色图像样本的裁剪子图;
重建彩色图像获得子模块,用于将人物彩色图像样本的裁剪子图输入卷积神经网络的解码器,获得样本热度图对应的重建彩色图像。
人体关键点二维坐标获得子模块,具体包括:
人体关键点二维坐标获得单元,用于将样本热度图输入soft-argmax,利用公式
Figure BDA0003041072320000151
获得样本热度图中包含的每个人体关键点二维坐标;
其中,(Xc,Yc)为样本热度图中第c个人体关键点的二维坐标,pic,j为第c个人体关键点在样本热度图中像素(i,j)的概率,H为样本热度图的高,W为样本热度图的宽。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种固定场景中的无监督人体关键点检测方法,其特征在于,所述方法包括:
获取相机阵列中不同拍摄视角的彩色相机同步拍摄的多个人物彩色图像样本;
构建卷积神经网络;所述卷积神经网络包括编码器和解码器;
采用卷积神经网络的编码器将每个人物彩色图像样本编码为样本热度图;
根据每个样本热度图,利用卷积神经网络的解码器,获得每个样本热度图对应的重建彩色图像;
选取重建彩色图像与人物彩色图像样本的重建效果和样本热度图的一致性作为损失函数,对所述卷积神经网络进行训练,获得训练好的卷积神经网络;
获取相机阵列采集的不同拍摄视角的待检测人物彩色图像;
将所述不同拍摄视角的待检测人物彩色图像输入训练好的卷积神经网络的编码器,获得不同拍摄视角的待检测人物热度图;
从不同拍摄视角的待检测人物热度图中提取待检测人物的人体关键点的三维坐标。
2.根据权利要求1所述的固定场景中的无监督人体关键点检测方法,其特征在于,所述卷积神经网络的编码器包括预处理模块、多尺度特征提取模块和归一化模块;
预处理模块由多级CONV-BN-RELU神经网络以线性顺序组成;其中,CONV表示卷积层,BN表示批量归一化层,RELU表示线性整流激活函数;
多尺度特征提取模块包含多级CONV-BN-RELU-MAXPOOL组成的尺度缩小模块和多级CONV-BN-RELU-UPSAMPLE组成的尺度放大模块;其中,MAXPOOL表示最大池化层,UPSAMPLE表示上采样;
所述卷积神经网络的解码器包括由多级CONV-BN-RELU组成的神经网络以及一个和原始图像尺寸相同、权重可变的张量。
3.根据权利要求1所述的固定场景中的无监督人体关键点检测方法,其特征在于,所述根据每个样本热度图,利用卷积神经网络的解码器,获得每个样本热度图对应的重建彩色图像,具体包括:
利用soft-argmax获得样本热度图中包含的多个人体关键点二维坐标;
以样本热度图中包含的每个人体关键点二维坐标为中心,对样本热度图对应的人物彩色图像样本进行可微分裁剪操作,获得人物彩色图像样本的裁剪子图;
将人物彩色图像样本的裁剪子图输入所述卷积神经网络的解码器,获得样本热度图对应的重建彩色图像。
4.根据权利要求3所述的固定场景中的无监督人体关键点检测方法,其特征在于,所述利用soft-argmax获得样本热度图中包含的多个人体关键点二维坐标,具体包括:
将所述样本热度图输入soft-argmax,利用公式
Figure FDA0003041072310000021
获得样本热度图中包含的每个人体关键点二维坐标;
其中,(Xc,Yc)为样本热度图中第c个人体关键点的二维坐标,
Figure FDA0003041072310000022
为第c个人体关键点在样本热度图中像素(i,j)的概率,H为样本热度图的高,W为样本热度图的宽。
5.根据权利要求3所述的固定场景中的无监督人体关键点检测方法,其特征在于,所述以样本热度图中包含的每个人体关键点二维坐标为中心,对样本热度图对应的人物彩色图像样本进行可微分裁剪操作,获得人物彩色图像样本的裁剪子图,具体包括:
以样本热度图中包含的每个人体关键点二维坐标为中心,利用公式
Figure FDA0003041072310000023
对样本热度图对应的人物彩色图像样本进行可微分裁剪操作,获得人物彩色图像样本的裁剪子图;
其中,yc,i,j为裁剪子图的第c个通道在像素(i,j)的像素值,一个通道对应一个人体关键点,xc,i,j为样本热度图第c个通道在像素(i,j)位置的像素值,(Xc,Yc)为样本热度图中第c个人体关键点的二维坐标,σ为高斯分布的标准差。
6.根据权利要求3所述的固定场景中的无监督人体关键点检测方法,其特征在于,所述选取重建彩色图像与人物彩色图像样本的重建效果和样本热度图的一致性作为损失函数,具体包括:
根据每个样本热度图中包含的多个人体关键点二维坐标,利用最小二乘法计算每个样本热度图中人体关键点的三维坐标;
将每个样本热度图中人体关键点的三维坐标投影到二维坐标系上,获得每个样本热度图中人体关键点的二维投影坐标;
根据重建彩色图像与人物彩色图像样本的差值,以及每个样本热度图中人体关键点的二维投影坐标与每个样本热度图中人体关键点二维坐标的差值,构建损失函数为
Figure FDA0003041072310000031
其中,y为损失函数的值,xn,c,h,w为重建彩色图像,gn,c,h,w为人物彩色图像样本,x2d为人体关键点二维坐标,xproj为人体关键点的二维投影坐标,n为批量维度,c为通道维度,h为高维度,w为宽维度,N为批量数,C为通道数,H′为总高维度,W′为总宽维度,v为视角的索引,g为关键点的索引,V为视角的数量,G为关键点的数量。
7.一种固定场景中的无监督人体关键点检测系统,其特征在于,所述系统包括:
人物彩色图像样本获取模块,用于获取相机阵列中不同拍摄视角的彩色相机同步拍摄的多个人物彩色图像样本;
卷积神经网络构建模块,用于构建卷积神经网络;所述卷积神经网络包括编码器和解码器;
样本热度图编码模块,用于采用卷积神经网络的编码器将每个人物彩色图像样本编码为样本热度图;
重建彩色图像获得模块,用于根据每个样本热度图,利用卷积神经网络的解码器,获得每个样本热度图对应的重建彩色图像;
训练好的卷积神经网络获得模块,用于选取重建彩色图像与人物彩色图像样本的重建效果和样本热度图的一致性作为损失函数,对所述卷积神经网络进行训练,获得训练好的卷积神经网络;
待检测人物彩色图像获取模块,用于获取相机阵列采集的不同拍摄视角的待检测人物彩色图像;
待检测人物热度图获得模块,用于将所述不同拍摄视角的待检测人物彩色图像输入训练好的卷积神经网络的编码器,获得不同拍摄视角的待检测人物热度图;
人体关键点的三维坐标提取模块,用于从不同拍摄视角的待检测人物热度图中提取待检测人物的人体关键点的三维坐标。
8.根据权利要求7所述的固定场景中的无监督人体关键点检测系统,其特征在于,所述卷积神经网络的编码器包括预处理模块、多尺度特征提取模块和归一化模块;
预处理模块由多级CONV-BN-RELU神经网络以线性顺序组成;其中,CONV表示卷积层,BN表示批量归一化层,RELU表示线性整流激活函数;
多尺度特征提取模块包含多级CONV-BN-RELU-MAXPOOL组成的尺度缩小模块和多级CONV-BN-RELU-UPSAMPLE组成的尺度放大模块;其中,MAXPOOL表示最大池化层,UPSAMPLE表示上采样;
所述卷积神经网络的解码器包括由多级CONV-BN-RELU组成的神经网络以及一个和原始图像尺寸相同、权重可变的张量。
9.根据权利要求7所述的固定场景中的无监督人体关键点检测系统,其特征在于,所述重建彩色图像获得模块,具体包括:
人体关键点二维坐标获得子模块,用于利用soft-argmax获得样本热度图中包含的多个人体关键点二维坐标;
裁剪子图获得子模块,用于以样本热度图中包含的每个人体关键点二维坐标为中心,对样本热度图对应的人物彩色图像样本进行可微分裁剪操作,获得人物彩色图像样本的裁剪子图;
重建彩色图像获得子模块,用于将人物彩色图像样本的裁剪子图输入所述卷积神经网络的解码器,获得样本热度图对应的重建彩色图像。
10.根据权利要求9所述的固定场景中的无监督人体关键点检测系统,其特征在于,所述人体关键点二维坐标获得子模块,具体包括:
人体关键点二维坐标获得单元,用于将所述样本热度图输入soft-argmax,利用公式
Figure FDA0003041072310000051
获得样本热度图中包含的每个人体关键点二维坐标;
其中,(Xc,Yc)为样本热度图中第c个人体关键点的二维坐标,
Figure FDA0003041072310000052
为第c个人体关键点在样本热度图中像素(i,j)的概率,H为样本热度图的高,W为样本热度图的宽。
CN202110457655.1A 2021-04-27 2021-04-27 一种固定场景中的无监督人体关键点检测方法及系统 Active CN112906675B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110457655.1A CN112906675B (zh) 2021-04-27 2021-04-27 一种固定场景中的无监督人体关键点检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110457655.1A CN112906675B (zh) 2021-04-27 2021-04-27 一种固定场景中的无监督人体关键点检测方法及系统

Publications (2)

Publication Number Publication Date
CN112906675A true CN112906675A (zh) 2021-06-04
CN112906675B CN112906675B (zh) 2024-03-22

Family

ID=76108978

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110457655.1A Active CN112906675B (zh) 2021-04-27 2021-04-27 一种固定场景中的无监督人体关键点检测方法及系统

Country Status (1)

Country Link
CN (1) CN112906675B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114757822A (zh) * 2022-06-14 2022-07-15 之江实验室 一种基于双目的人体三维关键点检测方法及系统
CN116631010A (zh) * 2023-07-17 2023-08-22 粤港澳大湾区数字经济研究院(福田) 一种交互式关键点检测方法及相关装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102019106123A1 (de) * 2018-03-12 2019-09-12 Nvidia Corporation Dreidimensionale (3D) Posenschätzung von Seiten einer monokularen Kamera
CN111913435A (zh) * 2020-07-30 2020-11-10 浙江科技学院 一种基于堆积沙漏网络的单/多目标关键点定位方法
CN111985556A (zh) * 2020-08-19 2020-11-24 南京地平线机器人技术有限公司 关键点识别模型的生成方法和关键点识别方法
CN112084987A (zh) * 2020-09-16 2020-12-15 杨晓敏 一种基于人工智能的地铁逃票行为的检测方法与系统
CN112560757A (zh) * 2020-12-24 2021-03-26 中国科学院大学 端到端多视角三维人体姿态估计方法、系统及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102019106123A1 (de) * 2018-03-12 2019-09-12 Nvidia Corporation Dreidimensionale (3D) Posenschätzung von Seiten einer monokularen Kamera
CN111913435A (zh) * 2020-07-30 2020-11-10 浙江科技学院 一种基于堆积沙漏网络的单/多目标关键点定位方法
CN111985556A (zh) * 2020-08-19 2020-11-24 南京地平线机器人技术有限公司 关键点识别模型的生成方法和关键点识别方法
CN112084987A (zh) * 2020-09-16 2020-12-15 杨晓敏 一种基于人工智能的地铁逃票行为的检测方法与系统
CN112560757A (zh) * 2020-12-24 2021-03-26 中国科学院大学 端到端多视角三维人体姿态估计方法、系统及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KAZUYUKI 等: "evaluation of machine learning techniques for hand pose estimation on handheld device with proximity sensor", PROCEEDINGS OF THE 2020 CHI CONFERENCE OF HUMAN FACTORS IN COMPUTING SYSTEMS, 23 April 2020 (2020-04-23), pages 1 - 13, XP059213939, DOI: 10.1145/3313831.3376712 *
崔家浩等: "基于深度学习的三维人体姿态估计技术", 人工智能, no. 1, 10 February 2021 (2021-02-10), pages 60 - 73 *
林怡雪;高尚;王光彩;刘晓欣;范迪;: "基于改进CPN的人体关键点定位算法研究", 现代计算机, no. 12, 25 April 2020 (2020-04-25), pages 86 - 92 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114757822A (zh) * 2022-06-14 2022-07-15 之江实验室 一种基于双目的人体三维关键点检测方法及系统
CN116631010A (zh) * 2023-07-17 2023-08-22 粤港澳大湾区数字经济研究院(福田) 一种交互式关键点检测方法及相关装置
CN116631010B (zh) * 2023-07-17 2023-10-31 粤港澳大湾区数字经济研究院(福田) 一种交互式关键点检测方法及相关装置

Also Published As

Publication number Publication date
CN112906675B (zh) 2024-03-22

Similar Documents

Publication Publication Date Title
CN110969124B (zh) 基于轻量级多分支网络的二维人体姿态估计方法及系统
CN111598998B (zh) 三维虚拟模型重建方法、装置、计算机设备和存储介质
CN107204010A (zh) 一种单目图像深度估计方法与系统
CN110569768B (zh) 人脸模型的构建方法、人脸识别方法、装置及设备
CN111105432B (zh) 基于深度学习的无监督端到端的驾驶环境感知方法
CN110381268B (zh) 生成视频的方法,装置,存储介质及电子设备
CN112232134B (zh) 一种基于沙漏网络结合注意力机制的人体姿态估计方法
CN113762358B (zh) 一种基于相对深度训练的半监督学习三维重建方法
CN112906675B (zh) 一种固定场景中的无监督人体关键点检测方法及系统
CN112258625B (zh) 基于注意力机制的单幅图像到三维点云模型重建方法及系统
CN110197505A (zh) 基于深度网络及语义信息的遥感图像双目立体匹配方法
CN111950477A (zh) 一种基于视频监督的单图像三维人脸重建方法
CN114359509A (zh) 一种基于深度学习的多视图自然场景重建方法
CN115359372A (zh) 一种基于光流网络的无人机视频运动目标检测方法
CN112163990B (zh) 360度图像的显著性预测方法及系统
CN112288776A (zh) 一种基于多时间步金字塔编解码器的目标跟踪方法
CN117095128A (zh) 一种无先验多视角人体服饰编辑方法
CN110889868A (zh) 一种结合梯度和纹理特征的单目图像深度估计方法
CN117094895B (zh) 图像全景拼接方法及其系统
CN117711066A (zh) 一种三维人体姿态估计方法、装置、设备及介质
CN111696167A (zh) 自范例学习引导的单张影像超分辨率重构方法
US20230273318A1 (en) System and method of capturing three-dimensional human motion capture with lidar
CN116091793A (zh) 一种基于光流融合的光场显著性检测方法
CN115937429A (zh) 一种基于单张图像的细粒度3d人脸重建方法
CN114663600A (zh) 一种基于自编码器的点云重建方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant