CN109087329B - 基于深度网络的人体三维关节点估计框架及其定位方法 - Google Patents

基于深度网络的人体三维关节点估计框架及其定位方法 Download PDF

Info

Publication number
CN109087329B
CN109087329B CN201810846886.XA CN201810846886A CN109087329B CN 109087329 B CN109087329 B CN 109087329B CN 201810846886 A CN201810846886 A CN 201810846886A CN 109087329 B CN109087329 B CN 109087329B
Authority
CN
China
Prior art keywords
dimensional
posture
prediction
network
projection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810846886.XA
Other languages
English (en)
Other versions
CN109087329A (zh
Inventor
林倞
杨猛
王可泽
王青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201810846886.XA priority Critical patent/CN109087329B/zh
Publication of CN109087329A publication Critical patent/CN109087329A/zh
Application granted granted Critical
Publication of CN109087329B publication Critical patent/CN109087329B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/207Analysis of motion for motion estimation over a hierarchy of resolutions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20088Trinocular vision calculations; trifocal tensor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Abstract

本发明公开了一种基于深度网络的人体三维关节点估计框架及其定位方法,该框架包括:二维姿势子网络,用于在二维姿势数据集上进行预训练,以提取二维姿势特征传入二维‑三维转换模块,并生成精确的二维预测姿势;二维‑三维转换模块,用于接收所述二维姿势子网络提取的二维姿势特征转换到三维姿势特征空间中,并生成时序一致的三维姿势粗估计;三维‑二维投影模块,用于将所述二维‑三维转换模块估计的中间级三维姿势粗估计投影回二维空间,生成二维投影姿势,并通过优化二维投影姿势和二维预测姿势之间的一致性,修正估计的三维姿势,最终输出具有时空一致性、二维三维几何一致性的精确三维姿势估计,本发明可提高人体三维关节点预测定位的精度。

Description

基于深度网络的人体三维关节点估计框架及其定位方法
技术领域
本发明涉及人体三维姿势估计、计算机视觉和人机交互领域,特别是涉及一种基于自监督修正机制提高人体三维关节点定位精度的基于深度网络的人体三维关节点估计框架及其定位方法。
背景技术
姿势估计是计算机视觉研究的一个重要领域,其主要任务是让计算机能够自动感知和理解人的行为,它的应用包括智能监控、病人监护和一些涉及人机交互的系统。人体三维关节点定位的目标是希望能够自动地从包含人的图像中推测人体在真实世界中的具体位置,并且可以通过这些信息重建人体的运动,为深层次的场景语义理解奠定基础。
然而三维数据集难以获得,且相比之下目前二维关节点预测的技术较为成熟,现有的三维关节点预测方法受阴影遮挡等因素影响严重,为了提高预测的准确率往往会将模型设计的极为复杂,不便于移植到其他设备或数据集上使用。
现在对单目彩色视频中人体三维关节点定位主要存在以下难点:
(1)人体外表变化大,相机视点不固定,外物或者自身遮挡导致的部分关节点的不可见性。
(2)从几何角度来说三维姿态本身含有二义性。
(3)为了保留人体的骨骼关节之间约束关系,设计极为复杂的模型,导致模型的可扩展性,泛化能力都不强。
现有的三维关节点定位方法多是依赖人工设计的复杂先验条件和人体骨骼结构约束,但是这种方法参数设置依赖传感器的内部参数,难以移植到其他摄像传感器上。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种基于深度网络的人体三维关节点估计框架及其定位方法,以提高人体三维关节点预测定位的精度。
为达上述及其它目的,本发明提出一种基于深度网络的人体三维关节点估计框架,包括:
二维姿势子网络,用于在二维姿势数据集上进行预训练,以提取二维姿势特征传入二维-三维转换模块,并生成精确的二维预测姿势;
二维-三维转换模块,用于接收所述二维姿势子网络提取的二维姿势特征转换到三维姿势特征空间中,并生成时序一致的三维姿势粗估计;
三维-二维投影模块,用于将所述二维-三维转换模块估计的中间级三维姿势粗估计投影回二维空间,生成二维投影姿势,并通过优化二维投影姿势和二维预测姿势之间的一致性,修正估计的三维姿势,最终输出具有时空一致性、二维三维几何一致性的精确三维姿势估计。
优选地,所述框架引入两个对偶学习任务,所述两个对偶学习任务分别是根据预测二维姿势的二维空间特征转换到三维空间预测三维姿势坐标,以及三维姿势坐标投影生成二维姿势坐标,最小化三维姿势投影生成的二维投影姿势和预测的二维姿势之间的误差,以在不需要更多三维姿势标注的基础上修正预测的三维姿势,并引入更多二维姿势标注数据提高三维姿势预测的准确率,最终通过自监督修正机制生成具有空间几何一致性的三维姿势估计。
优选地,所述三维-二维投影模块由全连接层、修正线性单元层、batch-normalization层堆叠而成:
所述全连接层中,输入的每一维元素都连向全连接层的所有节点,并进一步全连接到所有的输出单元,用来逼近预测关节点和真实关节点之间的变换和三维空间到二维空间的映射;
所述修正线性单元层采用简单的非线性阀值函数,对输入信号进行只允许非负信号通过的变化;
所述batch-normalization层对网络中每层神经元的输入,计算均值和方差后,进行归一化处理。
优选地,所述三维-二维投影模块分为回归部分ψC和映射部分ψP,回归部分输出经修正的三维关节点坐标
Figure BDA0001746803250000031
映射部分
Figure BDA0001746803250000032
输出三维关节点映射到二维空间的二维投影姿势的坐标。
优选地,于训练时,所述三维-二维投影模块回传二维投影姿势与真实标注的二维姿势之间的误差梯度;预测时,所述三维-二维投影模块固定映射部分ψP的参数,将训练时的真实标注的二维姿势替换成二维姿势子网络预测的二维预测姿势,根据二维投影姿势与二维预测姿势误差,自监督地更新回归部分ψC的参数,输出最终的三维姿势估计
Figure BDA0001746803250000033
为达到上述目的,本发明还提供一种基于深度网络的人体三维关节点估计框架的人体三维关节点定位方法,包括如下步骤:
步骤S1,构建基于深度网络的人体三维关节点估计框架,所述框架由二维姿势子网络、二维-三维转换模块和三维-二维投影模块级联构成;
步骤S2,通过反向传播算法,离线训练基于深度网络的人体三维关节点估计框架的模型参数;
步骤S3,输入待预测的图像序列,通过所述二维姿势子网络和二维-三维转换模块初始化二维预测姿势和三维姿势,并通过所述三维-二维投影模块最小化二维投影姿势与二维预测姿势的误差更新粗预测的三维姿势,最终输出经修正后包含几何一致性的人物三维关节点的定位结果。
优选地,步骤S1进一步包括:
步骤S100,构建二维姿势子网络,所述二维姿势子网络在大规模二维姿势数据集上进行预训练,以提取二维姿势特征传入二维-三维转换模块,并生成精确的二维预测姿势;
步骤S101,构建可配置的二维-三维转换模块,所述二维-三维转换模块以接收二维姿势子网络提取的二维姿势特征转换到三维姿势特征空间中,并生成时序一致的三维姿势粗估计;
步骤S102,构建三维-二维投影模块,所述三维-二维投影模块将二维-三维转换模块估计的中间级三维姿势投影回二维空间,生成二维投影姿势,并通过优化二维投影姿势和二维预测姿势之间的一致性,修正估计的三维姿势,最终输出具有时空一致性、二维三维几何一致性的精确三维姿势估计。
优选地,步骤S2进一步包括:
步骤S200,采用二维姿势数据集训练所述二维姿势子网络,使该二维姿势子网络提取有效的二维特征表达,并生成较准确的二维预测姿势;
步骤S201,固定二维姿势子网络参数,串行构建二维-三维转换模块,输入二维姿势子网络提取的二维特征图训练二维-三维转换模块参数,使其生成粗预测的三维姿势;
步骤S202,固定前两个模块,串行构建三维-二维投影模块,输入粗预测的三维姿势和真实标注的二维姿势,采用后向传播算法训练三维-二维投影模块;
步骤S203,输入混合的二维姿势和三维姿势数据,端到端的微调整个框架参数,利用二维姿势数据增加模型多样性,提高三维姿势预测的准确率。
优选地,于步骤S2中,在所述三维-二维投影模块训练过程中引入dropout机制,对作为输入的三维粗预测和真实标注的二维姿势以小概率随机置零后再输入该模块中,以降低回归部分和投影部分对预测的三维姿势和二维姿势中野点的敏感度。
优选地,步骤S3进一步包括:
步骤S300,采用离线学习训练好的模型初始化三维-二维投影模块,并生成待修正的三维姿势和二维预测姿势;
步骤S301,固定三维-二维投影模块映射部分ψP的权值,将输入的待修正的三维姿势重映射到二维空间,根据重二维投影姿势与真实标注的二维姿势之间的误差,自监督地更新回归部分ψC的权值;
步骤S302,输出最后一次迭代更新后三维-二维投影模块预测的三维关节点,即为经过修正的最终预测的人体三维关节点坐标。
与现有技术相比,本发明一种基于深度网络的人体三维关节点估计框架及其定位方法引入了一种简单有效的自监督修正机制,该自监督修正机制由二维姿势到三维姿势的转换,和三维姿势投影为二维姿势两个对偶任务引入,由二维姿势子网络,二维-三维转换模块和三维-二维投影模块级联实现,通过上述机制本发明强调人体姿势在三维空间和二维空间中的几何一致性,提高了人体三维关节点预测的精度,具有高移植性和稳定鲁棒性。
附图说明
图1为本发明一种基于深度网络的人体三维关节点估计框架的架构示意图;
图2为本发明具体实施例中三维-二维投影模块示意图;
图3为本发明一种基于深度网络的人体三维关节点估计框架的人体三维关节点定位方法的步骤流程图;
图4为本发明具体实施例之离线训练和在线学习的流程示意图;
图5为本发明实施例中人体二维关节点示意图;
图6A/B/C为本发明实施例中人体三维关节点的前视图/左视图/顶视图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
图1为本发明一种基于深度网络的人体三维关节点估计框架的架构示意图。如图1所示,本发明一种基于深度网络的人体三维关节点估计框架,包括:
二维姿势子网络101,所述二维姿势子网络在大规模二维姿势数据集上进行预训练,以提取二维姿势特征传入二维-三维转换模块,并生成精确的二维预测姿势。具体地,所述二维姿势子网络由卷积神经网络组成,当然也可替换成其他先进二维姿势估计网络,本发明不以此为限,所述二维姿势子网络将二维姿势数据集的单目图像序列逐帧编码为二维姿势估计的特征图,并生成有效的人体二维关节点预测;
二维-三维转换模块102,所述二维-三维转换模块以接收二维姿势子网络提取的二维姿势特征转换到三维姿势特征空间中,并生成时序一致的三维姿势粗估计。在本发明具体实施例中,所述二维-三维转换模块由全连接层和双向长短时记忆网络组成(当然也可替换其他有效的深度网络,本发明不以此为限),输入二维姿势子网络提取的二维特征,经过全连接层映射到三维姿势特征空间中,由双向长短时记忆网络输出时序一致的人体三维关节点的粗预测;
三维-二维投影模块103,所述三维-二维投影模块将二维-三维转换模块估计的中间级三维姿势投影回二维空间,生成二维投影姿势,并通过优化二维投影姿势和二维预测姿势之间的一致性,修正估计的三维姿势,最终输出具有时空一致性、二维三维几何一致性的精确三维姿势估计。在本发明具体实施例中,所述三维-二维投影模块由6层全连接层组成,分为回归部分ψC和映射部分ψP,通过映射部分ψP逼近三维空间与二维空间之间的几何映射关系,输入二维-三维转换模块粗预测的三维关节点
Figure BDA0001746803250000061
Figure BDA0001746803250000062
重映射到二维空间,根据重二维投影姿势与真实标注的二维姿势之间的误差,自监督地更新回归部分ψC的参数,输出具有几何一致性的人体三维关节点的精细预测,并采用跳层的思想保留全局信息。
图2为本发明具体实施例中三维-二维投影模块的细部结构图。如图2所示i,该三维-二维投影模块由多个全连接层、修正非线性单元、batch-normalization层串联组成,分为回归部分ψC和映射部分ψP,回归部分输出经修正的三维关节点坐标
Figure BDA0001746803250000071
映射部分
Figure BDA0001746803250000072
输出三维关节点映射到二维空间的二维投影姿势的坐标。训练时,回传二维投影姿势与真实标注的二维姿势之间的误差梯度,预测时,该模块固定映射部分ψP的参数,将训练时的真实标注的二维姿势替换成二维姿势子网络预测的二维预测姿势,根据二维投影姿势与二维预测姿势误差,自监督地更新回归部分ψC的参数,输出最终的三维姿势估计
Figure BDA0001746803250000073
具体地,三维到二维空间的映射具有显示的几何结构,希望通过单目彩色图片预测人体在相机坐标系中的具体位置,而单目图片缺少深度信息导致预测三维姿势不准,相反通过单目彩色图片预测二维姿势的准确比较高,其实当已知相机内参的情况下,可以根据理想相机模型,将三维空间和二维平面的点之间的关系可以看做是像素坐标系,图像坐标系和相机坐标系之间相互转换的关系,如下所示,假设X为三维空间的点,x是二维图像中的点,P为内参矩阵,三维空间和二维平面之间的转化关系为:
Figure BDA0001746803250000074
然而实际中采用相机模型还需要考虑各种畸变影响,并且很难得到相机的全部详细参数,并且这样的方式推广性低难适用于不同的数据,因此直接用网络来学习一个三维数据和二维数据直接的映射关系P,并且将初步预测的三维关节点转化到二维平面上,与直接预测的更准确的二维关节点求残差,以此修正三维关节点的位置。这样模型中即包含了二维空间和三维空间互相转化的特征,保证了几何一致性,又考虑了时序连续性。
全连接层:在模型的两处各中一层全连接层,第一个全连接层是为了将二维特征抽取模块提取的特征转换到三维特征空间上,第二个全连接层用来预测关节点的三维坐标。可以认为是在前面层输出的基础上建立的感知机模型(隐藏层和逻辑回归层)。全连接层中,输入的每一维元素都连向全连接层的所有节点,并进一步全连接到所有的输出单元,用来逼近预测关节点和真实关节点之间的变换和三维空间到二维空间的映射
修正非线性单元层(ReLU Nonlinearity Layer):该层是采用简单的非线性阈值函数,对输入进行只允许非负信号通过的变换。假设g表示本层的输出,W表示本层边上的权重,a表示本层输入,则有
g=max(0,WTa) (2)
实验证明在深层卷积神经网络中,使用校正线性单元可使网络的训练收敛速度比使用传统的激励函数更快。
batch-normalization层:对网络中每层神经元的输入,计算均值和方差后,进行归一化处理。
图3为本发明一种基于深度网络的人体三维关节点估计框架的人体三维关节点定位方法的步骤流程图。如图3所示,本发明一种基于深度网络的人体三维关节点估计框架的人体三维关节点定位方法,包括如下步骤:
步骤S1,构建基于深度网络的人体三维关节点估计框架。该框架由二维姿势子网络、二维-三维转换模块和三维-二维投影模块级联构成。所述框架的构建过程如下:
步骤S100,构建二维姿势子网络,所述二维姿势子网络在大规模二维姿势数据集上进行预训练,以提取二维姿势特征传入二维-三维转换模块,并生成精确的二维预测姿势。具体地,所述二维姿势子网络由卷积神经网络组成,当然也可替换成其他先进二维姿势估计网络,本发明不以此为限,所述二维姿势子网络将二维姿势数据集的单目图像序列逐帧编码为二维姿势估计的特征图,并生成有效的人体二维关节点预测;
步骤S101,构建可配置的二维-三维转换模块,所述二维-三维转换模块以接收二维姿势子网络提取的二维姿势特征转换到三维姿势特征空间中,并生成时序一致的三维姿势粗估计。在本发明具体实施例中,所述二维-三维转换模块由全连接层和双向长短时记忆网络组成(当然也可替换其他有效的深度网络,本发明不以此为限),输入二维姿势子网络提取的二维特征,经过全连接层映射到三维姿势特征空间中,由双向长短时记忆网络输出时序一致的人体三维关节点的粗预测。
步骤S102,构建三维-二维投影模块,所述三维-二维投影模块将二维-三维转换模块估计的中间级三维姿势投影回二维空间,生成二维投影姿势,并通过优化二维投影姿势和二维预测姿势之间的一致性,修正估计的三维姿势,最终输出具有时空一致性、二维三维几何一致性的精确三维姿势估计。在本发明具体实施例中,所述三维-二维投影模块由6层全连接层组成,分为回归部分ψC和映射部分ψP,通过映射部分ψP逼近三维空间与二维空间之间的几何映射关系,输入二维-三维转换模块粗预测的三维关节点
Figure BDA0001746803250000091
Figure BDA0001746803250000092
重映射到二维空间,根据重二维投影姿势与真实标注的二维姿势之间的误差,自监督地更新回归部分ψC的参数,输出具有几何一致性的人体三维关节点的精细预测,并采用跳层的思想保留全局信息。
步骤S2,通过反向传播算法,离线训练基于深度网络的人体三维关节点估计框架的模型参数,即对所构建的框架,序列输入训练图片,该训练图片包括相应的真实标注的三维关节点(非必需)和真实标注的二维关节点,用反向传播算法端到端训练整个人体三维关节点估计框架。
具体地,步骤S2进一步包括:
步骤S200,采用复杂多变的二维姿势数据集(训练图片的集合)训练二维姿势子网络,使该二维姿势子网络提取有效的二维特征表达(二维特征图
Figure BDA0001746803250000093
),并生成较准确的二维预测姿势
Figure BDA0001746803250000094
这里需先说明的是,本发明中二维预测姿势、三维预测姿势均用坐标形式表示,批量训练时输出的三维关节点为N×3K的矩阵,N表示图片的数量,K为人体关节点的数量,每一行表示该图片对应的K个关节点的三维坐标;
步骤S201,固定二维姿势子网络参数,串行构建二维-三维转换模块,输入二维姿势子网络提取的二维特征图
Figure BDA0001746803250000095
训练二维-三维转换模块参数,使其生成粗预测的三维姿势
Figure BDA0001746803250000101
步骤S202,固定前两个模块,串行构建三维-二维投影模块,输入粗预测的三维姿势和真实标注的二维姿势,采用后向传播算法训练三维-二维投影模块,即由回归部分ψC得到修正的三维关节点坐标
Figure BDA0001746803250000102
接着由投影部分ψP将三维关节点坐标投影为二维关节点坐标
Figure BDA0001746803250000103
步骤S203,输入混合的二维姿势和三维姿势数据,端到端的微调整个框架参数,利用二维姿势数据增加模型多样性,提高三维姿势预测的准确率。
在本发明具体实施例中,三维-二维投影模块的后向传播算法需要先求出,待修正的三维姿势经过投影部分ψP正向传播生成的二维投影姿势与真实标注的二维姿势之间的误差,和修正后的三维姿势与真实标注的三维姿势之间的误差构成的损失函数J(ω),然后求得其对于参数ω的梯度,采用Adam算法更新ω。
为了提高自监督修正机制的鲁棒性,本发明还在三维-二维投影模块训练过程中引入dropout机制,对作为输入的三维粗预测
Figure BDA0001746803250000104
和真实标注的二维姿势
Figure BDA0001746803250000105
以小概率随机置零后再输入该模块中,这样可以降低回归部分ψC和投影部分ψP对预测的三维姿势
Figure BDA0001746803250000106
和二维姿势
Figure BDA0001746803250000107
中野点的敏感度。
步骤S3,利用基于深度网络的人体三维关节点估计框架进行人体三维关节点定位,即输入待预测的图像序列,通过二维姿势子网络和二维-三维转换模块初始化二维预测姿势和三维姿势,并通过三维-二维投影模块最小化二维投影姿势与二维预测姿势的误差更新粗预测的三维姿势,最终输出经修正后包含几何一致性的人物三维关节点的定位结果。
具体地,步骤S3进一步包括:
步骤S300,采用离线学习训练好的模型初始化三维-二维投影模块,并生成待修正的三维姿势和二维预测姿势,即将二维姿势子网络和二维-三维转换模块生成的二维预测关节点坐标和粗预测的三维关节点坐标作为三维-二维投影模块的输入;
步骤S301,固定三维-二维投影模块映射部分ψP的权值,将输入的待修正的三维姿势重映射到二维空间,根据重二维投影姿势与真实标注的二维姿势之间的误差,自监督地更新回归部分ψC的权值,即将输入的三维关节点坐标映射为二维投影关节点,最小化二维投影关节点和二维预测关节点的欧式距离,启发式地迭代更新几次三维-二维投影模块回归部分ψC的权值;
步骤S302,输出最后一次迭代更新后三维-二维投影模块预测的三维关节点,即为经过修正的最终预测的人体三维关节点坐标。
在本发明具体实施例中,步骤S3的具体预测过程如下:
1)所有图片依次通过一个人物检测子,识别出人物的定位框;
2)根据人物定位框将人物图像抠出来,序列地输入到加载好参数的深度模型中,前向传播得到二维预测姿势和粗预测的三维姿势;
3)再固定除三维-二维投影模块中回归部分ψC的其余参数,根据启发式策略决定是否更新回归部分ψC的参数后,输出最终预测的人体三维关节点坐标;
于步骤S3中,还包括将预测的三维关节点放回原图坐标系的操作,具体为:
输入的图片通过网络预测的是一个归一化的值,构造一个N×(K×3)的二维矩阵,该矩阵的行代表对应图片的人体关节点坐标向量,计算该矩阵的每一列的最大值Xmax以及最小值Xmin,通过如下公式将预测的关节点坐标重新映射到原图像的世界坐标,再进行评估与可视化,其中Y是预测的归一化的结果,X是映射到原坐标系中的结果:
X=Y(Xmax-Xmin)+Xmin
图4为本发明具体实施例之离线训练和在线学习的流程示意图。如图4所示,本发明之基于自监督修正机制来提高人体三维关节点定位精度的方法,主要包括离线训练过程和在线学习的预测过程:
离线训练过程的步骤如下:
1)在二维姿势数据集(即采集的图像视频)上预训练二维姿势子网络,固定二维姿势子网络参数,串行构建二维-三维转换模块,训练二维-三维转换模块;
2)固定二维姿势子网络和二维-三维转换模块,串行构建三维-二维投影模块,输入粗预测的三维姿势和真实二维姿势标注,训练三维-二维投影模块。所述参数包括每层的权重和偏置;
3)输入混合的二维姿势和三维姿势数据,端到端的微调整个框架参数,利用二维姿势数据增加模型多样性,提高三维姿势预测的准确度。
自监督修正模型在线学习过程如下:
4)载入训练好的离线模型;
5)将二维姿势子网络和二维-三维转换模块生成的二维预测关节点坐标和粗预测的三维关节点坐标作为三维-二维投影模块的输入;
6)固定三维-二维投影模块映射部分ψP的权值,将输入的三维关节点坐标映射为二维投影关节点,最小化二维投影关节点和二维预测关节点的欧式距离,启发式地更新几次三维-二维投影模块回归部分ψC的权值;
8)输出最后一次更新后三维-二维投影模块预测的三维关节点,即为经过修正的最终预测的人体三维关节点坐标。
以下将通过实施例来说明本发明之模型训练及关节点的修正与评估:
一、模型的训练
首先分别利用真实标注的二维和三维姿势数据训练,分步训练二维姿势子网络ψR、二维-三维转换模块ψT,和三维-二维投影模块{ψC,ψP}。然后混合二维三维姿势数据端到端的微调整个框架,最后预测阶段根据反向传播算法,启发式地迭代更新几次三维-二维投影模块回归部分ψC的权值,并输出修正后的三维关节点。各阶段的训练方法都是采用Adam优化算法最小化残差更新参数,下面将详细介绍:
假设共有N个训练样本,It表示输入的第t张图片,通过二维姿势子网络ψR提取的二维特征图
Figure BDA0001746803250000121
和二维预测姿势
Figure BDA0001746803250000122
Figure BDA0001746803250000123
表示第t张图片中人物K个关节点的二维坐标(如图5);将二维特征图
Figure BDA0001746803250000131
输入二维-三维转换模块ψT,输出粗预测的三维姿势
Figure BDA0001746803250000132
Figure BDA0001746803250000133
表示第t张图片中K个关节点的三维坐标;将
Figure BDA0001746803250000134
输入三维-二维投影模块,由回归部分ψC得到修正的三维关节点坐标
Figure BDA0001746803250000135
接着由投影部分ψP将三维关节点坐标投影为二维关节点坐标
Figure BDA0001746803250000136
过程表示如下:
Figure BDA0001746803250000137
Figure BDA0001746803250000138
Figure BDA0001746803250000139
Figure BDA00017468032500001310
离线训练阶段,利用前向传播和反向传播算法,最小化三维-二维投影模块(ψC,ψP)的损失函数J(ω):
Figure BDA00017468032500001311
其中ω={ωC,ωP},更新模型的参数ω时,求解J(ω)对于参数ω的梯度
Figure BDA00017468032500001312
并采用Adam优化算法更新ω以最小化残差。
在线训练阶段,载入已训练好的离线模型ω,固定映射部分ψP的网络参数ωP,利用前向传播和反向传播算法微调回归部分ψC的参数ωC,每输入一个新的待修正三维关节点
Figure BDA00017468032500001313
重新初始化三维-二维投影模块为训练好的离线模型ω。在线训练时的损失函数J(ω):
Figure BDA00017468032500001314
二、关节点的修正与评估
设给定的数据集为{Yt,Lt},t=1,…,N,其中N为数据集样本总数,Lt表示第t张图像对应的人体关节点集,Lt={lk},k=1,…,3K,K表示关节点的数目,每个关节点是一个包含xyz坐标的三维数据点,模型设置K为17,详见图6A/B/C。
每一帧图片被依次输入到二维姿势子网络ψR、二维-三维转换模块ψT,和三维-二维投影模块{ψC,ψP}去预测三维关节点。输入第t帧图片通过二维姿势子网络ψR,二维-三维转换模块ψT,预测二维关节点坐标
Figure BDA0001746803250000141
和粗预测的三维关节点坐标
Figure BDA0001746803250000142
然后将预测的二维关节点坐标
Figure BDA0001746803250000143
和三维关节点坐标
Figure BDA0001746803250000144
输入载入参数的三维-二维投影模块{ψC,ψP},获得最终的三位关节点预测值
Figure BDA0001746803250000145
将整个的预测过程总结为如下算法1。
Figure BDA0001746803250000146
最终预测的
Figure BDA0001746803250000147
为N张图像对应的17个关节点的归一化后的三维坐标。通过式(1)(2)将该坐标变换回原始图像坐标上,即可得到连续N帧的17个关节点的原始坐标。评价标准如下:
Figure BDA0001746803250000151
其中,xpred是网络预测的关节点坐标,xgt是真实坐标。
综上所述,本发明一种基于深度网络的人体三维关节点估计框架及其定位方法引入了一种简单有效的自监督修正机制,该自监督修正机制由二维姿势到三维姿势的转换,和三维姿势投影为二维姿势两个对偶任务引入,由二维姿势子网络,二维-三维转换模块和三维-二维投影模块级联实现,通过上述机制本发明强调人体姿势在三维空间和二维空间中的几何一致性,提高了人体三维关节点预测的精度,具有高移植性和稳定鲁棒性。
与现有技术相比,本发明具有如下有益效果:
第一,本发明考虑了三维空间和二维空间的几何一致性,编码三维空间到二维空间的几何特征到网络中,提高三维关节点估计的准确性,预测结果的视觉合理性更高,对消除关节点间的遮挡和重合的影响有较好的效果。
第二,本发明提出了一个扩展性高的自监督修正模型,离线和在线学习占用的时间和内存都较小,集成性较高能用任意二维三维关节点预测方法替换二维姿势子网络和二维-三维转换模块。
第三,本发明为当前已有真实的二维关节点坐标数据提供了一个三维关节点坐标的校正方法,可为仅有二维关节点的数据提供一个三维预测的基准。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。

Claims (6)

1.一种基于深度网络的人体三维关节点估计框架,包括:
二维姿势子网络,用于在二维姿势数据集上进行预训练,以提取二维姿势特征传入二维-三维转换模块,并生成精确的二维预测姿势;
二维-三维转换模块,用于接收所述二维姿势子网络提取的二维姿势特征转换到三维姿势特征空间中,并生成时序一致的三维姿势粗估计;
三维-二维投影模块,用于将所述二维-三维转换模块估计的中间级三维姿势粗估计投影回二维空间,生成二维投影姿势,并通过优化二维投影姿势和二维预测姿势之间的一致性,修正估计的三维姿势,最终输出具有时空一致性、二维三维几何一致性的精确三维姿势估计;
所述框架引入两个对偶学习任务,所述两个对偶学习任务分别是根据预测二维姿势的二维空间特征转换到三维空间预测三维姿势坐标,以及三维姿势坐标投影生成二维姿势坐标,最小化三维姿势投影生成的二维投影姿势和预测的二维姿势之间的误差,以在不需要更多三维姿势标注的基础上修正预测的三维姿势,并引入更多二维姿势标注数据提高三维姿势预测的准确率,最终通过自监督修正机制生成具有空间几何一致性的三维姿势估计。
2.如权利要求1所述的一种基于深度网络的人体三维关节点估计框架,其特征在于,所述三维-二维投影模块由全连接层、修正线性单元层、batch-normalization层堆叠而成:
所述全连接层中,输入的每一维元素都连向全连接层的所有节点,并进一步全连接到所有的输出单元,用来逼近预测关节点和真实关节点之间的变换和三维空间到二维空间的映射;
所述修正线性单元层采用简单的非线性阀值函数,对输入信号进行只允许非负信号通过的变化;
所述batch-normalization层对网络中每层神经元的输入,计算均值和方差后,进行归一化处理。
3.如权利要求2所述的一种基于深度网络的人体三维关节点估计框架,其特征在于:所述三维-二维投影模块分为回归部分ψC和映射部分ψP,回归部分输出经修正的三维关节点坐标
Figure FDA0003200613520000021
映射部分ψP输出三维关节点映射到二维空间的二维投影姿势的坐标。
4.如权利要求3所述的一种基于深度网络的人体三维关节点估计框架,其特征在于:于训练时,所述三维-二维投影模块回传二维投影姿势与真实标注的二维姿势之间的误差梯度;预测时,所述三维-二维投影模块固定映射部分ψP的参数,将训练时的真实标注的二维姿势替换成二维姿势子网络预测的二维预测姿势,根据二维投影姿势与二维预测姿势误差,自监督地更新回归部分ψC的参数,输出最终的三维关节点坐标
Figure FDA0003200613520000022
5.一种基于深度网络的人体三维关节点估计框架的人体三维关节点定位方法,包括如下步骤:
步骤S1,构建基于深度网络的人体三维关节点估计框架,所述框架由二维姿势子网络、二维-三维转换模块和三维-二维投影模块级联构成;
步骤S2,通过反向传播算法,离线训练基于深度网络的人体三维关节点估计框架的模型参数;
步骤S3,输入待预测的图像序列,通过所述二维姿势子网络和二维-三维转换模块初始化二维预测姿势和三维姿势,并通过所述三维-二维投影模块最小化二维投影姿势与二维预测姿势的误差更新粗预测的三维姿势,最终输出经修正后包含几何一致性的人物三维关节点的定位结果;
步骤S1进一步包括:
步骤S100,构建二维姿势子网络,所述二维姿势子网络在大规模二维姿势数据集上进行预训练,以提取二维姿势特征传入二维-三维转换模块,并生成精确的二维预测姿势;
步骤S101,构建可配置的二维-三维转换模块,所述二维-三维转换模块以接收二维姿势子网络提取的二维姿势特征转换到三维姿势特征空间中,并生成时序一致的三维姿势粗估计;
步骤S102,构建三维-二维投影模块,所述三维-二维投影模块将二维-三维转换模块估计的中间级三维姿势投影回二维空间,生成二维投影姿势,并通过优化二维投影姿势和二维预测姿势之间的一致性,修正估计的三维姿势,最终输出具有时空一致性、二维三维几何一致性的精确三维姿势估计;
步骤S2进一步包括:
步骤S200,采用二维姿势数据集训练所述二维姿势子网络,使该二维姿势子网络提取有效的二维特征表达,并生成较准确的二维预测姿势;
步骤S201,固定二维姿势子网络参数,串行构建二维-三维转换模块,输入二维姿势子网络提取的二维特征图训练二维-三维转换模块参数,使其生成粗预测的三维姿势;
步骤S202,固定前两个模块,串行构建三维-二维投影模块,输入粗预测的三维姿势和真实标注的二维姿势,采用后向传播算法训练三维-二维投影模块;
步骤S203,输入混合的二维姿势和三维姿势数据,端到端的微调整个框架参数,利用二维姿势数据增加模型多样性,提高三维姿势预测的准确率;
于步骤S2中,在所述三维-二维投影模块训练过程中引入dropout机制,对作为输入的三维粗预测和真实标注的二维姿势以小概率随机置零后再输入该模块中,以降低回归部分和投影部分对预测的三维姿势和二维姿势中野点的敏感度。
6.如权利要求5所述的一种基于深度网络的人体三维关节点估计框架的人体三维关节点定位方法,其特征在于,步骤S3进一步包括:
步骤S300,采用离线学习训练好的模型初始化三维-二维投影模块,并生成待修正的三维姿势和二维预测姿势;
步骤S301,固定三维-二维投影模块映射部分ψP的权值,将输入的待修正的三维姿势重映射到二维空间,根据重二维投影姿势与真实标注的二维姿势之间的误差,自监督地更新回归部分ψC的权值;
步骤S302,输出最后一次迭代更新后三维-二维投影模块预测的三维关节点,即为经过修正的最终预测的人体三维关节点坐标。
CN201810846886.XA 2018-07-27 2018-07-27 基于深度网络的人体三维关节点估计框架及其定位方法 Active CN109087329B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810846886.XA CN109087329B (zh) 2018-07-27 2018-07-27 基于深度网络的人体三维关节点估计框架及其定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810846886.XA CN109087329B (zh) 2018-07-27 2018-07-27 基于深度网络的人体三维关节点估计框架及其定位方法

Publications (2)

Publication Number Publication Date
CN109087329A CN109087329A (zh) 2018-12-25
CN109087329B true CN109087329B (zh) 2021-10-15

Family

ID=64833310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810846886.XA Active CN109087329B (zh) 2018-07-27 2018-07-27 基于深度网络的人体三维关节点估计框架及其定位方法

Country Status (1)

Country Link
CN (1) CN109087329B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109758756B (zh) * 2019-02-28 2021-03-23 国家体育总局体育科学研究所 基于3d相机的体操视频分析方法及系统
CN109949368B (zh) * 2019-03-14 2020-11-06 郑州大学 一种基于图像检索的人体三维姿态估计方法
CN110287764B (zh) 2019-05-06 2022-01-11 深圳大学 姿势预测方法、装置、计算机设备和存储介质
CN110276768B (zh) * 2019-06-28 2022-04-05 京东方科技集团股份有限公司 图像分割方法、图像分割装置、图像分割设备及介质
CN110910449B (zh) * 2019-12-03 2023-10-13 清华大学 识别物体三维位置的方法和系统
CN111325340B (zh) * 2020-02-17 2023-06-02 南方科技大学 信息网络关系预测方法及系统
CN113449565A (zh) * 2020-03-27 2021-09-28 海信集团有限公司 三维姿态估计方法、智能设备及存储介质
CN111598995B (zh) * 2020-04-23 2023-04-28 浙江工商大学 一种基于原型分析的自监督多目三维人体姿态估计方法
WO2022115991A1 (en) * 2020-12-01 2022-06-09 Intel Corporation Incremental 2d-to-3d pose lifting for fast and accurate human pose estimation
CN114036969B (zh) * 2021-03-16 2023-07-25 上海大学 一种多视角情况下的3d人体动作识别算法
CN113505667B (zh) * 2021-06-29 2023-11-17 浙江华是科技股份有限公司 一种变电站监控方法、装置、系统及计算机存储介质
WO2023102873A1 (en) * 2021-12-10 2023-06-15 Intel Corporation Enhanced techniques for real-time multi-person three-dimensional pose tracking using a single camera
CN114581613B (zh) * 2022-04-29 2022-08-19 杭州倚澜科技有限公司 一种基于轨迹约束的人体模型姿态和形状优化方法和系统
CN116934972A (zh) * 2023-07-26 2023-10-24 石家庄铁道大学 一种基于双流网络的三维人体重建方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105787439A (zh) * 2016-02-04 2016-07-20 广州新节奏智能科技有限公司 一种基于卷积神经网络的深度图像人体关节定位方法
CN106874894A (zh) * 2017-03-28 2017-06-20 电子科技大学 一种基于区域全卷积神经网络的人体目标检测方法
CN107886089A (zh) * 2017-12-11 2018-04-06 深圳市唯特视科技有限公司 一种基于骨架图回归的三维人体姿态估计的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105787439A (zh) * 2016-02-04 2016-07-20 广州新节奏智能科技有限公司 一种基于卷积神经网络的深度图像人体关节定位方法
CN106874894A (zh) * 2017-03-28 2017-06-20 电子科技大学 一种基于区域全卷积神经网络的人体目标检测方法
CN107886089A (zh) * 2017-12-11 2018-04-06 深圳市唯特视科技有限公司 一种基于骨架图回归的三维人体姿态估计的方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Human Pose Estimation with Iterative Error Feedback;Joao Carreira et al;《2016 IEEE Conference on Computer Vision and Pattern Recognition》;20161212;4733-4742 *
Lifting from the Deep: Convolutional 3D Pose Estimation from a Single Image;Denis Tome et al;《2017 IEEE Conference on Computer Vision and Pattern Recognition》;20171109;5689-5698 *
Recurrent 3D Pose Sequence Machines;Mude Lin et al;《2017 IEEE Conference on Computer Vision and Pattern Recognition》;20171109;1-10 *
结合深度自编码和时空特征约束的运动风格转移方法;胡东 等;《计算机辅助设计与图形学学报》;20180515;第30卷(第5期);946-956 *

Also Published As

Publication number Publication date
CN109087329A (zh) 2018-12-25

Similar Documents

Publication Publication Date Title
CN109087329B (zh) 基于深度网络的人体三维关节点估计框架及其定位方法
Li et al. Building and optimization of 3D semantic map based on Lidar and camera fusion
CN108242079B (zh) 一种基于多特征视觉里程计和图优化模型的vslam方法
JP2023500969A (ja) ターゲット追跡方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラムプロダクト
CN110945565A (zh) 利用概率面元地图的密集视觉slam
CN113674416B (zh) 三维地图的构建方法、装置、电子设备及存储介质
Shi et al. Calibrcnn: Calibrating camera and lidar by recurrent convolutional neural network and geometric constraints
CN112950645B (zh) 一种基于多任务深度学习的图像语义分割方法
CN113313763B (zh) 一种基于神经网络的单目相机位姿优化方法及装置
CN110781262A (zh) 基于视觉slam的语义地图的构建方法
WO2023165093A1 (zh) 视觉惯性里程计模型的训练方法、位姿估计方法、装置、电子设备、计算机可读存储介质及程序产品
US11688177B2 (en) Obstacle detection method and device, apparatus, and storage medium
CN114719848B (zh) 基于视觉与惯性导航信息融合神经网络的无人机高度估算方法
Shan et al. Toward a unified theoretical framework for photogrammetry
CN111474932B (zh) 一种集成情景经验的移动机器人建图与导航方法
CN116007609A (zh) 一种多光谱图像和惯导融合的定位方法和计算系统
CN115205336A (zh) 一种基于多层感知机的特征融合目标感知跟踪方法
CN112750155B (zh) 基于卷积神经网络的全景深度估计方法
Wofk et al. Monocular visual-inertial depth estimation
CN113963240A (zh) 多源遥感图像融合目标综合检测方法
CN111598927A (zh) 一种定位重建方法和装置
Shi et al. FusionMotion: Multi-sensor asynchronous fusion for continuous occupancy prediction via neural-ODE
CN115187633A (zh) 一种六自由度视觉反馈实时运动跟踪方法
Fang et al. Hand pose estimation on hybrid CNN-AE model
Qiao et al. Objects matter: learning object relation graph for robust camera relocalization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant