CN109840500B - 一种三维人体姿态信息检测方法及装置 - Google Patents

一种三维人体姿态信息检测方法及装置 Download PDF

Info

Publication number
CN109840500B
CN109840500B CN201910098332.0A CN201910098332A CN109840500B CN 109840500 B CN109840500 B CN 109840500B CN 201910098332 A CN201910098332 A CN 201910098332A CN 109840500 B CN109840500 B CN 109840500B
Authority
CN
China
Prior art keywords
dimensional
key point
information
point information
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910098332.0A
Other languages
English (en)
Other versions
CN109840500A (zh
Inventor
王鲁阳
陈岩
任思捷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sensetime Technology Co Ltd
Original Assignee
Shenzhen Sensetime Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Sensetime Technology Co Ltd filed Critical Shenzhen Sensetime Technology Co Ltd
Priority to CN201910098332.0A priority Critical patent/CN109840500B/zh
Publication of CN109840500A publication Critical patent/CN109840500A/zh
Priority to SG11202012782TA priority patent/SG11202012782TA/en
Priority to PCT/CN2020/071945 priority patent/WO2020156143A1/zh
Priority to JP2020569131A priority patent/JP2021527877A/ja
Priority to US17/122,222 priority patent/US20210097717A1/en
Application granted granted Critical
Publication of CN109840500B publication Critical patent/CN109840500B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/97Determining parameters from multiple pictures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/647Three-dimensional objects by matching two-dimensional images to three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Abstract

本发明实施例公开了一种三维人体姿态信息检测方法及装置。所述方法包括:获得第一关键点信息;所述第一关键点信息表征从第一视图图像中获得的对应于目标对象的肢体关键点的二维信息;基于所述第一关键点信息获得第二关键点信息;所述第二关键点信息表征第二视图图像中的所述目标对象的肢体关键点的二维信息;基于所述第一关键点信息和所述第二关键点信息获得目标三维关键点信息。

Description

一种三维人体姿态信息检测方法及装置
技术领域
本发明涉及人工智能领域,具体涉及一种三维人体姿态信息检测方法及装置。
背景技术
三维(3D)人体姿态检测是计算机视觉领域的基本问题。高精度的3D人体姿态检测在许多领域有着重要的应用价值。例如,运动场景动作的识别与分析、人机交互场景、电影场景人体动作捕捉等等。在卷积神经网络的发展驱动下,3D人体姿态检测的相关技术得到了快速发展。然而,基于单目的2D数据预测3D数据的方法,造成深度信息的不确定性,影响网络模型的精度。
发明内容
为解决现有存在的技术问题,本发明实施例提供一种三维人体姿态信息检测方法及装置。
为达到上述目的,本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种三维人体姿态信息检测方法,所述方法包括:
获得第一关键点信息;所述第一关键点信息表征从第一视图图像中获得的对应于目标对象的肢体关键点的二维信息;
基于所述第一关键点信息获得第二关键点信息;所述第二关键点信息表征第二视图图像中的所述目标对象的肢体关键点的二维信息;
基于所述第一关键点信息和所述第二关键点信息获得目标三维关键点信息。
上述方案中,所述基于所述第一关键点信息和所述第二关键点信息获得三维关键点信息,包括:
基于所述第一关键点信息和所述第二关键点信息,获得初始三维关键点信息;
对所述初始三维关键点信息进行调整,获得目标三维关键点信息。
上述方案中,所述对所述初始三维关键点信息进行调整,获得目标三维关键点信息,包括:
基于所述第一关键点信息以及预设相机标定参数确定三维投影区间;
在所述三维投影区间内获得与所述初始三维关键点信息之间的距离满足预设条件的三维关键点信息,将所述三维关键点信息作为目标三维关键点信息。
上述方案中,所述三维投影区间为与所述第一关键点信息之间具有投影关系的三维区间;所述三维投影区间内的每个三维关键点经所述预设相机标定参数向所述第一关键点信息所在平面投影后均与所述第一关键点信息对应的第一关键点重合。
上述方案中,所述在所述投影区间内获得与所述初始三维关键点信息之间的距离满足预设条件的三维关键点信息,包括:
按照预设步长获得所述三维投影区间内的多个三维关键点信息;
分别计算每个三维关键点信息与所述初始三维关键点信息之间的欧式距离,确定欧式距离最小的三维关键点信息为目标三维关键点信息。
上述方案中,所述基于所述第一关键点信息获得第二关键点信息,包括:
基于所述第一关键点信息和预先训练获得的第一网络模型获得第二关键点信息;
所述基于所述第一关键点信息和所述第二关键点信息,获得初始三维关键点信息,包括:
基于所述第一关键点信息、所述第二关键点信息和预先训练获得的第二网络模型,获得初始三维关键点信息。
上述方案中,所述第一网络模型和所述第二网络模型的训练过程包括:
根据获取的样本二维关键点信息和对应的样本三维关键点信息训练所述第一网络模型和所述第二网络模型。
上述方案中,所述第一网络模型和所述第二网络模型均为全连接网络结构模型。
上述方案中,所述第一网络模型和所述第二网络模型的网络结构相同。
本发明实施例还提供了一种三维人体姿态信息检测装置,所述装置包括:获取单元、二维信息处理单元和三维信息处理单元;其中,
所述获取单元,用于获得第一关键点信息;所述第一关键点信息表征从第一视图图像中获得的对应于目标对象的肢体关键点的二维信息;
所述二维信息处理单元,用于基于所述获取单元获得的所述第一关键点信息获得第二关键点信息;所述第二关键点信息表征第二视图图像中的所述目标对象的肢体关键点的二维信息;
所述三维信息处理单元,用于基于所述第一关键点信息和所述二维信息处理单元获得的所述第二关键点信息获得目标三维关键点信息。
上述方案中,所述三维信息处理单元包括第一处理模块和调整模块;其中,
所述第一处理模块,用于基于所述第一关键点信息和所述第二关键点信息,获得初始三维关键点信息;
所述调整模块,用于对所述第一处理模块获得的所述初始三维关键点信息进行调整,获得目标三维关键点信息。
上述方案中,所述调整模块,用于基于所述第一关键点信息以及预设相机标定参数确定三维投影区间;在所述三维投影区间内获得与所述初始三维关键点信息之间的距离满足预设条件的三维关键点信息,将所述三维关键点信息作为目标三维关键点信息。
上述方案中,所述三维投影区间为与所述第一关键点信息之间具有投影关系的三维区间;所述三维投影区间内的每个三维关键点经所述预设相机标定参数向所述第一关键点信息所在平面投影后均与所述第一关键点信息对应的第一关键点重合。
上述方案中,所述调整模块,用于按照预设步长获得所述三维投影区间内的多个三维关键点信息;分别计算每个三维关键点信息与所述初始三维关键点信息之间的欧式距离,确定欧式距离最小的三维关键点信息为目标三维关键点信息。
上述方案中,所述二维信息处理单元,用于基于所述第一关键点信息和预先训练获得的第一网络模型获得第二关键点信息;
所述第一处理模块,用于基于所述第一关键点信息、所述第二关键点信息和预先训练获得的第二网络模型,获得初始三维关键点信息。
上述方案中,所述装置还包括训练单元,用于根据获取的样本二维关键点信息和对应的样本三维关键点信息训练所述第一网络模型和所述第二网络模型。
上述方案中,所述第一网络模型和所述第二网络模型均为全连接网络结构模型。
上述方案中,所述第一网络模型和所述第二网络模型的网络结构相同。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明实施例所述方法的步骤。
本发明实施例还提供了一种三维人体姿态信息检测装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本发明实施例所述方法的步骤。
本发明实施例提供的三维人体姿态信息检测方法及装置,所述方法包括:获得第一关键点信息;所述第一关键点信息为从第一视图图像中获得的对应于目标对象的肢体关键点的二维信息;基于所述第一关键点信息和训练得到的第一网络模型获得第二关键点信息;所述第二关键点信息为第二视图图像中的所述目标对象的肢体关键点的二维信息;基于所述第一关键点信息和所述第二关键点信息获得目标三维关键点信息。采用本发明实施例的技术方案,通过一视图(或视角)的二维关键点信息获得另一视图(或视角)的二维关键点信息,通过视图(或视角)的二维关键点信息获得目标三维关键点信息,从而在一定程度上消除深度预测的不确定性,提升了三维关键点信息的准确性,也提高了网络模型的精度。
附图说明
图1为本发明实施例的三维人体姿态信息检测方法的一种流程示意图;
图2为本发明实施例的三维人体姿态信息检测方法的另一种流程示意图;
图3a和图3b为本发明实施例的三维人体姿态信息检测方法的数据处理流程示意图;
图4为本发明实施例的三维人体姿态信息检测方法中的调整模块的调整原理示意图;
图5为本发明实施例的三维人体姿态信息检测装置的一种组成结构示意图;
图6为本发明实施例的三维人体姿态信息检测装置的另一种组成结构示意图;
图7为本发明实施例的三维人体姿态信息检测装置的又一种组成结构示意图;
图8为本发明实施例的三维人体姿态信息检测装置的硬件组成结构示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步详细的说明。
本发明实施例提供了一种三维人体姿态信息检测方法。图1为本发明实施例的三维人体姿态信息检测方法的一种流程示意图;如图1所示,所述方法包括:
步骤101:获得第一关键点信息;所述第一关键点信息表征从第一视图图像中获得的对应于目标对象的肢体关键点的二维信息;
步骤102:基于所述第一关键点信息获得第二关键点信息;所述第二关键点信息表征第二视图图像中的所述目标对象的肢体关键点的二维信息;
步骤103:基于所述第一关键点信息和所述第二关键点信息获得目标三维关键点信息。
本实施例中,所述第一视图图像对应于图像采集设备与目标对象之间具有第一相对位置关系(或者称为第一视角)时获得的图像;相应的,第二视图图像对应于图像采集设备与目标对象之间具有第二相对位置关系(或者称为第二视角)时获得的图像。
作为一种实施方式,所述第一视图图像可以理解为左眼视图图像,所述第二视图图像可以理解为右眼视图图像;相反的,所述第一视图图像可以理解为右眼视图图像,所述第二视图图像可以理解为左眼视图图像。
作为另一种实施方式,所述第一视图图像和所述第二视图图像可以对应于双目摄像头中各个摄像头采集的图像,或者是对应于设置于目标对象周围的两个图像采集设备各自采集的图像。
本实施例中的关键点信息(包括第一关键点信息和第二关键点信息)包括目标对象的关键点的坐标信息。其中,所述目标对象的关键点为目标对象的骨骼关键点,例如关节点;当然,其他能够标定目标对象的肢体的关键点也可作为本实施例中的关键点。
作为一种实施方式,所述获得第一关键点信息,包括:通过游戏引擎获得第一关键点信息;所述游戏引擎为能够获得二维人体关键点的引擎,例如获得17个二维人体关键点。本实施方式中,游戏引擎能够模拟人体的各种姿态、从而获得各种姿态下的二维人体关键点。可以理解,所述游戏引擎支持构建真实世界中的绝大部分姿态、从而获得各个姿态对应的关键点信息。可以理解,通过该游戏引擎可获得海量的对应于各姿态的关键点信息,这些关键点信息构成的数据集可极大的增强通过该数据集训练的网络模型的泛化能力,能够使网络模型适应真实场景、真实动作。
作为另一种实施方式,所述获得第一关键点信息,包括:将第一视图图像输入关键点提取网络,获得所述第一视图图像中的目标对象的第一关键点信息。可以理解,本实施例还可构建包含真实世界中的绝大部分姿态的图像数据集,通过将图像数据集输入预先训练的关键点提取网络从而获得各个图像对应的关键点信息。
在本发明的一种可选实施例中,所述基于所述第一关键点信息获得第二关键点信息,包括:基于所述第一关键点信息和预先训练获得的第一网络模型获得第二关键点信息。
本实施例中,可以理解,通过将所述第一关键点信息输入所述第一网络模型,获得对应于第二视图图像的第二关键点信息。在本发明的一种可选实施例中,所述第一网络模型可以为全连接网络结构模型。
在本发明的一种可选实施例中,所述基于所述第一关键点信息和所述第二关键点信息获得目标三维关键点信息,包括:基于所述第一关键点信息、所述第二关键点信息和训练得到的第二网络模型获得目标三维关键点信息。
具体的,通过将第一关键点信息和第二关键点信息输入第二网络模型,获得对应的目标三维关键点信息。在本发明的一种可选实施例中,所述第二网络模型可以为全连接网络结构模型。
在本发明的一种可选实施例中,所述第一网络模型和所述第二网络模型的训练过程包括:根据获取的样本二维关键点信息和对应的样本三维关键点信息训练所述第一网络模型和所述第二网络模型。
本实施例中,作为一种实施方式,可通过游戏引擎获得多个样本二维关键点信息和样本三维关键点信息组成的2D-3D数据对;其中,所述游戏引擎为能够获得二维人体关键点和/或三维人体关键点的引擎。本实施方式中,游戏引擎能够模拟人体的各种姿态、从而获得各种姿态下的二维人体关键点和/或三维人体关键点。可以理解,所述游戏引擎支持构建真实世界中的绝大部分姿态、从而获得各个姿态对应的二维关键点信息和三维关键点信息,所构建的二维关键点信息和三维关键点信息可作为用于第一网络模型和第二网络模型的训练数据。本实施例的样本数据相比于现有的数量有限且大多基于实验室场景的样本数据,大大丰富了人物以及动作,且能够适应复杂的真实场景,大大增强了网络模型的泛化能力。
在本发明的一种可选实施例中,所述第一网络模型和第二网络模型具有相同的网络结构。其中,所述第一网络模型和第二网络模型的区别在于,所述第一网络模型用于输出对应于第二视图图像的二维关键点的坐标信息;所述第二网络模型用于输出三维关键点的坐标信息。
采用本发明实施例的技术方案,通过一视图(或视角)的二维关键点信息获得另一视图(或视角)的二维关键点信息,通过视图(或视角)的二维关键点信息获得目标三维关键点信息,从而在一定程度上消除深度预测的不确定性,提升了三维关键点信息的准确性,也提高了网络模型的精度。
本发明实施例还提供了一种三维人体姿态信息检测方法。图2为本发明实施例的三维人体姿态信息检测方法的另一种流程示意图;如图2所示,所述方法包括:
步骤201:获得第一关键点信息;所述第一关键点信息表征从第一视图图像中获得的对应于目标对象的肢体关键点的二维信息;
步骤202:基于所述第一关键点信息和预先训练得到的第一网络模型获得第二关键点信息;所述第二关键点信息表征第二视图图像中的所述目标对象的肢体关键点的二维信息;
步骤203:基于所述第一关键点信息、所述第二关键点信息和预先训练得到的第二网络模型获得初始三维关键点信息;
步骤204:对所述初始三维关键点信息进行调整,获得目标三维关键点信息。
本实施例中,步骤201至步骤202的具体实施方式可参照前述步骤101至步骤102的相关描述,为节省篇幅,这里不再赘述。
本实施例中,通过将第一关键点信息和第二关键点信息输入第二网络模型,获得对应的初始三维关键点信息;进一步地,将初始三维关键点信息输入调整模块,获得目标三维关键点信息。可以理解,本实施例中,从第二网络模型输出的三维关键点信息并非是最终的目标三维关键点信息,可以理解为初始三维关键点信息是粗略的三维关键点信息,进一步通过调整模块的调整获得高精度的目标三维关键点信息。
可以理解,本实施例的网络模型包括第一网络模型、第二网络模型和调整模块;即通过将第一关键点信息输入该网络模型,输出目标三维关键点信息。
图3a和图3b为本发明实施例的三维人体姿态信息检测方法的数据处理流程示意图;如图3a所示,以输入的第一关键点信息为左视图的二维关键点坐标为例,通过第一网络模型的处理获得右视图的二维关键点坐标;将左视图的二维关键点坐标和右视图的二维关键点坐标输入第二网络模型获得初始三维关键点坐标;将初始三维关键点坐标输入调整模块,获得目标三维关键点坐标。其中,所述左视图和右视图可以理解为左眼视图和右眼视图。
具体如图3b所示,第一网络模型和第二网络模型可以为具有相同网络结构的。以第一网络模型为例,第一网络模型中可包括输入层、隐藏层和输出层;每个层可通过函数实现,层与层之间通过级联的方式连接,例如第一网络模型可包括线性函数处理(Linear)层、批归一化(BN,Batch Normalization)层、激活函数单元(ReLU)层和丢弃(Dropout)层;其中,第一网络模型中可包括多个块(block)结构(如图中所示包括两个block结构,但本实施例中不限于是两个block结构),每个块结构包括至少一组Linear层、BN层、ReLU层和Dropout层(如图中所示每个block结构中包括两组Linear层、BN层、ReLU层和Dropout层,但本实施例中不限于是两组);其中,一个块结构的输入数据可以是上一个模块的输出数据,也可以是上一个模块的输出数据和上上一个模块的输出数据的加和,例如图中所示,经过第一个Dropout层输出的数据可作为第一个block结构的输入数据,也可与第一个block结构的输出数据共同作为第二个block结构的输入数据。
在本发明的一种可选实施例中,所述第一网络模型和所述第二网络模型的训练过程包括:根据获取的样本二维关键点信息和对应的样本三维关键点信息训练所述第一网络模型和所述第二网络模型。其中,所述第一网络模型和第二网络模型具有相同的网络结构。具体可如图3b所示。其中,所述第一网络模型和第二网络模型的区别在于,所述第一网络模型用于输出对应于第二视图图像的二维关键点的坐标信息;所述第二网络模型用于输出三维关键点的坐标信息。
本实施例中,作为一种实施方式,可通过游戏引擎获得多个样本二维关键点信息和样本三维关键点信息组成的2D-3D数据对;其中,所述游戏引擎为能够获得二维人体关键点和/或三维人体关键点的引擎。本实施方式中,游戏引擎能够模拟人体的各种姿态、从而获得各种姿态下的二维人体关键点和/或三维人体关键点。可以理解,所述游戏引擎支持构建真实世界中的绝大部分姿态、从而获得各个姿态对应的二维关键点信息和三维关键点信息,所构建的二维关键点信息和三维关键点信息可作为用于第一网络模型和第二网络模型的训练数据。可以理解,将样本二维关键点信息和样本三维关键点信息作为输入数据输入至全连接网络模型(包括第一网络模型和第二网络模型)中进行训练,获得第一网络模型和第二网络模型。这样,获得的样本数据可以包括真实世界中的绝大部分姿态,能够使网络模型适应真实场景、真实动作,极大的增强通过该数据集训练的网络模型的泛化能力,并且还可以区域图片背景造成的干扰。
在本发明的一种可选实施例中,所述对所述初始三维关键点信息进行调整,获得目标三维关键点信息,包括:基于所述第一关键点信息以及预设相机标定参数确定三维投影区间;在所述三维投影区间内获得与所述初始三维关键点信息之间的距离满足预设条件的三维关键点信息,将所述三维关键点信息作为目标三维关键点信息。其中,所述三维投影区间为与所述第一关键点信息之间具有投影关系的三维区间;所述三维投影区间内的每个三维关键点经所述预设相机标定参数向所述第一关键点信息所在平面投影后均与所述第一关键点信息对应的第一关键点重合。
图4为本发明实施例的三维人体姿态信息检测方法中的调整模块的调整原理示意图;如图4所示,假设所有的二维图片都来自同一图像采集设备,即所有的二维关键点信息(本实施例中即包括第一关键点信息和第二关键点信息)均对应于同一图像采集设备,则所有的二维关键点信息均对应于相同的预设相机标定参数,基于此假定提出以下方案。假设在获得第一关键点信息时,获得所述第一关键点信息所对应的真实三维关键点,获得的真实三维关键点信息如图4中的点GT,则该点GT经所述预设相机标定参数向第一关键点信息所在的平面投影后与第一关键点信息所对应的第一关键点(如图4中的点Pgt)重合;基于该原理,结合图4所示,则基于所述第一关键点信息以及预设相机标定参数确定三维投影区间,所述三维投影区间为与所述第一关键点信息之间具有投影关系的三维区间;如图4中所示的斜线,该斜线表示一段三维区间,例如以相机摄像头中心点为坐标原点,相机摄像头所在平面为xy平面,垂直于相机摄像头、且远离相机摄像头的方向为z轴方向建立三维坐标系,则该三维投影区间可以是以上述坐标轴中的三维坐标表示的三维区间。可以理解,该三维投影区间中的每个三维关键点(包括图4中的点×、点Qg以及点GT)经所述预设相机标定参数向第一关键点信息所在的平面投影后均与第一关键点信息对应的第一关键点(如图4中的点Pgt)重合;一般情况下,通过第二网络模型获得的初始三维关键点信息往往与真实三维关键点信息还有一定的差距,即初始三维关键点信息并不是完全准确的,可以理解,初始三维关键点信息很可能不在该三维投影区间内,以初始三维关键点信息对应的三维关键点为点Qr为例,则基于该三维投影区间对应的坐标范围获得与三维关键点为点Qr的距离满足预设条件的三维关键点信息,如图4所示,获得满足预设条件的三维关键点为关键点Qg,则将关键点Qg的坐标作为目标三维关键点信息。
在本发明的一种可选实施例中,所述在所述投影区间内获得与所述初始三维关键点信息之间的距离满足预设条件的三维关键点信息,包括:按照预设步长获得所述三维投影区间内的多个三维关键点信息;分别计算每个三维关键点信息与所述初始三维关键点信息之间的欧式距离,确定欧式距离最小的三维关键点信息为目标三维关键点信息。
具体的,结合图4所示,确定三维投影区间的坐标范围,从所述坐标范围内表示深度信息(也即图中所示的z轴信息)的最小值开始,按照预设步长(step)获得多个三维关键点信息,所获得的多个三维关键点信息对应于图4中的点×。例如,若坐标范围内表示的深度信息的最小值为0,则从z=0开始,依次叠加z=z+1,从而获得如图中所示的多个关键点信息;再分别计算每个关键点信息(即图4中的点×)与初始三维关键点信息(即图4中的点Qr)之间的欧式距离,选择欧式距离最小的三维关键点信息为目标三维关键点信息,如图中所示的关键点Qg的坐标作为目标三维关键点信息。
采用本发明实施例的技术方案,通过一视图(或视角)的二维关键点信息获得另一视图(或视角)的二维关键点信息,通过视图(或视角)的二维关键点信息获得目标三维关键点信息,从而在一定程度上消除深度预测的不确定性,提升了三维关键点信息的准确性,也提高了网络模型的精度;并且,通过调整模块基于三维关键点坐标能够投影回最初的第一关键点坐标的原理对第二网络模型输出的初始三维关键点坐标进行调整,大大提升了预测的三维关键点信息的准确性。
本发明实施例的技术方案能够通过输入二维关键点信息实现输出精确的三维关键点信息,可应用于智能视频分析,能够适用于对视频图像中的人体进行人体3D模型的建模,通过检测出的3D模型,对人体进行模仿、分析、运动信息统计等一些的智能操作,以及适用于视频监控的场景以实现对危险动作的识别和分析。
本发明实施例的技术方案能够通过输入二维关键点信息实现输出精确的三维关键点信息,可应用于虚拟现实增强的场景,可以对虚拟3D场景中的人体进行建模,可利用模型中的检测到的特征点(例如三维关键点),对虚拟场景中的人体进行控制和交互,以及包括购物应用中的人体换装和虚拟人体动作交互等场景。
本发明实施例还提供了一种三维人体姿态信息检测装置。图5为本发明实施例的三维人体姿态信息检测装置的一种组成结构示意图;如图5所示,所述装置包括:获取单元31、二维信息处理单元32和三维信息处理单元33;其中,
所述获取单元31,用于获得第一关键点信息;所述第一关键点信息表征从第一视图图像中获得的对应于目标对象的肢体关键点的二维信息;
所述二维信息处理单元32,用于基于所述获取单元31获得的所述第一关键点信息获得第二关键点信息;所述第二关键点信息表征第二视图图像中的所述目标对象的肢体关键点的二维信息;
所述三维信息处理单元33,用于基于所述第一关键点信息和所述二维信息处理单元32获得的所述第二关键点信息获得目标三维关键点信息。
在本发明的一种可选实施例中,如图6所示,所述三维信息处理单元33包括第一处理模块331和调整模块332;其中,
所述第一处理模块331,用于基于所述第一关键点信息和所述第二关键点信息,获得初始三维关键点信息;
所述调整模块332,用于对所述第一处理模块331获得的所述初始三维关键点信息进行调整,获得目标三维关键点信息。
在本发明的一种可选实施例中,所述调整模块332,用于基于所述第一关键点信息以及预设相机标定参数确定三维投影区间;在所述三维投影区间内获得与所述初始三维关键点信息之间的距离满足预设条件的三维关键点信息,将所述三维关键点信息作为目标三维关键点信息。
其中,所述三维投影区间为与所述第一关键点信息之间具有投影关系的三维区间;所述三维投影区间内的每个三维关键点经所述预设相机标定参数向所述第一关键点信息所在平面投影后均与所述第一关键点信息对应的第一关键点重合。
在本发明的一种可选实施例中,所述调整模块332,用于按照预设步长获得所述三维投影区间内的多个三维关键点信息;分别计算每个三维关键点信息与所述初始三维关键点信息之间的欧式距离,确定欧式距离最小的三维关键点信息为目标三维关键点信息。
在本发明的一种可选实施例中,所述二维信息处理单元32,用于基于所述第一关键点信息和预先训练获得的第一网络模型获得第二关键点信息;
所述第一处理模块331,用于基于所述第一关键点信息、所述第二关键点信息和预先训练获得的第二网络模型,获得初始三维关键点信息。
在本发明的一种可选实施例中,如图7所示,所述装置还包括训练单元34,用于根据获取的样本二维关键点信息和对应的样本三维关键点信息训练所述第一网络模型和所述第二网络模型。
在本发明的一种可选实施例中,所述第一网络模型和所述第二网络模型均为全连接网络结构模型。
在本发明的一种可选实施例中,所述第一网络模型和所述第二网络模型的网络结构相同。
本发明实施例中,所述三维人体姿态信息检测装置中的获取单元31、二维信息处理单元32、三维信息处理单元33(包括第一处理模块331和调整模块332)和训练单元34,在实际应用中均可由中央处理器(CPU,Central Processing Unit)、数字信号处理器(DSP,Digital Signal Processor)、微控制单元(MCU,Microcontroller Unit)或可编程门阵列(FPGA,Field-Programmable Gate Array)实现。
需要说明的是:上述实施例提供的三维人体姿态信息检测装置在进行三维人体姿态信息检测时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的三维人体姿态信息检测装置与三维人体姿态信息检测方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本发明实施例还提供了一种三维人体姿态信息检测装置,图8为本发明实施例的三维人体姿态信息检测装置的硬件组成结构示意图,如图8所示,所述装置包括存储器42、处理器41及存储在存储器42上并可在处理器41上运行的计算机程序,所述处理器41执行所述程序时实现本发明实施例所述方法的步骤。
可以理解,三维人体姿态信息检测装置中的各个组件通过总线系统43耦合在一起。可理解,总线系统43用于实现这些组件之间的连接通信。总线系统43除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图8中将各种总线都标为总线系统43。
可以理解,存储器42可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random AccessMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储器702旨在包括但不限于这些和任意其它适合类型的存储器。
上述本发明实施例揭示的方法可以应用于处理器41中,或者由处理器41实现。处理器41可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器41中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器41可以是通用处理器、DSP,或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器41可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器42,处理器41读取存储器42中的信息,结合其硬件完成前述方法的步骤。
在示例性实施例中,三维人体姿态信息检测装置可以被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable LogicDevice)、FPGA、通用处理器、控制器、MCU、微处理器(Microprocessor)、或其他电子元件实现,用于执行前述方法。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明实施例所述三维人体姿态信息检测方法的步骤。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (16)

1.一种三维人体姿态信息检测方法,其特征在于,所述方法包括:
获得第一关键点信息;所述第一关键点信息表征从第一视图图像中获得的对应于目标对象的肢体关键点的二维信息;
基于所述第一关键点信息和预先训练获得的第一网络模型获得第二关键点信息;所述第二关键点信息表征第二视图图像中的所述目标对象的肢体关键点的二维信息;
基于所述第一关键点信息和所述第二关键点信息获得目标三维关键点信息;
其中,所述基于所述第一关键点信息和所述第二关键点信息获得目标三维关键点信息,包括:
基于所述第一关键点信息、所述第二关键点信息和预先训练获得的第二网络模型,获得初始三维关键点信息;
对所述初始三维关键点信息进行调整,获得目标三维关键点信息。
2.根据权利要求1所述的方法,其特征在于,所述对所述初始三维关键点信息进行调整,获得目标三维关键点信息,包括:
基于所述第一关键点信息以及预设相机标定参数确定三维投影区间;
在所述三维投影区间内获得与所述初始三维关键点信息之间的距离满足预设条件的三维关键点信息,将所述三维关键点信息作为目标三维关键点信息。
3.根据权利要求2所述的方法,其特征在于,所述三维投影区间为与所述第一关键点信息之间具有投影关系的三维区间;所述三维投影区间内的每个三维关键点经所述预设相机标定参数向所述第一关键点信息所在平面投影后均与所述第一关键点信息对应的第一关键点重合。
4.根据权利要求2或3所述的方法,其特征在于,所述在所述三维投影区间内获得与所述初始三维关键点信息之间的距离满足预设条件的三维关键点信息,包括:
按照预设步长获得所述三维投影区间内的多个三维关键点信息;
分别计算每个三维关键点信息与所述初始三维关键点信息之间的欧式距离,确定欧式距离最小的三维关键点信息为目标三维关键点信息。
5.根据权利要求1所述的方法,其特征在于,所述第一网络模型和所述第二网络模型的训练过程包括:
根据获取的样本二维关键点信息和对应的样本三维关键点信息训练所述第一网络模型和所述第二网络模型;
其中,所述样本二维关键点信息为所述第一网络模型的输入;所述样本二维关键点信息以及所述第一网络模型的输出,为所述第二网络模型的输入;所述样本三维关键点信息为期望得到的所述第二网络模型的输出。
6.根据权利要求1或5所述的方法,其特征在于,所述第一网络模型和所述第二网络模型均为全连接网络结构模型。
7.根据权利要求1或5所述的方法,其特征在于,所述第一网络模型和所述第二网络模型的网络结构相同。
8.一种三维人体姿态信息检测装置,其特征在于,所述装置包括:获取单元、二维信息处理单元和三维信息处理单元;其中,
所述获取单元,用于获得第一关键点信息;所述第一关键点信息表征从第一视图图像中获得的对应于目标对象的肢体关键点的二维信息;
所述二维信息处理单元,用于基于所述获取单元获得的所述第一关键点信息和预先训练获得的第一网络模型获得第二关键点信息;所述第二关键点信息表征第二视图图像中的所述目标对象的肢体关键点的二维信息;
所述三维信息处理单元,用于基于所述第一关键点信息和所述二维信息处理单元获得的所述第二关键点信息获得目标三维关键点信息;
其中,所述三维信息处理单元包括第一处理模块和调整模块;其中,
所述第一处理模块,用于基于所述第一关键点信息、所述第二关键点信息和预先训练获得的第二网络模型,获得初始三维关键点信息;
所述调整模块,用于对所述第一处理模块获得的所述初始三维关键点信息进行调整,获得目标三维关键点信息。
9.根据权利要求8所述的装置,其特征在于,所述调整模块,用于基于所述第一关键点信息以及预设相机标定参数确定三维投影区间;在所述三维投影区间内获得与所述初始三维关键点信息之间的距离满足预设条件的三维关键点信息,将所述三维关键点信息作为目标三维关键点信息。
10.根据权利要求9所述的装置,其特征在于,所述三维投影区间为与所述第一关键点信息之间具有投影关系的三维区间;所述三维投影区间内的每个三维关键点经所述预设相机标定参数向所述第一关键点信息所在平面投影后均与所述第一关键点信息对应的第一关键点重合。
11.根据权利要求9或10所述的装置,其特征在于,所述调整模块,用于按照预设步长获得所述三维投影区间内的多个三维关键点信息;分别计算每个三维关键点信息与所述初始三维关键点信息之间的欧式距离,确定欧式距离最小的三维关键点信息为目标三维关键点信息。
12.根据权利要求8所述的装置,其特征在于,所述装置还包括训练单元,用于根据获取的样本二维关键点信息和对应的样本三维关键点信息训练所述第一网络模型和所述第二网络模型;其中,所述样本二维关键点信息为所述第一网络模型的输入;所述样本二维关键点信息以及所述第一网络模型的输出,为所述第二网络模型的输入;所述样本三维关键点信息为期望得到的所述第二网络模型的输出。
13.根据权利要求8或12所述的装置,其特征在于,所述第一网络模型和所述第二网络模型均为全连接网络结构模型。
14.根据权利要求8或12所述的装置,其特征在于,所述第一网络模型和所述第二网络模型的网络结构相同。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。
16.一种三维人体姿态信息检测装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7任一项所述方法的步骤。
CN201910098332.0A 2019-01-31 2019-01-31 一种三维人体姿态信息检测方法及装置 Active CN109840500B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201910098332.0A CN109840500B (zh) 2019-01-31 2019-01-31 一种三维人体姿态信息检测方法及装置
SG11202012782TA SG11202012782TA (en) 2019-01-31 2020-01-14 Three-dimensional human pose information detection method and device and apparatus, electronic device and storage medium
PCT/CN2020/071945 WO2020156143A1 (zh) 2019-01-31 2020-01-14 三维人体姿态信息检测方法及装置、电子设备、存储介质
JP2020569131A JP2021527877A (ja) 2019-01-31 2020-01-14 3次元人体姿勢情報の検出方法および装置、電子機器、記憶媒体
US17/122,222 US20210097717A1 (en) 2019-01-31 2020-12-15 Method for detecting three-dimensional human pose information detection, electronic device and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910098332.0A CN109840500B (zh) 2019-01-31 2019-01-31 一种三维人体姿态信息检测方法及装置

Publications (2)

Publication Number Publication Date
CN109840500A CN109840500A (zh) 2019-06-04
CN109840500B true CN109840500B (zh) 2021-07-02

Family

ID=66884536

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910098332.0A Active CN109840500B (zh) 2019-01-31 2019-01-31 一种三维人体姿态信息检测方法及装置

Country Status (5)

Country Link
US (1) US20210097717A1 (zh)
JP (1) JP2021527877A (zh)
CN (1) CN109840500B (zh)
SG (1) SG11202012782TA (zh)
WO (1) WO2020156143A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109840500B (zh) * 2019-01-31 2021-07-02 深圳市商汤科技有限公司 一种三维人体姿态信息检测方法及装置
CN110472481B (zh) * 2019-07-01 2024-01-05 华南师范大学 一种睡姿检测方法、装置及设备
CN112668359A (zh) * 2019-10-15 2021-04-16 富士通株式会社 动作识别方法、动作识别装置和电子设备
CN110807833B (zh) * 2019-11-04 2023-07-25 成都数字天空科技有限公司 一种网状拓扑获得方法、装置、电子设备及存储介质
CN111291718B (zh) * 2020-02-28 2022-06-03 上海商汤智能科技有限公司 行为预测方法及装置、步态识别方法及装置
CN111753747B (zh) * 2020-06-28 2023-11-24 高新兴科技集团股份有限公司 基于单目摄像头和三维姿态估计的剧烈运动检测方法
CN112329723A (zh) * 2020-11-27 2021-02-05 北京邮电大学 一种基于双目相机的多人人体3d骨骼关键点定位方法
WO2022250468A1 (en) * 2021-05-26 2022-12-01 Samsung Electronics Co., Ltd. Method and electronic device for 3d object detection using neural networks
CN113610966A (zh) * 2021-08-13 2021-11-05 北京市商汤科技开发有限公司 三维姿态调整的方法、装置、电子设备及存储介质
CN113657301A (zh) * 2021-08-20 2021-11-16 北京百度网讯科技有限公司 基于视频流的动作类型识别方法、装置及穿戴设备
CN113780120A (zh) * 2021-08-27 2021-12-10 深圳云天励飞技术股份有限公司 生成人体三维模型的方法、装置、服务器和存储介质
TWI820975B (zh) * 2022-10-20 2023-11-01 晶睿通訊股份有限公司 設備安裝參數校正方法及其監控裝置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978548A (zh) * 2014-04-02 2015-10-14 汉王科技股份有限公司 一种基于三维主动形状模型的视线估计方法与装置
CN105247573A (zh) * 2013-06-11 2016-01-13 高通股份有限公司 用于数据库创建目的的交互式且自动3d对象扫描方法
CN107273846A (zh) * 2017-06-12 2017-10-20 江西服装学院 一种人体体型参数确定方法及装置
CN108230383A (zh) * 2017-03-29 2018-06-29 北京市商汤科技开发有限公司 手部三维数据确定方法、装置及电子设备
CN108960036A (zh) * 2018-04-27 2018-12-07 北京市商汤科技开发有限公司 三维人体姿态预测方法、装置、介质及设备

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593358A (zh) * 2009-06-25 2009-12-02 汕头大学 一种三维模型重建方法
WO2013002280A1 (ja) * 2011-06-29 2013-01-03 Necシステムテクノロジー株式会社 三次元地物データ生成装置、三次元地物データ生成方法、および、三次元地物データ生成プログラムを記録した記録媒体
JP2014078095A (ja) * 2012-10-10 2014-05-01 Sony Corp 画像処理装置、画像処理方法、及びプログラム
US10115032B2 (en) * 2015-11-04 2018-10-30 Nec Corporation Universal correspondence network
CN105631861B (zh) * 2015-12-21 2019-10-01 浙江大学 结合高度图从无标记单目图像中恢复三维人体姿态的方法
US9999823B2 (en) * 2016-01-15 2018-06-19 Inxpar Inc. System for analyzing golf swing process and method thereof
US10466714B2 (en) * 2016-09-01 2019-11-05 Ford Global Technologies, Llc Depth map estimation with stereo images
JP2018119833A (ja) * 2017-01-24 2018-08-02 キヤノン株式会社 情報処理装置、システム、推定方法、コンピュータプログラム、及び記憶媒体
JP6676562B2 (ja) * 2017-02-10 2020-04-08 日本電信電話株式会社 画像合成装置、画像合成方法及びコンピュータプログラム
JP2019016164A (ja) * 2017-07-06 2019-01-31 日本電信電話株式会社 学習データ生成装置、推定装置、推定方法及びコンピュータプログラム
CN108986197B (zh) * 2017-11-30 2022-02-01 成都通甲优博科技有限责任公司 3d骨架线构建方法及装置
CN108305229A (zh) * 2018-01-29 2018-07-20 深圳市唯特视科技有限公司 一种基于深度学习轮廓网络的多视图重建方法
CN108335322B (zh) * 2018-02-01 2021-02-12 深圳市商汤科技有限公司 深度估计方法和装置、电子设备、程序和介质
CN108460338B (zh) * 2018-02-02 2020-12-11 北京市商汤科技开发有限公司 人体姿态估计方法和装置、电子设备、存储介质、程序
US10929654B2 (en) * 2018-03-12 2021-02-23 Nvidia Corporation Three-dimensional (3D) pose estimation from a monocular camera
CN110909580B (zh) * 2018-09-18 2022-06-10 北京市商汤科技开发有限公司 数据处理方法及装置、电子设备及存储介质
CN109840500B (zh) * 2019-01-31 2021-07-02 深圳市商汤科技有限公司 一种三维人体姿态信息检测方法及装置
CN112270669B (zh) * 2020-11-09 2024-03-01 北京百度网讯科技有限公司 人体3d关键点检测方法、模型训练方法及相关装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105247573A (zh) * 2013-06-11 2016-01-13 高通股份有限公司 用于数据库创建目的的交互式且自动3d对象扫描方法
CN104978548A (zh) * 2014-04-02 2015-10-14 汉王科技股份有限公司 一种基于三维主动形状模型的视线估计方法与装置
CN108230383A (zh) * 2017-03-29 2018-06-29 北京市商汤科技开发有限公司 手部三维数据确定方法、装置及电子设备
CN107273846A (zh) * 2017-06-12 2017-10-20 江西服装学院 一种人体体型参数确定方法及装置
CN108960036A (zh) * 2018-04-27 2018-12-07 北京市商汤科技开发有限公司 三维人体姿态预测方法、装置、介质及设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
3D Human Pose Estimation = 2D Pose Estimation + Matching;Ching-Hang Chen;《arXiv:1612.06524v2》;20170411;全文 *
A simple yet effective baseline for 3d human pose estimation;Julieta Martinez;《arXiv:1705.03098v2》;20170804;全文 *
Lifting from the Deep: Convolutional 3D Pose Estimation from a Single Image;Denis Tome;《2017 IEEE Conference on Computer Vision and Pattern Recognition》;20171231;全文 *
Single View Stereo Matching;Yue Luo;《arXiv:1803.02612v2》;20180309;全文 *

Also Published As

Publication number Publication date
US20210097717A1 (en) 2021-04-01
SG11202012782TA (en) 2021-01-28
JP2021527877A (ja) 2021-10-14
CN109840500A (zh) 2019-06-04
WO2020156143A1 (zh) 2020-08-06

Similar Documents

Publication Publication Date Title
CN109840500B (zh) 一种三维人体姿态信息检测方法及装置
CN111126272B (zh) 姿态获取方法、关键点坐标定位模型的训练方法和装置
CN111783820B (zh) 图像标注方法和装置
CN113706699B (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN111080776B (zh) 人体动作三维数据采集和复现的处理方法及系统
Chen et al. A particle filtering framework for joint video tracking and pose estimation
CN114022560A (zh) 标定方法及相关装置、设备
Vo et al. Spatiotemporal bundle adjustment for dynamic 3d human reconstruction in the wild
CN114898447B (zh) 一种基于自注意力机制的个性化注视点检测方法及装置
CN111652168A (zh) 基于人工智能的群体检测方法、装置、设备及存储介质
CN115205737B (zh) 基于Transformer模型的运动实时计数方法和系统
Khan et al. A review of benchmark datasets and training loss functions in neural depth estimation
Domínguez-Morales et al. Stereo matching: From the basis to neuromorphic engineering
Baumgartner et al. Extracting spatial knowledge from track and field broadcasts for monocular 3D human pose estimation
CN115994944A (zh) 三维关键点预测方法、训练方法及相关设备
CN115880206A (zh) 图像准确度判断方法、装置、设备及存储介质、程序产品
Cordea et al. 3-D head pose recovery for interactive virtual reality avatars
TWI811108B (zh) 混合實境處理系統及混合實境處理方法
Hruthika et al. Deep Learning Based Human Pose Estimation Using Opencv
CN115100745B (zh) 基于Swin Transformer模型的运动实时计数方法和系统
CN116310408B (zh) 一种建立事件相机与帧相机数据关联的方法及装置
CN116168383A (zh) 三维目标检测方法、装置、系统和存储介质
Woo et al. Implicit camera calibration using multilayer perceptron type neural network
CN114913215A (zh) 深度估计方法和深度估计装置
Simões Augmented reality applied to the industry

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant