CN117315100A - 用于捕捉目标对象的运动的方法、装置及电子设备 - Google Patents
用于捕捉目标对象的运动的方法、装置及电子设备 Download PDFInfo
- Publication number
- CN117315100A CN117315100A CN202311130060.0A CN202311130060A CN117315100A CN 117315100 A CN117315100 A CN 117315100A CN 202311130060 A CN202311130060 A CN 202311130060A CN 117315100 A CN117315100 A CN 117315100A
- Authority
- CN
- China
- Prior art keywords
- dimensional key
- key point
- dimensional
- target object
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 117
- 230000033001 locomotion Effects 0.000 title claims abstract description 65
- 238000001514 detection method Methods 0.000 claims description 26
- 239000011159 matrix material Substances 0.000 claims description 21
- 230000000007 visual effect Effects 0.000 claims description 15
- 238000004891 communication Methods 0.000 claims description 13
- 230000014509 gene expression Effects 0.000 claims description 13
- 230000003287 optical effect Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 11
- 210000000707 wrist Anatomy 0.000 claims description 11
- 230000001360 synchronised effect Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 description 11
- 238000012545 processing Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 210000003423 ankle Anatomy 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000001217 buttock Anatomy 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000001513 elbow Anatomy 0.000 description 1
- 210000003414 extremity Anatomy 0.000 description 1
- 210000001508 eye Anatomy 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000005057 finger movement Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 210000001331 nose Anatomy 0.000 description 1
- 238000013488 ordinary least square regression Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 210000002832 shoulder Anatomy 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
Abstract
本申请提供一种用于捕捉目标对象的运动的方法、装置及电子设备,方法包括:获得待分析图像;基于待分析图像,确定出目标对象的每个二维关键点并提取每个二维关键点的二维关键点信息,其中,二维关键点信息包括:二维关键点的像素坐标和置信度;基于每个二维关键点的二维关键点信息,采用加权最小二乘法,分别对应重建并确定出三维关键点,以实现对目标对象的运动捕捉,其中,将每个二维关键点的置信度对应确定为每个二维关键点在三维重建中的权重参数。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种用于捕捉目标对象的运动的方法、装置及电子设备。
背景技术
运动捕捉系统用于捕捉真实物体的运动,并且作为将其制作成动画的一种方式,将其映射到由计算机生成的物体上。通常在制作运动图像和视频游戏时将这样的系统用于创建用作源数据的人物的数字表示以创建计算机图形动画。在典型系统中,表演者穿着一套在多个位置附有标志,例如,在身体和四肢上附有较小的反射标志的衣服,并且数字相机在照明标志的同时从不同角度记录下表演者的运动;系统然后分析图像以确定在每一帧中表演者衣服上的标志的位置,例如,如空间坐标和方向;通过跟踪标志的位置,系统产生标志随时间的空间表示,并且建立运动中的表演者的数字表示。该运动然后被应用于数字模型,该数字模型然后可以被纹理化并且被渲染以产生表演者和/或表演的完整的计算机图形动画表示。
目前运动捕捉主要分为两类,有标记点和无标记点。有标记点的方法需要在被捕捉的目标对象上安装标记点,被捕捉者甚至需要穿上特制的衣服,这种方法过于烦琐,应用场景较少;无标记点的方法不需要被捕捉者穿特制的衣服,也不用在身体上安装标记点或传感器,但是无标记点方法精度较差,只能用于粗略的运动捕捉。
发明内容
为克服相关技术中存在的问题,本公开提供一种用于捕捉目标对象的运动的方法、装置及电子设备。
为达到上述目的,本申请采用如下技术方案:
第一方面,提供一种用于捕捉目标对象的运动的方法,方法包括:
获得待分析图像;
基于待分析图像,确定出目标对象的每个二维关键点并提取每个二维关键点的二维关键点信息,其中,二维关键点信息包括:二维关键点的像素坐标和置信度;
基于每个二维关键点的二维关键点信息,采用加权最小二乘法,分别对应重建并确定出三维关键点,以实现对目标对象的运动捕捉,其中,将每个二维关键点的置信度对应确定为每个二维关键点在三维重建中的权重参数。
根据第一方面的方法可知,本方法中采用的二维关键点检测算法可以获取精准的二维关键点的像素坐标以及每个二维关键点的置信度,其中,二维关键点的精准性越高,其置信度越高。以二维关键点的置信度作为权重,基于加权最小二乘法重建三维关键点,精度越高的二维关键点对应的权重越大,使得重建结果精度更高。对于某些异常点,如被遮挡的或出界的关键点,其权重非常低,因此对重建的结果影响非常小。在无需在被捕捉的目标对象上安装标记点的前提下,避免了繁琐的捕捉过程;在以二维关键点的置信度作为权重,基于加权最小二乘法重建三维关键点的方法上,提高了重建的精确性。
一种可能的设计方案中,获得待分析图像包括:
使用至少两个不同视角的相机对目标对象进行同步拍摄并进行实时采集;
获得待分析图像,其中,待分析图像包括至少两帧不同视角且同步的图像。
一种可能的设计方案中,基于待分析图像,确定出目标对象的每个二维关键点并提取每个二维关键点的二维关键点信息,包括:
使用关键点参数获得模型对待分析图像中的每帧图像进行二维关键点检测,确定出每帧图像中目标对象的每个二维关键点以及每个二维关键点的二维关键点信息;
建立各个视角间的二维关键点之间的匹配关系。
一种可能的设计方案中,二维关键点包括:人体二维关键点和手部二维关键点,方法还包括:
确定在待分析图像中是否检测到人体,若是,则检测并确定出人体二维关键点;
确定在待分析图像中是否检测到手部,若是,则检测并确定出手部二维关键点;
根据人体二维关键点中的第一手腕二维关键点以及手部二维关键点中的第二手腕二维关键点之间的距离,确定出目标对象的左手与右手。
一种可能的设计方案中,方法还包括:
通过相机标定获得每个相机对应的相机参数,其中,相机参数包括:投影矩阵和光心。
一种可能的设计方案中,基于每个二维关键点的二维关键点信息,采用加权最小二乘法,分别对应重建并确定出三维关键点,包括:
根据投影表达式,对不同视角中相对应的同一个二维关键点建立第一方程组,第一方程组如下:
其中,m1表征第一视角下的二维关键点,m2表征第二视角下相对应的二维关键点,mN表征第N视角下相对应的二维关键点,P1表征第一视角对应的投影矩阵,P2表征第二视角对应的投影矩阵,PN表征第N视角对应的投影矩阵,M表征三维关键点;
基于加权最小二乘法求解M的第二方程组如下:
其中,c1表征第一视角下的置信度,c2表征第二视角下的置信度,cN表征第N视角下的置信度;
将第二方程组展开求解M,确定出重建的三维关键点。
一种可能的设计方案中,方法包括:
确定各个视角下每个二维关键点的置信度是否大于预设置信度阈值;
若是,则基于每个二维关键点的二维关键点信息,采用加权最小二乘法,分别对应重建并确定出三维关键点。
第二方面,提供了一种用于捕捉目标对象的运动的装置,装置包括:
获得模块,被配置为获得待分析图像;
确定模块,被配置为基于待分析图像,确定出目标对象的每个二维关键点并提取每个二维关键点的二维关键点信息,其中,二维关键点信息包括:二维关键点的像素坐标和置信度;
重建模块,被配置为基于每个二维关键点的二维关键点信息,采用加权最小二乘法,分别对应重建并确定出三维关键点,以实现对目标对象的运动捕捉,其中,将每个二维关键点的置信度对应确定为每个二维关键点在三维重建中的权重参数。
第三方面,提供了一种电子设备。该电子设备包括:处理器,处理器与存储器耦合;该处理器,用于执行存储器中存储的计算机程序,以使得该电子设备执行第一方面中的任意一种实现方式的方法。
第四方面,提供一种计算机可读存储介质,包括:计算机程序或指令;当该计算机程序或指令在计算机上运行时,使得该计算机执行第一方面中任意一种可能的实现方式的方法被执行。
第五方面,提供一种计算机程序产品,包括计算机程序或指令,当该计算机程序或指令在计算机上运行时,使得该计算机执行第一方面中任意一种可能的实现方式的方法被执行。
本公开的实施例提供的技术方案可以包括以下有益效果:
在上述技术方案中,由于本方法中采用的二维关键点检测算法可以获取精准的二维关键点的像素坐标以及每个二维关键点的置信度,其中,二维关键点的精准性越高,其置信度越高。以二维关键点的置信度作为权重,基于加权最小二乘法重建三维关键点,精度越高的二维关键点对应的权重越大,使得重建结果精度更高。对于某些异常点,如被遮挡的或出界的关键点,其权重非常低,因此对重建的结果影响非常小。在无需在被捕捉的目标对象上安装标记点的前提下,避免了繁琐的捕捉过程;在以二维关键点的置信度作为权重,基于加权最小二乘法重建三维关键点的方法上,提高了重建的精确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
图1为根据一示例性实施例示出的一种用于捕捉目标对象的运动的方法的流程图;
图2为根据一示例性实施例示出的测量原理示意图;
图3为根据一示例性实施例示出的一种用于捕捉目标对象的运动的装置的框图;
图4为根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
下面结合附图,对本申请中的技术方案进行描述。
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本公开实施例提供的用于捕捉目标对象的运动的方法可以应用于多种场景,包括但不限于:运动治疗、虚拟现实、人体动画、游戏等需要获取人体关键点参数的应用场景。例如,在运动治疗场景下,可以利用根据本公开实施例所述的方法获取目标对象的人体关键点参数进行被评估者的三维人体重建,辅助评估者在线上实时准确的获取被评估者在运动训练中的动作情况。在本公开实施例中,该方法的应用场景并不做限制。
本公开实施例提供了一种用于捕捉目标对象的运动的方法。图1是根据一示例性实施例示出的一种用于捕捉目标对象的运动的方法的流程图。如图1所示,该用于捕捉目标对象的运动的方法可以包括:
在步骤S101中,获得待分析图像。
待分析图像可以为对目标图像进行拍摄获得的图像序列中的至少一帧图像。图像序列可以为视频片段,也可以为按照时间顺序拍摄的多个图像。例如,在游戏场景下,任意玩家可以作为一个目标对象,可以对玩家的舞蹈、战斗等动作和/或姿态进行拍摄得到图像序列,将拍摄得到的图像序列中的图像作为待分析图像。在具体实施过程中,可以通过多种方式获得待分析图像。
作为一种可能的实施方式,可以由一个图像采集设备对目标对象进行单一视角地拍摄从而获得待分析图像,也可以由多个图像采集设备对目标对象进行多个视角地拍摄从而获得待分析图像。在本公开实施例中,通过采用多个图像采集设备对目标对象进行拍摄从而获得待分析图像。
在步骤S102中,基于待分析图像,确定出目标对象的每个二维关键点并提取每个二维关键点的二维关键点信息,其中,二维关键点信息包括:二维关键点的像素坐标和置信度。
运动捕捉中的关键点检测算法能够通过摄像头和算法实时检测人体姿态和位置信息,以实现运动分析、姿态估计和动作捕捉等应用。运动捕捉的实现,是基于对目标对象的多个二维关键点进行检测确定而实现的,因此,对待分析图像进行二维关键点检测的关键点检测算法尤为重要。可选地,目标对象的关键点可以为目标对象的多个关节点,通过确定目标对象多个关节点从而实现目标对象的运动捕捉。
对待分析图像进行二维关键点检测,常见的关键点检测算法可以是通过摄像头和算法实时检测视频中的人体轮廓、定位关键骨骼点,这种算法能够将关键骨骼点连接成线,并形成运动轨迹,从而实现动作完成效果的检测。另一种关键点检测算法是通过对关键点位置的分析,了解人体在空间中的姿态和位置信息,以实现一些基于姿态的应用,例如运动分析、手势识别和动作捕捉等,该算法能够识别人体的关键点,进而分析人体的姿态和位置。
在本公开实施例中,采用基于深度神经网络的关键点检测算法从待分析图像中确定出目标对象的每个二维关系点并提取每个二维关键点的二维关键点信息,通过该算法可以实现人体动作、面部表情和手指运动等姿态估计。需要说明的是,置信度可能会受到多个因素的影响,如关键点是否被遮挡、关键点的大小、人的整体姿态是否常见等。
在步骤S103中,基于每个二维关键点的二维关键点信息,采用加权最小二乘法,分别对应重建并确定出三维关键点,以实现对目标对象的运动捕捉,其中,将每个二维关键点的置信度对应确定为每个二维关键点在三维重建中的权重参数。
在本公开实施例中,通过关键点检测算法可以获取到精准的二维关键点的像素坐标以及每个二维关键点的置信度,越精准的二维关键点,其置信度越高。以二维关键点的置信度作为权重,采用加权最小二乘法重建三维关键点,精度越高的二维关键点权重越大,使得重建获得的三维关键点的精度更高。
基于加权最小二乘法的运动捕捉方法是通过在多重线性回归模型中应用加权最小二乘法来对参数进行估计的。普通最小二乘法通常是用来对参数进行估计的,它要求每个观测点的实际值与预测值之间的残差平方和最小,并且假设残差满足方差齐性的条件。但在某些研究问题中,存在异方差性,也就是因变量的变异程度随着自身数值或其他变量的变化而变化,这会导致残差不满足方差齐性的条件。若继续采用普通最小二乘法进行参数估计,则拟合结果会受到变异程度较大的数据的影响,导致回归模型的偏差增加、预测精度降低甚至预测功能失效。
在加权最小二乘法中,权矩阵的构建是关键步骤之一。加权最小二乘法的具体步骤如下:(1)选择普通最小二乘法估计原模型,得到随机误差项的近似估计量;(2)建立基于近似估计量的倒数的数据序列,作为权重;(3)利用序列进行估计,得到参数估计量。实际上,这就是通过将原模型两边乘以近似估计量的倒数得到一个新模型,再采用普通最小二乘法估计新模型,最后得到的参数估计量就是加权最小二乘法的结果。在本公开实施例中,以二维关键点的置信度作为权重。加权最小二乘法的近期误差比远期误差小,进而可以提高模型的预测精度。也就是说,基于加权最小二乘法的运动捕捉方法可以解决在研究问题中存在异方差性时的参数估计问题,提高回归模型拟合的准确性和预测精度。
在上述技术方案中,由于本方法中采用的二维关键点检测算法可以获取精准的二维关键点的像素坐标以及每个二维关键点的置信度,其中,二维关键点的精准性越高,其置信度越高。以二维关键点的置信度作为权重,基于加权最小二乘法重建三维关键点,精度越高的二维关键点对应的权重越大,使得重建结果精度更高。对于某些异常点,如被遮挡的或出界的关键点,其权重非常低,因此对重建的结果影响非常小。在无需在被捕捉的目标对象上安装标记点的前提下,避免了繁琐的捕捉过程;在以二维关键点的置信度作为权重,基于加权最小二乘法重建三维关键点的方法上,提高了重建的精确性。
在一种示例性实施方式中,步骤S101可进一步包括:
使用至少两个不同视角的相机对目标对象进行同步拍摄并进行实时采集;
获得待分析图像,其中,待分析图像包括至少两帧不同视角且同步的图像。
作为一种可能的实施方式,使用两个及两个以上处于不同视角的相机对目标对象进行同步拍摄,使得待分析图像包括了至少两帧处于不同视角下且同步的图像。图像中可能会包括了目标对象的目标区域,也有可能图像中未包括目标对象的目标区域,其中,目标对象的目标区域可以为身体或/和手部。
在本公开实施例中,根据目标对象和动画相关的要求,使用远多于两个的运动捕捉相机。运动捕捉相机聚焦在捕捉空间上,在捕捉空间中,目标对象处于由空间坐标定义的位置处。相机可以为USB相机,USB相机是一种连接到计算机或移动设备上的相机,其可以通过USB接口与设备进行数据传输和控制,用于拍摄照片和录制视频;相机还可以为视觉相机,其具有低成本、部署简单、泛用性好等优势,能够以较低的成本完成感知系统的部署;相机还可以为深度相机。在本公开实施例中,相机采用USB相机。
在一种示例性实施方式中,步骤S102可进一步包括:
使用关键点参数获得模型对待分析图像中的每帧图像进行二维关键点检测,确定出每帧图像中目标对象的每个二维关键点以及每个二维关键点的二维关键点信息;
建立各个视角间的二维关键点之间的匹配关系。
人体关键点检测可以细分为单人和多人关键点检测、二维和三维关键点检测。常见的人体关键点表示为17个关节点,包括鼻子、眼睛、耳朵、肩膀、肘部、手腕、臀部、膝盖和脚踝,人体关键点检测的任务是从输入的图像中检测到人体及其对应的关键点位置。
在本公开实施例中,关键点参数获得模型为根据待分析图像,得到目标对象的二维关键点的机器学习模型或者多个机器学习模型的组合。关键点参数获得模型是利用图像样本中的对象样本的二维关键点参数样本训练得到的。可选地,关键点参数获得模型可以为基于卷积神经网络确定出的基于深度神经网络的关键点检测算法模型;关键点参数获得模型还可以为基于确定性网络(Deterministic Networking,DetNet)确定出的基于深度神经网络的关键点检测算法模型,对此,本公开实施例并不做限制。
由于待分析图像中包括至少两帧不同视角且同步的图像,在分析过程中,会对每一帧图像分别进行检测,因此,可以获得每帧图像对应的二维关键点。由于每帧是不同视角下的目标对象,因此,需要不同视角下的二维关键点进行一一匹配,以确定对每个二维关键点进行三维重建时的准确性。
在一些实施例中,基于二维关键点重建确定出三维关键点之后,后续可以根据目标对象的三维关键点参数,使用参数化人体模型进行目标对象的三维人体重建。参数化人体模型可以包括但不限于:SMPL(多人线性蒙皮,Skinned Multi-Person Linear)模型、VIBE(人体姿态和形状估计的视频推断,Video Inference for Human Body Pose andShape Estimation)模型、SCAPE(形体还原及人物动画,Shape Completion and Animationof People)模型等。
在一种示例性实施方式中,二维关键点包括:人体二维关键点和手部二维关键点,该用于捕捉目标对象的运动的方法可进一步包括:
确定在待分析图像中是否检测到人体,若是,则检测并确定出人体二维关键点;
确定在待分析图像中是否检测到手部,若是,则检测并确定出手部二维关键点;
根据人体二维关键点中的第一手腕二维关键点以及手部二维关键点中的第二手腕二维关键点之间的距离,确定出目标对象的左手与右手。
人体关键点和手部关键点在运动捕捉中扮演着重要角色。这些关键点的检测目的是估计人体的形状参数、关节角度以及其他相关信息。由于身体和手部在图像中的比例不同,手部只占身体的很小一部分,想要直接捕捉两者的运动是一个很难的问题。
在本公开实施例中,从每个相机中检测到人体以及手部,然后检测到人体二维关键点以及手部二维关键点,根据人体二维关键点中的第一手腕关键点和手部二维关键点的第二手腕关键点的距离,确定左右手。通过精确地区分目标对象的左右手,可以提高三维关键点的运动状态与目标对象的实际运动状态相匹配的准确性。
在一种示例性实施方式中,该用于捕捉目标对象的运动的方法可进一步包括:
通过相机标定获得每个相机对应的相机参数,其中,相机参数包括:投影矩阵和光心。
通过相机标定可以获得相机成像几何模型的参数,其中包括光心的位置,该标定过程是通过对已知位置的标定板进行观测和分析,从而计算出相机光心在相机坐标系中的坐标。
在一种示例性实施方式中,步骤S103可以进一步包括:
根据投影表达式,对不同视角中相对应的同一个二维关键点建立第一方程组,第一方程组如下:
其中,m1表征第一视角下的二维关键点,m2表征第二视角下相对应的二维关键点,mN表征第N视角下相对应的二维关键点,P1表征第一视角对应的投影矩阵,P2表征第二视角对应的投影矩阵,PN表征第N视角对应的投影矩阵,M表征三维关键点;
基于加权最小二乘法求解M的第二方程组如下:
其中,c1表征第一视角下的置信度,c2表征第二视角下的置信度,cN表征第N视角下的置信度;
将第二方程组展开求解M,确定出重建的三维关键点。
在上述求解过程中,先根据投影表达式,建立起任一个二维关键点与三维关键点的表达关系,其中,所述投影表达式如下:
m=PM
其中,m表征二维关键点,P表征对应的投影矩阵,M表征三维关键点。
作为一种可能的实施方式,上述投影表达式可以变换为如下的第一表达式:
其中,s表征归一化因子,u表征二维关键点的列坐标,v表征二维关键点的横坐标,Pij表征投影矩阵参数中第i行、第j列的元素,X表征三维关键点在世界坐标的X轴的分量,Y表征三维关键点在世界坐标的Y轴的分量,Z表征三维关键点在世界坐标的Z轴的分量。
需要说明的是,世界坐标系是用于定义3D虚拟空间中的坐标[0,0,0]和彼此正交的三个单位轴的约定。它是3D场景的本初子午线,是对任何其他点或任何其他任意坐标系进行测量的参考。世界坐标系可以任意选择,为假想坐标系,在被指定后不变且唯一,即为绝对坐标系。
上述第一表达式展开可以得到如下的第二表达式:
在本公开实施例中,采用了至少两个相机进行拍摄以获得待分析图像,假设,使用的相机数量为两个,并以此为例说明三角测量原理。如图2所示,左右分别设置一个相机,其分别为相机1和相机2,从相机1和相机2中分别找到相匹配的二维关键点,然后分别连接相机光心和成像平面上的二维关键点,获得两条射线。由相机的加工误差、关键点检测算法的误差等因素影响,这两条射线在空间中没有交点。在图2中,同一个空间点,在相机1中的投影点为m1,在相机2中的投影点为m2;图像点m1和m2由上述的关键点检测算法获得;相机1的光心为O1,相机2的光心为O2。M为重建的三维关键点,通过相机标定获得两个相机的投影矩阵P1和P2。联立两组投影方程,得:
设m1和m2的置信度分别是c1和c2。基于加权最小二乘法求解M的第三方程组如下:
展开上述第三方程组,得到的第四方程组如下:
其中,u1表征m1的列坐标,v表征m1的横坐标,u2表征m2的列坐标,v2表征m2的横坐标,P1,ij表征投影矩阵P1的第i行、第j列的元素,P2,ij表征投影矩阵P2的第i行、第j列的元素。
将上述第四方程式变形,得到第五方程组如下:
解该方程得(X,Y,Z)即为重建的三维关键点的坐标。
当相机的个数超过2个时,依据上述的第一表达式和第二表达式,求解上述的第一方程组和第二方程组即可以获得(X,Y,Z)即为重建的三维关键点的坐标。
在一种示例性实施方式中,该用于捕捉目标对象的运动的方法可进一步包括:
确定各个视角下每个二维关键点的置信度是否大于预设置信度阈值;
若是,则基于每个二维关键点的二维关键点信息,采用加权最小二乘法,分别对应重建并确定出三维关键点。
通过上述方法,可以排除掉置信度低的二维关键点对重建过程的影响,提高重建的精确性。
图3是根据一示例性实施例示出的一种用于捕捉目标对象的运动的装置10的框图,如图3所示,该用于捕捉目标对象的运动的装置10可以包括:
获得模块110,被配置为获得待分析图像;
确定模块120,被配置为基于待分析图像,确定出目标对象的每个二维关键点并提取每个二维关键点的二维关键点信息,其中,二维关键点信息包括:二维关键点的像素坐标和置信度;
重建模块130,被配置为基于每个二维关键点的二维关键点信息,采用加权最小二乘法,分别对应重建并确定出三维关键点,以实现对目标对象的运动捕捉,其中,将每个二维关键点的置信度对应确定为每个二维关键点在三维重建中的权重参数。
在上述技术方案中,由于本方法中采用的二维关键点检测算法可以获取精准的二维关键点的像素坐标以及每个二维关键点的置信度,其中,二维关键点的精准性越高,其置信度越高。以二维关键点的置信度作为权重,基于加权最小二乘法重建三维关键点,精度越高的二维关键点对应的权重越大,使得重建结果精度更高。对于某些异常点,如被遮挡的或出界的关键点,其权重非常低,因此对重建的结果影响非常小。在无需在被捕捉的目标对象上安装标记点的前提下,避免了繁琐的捕捉过程;在以二维关键点的置信度作为权重,基于加权最小二乘法重建三维关键点的方法上,提高了重建的精确性。
可选地,获得模块110可以进一步包括:
采集子模块,被配置为使用至少两个不同视角的相机对目标对象进行同步拍摄并进行实时采集;
第一获得子模块,被配置为获得待分析图像,其中,待分析图像包括至少两帧不同视角且同步的图像。
可选地,确定模块120可以进一步包括:
第一确定子模块,被配置为使用关键点参数获得模型对待分析图像中的每帧图像进行二维关键点检测,确定出每帧图像中目标对象的每个二维关键点以及每个二维关键点的二维关键点信息;
第二确定子模块,被配置为建立各个视角间的二维关键点之间的匹配关系。
可选地,二维关键点包括:人体二维关键点和手部二维关键点,该用于捕捉目标对象的运动的装置10可以进一步包括:
第三确定子模块,被配置为确定在待分析图像中是否检测到人体,若是,则检测并确定出人体二维关键点;
第四确定子模块,被配置为确定在待分析图像中是否检测到手部,若是,则检测并确定出手部二维关键点;
第五确定子模块,被配置为根据人体二维关键点中的第一手腕二维关键点以及手部二维关键点中的第二手腕二维关键点之间的距离,确定出目标对象的左手与右手。
可选地,该用于捕捉目标对象的运动的装置10可以进一步包括:
第二获得子模块,被配置为通过相机标定获得每个相机对应的相机参数,其中,相机参数包括:投影矩阵和光心。
可选地,重建模块130可以进一步包括:
第六确定子模块,被配置为根据投影表达式,对不同视角中相对应的同一个二维关键点建立第一方程组,第一方程组如下:
其中,m1表征第一视角下的二维关键点,m2表征第二视角下相对应的二维关键点,mN表征第N视角下相对应的二维关键点,P1表征第一视角对应的投影矩阵,P2表征第二视角对应的投影矩阵,PN表征第N视角对应的投影矩阵,M表征三维关键点;
第七确定子模块,被配置为基于加权最小二乘法求解M的第二方程组如下:
其中,c1表征第一视角下的置信度,c2表征第二视角下的置信度,cN表征第N视角下的置信度;
第八确定子模块,被配置为将第二方程组展开求解M,确定出重建的三维关键点。
可选地,该用于捕捉目标对象的运动的装置10可以进一步包括:
第九确定子模块,被配置为确定各个视角下每个二维关键点的置信度是否大于预设置信度阈值;
重建子模块,被配置为若是,则基于每个二维关键点的二维关键点信息,采用加权最小二乘法,分别对应重建并确定出三维关键点。
关于上述实施例中的系统,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
参照图4,电子设备800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出接口812,传感器组件814,以及通信组件816。
处理组件802通常控制电子设备800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的用于捕捉目标对象的运动的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在电子设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为电子设备800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当电子设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当电子设备800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
输入/输出接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为电子设备800提供各个方面的状态评估。例如,传感器组件814可以检测到装置800的打开/关闭状态,组件的相对定位,例如所述组件为电子设备800的显示器和小键盘,传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变,用户与电子设备800接触的存在或不存在,电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述用于捕捉目标对象的运动的方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由电子设备800的处理器820执行以完成上述用于捕捉目标对象的运动的方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的用于捕捉目标对象的运动的方法的代码部分。
本领域技术人员在考虑说明书及实践本公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,其中A,B可以是单数或者复数。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系,但也可能表示的是一种“和/或”的关系,具体可参考前后文进行理解。
本申请中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种用于捕捉目标对象的运动的方法,其特征在于,所述方法包括:
获得待分析图像;
基于所述待分析图像,确定出所述目标对象的每个二维关键点并提取每个所述二维关键点的二维关键点信息,其中,所述二维关键点信息包括:二维关键点的像素坐标和置信度;
基于每个所述二维关键点的二维关键点信息,采用加权最小二乘法,分别对应重建并确定出三维关键点,以实现对所述目标对象的运动捕捉,其中,将每个所述二维关键点的置信度对应确定为每个二维关键点在三维重建中的权重参数。
2.根据权利要求1所述的用于捕捉目标对象的运动的方法,其特征在于,所述获得待分析图像包括:
使用至少两个不同视角的相机对所述目标对象进行同步拍摄并进行实时采集;
获得所述待分析图像,其中,所述待分析图像包括至少两帧不同视角且同步的图像。
3.根据权利要求2所述的用于捕捉目标对象的运动的方法,其特征在于,所述基于所述待分析图像,确定出所述目标对象的每个二维关键点并提取每个所述二维关键点的二维关键点信息,包括:
使用关键点参数获得模型对所述待分析图像中的每帧图像进行二维关键点检测,确定出每帧图像中所述目标对象的每个所述二维关键点以及每个所述二维关键点的二维关键点信息;
建立各个视角间的二维关键点之间的匹配关系。
4.根据权利要求2所述的用于捕捉目标对象的运动的方法,其特征在于,所述二维关键点包括:人体二维关键点和手部二维关键点,所述方法还包括:
确定在所述待分析图像中是否检测到人体,若是,则检测并确定出所述人体二维关键点;
确定在所述待分析图像中是否检测到手部,若是,则检测并确定出所述手部二维关键点;
根据所述人体二维关键点中的第一手腕二维关键点以及所述手部二维关键点中的第二手腕二维关键点之间的距离,确定出所述目标对象的左手与右手。
5.根据权利要求3所述的用于捕捉目标对象的运动的方法,其特征在于,所述方法还包括:
通过相机标定获得每个所述相机对应的相机参数,其中,所述相机参数包括:投影矩阵和光心。
6.根据权利要求5所述的用于捕捉目标对象的运动的方法,其特征在于,所述基于每个所述二维关键点的二维关键点信息,采用加权最小二乘法,分别对应重建并确定出三维关键点,包括:
根据投影表达式,对不同视角中相对应的同一个二维关键点建立第一方程组,所述第一
其中,m1表征第一视角下的二维关键点,m2表征第二视角下相对应的二维关键点,mN表征第N视角下相对应的二维关键点,P1表征第一视角对应的投影矩阵,P2表征第二视角对应的投影矩阵,PN表征第N视角对应的投影矩阵,M表征三维关键点;
基于加权最小二乘法求解M的第二方程组如下:
其中,c1表征第一视角下的置信度,c2表征第二视角下的置信度,cN表征第N视角下的置信度;
将所述第二方程组展开求解M,确定出重建的三维关键点。
7.根据权利要求2所述的用于捕捉目标对象的运动的方法,其特征在于,所述方法包括:
确定各个视角下每个二维关键点的置信度是否大于预设置信度阈值;
若是,则基于每个所述二维关键点的二维关键点信息,采用加权最小二乘法,分别对应重建并确定出三维关键点。
8.一种用于捕捉目标对象的运动的装置,其特征在于,所述装置包括:
获得模块,被配置为获得待分析图像;
确定模块,被配置为基于所述待分析图像,确定出所述目标对象的每个二维关键点并提取每个所述二维关键点的二维关键点信息,其中,所述二维关键点信息包括:二维关键点的像素坐标和置信度;
重建模块,被配置为基于每个所述二维关键点的二维关键点信息,采用加权最小二乘法,分别对应重建并确定出三维关键点,以实现对所述目标对象的运动捕捉,其中,将每个所述二维关键点的置信度对应确定为每个二维关键点在三维重建中的权重参数。
9.一种通信装置,其特征在于,包括:处理器,所述处理器与存储器耦合;
所述处理器,用于执行所述存储器中存储的计算机程序,以使得所述处理器执行如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括计算机程序或指令,当所述计算机程序或指令在计算机上运行时,使得如权利要求1-7中任一项所述的方法被执行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311130060.0A CN117315100A (zh) | 2023-09-01 | 2023-09-01 | 用于捕捉目标对象的运动的方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311130060.0A CN117315100A (zh) | 2023-09-01 | 2023-09-01 | 用于捕捉目标对象的运动的方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117315100A true CN117315100A (zh) | 2023-12-29 |
Family
ID=89287459
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311130060.0A Pending CN117315100A (zh) | 2023-09-01 | 2023-09-01 | 用于捕捉目标对象的运动的方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117315100A (zh) |
-
2023
- 2023-09-01 CN CN202311130060.0A patent/CN117315100A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Memo et al. | Head-mounted gesture controlled interface for human-computer interaction | |
CN105843386B (zh) | 一种商场虚拟试衣系统 | |
RU2708027C1 (ru) | Способ передачи движения субъекта из видео на анимированного персонажа | |
CN109410276B (zh) | 关键点位置确定方法、装置及电子设备 | |
TWI701941B (zh) | 圖像處理方法及裝置、電子設備及儲存介質 | |
KR20120054550A (ko) | 비디오 스트림에서 움직이고 있는 비정형 물체들을 실시간으로 검출 및 추적하여, 사용자가 컴퓨터 시스템과 상호 작용할 수 있게 해주는 방법 및 디바이스 | |
WO2023071964A1 (zh) | 数据处理方法, 装置, 电子设备及计算机可读存储介质 | |
CN112115894B (zh) | 手部关键点检测模型的训练方法、装置及电子设备 | |
Sun et al. | Real-time gaze estimation with online calibration | |
WO2022174594A1 (zh) | 基于多相机的裸手追踪显示方法、装置及系统 | |
WO2021039856A1 (ja) | 情報処理装置、表示制御方法および表示制御プログラム | |
CN114170302A (zh) | 相机外参标定方法、装置、电子设备及存储介质 | |
CN112581571B (zh) | 虚拟形象模型的控制方法、装置、电子设备及存储介质 | |
CN109859100A (zh) | 虚拟背景的显示方法、电子设备和计算机可读存储介质 | |
CN112614214A (zh) | 动作捕捉方法、装置、电子设备及存储介质 | |
CN109859857A (zh) | 身份信息的标注方法、装置和计算机可读存储介质 | |
CN112669381A (zh) | 一种位姿确定方法、装置、电子设备及存储介质 | |
Lin et al. | Extracting 3D facial animation parameters from multiview video clips | |
CN114581525A (zh) | 姿态确定方法及装置、电子设备和存储介质 | |
CN114140536A (zh) | 位姿数据处理方法、装置、电子设备及存储介质 | |
Deldjoo et al. | A low-cost infrared-optical head tracking solution for virtual 3d audio environment using the nintendo wii-remote | |
Perales | Human motion analysis and synthesis using computer vision and graphics techniques. State of art and applications | |
CN117315100A (zh) | 用于捕捉目标对象的运动的方法、装置及电子设备 | |
CN114821799A (zh) | 基于时空图卷积网络的动作识别方法、装置和设备 | |
CN113342157B (zh) | 眼球追踪处理方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |