CN113393563B - 关键点自动标注的方法、系统、电子装置和存储介质 - Google Patents
关键点自动标注的方法、系统、电子装置和存储介质 Download PDFInfo
- Publication number
- CN113393563B CN113393563B CN202110579674.1A CN202110579674A CN113393563B CN 113393563 B CN113393563 B CN 113393563B CN 202110579674 A CN202110579674 A CN 202110579674A CN 113393563 B CN113393563 B CN 113393563B
- Authority
- CN
- China
- Prior art keywords
- key point
- point coordinate
- gesture image
- camera
- coordinate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 66
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000012937 correction Methods 0.000 claims abstract description 22
- 238000004590 computer program Methods 0.000 claims description 17
- 238000001914 filtration Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 7
- 238000009499 grossing Methods 0.000 claims description 6
- 230000001360 synchronised effect Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000000007 visual effect Effects 0.000 claims description 4
- 238000013135 deep learning Methods 0.000 abstract description 6
- 238000012549 training Methods 0.000 abstract description 5
- 239000003086 colorant Substances 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 9
- 230000002159 abnormal effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/80—Geometric correction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/80—Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
- G06T7/85—Stereo camera calibration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
- G06T2207/10012—Stereo images
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Graphics (AREA)
- Image Analysis (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请涉及一种关键点自动标注的方法、系统、电子装置和存储介质,通过获取双目摄像头同一时间戳下的两张手势图像,获取标注模型对两张手势图像标注的第一2D关键点坐标和第二2D关键点坐标;对两组2D关键点坐标进行畸变校正和极线校正;根据校正后的两组2D关键点坐标对应关键点的视差,计算第一手势图像的第一3D关键点坐标和第二手势图像的第二3D关键点坐标,公开和开源的基于彩色的手势2D关键点标注数据集较多,基于这些开源的数据,利用深度学习训练出一个精度较高的关键点标注模型,但彩色的手势3D关键点数据较少,且3D关键点很难人工标注,人工标注成本高,误差大,本申请方案可以较低成本获取大量高精度标注的3D关键点训练数据。
Description
技术领域
本申请涉及关键点标注技术领域,特别是涉及关键点自动标注的方法、系统、电子装置和存储介质。
背景技术
随着技术的发展,增强现实(Augmented Reality,AR)和虚拟现实(VirtualReality,VR)等技术的应用逐渐普及,人们可以通过手指的动作与虚拟场景中的3D形象进行互动,这些功能的实现都基于对手指动作的灵敏捕捉,以准确地获取手指各个关节姿态信息。
为了捕获手指各个关节姿态信息,通常采用深度学习网络来训练算法模型,深度学习网络需要大量已标注关键点的手部数据集作为网络训练样本。相关技术中,手势2D关键点数据通常采用人工标注的方法,但人工标注成本很高,且对于部分关键点不可见或被遮挡的情况,人工标注会带来较大误差,3D关键点人工很难标注,可通过标注双目图像完成3D关键点标注,但会带来更多的人工成本,同时对于不可见关键点或遮挡区域会带来更大的误差,而自动标注的方案需要特定的场景或需要佩戴特定传感器,会污染图像,造成训练数据不可用。
目前针对相关技术中通过人工标注手势2D/3D关键点数据成本较高,误差较大,而自动标注会污染图像的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种关键点自动标注的方法、系统、电子装置和存储介质,以至少解决相关技术中通过人工标注手势2D/3D关键点数据成本较高,误差较大,而自动标注会污染图像的问题。
第一方面,本申请实施例提供了一种关键点自动标注的方法,所述方法包括:
获取双目摄像头同一时间戳下的第一手势图像和第二手势图像,其中,所述双目摄像头包括左摄像头和右摄像头,所述左摄像头拍摄的为所述第一手势图像,所述右摄像头拍摄的为所述第二手势图像;
获取标注模型对所述第一手势图像标注的第一2D关键点坐标和所述第二手势图像标注的第二2D关键点坐标;
获取对所述第一2D关键点坐标和所述第二2D关键点坐标进行畸变校正和极线校正后的第一2D关键点坐标和第二2D关键点坐标;
根据校正后的第一2D关键点坐标和第二2D关键点坐标对应关键点的视差,计算所述第一手势图像的第一3D关键点坐标和所述第二手势图像的第二3D关键点坐标。
在其中一些实施例中,所述计算所述第一手势图像的第一3D关键点坐标和所述第二手势图像的第二3D关键点坐标之后,所述方法还包括:
获取单目摄像头所述同一时间戳下的第三手势图像;
在所述单目摄像头距离所述右摄像头最近的情况下,根据就近原则,通过所述第二3D关键点坐标计算所述第三手势图像的第三3D关键点坐标,所述第三3D关键点坐标计算如下:
P3d_m=Rr_to_mP3d_r+Tr_to_m,
其中,P3d_m为所述第三3D关键点坐标,P3d_r为所述第二3D关键点坐标,Rr_to_m和Tr_to_m为预先标定的所述右摄像头到所述单目摄像头的外参;
在其中一些实施例中,在所述单目摄像头距离所述右摄像头最近的情况下,根据就近原则,通过所述第二3D关键点坐标计算所述第三手势图像的第三3D关键点坐标之后,所述方法还包括:
计算所述第三手势图像的第三2D关键点坐标,所述第三2D关键点坐标计算如下:
udis=fx[x+2p1xy+2p2x2,xk1+p2,xk2,xk3][1,r2,r4,r6]T+cx,
vdis=fy[y+2p2xy+2p1y2,yk1+p1,yk2,yk3][1,r2,r4,r6]T+cy,
其中,P2d_m=(udis,vdis),P2d_m为所述第三2D关键点坐标, (k1,k1,k3,p1,p2)为标定参数,k1,k2,k3是径向畸变系数,p1,p2是切向畸变系数,(fx,fy)为焦距,(cx,cy)为主点偏移。
在其中一些实施例中,所述获取标注模型对所述第一手势图像标注的第一2D关键点坐标和所述第二手势图像标注的第二2D关键点坐标之后,所述方法还包括:
获取所述第一2D关键点坐标和所述第二2D关键点坐标平滑滤波的结果,假设滤波器在某一帧需要滤波的数据为x,记录的时刻为t,滤波过程如下:
按照下列公式对结果进行滤波
在其中一些实施例中,所述获取单目摄像头所述同一时间戳下的第三手势图像之前,所述方法还包括以下至少之一:
计算所述第一3D关键点坐标变换到所述第二3D关键点坐标的坐标偏差,若所述坐标偏差的最大值大于第一阈值,或所述坐标偏差的平均值大于第二阈值,则跳过当前帧手势图像;
计算所述第一3D关键点坐标和所述第二3D关键点坐标和上一帧手势图像的偏移距离,若所述偏移距离的最大值大于第三阈值,或所述偏移距离的平均值大于第四阈值,则跳过当前帧手势图像;
根据所述第一3D关键点坐标或所述第二3D关键点坐标获取手势图像中的手指长度、手掌长度和手掌宽度,并与测量的真实长度进行对比,若最大误差超过第五阈值,则跳过当前帧手势图像。
在其中一些实施例中,所述获取双目摄像头同一时间戳下的第一手势图像和第二手势图像之前,所述方法还包括:
固定双目摄像头和N个单目摄像头,用于获取不同视角下的手势图像,其中,所述双目摄像头物理上同轴,所述双目摄像头和N个所述单目摄像头的时间轴同步。
在其中一些实施例中,所述固定双目摄像头和N个单目摄像头之后,所述方法还包括:
标定所述双目摄像头和N个所述单目摄像头的内参、所述双目摄像头之间的外参和所述单目摄像头到所述双目摄像头之间的外参。
第二方面,本申请实施例提供了一种关键点自动标注的系统,所述系统包括获取模块、标注模块、矫正模块和计算模块,
所述获取模块,用于获取双目摄像头同一时间戳下的第一手势图像和第二手势图像,其中,所述双目摄像头包括左摄像头和右摄像头,所述左摄像头拍摄的为所述第一手势图像,所述右摄像头拍摄的为所述第二手势图像;
所述标注模块,用于获取标注模型对所述第一手势图像标注的第一2D关键点坐标和所述第二手势图像标注的第二2D关键点坐标;
所述矫正模块,用于获取对所述第一2D关键点坐标和所述第二2D关键点坐标进行畸变校正和极线校正后的第一2D关键点坐标和第二2D关键点坐标;
所述计算模块,用于根据校正后的第一2D关键点坐标和第二2D关键点坐标对应关键点的视差,计算所述第一手势图像的第一3D关键点坐标和所述第二手势图像的第二3D关键点坐标。
第三方面,本申请实施例提供了一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的关键点自动标注的方法。
第四方面,本申请实施例提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的关键点自动标注的方法。
相比于相关技术,本申请实施例提供的关键点自动标注的方法,通过获取双目摄像头同一时间戳下的第一手势图像和第二手势图像,其中,双目摄像头包括左摄像头和右摄像头,左摄像头拍摄的为第一手势图像,右摄像头拍摄的为第二手势图像;获取标注模型对第一手势图像标注的第一2D关键点坐标和第二手势图像标注的第二2D关键点坐标;获取对第一2D关键点坐标和第二2D关键点坐标进行畸变校正和极线校正后的第一2D关键点坐标和第二2D关键点坐标;根据校正后的第一2D关键点坐标和第二2D关键点坐标对应关键点的视差,计算第一手势图像的第一3D关键点坐标和第二手势图像的第二3D关键点坐标,相关技术中,公开和开源的基于彩色的手势2D关键点标注数据集较多,基于这些开源的数据,可以相对容易地利用深度学习训练出一个精度较高的关键点标注模型,但彩色的手势3D关键点数据较少,且3D关键点很难人工标注,人工标注成本高,误差大,本申请方案可以较低成本获取大量高精度标注的3D关键点训练数据。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的关键点自动标注的方法的流程图;
图2是根据本申请实施例的标注模型标注的2D关键点坐标结果的示意图;
图3是根据本申请实施例的双目摄像头和两个单目摄像头的采集方案的示意图;
图4是根据本申请实施例的另一种关键点自动标注的方法的流程图;
图5是根据本申请实施例的关键点自动标注的系统的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。
本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指大于或者等于两个。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本实施例提供了一种关键点自动标注的方法,图1是根据本申请实施例的关键点自动标注的方法的流程图,如图1所示,该方法包括如下步骤:
步骤S101,获取双目摄像头同一时间戳下的第一手势图像和第二手势图像,其中,双目摄像头包括左摄像头和右摄像头,左摄像头拍摄的为第一手势图像,右摄像头拍摄的为第二手势图像;
步骤S102,获取标注模型对第一手势图像标注的第一2D关键点坐标和第二手势图像标注的第二2D关键点坐标;本实施例中,标注模型为2D关键点定位模型,目前世界范围内,公开和开源的基于彩色的手势2D关键点标注数据集较多,故双目摄像头为双目彩色摄像头,基于这些开源的数据,可以相对容易地利用深度学习训练出一个精度较高的2D关键点定位模型,通过2D关键点定位模型标注第一手势图像和第二手势图像的2D关键点坐标,图2是根据本申请实施例的标注模型标注的2D关键点坐标结果的示意图,如图2所示,即为常用的21个2D关键点结果;
步骤S103,获取对第一2D关键点坐标和第二2D关键点坐标进行畸变校正和极线校正后的第一2D关键点坐标和第二2D关键点坐标;本实施例中,利用预先标定的畸变参数,分别对第一2D关键点坐标和第二2D关键点坐标进行畸变矫正,接着利用标定的双目摄像头的外参进行极线矫正,确保双目摄像头的光轴完全平行,校正后的第一2D关键点坐标和第二2D关键点坐标为无畸变且理论上光轴齐平的关键点;
步骤S104,根据校正后的第一2D关键点坐标和第二2D关键点坐标对应关键点的视差,计算第一手势图像的第一3D关键点坐标和第二手势图像的第二3D关键点坐标。示例性的,以双目摄像头中的右摄像头为例,第二3D关键点坐标通过如下公式1计算:
其中,P3d_r=(x,y,z),P3d_r为第二3D关键点坐标,(ul,vl)为校正后的第一2D关键点坐标,(ur,vr)为校正后的第二2D关键点坐标,D为矫正后的光轴距离,kx为矫正后相机的内参,cx,cy为主点偏移。
通过上述步骤S101至步骤S104,相对于相关技术中,公开和开源的基于彩色的手势2D关键点标注数据集较多,但彩色的3D关键点标注数据较少,且3D关键点人工很难标注,通过标注双目图像可以完成3D关键点标注,但会带来更多的人工成本,同时对于不可见关键点或遮挡区域会带来更大的误差,本申请通过开源的基于彩色的手势2D关键点标注数据集,利用深度学习训练出精度较高的2D关键点定位模型,获取双目摄像头同一时间戳下的第一手势图像和第二手势图像的第一2D关键点坐标和第二2D关键点坐标之后,根据对应关键点的视差,即可通过公式1求出第一手势图像的第一3D关键点坐标和第二手势图像的第二3D关键点坐标,解决了手势3D关键点数据较少,且3D关键点很难人工标注,人工标注成本高,误差大的问题。
在其中一些实施例中,计算第一手势图像的第一3D关键点坐标和第二手势图像的第二3D关键点坐标之后,可通过第一3D关键点坐标和第二3D关键点坐标计算其它摄像头的3D关键点坐标,计算过程如下:
S1:获取单目摄像头同一时间戳下的第三手势图像;其中,第一手势图像、第二手势图像和第三手势图像为同一时间下不同摄像头通过不同角度拍摄的同一只手的图像;
S2:在单目摄像头距离右摄像头最近的情况下,根据就近原则,通过第二3D关键点坐标计算第三手势图像的第三3D关键点坐标,第三3D关键点坐标通过如下公式2计算:
P3d_m=Rr_to_mP3d_r+Tr_to_m 公式2
其中,P3d_m为第三3D关键点坐标,P3d_r为第二3D关键点坐标,Rr_to_m和Tr_to_m为预先标定的右摄像头到该单目摄像头的外参,本实施例中,单目摄像头可以为灰度摄像头或红外摄像头,开源的基于灰度和红外这种专用摄像头的3D关键点标注数据非常少,获取到第一手势图像的第一3D关键点坐标和第二手势图像的第二3D关键点坐标之后,通过第一3D关键点坐标和第二3D关键点坐标可计算出其它摄像头的3D关键点坐标,解决了开源的基于灰度、红外这种专用摄像头的3D关键点标注数据非常少,通过人工标注成本高和误差大的问题。
在其中一些实施例中,在单目摄像头距离右摄像头最近的情况下,根据就近原则,通过第二3D关键点坐标计算第三手势图像的第三3D关键点坐标之后,计算第三手势图像的第三2D关键点坐标,第三2D关键点坐标通过如下公式3、公式4和公式5计算:
udis=fx[x+2p1xy+2p2x2,xk1+p2,xk2,xk3][1,r2,r4,r6]T+cx 公式4
vdis=fy[y+2p2xy+2p1y2,yk1+p1,yk2,yk3][1,r2,r4,r6]T+cy 公式5其中,P2d_m=(udis,vdis),P2d_m为第三2D关键点坐标, (k1,k2,k3,p1,p2)为标定参数,k1,k2,k3是径向畸变系数,p1,p2是切向畸变系数,(fx,fy)为焦距,(cx,cy)为主点偏移,本实施例中,获取到该单目摄像头的第三3D关键点坐标后,通过公式3至公式5计算出该单目摄像头的第三2D关键点坐标,解决了开源的基于灰度、红外这种专用摄像头的2D关键点标注数据非常少,通过人工标注成本高和误差大的问题。
在其中一些实施例中,获取标注模型对第一手势图像标注的第一2D关键点坐标和第二手势图像标注的第二2D关键点坐标之后,利用帧间关系对2D关键点坐标进行平滑滤波,如果为第一帧或者标注模型无结果,需要初始化或重置滤波器,正常情况需要对所有坐标值分别进行平滑滤波,减少标注模型的抖动,提升标注精度,假设滤波器在某一帧需要滤波的数据为x,记录的时刻为t,滤波过程如下:
按照下列公式6和公式7对第一2D关键点坐标和第二2D关键点坐标进行滤波:
在其中一些实施例中,获取单目摄像头同一时间戳下的第三手势图像之前,通过以下至少之一剔除异常的情况:
利用双目摄像头的对应关系,剔除异常的手:计算第一3D关键点坐标变换到第二3D关键点坐标的坐标偏差,坐标偏差E通过如下公式8求出:
E=Rl_to_rP3d_l+Tl_to_r-P3d_l 公式8
Rl_to_r和Tl_to_r为预先标定的右摄像头到左摄像头的外参,P3d_l为第一3D关键点坐标,若坐标偏差E的最大值大于第一阈值,或坐标偏差E的平均值大于第二阈值,则认为当前帧手势图像标注的结果不鲁棒,跳过当前帧手势图像,处理下一组手势图像;
利用前后帧手的连续性,剔除异常的情况:如果上一帧手势图像标注的结果鲁棒,计算第一3D关键点坐标和第二3D关键点坐标和上一帧手势图像的偏移距离,若偏移距离的最大值大于第三阈值,或偏移距离的平均值大于第四阈值,则认为当前帧手势图像标注的结果不鲁棒,跳过当前帧手势图像;
利用手尺寸的先验,剔除不符合人体构造的手型:根据第一3D关键点坐标获取第一手势图像中的手指长度、手掌长度和手掌宽度,根据第二3D关键点坐标获取第二手势图像中的手指长度、手掌长度和手掌宽度,并与测量的真实长度进行对比,若第一手势图像或第二手势图像中的手指长度、手掌长度和手掌宽度的最大误差超过第五阈值,则认为该组手势图像的标定结果不符合人体构造,跳过当前帧手势图像,本实施例中,通过剔除异常的情况,进一步筛选结果,使得数据更加可靠。
在其中一些实施例中,获取双目摄像头同一时间戳下的第一手势图像和第二手势图像之前,固定双目摄像头和N个单目摄像头,用于获取不同视角下的手势图像,其中,双目摄像头物理上同轴,双目摄像头和N个单目摄像头的时间轴同步。本实施例中,双目摄像头和N个单目摄像头的相对固定位置可以根据实际应用场景确定,图3是根据本申请实施例的双目摄像头和两个单目摄像头的采集方案的示意图,如图3所述,为一种包含双目摄像头和两个单目摄像头的采集方案,在此基础上也可以利用支架将其他摄像头固定到空间的不同位置朝以获得更多视角下的包含手的图像,摄像头越多,得到的2D/3D关键点标注数据越多,双目摄像头物理上尽可能同轴,所有摄像头尽可能保证时间轴同步,以提升标注精度。
在其中一些实施例中,固定双目摄像头和N个单目摄像头之后,标定双目摄像头和N个单目摄像头的内参、双目摄像头之间的外参和单目摄像头到双目摄像头之间的外参。其中,相机内参分为内参矩阵和畸变参数矩阵,相机外参分为旋转矩阵和平移矩阵。
在其中一些实施例中,图4是根据本申请实施例的另一种关键点自动标注的方法的流程图,如图4所述,该方法包括如下步骤:
步骤S401,根据实际需求搭建采集设备,固定双目彩色摄像头和N个其他摄像头,相对固定位置可以根据实际应用场景确定,在不同场景和不同环境下,通过各摄像头采集连续时间上包含不同手型的数据,存储各摄像头的视频数据,保证各摄像头时间轴保持一致,帧率一致,用户需要保证手在双目摄像头的视野范围内,边走边变换各种手势类型,以获取更充分和多样的数据,只需保证数据的可靠性,采集设备和形式不作限定,采集足够多用户后,存储各视频数据及每张手势图像对应的时间戳,采集设备性能足够时,也可以一边采集一边标注;
步骤S402,标定各相机内参和外参,测量采集人员的手部尺寸,即标定双目摄像头和N个其他摄像头的内参、双目摄像头之间的外参和其他摄像头到最近双目摄像头之间的外参,并测量采集人员的各手指总长度和手掌长宽;
步骤S403,采集经过时间轴同步的包含手的视频数据,在不同场景不同环境采集连续时间上的包含不同手型的数据,存储各摄像头视频数据及每张图片对应的时间戳;
步骤S404,获取一张各相机的视频流数据,采集设备性能足够时,也可以一边采集一边标注,也即直接从各摄像头获取同一时间的一张图像,得到两张双目摄像头的图像和N张其他摄像头的图像,同时记录采集时刻的准确的时间;
步骤S405,利用预先训练的标注模型标注双目摄像头的两张手势图像的2D关键点结果;
步骤S406,分别对2D关键点结果进行平滑处理,利用帧间关系对双目摄像头的两张手势图像的2D关键点结果进行平滑滤波;
步骤S407,利用标定参数计算双目摄像头的两张手势图像的3D关键点结果;
步骤S408,利用先验筛去不准确的结果,即利用双目摄像头的对应关系,剔除异常的手、利用前后帧手的连续性,剔除异常的手和利用手的尺寸,剔除不符合人体构造的手型;
步骤S409,利用标定参数计算其他摄像头下手的3D关键点和2D关键点;
步骤S410,保存图像和对应的2D/3D关键点标注结果;
步骤S411,利用数据训练对应的2D/3D模型用于实际应用场景。
通过上述步骤S401至步骤S411,实现自动标注链路,大幅度减少关键点标注的人工成本,只需要一个基于彩色2D关键点标注模型即可标注同种或异种其他摄像头的2D和3D关键点数据,大幅减少了人工标注的工作,对于不可见关键点的标注精度比人工更高更合理。搭建好平台后可以非常迅速地获取海量数据,同时利用前后帧对结果进行平滑处理,使得标注结果更加稳定和鲁棒,自动筛选部分确保了标注的正确性和合理性。在较短时间内以较少的人工成本获取大量标注精度较高的图像数据,非常契合当前机器学习对于数据量和标签精度的需求。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例还提供了一种关键点自动标注的系统,该系统用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图5是根据本申请实施例的关键点自动标注的系统的结构框图,如图5所示,该系统包括获取模块、标注模块、矫正模块和计算模块,获取模块,用于获取双目摄像头同一时间戳下的第一手势图像和第二手势图像,其中,双目摄像头包括左摄像头和右摄像头,左摄像头拍摄的为第一手势图像,右摄像头拍摄的为第二手势图像;标注模块,用于获取标注模型对第一手势图像标注的第一2D关键点坐标和第二手势图像标注的第二2D关键点坐标;矫正模块,用于获取对第一2D关键点坐标和第二2D关键点坐标进行畸变校正和极线校正后的第一2D关键点坐标和第二2D关键点坐标;计算模块,用于根据校正后的第一2D关键点坐标和第二2D关键点坐标对应关键点的视差,计算第一手势图像的第一3D关键点坐标和第二手势图像的第二3D关键点坐标,解决了手势3D关键点数据较少,且3D关键点很难人工标注,人工标注成本高,误差大的问题。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
本实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
另外,结合上述实施例中的关键点自动标注的方法,本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种关键点自动标注的方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种关键点自动标注的方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域的技术人员应该明白,以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (9)
1.一种关键点自动标注的方法,其特征在于,所述方法包括:
获取双目摄像头同一时间戳下的第一手势图像和第二手势图像,其中,所述双目摄像头包括左摄像头和右摄像头,所述左摄像头拍摄的为所述第一手势图像,所述右摄像头拍摄的为所述第二手势图像;
获取标注模型对所述第一手势图像标注的第一2D关键点坐标和所述第二手势图像标注的第二2D关键点坐标;
获取对所述第一2D关键点坐标和所述第二2D关键点坐标进行畸变校正和极线校正后的第一2D关键点坐标和第二2D关键点坐标;
根据校正后的第一2D关键点坐标和第二2D关键点坐标对应关键点的视差,计算所述第一手势图像的第一3D关键点坐标和所述第二手势图像的第二3D关键点坐标;
获取单目摄像头所述同一时间戳下的第三手势图像;
在所述单目摄像头距离所述右摄像头最近的情况下,根据就近原则,通过所述第二3D关键点坐标计算所述第三手势图像的第三3D关键点坐标,所述第三3D关键点坐标计算如下:
P3d_m=Rr_to_mP3d_r+Tr_to_m,
其中,P3d_m为所述第三3D关键点坐标,P3d_r为所述第二3D关键点坐标,Rr_to_m和Tr_to_m为预先标定的所述右摄像头到所述单目摄像头的外参。
2.根据权利要求1所述的方法,其特征在于,在所述单目摄像头距离所述右摄像头最近的情况下,根据就近原则,通过所述第二3D关键点坐标计算所述第三手势图像的第三3D关键点坐标之后,所述方法还包括:
计算所述第三手势图像的第三2D关键点坐标,所述第三2D关键点坐标计算如下:
udis=fx[x+2p1xy+2p2x2,xk1+p2,xk2,xk3][1,r2,r4,r6]T+cx,
vdis=fy[y+2p2xy+2p1y2,yk1+p1,yk2,yk3][1,r2,r4,r6]T+cy,
4.根据权利要求1所述的方法,其特征在于,所述获取单目摄像头所述同一时间戳下的第三手势图像之前,所述方法还包括以下至少之一:
计算所述第一3D关键点坐标变换到所述第二3D关键点坐标的坐标偏差,若所述坐标偏差的最大值大于第一阈值,或所述坐标偏差的平均值大于第二阈值,则跳过当前帧手势图像;
计算所述第一3D关键点坐标和所述第二3D关键点坐标和上一帧手势图像的偏移距离,若所述偏移距离的最大值大于第三阈值,或所述偏移距离的平均值大于第四阈值,则跳过当前帧手势图像;
根据所述第一3D关键点坐标或所述第二3D关键点坐标获取手势图像中的手指长度、手掌长度和手掌宽度,并与测量的真实长度进行对比,若最大误差超过第五阈值,则跳过当前帧手势图像。
5.根据权利要求1所述的方法,其特征在于,所述获取双目摄像头同一时间戳下的第一手势图像和第二手势图像之前,所述方法还包括:
固定双目摄像头和N个单目摄像头,用于获取不同视角下的手势图像,其中,所述双目摄像头物理上同轴,所述双目摄像头和N个所述单目摄像头的时间轴同步。
6.根据权利要求5所述的方法,其特征在于,所述固定双目摄像头和N个单目摄像头之后,所述方法还包括:
标定所述双目摄像头和N个所述单目摄像头的内参、所述双目摄像头之间的外参和所述单目摄像头到所述双目摄像头之间的外参。
7.一种关键点自动标注的系统,其特征在于,所述系统包括获取模块、标注模块、矫正模块和计算模块,
所述获取模块,用于获取双目摄像头同一时间戳下的第一手势图像和第二手势图像,其中,所述双目摄像头包括左摄像头和右摄像头,所述左摄像头拍摄的为所述第一手势图像,所述右摄像头拍摄的为所述第二手势图像;
所述标注模块,用于获取标注模型对所述第一手势图像标注的第一2D关键点坐标和所述第二手势图像标注的第二2D关键点坐标;
所述矫正模块,用于获取对所述第一2D关键点坐标和所述第二2D关键点坐标进行畸变校正和极线校正后的第一2D关键点坐标和第二2D关键点坐标;
所述计算模块,用于根据校正后的第一2D关键点坐标和第二2D关键点坐标对应关键点的视差,计算所述第一手势图像的第一3D关键点坐标和所述第二手势图像的第二3D关键点坐标;
获取单目摄像头所述同一时间戳下的第三手势图像;
在所述单目摄像头距离所述右摄像头最近的情况下,根据就近原则,通过所述第二3D关键点坐标计算所述第三手势图像的第三3D关键点坐标,所述第三3D关键点坐标计算如下:
P3d_m=Rr_to_mP3d_r+Tr_to_m,
其中,P3d_m为所述第三3D关键点坐标,P3d_r为所述第二3D关键点坐标,Rr_to_m和Tr_to_m为预先标定的所述右摄像头到所述单目摄像头的外参。
8.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至6中任一项所述的关键点自动标注的方法。
9.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1至6中任一项所述的关键点自动标注的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110579674.1A CN113393563B (zh) | 2021-05-26 | 2021-05-26 | 关键点自动标注的方法、系统、电子装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110579674.1A CN113393563B (zh) | 2021-05-26 | 2021-05-26 | 关键点自动标注的方法、系统、电子装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113393563A CN113393563A (zh) | 2021-09-14 |
CN113393563B true CN113393563B (zh) | 2023-04-11 |
Family
ID=77619220
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110579674.1A Active CN113393563B (zh) | 2021-05-26 | 2021-05-26 | 关键点自动标注的方法、系统、电子装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113393563B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114185429B (zh) * | 2021-11-11 | 2024-03-26 | 杭州易现先进科技有限公司 | 手势关键点定位或姿态估计的方法、电子装置和存储介质 |
CN114821717B (zh) * | 2022-04-20 | 2024-03-12 | 北京百度网讯科技有限公司 | 目标对象融合方法、装置、电子设备及存储介质 |
CN117095131B (zh) * | 2023-10-16 | 2024-02-06 | 广州紫为云科技有限公司 | 物体运动关键点的三维重建方法、设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112101312A (zh) * | 2020-11-16 | 2020-12-18 | 深圳市优必选科技股份有限公司 | 手部关键点的识别方法、装置、机器人和存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100361070C (zh) * | 2004-10-29 | 2008-01-09 | 中国科学院计算技术研究所 | 一种基于光学的运动捕获数据的骨骼运动提取方法 |
CN106250867B (zh) * | 2016-08-12 | 2017-11-14 | 南京华捷艾米软件科技有限公司 | 一种基于深度数据的人体骨骼跟踪系统的实现方法 |
CN107009962B (zh) * | 2017-02-23 | 2019-05-14 | 杭州电子科技大学 | 一种基于姿态识别的全景观测方法 |
CN108229318A (zh) * | 2017-11-28 | 2018-06-29 | 北京市商汤科技开发有限公司 | 手势识别和手势识别网络的训练方法及装置、设备、介质 |
CN111091063B (zh) * | 2019-11-20 | 2023-12-29 | 北京迈格威科技有限公司 | 活体检测方法、装置及系统 |
CN110942032B (zh) * | 2019-11-27 | 2022-07-15 | 深圳市商汤科技有限公司 | 活体检测方法及装置、存储介质 |
CN111523387B (zh) * | 2020-03-24 | 2024-04-19 | 杭州易现先进科技有限公司 | 手部关键点检测的方法、设备和计算机设备 |
CN112749512B (zh) * | 2021-01-18 | 2024-01-26 | 杭州易现先进科技有限公司 | 手势估计优化的方法、系统和电子装置 |
-
2021
- 2021-05-26 CN CN202110579674.1A patent/CN113393563B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112101312A (zh) * | 2020-11-16 | 2020-12-18 | 深圳市优必选科技股份有限公司 | 手部关键点的识别方法、装置、机器人和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113393563A (zh) | 2021-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113393563B (zh) | 关键点自动标注的方法、系统、电子装置和存储介质 | |
CN108364319B (zh) | 尺度确定方法、装置、存储介质及设备 | |
CN107255476B (zh) | 一种基于惯性数据和视觉特征的室内定位方法和装置 | |
CN111457886B (zh) | 距离确定方法、装置及系统 | |
Tanskanen et al. | Live metric 3D reconstruction on mobile phones | |
CN111354042A (zh) | 机器人视觉图像的特征提取方法、装置、机器人及介质 | |
CN107223330A (zh) | 一种深度信息获取方法、装置及图像采集设备 | |
CN111127524A (zh) | 一种轨迹跟踪与三维重建方法、系统及装置 | |
CN108805987B (zh) | 基于深度学习的混合跟踪方法及装置 | |
CN108090463B (zh) | 对象控制方法、装置、存储介质和计算机设备 | |
WO2014187222A1 (zh) | 拍摄方法、装置和终端 | |
CN108154533A (zh) | 一种位置姿态确定方法、装置及电子设备 | |
CN110232707B (zh) | 一种测距方法及装置 | |
CN111741223B (zh) | 一种全景图像拍摄方法、装置和系统 | |
TW202314593A (zh) | 定位方法及設備、電腦可讀儲存媒體 | |
WO2022174574A1 (zh) | 基于传感器的裸手数据标注方法及系统 | |
CN111354029A (zh) | 手势深度确定方法、装置、设备及存储介质 | |
CN113240806B (zh) | 信息处理方法、装置、电子设备及存储介质 | |
CN112945231A (zh) | 一种imu与刚体姿态对齐的方法、装置、设备以及可读存储介质 | |
CN109451216A (zh) | 一种拍摄照片的显示处理方法和装置 | |
CN114095644B (zh) | 一种图像校正的方法和计算机设备 | |
CN104113684A (zh) | 控制方法及电子装置 | |
CN111860275A (zh) | 手势识别数据采集系统、方法 | |
CN114979456B (zh) | 视频数据的防抖处理方法、装置、计算机设备和存储介质 | |
CN111368675A (zh) | 手势深度信息的处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |