CN110598556A - 一种人体身形姿态匹配方法和装置 - Google Patents

一种人体身形姿态匹配方法和装置 Download PDF

Info

Publication number
CN110598556A
CN110598556A CN201910739314.6A CN201910739314A CN110598556A CN 110598556 A CN110598556 A CN 110598556A CN 201910739314 A CN201910739314 A CN 201910739314A CN 110598556 A CN110598556 A CN 110598556A
Authority
CN
China
Prior art keywords
human body
information
dimensional
key point
posture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910739314.6A
Other languages
English (en)
Inventor
胡晓军
孔令树
黄伟林
康妙
朱韵
马修·罗伯特·斯科特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yuepu Investment Center LP
Original Assignee
Shenzhen Malong Artificial Intelligence Research Center
Shenzhen Malong Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Malong Artificial Intelligence Research Center, Shenzhen Malong Technologies Co Ltd filed Critical Shenzhen Malong Artificial Intelligence Research Center
Priority to CN201910739314.6A priority Critical patent/CN110598556A/zh
Publication of CN110598556A publication Critical patent/CN110598556A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

一种人体身形姿态匹配方法和装置,用于RGBD图像的人体身形姿态匹配,包括:通过卷积神经网络对RGBD图像的二维人体掩码和二维关键点信息进行提取;使用RGBD图像的深度图提取RGBD图像的深度信息;将二维人体掩码信息和深度信息进行融合获得三维人体掩码信息;将二维关键点信息和深度信息进行融合获得三维关键点信息;将三维人体掩码信息和三维关键点信息与标准库中的信息进行对比以获得人体身形姿态匹配度。在本申请所涉及的方法和装置中,先获得准确的二维关键点信息和二维人体掩码信息,再与深度信息进行融合获得三维关键点信息和三维人体掩码信息,与现有技术相比,增加了精度和准确度。

Description

一种人体身形姿态匹配方法和装置
技术领域
本申请涉及人工智能和模式识别领域,尤其涉及一种身形姿态匹配方法和装置。
背景技术
现有技术中,人体姿态匹配涉及的技术包括:人体定位与检测、图像分割、人体关键点提取(或者姿态估计)、人体姿态匹配等。
其中,人体关键点提取与姿态估计计算机视觉领域中的一个重要问题,是人体动作识别、姿态匹配及人体测量的关键问题。现有技术一般是建立人体模型,将其划分为各个部件,然后通过数字图像处理提取特征进行人体关键点识别并实现姿态估计,随着深度学习的兴起,也涌现出一批以OpenPose,AlphaPose为代表的深度学习方法。现有技术中,传统方法对环境的要求太高,算法复杂,鲁棒性差;深度学习方法则直接从RGBD图像输入获得三维关键点,其精度和准确度都不太高,需要改进和提高。
发明内容
本申请提供一种人体身形姿态匹配方法和装置。
本申请要解决的技术问题通过以下技术方案加以解决:
根据本申请的第一方面,本申请提供一种人体身形姿态匹配方法,用于 RGBD图像的人体身形姿态匹配,包括:通过卷积神经网络对RGBD图像的二维人体掩码和二维关键点信息进行提取;使用RGBD图像的深度图提取RGBD 图像的深度信息;将二维人体掩码信息和深度信息进行融合获得三维人体掩码信息;将二维关键点信息和深度信息进行融合获得三维关键点信息;将三维人体掩码信息和三维关键点信息与标准库中的信息进行对比以获得人体身形姿态匹配度。
进一步地,卷积神经网络包括深度卷积神经网络。
进一步地,将三维人体掩码信息和三维关键点信息与标准库中的信息进行对比以获得人体身形姿态匹配度,包括:对三维人体掩码信息和三维关键点信息进行投影变换以获得归一化三维人体掩码信息和归一化三维关键点信息;对归一化三维人体掩码信息和归一化三维关键点信息进行三维特征提取和表征以获得三维人体掩码特征信息和三维关键点特征信息;将三维人体掩码特征信息和三维关键点特征信息与标准库中的信息进行对比以获得人体身形姿态匹配度。
进一步地,将三维人体掩码特征信息和三维关键点特征信息与所述标准库中的信息进行对比以获得人体身形姿态匹配度,包括:将三维人体掩码特征信息与标准库中的标准三维人体掩码特征信息进行对比以获得人体身形匹配度;将三维关键点特征信息与标准库中的标准关键点特征信息进行对比以获得人体姿态匹配度。
进一步地,将三维人体掩码特征信息和三维关键点特征信息与标准库中的信息进行对比以获得人体身形姿态匹配度,还包括:对人体身形匹配度和人体姿态匹配度进行预设的加权处理以获得人体身形姿态匹配度。
根据本申请的第二方面,本申请提供一种人体身形姿态匹配装置,用于 RGBD图像的人体身形姿态匹配,包括:二维信息提取模块,用于通过卷积神经网络对RGBD图像的二维人体掩码和二维关键点信息进行提取;深度信息提取模块,使用RGBD图像的深度图提取RGBD图像的深度信息;第一融合模块,用于将二维人体掩码信息和深度信息进行融合获得三维人体掩码信息;第二融合模块,用于将二维关键点信息和所述深度信息进行融合获得三维关键点信息;匹配模块,用于将三维人体掩码信息和三维关键点信息与标准库中的信息进行对比以获得人体身形姿态匹配度。
进一步地,匹配模块,包括:投影变换单元,用于对三维人体掩码信息和三维关键点信息进行投影变换以获得归一化三维人体掩码信息和归一化三维关键点信息;特征提取单元,用于对归一化三维人体掩码信息和归一化三维关键点信息进行三维特征提取和表征以获得三维人体掩码特征信息和三维关键点特征信息;匹配模块还用于将三维人体掩码特征信息和三维关键点特征信息与标准库中的信息进行对比以获得人体身形姿态匹配度。
进一步地,匹配模块还包括:第一匹配单元,用于将三维人体掩码特征信息与标准库中的标准三维人体掩码特征信息进行对比以获得人体身形匹配度;第二匹配单元,用于将三维关键点特征信息与标准库中的标准关键点特征信息进行对比以获得人体姿态匹配度。
进一步地,匹配模块还用于对人体身形匹配度和人体姿态匹配度进行预设的加权处理以获得人体身形姿态匹配度。
根据本申请的第三方面,本申请提供一种人体身形姿态匹配装置,用于 RGBD图像的人体身形姿态匹配,包括:
存储器,用于存储程序;
处理器,用于通过执行所述存储器存储的程序以实现上述方法。
本申请的身形姿态匹配方法和装置,包括提取RGBD图像的二维人体掩码和二维关键点信息,使用RGBD图像的深度图提取RGBD图像的深度信息,将二维人体掩码信息和深度信息进行融合获得三维人体掩码信息,将二维关键点信息和深度信息进行融合获得三维关键点信息,再将三维人体掩码信息和三维关键点信息与标准库中的信息进行对比以获得人体身形姿态匹配度,由于本申请实施例先用RGBD输入获得准确的二维关键点,然后再用深度图获得三维信息得到三维关键点,提高了三维关键点的精度和准确度,从而提高了人体身形姿态匹配度准确性。
附图说明
图1为本申请实施例一所涉及人体身形姿态匹配方法在一种实施方式中的流程图;
图2为本申请实施例二所涉及人体身形姿态匹配方法在一种实施方式中的流程图;
图3为本申请实施例二在一种实施方式中所涉及的有向图的示意图;
图4为本申请实施例二在一种实施方式中所涉及的M矩阵的示意图;
图5为本申请实施例二在一种实施方式中所涉及的A矩阵的示意图;
图6为本申请实施例三所涉及人体身形姿态匹配装置在一种实施方式中的结构示意图;
图7为本申请实施例四所涉及人体身形姿态匹配装置在一种实施方式中的结构示意图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。本申请可以以多种不同的形式来实现,并不限于本实施例所描述的实施方式。提供以下具体实施方式的目的是便于对本申请公开内容更清楚透彻的理解,其中上、下、左、右等指示方位的字词仅是针对所示结构在对应附图中位置而言。
然而,本领域的技术人员可能会意识到其中的一个或多个的具体细节描述可以被省略,或者还可以采用其他的方法、组件或材料。在一些例子中,一些实施方式并没有描述或没有详细的描述。
本文中为部件所编序号本身,例如“第一”、“第二”等,仅用于区分所描述的对象,不具有任何顺序或技术含义。
此外,本文中记载的技术特征、技术方案还可以在一个或多个实施例中以任意合适的方式组合。对于本领域的技术人员来说,易于理解与本文提供的实施例有关的方法的步骤或操作顺序还可以改变。因此,附图和实施例中的任何顺序仅仅用于说明用途,并不暗示要求按照一定的顺序,除非明确说明要求按照某一顺序。
实施例一:
如图1所示,本实施例的人体身形姿态匹配方法,其一种实施方式,包括以下步骤:
步骤102:通过卷积神经网络对RGBD图像的二维人体掩码和二维关键点信息进行提取。
步骤104:使用RGBD图像的深度图提取RGBD图像的深度信息。
步骤106:将二维人体掩码信息和深度信息进行融合获得三维人体掩码信息。
步骤108:将二维关键点信息和深度信息进行融合获得三维关键点信息。
步骤110:将三维人体掩码信息和三维关键点信息与标准库中的信息进行对比以获得人体身形姿态匹配度。
实施例二:
如图2所示,本实施例的人体身形姿态匹配方法,其另一种实施方式,包括以下步骤:
步骤200:建立标准库。
本实施例采用人工筛选的方式,先筛选出若干(例如100个)正常姿态作为标准身形姿态库,然后获取到相应的归一化后的三维掩码信息与三维关键点信息后,经过平均,最终得到标准库,其中包括标准的人体身形姿态信息,以留作后续待测人体的身形姿态匹配与评估标准。另外,针对后续匹配所涉及到的方法,在标准库上也会进行相似度计算并计算诸如均值、方差等统计量,为后续算法评估做参考。
步骤202:通过卷积神经网络对RGBD图像的二维人体掩码和二维关键点信息进行提取。
该CNN(Convolution Neural Networks:卷积神经网络)为可以选用DCNN (DeepConvolution Neural Networks:深度卷积神经网络),但本领域技术人员应该理解,也可以选用Mask-RCNN(掩码区域卷积神经网络)或其他的神经网络结构。提取掩码与关键点信息的DCNN包括RefineNet,U-Net,xception-FPN 等。
步骤204:使用RGBD图像的深度图提取RGBD图像的深度信息。
步骤206:将二维人体掩码信息和深度信息进行融合获得三维人体掩码信息。在一种实施方式中,可以先读取RGBD的深度信息,即深度图。深度图像素位置与人体掩码信息的位置对应,则可以在二维人体掩码的每一个像素上增加深度信息(第三个维度),得到三维的掩码。
步骤208:将二维关键点信息和深度信息进行融合获得三维关键点信息。
同理,对于二维关键点信息的融合,可以找到每一个二维关键点对应位置的深度信息,在二维关键点的每一个像素上增加深度信息即可融合形成三维关键点。
步骤210:对三维人体掩码信息和三维关键点信息进行投影变换以获得归一化三维人体掩码信息和归一化三维关键点信息。
本实施例要针对身形姿态做匹配,先要去除诸如人体高矮、相机不正等因素对结果的影响(比如儿童和成人的身高或许不一样,但是姿态可能非常匹配),所以要对相关特征做进一步的Normalization(归一化)。本实施例中,归一化是通过投影变换来实现的。也就是利用投影变换对三维人体mask(掩码)信息、人体三维关键点信息以及深度图进行Normalization,以消除体型大小、相机旋转等因素对结果的影响。人体三维mask信息与人体三维关键点信息和深度图经过投影变换后,最终与标准库中一致,亦即人体的大小都与标准库中人体的大小一样,人体的方向也固定(比如左肩至右肩方向、后背至前胸方向,脊柱方向分别与笛卡尔坐标轴平行)。
本实施例中,投影变换包括仿射变换与透视变换,由于本实施例不考虑错切变换(shear)和由于相机平面与人体平面不平行导致的透视变换,本实施例的投影变换实际上指的是只包括旋转、平移、缩放变换的Affine Transformation (仿射变换)。本实施例的投影变换参数由一些列关键点得到:假定选取的关键点组成的矩阵P的维度为4×N,其中矩阵每一行为一个三维点的齐次坐标,仿射变换矩阵K为4×4的矩阵,包括三个旋转参数、三个平移参数,以及三个缩放参数,假定选取的关键点矩阵P在仿射变换后应该与标准关键点矩阵P′尽可能一致,则求解仿射变换参数的问题实际上转化为以下优化问题:
其中,μi表示第i个关键点对变换后的误差的权重,根据不同点的重要程度可以赋以不同的权值,最终的目标是得到使得上述误差最小的仿射变换矩阵K。该问题可以运用一般的线性优化方法即可求解,最终,能得到归一化三维人体 mask信息、归一化三维人体关键点和深度图信息。
对于平移,例如由A点移动到B点,需要知道移动的大小和方向,所以就用三维向量表示,参数为3个。对于平移的大小,可以选取标准库中人体某一具有代表性的关键点(例如左眼)作为原点,则待测人体与标准人体所选用点的位置偏差即是平移量。
对于旋转,在空间中可以用三个角度表示旋转的操作,所以参数是三个角度,利用三个角度可以得到旋转的正交矩阵。图像需要做旋转变换的原因主要是为了消除相机不正或者人体歪斜带来的影响。
对于缩放,向着XYZ三个方向缩放的系数可以不一样,所以这里也是三个不同方向的缩放系数。缩放系数与待测人体的身体大小、待测人体离镜头的远近(图片中人体的比例)有关,缩放系数即待测人体与标准人体大小三个方向 (维度)上的比例,利用缩放可以消除人体大小对姿态的影响。
以上所有的操作都可以综合到一个变换矩阵中去,可以称之为仿射变换矩阵K,K为4×4的实数矩阵,可以认为与以上9个参数对应。
本实施例利用关键点之间的变化关系,运用优化的方式求出以上各参数,即矩阵K。具体而言,假设标准关键点集合组成的关键点矩阵为P,P为4×N的齐次矩阵,其中N为点的数量;待求人体的关键点矩阵为P′,具体含义同P。
以上各变量或参数,实际上应该满足:
P=K×P′
即待求的人体关键点经过仿射变换后,应与标准人体关键点对齐。但是实际上,上式等式是不成立的,即待测人体的关键点经过变换之后与标准人体关键点一定有误差。现在,我们利用最小化两者之间的误差以求出变换矩阵K。形式化表示这个过程即:
其中,P为标准关键点矩阵,P′为待求关键点矩阵,L(K;P,P')表示误差,并且误差与K、P、P′有关,该误差是所有的关键点误差的加权和。以上问题可以由最小二乘法求解。具体地,对于每一个点,比如编号为i的点,它在变换前后的误差为||Pi-K×Pi'||2(即变换前后两点之间的距离),而根据各个点的重要程度,该误差可以有不同的权重μi(甚至可以为0,即表示不考虑该点的对齐)。最终,我们通过优化方法就可以求出最小化误差L的矩阵K。
步骤212:对归一化三维人体掩码信息和归一化三维关键点信息进行三维特征提取和表征以获得三维人体掩码特征信息和三维关键点特征信息。
对于归一化人体三维mask信息,可以用点云表示,也可以用mesh表示。对于归一化三维关键点,可以采用如图3所示有向图的思想,对其进行表示。同时,还可显式计算出各个边之间的夹角。显然可用一个上三角矩阵即可表征上述关系。假设关键点个数为N,最终得到的是一个N×N×3的上三角矩阵M(如图4所示)与C_n2×C_n2的上三角矩阵A(如图5所示)。其中,Mij表示第i 个关键点到第j个关键点的向量,Aij则表示边Ei到边Ej之间的夹角,其中,向量信息可以认为是归一化三维人体关键点信息的一阶表示,夹角可以认为是二阶信息。
步骤214:将三维人体掩码特征信息与标准库中的标准三维人体掩码特征信息进行对比以获得人体身形匹配度。
本实施例把标准库中三维人体mask特征信息与待测的三维mask特征信息当作点的集合(点云)处理,利用豪斯多夫距离计算两个点集合(待测mask特征与标准mask特征信息)之间的距离,同时,参考标准库中豪斯多夫距离的均值,即可评估该待测人体与标准人体之间的身形相似程度,即身形匹配度。
步骤216:将三维关键点特征信息与标准库中的标准关键点特征信息进行对比以获得人体姿态匹配度。
如步骤212中所述,归一化三维人体关键点最终利用上三角矩阵M和A表示,同时,参考标准库中得到的标准关键点向量矩阵及角度矩阵,以矩阵间的距离均值,可以评估该待测人体关键点及姿态与标准人体关键点及姿态之间的相似程度。值得一提的是,对于矩阵之间的相似程度的度量,即是对矩阵进行赋范并度量。而矩阵范数种类较多,比如L1,L2,谱范数,F-范数等等。
步骤218:对人体身形匹配度和人体姿态匹配度进行预设的加权处理以获得人体身形姿态匹配度。
利用mask信息对人体姿态进行匹配更多的是考虑了体型的相似与否程度,那么利用关键点对姿态进行匹配则更多的是关注了人体姿态本身。所以对于人体姿态的综合评估,可以综合二者的优势,对其进行加权处理,并且根据所重视程度与否,可以调整权重大小以适应相应的任务或者应用场景。通过身形和姿态匹配的加权处理,可以根据需要获得综合的身形姿态匹配度。
本实施例所涉及的人体姿态匹配方法利用到了各项人体信息(包括分割信息、关键点与姿态信息、深度信息等),能够实现更加准确和全面的人体信息提取,对人体实现精细化的表征,实现对人体姿态准确的匹配与评估。实际应用场景丰富,比如可以应用到诸如操作异常行为识别、银行安保识别、乘梯安全防护识别、跌倒检测、青少年体型测量等应用场景,具有显著的商业价值。
实施例三:
图6示出了本实施例所涉及人体姿态匹配装置的结构示意图,该装置用于 RGBD图像的人体身形姿态匹配,包括二维信息提取模块、深度信息提取模块、第一融合模块、第二融合模块和匹配模块。
其中,二维信息提取模块,用于通过卷积神经网络对RGBD图像的二维人体掩码和二维关键点信息进行提取;深度信息提取模块,使用RGBD图像的深度图提取RGBD图像的深度信息;第一融合模块,用于将二维人体掩码信息和深度信息进行融合获得三维人体掩码信息;第二融合模块,用于将二维关键点信息和所述深度信息进行融合获得三维关键点信息;匹配模块,用于将三维人体掩码信息和三维关键点信息与标准库中的信息进行对比以获得人体身形姿态匹配度。
实施例四:
图7示出了本实施例所涉及人体身形姿态匹配装置的结构示意图,该装置用于RGBD图像的人体身形姿态匹配,可以包括标准库、二维信息提取模块、深度信息提取模块、第一融合模块、第二融合模块和匹配模块。
标准库中存储标准人体身形姿态特征。本实施例采用人工筛选的方式,先筛选出若干(例如100个)正常姿态作为标准身形姿态库,然后获取到相应的归一化后的三维掩码信息与三维关键点信息后,经过平均,最终得到标准库,其中包括标准的人体身形姿态信息,以留作后续待测人体的身形姿态匹配与评估标准。另外,针对后续匹配所涉及到的方法,在标准库上也会进行相似度计算并计算诸如均值、方差等统计量,为后续算法评估做参考。
二维信息提取模块用于通过卷积神经网络对RGBD图像的二维人体掩码和二维关键点信息进行提取。该CNN优选为DCNN,但本领域技术人员应该理解,也可以为Mask-RCNN或其他的神经网络结构。
深度信息提取模块,使用RGBD图像的深度图提取RGBD图像的深度信息。
第一融合模块,用于将二维人体掩码信息和深度信息进行融合获得三维人体掩码信息。
第二融合模块,用于将二维关键点信息和深度信息进行融合获得三维关键点信息。
匹配模块进一步包括投影变换单元、特征提取单元、第一匹配单元和第二匹配单元。
投影变换单元,用于对三维人体掩码信息和三维关键点信息进行投影变换以获得归一化三维人体掩码信息和归一化三维关键点信息。
本实施例要针对身形姿态做匹配,先要去除诸如人体高矮、相机不正等因素对结果的影响(比如儿童和成人的身高或许不一样,但是姿态可能非常匹配),所以要对相关特征做进一步的Normalization(归一化)。本实施例中,归一化是通过投影变换来实现的。也就是利用投影变换对三维人体mask(掩码)信息、人体三维关键点信息以及深度图进行Normalization,以消除体型大小、相机旋转等因素对结果的影响。人体三维mask信息与人体三维关键点信息和深度图经过投影变换后,最终与标准库中一致,亦即人体的大小都与标准库中人体的大小一样,人体的方向也固定(比如左肩至右肩方向、后背至前胸方向,脊柱方向分别与笛卡尔坐标轴平行)。
本实施例中,投影变换包括仿射变换与透视变换,由于本实施例不考虑错切变换(shear)和由于相机平面与人体平面不平行导致的透视变换,本实施例的投影变换实际上指的是只包括旋转、平移、缩放变换的Affine Transformation (仿射变换)。本实施例的投影变换参数由一些列关键点得到:假定选取的关键点组成的矩阵P的维度为4×N,其中矩阵每一行为一个三维点的齐次坐标,仿射变换矩阵K为4×4的矩阵,包括三个旋转参数、三个平移参数,以及三个缩放参数,假定选取的关键点矩阵P在仿射变换后应该与标准关键点矩阵P’尽可能一致,则求解仿射变换参数的问题实际上转化为以下优化问题:
其中,μi表示第i个关键点对变换后的误差的权重,根据不同点的重要程度可以赋以不同的权值,最终的目标是得到使得上述误差最小的仿射变换矩阵K。该问题可以运用一般的线性优化方法即可求解,最终,能得到归一化三维人体 mask信息、归一化三维人体关键点和深度图信息。
对于平移,例如由A点移动到B点,需要知道移动的大小和方向,所以就用三维向量表示,参数为3个。对于平移的大小,可以选取标准库中人体某一具有代表性的关键点(例如左眼)作为原点,则待测人体与标准人体所选用点的位置偏差即是平移量。
对于旋转,在空间中可以用三个角度表示旋转的操作,所以参数是三个角度,利用三个角度可以得到旋转的正交矩阵。图像需要做旋转变换的原因主要是为了消除相机不正或者人体歪斜带来的影响。
对于缩放,向着XYZ三个方向缩放的系数可以不一样,所以这里也是三个不同方向的缩放系数。缩放系数与待测人体的身体大小、待测人体离镜头的远近(图片中人体的比例)有关,缩放系数即待测人体与标准人体大小三个方向 (维度)上的比例,利用缩放可以消除人体大小对姿态的影响。
以上所有的操作都可以综合到一个变换矩阵中去,可以称之为仿射变换矩阵K,K为4×4的实数矩阵,可以认为与以上9个参数对应。
本实施例利用关键点之间的变化关系,运用优化的方式求出以上各参数,即矩阵K。具体而言,假设标准关键点集合组成的关键点矩阵为P,P为4×N的齐次矩阵,其中N为点的数量;待求人体的关键点矩阵为P′,具体含义同P。
以上各变量或参数,实际上应该满足:
P=K×P′
即待求的人体关键点经过仿射变换后,应与标准人体关键点对齐。但是实际上,上式等式是不成立的,即待测人体的关键点经过变换之后与标准人体关键点一定有误差。现在,我们利用最小化两者之间的误差以求出变换矩阵K。形式化表示这个过程即:
其中,P为标准关键点矩阵,P′为待求关键点矩阵,L(K;P,P')表示误差,并且误差与K、P、P′有关,该误差是所有的关键点误差的加权和。以上问题可以由最小二乘法求解。具体地,对于每一个点,比如编号为i的点,它在变换前后的误差为||Pi-K×Pi'||2(即变换前后两点之间的距离),而根据各个点的重要程度,该误差可以有不同的权重μi(甚至可以为0,即表示不考虑该点的对齐)。最终,我们通过优化方法就可以求出最小化误差L的矩阵K。
特征提取单元,用于对归一化三维人体掩码信息和归一化三维关键点信息进行三维特征提取和表征以获得三维人体掩码特征信息和三维关键点特征信息。
对于归一化人体三维mask信息,可以用点云表示,也可以用mesh表示。对于归一化三维关键点,可以采用如图3所示有向图的思想,对其进行表示。同时,还可显式计算出各个边之间的夹角。其中,图3中以四个关键点为例进行说明,关键点的个数也可以根据需要进行设置,显然可用一个上三角矩阵即可表征上述关系。假设关键点个数为N,最终得到的是一个N×N×3的上三角矩阵M(如图4所示)与C_n2×C_n2的上三角矩阵A(如图5所示)。其中,Mij 表示第i个关键点到第j个关键点的向量,Aij则表示边Ei到边Ej之间的夹角,其中,向量信息可以认为是归一化三维人体关键点信息的一阶表示,夹角可以认为是二阶信息。
第一匹配单元,用于将三维人体掩码特征信息与标准库中的标准三维人体掩码特征信息进行对比以获得人体身形匹配度。本实施例把标准库中三维人体 mask特征信息与待测的三维mask特征信息当做点的集合(点云)处理,利用豪斯多夫距离计算两个点集合(待测mask特征与标准mask特征信息)之间的距离,同时,参考标准库中豪斯多夫距离的均值,即可评估该待测人体与标准人体之间的身形相似程度,即身形匹配度。
第二匹配单元,用于将三维关键点特征信息与标准库中的标准关键点特征信息进行对比以获得人体姿态匹配度。如第一匹配单元中所述,归一化三维人体关键点最终利用上三角矩阵M和A表示,同时,参考标准库中得到的标准关键点向量矩阵及角度矩阵,以矩阵间的的距离均值,可以评估该待测人体关键点及姿态与标准人体关键点及姿态之间的相似程度。值得一提的是,对于矩阵之间的相似程度的度量,即是对矩阵进行赋范并度量。而矩阵范数种类较多,比如L1,L2,谱范数,F-范数等等。
匹配模块还用于对人体身形匹配度和人体姿态匹配度进行预设的加权处理以获得人体身形姿态匹配度。利用mask信息对人体姿态进行匹配更多的是考虑了体型的相似与否程度,那么利用关键点对姿态进行匹配则更多的是关注了人体姿态本身。所以对于人体姿态的综合评估,可以综合二者的优势,对其进行加权处理,并且根据所重视程度与否,可以调整权重大小以适应相应的任务或者应用场景。
实施例五:
本申请的人体身形姿态匹配装置,可用于RGBD图像的人体身形姿态匹配,其一种实施方式,包括存储器和处理器。
存储器,用于存储程序;
处理器,用于通过执行存储器存储的程序以实现实施例一和实施二中的方法。
本领域技术人员可以理解,上述实施方式中各种方法的全部或部分步骤可以通过程序来指令相关硬件完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘或光盘等。
以上内容是结合具体的实施方式对本申请所作的进一步详细说明,不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干简单推演或替换。

Claims (10)

1.一种人体身形姿态匹配方法,用于RGBD图像的人体身形姿态匹配,其特征在于,包括:
通过卷积神经网络对所述RGBD图像的二维人体掩码和二维关键点信息进行提取;
使用所述RGBD图像的深度图提取所述RGBD图像的深度信息;
将所述二维人体掩码信息和所述深度信息进行融合获得三维人体掩码信息;
将所述二维关键点信息和所述深度信息进行融合获得三维关键点信息;
将所述三维人体掩码信息和所述三维关键点信息与标准库中的信息进行对比以获得人体身形姿态匹配度。
2.如权利要求1所述的人体身形姿态匹配方法,其特征在于,其中所述卷积神经网络包括深度卷积神经网络。
3.如权利要求1所述的人体身形姿态匹配方法,其特征在于,其中所述将所述三维人体掩码信息和所述三维关键点信息与标准库中的信息进行对比以获得人体身形姿态匹配度,包括:
对所述三维人体掩码信息和所述三维关键点信息进行投影变换以获得归一化三维人体掩码信息和归一化三维关键点信息;
对所述归一化三维人体掩码信息和所述归一化三维关键点信息进行三维特征提取和表征以获得三维人体掩码特征信息和三维关键点特征信息;
将所述三维人体掩码特征信息和所述三维关键点特征信息与所述标准库中的信息进行对比以获得人体身形姿态匹配度。
4.如权利要求3所述的人体身形姿态匹配方法,其特征在于,其中所述将所述三维人体掩码特征信息和所述三维关键点特征信息与所述标准库中的信息进行对比以获得人体身形姿态匹配度,包括:
将所述三维人体掩码特征信息与所述标准库中的标准三维人体掩码特征信息进行对比以获得人体身形匹配度;
将所述三维关键点特征信息与所述标准库中的标准关键点特征信息进行对比以获得人体姿态匹配度。
5.如权利要求4中所述的人体身形姿态匹配方法,其特征在于,其中所述将所述三维人体掩码特征信息和所述三维关键点特征信息与所述标准库中的信息进行对比以获得人体身形姿态匹配度,还包括:
对所述人体身形匹配度和所述人体姿态匹配度进行预设的加权处理以获得人体身形姿态匹配度。
6.一种人体身形姿态匹配装置,用于RGBD图像的人体身形姿态匹配,其特征在于,包括:
二维信息提取模块,用于通过卷积神经网络对所述RGBD图像的二维人体掩码和二维关键点信息进行提取;
深度信息提取模块,使用所述RGBD图像的深度图提取所述RGBD图像的深度信息;
第一融合模块,用于将所述二维人体掩码信息和所述深度信息进行融合获得三维人体掩码信息;
第二融合模块,用于将所述二维关键点信息和所述深度信息进行融合获得三维关键点信息;
匹配模块,用于将所述三维人体掩码信息和所述三维关键点信息与标准库中的信息进行对比以获得人体身形姿态匹配度。
7.如权利要求6所述的人体身形姿态匹配装置,其特征在于,其中所述匹配模块,包括:
投影变换单元,用于对所述三维人体掩码信息和所述三维关键点信息进行投影变换以获得归一化三维人体掩码信息和归一化三维关键点信息;
特征提取单元,用于对所述归一化三维人体掩码信息和所述归一化三维关键点信息进行三维特征提取和表征以获得三维人体掩码特征信息和三维关键点特征信息;
所述匹配模块还用于将所述三维人体掩码特征信息和所述三维关键点特征信息与所述标准库中的信息进行对比以获得人体身形姿态匹配度。
8.如权利要求7所述的人体身形姿态匹配装置,其特征在于,其中所述匹配模块还包括:
第一匹配单元,用于将所述三维人体掩码特征信息与所述标准库中的标准三维人体掩码特征信息进行对比以获得人体身形匹配度;
第二匹配单元,用于将所述三维关键点特征信息与所述标准库中的标准关键点特征信息进行对比以获得人体姿态匹配度。
9.如权利要求8中所述的人体身形姿态匹配装置,其特征在于,其中所述匹配模块还用于对所述人体身形匹配度和所述人体姿态匹配度进行预设的加权处理以获得人体身形姿态匹配度。
10.一种人体身形姿态匹配装置,用于RGBD图像的人体身形姿态匹配,包括:
存储器,用于存储程序;
处理器,用于通过执行所述存储器存储的程序以实现如权利要求1-5中任一项所述的方法。
CN201910739314.6A 2019-08-12 2019-08-12 一种人体身形姿态匹配方法和装置 Pending CN110598556A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910739314.6A CN110598556A (zh) 2019-08-12 2019-08-12 一种人体身形姿态匹配方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910739314.6A CN110598556A (zh) 2019-08-12 2019-08-12 一种人体身形姿态匹配方法和装置

Publications (1)

Publication Number Publication Date
CN110598556A true CN110598556A (zh) 2019-12-20

Family

ID=68853936

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910739314.6A Pending CN110598556A (zh) 2019-08-12 2019-08-12 一种人体身形姿态匹配方法和装置

Country Status (1)

Country Link
CN (1) CN110598556A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111782041A (zh) * 2020-06-24 2020-10-16 Oppo广东移动通信有限公司 打字方法及装置、设备、存储介质
CN112364738A (zh) * 2020-10-30 2021-02-12 深圳点猫科技有限公司 基于深度学习的人体姿态估计方法、装置、系统及介质
CN112419388A (zh) * 2020-11-24 2021-02-26 深圳市商汤科技有限公司 深度检测方法、装置、电子设备和计算机可读存储介质
CN112435345A (zh) * 2020-12-14 2021-03-02 武汉纺织大学 一种基于深度学习的人体三维测量方法及系统
CN112465890A (zh) * 2020-11-24 2021-03-09 深圳市商汤科技有限公司 深度检测方法、装置、电子设备和计算机可读存储介质
US11321862B2 (en) 2020-09-15 2022-05-03 Toyota Research Institute, Inc. Systems and methods for multi-camera modeling with neural camera networks
US11494927B2 (en) 2020-09-15 2022-11-08 Toyota Research Institute, Inc. Systems and methods for self-supervised depth estimation
US11508080B2 (en) 2020-09-15 2022-11-22 Toyota Research Institute, Inc. Systems and methods for generic visual odometry using learned features via neural camera models
CN115862074A (zh) * 2023-02-28 2023-03-28 科大讯飞股份有限公司 人体指向确定、屏幕控制方法、装置及相关设备
US11615544B2 (en) 2020-09-15 2023-03-28 Toyota Research Institute, Inc. Systems and methods for end-to-end map building from a video sequence using neural camera models

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968555A (zh) * 2012-11-01 2013-03-13 江苏物联网研究发展中心 基于电子商务的懒人搭配穿衣建议系统
CN106778474A (zh) * 2016-11-14 2017-05-31 深圳奥比中光科技有限公司 3d人体识别方法及设备
CN107045744A (zh) * 2017-04-14 2017-08-15 特斯联(北京)科技有限公司 一种智能别墅门禁认证方法及系统
CN108460338A (zh) * 2018-02-02 2018-08-28 北京市商汤科技开发有限公司 人体姿态估计方法和装置、电子设备、存储介质、程序
US20190088004A1 (en) * 2018-11-19 2019-03-21 Intel Corporation Method and system of 3d reconstruction with volume-based filtering for image processing
CN109816704A (zh) * 2019-01-28 2019-05-28 北京百度网讯科技有限公司 物体的三维信息获取方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968555A (zh) * 2012-11-01 2013-03-13 江苏物联网研究发展中心 基于电子商务的懒人搭配穿衣建议系统
CN106778474A (zh) * 2016-11-14 2017-05-31 深圳奥比中光科技有限公司 3d人体识别方法及设备
CN107045744A (zh) * 2017-04-14 2017-08-15 特斯联(北京)科技有限公司 一种智能别墅门禁认证方法及系统
CN108460338A (zh) * 2018-02-02 2018-08-28 北京市商汤科技开发有限公司 人体姿态估计方法和装置、电子设备、存储介质、程序
US20190088004A1 (en) * 2018-11-19 2019-03-21 Intel Corporation Method and system of 3d reconstruction with volume-based filtering for image processing
CN109816704A (zh) * 2019-01-28 2019-05-28 北京百度网讯科技有限公司 物体的三维信息获取方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WANGYC1208: "论文学习笔记:Learning to Estimate 3D Human Pose and Shape From a Single Color Image", 《HTTPS://BLOG.CSDN.NET/WANGYC1208/ARTICLE/DETAILS/82721998》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111782041A (zh) * 2020-06-24 2020-10-16 Oppo广东移动通信有限公司 打字方法及装置、设备、存储介质
US11321862B2 (en) 2020-09-15 2022-05-03 Toyota Research Institute, Inc. Systems and methods for multi-camera modeling with neural camera networks
US11494927B2 (en) 2020-09-15 2022-11-08 Toyota Research Institute, Inc. Systems and methods for self-supervised depth estimation
US11508080B2 (en) 2020-09-15 2022-11-22 Toyota Research Institute, Inc. Systems and methods for generic visual odometry using learned features via neural camera models
US11615544B2 (en) 2020-09-15 2023-03-28 Toyota Research Institute, Inc. Systems and methods for end-to-end map building from a video sequence using neural camera models
CN112364738A (zh) * 2020-10-30 2021-02-12 深圳点猫科技有限公司 基于深度学习的人体姿态估计方法、装置、系统及介质
CN112419388A (zh) * 2020-11-24 2021-02-26 深圳市商汤科技有限公司 深度检测方法、装置、电子设备和计算机可读存储介质
CN112465890A (zh) * 2020-11-24 2021-03-09 深圳市商汤科技有限公司 深度检测方法、装置、电子设备和计算机可读存储介质
CN112435345A (zh) * 2020-12-14 2021-03-02 武汉纺织大学 一种基于深度学习的人体三维测量方法及系统
CN115862074A (zh) * 2023-02-28 2023-03-28 科大讯飞股份有限公司 人体指向确定、屏幕控制方法、装置及相关设备

Similar Documents

Publication Publication Date Title
CN110598556A (zh) 一种人体身形姿态匹配方法和装置
CN106897675B (zh) 双目视觉深度特征与表观特征相结合的人脸活体检测方法
CN110147721B (zh) 一种三维人脸识别方法、模型训练方法和装置
CN108717531B (zh) 基于Faster R-CNN的人体姿态估计方法
CN102834845B (zh) 用于多摄像装置校准的方法与装置
KR100816607B1 (ko) 화상 대조 시스템, 화상 대조 방법 및 컴퓨터로 판독가능한 기록 매체
US7711156B2 (en) Apparatus and method for generating shape model of object and apparatus and method for automatically searching for feature points of object employing the same
US8811744B2 (en) Method for determining frontal face pose
CN112418074A (zh) 一种基于自注意力的耦合姿态人脸识别方法
Xiong et al. Supervised descent method for solving nonlinear least squares problems in computer vision
US20160275339A1 (en) System and Method for Detecting and Tracking Facial Features In Images
CN105023010A (zh) 一种人脸活体检测方法及系统
JP2019125057A (ja) 画像処理装置及びその方法、プログラム
CN101377814A (zh) 人脸图像处理设备、人脸图像处理方法以及计算机程序
JP5227629B2 (ja) オブジェクト検出方法、オブジェクト検出装置、およびオブジェクト検出プログラム
Micusik et al. Simultaneous surveillance camera calibration and foot-head homology estimation from human detections
CN108369473A (zh) 影响增强现实的虚拟对象的方法
CN109493384B (zh) 相机位姿估计方法、系统、设备及存储介质
Robles-Kelly et al. String edit distance, random walks and graph matching
US11132531B2 (en) Method for determining pose and for identifying a three-dimensional view of a face
CN112581540A (zh) 一种大场景下基于人体姿态估计的相机标定方法
CN107784284B (zh) 人脸识别方法及系统
CN113689503A (zh) 目标对象的姿态检测方法、装置、设备及存储介质
CN111582204A (zh) 姿态检测方法、装置、计算机设备及存储介质
CN111310720A (zh) 基于图度量学习的行人重识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220630

Address after: Room 368, 302, 211 Fute North Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai

Applicant after: Shanghai Yuepu Investment Center (L.P.)

Address before: 518000 floor 33, Yantian modern industry service center, 3018 Shayan Road, Shatoujiao street, Yantian District, Shenzhen City, Guangdong Province

Applicant before: SHENZHEN MALONG TECHNOLOGY Co.,Ltd.

Applicant before: Shenzhen Malong artificial intelligence research center

TA01 Transfer of patent application right
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20191220

WD01 Invention patent application deemed withdrawn after publication