CN110348371A - 人体三维动作自动提取方法 - Google Patents

人体三维动作自动提取方法 Download PDF

Info

Publication number
CN110348371A
CN110348371A CN201910613561.1A CN201910613561A CN110348371A CN 110348371 A CN110348371 A CN 110348371A CN 201910613561 A CN201910613561 A CN 201910613561A CN 110348371 A CN110348371 A CN 110348371A
Authority
CN
China
Prior art keywords
dimensional
human body
point
points
extraction method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910613561.1A
Other languages
English (en)
Other versions
CN110348371B (zh
Inventor
罗曦
李玉玮
张迎梁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Overlapping Digital Technology (shanghai) Co Ltd
Original Assignee
Overlapping Digital Technology (shanghai) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Overlapping Digital Technology (shanghai) Co Ltd filed Critical Overlapping Digital Technology (shanghai) Co Ltd
Priority to CN201910613561.1A priority Critical patent/CN110348371B/zh
Publication of CN110348371A publication Critical patent/CN110348371A/zh
Application granted granted Critical
Publication of CN110348371B publication Critical patent/CN110348371B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • General Health & Medical Sciences (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及计算机视觉领域,特别涉及一种对人体姿态检测和运动分析的人体三维动作自动提取方法,该方法包括:采集多视角图片;获得多视角图片中的二维人体关键点;计算出三维人体关键点;构建人体骨骼点层级树。本发明对于人体动作检测准确,尤其是手部检测十分稳健,更为精准;整个检测过程均为自动化,无需额外人工。

Description

人体三维动作自动提取方法
技术领域
本发明涉及计算机视觉领域,特别涉及一种对人体姿态检测和运动分析的人体三维动作自动提取方法。
背景技术
随着社会的发展、人口的增多,暴力事件、恐怖袭击事件越来越多。如何让计算机理解人类的行为,来预防犯罪,正在成为一项崇高而亟待解决的问题。人类具有社会属性,任何人的社交行为都可以通过他(她)的动作(身体动作,手势,表情)来表现出来。因此有很多研究者,将让计算机理解人类行为转变为理解人体三维动作。而这第一步,则是对人体三维动作的正确检测。除了在安防方面的作用,人体动作检测在健身(如运动评估),娱乐(如电影特效制作),医疗(如康复训练)等领域也有着十分重要的作用。因其显著的学术、商业与社会价值,人体三维动作检测正成为越来越重要的研究方向。
现有的方法中,准确率最高的当属商业动作捕捉设备(如OptiTrack)。它需要用户穿戴特定的带标记的服装,在特定的环境中进行动作采集。这种方法广泛应用于有后期制作的电影行业。但在日常生活中,人们衣着多样,生活场景也各式各样,因而很难用这种方法来分析人们的日常动作。
另一些不用标记和特定环境的方法,如用深度(RGBD)相机组或者多RGB相机系统,往往会遇到动作抖动/缺失/不准确的问题;同时对于手部这样自由度高且特征少的部位常出现很大的检测误差。为了能准确检测出人们的日常动作,需要一种方便有效的自动提取人体三维动作的方法。
发明内容
本发明为解决现有的问题,旨在提供一种人体三维动作自动提取方法。
为了达到上述目的,本发明采用的技术方案包括:
步骤一,构建多目相机系统,标定并采集多视角图片;
步骤二,获得多视角图片中的二维人体关键点;
步骤三,根据相机位置、关键点计算出三维人体关键点;
步骤四,根据三维人体关键点构建人体骨骼点层级树。
步骤二中,利用神经网络系统openpose或alphapose获得二维人体关键点。
步骤二中,openpose网络可检测到的每个关键点p,得到 表示第i个关键点在视角v图片上的位置,表示网络对于该点的置信度;p∈T,||T||=n其中n表示关键点的个数;v∈V,||V||=m,其中m表示所用相机的数目。
步骤三中,在BA优化中加入置信度则得到第i个三维点的表达式:
X表示由三角测量计算出的三维点,Pv(X)为X在视角v上的二维投影;优化出的三维点x在各个视角V上的投影与网络检测出来的二维点加权距离最小。步骤三中,进行滤除离群点:
对于每个骨骼点随机选取三个视角,将其作为集合si,并将三个视角的二维点三角化后得到三维骨骼点
计算所有视角里的二维点的加权重投影误差:
的视角作为内围点加入到Si中;令λ=0.1*(h+w)/2,其中h为该视角图片的长,w为宽;
再将更新后的全部内围点的Si代入公式(1),并替换V,可得到:
优化得到新的三维骨骼点计算所有Si视角里的二维点与的总投影误差
重复以上过程,选出总投影误差最小的及其对应的即为所需要的三维点。
步骤三中,利用人体解剖学对手部进行进一步的优化:
其中,α为可根据搭建的场景调整参数;
用于惩罚不可能的动作,γ为所有的指关节,表示指关节的弯曲夹角;Xi表示当前待优化的指关节三维点,Xip为Xi的父节点,Xic为Xi的子节点;分别表示当前指关节的最小、最大人体解剖学夹角。
和现有技术相比,本发明所采用的的多目相机系统搭建简单方便,能够适用于日常环境;用户可穿着任意服装,无需穿戴特定装置,降低了使用要求;本方法对于人体动作检测准确,尤其是手部检测十分稳健,更为精准;整个检测过程均为自动化,无需额外人工。
附图说明
图1a至图1i为多视角图片的示意图;
图2a为三维结果的示意图;
图2b为三维结果的示意图;
图3a为身体层级关系示意图;
图3b为身体层级关系示意图;
图4a为手部层级关系示意图;
图4b为手部层级关系示意图。
具体实施方式
现结合附图对本发明作进一步地说明。
参见图1a至图3b,图1a至图3b所展示的是本发明的一个实施例,本实施例通过多相机系统,首先利用神经网络识别出各个视角图片上的身体、手、面部的二维关键点,然后用三角测量(triangulation)、光束法平差算法(bundleadjustment,BA)、随机抽样一致算法(RANdom SAmple Consensus,RANSAC)以及人体解剖约束,优化出最终的三维关键点。这些三维关键点因携带位置语义信息,可构建出骨骼点层级树,自然地能表达人体的动作信息。
本实施例在具体实施中,首先进行多相机系统的搭建:本实施例对于相机型号无特殊要求,仅需四个以上能实现同步拍摄的相机组。相机的同步工作可由专门的同步器控制(如继电器控制开关)。因后面需要用到神经网络提取二维关键点,为了得到准确的关键点位置,每个相机应尽量能看到整个人体。如果大部分视角都只能获取部分人体,则应增加相机个数,以增加系统的稳健性。
多相机系统的标定。标定,即是计算出相机的内部参数(intrinsic parameters)和外部参数(extrinsic parameters)。对于动作检测,并不一定需要三维骨骼点跟真实世界一样的尺度,因此在标定时,可用一些常见的运动估计(structure-from-motion)开源库(如colmap)。若想得到真实尺度的运动骨骼,则需在标定时加入特定的棋盘格。
数据采集:系统搭建完成后,采集对象在相机组中心自由活动,相机组同步记录动态视频,后序将对此动态视频逐帧处理。
其次,对二维关键点进行检测。因神经网络在二维骨骼关键点检测上的高效性和准确性,本专利用其来获取从前述步骤中采集的多视角图片上的二维关键点。现有很多开源的人体关键点检测网络(如openpose,alphapose),都有较高的正确率,操作中可按需选择。本实施例以openpose为例。对于每一张包含完整人体的图片,openpose网络可检测到137个关键点(身体为25个关键点,每只手21个,面部70个),每个关键点p(p∈T,||T||=n其中n表示关键点的个数)得到 表示第i个关键点在视角v(v∈V,||V||=m,其中m表示所用相机的数目)图片上的位置,表示网络对于该点的置信度(confidence)。
不同网络结构获得关键点和置信度的方法不同,本实施例是预测每一个关键点在图片中每个像素的概率,选取概率最大的像素作为该关键点的最终预测位置,同时此概率作为置信度。置信度常为0-1的浮点数,置信度越高,说明网络对于检测结果越肯定。
每组监测点的索引i,都表示了它们对应身体的位置语义信息(如身体上的索引为0的点表示鼻子)。
再次,进行三维关键点的获取。要从多视角的二维点中获得三维点,一般需要用到计算机视觉里的三角测量得到一个初始三维点X,为了得到较好的结果,常用BA对X进行优化。参见图2a、图2b,在本实施例中,不同于常规的BA优化(常规BA优化将所有视角视为同等重要),不同的视角对同一个二维关键点有好坏之分,希望优化出来的三维点的重投影应该更接近那些好的二维点。因此在做BA时,不同视角应该有不同的重要性,优化时应该是最小化加权重投影误差和。在上一步中,我们得到了每个关键点在不同视角的置信度这正是我们需要的视角重要性的衡量标准,将其加入常规BA公式中,可得到优化第i个三维点的表达式:
X表示由三角测量计算出的三维点,Pv(X)为X在视角v上的二维投影。优化出的三维点X在各个视角V上的投影与网络检测出来的二维点加权距离最小。对于有些视角来说,某些关键点可能被严重遮挡,无法看见,网络预测结果较差;这些点在统计学上被叫做离群点集(outlierset)。这时如果将全部视角都用于三维点提取,离群点的存在会大大降低结果的准确性。为解决这个问题,引入了RANSAC的方法来滤除掉离群点:
对于每个骨骼点,随机选取三个视角,作为集合Si,将这三个视角的二维点三角化后,可得到三维骨骼点
计算所有视角里的二维点的加权重投影误差
的视角作为内围点(inlier)加入到Si中。本专利中令λ=0.1*(h+w)/2,h为该视角图片的长,w为宽。
将更新后的全部内围点的Si代入a)中公式,替换V,得到:
优化得到新的三维骨骼点计算所有Si视角里的二维点与的总投影误差
重复以上过程(根据相机数目的多少,选择重复次数,当相机数小于10个时,遍历所有可能的组合,大于10时,重复1000次即可得到比较好的结果),选出总投影误差最小的及其对应的即为需要的三维点。
运用上述方法,一般的动作都能很好地被捕捉到。但是像手这样灵活度高,自遮挡严重且有效像素少(在2K*2K的图像里,手往往只有200*200的有效像素)的部位,十分容易出现错误检测。考虑到人体每个关节的运动都有一定的限制,本实施例额外加了一个基于人体解剖学的约束限制:
其中,
α可根据搭建的场景调整参数,本专利中,我们可以设为1,第二项:
主要用于惩罚那些不可能的动作(如手指向左折断)。γ为所有的指关节,
表示指关节的弯曲夹角;
Xi表示当前待优化的指关节三维点,Xip为Xi的父节点,Xic为Xi的子节点。表示当前指关节的最小/最大人体解剖学夹角。
进一步地,在得到准确的三维关键点后,对于身体和手部这样有层级关系的骨骼点,则可以根据三维关键点的位置语义信息建立层级关系树,如图3a至4b所示(例如肩膀的运动会带动手臂的运动,则肩上的关键点应该是手臂关键点的父级),以得到更好的动作信息,后续不仅可运用安防检测,还可运用于骨骼动画的特效领域。脸部关键点,则可运用于人物情绪采集,三维脸部美化,表情叠加等。
上面结合附图及实施例描述了本发明的实施方式,实施例给出的并不构成对本发明的限制,本领域内熟练的技术人员可依据需要做出调整,在所附权利要求的范围内做出各种变形或修改均在保护范围内。

Claims (6)

1.一种人体三维动作自动提取方法,其特征在于包括:
步骤一,构建多目相机系统,标定并采集多视角图片;
步骤二,获得多视角图片中的二维人体关键点;
步骤三,根据相机位置、关键点计算出三维人体关键点;
步骤四,根据三维人体关键点构建人体骨骼点层级树。
2.根据权利要求1所述的人体三维动作自动提取方法,其特征在于:步骤二中,利用神经网络系统openpose或alphapose获得二维人体关键点。
3.根据权利要求2所述的人体三维动作自动提取方法,其特征在于:步骤二中,openpose网络检测到的每个关键点p,得到 表示第i个关键点在视角v图片上的位置,表示网络对于该点的置信度;其中,p∈T,||T||=n其中n表示关键点的个数;v∈V,||V||=m,其中m表示所用相机的数目。
4.根据权利要求1所述的人体三维动作自动提取方法,其特征在于:步骤三中,在BA优化中加入置信度则得到第i个三维点的表达式:
X表示由三角测量计算出的三维点,Pv(X)为X在视角v上的二维投影;使得优化出的三维点X在各个视角V上的投影与网络检测出来的二维点加权距离最小。
5.根据权利要求1所述的人体三维动作自动提取方法,其特征在于:步骤三中,进行滤除离群点:
对于每个骨骼点随机选取三个视角,将其作为集合Si,并将三个视角的二维点三角化后得到三维骨骼点
计算所有视角里的二维点的加权重投影误差:
的视角作为内围点加入到Si中;令λ=0.1*(h+w)/2,其中h为该视角图片的长,w为宽;
再将更新后的全部内围点的Si代入公式(1),并替换V,可得到:
优化得到新的三维骨骼点计算所有Si视角里的二维点与的总投影误差
重复以上过程,选出总投影误差最小的及其对应的即为所需要的三维点。
6.根据权利要求1或5所述的人体三维动作自动提取方法,其特征在于:步骤三中,利用人体解剖学对手部进行进一步的优化:
其中,α为可根据搭建的场景调整参数;
用于惩罚不可能的动作,γ为所有的指关节,表示指关节的弯曲夹角;Xi表示当前待优化的指关节三维点,Xip为Xi的父节点,Xic为Xi的子节点;θi min和θi max分别表示当前指关节的最小、最大人体解剖学夹角。
CN201910613561.1A 2019-07-08 2019-07-08 人体三维动作自动提取方法 Active CN110348371B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910613561.1A CN110348371B (zh) 2019-07-08 2019-07-08 人体三维动作自动提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910613561.1A CN110348371B (zh) 2019-07-08 2019-07-08 人体三维动作自动提取方法

Publications (2)

Publication Number Publication Date
CN110348371A true CN110348371A (zh) 2019-10-18
CN110348371B CN110348371B (zh) 2023-08-29

Family

ID=68178618

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910613561.1A Active CN110348371B (zh) 2019-07-08 2019-07-08 人体三维动作自动提取方法

Country Status (1)

Country Link
CN (1) CN110348371B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110910449A (zh) * 2019-12-03 2020-03-24 清华大学 识别物体三维位置的方法和系统
CN111401340A (zh) * 2020-06-02 2020-07-10 腾讯科技(深圳)有限公司 目标对象的运动检测方法和装置
CN111611903A (zh) * 2020-05-15 2020-09-01 北京百度网讯科技有限公司 动作识别模型的训练方法、使用方法、装置、设备和介质
WO2022041129A1 (zh) * 2020-08-28 2022-03-03 中国科学院深圳先进技术研究院 一种动物行为学记录三维捕捉装置、方法、系统及应用

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160300383A1 (en) * 2014-09-10 2016-10-13 Shenzhen University Human body three-dimensional imaging method and system
CN109242954A (zh) * 2018-08-16 2019-01-18 叠境数字科技(上海)有限公司 基于模板变形的多视角三维人体重建方法
CN109242950A (zh) * 2018-07-11 2019-01-18 天津大学 多人紧密交互场景下的多视角人体动态三维重建方法
CN109427007A (zh) * 2018-09-17 2019-03-05 叠境数字科技(上海)有限公司 基于多视角的虚拟试衣方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160300383A1 (en) * 2014-09-10 2016-10-13 Shenzhen University Human body three-dimensional imaging method and system
CN109242950A (zh) * 2018-07-11 2019-01-18 天津大学 多人紧密交互场景下的多视角人体动态三维重建方法
CN109242954A (zh) * 2018-08-16 2019-01-18 叠境数字科技(上海)有限公司 基于模板变形的多视角三维人体重建方法
CN109427007A (zh) * 2018-09-17 2019-03-05 叠境数字科技(上海)有限公司 基于多视角的虚拟试衣方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李天峰;: "基于多媒体技术的三维人物图像动态重构" *
阮涛涛;姚明海;瞿心昱;楼中望;: "基于视觉的人体运动分析综述" *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110910449A (zh) * 2019-12-03 2020-03-24 清华大学 识别物体三维位置的方法和系统
CN110910449B (zh) * 2019-12-03 2023-10-13 清华大学 识别物体三维位置的方法和系统
CN111611903A (zh) * 2020-05-15 2020-09-01 北京百度网讯科技有限公司 动作识别模型的训练方法、使用方法、装置、设备和介质
CN111611903B (zh) * 2020-05-15 2021-10-26 北京百度网讯科技有限公司 动作识别模型的训练方法、使用方法、装置、设备和介质
CN111401340A (zh) * 2020-06-02 2020-07-10 腾讯科技(深圳)有限公司 目标对象的运动检测方法和装置
WO2022041129A1 (zh) * 2020-08-28 2022-03-03 中国科学院深圳先进技术研究院 一种动物行为学记录三维捕捉装置、方法、系统及应用

Also Published As

Publication number Publication date
CN110348371B (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
CN110348371B (zh) 人体三维动作自动提取方法
Jiang et al. Seeing invisible poses: Estimating 3d body pose from egocentric video
CN106251399B (zh) 一种基于lsd-slam的实景三维重建方法及实施装置
Zhou et al. Activity analysis, summarization, and visualization for indoor human activity monitoring
Rikert et al. Gaze estimation using morphable models
Chen et al. End-to-end learning of object motion estimation from retinal events for event-based object tracking
Olagoke et al. Literature survey on multi-camera system and its application
CN111881887A (zh) 基于多摄像头的运动姿态监测和指导方法及装置
WO2020125499A1 (zh) 一种操作提示方法及眼镜
CN110472612B (zh) 人体行为识别方法及电子设备
Kothari et al. Weakly-supervised physically unconstrained gaze estimation
CN110428449A (zh) 目标检测跟踪方法、装置、设备及存储介质
CN110555408A (zh) 一种基于自适应映射关系的单摄像头实时三维人体姿态检测方法
Cardile et al. A vision-based system for elderly patients monitoring
Zhou et al. A study on attention-based LSTM for abnormal behavior recognition with variable pooling
Pandey et al. Efficient 6-dof tracking of handheld objects from an egocentric viewpoint
Lupión et al. 3D Human Pose Estimation from multi-view thermal vision sensors
Liu et al. Key algorithm for human motion recognition in virtual reality video sequences based on hidden markov model
CN117372657A (zh) 关键点旋转模型的训练方法及装置、电子设备和存储介质
Zhou et al. MH pose: 3D human pose estimation based on high-quality heatmap
CN112287877B (zh) 一种多角色特写镜头追踪方法
Shu et al. The research and implementation of human posture recognition algorithm via OpenPose
Nakamura et al. DeePoint: Visual pointing recognition and direction estimation
CN114548224A (zh) 一种用于强交互人体运动的2d人体位姿生成方法及装置
Aramvith et al. Video processing and analysis for surveillance applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant