CN116403275B - 基于多目视觉检测封闭空间中人员行进姿态的方法及系统 - Google Patents
基于多目视觉检测封闭空间中人员行进姿态的方法及系统 Download PDFInfo
- Publication number
- CN116403275B CN116403275B CN202310241683.9A CN202310241683A CN116403275B CN 116403275 B CN116403275 B CN 116403275B CN 202310241683 A CN202310241683 A CN 202310241683A CN 116403275 B CN116403275 B CN 116403275B
- Authority
- CN
- China
- Prior art keywords
- dimensional
- person
- points
- dimensional attitude
- gesture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000005457 optimization Methods 0.000 claims abstract description 38
- 238000001514 detection method Methods 0.000 claims abstract description 33
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims description 15
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 230000002441 reversible effect Effects 0.000 claims description 5
- 238000012804 iterative process Methods 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 claims description 2
- 238000004519 manufacturing process Methods 0.000 abstract description 6
- 238000009877 rendering Methods 0.000 description 21
- 238000007781 pre-processing Methods 0.000 description 10
- 238000012544 monitoring process Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000001914 filtration Methods 0.000 description 4
- 238000012423 maintenance Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 210000003423 ankle Anatomy 0.000 description 1
- 210000000038 chest Anatomy 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 210000001513 elbow Anatomy 0.000 description 1
- 210000001624 hip Anatomy 0.000 description 1
- 210000004394 hip joint Anatomy 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 210000003739 neck Anatomy 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000002269 spontaneous effect Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Social Psychology (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Human Computer Interaction (AREA)
- Psychiatry (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例公开了一种基于多目视觉检测封闭空间中人员行进姿态的方法及系统,涉及智能制造技术领域,能够对工厂中人员的行进姿态进行精确识别,并实现对多人姿态的精确识别检测。本发明包括:根据拍摄到的图像获取人员的二维姿态点和SMPL模型参数;利用所获取的二维姿态点转换得到三维姿态点;通过循环迭代优化模型对三维姿态点和SMPL模型参数进行迭代更新;将所述人员单步姿态的参数最优解导入初始化的SMPL三维模型,得到各人员的三维人体姿态模型,之后利用所获取的三维姿态模型建立多人姿态动态检测数字孪生建模。利用所述多人姿态动态检测数字孪生建模,识别所述封闭空间中当前的人员姿态。
Description
技术领域
本发明涉及智能制造技术领域,尤其涉及一种基于多目视觉检测封闭空间中人员行进姿态的方法及系统。
背景技术
目前,在智慧工厂的建设过程中,生产者往往更注重数字化机器的安全稳定运行,而经常忽视工厂中的人员行进时的数字孪生建模。
现有的对人员行进状态的三维姿态检测建模大部分采用简单、固定的模型来表征人员姿态,该方法往往会出现分辨率低、效率低、检测难度大等问题。与装备、物料等生产要素相比,人员作为高度自主的要素,能够灵活应对复杂生产环境的各种随机扰动,具有难以替代的重要性,但人的自主行为特性相应地导致一些不可控行为。在一些行为要求规范性较高的生产场景下,人员的自发违规行为轻则可能引起产品质量问题,重则可能造成无法挽回的灾难性事故。
因此,如何对工厂中人员的行进姿态进行精确识别,并实现对多人姿态的精确识别检测,成为了需要研究的问题。
发明内容
本发明的实施例提供一种基于多目视觉检测封闭空间中人员行进姿态的方法及系统,能够对工厂中人员的行进姿态进行精确识别,并实现对多人姿态的精确识别检测。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,本发明的实施例提供的方法,包括:
S1、拍摄封闭空间中人员的图像,并根据拍摄到的图像获取人员的二维姿态点和SMPL模型参数;
S2、利用所获取的二维姿态点转换得到三维姿态点;
S3、通过循环迭代优化模型对三维姿态点和SMPL模型参数进行迭代更新,其中,将迭代更新后的三维姿态点和SMPL模型参数,作为人员单步姿态的参数最优解;
S4、将所述人员单步姿态的参数最优解导入初始化的SMPL三维模型,得到各人员的三维人体姿态模型,之后利用所获取的三维姿态模型建立多人姿态动态检测数字孪生建模。
S5、利用所述多人姿态动态检测数字孪生建模,识别所述封闭空间中当前的人员姿态。
第二方面,本发明的实施例提供的系统,包括:
摄像头模块,用于拍摄封闭空间中人员的图像;
前端处理模块,用于根据拍摄到的图像获取人员的二维姿态点和SMPL模型参数;
处理模块,用于利用所获取的二维姿态点转换得到三维姿态点;通过循环迭代优化模型对三维姿态点和SMPL模型参数进行迭代更新,其中,将迭代更新后的三维姿态点和SMPL模型参数,作为人员单步姿态的参数最优解;
模型维护模块,用于将所述人员单步姿态的参数最优解导入初始化的SMPL三维模型,得到各人员的三维人体姿态模型,之后利用所获取的三维姿态模型建立多人姿态动态检测数字孪生建模;
后端处理模块,用于利用所述多人姿态动态检测数字孪生建模,识别所述封闭空间中当前的人员姿态。
本发明实施例提供的基于多目视觉检测封闭空间中人员行进姿态的方法及系统,从图像中采集各人员的姿态数据、表示空间信息的SMPL模型参数等数据,并在同一个三维空间坐标系中构建人员的三维姿态模型,对多目视觉下多人员场景的数字孪生建模,并通过应用多人员场景的数字孪生建模对工厂中人员的行进姿态进行精确识别,实现了对多人姿态的精确识别检测。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的单目视觉人员三维姿态检测数字孪生建模流程;
图2为本发明实施例提供的预处理过程可能出现的特殊图像扩展情况;
图3为本发明实施例提供的人员完整三维人体姿态模型渲染图;
图4为本发明实施例提供的转换通道后的人员三维人体姿态模型;
图5为本发明实施例提供的多目视觉人员三维姿态检测建模流程;
图6为本发明实施例提供的滤波递归多视角人员三维姿态建模流程;
图7为本发明实施例提供的Shelf数据集下多目视觉数字孪生建模实例;
图8为本发明提供的方法流程示意图;
图9本发明实施例提供的系统架构示意图。
具体实施方式
为使本领域技术人员更好地理解本发明的技术方案,下面结合附图和具体实施方式对本发明作进一步详细描述。下文中将详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
基于多目视觉3D姿态检测的人员数字孪生建模方案可以有效地对智慧工厂的技术人员进行实时监控和安全预警,促进规范化操作以保障其操作安全并提高智慧工厂的生产效率和质量。未来该项研究还可扩展延伸到智慧交通、实时安防监控以及其他基于工业互联网的人机交互领域,利用其检测的高精度、高效性和实时性为目标提供安全保障。因此,目前亟需一种基于多目视觉的实时3D姿态检测实现数字化工厂中的人员孪生建模方法。基于计算机视觉通过深度学习框架解决多人在多部标定摄像机视图图像中的三维姿态估计问题便成为了该项研究的重要任务之一。
本发明实施例提供一种基于多目视觉检测封闭空间中人员行进姿态的方法,针对工厂中人员的行进姿态进行精确识别,并实现对多人姿态的精确识别检测,本实施例的方法如图8所示,包括:
S1、通过安装在封闭空间中的摄像机,拍摄封闭空间中人员的图像,并根据拍摄到的图像获取人员的二维姿态点和SMPL模型参数。
其中,可以基于单目视觉获取人员二维姿态点及模型参数,比如通过人员姿态检测算法获取人员初始二维姿态点。具体可利用现有Open Pose算法获取人员初始二维姿态点,并可以采用循环迭代优化算法对已获取到的人员初始二维姿态点及模型参数进行交替更新,从而得到较高完整度和精度的人员姿态点与模型参数。所述的循环迭代优化算法包括上述梯度更新网络以及参数联合更新的过程。
实际应用中,所述模型参数,指的是所采用的基础SMPL模型参数。该模型是对10个人体几何参数β和75个运动位姿参数θ描述人体的形态特征。在图像中,SMPL模型检测对姿态影响最大的24个骨架节点,利用运动树关系描述姿态点之间局部和整体的旋转关系,最终得到该图像中人员的SMPL模型姿态参数。其中,24个骨架节点包括:左右髋关节、左右膝、左右脚踝、左右肩、左右肘、脖子、腰、胸等。
S2、利用所获取的二维姿态点转换得到三维姿态点。
本实施例中,基于多目视觉提高人员姿态点维度并优化模型参数,所谓的提高人员姿态点维度,指的是可以将二维姿态点通过三角剖分转化为三维姿态点。其中,在多目视觉中,每个视角都包含了一组人员的二维姿态点,根据每个摄像机视角间的高度、角度及位置关系,即可在人员二维平面坐标参数的基础上获取到人员垂直于摄像机的纵向深度参数。有了纵向深度参数。后,每个人员的姿态参数由二维变成三维,即可得到每个人员的三维姿态点分布。通过三维姿态点表达出每个人员在空间场中的具体位置坐标以及多人员之间的相对位置关系。例如:可以利用所获取的二维姿态点获取中所述封闭空间中人员的转换得到三维姿态点。对所获取的二维姿态点进行Delaunay三角剖分处理,由点转换成线、线转换成面、面转换为空间,最终得到人员垂直于摄像机的纵向深度参数,之后根据得到的纵向深度参数,将每个人员的二维姿态点转换为在空间场景中的三维姿态点。
S3、通过循环迭代优化模型对三维姿态点和SMPL模型参数进行迭代更新。
其中,将迭代更新后的三维姿态点和SMPL模型参数,作为人员单步姿态的参数最优解。具体的,每一次迭代更新后可以得到较上一步更加优化的SMPL模型参数θ’、β’和人员姿态点参数X’。在下一步,将θ’、β’、X’等参数作为初始参数代入循环迭代优化模型,实现参数的迭代更新,最终获取到人员单步姿态的参数最优解,并将该结果更新至原图像中。
S4、将所述人员单步姿态的参数最优解导入初始化的SMPL三维模型,得到各人员的三维人体姿态模型,之后利用所获取的三维姿态模型建立多人姿态动态检测数字孪生建模。
S5、利用所述多人姿态动态检测数字孪生建模,识别所述封闭空间中当前的人员姿态。
实际应用中,多人姿态动态检测数字孪生建模完成后,在智能化工厂中的区域性空间对人员进行多目视觉下的数字孪生建模,对技术人员进行实时监控和安全预警。
本实施例中,在S3之前,还包括:对转换得到的三维姿态点进行置信度分析,并按照置信度分析的结果将所述三维姿态点划分为至少两类。
其中,在联合更新的过程中,利用所述三角剖分前的二维姿态点对所述三维姿态点进行置信度分析,并按照置信度的高低将所述三维姿态点划分为至少两类。第二类三维姿态点的置信度低于第一类三维姿态点。对于第一类三维姿态点进行重投影误差计算。对于第二类三维姿态点进行参数联合优化。例如:普通的循环迭代优化算法使用人员的二维姿态点联合SMPL模型参数进行简单的参数联合更新,姿态优化参数为:
其中Eshape2D表示每一次更新中人员所有2D关节投影和所检测到2D关节之间的重新投影的误差之和,Xi表示某一个姿态点,表示将SMPL参数θ代入更新后的姿态点。N表示需要检测的人员姿态点总数。本实施例则是进一步改进了循环迭代优化算法,其中最主要的改进之处在于:提前将人员的二维姿态点通过三角剖分转化为三维姿态点,并联合SMPL模型参数进行联合更新。并在这其中还需要考虑三维姿态点的置信度,对人员二维姿态点按照置信度划分为两类,即所述第一类三维姿态点和第二类三维姿态点。
本实施例在实际应用中,利用循环迭代优化算法对人员姿态点和模型参数进行联合更新,加入二维姿态点置信度评判,对低置信度和高置信度的姿态点采用不同的方法进行参数更新,得到更加精确和完整的三维人体姿态,其中,重投影将三维姿态点与二维检测姿态点对齐,以进行高置信度关节检测。而缺失或低置信度的关节是通过利用更新的SMPL模型估计来规范化三维姿态来确定的。对低置信度和高置信度的姿态点采用不同的方法进行参数更新,得到更加精确和完整的三维人体姿态。具体实现上,如图5,不同视角检测到的人员初始三维姿态尚未遵守运动学约束,并且可能由于不完善的二维关节检测而丢失部分关键姿态点。因此本实施例中可以通过多视图重投影和参数化人体模型来优化这些初始三维姿态,实现三维姿态和人体建模参数θ的交替优化。重投影将三维姿态点与二维检测姿态点对齐,以进行高置信度关节检测。而缺失或低置信度的关节是通过利用更新的SMPL模型估计来规范化三维姿态来确定的。
具体的,所述对转换得到的三维姿态点进行置信度分析,包括:利用所得到的二维姿态点对三维姿态点的置信度进行判断,其中,对于一个二维姿态点,若在多目视觉的视图中识别到至少一个正确的关节,则判定该二维姿态点在进行三角剖分后的得到三维姿态点,属于第一类三维姿态点。例如:在多目视觉中,利用二维姿态点对置信度进行划分,设立一个阈值η,若在多个视图中准确观测并识别到了一个正确的关节,其准确率大于所设定的阈值,即认为该姿态点进行三角剖分后的三维姿态点是高置信度的。反之,观测不到、识别错误等情况均认为是低置信度关节点。对于某一姿态点,高置信度情况下的判断公式如下所示:
其中,δi用于表示该三维姿态点是否识别正确,是则为1,否为0。N'为视图数量,η为判断阈值。
所述对于第一类三维姿态点进行重投影误差计算,包括:对于高置信度姿态点,直接进行重投影误差计算。重投影误差表示为:
其中,Пj是视图j的投影矩阵,j表示视图编号。ωij是视图j中检测到的关节i的置信度,i表示关节编号。δij是一个指示函数,用于表示视图j中的关节i是否丢失,未丢失则δij取值为1,丢失则δij取值为0。Xi和xij分别为人员姿态的真实值和观察值,N表示需要检测的人员姿态点总数,K表示观测到的人员姿态点总数。
d2D(ΠjXi,xij)表示人员第i个关节的2D投影和所检测到的2D关节之间重新投影的误差,即两者经投影后的相对距离。
所述对于第二类三维姿态点进行参数联合优化,其中,对于低置信度的姿态点,对三维姿态点的值进行参数联合优化,其公式为:
δ(ωi)为指示函数,用于表示初始的三维姿态点是否具有足够高的可信度,是则δ(ωi)取值为1,否则δ(ωi)取值为0,ρ3D为判定三维姿态点置信度的阈值。θ表示SMPL模型参数中的运动位姿参数,β表示SMPL模型参数中的人体几何参数,Xi表示某一个姿态点,i表示关节编号,表示代入θ和β进行更新后的姿态点,N表示需要检测的人员姿态点总数,
Eshape3D(X,θ,β)表示每一次更新中人员所有3D关节投影和所检测到3D关节之间的重新投影的误差之和,X表示人员姿态点;ωi表示关节i的置信度,i表示关节编号,当关节i的置信度大于判定三维姿态点置信度阈值时,即ωi>ρ3D时,指示函数取1;表示人员第i个关节的3D投影和所检测到的3D关节之间重新投影的误差,即两者在空间中的相对距离。
本实施例中,在S4中,由S3得到的人员姿态参数最优解,包括SMPL人体几何参数和运动位姿参数以及人员姿态点参数等。将不同人员的参数导入初始化的SMPL三维模型,得到每个人员的三维姿态模型。具体的,所述利用所获取的三维姿态模型建立多人姿态动态检测数字孪生建模,包括:
将各人员的三维姿态模型建立在二维坐标中,得到透明背景的三维模型渲染图。将所述透明背景的三维模型渲染图与S1中拍摄得到的原始图像叠加,得到图像的拟合精度。建立对应初始空间场景的三维空间坐标,将各人员的三维姿态模型按照与所述三维空间坐标的原点的相对位置,导入所述三维空间坐标,从而得到多人姿态动态检测数字孪生建模。例如:可以首先将三维姿态模型建立在二维坐标中,得到透明背景的三维模型渲染图。将渲染图与原始图像叠加,以验证渲染图像与原图像人员姿态的拟合精度。之后,建立三维空间坐标,将所有人员的三维姿态模型按照其与空间坐标原点的相对位置导入并合并至同一初始空间场景中,即完成多人姿态动态检测数字孪生建模。
具体的,所述将所述透明背景的三维模型渲染图与S1中拍摄得到的原始图像叠加,包括:利用所述多人姿态动态检测数字孪生建模,生成各人员的三维人体姿态渲染图。通过逆处理过程将所述单个人员三维人体姿态模型渲染图反向还原至经过预处理的原图像中。
对图像进行预处理后,之后利用循环迭代优化算法得到的较高完整度人员姿态模型参数(即三维姿态点参数X、SMPL各项参数)。三维人体姿态渲染图,可以理解为单个人员三维人体姿态模型的渲染图。需要说明的是,此处的三维人体姿态模型,是指所得到的在二维坐标中生成的的三维人体姿态模型图像。以图像、本地视频、实时监控画面等,即为本意,通过图片(.jpg/.png)格式、本地视频(.mp4)格式以及通过实时摄像头接入的动态实时画面输入,可以输出/动态生成三维人体姿态模型的图像。
其中,预处理过程的输入图像即S1中获取的原始图像,利用RFB-net网络对原始图像当中的人员进行边界识别和裁剪,利用循环迭代优化获取人员的最优姿态点参数等,在二维坐标中生成三维人体姿态渲染图。所谓的“较高完整度”,可以理解为补充内容中提到的通过在二维坐标系中生成的三维渲染模型,验证渲染图像与原图像人员姿态的拟合精度。将三维渲染模型叠加原始图像后,通过像素点之间的重叠率判断模型是否处于“较高完整度”。若重叠率大于95%,认为该模型完整度/精度较高,即完成循环迭代优化过程,否则继续进行循环迭代优化。
具体的,对图像进行预处理,包括:利用RFB-net轻量级特征检测网络,获取图像中人员的边界框坐标参数,其中,所述边界框坐标参数包括:人员边界框的左上角坐标和右下角坐标,还包括表示边界框规模的scale参数和边界框中心坐标的center参数。具体实现上,首先利用RFB-net轻量检测网络获取一张图像中所有人员的边界框坐标参数,每个人员边界框的左上角坐标为(x1,y1),右下角坐标为(x2,y2)。为便于人员数字孪生模型的构建和渲染,计算边界框规模scale参数以及边界框中心坐标center等参数。其中,RFB-net全程为Receptive Field Block-net网络,其是一个多分支的轻量级卷积模块,本方法中利用已训练好的RFB-net模型,提取S1中所述的原始图像中人员的边界框参数,每个人员边界框的左上角坐标为(x1,y1),右下角坐标为(x2,y2)。scale参数和center参数的计算公式为:
基于RFB-net轻量级特征检测网络所获取的人员矩形边界框以及人员模型参数等对输入图像进行预处理。首先基于人员边界框坐标将每个人员的边界在原图中裁剪成单独图像。转换新图像颜色通道,通过相应规则将人员边界框扩展。转换新图像颜色通道,在原图像范围内将人员边界框扩展为宽高相等的正方形图像。根据像素点的比例将图像缩放为预先设定好的比例大小,完成图像预处理。扩展规则如图2所示,在实际检测过程中,当人员处于图像边缘附近时,扩展后的正方形图像将可能超出图像边界出现错误,因此本发明对渲染模型图像超出原图像的部分进行裁剪:标记扩展边界框超出原图像的位置并在渲染模型图像的相同位置进行裁剪,也在同一位置进行模型的还原覆盖。
其中的scale参数指的是上述使用RFB-net所生成的单个人员的边界框规模参数。在预处理过程中,由于输入的原始图像大小不同,需要利用scale参数(即原始图像长、宽的最大值/200)将原始图像进行扩展和还原等,确保在后续的循环迭代优化等过程能够顺利进行。例如:单个人员初始图像,设预先设定的图像比例为224*224,首先将单个人员的初始图象以较长边为基准扩展为正方形,之后用较长边除以预设图像比例,将图像缩放为预设大小。
本实施例在S3中,所述通过循环迭代优化模型对三维姿态点和SMPL模型参数进行迭代更新包括:将三维姿态点和SMPL模型参数输入梯度更新网络进行迭代优化,其中,在所述迭代优化的第一次迭代过程中包括:
将初始三维姿态点X0代入所述梯度更新网络,并通过所述梯度更新网络对SMPL模型的初始运动位姿参数θ0进行更新,得到更新后的SMPL参数θ1。再利用θ1对三维姿态点进行反向迭代,可得到更新后的姿态点X1。例如:循环迭代优化算法的核心思路在于利用所得到的人员三维姿态点和SMPL模型的运动位姿参数基于梯度更新网络进行相互间的迭代优化。利用梯度更新网络对初始SMPL参数θ0进行更新,代入初始姿态点X0,可得到更新后的SMPL参数θ1,再利用该参数对低置信度的姿态点进行参数联合更新,对姿态点进行反向迭代,可得到更新后的姿态点X1。如此进行两参数之间的相互迭代优化更新,最终使人员的姿态点XN和SMPL模型参数θN同时达到最优解,以此提高模型的完整度和建模精度。
在梯度更新网络中,本实施例采用SGD随机梯度下降,通过多次输入SMPL参数θ,使SMPL参数逐渐优化。其预测函数为:
其中,n为迭代次数,θi为每次代入的当次迭代优化的SMPL参数。θ0为初始SMPL参数,xi为第i次迭代更新过程中的三维姿态点。
反向迭代是在S3所述的迭代优化模型中,输入初始人员三维姿态点参数以及初始的SMPL各项参数,通过一次迭代优化进行参数联合更新,输出参数为一次迭代优化后的人员姿态点参数X’和SMPL模型参数θ’和β’;在进行下一次迭代时,将上一步输出的各项参数作为输入参数导入,以此类推。经多次循环优化迭代后,可获取最优的各项姿态参数。最终得到的每个人员的单步姿态的参数最优解,可以包括:迭代更新后的三维姿态点参数X,和SMPL人体几何参数β和运动位姿参数θ等。
本实施例中所述的逆处理过程包括:根据所述预处理时的scale参数,将初始的三维人体姿态模型缩放为原图像的比例大小。将所述初始的三维人体姿态模型范围外的图像颜色通道转换成黑色。利用判断条件将所述单个人员三维人体姿态模型渲染图还原至原图像中,其中,所述判断条件包括:将所述单个人员三维人体姿态模型渲染图的范围内的像素点覆盖原图像,范围外的则使用原图像的像素点。例如:利用得到的scale参数将该图像缩放为预先设定好的比例大小(224×224)。通过改进模型算法进行模型的搭建,最终可以得到每个人员的完整三维人体姿态模型渲染图,如图3。对所述图像预处理的逆过程,包括:将初始三维姿态模型(224×224)根据该人员图像预处理时的scale参数缩放为原图像比例大小。将图像颜色通道转换成除三维模型范围外的背景为“0”(即背景为黑色),如图4。利用判断条件将渲染模型图像还原至原图像中。所述判断条件包括:模型范围内覆盖原图像,模型外的背景则使用原图像。同时进行循环处理,将单张图片中所有人员全部还原至原图像中。
本实施例的实际应用中,在空间场中预测并更新各人员单步姿态。将多个校准后的摄像机检测到的多个人员姿态估计问题转化为跟踪问题而非关联问题。引入递归滤波函数对每个人员进行单独跟踪,以此减少人员三维姿态点之间的关联判定问题。所述递归滤波函数将每一步的递归分为两个子步骤:预测和更新。具体实现上,如图6,以时间t为一个递归单位,在每一次递归中的每一个人员都存在一个三维姿态状态Z,这个状态存储在单个滤波器中进行独立跟踪计算。首先在预测步骤中预测人员的单步三维姿态,之后对摄像机视角数量两两匹配,导入下一步的人员姿态观测值并以此为基础计算每个样本姿态的重要性权重。为了防止在较多视图中可见的姿态被过度表示为在较少视图中的姿态,并解决由于遮挡引起的假阳性检测,本发明对每个摄影机对的重要性权重进行了单独采样并进行人员姿态优化,最后将得到的人员状态传入下一步递归当中。最后,本实施例采用公开数据集Shelf和Campus进行模型的测试验证。将每个人员的三维姿态、空间位置等数据导出,在同一个三维空间坐标系中构建人员的三维姿态模型,实现多目视觉下多人员场景的数字孪生建模,如图8。其次,在本实施例中,利用PCP得分对测试集得到的人员三维姿态点模型进行了定量化计算,用具体的数值来表示所预测关键姿态点的精度。在两个公开数据集的测试结果中,人员的PCP得分均达到了一个较高数值,表明通过滤波递归算法预测的人员三维姿态点准确度和在不同环境下的稳定性均较高。
本实施例还提供一种基于多目视觉检测封闭空间中人员行进姿态的系统,如图9所示的,包括:
摄像头模块,用于拍摄封闭空间中人员的图像。实际应用中,摄像头模块具体采用目前市面上已有的监控摄像头设备。
前端处理模块,用于根据拍摄到的图像获取人员的二维姿态点和SMPL模型参数。实际应用中,前端处理模块可以采用与监控摄像头设备连接的图像采集卡(Image CaptureCard),或者集成了图像采集卡功的计算机等设备。
处理模块,用于利用所获取的二维姿态点转换得到三维姿态点。通过循环迭代优化模型对三维姿态点和SMPL模型参数进行迭代更新,其中,将迭代更新后的三维姿态点和SMPL模型参数,作为人员单步姿态的参数最优解。实际应用中,可以采用具备足够运算性能的计算机设备作为处理模块,比如目前市面上常见的,用于监控领域的视频监控工作站、网络监控录像主机等
模型维护模块,用于将所述人员单步姿态的参数最优解导入初始化的SMPL三维模型,得到各人员的三维人体姿态模型,之后利用所获取的三维姿态模型建立多人姿态动态检测数字孪生建模。实际应用中,模型可以建立并维护在数据库上,数据库与作为处理模块的计算机设备相连接。也可以是,作为处理模块的计算机设备具备足够的计算和存储资源,也可以直接承担数据库的角色,即将模型维护模块集成在计算机设备上。
后端处理模块,用于利用所述多人姿态动态检测数字孪生建模,识别所述封闭空间中当前的人员姿态。后端处理模块也可以直接集成在计算机设备上,并通过图形交互界面输出人员姿态的图像,比如图7所示的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (4)
1.一种基于多目视觉检测封闭空间中人员行进姿态的方法,其特征在于,包括:
S1、拍摄封闭空间中人员的图像,并根据拍摄到的图像获取人员的二维姿态点和SMPL模型参数;
S2、利用所获取的二维姿态点转换得到三维姿态点;
S3、通过循环迭代优化模型对三维姿态点和SMPL模型参数进行迭代更新,其中,将迭代更新后的三维姿态点和SMPL模型参数,作为人员单步姿态的参数最优解;
S4、将所述人员单步姿态的参数最优解导入初始化的SMPL三维模型,得到各人员的三维人体姿态模型,之后利用所获取的三维姿态模型建立多人姿态动态检测数字孪生建模;
S5、利用所述多人姿态动态检测数字孪生建模,识别所述封闭空间中当前的人员姿态;
在S3之前,还包括:
对转换得到的三维姿态点进行置信度分析,并按照置信度分析的结果将所述三维姿态点划分为至少两类;
其中,第二类三维姿态点的置信度低于第一类三维姿态点;对于第一类三维姿态点进行重投影误差计算;对于第二类三维姿态点进行参数联合优化;
其中,所述对于第一类三维姿态点进行重投影误差计算,包括:
重投影误差表示为:
其中,∏j是视图j的投影矩阵,j表示视图编号;ωij是视图j中检测到的关节i的置信度,i表示关节编号;δij是一个指示函数,用于表示视图j中的关节i是否丢失,未丢失则δij取值为1,丢失则δij取值为0;Xi和xij分别为人员姿态的真实值和观察值,N表示需要检测的人员姿态点总数,K表示观测到的人员姿态点总数,d2D(ΠjXi,xij)表示人员第i个关节的2D投影和所检测到的2D关节之间重新投影的误差;
所述对于第二类三维姿态点进行参数联合优化,其中,进行参数联合优化的方式包括:
δ(ωi)为指示函数,用于表示初始的三维姿态点是否具有足够高的可信度,是则δ(ωi)取值为1,否则δ(ωi)取值为0,ρ3D为判定三维姿态点置信度的阈值;θ表示SMPL模型参数中的运动位姿参数,β表示SMPL模型参数中的人体几何参数,Xi表示某一个姿态点,i表示关节编号,表示代入θ和β进行更新后的姿态点,N表示需要检测的人员姿态点总数,Eshape3D(X,θ,β)表示每一次更新中人员的3D关节投影和所检测到的3D关节之间的重新投影的误差之和,X表示人员姿态点;ωi表示关节i的置信度,当ωi>ρ3D时指示函数δ(ωi)取1;表示人员第i个关节的3D投影和所检测到的3D关节之间重新投影的误差。
2.根据权利要求1所述的方法,其特征在于,所述对转换得到的三维姿态点进行置信度分析,包括:
利用所得到的二维姿态点对三维姿态点的置信度进行判断,其中,对于一个二维姿态点,若在多目视觉的视图中识别到至少一个正确的关节,则判定该二维姿态点在进行三角剖分后的得到三维姿态点,属于第一类三维姿态点。
3.根据权利要求1所述的方法,其特征在于,在S3中,所述通过循环迭代优化模型对三维姿态点和SMPL模型参数进行迭代更新包括:将三维姿态点和SMPL模型参数输入梯度更新网络进行迭代优化,其中,在所述迭代优化的第一次迭代过程中包括:
将初始三维姿态点X0代入所述梯度更新网络,并通过所述梯度更新网络对SMPL模型的初始运动位姿参数θ0进行更新,得到更新后的SMPL参数θ1;
再利用θ1对三维姿态点进行反向迭代,可得到更新后的姿态点X1。
4.根据权利要求1所述的方法,其特征在于,在S2中包括:
利用所获取的二维姿态点获取所述封闭空间中人员的二维姿态点,
之后对所获取的二维姿态点进行Delaunay三角剖分处理,得到人员垂直于摄像机的纵向深度参数,之后根据得到的纵向深度参数,将每个人员的二维姿态点转换为在空间场景中的三维姿态点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310241683.9A CN116403275B (zh) | 2023-03-14 | 2023-03-14 | 基于多目视觉检测封闭空间中人员行进姿态的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310241683.9A CN116403275B (zh) | 2023-03-14 | 2023-03-14 | 基于多目视觉检测封闭空间中人员行进姿态的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116403275A CN116403275A (zh) | 2023-07-07 |
CN116403275B true CN116403275B (zh) | 2024-05-24 |
Family
ID=87009390
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310241683.9A Active CN116403275B (zh) | 2023-03-14 | 2023-03-14 | 基于多目视觉检测封闭空间中人员行进姿态的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116403275B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110599540A (zh) * | 2019-08-05 | 2019-12-20 | 清华大学 | 多视点相机下的实时三维人体体型与姿态重建方法及装置 |
CN110598590A (zh) * | 2019-08-28 | 2019-12-20 | 清华大学 | 基于多视角相机的紧密交互人体姿态估计方法及装置 |
CN111968169A (zh) * | 2020-08-19 | 2020-11-20 | 北京拙河科技有限公司 | 动态人体三维重建方法、装置、设备和介质 |
CN113378809A (zh) * | 2021-08-16 | 2021-09-10 | 之江实验室 | 一种基于单目三维人体姿态的摔倒检测方法及系统 |
WO2022241583A1 (zh) * | 2021-05-15 | 2022-11-24 | 电子科技大学 | 一种基于多目视频的家庭场景动作捕捉方法 |
US11526697B1 (en) * | 2020-03-10 | 2022-12-13 | Amazon Technologies, Inc. | Three-dimensional pose estimation |
EP4102400A1 (en) * | 2020-07-27 | 2022-12-14 | Tencent Technology (Shenzhen) Company Limited | Three-dimensional human pose estimation method and related device |
-
2023
- 2023-03-14 CN CN202310241683.9A patent/CN116403275B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110599540A (zh) * | 2019-08-05 | 2019-12-20 | 清华大学 | 多视点相机下的实时三维人体体型与姿态重建方法及装置 |
CN110598590A (zh) * | 2019-08-28 | 2019-12-20 | 清华大学 | 基于多视角相机的紧密交互人体姿态估计方法及装置 |
US11526697B1 (en) * | 2020-03-10 | 2022-12-13 | Amazon Technologies, Inc. | Three-dimensional pose estimation |
EP4102400A1 (en) * | 2020-07-27 | 2022-12-14 | Tencent Technology (Shenzhen) Company Limited | Three-dimensional human pose estimation method and related device |
CN111968169A (zh) * | 2020-08-19 | 2020-11-20 | 北京拙河科技有限公司 | 动态人体三维重建方法、装置、设备和介质 |
WO2022241583A1 (zh) * | 2021-05-15 | 2022-11-24 | 电子科技大学 | 一种基于多目视频的家庭场景动作捕捉方法 |
CN113378809A (zh) * | 2021-08-16 | 2021-09-10 | 之江实验室 | 一种基于单目三维人体姿态的摔倒检测方法及系统 |
Non-Patent Citations (3)
Title |
---|
3D Human Pose Estimation Using RGBD Camera;Zhenghui Fang;2021 IEEE International Conference on Computer Science, Electronic Information Engineering and Intelligent Control Technology (CEI);全文 * |
基于二维图像重建特定姿态三维人体的方法研究;李茂星;中国优秀硕士论文电子期刊网;正文第4.1.2节 * |
基于行人姿态的轨迹预测方法;王瑞平等;北京航空航天大学学报;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116403275A (zh) | 2023-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110415342B (zh) | 一种基于多融合传感器的三维点云重建装置与方法 | |
CN108764048B (zh) | 人脸关键点检测方法及装置 | |
CN112017189B (zh) | 图像分割方法、装置、计算机设备和存储介质 | |
CN113450408B (zh) | 一种基于深度相机的非规则物体位姿估计方法及装置 | |
CN102697508B (zh) | 采用单目视觉的三维重建来进行步态识别的方法 | |
Xu et al. | Reconstruction of scaffolds from a photogrammetric point cloud of construction sites using a novel 3D local feature descriptor | |
CN108648194B (zh) | 基于cad模型三维目标识别分割和位姿测量方法及装置 | |
CN101443817B (zh) | 用于确定场景的三维重建时的对应关系的方法和装置 | |
CN109544677A (zh) | 基于深度图像关键帧的室内场景主结构重建方法及系统 | |
CN107167139A (zh) | 一种变电站巡检机器人视觉定位导航方法及系统 | |
US20160249041A1 (en) | Method for 3d scene structure modeling and camera registration from single image | |
CN111241989A (zh) | 图像识别方法及装置、电子设备 | |
EP3274964B1 (en) | Automatic connection of images using visual features | |
CN105631861A (zh) | 结合高度图从无标记单目图像中恢复三维人体姿态的方法 | |
CN108280858B (zh) | 多视图重建中的一种线性全局相机运动参数估计方法 | |
CN103839277A (zh) | 一种户外大范围自然场景的移动增强现实注册方法 | |
CN110688905A (zh) | 一种基于关键帧的三维物体检测与跟踪方法 | |
CN105005760A (zh) | 一种基于有限混合模型的行人再识别方法 | |
CN113011401B (zh) | 人脸图像姿态估计和校正方法、系统、介质及电子设备 | |
CN112528974B (zh) | 测距方法、装置、电子设备及可读存储介质 | |
CN114219855A (zh) | 点云法向量的估计方法、装置、计算机设备和存储介质 | |
CN114170144A (zh) | 一种输电线路销钉缺陷检测方法、设备及介质 | |
CN115082254A (zh) | 一种变电站精益管控数字孪生系统 | |
CN114627491A (zh) | 一种基于极线汇聚的单人三维姿态估计方法 | |
CN117456136A (zh) | 一种基于多模态视觉识别的数字孪生场景智能生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |