CN114913552A - 一种基于单视角点云序列的三维人体稠密对应估计方法 - Google Patents
一种基于单视角点云序列的三维人体稠密对应估计方法 Download PDFInfo
- Publication number
- CN114913552A CN114913552A CN202210817641.0A CN202210817641A CN114913552A CN 114913552 A CN114913552 A CN 114913552A CN 202210817641 A CN202210817641 A CN 202210817641A CN 114913552 A CN114913552 A CN 114913552A
- Authority
- CN
- China
- Prior art keywords
- point cloud
- point
- template model
- view
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 239000011159 matrix material Substances 0.000 claims abstract description 56
- 230000006870 function Effects 0.000 claims abstract description 31
- 230000033001 locomotion Effects 0.000 claims abstract description 30
- 238000013507 mapping Methods 0.000 claims abstract description 17
- 238000012886 linear function Methods 0.000 claims abstract description 6
- 238000000605 extraction Methods 0.000 claims description 18
- 238000000354 decomposition reaction Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 238000002360 preparation method Methods 0.000 claims 1
- 230000000295 complement effect Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000012530 fluid Substances 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011143 downstream manufacturing Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于单视角点云序列的三维人体稠密对应估计方法,其包括如下步骤:使用模板模型对齐输入的单视角点云来补全单视角点云的人体信息;计算模板模型点云和输入点云的LBO,得到拉普拉斯基;通过深度点云特征提取网络得到模板模型点云和输入点云的点云特征;拉普拉斯基与提取的特征矩阵相乘得到它们的频域空间特征;使用频域空间特征计算线性函数映射以表征稠密点对关系;通过点对关系分别对模板模型点云和输入点云进行重排序;将重排序的模板模型通过变形模块得到的变形距离误差作为单帧内部的无监督误差,并引入运动一致性损失函数对变形模块进行无监督学习。本发明能够准确地进行三维人体稠密对应估计。
Description
技术领域
本发明属于三维人体重建技术领域,特别涉及一种基于单视角点云序列的三维人体稠密对应估计方法。
背景技术
目前在计算机视觉和图形学相关领域中,对应点估计或形状匹配是一个非常重要的问题。计算形状之间的对应点关系是可以帮助解决语义驱动技术的关键问题之一,且各种问题都可以归入形状对应的范畴,于是在近年来成为了计算机视觉领域的一个热门研究方向。形状对应背后的终极目标是识别形状的各个部分并推断它们的用途,因此建立从一个形状到另一个形状的映射在语义上是有意义的。形状点对关系是在三维对齐和时空重建等任务中的一个关键组成部分,也是属性迁移、形状插值和统计建模等各种应用中不可或缺的先决条件。
由于表示三维对象、场景的灵活性和效率性问题,三维点云已被广泛应用于各种应用中,例如互动通信、自动驾驶、AR/VR等。在AR/VR 中,对应点关系估计是三维重建和运动跟踪等 AR/VR 关键技术的基石。例如虚拟试衣系统中需要建立三维人体模型,并且对齐人体模型与服装,合成试衣结果,最终着装的模型不能出现错位或运动不一致的情况,便需要应用点对关系的技术。同时它也在影视、医疗、游戏等方面也有着广泛的应用前景。
人体稠密对应点估计可以用于形状插值,在插值或变形中,一个形状逐渐变换成另一个形状,如果满足一定的审美要求,因此形状的渐变具有视觉上的愉悦感,由此用于影视或者游戏方面;在医学领域,可以跟踪病人皮肤上痣的数量和密度的变化(用于癌症预测)。近年来,消费型深度相机得到了快速的发展,如微软公司推出的 Kinect,此类相机除了可以获得 RGB图像外,还可以获得对应的深度图像。由深度图像便可以获得点云,相对于网格模型的难以获取,点云更容易获得,所以估计点云的稠密对应点更是大势所趋。
随着深度学习技术的发展,点云上人体稠密对应点估计性能得到了很大的发展,而点云及其序列的使用,则将进一步提高三维人体稠密对应点估计的精度,为理解人类行为提供更好地帮助,但是点云作为输入也带来了许多的困难和挑战。由于每个相机、扫描仪在自己的空间而不是对象空间中产生一个点云,因此,两个点云(甚至即使它们代表同一对象)之间没有关联,这对下游处理和分析构成了巨大挑战,如运动传输、形状编辑、动态点云压缩、三维对象识别、点云注册、形状检索、表面重建以及三维物体分类等等。
目前估计稠密形状对应已经有了相当多的方法,大致可以分为两类:基于手工描述符的方法和数据驱动的方法。基于手工描述符的方法通常预定义手工描述符来计算每个点的独有特征来优化最终对应结果。除此之外,还有Monti等人提出的将点进行分类的方法:输入一个模型后,经过深度学习后将每个点进行分类,也可以做到估计两个模型的对应关系。最近,基于深度学习的方法训练神经网络来估计点对关系,在很大程度上提高了性能。
然而,现有的稠密形状估计方法要么查询大量难以获得的注释数据,要么假设输入数据中的连接信息可用,即多边形网格。由于在更容易获取到的点云中,并没有任何的边连接信息,因此,也更难以计算出准确的特征来预估点对关系。事实上,通常人们只能观察到单一视角的可见点,所以这样的部分点云是没有完整人体信息的。因此,没有边连接信息且在有遮挡或单一视角的情况下,两个点云之间建立对应点关系成为了一个巨大的挑战。
发明内容
本发明的目的在于提出一种基于单视角点云序列的三维人体稠密对应估计方法,以便能够准确地估计三维人体稠密对应。
本发明为了实现上述目的,采用如下技术方案:
一种基于单视角点云序列的三维人体稠密对应估计方法,包括如下步骤:
步骤1. 利用模板模型对齐输入的单视角点云,并补全单视角点云的人体信息;
步骤2. 分别计算模板模型点云以及补全的单视角点云的 LBO,通过对LBO进行特征分解,分别得到模板模型点云以及补全的单视角点云的拉普拉斯基;
步骤3. 利用深度点云特征提取网络分别对模板模型点云以及补全的单视角点云进行特征提取,得到模板模型点云和补全的单视角点云的点向特征;
将模板模型点云的点向特征和补全的单视角点云的点向特征分别与对应点云的拉普拉斯基相乘,得到模板模型点云和补全的单视角点云的频域空间特征;
步骤4. 利用模板模型点云和补全的单视角点云的频域空间特征计算得到线性函数映射矩阵,以表示模板模型点云与补全的单视角点云之间的点对关系;
步骤5. 利用点对关系对模板模型点云以及补全的单视角点云进行重排序,进而得到重排序的模板模型点云以及重排序的单视角点云;
步骤6. 将补全的单视角点云的点向特征经过预处理后,与重排序的模板模型点云进行拼接,并输入到变形模块,经过变形后输出与重排序的单视角点云对齐的模板模型点云;
计算变形后输出的模板模型点云与重排序的单视角点云之间的变形距离误差;
将该变形距离误差作为无监督学习误差,同时引入运动一致性损失约束,对变形模块进行无监督学习,进而得到学习好的变形模块;
步骤7. 利用变形模块对输入的单视角点云序列进行三维人体稠密对应估计。
本发明具有如下优点:
如上所述,本发明述及了一种基于单视角点云序列的三维人体稠密对应估计方法,该方法不仅补全了单视角点云缺失的人体信息,而且采用新的计算LBO方法提高对应精度,引入了变形模块来构建基于数据驱动的无监督方法,解决了目前三维人体对应估计存在缺乏有标签数据集的问题,而且引入运动一致性损失,有效改善了对应结果不稳定或抖动的情况。本发明方法有效地提高了三维人体稠密对应估计结果的精确度。
附图说明
图1为本发明实施例中基于单视角点云序列的三维人体稠密对应估计方法的流程图。
图2为本发明实施例中单帧网络结构图。
图3为本发明实施例中连续帧结构图。
图4为本发明实施例中点向特征和频域空间特征提取网络结构图。
图5为本发明实施例中全局特征提取网络结构图。
图6为本发明实施例中变形模块的结构图。
图7为本发明实施例中运动一致性示意图。
具体实施方式
下面结合附图以及具体实施方式对本发明作进一步详细说明:
如图1所示,基于单视角点云序列的三维人体稠密对应估计方法,包括如下步骤:
步骤1. 利用模板模型对齐输入的单视角点云,并补全单视角点云的人体信息。
本实施例首先利用OPENPOSE计算单视角点云的二维关节像素坐标,再通过二维到三维的转换得到三维关节坐标。具体操作为:
步骤1.1. OPENPOSE生成的关节vij=(i,j),表示二维关节像素坐标,通过彩色图像与深度图像匹配获得该关节像素坐标的深度d,得到关节的三维坐标,如公式(1)所示。
x=(i-cx)*d/fx,y=(j-cy)*d/fy (1)
其中,(i,j)表示二维关节像素坐标;关节的三维坐标为v’ ij=(x,y,z),z=d,常数cx、cy、fx以及fy均为相机内参。
然后使用 KEEP IT SMPL 将模板模型通过最小化三维关节的误差,将模板模型变形至与输入的单视角点云大致对齐,此处的大致对齐即两个点云躯干对齐即可。
因为设置了SMPL模型作为限制,能够防止在变形过程中出现畸变。SMPL是一个使用姿态参数Θ和形状参数β表达的函数M(·),它能表达顶点数为6890的网格模型:
T(β, Θ)=T+Bs(β)+ Bp(Θ);
该SMPL函数允许模板模型姿态T+Bs(β)基于关节J(β)变形,就能够让模板模型变形到与输入的单视角点云大致对齐,然后用变形后的模板模型不可见点补全输入的单视角点云,以补全输入的单视角点云中丢失的人体信息,具体操作为:计算变形后模板模型的法向量,只保留法向量为负的点,直接放在输入的单视角点云后面。
也就是,最终补全后点云的点集由两部分组成,前部分为原始输入的点,后部分为补充的点,这样就获得了一个较为完整的人体结构。将模板模型点云和补全的单视角点云将作为之后模块的输入。与直接缺失一大部分的点云相比,本发明通过补全后的点云能够更好地预测出对应关系,利用SMPL 模型作为限制,可以防止在变形过程中出现畸变。
步骤2. 分别计算模板模型点云以及补全的单视角点云的 LBO,通过对LBO进行特征分解,分别得到模板模型点云以及补全的单视角点云的拉普拉斯基。
Laplace-Beltrami算子(LBO)是半正定的,通过拉普拉斯变换将欧式空间扩展到非欧几里得空间,即频域空间。LBO是一个内蕴特征,也就是说,它可以完全用一个黎曼矩阵来表示。因此,它具有流形恒定变形的性质。在密集黎曼流形上,它允许分解相应的特征函数,从而形成一个正交基,也就是拉普拉斯基,它是傅里叶基在非欧几里叶域的推广。
人体其实是一种黎曼流体,是嵌入在高维空间中的低维流形。对于拥有黎曼流形性质的人体,通常对点云的离散表示进行采样。Belkin等人提出了不依赖于全局网格模型的方法,它通过切空间中的局部三角剖分来计算点云中相应的LBO。
然而这个方法有个很致命的缺陷,因为,在计算两个互为邻域的点时,它们各自的切平面不同,所以它们映射后的三角面片的面积会不同而导致求出的 LBO矩阵不对称。在实验时,也曾尝试直接将LBO算子改为对称的,然而结果并不理想。切空间是由微分流形在一点上相关的向量空间,是光滑曲线的切线和欧几里得空间中光滑曲面的切线平面的推广。
该步骤2具体为:
步骤2.3. 计算所有投影后邻接点的 LBO算子。
拉普拉斯矩阵L定义为:L=S-1W,其中,S表示面积矩阵,W表示权重矩阵。
面积矩阵S和权重矩阵W的计算过程如下:
首先计算每个点的球形邻域,邻域半径为r,在这个邻域中找到其所有邻接点,将它们全部投影到该点的切空间中,并将投影点进行局部三角剖分,再计算点云 LBO。
将面积矩阵S定义为:当i≠j时,sij=∑k≠i,j Sijk,当i=j时,sij=-∑k≠i sik。
其中,i是点云的一个顶点,j、k是i的邻接点。
Sijk是属于i、j、k三个点组成的三角区域面积,sij表示所有三角区域面积之和;且当i=j时,sii等于点i的所有邻接点所构成的面的面积之和。
将权重矩阵W定义为:当i≠j时,wij=∑(cotαij+cotβij)/2,当i=j时,wij=-∑k≠i wik。
其中,αij和βij是边eij的两个角度,边eij是指点i和点j所构成的边,且当i=j时,wij等于点i的所有邻域的所有w之和,即当i≠j时所计算出来的wij,wij表示为权重矩阵W中第i行第j列的权重值,wik表示权重矩阵W中第i行第k列的权重值。
步骤2.4. 将LBO通过特征分解WΦ=SΦΛ得到拉普拉斯基Φ和特征值Λ。
模板模型点云以及补全的单视角点云分别按照上述步骤2.1至步骤2.4计算,得到模板模型点云以及补全的单视角点云的拉普拉斯基Φ和Ψ。
由于邻域点是可逆的,因此根据邻域信息保留的 LBO也就是对称的。
本发明利用新提出的面积矩阵和权重矩阵表示方法,利于得到更优的点云局部几何特征表示,通过将每个点的邻域点映射到该点切空间后进行三角刨分近似得到点云的邻接关系,最后利用计算出的所有面积和权重可以得到两个输入点云的拉普拉斯基Φ和Ψ。
步骤3. 利用深度点云特征提取网络分别对模板模型点云以及补全的单视角点云进行特征提取,得到模板模型点云和补全的单视角点云的点向特征。
将模板模型点云的点向特征和补全的单视角点云的点向特征分别与对应点云的拉普拉斯基相乘,得到模板模型点云和补全的单视角点云的频域空间特征。
点云作为形状的离散表示,已经是现今形状表示中最便捷,最容易获取到的人体表示形式。而点云只有三维坐标,所以需要通过深度学习获取更丰富的特征。
特征描述符描述了对象的局部特征,属于谱形状分析方法。随着神经网络的发展,越来越多的学者将卷积神经网络引入到了点云特征提取中来。
本发明结合 KPConv进行特征提取,具体的局部特征提取网络见图4。
以补全的单视角点云作为输入点云为例:
输入点云的大小为6890×3,输入点云的拉普拉斯基大小为6890×50,将输入点云和与输入点云对应的拉普拉斯基共同作为输入,通过网格下采样。
下采样得到下采样后的点(大小为6890×3)以及拉普拉斯基矩阵(大小为6890×50)。
下采样后的点再通过KPConv特征提取网络获得其特征,大小为6890×50。
将KPConv特征提取网络得到的特征与下采样后的拉普拉斯基矩阵相乘,得到单视角点云的频域空间特征,此时得到的频域空间特征为点向局部特征,大小为6890×50。
其中,6890为特征点数,50为维数。
本实施例中的KPConv特征提取网络为局部特征提取网络,其包括KPConv、ResNet、Strided ResNet、ResNet、最近上采样以及一维卷积。
利用KPConv 进行特征提取,通过插值和平滑来计算点云的局部特征。
进一步将点向局部特征经过全局特征提取网络进而得到全局特征,如图5示出了全局特征提取网络,其包括d×d维的一维卷积、GN、LeakyReLu、最大池以及平均池。
其中,输入的点向局部特征为n×d维,此处n=6890,d=50。
点向局部特征经过一个一维卷积后,分别输入最大池和平均池,两个得到1×d维的全局特征,两个1×d维的全局特征拼接后得到1×2d维的全局特征。
经过全局特征提取网络得到的该全局特征即补全的单视角点云的频域空间特征B,如图2所示,同理,模板模型点云的频域空间特征A也按照上述方法得到,此处不再详细赘述。
步骤4. 利用模板模型点云和补全的单视角点云的频域空间特征计算得到线性函数映射矩阵,以表示模板模型点云与补全的单视角点云之间的点对关系Corr。
利用非刚性流体在频域空间中的线性特征通过最小二乘法计算函数映射矩阵。
函数映射首先是给定两个形状M和N,它们的标量函数为f:M→R和g:N→R,它们之间有一个可逆的映射T,可以进行可逆变g=f T-1。
通过计算拉普拉斯基,可以将欧式空间中复杂的三维对应T转换为频域空间中的线性关系,即TF:F(M,R)→F(N,R),两个形状之间的关系便可以表示CA=B。
其中,A和B分别为两个形状在频域空间上的特征,由此获得函数映射矩阵C。
通过上述公式可以得到令人满意的点对关系,这样就将复杂的欧式空间对应关系转换为频域空间线性关系,可以通过简单的最小二乘法获得函数映射矩阵。
定义M表示模板模型点云,N表示补全的单视角点云。
对于模板模型点云M计算出的拉普拉斯基为Φ,频域特征表示为A=ΦΠM,对于补全的单视角点云N计算出的拉普拉斯基为Ψ,频域特征表示为B=ΨΠN。
其中,ΠM表示模板模型点云的点向特征,ΠN表示补全的单视角点云的点向特征。
最后通过最小二乘法获得函数映射矩阵C,计算公式为:
Copt=argminc|| CA-B||2+α||ΛMC-CΛN ||2。
其中,Copt表示函数映射矩阵C的优化函数,ΛM是模板模型点云LBO进行特征分解后得到的特征值, ΛN是补全的单视角点云LBO进行特征分解后得到的特征值。
步骤5. 利用点对关系Corr对模板模型点云以及补全的单视角点云进行重排序,进而得到重排序的模板模型点云以及重排序的单视角点云。该步骤具体5具体为:
步骤5.1. 首先将频域空间线性函数映射矩阵与模板模型点云和补全的单视角点云的拉普拉斯基进行矩阵相乘,计算获得点向对应概率矩阵P,P=ΦCΨT。
P是n×n的矩阵,n为输入模板模型点云的点数,Pij表示第i点与第j点对应的概率。
步骤5.2. 使用点向对应概率矩阵分别与模板模型点云矩阵、补全的单视角点云矩阵进行矩阵乘法计算,分别计算得到重排序的模板模型点云和重排序的单视角点云。
此种点云重排序的方式可避免传统的点对概率方法存在的如下问题:
对点云的重排序,最初使用的是通过点对概率,计算出最大概率得到软对应点,再将点云根据软对应重排序,但是由于这个方式不可导,会导致梯度不下降。
步骤 6. 将补全的单视角点云的点向特征经过预处理后,与重排序的模板模型点云进行拼接,并输入到MLP变形模块,经过变形后输出与重排序的单视角点云对齐的模板模型点云。
其中,预处理过程包括最大池化以及复制n维操作,如图2和图6所示。
计算变形后输出的模板模型点云与重排序的单视角点云之间的变形距离误差l d 。
将该变形距离误差l d 作为无监督学习误差,同时引入运动一致性损失约束,对变形模块进行无监督学习,得到学习好的变形模块。因此,变形模块的损失函数L= l d + l mc 。
其中,l d 为变形几何约束即变形后的模板模型点云与重排序的单视角点云间的变形距离误差;l mc 为时序几何约束即基于相邻三帧之间对应点之间的运动连续性构造的损失函数。
如图7所示,本发明实施例在对变形模块进行无监督学习时,通过运动分析,还引入了运动一致性损失约束,进一步优化变形模块的模型参数。
通过引入运动一致性约束,使得当模型输入连续帧点云序列时,变形模块能更好的预测出变形点云与输入点云序列之间的稠密对应,使模型表现稳定和防止抖动发生。
具体的,当输入为连续帧的点云时,将单帧无监督网络结构表达为时序上的网络结构,通过帧与帧之间运动变化的几何特性,作为时序损失函数进行无监督学习。
如图7所示,本发明基于相邻三帧之间对应点之间的运动连续性来构造损失函数。
这个损失函数将同一个点看作在微小时刻内的运动距离为相同的,因此认为对应到模板模型点云同一个点的三个帧的点应该是同一个点在不同时间帧所处的位置。
而它在连续三帧之间的运动应该时连续线性的,所以,运动连续损失函数为:
l mc =∑i|| vp,i (t-1)+ vp,i (t+1) -2 vp,i (t) ||1。
其中,i表示模板模型上的点索引;∑i表示模板模型上所有点的运动连续损失之和;vp,i (t-1)、vp,i (t)、vp,i (t+1)分别是在第t-1帧、第t帧、第t+1帧时i对应点坐标。
此时在运动状态下假设第t-1帧和第t帧运动距离di t,t-1与第t+1帧和第t帧运动距离di t,t+1相同,也就是假设时间足够短的情况下帧与帧之间同一个点的运动距离是接近相同的。
其中,di t,t+1=||vp,i (t+1)- vp,i (t)||1 di t,t-1=||vp,i (t)- vp,i (t-1)||1,||·||1表示深度学习中的L1损失函数。
在图7显示了连续三帧点云运动一致性示意。
本发明通过运动一致性损失约束进一步优化模型参数,使得模型最终输入是连续帧点云序列时,变形模块能更好地预测出变形点云与输入点云序列之间的稠密对应。
通过最小化该变形模块的损失函数L,实现对变形模块的无监督学习。
步骤7. 利用变形模块对输入的单视角点云序列进行三维人体稠密对应估计。
具体的,将单视角点云序列逐帧输入,各帧单视角点云分别按照上述步骤1至5的顺序进行处理,最后输入到变形模型,进行三维人体稠密对应估计。
本发明实施例通过变形模块构建上述无监督约束,有效地解决了点云对应标签缺少的问题,并且通过连续运动约束,很好地减少了对应结果的不稳定性。
当然,以上说明仅仅为本发明的较佳实施例,本发明并不限于列举上述实施例,应当说明的是,任何熟悉本领域的技术人员在本说明书的教导下,所做出的所有等同替代、明显变形形式,均落在本说明书的实质范围之内,理应受到本发明的保护。
Claims (10)
1.一种基于单视角点云序列的三维人体稠密对应估计方法,其特征在于,
包括如下步骤:
步骤1. 利用模板模型对齐输入的单视角点云,并补全单视角点云的人体信息;
步骤2. 分别计算模板模型点云以及补全的单视角点云的 LBO,通过对LBO进行特征分解,分别得到模板模型点云以及补全的单视角点云的拉普拉斯基;
步骤3. 利用深度点云特征提取网络分别对模板模型点云以及补全的单视角点云进行特征提取,得到模板模型点云和补全的单视角点云的点向特征;
将模板模型点云的点向特征和补全的单视角点云的点向特征分别与对应点云的拉普拉斯基相乘,得到模板模型点云和补全的单视角点云的频域空间特征;
步骤4. 利用模板模型点云和补全的单视角点云的频域空间特征计算得到线性函数映射矩阵,以表示模板模型点云与补全的单视角点云之间的点对关系;
步骤5. 利用步骤4得到的点对关系,对模板模型点云以及补全的单视角点云进行重排序,得到重排序的模板模型点云以及重排序的单视角点云;
步骤6. 将补全的单视角点云的点向特征经过预处理后,与重排序的模板模型点云进行拼接,并输入到变形模块,经过变形后输出与重排序的单视角点云对齐的模板模型点云;
计算变形后输出的模板模型点云与重排序的单视角点云之间的变形距离误差;
将该变形距离误差作为变形模块的无监督学习误差,同时引入运动一致性损失约束,对变形模块进行无监督学习,进而得到学习好的变形模块;
步骤7. 利用变形模块对输入的单视角点云序列进行三维人体稠密对应估计。
2.根据权利要求1所述的三维人体稠密对应估计方法,其特征在于,
所述步骤1具体为:
步骤1.1. 首先计算单视角点云的二维关节,再通过二维到三维的转换得到三维关节;
步骤1.2. 使用 KEEP IT SMPL 将模板模型通过最小化三维关节的误差,将模板模型变形至与输入的单视角点云对齐,此处对齐是指模板模型点云与单视角点云的躯干对齐;
步骤1.3. 用变形后的模板模型不可见点去补全输入的单视角点云中丢失的人体信息。
4.根据权利要求3所述的三维人体稠密对应估计方法,其特征在于,
所述步骤2.3中,面积矩阵S和权重矩阵W的计算过程如下:
首先计算每个点的球形邻域,邻域半径为r,在这个邻域中找到其所有邻接点,将它们全部投影到该点的切空间中,并将投影点进行局部三角剖分,再计算点云LBO;
将面积矩阵S定义为:当i≠j时,sij=∑k≠i,j Sijk,当i=j时,sij=-∑k≠i sik;
其中,i是点云的一个顶点,j、k是i的邻接点;
Sijk是属于i、j、k三个点组成的三角区域面积,sij表示所有三角区域面积之和;且当i=j时,sii等于点i的所有邻接点所构成的面的面积之和;
将权重矩阵W定义为:当i≠j时,wij=∑(cotαij+cotβij)/2,当i=j时,wij=-∑k≠i wik;
其中,αij和βij是边eij的两个角度,边eij是指点i和点j所构成的边,且当i=j时,wij等于点i的所有邻域的所有w之和,即当i≠j时所计算出来的wij;wij表示为权重矩阵W中第i行第j列的权重值,wik表示权重矩阵W中第i行第k列的权重值。
5.根据权利要求1所述的三维人体稠密对应估计方法,其特征在于,
所述步骤3具体为:
将点云和与点云对应的拉普拉斯基共同作为输入,通过网格下采样得到下采样后的点以及拉普拉斯基矩阵,下采样后的点通过KPConv特征提取网络获得其特征;
将经过KPConv特征提取网络得到的特征,与下采样后的拉普拉斯基矩阵相乘得到频域空间特征,此时得到的频域空间特征为点向局部特征;
将该点向局部特征进一步经过一个全局特征提取网络,得到全局特征。
6.根据权利要求1所述的三维人体稠密对应估计方法,其特征在于,
所述步骤4具体为:
定义M表示模板模型点云,N表示补全的单视角点云;
对于模板模型点云M计算出的拉普拉斯基为Φ,频域特征表示为A=ΦΠM,对于补全的单视角点云N计算出的拉普拉斯基为Ψ,频域特征表示为B=ΨΠN;
其中,ΠM表示模板模型点云的点向特征,ΠN表示补全的单视角点云的点向特征;
最后通过最小二乘法获得函数映射矩阵C,计算公式为:
Copt=argminc|| CA-B||2+α||ΛMC-CΛN ||2;
其中,Copt表示函数映射矩阵C的优化函数,ΛM是模板模型点云LBO进行特征分解后得到的特征值,ΛN是补全的单视角点云LBO进行特征分解后得到的特征值。
7.根据权利要求1所述的三维人体稠密对应估计方法,其特征在于,
所述步骤5具体为:
步骤5.1. 首先将频域空间线性函数映射矩阵与模板模型点云和补全的单视角点云的拉普拉斯基进行矩阵相乘,通过计算获得点向对应概率矩阵;
步骤5.2. 使用点向对应概率矩阵分别与模板模型点云矩阵、补全的单视角点云矩阵进行矩阵乘法计算,分别计算得到重排序的模板模型点云和重排序的单视角点云。
8.根据权利要求1所述的三维人体稠密对应估计方法,其特征在于,
所述步骤6中,当输入为连续帧的点云时,将单帧无监督网络结构表达为时序上的网络结构,通过帧与帧之间运动变化的几何特性作为时序损失函数进行无监督学习。
9.根据权利要求8所述的三维人体稠密对应估计方法,其特征在于,
所述步骤6中,基于相邻三帧之间对应点之间的运动连续性来构造损失函数;
其中,运动连续损失函数为:l mc =∑i|| vp,i (t-1)+ vp,i (t+1) -2 vp,i (t) ||1;
其中,i表示模板模型上的点索引,∑i表示模板模型上所有点的运动连续损失之和;
vp,i (t-1)、vp,i (t)、vp,i (t+1)分别是在第t-1帧、第t帧、第t+1帧时i对应点坐标。
10.根据权利要求9所述的三维人体稠密对应估计方法,其特征在于,
所述步骤6中,变形模块的损失函数L= l d + l mc ;
其中,l d 为变形几何约束即变形后的模板模型点云与重排序的单视角点云间的变形距离误差;l mc 为时序几何约束即基于相邻三帧之间对应点之间的运动连续性构造的损失函数;
通过最小化该变形模块的损失函数L,实现对变形模块的无监督学习。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210817641.0A CN114913552B (zh) | 2022-07-13 | 2022-07-13 | 一种基于单视角点云序列的三维人体稠密对应估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210817641.0A CN114913552B (zh) | 2022-07-13 | 2022-07-13 | 一种基于单视角点云序列的三维人体稠密对应估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114913552A true CN114913552A (zh) | 2022-08-16 |
CN114913552B CN114913552B (zh) | 2022-09-23 |
Family
ID=82772790
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210817641.0A Active CN114913552B (zh) | 2022-07-13 | 2022-07-13 | 一种基于单视角点云序列的三维人体稠密对应估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114913552B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115564777A (zh) * | 2022-12-06 | 2023-01-03 | 南京航空航天大学 | 一种基于特征约束的单视角点云定位方法 |
CN116740820A (zh) * | 2023-08-16 | 2023-09-12 | 南京理工大学 | 基于自动增广的单视角点云三维人体姿态与形状估计方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106600686A (zh) * | 2016-12-06 | 2017-04-26 | 西安电子科技大学 | 一种基于多幅未标定图像的三维点云重建方法 |
CN106683173A (zh) * | 2016-12-22 | 2017-05-17 | 西安电子科技大学 | 一种基于邻域块匹配提高三维重建点云稠密程度的方法 |
CN111161364A (zh) * | 2019-12-24 | 2020-05-15 | 东南大学 | 一种针对单视角深度图的实时形状补全和姿态估计方法 |
CN112750198A (zh) * | 2021-01-12 | 2021-05-04 | 南京理工大学 | 一种基于非刚性点云的稠密对应预测方法 |
CN113139996A (zh) * | 2021-05-06 | 2021-07-20 | 南京大学 | 一种基于三维点云几何特征学习的点云配准方法及系统 |
-
2022
- 2022-07-13 CN CN202210817641.0A patent/CN114913552B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106600686A (zh) * | 2016-12-06 | 2017-04-26 | 西安电子科技大学 | 一种基于多幅未标定图像的三维点云重建方法 |
CN106683173A (zh) * | 2016-12-22 | 2017-05-17 | 西安电子科技大学 | 一种基于邻域块匹配提高三维重建点云稠密程度的方法 |
CN111161364A (zh) * | 2019-12-24 | 2020-05-15 | 东南大学 | 一种针对单视角深度图的实时形状补全和姿态估计方法 |
CN112750198A (zh) * | 2021-01-12 | 2021-05-04 | 南京理工大学 | 一种基于非刚性点云的稠密对应预测方法 |
CN113139996A (zh) * | 2021-05-06 | 2021-07-20 | 南京大学 | 一种基于三维点云几何特征学习的点云配准方法及系统 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115564777A (zh) * | 2022-12-06 | 2023-01-03 | 南京航空航天大学 | 一种基于特征约束的单视角点云定位方法 |
CN116740820A (zh) * | 2023-08-16 | 2023-09-12 | 南京理工大学 | 基于自动增广的单视角点云三维人体姿态与形状估计方法 |
CN116740820B (zh) * | 2023-08-16 | 2023-10-31 | 南京理工大学 | 基于自动增广的单视角点云三维人体姿态与形状估计方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114913552B (zh) | 2022-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019174377A1 (zh) | 一种基于单目相机的三维场景稠密重建方法 | |
CN114913552B (zh) | 一种基于单视角点云序列的三维人体稠密对应估计方法 | |
CN108665491B (zh) | 一种基于局部参考点的快速点云配准方法 | |
CN111625667A (zh) | 一种基于复杂背景图像的三维模型跨域检索方法及系统 | |
JP2000511316A (ja) | 制御点の自動位置決めのための画像/制御点位置結合の基本成分解析 | |
Lee et al. | A SfM-based 3D face reconstruction method robust to self-occlusion by using a shape conversion matrix | |
CN115147599A (zh) | 一种面向遮挡和截断场景的多几何特征学习的物体六自由度位姿估计方法 | |
CN116385660A (zh) | 室内单视图场景语义重建方法及系统 | |
CN117011493B (zh) | 基于符号距离函数表示的三维人脸重建方法、装置及设备 | |
Yang et al. | Real-time facial pose estimation and tracking by coarse-to-fine iterative optimization | |
CN110706332A (zh) | 一种基于噪声点云的场景重建方法 | |
Yu et al. | Recursive three-dimensional model reconstruction based on Kalman filtering | |
Laskov et al. | Curvature-based algorithms for nonrigid motion and correspondence estimation | |
Dong et al. | Shape-aware speckle matching network for cross-domain 3D reconstruction | |
Wang et al. | Quasi-Dense Matching Algorithm for Close-Range Image Combined With Feature Line Constraint | |
Zhang et al. | An improved ℓ 1 median model for extracting 3D human body curve-skeleton | |
Aleksandrova et al. | 3D face model reconstructing from its 2D images using neural networks | |
Wang et al. | Structure and motion of nonrigid object under perspective projection | |
CN104751448A (zh) | 基于pca和噪声分离的在线视频跟踪方法 | |
Li et al. | Real-time 3D reconstruction system using multi-task feature extraction network and surfel | |
Huang et al. | Skeleton-based coordinate system construction method for non-cooperative targets | |
CN116740300B (zh) | 一种基于多模态的素体与纹理融合家具模型重建方法 | |
CN115880334B (zh) | 一种自动机器学习图谱融合的视频物体跟踪方法 | |
CN117523152B (zh) | 一种三维人脸重建方法、装置、计算机设备和存储介质 | |
Peng et al. | Geometrical consistency modeling on b-spline parameter domain for 3d face reconstruction from limited number of wild images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |