CN113643366A - 一种多视角三维对象姿态估计方法及装置 - Google Patents

一种多视角三维对象姿态估计方法及装置 Download PDF

Info

Publication number
CN113643366A
CN113643366A CN202110786137.4A CN202110786137A CN113643366A CN 113643366 A CN113643366 A CN 113643366A CN 202110786137 A CN202110786137 A CN 202110786137A CN 113643366 A CN113643366 A CN 113643366A
Authority
CN
China
Prior art keywords
view
dimensional object
points
epipolar
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110786137.4A
Other languages
English (en)
Other versions
CN113643366B (zh
Inventor
高伟
周宇东
吴毅红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202110786137.4A priority Critical patent/CN113643366B/zh
Publication of CN113643366A publication Critical patent/CN113643366A/zh
Application granted granted Critical
Publication of CN113643366B publication Critical patent/CN113643366B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Length Measuring Devices By Optical Means (AREA)

Abstract

本发明提供一种多视角三维对象姿态估计方法及装置。该方法包括:获取多视角对象图像,将所述多视角对象图像输入到预设的目标检测网络模型中提取对象包围框,并基于所述对象包围框处理所述多视角对象图像,得到多视角目标图像;将所述多视角目标图像输入到预设的极线特征融合网络模型中融合多视角目标图像特征,得到相应的关节点置信图;基于所述关节点置信图确定各视角下的二维对象姿态;基于所述二维对象姿态和预设的相机参数确定三维对象姿态。采用本发明公开的方法,通过极线特征融合,提高了对自遮挡和相似结构关节点的检测准确度,可在部署少量相机时取得更准确的三维对象姿态,从而进一步降低部署成本和部署难度。

Description

一种多视角三维对象姿态估计方法及装置
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种多视角三维对象姿态估计方法和装置。另外,还涉及一种电子设备及处理器可读存储介质。
背景技术
近年来,随着计算机技术的快速发展,计算机视觉技术在具体业务中的应用也越来越广泛。其中,多视角三维对象姿态估计技术是本领域的研究重点。多视角三维对象姿态估计是通过同步的多视角图像重建三维对象姿态的过程,其在动作捕捉、虚拟现实、人机交互等领域均有广泛应用前景。尤其是,随着深度学习技术的应用,促使三维对象姿态估计得到更快速的发展,深度学习技术能够使对象姿态估计在面对更复杂的背景时更具鲁棒性。但是基于视觉的方法在面对对象自遮挡、相似结构关节点检测等问题时,准确度会受到显著影响。
目前,多视角三维对象姿态估计方法通常包括二维对象关节点检测阶段和三维对象姿态重建阶段。其中,二维对象关节点检测在单视角下进行,三维对象姿态重建阶段利用鲁棒性方法重建对象的三维姿态。但是,由于在单视角下二维对象关节点检测易出现检测错误,在相机数量较少时,无法在三维对象姿态重建阶段恢复出正确的三维对象姿态。
为了解决上述技术问题,现有技术中通常使用深度神经网络在二维对象关节点检测阶段融合了多视角特征,以提高二维关节点检测准确度,但是在特征融合过程中,存在特征融合冗余以及不准确特征融合等问题,尤其对于具有相似结构的关节点,容易引起二维关节点检测错误。因此,如何更准确的融合多视角特征,提高结果准确度是亟待解决的技术问题。
发明内容
为此,本发明提供一种多视角三维对象姿态估计方法及装置,以解决现有技术中存在的多视角三维对象姿态估计方案中检测精度和效率较差的问题。
第一方面,本发明提供一种多视角三维对象姿态估计方法,包括:获取多视角对象图像;
将所述多视角对象图像输入到预设的目标检测网络模型中提取对象包围框,并基于所述对象包围框处理所述多视角对象图像,得到多视角目标图像;
将所述多视角目标图像输入到预设的极线特征融合网络模型中融合多视角目标图像特征,得到相应的关节点置信图;基于所述关节点置信图确定各视角下的二维对象姿态;
基于所述二维对象姿态和预设的相机参数确定三维对象姿态。
进一步的,将所述多视角目标图像输入到预设的极线特征融合网络模型中融合多视角目标图像特征,得到相应的关节点置信图,具体包括:将所述多视角目标图像输入到所述极线特征融合网络模型的编码层,得到相应的中间特征;
利用所述极线特征融合网络模型的通道感知层确定所述中间特征对应的通道权重,对所述中间特征对应的通道进行加权,得到相应的加权特征;
利用所述极线特征融合网络模型的对极变换层对多视角目标图像特征进行融合,得到相应的融合特征;
利用所述极线特征融合网络模型的全卷积层对所述融合特征进行处理,得到对应的关节点置信图。
进一步的,基于所述关节点置信图确定各视角下的二维对象姿态,具体包括:利用非极大值抑制算法从所述关节点置信图提取关节点坐标,通过坐标变换确定各视角下关节点的二维坐标;根据所述各视角下关节点的二维坐标和关节点的连接关系,得到相应的二维对象姿态。
进一步的,所述极线特征融合网络模型是基于多视角对象图像样本数据、所述多视角对象图像样本数据对应的预测关节点置信图以及预设的标注关节点置信图通过反向传播算法训练得到的。
进一步的,将所述多视角对象图像输入到预设的目标检测网络模型中提取对象包围框,并基于所述对象包围框处理所述多视角对象图像,得到多视角目标图像,具体包括:
将所述多视角对象图像输入到预设的目标检测网络模型中提取对象包围框,并根据所述极线特征融合网络模型的输入宽高比,对所述对象包围框的范围进行同宽高比放缩;
根据放缩后的所述对象包围框的范围对输入的多视角对象图像进行裁剪,得到多视角目标图像。
进一步的,基于所述二维对象姿态和预设的相机参数确定三维对象姿态,具体包括:根据预设的关节点置信度阈值参数对所述二维对象姿态中的关节点进行筛选,确定候选关节点集合;执行迭代计算,对于每个关节点,每次从所述候选关节点集合内任意选取两个候选点,基于所述相机参数并利用三角测量法计算得到关节点的三维坐标,并计算所述候选关节点集合内其余候选点的反投影误差;
根据针对不同关节点设置的目标反投影误差阈值参数,将计算得到的反投影误差小于对应的目标反投影误差阈值参数的关节点记录为内点,并记录每次迭代的内点的数量、反投影误差之和以及关节点的三维坐标;
若所述迭代的内点的数量多于记录的内点的数量,或者所述迭代的内点的数量等于记录的内点的数量时且计算得到的反投影误差之和小于记录的反投影误差之和,则更新记录的内点的数量、反投影误差之和以及关节点的三维坐标;
若所述记录的内点的数量等于候选关节点集合中候选点的数量或者迭代次数达到预设的最大迭代次数时终止迭代,并基于记录的内点进行三角测量计算得到各视角下关节点的三维坐标;根据所述各视角下关节点的三维坐标和关节点的连接关系,得到三维对象姿态。
第二方面,本发明还提供一种多视角三维对象姿态估计装置,包括:
多视角对象图像获取单元,用于获取多视角对象图像;
多视角对象图像处理单元,用于将所述多视角对象图像输入到预设的目标检测网络模型中提取对象包围框,并基于所述对象包围框处理所述多视角对象图像,得到多视角目标图像;
二维对象姿态确定单元,用于将所述多视角目标图像输入到预设的极线特征融合网络模型中融合多视角目标图像特征,得到相应的关节点置信图;基于所述关节点置信图确定各视角下的二维对象姿态;
三维对象姿态确定单元,用于基于所述二维对象姿态和预设的相机参数确定三维对象姿态。
进一步的,所述二维对象姿态确定单元,具体用于:
将所述多视角目标图像输入到所述极线特征融合网络模型的编码层,得到相应的中间特征;
利用所述极线特征融合网络模型的通道感知层确定所述中间特征对应的通道权重,对所述中间特征对应的通道进行加权,得到相应的加权特征;
利用所述极线特征融合网络模型的对极变换层对多视角目标图像特征进行融合,得到相应的融合特征;
利用所述极线特征融合网络模型的全卷积层对所述融合特征进行处理,得到对应的关节点置信图。
进一步的,所述二维对象姿态确定单元,具体还用于:利用非极大值抑制算法从所述关节点置信图提取关节点坐标,通过坐标变换确定各视角下关节点的二维坐标;根据所述各视角下关节点的二维坐标和关节点的连接关系,得到相应的二维对象姿态。
进一步的,所述极线特征融合网络模型是基于多视角对象图像样本数据、所述多视角对象图像样本数据对应的预测关节点置信图以及预设的标注关节点置信图通过反向传播算法训练得到的。
进一步的,所述多视角对象图像处理单元,具体用于:
将所述多视角对象图像输入到预设的目标检测网络模型中提取对象包围框,并根据所述极线特征融合网络模型的输入宽高比,对所述对象包围框的范围进行同宽高比放缩;
根据放缩后的所述对象包围框的范围对输入的多视角对象图像进行裁剪,得到多视角目标图像。
进一步的,所述三维对象姿态确定单元,具体用于:根据预设的关节点置信度阈值参数对所述二维对象姿态中的关节点进行筛选,确定候选关节点集合;执行迭代计算,对于每个关节点,每次从所述候选关节点集合内任意选取两个候选点,基于所述相机参数并利用三角测量法计算得到关节点的三维坐标,并计算所述候选关节点集合内其余候选点的反投影误差;
根据针对不同关节点设置的目标反投影误差阈值参数,将计算得到的反投影误差小于对应的目标反投影误差阈值参数的关节点记录为内点,并记录每次迭代的内点的数量、反投影误差之和以及关节点的三维坐标;
若所述迭代的内点的数量多于记录的内点的数量,或者所述迭代的内点的数量等于记录的内点的数量时且计算得到的反投影误差之和小于记录的反投影误差之和,则更新记录的内点的数量、反投影误差之和以及关节点的三维坐标;
若所述记录的内点的数量等于候选关节点集合中候选点的数量或者迭代次数达到预设的最大迭代次数时终止迭代,并基于记录的内点进行三角测量计算得到各视角下关节点的三维坐标;根据所述各视角下关节点的三维坐标和关节点的连接关系,得到三维对象姿态。
第三方面,本发明还提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任意一项所述的多视角三维对象姿态估计方法的步骤。
第四方面,本发明还提供一种处理器可读存储介质,所述处理器可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如上述任意一项所述的多视角三维对象姿态估计方法的步骤。
采用本发明所述的多视角三维对象姿态估计方法,通过通道感知层与对极变换层来更准确的融合不同视角中间特征,基于极线特征融合提高了面对自遮挡以及相似结构关节点时具有更高检测准确度,可在部署少量相机时取得更准确的三维对象姿态,从而进一步降低部署成本和难度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获取其他的附图。
图1为本发明实施例提供的多视角三维对象姿态估计方法的流程示意图;
图2为本发明实施例提供的极线特征融合网络模型的示意图;
图3为本发明实施例提供的极线特征融合网络模型中通道感知层的示意图;
图4为本发明实施例提供的极线特征融合网络模型中对极变换层的示意图;
图5为本发明实施例提供的多视角三维对象姿态估计装置的结构示意图;
图6为本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获取的所有其他实施例,都属于本发明保护的范围。
下面基于本发明所述的多视角三维对象姿态估计方法,对其实施例进行详细描述。如图1所示,其为本发明实施例提供的多视角三维对象姿态估计方法的流程示意图,具体实现过程包括以下步骤:
步骤101:获取多视角对象图像。
在步骤101之前,需要预先进行多视角相机系统搭建。在本发明实施例中,具体可使用4台及以上相机(RGB相机)进行数据采集,不同视角的相机可同步采集数据。其中同步过程可由同步信号发生器产生信号控制多台相机运行。具体的,相机部署位置在空间中均匀分布,且相机朝向同一区域,以实现对同一对应姿态进行多视角对象图像采集。其中,所述对象可以是指人体等具有对称关节点的对象,在此不做具体限定。在具体实施过程中,可将4台相机成水平环形分布,高度约1.5米,相邻相机间夹角约为90度。采集图像区域约为长4米,宽3米。
除此之外,还需要对相机参数进行标定。具体的,标定过程可使用多视角相机系统对棋盘格进行同步拍照,利用OpenCV等开源库对相机参数进行标定。所述相机参数包括内参数和外参数。其中,内参数包括相机焦距、光心、畸变参数,利用畸变参数对多视角对象图像进行畸变矫正。外参数包括相机旋转参数和位移参数。
步骤102:将所述多视角对象图像输入到预设的目标检测网络模型中提取对象包围框,并基于所述对象包围框处理所述多视角对象图像,得到多视角目标图像。
在本步骤中,可将所述多视角对象图像输入到预设的目标检测网络模型中提取对象包围框(比如人物包围框)检测,并根据极线特征融合网络模型的输入宽高比,对所述对象包围框的范围进行同宽高比放缩。根据放缩后的所述对象包围框的范围对输入的多视角对象图像进行裁剪,得到多视角目标图像。
具体的,在本发明实施例中,可使用YoloV4网络作为目标检测网络模型进行检测,对象包围框可由其左上点坐标(x,y)表和右下点坐标(x′,y′)表示。根据极线特征融合网络模型的输入宽高比,对该对象包围框范围进行同宽高比放缩,根据放缩后的对象包围框范围对输入的多视角对象图像进行裁剪,超出多视角对象图像范围部分使用纯色填充,得到多视角目标图像。所述多视角目标图像包含相同对象,减少了后续对象关节点检测中背景环境的影响。
步骤103:将所述多视角目标图像输入到预设的极线特征融合网络模型中融合多视角目标图像特征,得到相应的关节点置信图;基于所述关节点置信图确定各视角下的二维对象姿态。
具体的,首先需要构建极线特征融合网络模型。如图2所示,该极线特征融合网络模型结构主要包括编码层,通道感知层以及对极变换层。
将所述多视角目标图像输入到所述极线特征融合网络模型的编码层,得到相应的中间特征;利用所述极线特征融合网络模型的通道感知层确定所述中间特征对应的通道权重,对所述中间特征对应的通道进行加权,得到相应的加权特征;利用所述极线特征融合网络模型的对极变换层对多视角目标图像特征进行融合,得到相应的融合特征;利用所述极线特征融合网络模型的全卷积层对所述融合特征进行处理,得到对应的关节点置信图。利用非极大值抑制算法从所述关节点置信图提取关节点坐标,通过坐标变换确定各视角下关节点的二维坐标;根据所述各视角下关节点的二维坐标和关节点的连接关系,得到相应的二维对象姿态。其中,所述极线特征融合网络模型是基于多视角对象图像样本数据、所述多视角对象图像样本数据对应的预测关节点置信图以及预设的标注关节点置信图通过反向传播算法训练得到的。利用该极线特征融合网络模型能够更准确的融合多视角图像特征,从而提高多视角三维对象结果的准确度。
在一个完整实施过程中,首先通过编码层从输入的多视角对象图像中提取中间特征,输入该多视角对象图像的尺寸为H×W×3,经过编码层编码,得到中间特征尺寸为H′×W′×C。其中H,W,H′,W′分别为输入的多视角对象图像和特征图的高和宽,C为特征图的通道数。在具体实施过程中,可使用去掉全连接层的ResNet连接多个反卷积层作为编码层,输入的多视角对象图像尺寸为256×256×3,经过编码层编码,得到中间特征尺寸为64×64×256。
举例而言,如图2所示,可选取第一视角和第二视角图像作为输入的多视角对象图像,通过编码层提取的中间特征分别作为第一中间特征和第二中间特征,通过通道感知层对第一中间特征和第二中间特征的不同通道计算权重,通道感知层基于通道注意力机制,根据特征的分布来赋予不同通道对应的不同权重。针对现有方法中误检测特征影响特征融合准确度造成检测错误的问题,本发明中利用通道感知层可以减小包含误检测特征通道对融合过程产生不利影响,从而提高了准确度。
其中,通道感知层计算过程如图3所示,包括:使用平均池化层处理每个通道特征图的空间信息,生成与每个通道特征图对应的描述符Favg。将所有通道的特征描述符输入到一个两层全连接感知器中,使用ReLU作为激活函数。通道感知层输出为各通道的权重,从而对每个通道进行加权,权重Mc(F)计算过程如公式(1):
Mc(F)=σ(W1(ReLU(W0(Favg)))) (1)
其中,σ代表Sigmoid函数,W0,W1∈Rc×c为两层感知层参数权重,使用ReLU函数作为激活函数。在得到通道感知权重Mc(F)后,通过权重和中间特征乘积实现对中间特征通道进行加权,得到相应的第一加权特征和第二加权特征。
在得到第一加权特征和第二加权特征后,通过对极变换层对多视角极线特征进行融合。如图4所示,该对极变换层对多视角极线特征进行融合的实现步骤具体包括:
第一加权特征记为Fu(pu)∈RH×W×C,通过两视角对应的相机参数,对第一加权特征每个像素计算第二视角极线方程,极线方程可根据对极约束计算得到。对极约束是描述同一场景两个不同视角下图像中几何投影关系的一条重要公式,对极约束可以表述为:空间中存在三维点p,其在两个不同视角下投影点分别为pu、pv,若已知其中一个图像点pu,则该点对应三维点p位于由相机中心Cu和pu定义的射线上,这条射线在相机Cv视角中的投影直线记为l,l称为极线。而三维点p在Cv视角中投影点pv必然在这条极线l上,这个约束被称为对极约束。记两个相机的投影矩阵为Mu,Mv∈R3×4,两个相机视点位置记为Cu,Cv∈R4,用齐次坐标表示。对于当前视角中的图像点为pu,极线l求解如公式(2):
Figure BDA0003159261000000111
其中,
Figure BDA0003159261000000112
表示Mu的伪逆,即非方阵矩阵的广义逆;[·]×表示向量的斜对称矩阵形式;向量v=(x,y,z)的斜对称矩阵形式如公式(3):
Figure BDA0003159261000000113
在本发明实施例中,融合过程需要找到相邻视角上的点pv使其与当前视图中pu对应于相同的三维点p。但是,由于无法确定pv的准确位置,故使用沿极线l的所有采样特征加权求和得到的特征来近似替代,记为极线特征Fv′(pv)∈RH×W×C。其计算过程通过极限采样器利用极线方程沿着极线l与第二加权特征相交部分均匀采样K个样本点形成采样集合S,采样集合S中所有样本点的特征形成采样特征Fv(ps)∈RK×H×W×C。通过双线性插值对亚像素点进行采样。根据第一加权特征和采样特征相似度计算采样特征的权重,并进行加权求和。极线特征Fv′(pv)计算如公式(4):
Figure BDA0003159261000000114
其中,ps表示采样集合S中的样本点,Fu(pu)、Fv(ps)表示点pu、ps位置上所有通道特征形成的特征向量,二元函数sim(*,*)通过计算两个向量之间的相似度对样本点特征进行加权。在本发明实施例中,可使用点积计算相似度。并对极线上采样向量进行加权得到加权求和得到极线特征向量,以两个输入视角为例,定义要估计二维姿态的视角作为当前视角,而另一个视角作为相邻视角,输出结果是融合后对应于当前视角的热图。利用对极约束,将相邻视角中需要的特征进行融合,以提高当前视角结果的准确性。其中所述的样本点、点等均为二维图像特征点。其中,二维图像特征点为在图像上进行均匀采样形成,不特指关节点,也包含图像其余位置的特征点。所述采样集合由二维图像特征点组成。
将极线特征向量与第一加权特征得到融合特征。当得到极线特征F′v(pv)后,需要将其与第一加权特征Fu(pu)融合,得到融合特征Ffused∈RH×W×C。融合阶段来自相邻视角的特征在加到当前视角的特征之前经过映射矩阵W进行变换,计算由公式(5):
Ffused(p)=Fu(p)+W(F′v(pu)) (5)
映射矩阵W由1×1卷积和BN层计算得到,以Fv′(pv)作为输入。
进一步的,在得到融合特征后,通过全卷积层对融合特征进行处理,得到对应关节点置信图,通过非极大值抑制得到关节点二维坐标,结合关节点连接关系组成二维人体姿态。
在训练过程中,对极线特征融合网络模型输出的关节点置信图与标注的关节点置信图计算预测误差:L=||P*-P||1,其中P*表示标注置信图,P表示预测置信图,||*||1计算二者每像素值得L1距离。标注置信图通过在标注的二维关节点为中心,按照高斯分布计算标注关节点邻域标注值得到。利用反向传播算法减小预测误差,得到训练好的极线特征融合网络。
在本发明实施例的模型训练过程中,可随机组合两个相邻视角进行训练。在推理阶段,对每个视角分别与其他视角进行融合。由于在融合特征后仍有全卷积层将特征映射为对应关节点置信图,其参数已固定,且是对应于两视角融合时学习到的参数。本发明在对全部视角特征融合后进行平均池化,以使特征具有与训练时同尺度的分布。
步骤104:基于所述二维对象姿态和预设的相机参数确定三维对象姿态。
具体的,根据预设的关节点置信度阈值参数对所述二维对象姿态中的关节点进行筛选,确定候选关节点集合;执行迭代计算,对于每个关节点,每次从所述候选关节点集合内任意选取两个候选点,基于所述相机参数并利用三角测量法计算得到关节点的三维坐标,并计算所述候选关节点集合内其余候选点的反投影误差;根据针对不同关节点设置的目标反投影误差阈值参数,将计算得到的反投影误差小于对应的目标反投影误差阈值参数的关节点记录为内点,并记录每次迭代的内点的数量、反投影误差之和以及关节点的三维坐标;若所述迭代的内点的数量多于记录的内点的数量,或者所述迭代的内点的数量等于记录的内点的数量时且计算得到的反投影误差之和小于记录的反投影误差之和,则更新记录的内点的数量、反投影误差之和以及关节点的三维坐标;若所述记录的内点的数量等于候选关节点集合中候选点的数量或者迭代次数达到预设的最大迭代次数时终止迭代,并基于所述相机参数和记录的内点进行三角测量计算得到各视角下关节点的三维坐标;根据所述各视角下关节点的三维坐标和关节点的连接关系,得到三维对象姿态。其中,所述关节点表示不同部位的关节点,所述候选点表示同一关节点在不同视角下筛选后的检测点。所述候选关节点集合是由不同视角的二维关节点组成。
在本发明具体实施过程中,基于所述相机参数可使用改进的三角测量方法计算三维人体姿态估计,其具体实现步骤包括:
首先设定两个超参数,一个是关节点置信度阈值,另一个是反投影误差阈值。根据关节点置信度阈值对不同视角关节点进行筛选,筛选掉置信度小于关节点置信度阈值的关节点,得到候选关节点集合Sp。若Sp内关节点数量小于等于2,则选取全部视角关节点组成集合Sp
进一步的,执行迭代计算,每次从候选关节点集合Sp中选取两个候选点,基于所述相机参数使用三角测量方法得到关节点的三维坐标,然后对Sp内其他候选点计算反投影误差,记反投影误差小于预设的反投影误差阈值的点为内点,记录每次迭代的内点的数量、反投影误差之和以及关节点的三维坐标。若迭代中内点的数量多于记录的内点的数量,或在内点的数量相同时计算的反投影误差之和小于记录的反投影误差之和,则更新记录的内点的数量、反投影误差之和以及关节点的三维坐标。具体的,可使用4台相机,最大迭代次数设置为10,相机数量增多时可增大最大迭代次数。当记录的内点的数量等于候选关节点集合Sp中的候选点的数量时,则提前终止迭代,并基于所述相机参数使用记录的内点进行三角测量方法得到关节点的三维坐标,根据关节点的三维坐标和关节点的连接关系得到相应的三维人体姿态。其中,所述关节点表示不同部位的关节点,所述候选点表示同一关节点在不同视角下筛选后的检测点。
需要说明的是,在反投影误差阈值的设置上,由于各关节点检测的难易度不同,对于如盆骨、头部、颈部等关节点检测结果更好,而手部、脚步等关节点误差大,因此,反投影误差的设置使用了分级阈值,比如对手脚等误差较大的关键阈值,可设置为其他关节点的2倍,当然在此不做具体限定。
采用本发明实施例所述的多视角三维对象姿态估计方法,通过通道感知层与对极变换层来更准确的融合不同视角中间特征,基于极线特征融合提高了面对自遮挡以及相似结构关节点时具有更高检测准确度,可在部署少量相机时取得更准确的三维对象姿态,从而进一步降低部署成本和难度。
与上述提供的一种多视角三维对象姿态估计方法相对应,本发明还提供一种多视角三维对象姿态估计装置。由于该装置的实施例相似于上述方法实施例,所以描述得比较简单,相关之处请参见上述方法实施例部分的说明即可,下面描述的多视角三维对象姿态估计装置的实施例仅是示意性的。请参考图5所示,其为本发明实施例提供的一种多视角三维对象姿态估计装置的结构示意图。
本发明所述的多视角三维对象姿态估计装置具体包括如下部分:
多视角对象图像获取单元501,用于获取多视角对象图像。
多视角对象图像处理单元502,用于将所述多视角对象图像输入到预设的目标检测网络模型中提取对象包围框,并基于所述对象包围框处理所述多视角对象图像,得到多视角目标图像。
二维对象姿态确定单元503,用于将所述多视角目标图像输入到预设的极线特征融合网络模型中融合多视角目标图像特征,得到相应的关节点置信图;基于关节点置信图确定各视角下的二维对象姿态。
三维对象姿态确定单元504,用于基于所述二维对象姿态和预设的相机参数确定三维对象姿态。
采用本发明实施例所述的多视角三维对象姿态估计装置,通过通道感知层与对极变换层来更准确的融合不同视角中间特征,基于极线特征融合提高了面对自遮挡以及相似结构关节点时具有更高检测准确度,可在部署少量相机时取得更准确的三维对象姿态,从而进一步降低部署成本和难度。
与上述提供的多视角三维对象姿态估计方法相对应,本发明还提供一种电子设备。由于该电子设备的实施例相似于上述方法实施例,所以描述得比较简单,相关之处请参见上述方法实施例部分的说明即可,下面描述的电子设备仅是示意性的。如图6所示,其为本发明实施例公开的一种电子设备的实体结构示意图。该电子设备可以包括:处理器(processor)601、存储器(memory)602和通信总线603,其中,处理器601,存储器602通过通信总线603完成相互间的通信,通过通信接口604与外部进行通信。处理器601可以调用存储器602中的逻辑指令,以执行多视角三维对象姿态估计方法,该方法包括:获取多视角对象图像;将所述多视角对象图像输入到预设的目标检测网络模型中提取对象包围框,并基于所述对象包围框处理所述多视角对象图像,得到多视角目标图像;将所述多视角目标图像输入到预设的极线特征融合网络模型中融合多视角目标图像特征,得到相应的关节点置信图;基于所述关节点置信图确定各视角下的二维对象姿态;基于所述二维对象姿态和预设的相机参数确定三维对象姿态。
此外,上述的存储器602中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:存储芯片、U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在处理器可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的多视角三维对象姿态估计方法,该方法包括:获取多视角对象图像;将所述多视角对象图像输入到预设的目标检测网络模型中提取对象包围框,并基于所述对象包围框处理所述多视角对象图像,得到多视角目标图像;将所述多视角目标图像输入到预设的极线特征融合网络模型中融合多视角目标图像特征,得到相应的关节点置信图;基于所述关节点置信图确定各视角下的二维对象姿态;基于二维对象姿态和预设的相机参数确定三维对象姿态。
又一方面,本发明实施例还提供一种处理器可读存储介质,所述处理器可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的多视角三维对象姿态估计方法,该方法包括:获取多视角对象图像;将所述多视角对象图像输入到预设的目标检测网络模型中提取对象包围框,并基于所述对象包围框处理所述多视角对象图像,得到多视角目标图像;将所述多视角目标图像输入到预设的极线特征融合网络模型中融合多视角目标图像特征,得到相应的关节点置信图;基于所述关节点置信图确定各视角下的二维对象姿态;基于所述二维对象姿态和预设的相机参数确定三维对象姿态。
所述处理器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种多视角三维对象姿态估计方法,其特征在于,包括:
获取多视角对象图像;
将所述多视角对象图像输入到预设的目标检测网络模型中提取对象包围框,并基于所述对象包围框处理所述多视角对象图像,得到多视角目标图像;
将所述多视角目标图像输入到预设的极线特征融合网络模型中融合多视角目标图像特征,得到相应的关节点置信图;基于所述关节点置信图确定各视角下的二维对象姿态;
基于所述二维对象姿态和预设的相机参数确定三维对象姿态。
2.根据权利要求1所述的多视角三维对象姿态估计方法,其特征在于,将所述多视角目标图像输入到预设的极线特征融合网络模型中融合多视角目标图像特征,得到相应的关节点置信图,具体包括:
将所述多视角目标图像输入到所述极线特征融合网络模型的编码层,得到相应的中间特征;
利用所述极线特征融合网络模型的通道感知层确定所述中间特征对应的通道权重,对所述中间特征对应的通道进行加权,得到相应的加权特征;
利用所述极线特征融合网络模型的对极变换层对多视角目标图像特征进行融合,得到相应的融合特征;
利用所述极线特征融合网络模型的全卷积层对所述融合特征进行处理,得到对应的关节点置信图。
3.根据权利要求2所述的多视角三维对象姿态估计方法,其特征在于,基于所述关节点置信图确定各视角下的二维对象姿态,具体包括:
利用非极大值抑制算法从所述关节点置信图提取关节点坐标,通过坐标变换确定各视角下关节点的二维坐标;根据所述各视角下关节点的二维坐标和关节点的连接关系,得到相应的二维对象姿态。
4.根据权利要求1所述的多视角三维对象姿态估计方法,其特征在于,所述极线特征融合网络模型是基于多视角对象图像样本数据、所述多视角对象图像样本数据对应的预测关节点置信图以及预设的标注关节点置信图通过反向传播算法训练得到的。
5.根据权利要求1所述的多视角三维对象姿态估计方法,其特征在于,将所述多视角对象图像输入到预设的目标检测网络模型中提取对象包围框,并基于所述对象包围框处理所述多视角对象图像,得到多视角目标图像,具体包括:
将所述多视角对象图像输入到预设的目标检测网络模型中提取对象包围框,并根据所述极线特征融合网络模型的输入宽高比,对所述对象包围框的范围进行同宽高比放缩;
根据放缩后的所述对象包围框的范围对输入的多视角对象图像进行裁剪,得到多视角目标图像。
6.根据权利要求1所述的多视角三维对象姿态估计方法,其特征在于,基于所述二维对象姿态和预设的相机参数确定三维对象姿态,具体包括:
根据预设的关节点置信度阈值参数对所述二维对象姿态中的关节点进行筛选,确定候选关节点集合;执行迭代计算,对于每个关节点,每次从所述候选关节点集合内任意选取两个候选点,基于所述相机参数并利用三角测量法计算得到关节点的三维坐标,并计算所述候选关节点集合内其余候选点的反投影误差;
根据针对不同关节点设置的目标反投影误差阈值参数,将计算得到的反投影误差小于对应的目标反投影误差阈值参数的关节点记录为内点,并记录每次迭代的内点的数量、反投影误差之和以及关节点的三维坐标;
若所述迭代的内点的数量多于记录的内点的数量,或者所述迭代的内点的数量等于记录的内点的数量时且计算得到的反投影误差之和小于记录的反投影误差之和,则更新记录的内点的数量、反投影误差之和以及关节点的三维坐标;
若所述记录的内点的数量等于候选关节点集合中候选点的数量或者迭代次数达到预设的最大迭代次数时终止迭代,并基于记录的内点进行三角测量计算得到各视角下关节点的三维坐标;根据所述各视角下关节点的三维坐标和关节点的连接关系,得到三维对象姿态。
7.一种多视角三维对象姿态估计装置,其特征在于,包括:
多视角对象图像获取单元,用于获取多视角对象图像;
多视角对象图像处理单元,用于将所述多视角对象图像输入到预设的目标检测网络模型中提取对象包围框,并基于所述对象包围框处理所述多视角对象图像,得到多视角目标图像;
二维对象姿态确定单元,用于将所述多视角目标图像输入到预设的极线特征融合网络模型中融合多视角目标图像特征,得到相应的关节点置信图;基于所述关节点置信图确定各视角下的二维对象姿态;
三维对象姿态确定单元,用于基于所述二维对象姿态和预设的相机参数确定三维对象姿态。
8.根据权利要求7所述的多视角三维对象姿态估计装置,其特征在于,所述二维对象姿态确定单元,具体用于:
将所述多视角目标图像输入到所述极线特征融合网络模型的编码层,得到相应的中间特征;
利用所述极线特征融合网络模型的通道感知层确定所述中间特征对应的通道权重,对所述中间特征对应的通道进行加权,得到相应的加权特征;
利用所述极线特征融合网络模型的对极变换层对多视角目标图像特征进行融合,得到相应的融合特征;
利用所述极线特征融合网络模型的全卷积层对所述融合特征进行处理,得到对应的关节点置信图。
9.一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6任意一项所述的多视角三维对象姿态估计方法的步骤。
10.一种处理器可读存储介质,所述处理器可读存储介质上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-6任意一项所述的多视角三维对象姿态估计方法的步骤。
CN202110786137.4A 2021-07-12 2021-07-12 一种多视角三维对象姿态估计方法及装置 Active CN113643366B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110786137.4A CN113643366B (zh) 2021-07-12 2021-07-12 一种多视角三维对象姿态估计方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110786137.4A CN113643366B (zh) 2021-07-12 2021-07-12 一种多视角三维对象姿态估计方法及装置

Publications (2)

Publication Number Publication Date
CN113643366A true CN113643366A (zh) 2021-11-12
CN113643366B CN113643366B (zh) 2024-03-05

Family

ID=78417104

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110786137.4A Active CN113643366B (zh) 2021-07-12 2021-07-12 一种多视角三维对象姿态估计方法及装置

Country Status (1)

Country Link
CN (1) CN113643366B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114264355A (zh) * 2021-11-18 2022-04-01 河南讯飞智元信息科技有限公司 重量检测方法、装置、电子设备及存储介质
CN115035551A (zh) * 2022-08-10 2022-09-09 武汉东信同邦信息技术有限公司 三维人体姿态估计方法、装置、设备及存储介质
CN115908723A (zh) * 2023-03-09 2023-04-04 中国科学技术大学 基于区间感知的极线引导多视图立体重建方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130022243A1 (en) * 2010-04-02 2013-01-24 Nokia Corporation Methods and apparatuses for face detection
CN107122705A (zh) * 2017-03-17 2017-09-01 中国科学院自动化研究所 基于三维人脸模型的人脸关键点检测方法
CN109785396A (zh) * 2019-01-23 2019-05-21 中国科学院自动化研究所 基于双目相机的写字姿态监测方法、系统、装置
CN112381879A (zh) * 2020-11-16 2021-02-19 华南理工大学 基于图像和三维模型的物体姿态估计方法、系统及介质
WO2021051526A1 (zh) * 2019-09-18 2021-03-25 平安科技(深圳)有限公司 多视图3d人体姿态估计方法及相关装置
CN112560757A (zh) * 2020-12-24 2021-03-26 中国科学院大学 端到端多视角三维人体姿态估计方法、系统及存储介质
CN112581540A (zh) * 2020-12-21 2021-03-30 东南大学 一种大场景下基于人体姿态估计的相机标定方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130022243A1 (en) * 2010-04-02 2013-01-24 Nokia Corporation Methods and apparatuses for face detection
CN107122705A (zh) * 2017-03-17 2017-09-01 中国科学院自动化研究所 基于三维人脸模型的人脸关键点检测方法
CN109785396A (zh) * 2019-01-23 2019-05-21 中国科学院自动化研究所 基于双目相机的写字姿态监测方法、系统、装置
WO2021051526A1 (zh) * 2019-09-18 2021-03-25 平安科技(深圳)有限公司 多视图3d人体姿态估计方法及相关装置
CN112381879A (zh) * 2020-11-16 2021-02-19 华南理工大学 基于图像和三维模型的物体姿态估计方法、系统及介质
CN112581540A (zh) * 2020-12-21 2021-03-30 东南大学 一种大场景下基于人体姿态估计的相机标定方法
CN112560757A (zh) * 2020-12-24 2021-03-26 中国科学院大学 端到端多视角三维人体姿态估计方法、系统及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
MIKAEL A. MOUSSE: "A multi-view human bounding volume estimation for posture recognition in elderly monitoring system", INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION SYSTEMS *
WEI GAO: "PV Array Fault Detection Based on Deep Neural Network", 2021 IEEE GREEN TECHNOLOGIES CONFERENCE *
丁雅斌;彭翔;田劲东;赵卫军;李阿蒙;赵晓波;: "一种三维数字成像系统的多视点姿态估计方法", 光学学报, no. 03 *
崔家浩: "基于深度学习的三维人体姿态估计技术", 人工智能, no. 01 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114264355A (zh) * 2021-11-18 2022-04-01 河南讯飞智元信息科技有限公司 重量检测方法、装置、电子设备及存储介质
CN115035551A (zh) * 2022-08-10 2022-09-09 武汉东信同邦信息技术有限公司 三维人体姿态估计方法、装置、设备及存储介质
CN115035551B (zh) * 2022-08-10 2022-12-02 武汉东信同邦信息技术有限公司 三维人体姿态估计方法、装置、设备及存储介质
CN115908723A (zh) * 2023-03-09 2023-04-04 中国科学技术大学 基于区间感知的极线引导多视图立体重建方法

Also Published As

Publication number Publication date
CN113643366B (zh) 2024-03-05

Similar Documents

Publication Publication Date Title
US10225473B2 (en) Threshold determination in a RANSAC algorithm
Pradeep et al. MonoFusion: Real-time 3D reconstruction of small scenes with a single web camera
CN107818554B (zh) 信息处理设备和信息处理方法
GB2553782A (en) Predicting depth from image data using a statistical model
US20170278302A1 (en) Method and device for registering an image to a model
CN110660017A (zh) 一种基于三维姿态识别的舞谱记录与演示方法
CN114511778A (zh) 图像处理方法及装置
CN113689578B (zh) 一种人体数据集生成方法及装置
CN113643366B (zh) 一种多视角三维对象姿态估计方法及装置
CN114004883B (zh) 一种冰壶球的视觉感知方法、装置、计算机设备和存储介质
US11961266B2 (en) Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture
EP3185212B1 (en) Dynamic particle filter parameterization
Kim et al. Real-time panorama canvas of natural images
CN115578704A (zh) 深度估计模型训练、深度估计方法、装置、设备及介质
CN114332125A (zh) 点云重建方法、装置、电子设备和存储介质
WO2022208440A1 (en) Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture
CN113886510A (zh) 一种终端交互方法、装置、设备及存储介质
CN117132649A (zh) 人工智能融合北斗卫星导航的船舶视频定位方法及装置
CN116934591A (zh) 多尺度特征提取的图像拼接方法、装置、设备及存储介质
Zhu et al. Multimodal neural radiance field
CN111783497A (zh) 视频中目标的特征确定方法、装置和计算机可读存储介质
Olszewski Hashcc: Lightweight method to improve the quality of the camera-less nerf scene generation
Yin et al. Vector mapping method for buildings in remote sensing images based on joint semantic-geometric learning
CN117372604B (zh) 一种3d人脸模型生成方法、装置、设备及可读存储介质
CN113615169B (zh) 用于扩增现实用户手册的设备和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant