CN114241051A

CN114241051A - 一种室内复杂场景的物体姿态估计方法

Info

Publication number: CN114241051A
Application number: CN202111571623.0A
Authority: CN
Inventors: 周小平; 王佳; 冯驰原; 李杨志
Original assignee: Bim Winner Shanghai Technology Co ltd; Foshan Yingjia Smart Space Technology Co ltd; Jiaxing Wuzhen Yingjia Qianzhen Technology Co ltd; Shenzhen Bim Winner Technology Co ltd; Shenzhen Qianhai Yingjia Data Service Co ltd; Yingjia Internet Beijing Smart Technology Co ltd; Bim Winner Beijing Technology Co ltd
Current assignee: Bim Winner Shanghai Technology Co ltd; Foshan Yingjia Smart Space Technology Co ltd; Jiaxing Wuzhen Yingjia Qianzhen Technology Co ltd; Shenzhen Bim Winner Technology Co ltd; Shenzhen Qianhai Yingjia Data Service Co ltd; Yingjia Internet Beijing Smart Technology Co ltd; Bim Winner Beijing Technology Co ltd
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-03-25

Abstract

本发明公开一种室内复杂场景的物体姿态估计方法，包括先利用关键点的检测网络对物体关键点进行检测，然后使用联合嵌入的方式对候选对象进行提取，最后利用决策判断网络对目标物体进行推理输出；本发明提出的物体姿态估计方法在性能和精度上均优于现有方法，其只依赖于一个RGB图像，即能够对复杂场景下，被中度到重度遮挡的目标物体进行更加精确的推理与预估，且不受单个视觉算法的限制，相比传统物体姿态估计方法更具鲁棒性，能够对目标物体被遮挡的部分进行有效推理，对计算机视觉领域和图像处理领域均作出重要贡献，可以广泛应用于室内设计、内容重建、场景理解等方面。

Description

一种室内复杂场景的物体姿态估计方法

技术领域

本发明涉及姿态估计技术领域，尤其涉及一种室内复杂场景的物体姿态估计方法。

背景技术

室内场景图像的目标物体的检测与识别对于室内场景下物体的姿态估计是重要的，并且它在许多方面如室内设计、内容重建、场景理解等都有重要应用，虽然近年来对此进行了大量研究，但在目标物体被中度到重度遮挡的室内复杂场景中，现有的方法对此并不十分有效，典型的室内场景在物体的共现方面表现出显著的规律性，这可以作为显式的先验来预测物体的身份、位置和方向，即使在物体间或物体内的显著遮挡下也是如此。

近年来，在计算机视觉领域，物体的遮挡、重叠等问题对目标的成功识别构成了重大挑战，因为它减少了可供提取的具有判别力的特征，因此，对于物体的有效识别，不仅依赖物体的物理信息，还涉及遮挡、场景等上下文信息，目前一些基于分割的先进方法对于低遮挡的场景中取得了比较好的效果，但是在中度到重度遮挡的场景中，效果急剧恶化，因此，本发明提出一种室内复杂场景的物体姿态估计方法以解决现有技术中存在的问题。

发明内容

针对上述问题，本发明的目的在于提出一种室内复杂场景的物体姿态估计方法，该方法通过关键点的检测网络对物体关键点进行检测，然后使用联合嵌入的方式对候选对象进行提取，最后利用决策判断网络对目标物体进行推理输出，并精确的得到室内复杂场景的物体姿态。

为了实现本发明的目的，本发明通过以下技术方案实现：一种室内复杂场景的物体姿态估计方法，包括以下步骤：

步骤一：先采集室内复杂场景的高分辨率特征图作为输入特征图，接着采用卷积策略将高分辨率特征图下采样至低分辨率特征图，再从低分辨率特征图恢复至高分辨率特征图，作为输出特征图，并进行特征图多尺度特征提取，从输入特征图中生成单个物体姿态估计的关键点；

步骤二：先训练联合嵌入网络来检测单个物体姿态估计的关键点，再使用堆叠沙漏模型来预测每个关键点在每个像素位置的检测得分，其中网络对每个关键点的每个像素位置产生一个标签，接着使用非极大值抑制来取得每个关键点热力图峰值，然后检索关键点热力图峰值对应位置的标签，之后比较所有物体位置的标签，找到接近的标签分为一组，最后将关键点匹配在单个物体上，提取出候选对象；

步骤三：先用概率模型捕获从场景中获得候选对象的统计数据，再使用概率模型对候选对象进行学习与优化，然后考虑关键点的标签与当前物体的匹配，并确认关键点的标签与当前物体之间的最佳匹配，在此过程中，循环迭代遍历当前物体的每一个关键点，直到每次检测都能够被分配到一个物体实例，实现目标物体姿态的推理输出。

进一步改进在于：所述步骤一中，输出特征图与输入特征图具有相同的分辨率且并行连接高分辨率与低分辨率网络，还包括一个估计热力图的回归器，回归器生成的热力图用于关键点位置的选择并且转换至全分辨率。

进一步改进在于：在并行连接的网络中引入交换单元，使网络中每个子网重复接收从其他并行子网接收的信息，重复融合多分辨率的模块，跨分辨率交换信息。

进一步改进在于：自最后一个交换单元输出的高分辨率表征中回归热力图，将均方误差作为损失函数，用于比较预测热力图与真值热力图，其中真值热力图通过计算以每个关键点的组真实位置为中心的二维高斯标准差得到。

进一步改进在于：所述步骤二中，若一张特征图中待检测的关键点有m个，则网络理想状态下输出2m个通道，其中m个通道用于定位，m个通道用于分组。

进一步改进在于：所述步骤二中，形式上，将h_k∈R^W×H作为第k关键点的预测标记热力图，其中h_(x)像素位置x处的标记值，若存在N个目标物体，使得真值关键点位置为T＝{x_nk}，n＝1，...，N，k＝1，...，K，其中x_nk是第个n物体的第k个关键点的真值像素位置，假设所有的关键点k都有标注，则第n个物体的标准嵌入为：

因此分组损失函数h_g定义为：

为了提取候选对象，先确定关键点迭代顺序，再逐个迭代每个关键点。

进一步改进在于：所述步骤三中，只有当两个标签位于特定阈值内，关键点的标签与当前物体才能匹配。

进一步改进在于：所述步骤三中，通过高置信度检测的优先匹配，在执行最大匹配时，其权重由标签距离和检测分数决定，若出现新的检测不匹配的情况，则产生一个新的物体实例。

本发明的有益效果为：本发明首先利用关键点的检测网络对物体关键点进行检测，然后使用联合嵌入的方式对候选对象进行提取，最后利用决策判断网络对目标物体进行推理输出，并得到物体姿态，本发明只依赖于一个RGB图像，即能够对复杂场景下，被中度到重度遮挡的目标物体进行更加精确的推理与预估，且不受单个视觉算法的限制，相比传统物体姿态估计方法更具鲁棒性，能够对目标物体被遮挡的部分进行有效推理。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一的方法流程示意图

图2是本发明实施例一的网络并行连接示意图；

图3是本发明实施例一的联合嵌入网络结构示意图；

图4是本发明实施例二的数据标注示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

参见图1、图2、图3，本实施例提供了一种室内复杂场景的物体姿态估计方法，包括以下步骤：

步骤一：先采集室内复杂场景的高分辨率特征图作为输入特征图，接着采用卷积策略将高分辨率特征图下采样至低分辨率特征图，再从低分辨率特征图恢复至高分辨率特征图，作为输出特征图，并进行特征图多尺度特征提取，从输入特征图中生成单个物体姿态估计的关键点，其中输出特征图与输入特征图具有相同的分辨率且并行连接高分辨率与低分辨率网络，还包括一个估计热力图的回归器，回归器生成的热力图用于关键点位置的选择并且转换至全分辨率；

在并行连接的网络中引入交换单元，使网络中每个子网重复接收从其他并行子网接收的信息，重复融合多分辨率的模块，跨分辨率交换信息；

自最后一个交换单元输出的高分辨率表征中回归热力图，将均方误差作为损失函数，用于比较预测热力图与真值热力图，其中真值热力图通过计算以每个关键点的组真实位置为中心的二维高斯标准差得到；

步骤二：为了将联合嵌入应用于多个目标物体姿态估计，先训练联合嵌入网络来检测单个物体姿态估计的关键点，再使用堆叠沙漏模型来预测每个关键点在每个像素位置的检测得分，为了实现多物体姿势检测，网络需要对每个关键点的每个像素位置产生一个标签，也就是说，每个关键点的热力图对应一个标签热力图，因此，若一张特征图中待检测的关键点有m个，则网络理想状态下输出2m个通道，其中m个通道用于定位，m个通道用于分组，为了能够将检测结果对应到个体，使用非极大值抑制来取得每个关键点热力图峰值，然后检索关键点热力图峰值对应位置的标签，之后比较所有物体位置的标签，找到接近的标签分为一组，最后将关键点匹配在单个物体上，提取出候选对象；

形式上，将h_k∈R^W×H作为第k关键点的预测标记热力图，其中h_(x)像素位置x处的标记值，若存在N个目标物体，使得真值关键点位置为T＝{x_nk}，n＝1，...，N，k＝1，...，K，其中x_nk是第个n物体的第k个关键点的真值像素位置，假设所有的关键点k都有标注，则第n个物体的标准嵌入为：

因此分组损失函数h_g定义为：

为了提取候选对象，先确定关键点迭代顺序，再逐个迭代每个关键点，从第一个关键点开始，在非极大值抑制后，所有激活都超过某个阈值，这构成了被检测物体的基础。

步骤三：在进行候选物体检测后，提取出的候选对象可能存在重叠或者存在排列错误，因此需要对提取出的候选对象进行推理，筛选出符合要求的对象，先用概率模型捕获从场景中获得候选对象的统计数据，再使用概率模型对候选对象进行学习与优化，然后考虑关键点的标签与当前物体的匹配，并确认关键点的标签与当前物体之间的最佳匹配，只有当两个标签位于特定阈值内，才能匹配，此外，通过高置信度检测的优先匹配，在执行最大匹配时，其权重由标签距离和检测分数决定，若出现任何新的检测不匹配的情况，则产生一个新的物体实例，在此过程中，循环迭代遍历当前物体的每一个关键点，直到每次检测都能够被分配到一个物体实例，实现目标物体姿态的推理输出。

实施例二

在两个数据集上对实施例一提出的方法进行实验评估，使用的数据集如下：

(1)室内虚拟场景2D关键点标注图像

使用IGIBSON生成室内场景，对室内场的目标物体位置进行标注文件输出，将获得的文件进行COCO关键点数据集格式的转换，适应于网络模型的输入与训练，通过此方法，共生成3500张图片，每张图片的椅子均进行标注，场景中存在各种不同形状的椅子，并且所有的椅子均设置有8个关键点，如图4所示，在该场景中对于被遮挡的关键点也予以标注，因为多张图片是在同一场景中，不同之处在于拍摄视角或者位置不同，因此被遮挡的关键点可以根据拍摄的变化方式进行计算得到。

(2)室内真实场景2D关键点标注图像

自Seethrough获得3392张室内真实场景图片，为了使用该数据集，增强网络场景的学习能力，对于该数据集进行了重新标注，使用的工具为labelme，还是根据COCO关键点数据集的格式要求进行标注，由于属于人工标注，对于某些椅子的关键点标注存在误差，并且当一张场景图片中存在的椅子过多且遮挡严重或者重叠严重的目标进行了忽略。

为评价实验结果的效果与性能，共设置了两个评价指标，分别为平均精度(AP)与平均召回率(AR)，计算公式如下：

首先需对关键点相似度(Object Keypoint Similarity,OKS)进行计算，

其中i表示关键点的id，d_i表示groundtruth(事实库)中物体与预测的目标的关键点的欧氏距离，s表示当前目标物的尺度因子，等于此目标在groundtruth中所占面积的平方根，即

vi表示第i个关键点是否可见，δ用于将可见点选出来进行计算的函数。

OKS是计算两个目标物之间的关键点相似度的，那一张图片中有很多的目标物时，这时候就需要构造一个OKS矩阵了。假设一张图中，一共有M个目标物(groudtruth中)，现在算法预测出了N个目标物，那么就构造一个M×N的矩阵，矩阵中的位置(i,j)代表groudtruth中的第i个目标物和算法预测出的第j个目标物的OKS相似度，找到矩阵中每一行的最大值，作为对应于第i个目标物的OKS相似度值。

AP就是给定一个t，如果当前的OKS大于t，那就说明当前这个目标物的关键点成功检测出来了，并且检测对了，如果小于t，则说明检测失败或者误检漏检等，因此对于所有的OKS，统计其中大于t的个数，并计算其占所有OKS的比值。

召回率是覆盖面的度量，度量有多少个正例被分为正例，计算如下：

其中TP指正确分类的正样本数，即预测为正样本，实际也是正样本，TP指被错误的标记为正样本的负样本数，即实际为负样本而被预测为正样本。

对两个数据集测试网络模型的骨架网络进行消融实验比较，为验证在整体网络架构中，使用的高分率网络的骨架网络的有效性及优越性，共在常用的两种骨架网络上进行了实验，其中为比较同种骨架网络间性能的差异，分别在两种骨架网络中选择不同的两种配置进行比较，实验结果表明，子网分辨率越高，识别精度越高；

对于基准方法来讲，当场景中没有遮挡时，基线方法表现良好，这是由于干净的场景中，检测目标清晰可见，直接提取的视觉信息足以对物体姿态进行准确推理，然而当椅子被部分遮挡甚至严重遮挡时，这些方法会出现严重缺陷，在实验结果中可以看出，本发明提出的方法在这方面具有优势，其检测精度提升显著。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种室内复杂场景的物体姿态估计方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种室内复杂场景的物体姿态估计方法，其特征在于：所述步骤一中，输出特征图与输入特征图具有相同的分辨率且并行连接高分辨率与低分辨率网络，还包括一个估计热力图的回归器，回归器生成的热力图用于关键点位置的选择并且转换至全分辨率。

3.根据权利要求2所述的一种室内复杂场景的物体姿态估计方法，其特征在于：在并行连接的网络中引入交换单元，使网络中每个子网重复接收从其他并行子网接收的信息，重复融合多分辨率的模块，跨分辨率交换信息。

4.根据权利要求3所述的一种室内复杂场景的物体姿态估计方法，其特征在于：自最后一个交换单元输出的高分辨率表征中回归热力图，将均方误差作为损失函数，用于比较预测热力图与真值热力图，其中真值热力图通过计算以每个关键点的组真实位置为中心的二维高斯标准差得到。

5.根据权利要求1所述的一种室内复杂场景的物体姿态估计方法，其特征在于：所述步骤二中，若一张特征图中待检测的关键点有m个，则网络理想状态下输出2m个通道，其中m个通道用于定位，m个通道用于分组。

6.根据权利要求1所述的一种室内复杂场景的物体姿态估计方法，其特征在于：所述步骤二中，形式上，将h_k∈R^W×H作为第k关键点的预测标记热力图，其中h_(x)像素位置x处的标记值，若存在N个目标物体，使得真值关键点位置为T＝{x_nk}，n＝1,...,N，k＝1,...,K，其中x_nk是第个n物体的第k个关键点的真值像素位置，假设所有的关键点k都有标注，则第n个物体的标准嵌入为：

因此分组损失函数h_g定义为：

7.根据权利要求1所述的一种室内复杂场景的物体姿态估计方法，其特征在于：所述步骤三中，只有当两个标签位于特定阈值内，关键点的标签与当前物体才能匹配。

8.根据权利要求1所述的一种室内复杂场景的物体姿态估计方法，其特征在于：所述步骤三中，通过高置信度检测的优先匹配，在执行最大匹配时，其权重由标签距离和检测分数决定，若出现新的检测不匹配的情况，则产生一个新的物体实例。