CN112712032A

CN112712032A - 一种半自动物体姿态标注方案

Info

Publication number: CN112712032A
Application number: CN202011621413.3A
Authority: CN
Inventors: 李汉曦; 廖美珍; 张小杰; 张宝昌
Original assignee: Nanchang Mizhen Technology Co ltd
Current assignee: Nanchang Mizhen Technology Co ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-04-27

Abstract

一种半自动物体姿态标注方案，包括半自动标注和数据增强，本发明主要是解决现有技术中人工时间成本过大与提升机器学习模型泛化能力的一种半自动物体姿态标注方案，通过利用三面标注台，节省了大量时间和提高后续任务的鲁棒性和准确性。

Description

一种半自动物体姿态标注方案

技术领域

本申请涉及计算机视觉领域领域，特别是涉及一种半自动物体姿态标注方案。

背景技术

物体姿态标注是计算机视觉领域的重要任务。

传统的物体姿态标注方法是人工手动标注，也即对每张图片人手动标记物体上预设的关键点在这张图片上的2D位置，进而通过pnp算法求得相机与物体之间的位置关系，也即物体姿态。

另一种已有方案是记号板标注方案，利用一张记号板来辅助姿态标注的方案，具体来说，首先，该方案对放置于记号板上的目标物体进行数据采集（即多角度拍摄）得到图片数据；其次，由于记号板上有特殊符号，而且系统拥有计算相机与记号板之间精准位置关系的方法，如基于SIFT的点匹配和基于深度学习的方法，因此通过部分人工标注，该方案可以得到放置在记号板上的物体与记号板的位置关系；最后，由于既有定位记号板的方法，又有物体与记号板的相对位置，该方案便可在后续图片中，自动确定相机与物体之间的相对位置，从而完成物体姿态标注的任务。

记号板标注方案有两大缺点：第一，用此方法标注易出现无法定位记号板而导致无法自动标注的情况，主要原因是当拍摄时不是俯视角度时，记号板的重要符号容易被目标物体遮挡或者容易因光线不够拍摄失败导致记号板重要符号容易识别失败，因而无法确定记号板及物体的位置，无法标注，因为定位失败，所以这部分图片依然需要人工标注，依然浪费时间，第二，泛化能力下降，此方法中使用的记号板采集数据后，每一张图片的一部分面积都被记号板占据，这样的数据具有偏向性，容易造成由该数据训练得到的机器学习模型泛化能力下降。

发明内容

本发明主要是解决现有技术中人工时间成本过大与提升机器学习模型泛化能力的一种半自动物体姿态标注方案。

本发明的上述发明目的是通过以下技术方案得以实现的:

一种半自动物体姿态标注方案，包括半自动标注和数据增强，其中：

优选的，步骤S101，目标放置于三面标注台上，所述目标物体设置有若干物体三维关键点，获取一张目标物体置于三面标注台上的二维图像；

步骤S102，所选取的二维图像，通过SIFT点匹配或者基于深度学习的方法定位出三面标注台相对于相机的位置

；

步骤S103，通过选取的二维图像，将目标物体三维关键点在这张二维图像中的映射人工标注出来，通过计算机辅助计算而得到目标物体与相机的相对位置T¹；

步骤S104，所选定的二维图像，通过步骤S102得到三面标注台与相机的相对位置

，通过步骤S103得到目标物体与相机的相对位置

，通过链式法则，得到三面标注台与目标物体的位置关系

=

；

步骤S105，目标物体与三面标注台位置固定，对目标物体进行拍摄；

步骤S106，将步骤S104得到的三面标注台与目标物的位置关系，计算得到三维关键点在每张拍摄二维图像上二维关键点的位置从而得到自动标注好的所有二维图像上的数据，

如需要对物体的多角度进行标注，则可以改变物体的放置角度，重复上述的所有标注步骤。

优选的，所述三面标注台，由记号板一、记号板二、记号板三组成，所述三块记号板两两垂直组装。

优选的，所述记号板一、记号板二、记号板三上均设置有不同的自动定位模型，所述定位模型能自动定位各自记号板相对于相机的位置，所述三块记号板相对位置固定，当其中一块记号板通过自动定位模型定位后，所述三面标注台位置已知。

优选的，同时超过一块记号板通过自动定位模型定位后，通过对位置进行取均值精准定位，因三块记号板共用同一世界坐标系，故我们只需计算三块板的平均位置，即Mean(

),具体而言则分开计算R，t的平均数，定义

将旋转矩阵

,

,

通过变换关系

转换成四元数

,

,那么

=

，

=

我们通过变换关系可将

转换成

，即

=[

]，也即相机与标注台的相对位置。

优选的，步骤S103所述计算机辅助计算，具体为：

若3D模型有关键点

，含N个关键点，这些点在3D模型定义的3D坐标为

，则在图像上的2d坐标为

，

考虑3D空间中某点Pi，它的齐次坐标为：

，在该图像中，投影点

( 以归一化平面齐次坐标表示)。定义相机姿态T=[R|t]

，由投影关系

用最后一行将s消去，得到两个约束

，

为了简化表示，将T的行向量定义为

代入上述两个约束，因总共有N个关键点，可列出如下线性方程组

由于t一共有12维，故至少需6对关键点即可实现T的线性求解，即可计算出

，即物体与相机的相对位置。

优选的，自动标注好的所有二维图像上的数据方法可以为，已知计算相机与标注台相对位置的模型和标注台与物体的相对位置，通过链式法则计算得到相机与物体的相对位置R t，再使用pnp算法将3d关键点投影到二维图像上。

优选的，所述数据增强方法为，步骤S201用迭代的方式得到尽量准确的绿幕区域，以得到更好的相机姿态和精准的色键；步骤S202进行抠像。

优选的，所述准确绿幕区域的方法可以为所述三面标注台中的记号板一、记号板二、记号板三中图案均由深绿色与浅绿色小块相间拼成，大小依据目标物体的尺寸而定，针对不同情况也可为蓝色或红色。

优选的，所述抠像需要计算每个像素的前景与背景的比例，也即像素的

值,首先，可利用传统机器学习或深度学习的方法取得记号板一、记号板二和记号板三中的绿色纹理背景的

个色键值

，其中

表示第

个色键在YUV空间的U-V取值,

通常小于等于3，

然后，算法可通过下式得出每个像素的

值：

,

其中，

是图像的像素个数，

是第

个像素的U-V取值，

和

为预先定义好的参数，Sigmoid函数的定义为：

它使得函数结果映射在[0,1]区间内，最后，我们规定

值大于0.5的为前景，其余像素为背景，即完成抠像，得到一张与图片一样尺寸的前景掩膜

。

综上所述，本发明包括以下有益技术效果：

1、通过利用三面标注台，标注人员只需要对图片数据中的一张图片的所有关键点进行标注，就能完成后续的所有物体姿态标注，标注时间从m小时降到m秒，节省了大量的时间。

2、本方案设计的三面标注台是一个由三块标记板组合而成的标注工具，不论相机从哪个角度拍摄物体，总有一张标记板的重要符号能被拍摄进图片，不会出现“因为角度问题无法自动确定位置而导致必须人工标注”的情况。

3、本方案将“三面标注台”组合板的图案颜色设计成易于抠像的颜色，拍摄得到的数据可以将标记板的背景利用抠像技术扣掉，一方面，可以减少背景对实验数据的干扰，另一方面还可以以一换多，为扣掉背景后的目标物体换上其他背景，一张图片可以扩展成各种场景的图片，增加了数据量，有效的提高后续任务的鲁棒性和准确性。

附图说明

图1是本发明的物体姿态标注的流程示意图；

图2是本发明的抠像的流程示意图；

图3是本发明的三面标注台的外观示意图；

图4是本发明的目标物体放置于标记板上示意图；

图5是本发明的目标物体放置于标记板上设置三维关键点示意图。

图中：1记号板一、2记号板二、3记号板三。

具体实施方式

本发明提供了如图所示的一种半自动物体姿态标注方案，包括半自动标注和数据增强，其中：

具体的，步骤S101，目标放置于三面标注台上，所述目标物体设置有若干物体三维关键点，获取一张目标物体置于三面标注台上的二维图像；

；

，通过步骤S103得到目标物体与相机的相对位置

，通过链式法则，得到三面标注台与目标物体的位置关系

=

；

具体的，所述三面标注台，由记号板一1、记号板二2、记号板三3组成，所述三块记号板两两垂直组装。

具体的，所述记号板一1、记号板二2、记号板三3上均设置有不同的自动定位模型，所述定位模型能自动定位各自记号板相对于相机的位置，所述三块记号板相对位置固定，当其中一块记号板通过自动定位模型定位后，所述三面标注台位置已知。

具体的，同时超过一块记号板通过自动定位模型定位后，通过对位置进行取均值精准定位，因三块记号板共用同一世界坐标系，故我们只需计算三块板的平均位置，即Mean(

),具体而言则分开计算R，t的平均数，定义

将旋转矩阵

,

,

通过变换关系

转换成四元数

,

,那么

=

，

=

我们通过变换关系可将

转换成

，即

=[

]，也即相机与标注台的相对位置。

具体的，步骤S103所述计算机辅助计算，具体为：

若3D模型有关键点

，含N个关键点，这些点在3D模型定义的3D坐标为

，则在图像上的2d坐标为

，

考虑3D空间中某点Pi，它的齐次坐标为：

，在该图像中，投影点

( 以归一化平面齐次坐标表示)。定义相机姿态T=[R|t]

，由投影关系

用最后一行将s消去，得到两个约束

，

为了简化表示，将T的行向量定义为

，即物体与相机的相对位置。

具体的，自动标注好的所有二维图像上的数据方法可以为，已知计算相机与标注台相对位置的模型和标注台与物体的相对位置，通过链式法则计算得到相机与物体的相对位置R t，再使用pnp算法将3d关键点投影到二维图像上。

具体的，所述数据增强方法为，步骤S201用迭代的方式得到尽量准确的绿幕区域，以得到更好的相机姿态和精准的色键；步骤S202进行抠像。

具体的，所述准确绿幕区域的方法可以为所述三面标注台中的记号板一1、记号板二2、记号板三3中图案均由深绿色与浅绿色小块相间拼成，大小依据目标物体的尺寸而定，针对不同情况也可为蓝色或红色。

具体的，所述抠像需要计算每个像素的前景与背景的比例，也即像素的

值,首先，可利用传统机器学习或深度学习的方法取得记号板一1、记号板二2和记号板三3中的绿色纹理背景的

个色键值

，其中

表示第

个色键在YUV空间的U-V取值,

通常小于等于3，

然后，算法可通过下式得出每个像素的

值：

,

其中，

是图像的像素个数，

是第

个像素的U-V取值，

和

为预先定义好的参数，Sigmoid函数的定义为：

它使得函数结果映射在[0,1]区间内，最后，我们规定

。

工作原理

我们对三块记号板分别定位，给定标记板

，并假设系统对他们的定位方法为

，则有：

其中，

存储的是物体在第

帧的位姿参数，也即旋转矩阵

及偏移向量

，

表示第

帧图片。

因三块记号板共用同一世界坐标系，故我们只需计算三块板的平均位姿，即Mean(

),具体而言则分开计算R，t的平均数，定义

将旋转矩阵

,

,

通过变换关系

转换成四元数

,

,那么

=

，

=

我们通过变换关系可将

转换成

，即

=[

]，也即相机与标注台的相对位置。

假设物体3D模型中，预先定义好的

个关键点集为

，它们的3D坐标为

。考虑3D空间中某点Pi，它的齐次坐标为：

，在该图像中，投影点

( 以归一化平面齐次坐标表示)。定义相机姿态T=[R|t]

，由投影关系

用最后一行将s消去，得到两个约束

，

为了简化表示，将T的行向量定义为

，即物体与相机的相对位置。假设物体与标注台的位置恒定不变，针对第t张图片，相机与标注台的位置关系T可以直接计算得出，通过链式法则，已知物体与相机的位置关系

，相机与标注台的位置关系T，则三面标注台与物体的位置关系

。

假设在当前帧

上，由于在实际情况中，

，算法也可以使用RANSAC方法来提高对

估计的鲁棒性。

已知计算相机与标注台相对位置的模型（人工标注前已经训练好的，只要给定一张图片，即可自动得到相机与标注台的位置关系）和标注台与物体的相对位置（人工标注阶段直接算出的位置关系），要针对每张图片自动计算相机与物体的位置关系，则通过链式法则计算得到相机与物体的相对位置R t，再使用pnp算法将3d关键点投影到二维图像上，由此，所有的图片都可以通过算法直接标注，从而达到标注目的。

抠像换背景，当需要进行数据增强时，可使用抠像算法将图片数据的标注台背景抠除，换上其他场景的背景，所述三面标注台中的记号板1、记号板2、记号板3中图案均由深绿色与浅绿色小块相间拼成更利于抠像。

抠像过程：所述抠像需要计算每个像素的前景与背景的比例，也即像素的

个色键值

，其中

表示第

个色键在YUV空间的U-V取值,

通常小于等于3，

然后，算法可通过下式得出每个像素的

值：

,

其中，

是图像的像素个数，

是第

个像素的U-V取值，

和

为预先定义好的参数，Sigmoid函数的定义为：

它使得函数结果映射在[0,1]区间内，最后，我们规定

。

此方案设置方便数据增强，可以提高后续训练机器学习模型的泛化能力，为后续机器模型训练提供数据增强的可能。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。