CN111783820A

CN111783820A - 图像标注方法和装置

Info

Publication number: CN111783820A
Application number: CN202010390224.3A
Authority: CN
Inventors: 郭景昊; 贾建帮; 车广富; 郭会贤; 刘雅; 安山
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2020-05-08
Filing date: 2020-05-08
Publication date: 2020-10-16
Anticipated expiration: 2040-05-08

Abstract

本公开公开了一种图像标注方法和装置，涉及图像处理领域。该方法包括：将目标的三维模型映射到具有待匹配对象的图像中；通过调整三维模型的位姿，使得目标与待匹配对象匹配；根据三维模型的初始位姿信息，和目标与待匹配对象匹配时三维模型的最终位姿信息，确定位姿变换矩阵；以及根据位姿变换矩阵和图像对应的相机内参，确定三维模型中一个或多个三维坐标在图像中对应的二维坐标，作为图像的第一标注信息。本公开由于确定了位姿变换矩阵，图像对应的相机内参为定值，因此，想要得到图像中不同位置的关键点的坐标时，不需要重新进行标注，提高了图像标注效率。

Description

图像标注方法和装置

技术领域

本公开涉及图像处理领域，尤其涉及一种图像标注方法和装置。

背景技术

3D(Three Dimensional，三维)标注是利用计算机视觉计算判断图像或者视频中某个对象在视觉中的三维呈现。该技术可与车辆检测、行人检测、裸眼3D等技术结合，应用于人工智能系统、车辆辅助驾驶技术、智能机器人、AR(Augmented Reality，增强现实)/VR(Virtual Reality，虚拟现实)换装、智能视频监控、人体行为分析、智能交通等领域。

相关3D标注技术包括多摄像头标注和3D包围盒标注。多摄像头标注采用多个摄像头从不同角度拍摄物体，通过捕捉感光点以及摄像头间的相互关系，恢复点的三维信息。3D包围盒标注是通过拉取一个外包围盒，实现对图像中物体的框选标注。

发明内容

本公开要解决的一个技术问题是，提供一种图像标注方法和装置，能够提高图像标注的效率。

根据本公开一方面，提出一种图像标注方法，包括：将目标的三维模型映射到具有待匹配对象的图像中；通过调整三维模型的位姿，使得目标与待匹配对象匹配；根据三维模型的初始位姿信息，和目标与待匹配对象匹配时三维模型的最终位姿信息，确定位姿变换矩阵；以及根据位姿变换矩阵和图像对应的相机内参，确定三维模型中一个或多个三维坐标在图像中对应的二维坐标，作为图像的第一标注信息。

在一些实施例中，调整三维模型的位姿包括：响应于第一外部设备的第一信号，调整三维模型在图像中的位置；响应于第二外部设备的第二信号，调整三维模型在相机坐标系的X轴和Y轴的角度变化；响应于第三外部设备的第三信号，调整三维模型在相机坐标系的Z轴的角度变化；以及响应于第四外部设备的第四信号，调整三维模型与相机间的距离。

在一些实施例中，根据位姿变换矩阵和图像对应的相机内参，确定待匹配对象的一个或多个二维坐标在图像中对应的三维坐标，作为图像的第二标注信息。

在一些实施例中，确定位姿变换矩阵包括：根据三维模型在世界坐标下的初始坐标，与三维模型在相机坐标系下的初始坐标，确定第一转换矩阵；根据三维模型在相机坐标系下的初始坐标，与目标与待匹配对象匹配时三维模型在相机坐标系下的最终坐标，确定第二转换矩阵；以及根据第一转换矩阵和第二转换矩阵，确定位姿变换矩阵。

在一些实施例中，第一外部设备、第二外部设备、第三外部设备和第四外部设备分别为鼠标和键盘中的一个或多个。

在一些实施例中，根据图像的分辨率，确定相机内参。

在一些实施例中，基于OpenGL开放图形库，将目标的三维模型渲染到具有待匹配对象的图像中。

在一些实施例中，基于图像的第一标注信息或第二标注信息，训练目标识别模型。

根据本公开的另一方面，还提出一种图像标注装置，包括：模型映射单元，被配置为将目标的三维模型映射到具有待匹配对象的图像中；位姿调整单元，被配置为通过调整三维模型的位姿，使得目标与待匹配对象匹配；矩阵确定单元，被配置为根据三维模型的初始位姿信息，和目标与待匹配对象匹配时三维模型的最终位姿信息，确定位姿变换矩阵；以及图像标注单元，被配置为根据位姿变换矩阵和图像对应的相机内参，确定三维模型中一个或多个三维坐标在图像中对应的二维坐标，作为图像的第一标注信息。

根据本公开的另一方面，还提出一种图像标注装置，包括：存储器；以及耦接至存储器的处理器，处理器被配置为基于存储在存储器的指令执行如上述的图像标注方法。

根据本公开的另一方面，还提出一种非瞬时性计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现上述的图像标注方法。

本公开实施例中，通过调整三维模型的位姿，使得目标与待匹配对象匹配，根据三维模型的初始位姿信息，和目标与待匹配对象匹配时三维模型的最终位姿信息，确定位姿变换矩阵，根据位姿变换矩阵和图像对应的相机内参，确定三维模型中一个或多个三维坐标在图像中对应的二维坐标，进而可以对图像进行三维标注。该实施例中由于确定了位姿变换矩阵，图像对应的相机内参为定值，因此，想要得到图像中不同位置的关键点的坐标时，不需要重新进行标注，提高了图像标注效率。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同说明书一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1为本公开的图像标注方法的一些实施例的流程示意图。

图2为本公开的图像标注方法的另一些实施例的流程示意图。

图3为本公开的图像标注方法的另一些实施例的流程示意图。

图4为世界坐标系到图像坐标系的转换示意图。

图5为相机坐标系到图像坐标系的转换示意图。

图6为本公开的图像标注装置的一些实施例的结构示意图。

图7为本公开的图像标注装置的另一些实施例的结构示意图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

在相关技术中，采用多摄像头进行图像标注，需要搭建复杂且高精度的硬件系统，提高了图像标注成本、并且可移植性弱、操作复杂。另外，需要在标注物体上是事先打点，容易污染数据，且如果标记点较大的话，被标注物体的尺寸无法太小，标注点无法过密。再者，只标注关键点位置，每次更换关键点，都需要重新标注，标注数据无法重复利用。并且，该图标标注方法是人工对遮挡点进行评估处理，由于标注人员的主观因素影响，可能会导致结果不准确。

3D包围盒标注的框自由度较少，位姿标注精度相对较差。并且，包围盒不易区分上下方向，不直观，不利于标注人员和审核人员的核查。另外，该框是二维的框，没有深度效果，即包围盒截面尺寸是不变的，没有深度造成的畸变效果，标注精度相对较低。

图1为本公开的图像标注方法的一些实施例的流程示意图。

在步骤110，将目标的三维模型映射到具有待匹配对象的图像中。

目标例如为鞋子，待匹配对象为鞋子或脚；目标例如为眼镜，待匹配对象例如为眼睛等。

在步骤120，通过调整三维模型的位姿，使得目标与待匹配对象匹配。例如，通过调整鞋子的3D模型的位姿，使得图像中的脚像穿着真实的鞋子拍照，或者，将鞋子的3D模型替换图像中的鞋子。

在一些实施例中，调整三维模型的位姿包括调整三维模型在图像中的位置、调整三维模型在相机坐标系的X轴和Y轴的角度变化、调整三维模型在相机坐标系的Z轴的角度变化、以及调整三维模型与相机间的距离等。

在步骤130，根据三维模型的初始位姿信息，和目标与待匹配对象匹配时三维模型的最终位姿信息，确定位姿变换矩阵。

在一些实施例中，根据三维模型在世界坐标下的初始坐标，与三维模型在相机坐标系下的初始坐标，确定第一转换矩阵；根据三维模型在相机坐标系下的初始坐标，与目标与待匹配对象匹配时三维模型在相机坐标系下的最终坐标，确定第二转换矩阵；根据第一转换矩阵和第二转换矩阵，确定位姿变换矩阵。

在步骤140，根据位姿变换矩阵和图像对应的相机内参，确定三维模型中一个或多个三维坐标在图像中对应的二维坐标，作为图像的第一标注信息。根据图像对应的相机内参，可以将相机坐标系下的坐标转换为像素坐标系下的坐标。

例如，根据位姿变换矩阵和图像对应的相机内参，将鞋子的3D模型中大脚趾位置投影到二维图像中鞋子的大脚趾位置，进而在图像中鞋子的大脚趾位置标注出3D坐标。也可以根据位姿变换矩阵和图像对应的相机内参，将鞋子的3D模型中脚后跟位置投影到二维图像中鞋子的脚后跟位置，进而在图像中鞋子的脚后跟位置标注出3D坐标。该步骤实现对图像的三维标注，使得图像中的点具有深度信息。

在上述实施例中，通过调整三维模型的位姿，使得目标与待匹配对象匹配，根据三维模型的初始位姿信息，和目标与待匹配对象匹配时三维模型的最终位姿信息，确定位姿变换矩阵，根据位姿变换矩阵和图像对应的相机内参，确定三维模型中一个或多个三维坐标在图像中对应的二维坐标，进而可以对图像进行三维标注。该实施例中由于确定了位姿变换矩阵，图像对应的相机内参为定值，因此，想要得到不同位置的关键点的坐标时，不需要重新进行标注，提高了图像标注效率。另外，该图像标注注重于整体标注，标注点过密对本公开的图像标注没有影响。该实施例无需事先在标注物体上打标志，因此，不会污染数据。

图2为本公开的图像标注方法的另一些实施例的流程示意图。

在步骤210，将目标的三维模型映射到具有待匹配对象的图像中。

在步骤220，通过调整三维模型的位姿，使得目标与待匹配对象匹配。

在一些实施例中，一方面可以通过移动相机，使得目标与待匹配对象匹配，但该方式对于标注人员不直观。因为相机旋转平移的方向与模型的旋转平移方向总是相反的。在该实施例中，直接旋转三维模型，使得目标与待匹配对象匹配，使得标注人员更加直观、更加容易理解模型变换。

在调整三维模型的位姿时，计算机响应于第一外部设备的第一信号，调整三维模型在图像中的位置；响应于第二外部设备的第二信号，调整三维模型在相机坐标系的X轴和Y轴的角度变化；响应于第三外部设备的第三信号，调整三维模型在相机坐标系的Z轴的角度变化；响应于第四外部设备的第四信号，调整三维模型与相机间的距离。第一外部设备、第二外部设备、第三外部设备和第四外部设备分别为鼠标和键盘中的一个或多个。

在步骤230，根据三维模型的初始位姿信息，和目标与待匹配对象匹配时三维模型的最终位姿信息，确定位姿变换矩阵。

例如，将图1实施例中的第一转换矩阵和第二转换矩阵之积，作为位姿变换矩阵。

在步骤240，根据位姿变换矩阵和图像对应的相机内参，确定待匹配对象的一个或多个二维坐标在图像中对应的三维坐标，作为图像的第二标注信息。

例如，根据位姿变换矩阵和图像对应的相机内参，可以确定二维图像中大脚趾位置的坐标在鞋子的3D模型中的三维坐标，进而可以在图像中鞋子的大脚趾位置标注出3D坐标。

在一些实施例中，根据图像的分辨率，确定相机内参。例如，在一些情况下，并不容易得到拍摄图像的相机的内参，但容易得到图像的分辨率，在该实施例中，利用图像的分辨率估算相机内参。发明人通过大量实验，利用图像的分辨率估算的相机内参对图像标注的正确率较高。

在上述实施例中，根据位姿变换矩阵和图像对应的相机内参，确定待匹配对象的一个或多个二维坐标在图像中对应的三维坐标，进而可以对图像进行标注。使得标注更加高效、直观、规范，并且精度更高、复用性更强，由于无需使用多个摄像头，因此，减少了标注成本。

在一些实施例中，基于OpenGL(开放图形库)，将目标的三维模型映射到具有待匹配对象的图像中。

该图像标注方法可以应用到AR试鞋、人脸瞳孔标注中。下面将以对图像中鞋子的位姿进行准确标注为例对本申请的方案进行介绍，具体如图3所示。

在步骤310，OpenGL视窗初始化。即设置OpenGL渲染窗口参数。例如，设置窗口初始显示模式、初始位置以及大小。

在步骤320，加载鞋子的三维模型。该三维模型例如为obj格式。

在步骤330，初始化相机参数，设置模型初始位置。

例如，将三维模型初始位置设置在(0，0，-0.5)，摄像头则位于(0，0，0)的位置，镜头朝向z轴负方向，并且设置灯光初始参数等。

OpenGL有两种投影，正射投影(垂直投影)和透视投影，需要设置相机视口、视角、近裁剪面到相机的距离以及远裁剪面到相机的距离信息。通过设置近裁剪面到相机的距离以及远裁剪面到相机的距离，即限定在二维图像中旋转三维模型的边界。

视角可以根据具体视口或者图像分辨率大小来进行设定的。例如，

其中Fovy为视角大小，max(w,h)为相机视窗的最长边，f为相机焦距。

在步骤340，加载二维图像。

由于渲染窗口已经设置固定，为了能完整显示图像，对图像的大小进行了等比缩放，在保证图像不变形的情况下，使图像尽可能大地呈现。

在步骤350，通过调整三维模型的位姿，使得鞋子与图像中的鞋子匹配。

在该步骤中通过鼠标与键盘按键配合调整三维模型，实现模型在图像的各个角度以及各个方向上的自由变换。例如，通过鼠标滚轮实现拉近或拉远模型与相机间的距离，通过鼠标右键对模型拖拽，实现对模型位置的修改，通过鼠标左键，实现对模型在X轴和Y轴方向的角度变化，通过键盘按键实现对Z轴角度的变化。本领域的技术人员应当理解，可以根据具体情况设定鼠标滚轮、鼠标左键、鼠标右键或者键盘对应不同的调整方式。

在步骤360，通过OpenGL的接口直接获取模型最终的位姿变换模型视图，根据模型视图，得到位姿变换矩阵。

在步骤370，根据位姿变换矩阵和相机内参，将三维模型上对应的三维坐标变换为图像中对应的二维坐标。即将在世界坐标系中的三维坐标转换为在像素坐标系下的二维坐标。

例如，如图4、5所示，假设在世界坐标系中某点的坐标为P_w＝(x_w,y_w,z_w)^T，在相机坐标系中的坐标为P_C＝(x_C,y_C,z_C)^T，则从世界坐标系到相机坐标系：

其中，

为位姿矩阵。在图像坐标系中坐标为m＝(x_I,y_I,z_I)^T，进一步可以得到

由于像素坐标系中的图像原点不在图像中心，因此将图像坐标系中的点转到像素坐标系下为：

代表的是相机内参。

将三维模型上对应的三维坐标变换为图像中对应的二维坐标，相对应的，也就确定了图像中的二维坐标对应的三维坐标，这两者都能在二维图像中标注三维坐标。

在上述实施例中，基于3D渲染引擎，将鞋子的三维模型通过旋转、平移，覆盖在图像中鞋子的位置。可以通过一次标注，可以获取物体的更多信息，包括物体的点云坐标以及近似的深度信息，使得标注更加高效。另外，该实施例中，通过标注信息，可以直接观测最终可以实现或者接近的渲染效果，使得标注更加直观。并且，该实施例中的标注方法可以减少标注人员主观因素的影响，使得标注更加规范。相比于单独标点，该三维标注带入了先验规则，标注数据不会出现畸形的情况，使得标注更为精准。再者，该标注方式复用性强，只需要更换不同的三维模型，可以使用于各种不同的位姿标注需求场景中。相比于多摄像头的位姿标注，该三维标注可以直接在笔记本上实现，不需要搭建复杂的硬件设备，以及复杂的摄像头标定，减少硬件需求。另外，该方案对遮挡数据适用性高，避免了主观预测带来的偏差。

在本公开的另一些实施例中，还可以包括步骤380，基于图像的标注信息，训练目标识别模型。例如，将具有目标标注信息的图像输入到神经网络模型，得到目标识别模型。

该实施例中，训练目标识别模型时，能够更加高效的得到图像标注信息，并且使用的图像标注信息更加准确，从而使得模型训练过程更加高效、准确。

图6为本公开的图像标注装置的一些实施例的结构示意图。该装置包括：模型映射单元610、位姿调整单元620、矩阵确定单元630和图像标注单元640。

模型映射单元610被配置为将目标的三维模型映射到具有待匹配对象的图像中。

位姿调整单元620被配置为通过调整三维模型的位姿，使得目标与待匹配对象匹配。

例如，计算机响应于第一外部设备的第一信号，调整三维模型在图像中的位置；响应于第二外部设备的第二信号，调整三维模型在相机坐标系的X轴和Y轴的角度变化；响应于第三外部设备的第三信号，调整三维模型在相机坐标系的Z轴的角度变化；响应于第四外部设备的第四信号，调整三维模型与相机间的距离。第一外部设备、第二外部设备、第三外部设备和第四外部设备分别为鼠标和键盘中的一个或多个。

矩阵确定单元630被配置为根据三维模型的初始位姿信息，和目标与待匹配对象匹配时三维模型的最终位姿信息，确定位姿变换矩阵。

例如，根据三维模型在世界坐标下的初始坐标，与三维模型在相机坐标系下的初始坐标，确定第一转换矩阵；根据三维模型在相机坐标系下的初始坐标，与目标与待匹配对象匹配时三维模型在相机坐标系下的最终坐标，确定第二转换矩阵；根据第一转换矩阵和第二转换矩阵，确定位姿变换矩阵。

图像标注单元640被配置为根据位姿变换矩阵和图像对应的相机内参，确定三维模型中一个或多个三维坐标在图像中对应的二维坐标，作为图像的第一标注信息。

在一些实施例中，图像标注单元640还被配置为根据位姿变换矩阵和图像对应的相机内参，确定待匹配对象的一个或多个二维坐标在图像中对应的三维坐标，作为图像的第二标注信息。

在一些实施例中，可以根据图像的分辨率，确定图像对应的相机内参。

在上述实施例中，无需重复标注就能够得到图像中不同位置点的三维信息，另外，具有先验信息，即点的位置是模型真实投影，减少了由于不同标注人员主观因素导致标注不准确的影响等，经过测试，图像的缩放不会影响该标注数据的精度。

在本公开的另一些实施例中，基于OpenGL，将目标的三维模型渲染到具有待匹配对象的图像中。即通过3D渲染引擎，将目标的3D模型通过旋转、平移，覆盖在图像中待匹配对象的位置，进而得到图像标注数据。

基于图像的第一标注信息或第二标注信息，训练目标识别模型。数据使用者可以直接通过标注数据，直观看到神经网络训练可能达到的效果。

图7为本公开的图像标注装置的另一些实施例的结构示意图。该装置700包括存储器710和处理器720，其中：存储器710可以是磁盘、闪存或其它任何非易失性存储介质。存储器用于存储图1-3所对应实施例中的指令。处理器720耦接至存储器710，可以作为一个或多个集成电路来实施，例如微处理器或微控制器。该处理器720用于执行存储器中存储的指令。

在一些实施例中，处理器720通过BUS总线730耦合至存储器710。该装置700还可以通过存储接口740连接至外部存储装置750以便调用外部数据，还可以通过网络接口760连接至网络或者另外一台计算机系统(未标出)，此处不再进行详细介绍。

在该实施例中，通过存储器存储数据指令，再通过处理器处理上述指令，提高了图像标注效率。

在另一些实施例中，一种计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现图1-3所对应实施例中的方法的步骤。本领域内的技术人员应明白，本公开的实施例可提供为方法、装置、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

至此，已经详细描述了本公开。为了避免遮蔽本公开的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

虽然已经通过示例对本公开的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本公开的范围。本领域的技术人员应该理解，可在不脱离本公开的范围和精神的情况下，对以上实施例进行修改。本公开的范围由所附权利要求来限定。

Claims

1.一种图像标注方法，包括：

将目标的三维模型映射到具有待匹配对象的图像中；

通过调整所述三维模型的位姿，使得所述目标与所述待匹配对象匹配；

根据所述三维模型的初始位姿信息，和所述目标与所述待匹配对象匹配时所述三维模型的最终位姿信息，确定位姿变换矩阵；以及

根据所述位姿变换矩阵和所述图像对应的相机内参，确定所述三维模型中一个或多个三维坐标在所述图像中对应的二维坐标，作为所述图像的第一标注信息。

2.根据权利要求1所述的图像标注方法，其中，调整所述三维模型的位姿包括：

响应于第一外部设备的第一信号，调整所述三维模型在所述图像中的位置；

响应于第二外部设备的第二信号，调整所述三维模型在相机坐标系的X轴和Y轴的角度变化；

响应于第三外部设备的第三信号，调整所述三维模型在相机坐标系的Z轴的角度变化；以及

响应于第四外部设备的第四信号，调整所述三维模型与相机间的距离。

3.根据权利要求1所述的图像标注方法，还包括：

根据所述位姿变换矩阵和所述图像对应的相机内参，确定所述待匹配对象的一个或多个二维坐标在所述图像中对应的三维坐标，作为所述图像的第二标注信息。

4.根据权利要求1所述的图像标注方法，其中，确定位姿变换矩阵包括：

根据所述三维模型在世界坐标下的初始坐标，与所述三维模型在相机坐标系下的初始坐标，确定第一转换矩阵；

根据所述三维模型在相机坐标系下的初始坐标，与所述目标与所述待匹配对象匹配时所述三维模型在相机坐标系下的最终坐标，确定第二转换矩阵；以及

根据所述第一转换矩阵和所述第二转换矩阵，确定所述位姿变换矩阵。

5.根据权利要求2所述的图像标注方法，其中，所述第一外部设备、所述第二外部设备、所述第三外部设备和所述第四外部设备分别为鼠标和键盘中的一个或多个。

6.根据权利要求1所述的图像标注方法，其中，

根据所述图像的分辨率，确定所述相机内参。

7.根据权利要求1至6任一所述的图像标注方法，其中，

基于OpenGL开放图形库，将所述目标的三维模型渲染到所述具有待匹配对象的图像中。

8.根据权利要求3所述的图像标注方法，还包括：

基于所述图像的第一标注信息或第二标注信息，训练目标识别模型。

9.一种图像标注装置，包括：

模型映射单元，被配置为将目标的三维模型映射到具有待匹配对象的图像中；

位姿调整单元，被配置为通过调整所述三维模型的位姿，使得所述目标与所述待匹配对象匹配；

矩阵确定单元，被配置为根据所述三维模型的初始位姿信息，和所述目标与所述待匹配对象匹配时所述三维模型的最终位姿信息，确定位姿变换矩阵；以及

图像标注单元，被配置为根据所述位姿变换矩阵和所述图像对应的相机内参，确定所述三维模型中一个或多个三维坐标在所述图像中对应的二维坐标，作为所述图像的第一标注信息。

10.一种图像标注装置，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器的指令执行如权利要求1至8任一项所述的图像标注方法。

11.一种非瞬时性计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现权利要求1至8任一项所述的图像标注方法。