CN115880470B

CN115880470B - 3d图像数据的生成方法、装置、设备及存储介质

Info

Publication number: CN115880470B
Application number: CN202310214758.4A
Authority: CN
Inventors: 朱朝; 刘国清; 杨广; 王启程; 程飞洋; 郑伟
Original assignee: Shenzhen Minieye Innovation Technology Co Ltd
Current assignee: Shenzhen Youjia Innovation Technology Co ltd
Priority date: 2023-03-08
Filing date: 2023-03-08
Publication date: 2023-06-02
Anticipated expiration: 2043-03-08
Also published as: CN115880470A

Abstract

本申请公开了一种3D图像数据的生成方法、装置、设备及存储介质，通过获取已知数据集和当前相机内参，已知数据集包括在数据集相机内参下的多个第一3D图像；根据数据集相机内参，确定第一3D图像中的物体框在第一3D图像中的第一物体框信息；将第一物体框信息转换为在当前相机内参下的第二物体框信息，得到第二3D图像；对第二3D图像进行数据增强，得到第三3D图像，其中物体框在第三3D图像中的第三物体框信息作为第三3D图像的标签信息。实现了采用物体框的中心点在特定内参下计算3D目标物体的标签，以将不同相机内参下的数据进行转换，有效的解决不同摄像机之间相机内参不一致的问题。

Description

3D图像数据的生成方法、装置、设备及存储介质

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种3D图像数据的生成方法、装置、设备及存储介质。

背景技术

在真实世界中，当自动驾驶汽车需要在道路上平稳安全地行驶时，其必须具有周围物体的准确3D信息才能做出安全的决策。因此，3D物体检测在机器人应用中变得越来越重要。其中大多数最先进算法都依赖于激光雷达点云提供的准确的3D信息，但是在每辆车上安装昂贵的激光雷达是一个沉重的负担。因此，单目3D物体检测作为一种简单而廉价的检测方法成为热门，但是其训练数据是影响检测精度的重要因素。

现实生活中，3Dbox的数据标注非常费时费力导致3D数据集的样本数量非常有限，若需要训练出比较好的3D检测模型，则在工程代码中利用已有的公开数据集如或者利用数据增强的方式进行数据扩展。目前，现有的单目3D检测方法中如SMOKE、FCOS3D大多只是利用左右翻转的数据增强方法，无法有效的增加样本的多样性，从而导致3D检测模型无法很好的应用于自己的数据集上或者说训练得到的3Dbox只是个平均的结果。

发明内容

本申请提供了一种3D图像数据的生成方法、装置、设备及存储介质，以解决当前应用于3D检测的数据增强方法无法提高3D检测模型的检测性能的技术问题。

为了解决上述技术问题，第一方面，本申请提供了一种3D图像数据的生成方法，包括：

获取已知数据集和当前相机内参，所述已知数据集包括在数据集相机内参下的多个第一3D图像；

根据所述数据集相机内参，确定所述第一3D图像中的物体框在所述第一3D图像中的第一物体框信息，所述第一物体框信息包括第一中心点坐标、物体框尺寸和图像视觉角；

将所述第一物体框信息转换为在所述当前相机内参下的第二物体框信息，得到第二3D图像，所述第二物体框信息包括第二中心点坐标、所述物体框尺寸和目标旋转角；

对所述第二3D图像进行数据增强，得到第三3D图像，其中所述物体框在所述第三3D图像中的第三物体框信息作为所述第三3D图像的标签信息。

在一些实现方式中，所述根据所述数据集相机内参，确定所述第一3D图像中的物体框在所述第一3D图像中的第一物体框信息，包括：

读取所述物体框在所述数据集相机内参下的中心点坐标、物体框尺寸和旋转角；

利用预设的第一内参转换函数，根据所述数据集相机内参，对所述数据集相机内参下的中心点坐标和物体框尺寸进行转换，得到所述物体框在所述第一3D图像中的第一中心点坐标，所述第一中心点坐标包括物体框中心点坐标和底部中心点坐标；

利用预设的第一角度关系函数，根据所述数据集相机内参下的物体框尺寸和旋转角，计算所述图像视觉角。

在一些实现方式中，所述第一内参转换函数包括：

；/>

；

所述第一角度关系函数为：

；

其中，

为数据集相机内参，/>

为物体框在数据集相机内参下的中心点坐标，

为物体框在第一3D图像中的物体框中心点坐标，/>

为物体框在第一3D图像中的底部中心点坐标，/>

为物体框高度，/>

为图像视觉角，/>

为物体框在数据集相机内参下的旋转角。

在一些实现方式中，所述将所述第一物体框信息转换为在所述当前相机内参下的第二物体框信息，得到第二3D图像，包括：

利用预设的第二内参转换函数，根据所述当前相机内参，对所述物体框在所述第一3D图像中的第一中心点坐标进行转换，得到所述物体框在所述当前相机内参下的第二中心点坐标；

利用预设的第二角度关系函数，根据所述第二中心点坐标和所述图像视觉角，计算所述物体框在所述当前相机内参下的目标旋转角。

在一些实现方式中，所述第二内参转换函数包括：

；/>

；

所述第二角度关系函数为：

；

其中，

为当前相机内参，/>

为物体框在数据集当前相机内参下的中心点坐标，/>

为物体框在第一3D图像中的物体框中心点坐标，/>

为物体框在第一3D图像中的底部中心点坐标，/>

为物体框高度，/>

为图像视觉角，/>

为目标旋转角。

在一些实现方式中，所述对所述第二3D图像进行数据增强，得到第三3D图像，包括：

利用预设增强函数，确定所述第二3D图像的旋转变换矩阵；

基于所述旋转变换矩阵，对所述第二3D图像进行数据增强，得到第三3D图像，并基于所述旋转变换矩阵和所述第二物体框信息，确定所述物体框在所述第三3D图像中的第三物体框信息。

在一些实现方式中，所述基于所述旋转变换矩阵和所述第二物体框信息，确定所述物体框在所述第三3D图像中的第三物体框信息，包括：

根据所述当前相机内参，对所述第二物体框信息进行转换，确定所述物体框在所述第二3D图像中的第四物体框信息；

利用预设的增强转换函数，根据所述旋转变换矩阵，对所述第四物体框信息进行转换，得到所述第三物体框信息。

第二方面，本申请还提供一种3D图像数据的生成装置，包括：

获取模块，用于获取已知数据集和当前相机内参，所述已知数据集包括在数据集相机内参下的多个第一3D图像；

确定模块，用于根据所述数据集相机内参，确定所述第一3D图像中的物体框在所述第一3D图像中的第一物体框信息，所述第一物体框信息包括第一中心点坐标、物体框尺寸和图像视觉角；

转换模块，用于将所述第一物体框信息转换为在所述当前相机内参下的第二物体框信息，得到第二3D图像，所述第二物体框信息包括第二中心点坐标、所述物体框尺寸和目标旋转角；

增强模块，用于对所述第二3D图像进行数据增强，得到第三3D图像，其中所述物体框在所述第三3D图像中的第三物体框信息作为所述第三3D图像的标签信息。

第三方面，本申请还提供一种计算机设备，包括处理器和存储器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时实现如第一方面所述的3D图像数据的生成方法。

第四方面，本申请还提供一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的3D图像数据的生成方法。

与现有技术相比，本申请至少具备以下有益效果：

通过获取已知数据集和当前相机内参，已知数据集包括在数据集相机内参下的多个第一3D图像；根据数据集相机内参，确定第一3D图像中的物体框在第一3D图像中的第一物体框信息，第一物体框信息包括第一中心点坐标、物体框尺寸和图像视觉角；将第一物体框信息转换为在当前相机内参下的第二物体框信息，得到第二3D图像，第二物体框信息包括第二中心点坐标、物体框尺寸和目标旋转角；对第二3D图像进行数据增强，得到第三3D图像，其中物体框在第三3D图像中的第三物体框信息作为第三3D图像的标签信息。

实现了采用物体框的中心点在特定内参下计算3D目标物体的标签，以将不同相机内参下的数据进行转换，有效的解决不同摄像机之间相机内参不一致的问题，从而生成用于训练特定相机内参的单目3D检测模型的数据集。本申请将3D目标转化为2D目标，可以采用与2D检测一样的随机缩放、裁剪、平移等方式进行数据增强，实现样本在真实世界包括距离在内的位置增强，丰富样本的多样性和降低样本扩展难度。

附图说明

图1为本申请实施例示出的3D图像数据的生成方法的流程示意图；

图2为本申请实施例示出的相机坐标系与物体框的示意图；

图3为本申请实施例示出的物体中心点与底部中心点在图像上的示意图；

图4为本申请实施例示出的数据增强后的图像示意图；

图5为本申请实施例示出的数据增强后的另一图像示意图；

图6为本申请实施例示出的3D图像数据的生成装置的结构示意图；

图7为本申请实施例示出的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参照图1，图1为本申请实施例提供的一种3D图像数据的生成方法的流程示意图。本申请实施例的3D图像数据的生成方法可应用于计算机设备，该计算机设备包括但不限于智能手机、笔记本电脑、平板电脑、桌上型计算机、物理服务器和云服务器等设备。如图1所示，本实施例的3D图像数据的生成方法包括步骤S101至步骤S104，详述如下：

步骤S101，获取已知数据集和当前相机内参，所述已知数据集包括在数据集相机内参下的多个第一3D图像。

在本步骤中，已知数据集包括但不限于KITTI、nuScenes和waymo等已知的数据集。当前相机内参为需要应用检测模型（如单目3D检测模型）的相机的内参，数据集相机内参为采集第一3D图像的相机的内参。

步骤S102，根据所述数据集相机内参，确定所述第一3D图像中的物体框在所述第一3D图像中的第一物体框信息，所述第一物体框信息包括第一中心点坐标、物体框尺寸和图像视觉角。

在本步骤中，由于单目3D检测的过程为将摄像机拍摄的图片输入到神经网络中取预测物体的类别

，如车辆、行人的中心点/>

、长宽高/>

以及方位角/>

等。也就是说，单目3D检测需要的训练数据的格式是一张图片以及对应一系列目标的标签信息label，其中每个label包括类别、中心点坐标、长宽高和方位角（即旋转角），如

。所以需要针对数据集图像的这些参数调整为适合当前相机的参数。

如图2和3所示，相机坐标系下，x指向右边，y朝下，z朝前，每个3D box（即物体框）在相机坐标系用

分别表示该物体框的中心点、长宽高和旋转角。对于同一个物体，该长宽高是不变的，物体中心点/>

和底部中心点/>

在图像上的值为/>

和/>

，在图像上看的图像视觉角/>

，它们之间的关系包括：

所述第一内参转换函数包括：

；/>

；

所述第一角度关系函数为：

；

其中，

为数据集相机内参，/>

为物体框在数据集相机内参下的中心点坐标，/>

为物体框在第一3D图像中的物体框中心点坐标，/>

为物体框在第一3D图像中的底部中心点坐标，/>

为物体框高度，/>

为图像视觉角，/>

为物体框在数据集相机内参下的旋转角。

基于以上关系，当相机内参变化(即

变化成/>

时)或者图片做数据增强（即

和/>

值变化成/>

和/>

），都能得到相应的/>

和

，因此基于3D box的底部中心点/>

和物体中心点/>

在特定内参/>

下得到对应3D目标的label/>

，并用新的图片和label作为所需要的数据集。

在一些实施例中，所述步骤S102，包括：

在本实施例中，计算每个第一3D图像所对应的3D box（即物体框）的物体中心点和底部中心点，例如已知数据集的数据集相机内参为

，每张第一3D图像有n个3D box，每个3D box在数据集相机坐标系中用/>

分别表示中心点坐标、长、宽、高和旋转角，则其在数据集相机坐标系下的物体中心点和底部中心点可以分别描述为

和/>

。再通过数据集相机内参/>

，按照第一内参转换函数和第一内参转换函数计算得到在中对应的物体中心点/>

和底部中心点/>

，以及目标视觉角/>

。

步骤S103，将所述第一物体框信息转换为在所述当前相机内参下的第二物体框信息，得到第二3D图像，所述第二物体框信息包括第二中心点坐标、所述物体框尺寸和目标旋转角。

在本步骤中，在一些实施例中，所述步骤S103，包括：

可选地，所述第二内参转换函数包括：

；/>

；

所述第二角度关系函数为：

；

其中，

为当前相机内参，/>

为物体框在数据集当前相机内参下的中心点坐标，/>

为物体框在第一3D图像中的物体框中心点坐标，/>

为物体框在第一3D图像中的底部中心点坐标，/>

为物体框高度，/>

为图像视觉角，/>

为目标旋转角。

进一步地，将以上得到的第二中心点坐标和目标旋转角结合原先的长宽高作为当前相机内参下的3D目标label

。

步骤S104，对所述第二3D图像进行数据增强，得到第三3D图像，其中所述物体框在所述第三3D图像中的第三物体框信息作为所述第三3D图像的标签信息。

在本步骤中，所述步骤S104，包括：

利用预设增强函数，确定所述第二3D图像的旋转变换矩阵；

在本实施例中，假设当前相机内参为

，每张图片有n个3D box，每个3D box在相机坐标系中为/>

。按照以上函数得到物体框在第二3D图像上对应的物体中心点/>

和底部中心点/>

，以及角度/>

。进一步地，对图片进行包括但不限于如缩放、旋转、平移等数据增强操作，并设置数据增强参数如缩放、旋转、平移系数，通过opencv的函数确定旋转变换矩阵/>

，比如图片的长宽为/>

，旋转系数/>

，尺度系数/>

，由函数/>

确定矩阵/>

,平移系数/>

和/>

，则可由以下公式确定旋转矩阵/>

：

。

在一些实施例中，所述基于所述旋转变换矩阵和所述第二物体框信息，确定所述物体框在所述第三3D图像中的第三物体框信息，包括：

在本实施例中，按照以下公式得到图片增强后的物体中心点和底部中心点位置分别为

和/>

：

；/>

；

进一步地，得到图片的物体中心点和底部中心点后，再根据第二内参转换函数联合解出数据增强后相机坐标系下的物体中心点和底部中心点

和

，同理根据第二角度关系函数得到数据增强后相机坐标系下的旋转角

。将/>

作为在相机内参/>

下进行数据增强后的3D目标的label（单目3D检测数据增强），将label在图片上可视化的示例图4和图5所示。

为了执行上述方法实施例对应的3D图像数据的生成方法，以实现相应的功能和技术效果。参见图6，图6示出了本申请实施例提供的一种3D图像数据的生成装置的结构框图。为了便于说明，仅示出了与本实施例相关的部分，本申请实施例提供的3D图像数据的生成装置，包括：

获取模块601，用于获取已知数据集和当前相机内参，所述已知数据集包括在数据集相机内参下的多个第一3D图像；

确定模块602，用于根据所述数据集相机内参，确定所述第一3D图像中的物体框在所述第一3D图像中的第一物体框信息，所述第一物体框信息包括第一中心点坐标、物体框尺寸和图像视觉角；

转换模块603，用于将所述第一物体框信息转换为在所述当前相机内参下的第二物体框信息，得到第二3D图像，所述第二物体框信息包括第二中心点坐标、所述物体框尺寸和目标旋转角；

增强模块604，用于对所述第二3D图像进行数据增强，得到第三3D图像，其中所述物体框在所述第三3D图像中的第三物体框信息作为所述第三3D图像的标签信息。

在一些实施例中，所述确定模块602，具体用于：

在一些实施例中，所述第一内参转换函数包括：

；/>

；

所述第一角度关系函数为：

；

其中，

为数据集相机内参，/>

为物体框在数据集相机内参下的中心点坐标，

为物体框在第一3D图像中的物体框中心点坐标，/>

为物体框在第一3D图像中的底部中心点坐标，/>

为物体框高度，/>

为图像视觉角，/>

为物体框在数据集相机内参下的旋转角。

在一些实施例中，所述转换模块603，具体用于：

在一些实施例中，所述第二内参转换函数包括：

；/>

；

所述第二角度关系函数为：

；

其中，

为当前相机内参，/>

为物体框在数据集当前相机内参下的中心点坐标，/>

为物体框在第一3D图像中的物体框中心点坐标，/>

为物体框在第一3D图像中的底部中心点坐标，/>

为物体框高度，/>

为图像视觉角，/>

为目标旋转角。

在一些实施例中，所述增强模块604，包括：

确定单元，用于利用预设增强函数，确定所述第二3D图像的旋转变换矩阵；

增强单元，用于基于所述旋转变换矩阵，对所述第二3D图像进行数据增强，得到第三3D图像，并基于所述旋转变换矩阵和所述第二物体框信息，确定所述物体框在所述第三3D图像中的第三物体框信息。

在一些实施例中，所述增强单元，具体用于：

上述的3D图像数据的生成装置可实施上述方法实施例的3D图像数据的生成方法。上述方法实施例中的可选项也适用于本实施例，这里不再详述。本申请实施例的其余内容可参照上述方法实施例的内容，在本实施例中，不再进行赘述。

图7为本申请一实施例提供的计算机设备的结构示意图。如图7所示，该实施例的计算机设备7包括：至少一个处理器70（图7中仅示出一个）处理器、存储器71以及存储在所述存储器71中并可在所述至少一个处理器70上运行的计算机程序72，所述处理器70执行所述计算机程序72时实现上述任意方法实施例中的步骤。

所述计算机设备7可以是智能手机、平板电脑、桌上型计算机和云端服务器等计算设备。该计算机设备可包括但不仅限于处理器70、存储器71。本领域技术人员可以理解，图7仅仅是计算机设备7的举例，并不构成对计算机设备7的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括输入输出设备、网络接入设备等。

所称处理器70可以是中央处理单元(Central Processing Unit，CPU)，该处理器70还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路 (Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器71在一些实施例中可以是所述计算机设备7的内部存储单元，例如计算机设备7的硬盘或内存。所述存储器71在另一些实施例中也可以是所述计算机设备7的外部存储设备，例如所述计算机设备7上配备的插接式硬盘，智能存储卡（Smart Media Card,SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）等。进一步地，所述存储器71还可以既包括所述计算机设备7的内部存储单元也包括外部存储设备。所述存储器71用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。

另外，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述任意方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在计算机设备上运行时，使得计算机设备执行时实现上述各个方法实施例中的步骤。

在本申请所提供的几个实施例中，可以理解的是，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意的是，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述的具体实施例，对本申请的目的、技术方案和有益效果进行了进一步的详细说明，应当理解，以上所述仅为本申请的具体实施例而已，并不用于限定本申请的保护范围。特别指出，对于本领域技术人员来说，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种3D图像数据的生成方法，其特征在于，包括：

根据所述数据集相机内参，确定所述第一3D图像中的物体框在所述第一3D图像中的第一物体框信息，所述第一物体框信息包括第一中心点坐标、物体框尺寸和图像视觉角；所述根据所述数据集相机内参，确定所述第一3D图像中的物体框在所述第一3D图像中的第一物体框信息，包括：读取所述物体框在所述数据集相机内参下的中心点坐标、物体框尺寸和旋转角；利用预设的第一内参转换函数，根据所述数据集相机内参，对所述数据集相机内参下的中心点坐标和物体框尺寸进行转换，得到所述物体框在所述第一3D图像中的第一中心点坐标，所述第一中心点坐标包括物体框中心点坐标和底部中心点坐标；利用预设的第一角度关系函数，根据所述数据集相机内参下的物体框尺寸和旋转角，计算所述图像视觉角；所述第一内参转换函数包括：

；/>

；

所述第一角度关系函数为：

；

其中，

为数据集相机内参，/>

为物体框在数据集相机内参下的中心点坐标，

为物体框在第一3D图像中的物体框中心点坐标，/>

为物体框在第一3D图像中的底部中心点坐标，/>

为物体框高度，/>

为图像视觉角，/>

为物体框在数据集相机内参下的旋转角；

2.如权利要求1所述的3D图像数据的生成方法，其特征在于，所述将所述第一物体框信息转换为在所述当前相机内参下的第二物体框信息，得到第二3D图像，包括：

3.如权利要求2所述的3D图像数据的生成方法，其特征在于，所述第二内参转换函数包括：

；/>

；/>

所述第二角度关系函数为：

；

其中，

为当前相机内参，/>

为物体框在数据集当前相机内参下的中心点坐标，/>

为物体框在第一3D图像中的物体框中心点坐标，/>

为物体框在第一3D图像中的底部中心点坐标，/>

为物体框高度，/>

为图像视觉角，/>

为目标旋转角。

4.如权利要求1所述的3D图像数据的生成方法，其特征在于，所述对所述第二3D图像进行数据增强，得到第三3D图像，包括：

利用预设增强函数，确定所述第二3D图像的旋转变换矩阵；

5.如权利要求4所述的3D图像数据的生成方法，其特征在于，所述基于所述旋转变换矩阵和所述第二物体框信息，确定所述物体框在所述第三3D图像中的第三物体框信息，包括：

6.一种3D图像数据的生成装置，其特征在于，包括：

确定模块，用于根据所述数据集相机内参，确定所述第一3D图像中的物体框在所述第一3D图像中的第一物体框信息，所述第一物体框信息包括第一中心点坐标、物体框尺寸和图像视觉角；所述确定模块还用于：读取所述物体框在所述数据集相机内参下的中心点坐标、物体框尺寸和旋转角；利用预设的第一内参转换函数，根据所述数据集相机内参，对所述数据集相机内参下的中心点坐标和物体框尺寸进行转换，得到所述物体框在所述第一3D图像中的第一中心点坐标，所述第一中心点坐标包括物体框中心点坐标和底部中心点坐标；利用预设的第一角度关系函数，根据所述数据集相机内参下的物体框尺寸和旋转角，计算所述图像视觉角；所述第一内参转换函数包括：