CN116012843A

CN116012843A - 一种虚拟场景数据标注生成方法及系统

Info

Publication number: CN116012843A
Application number: CN202310294094.7A
Authority: CN
Inventors: 马惠敏; 公维熙; 梅若恒; 于淏辰; 胡天宇
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2023-03-24
Filing date: 2023-03-24
Publication date: 2023-04-25
Anticipated expiration: 2043-03-24
Also published as: CN116012843B

Abstract

本发明提供一种虚拟场景数据标注生成方法及系统，涉及仿真场景构建技术领域。包括：通过半自动布局物体的方式，对素材进行导入；对导入的素材进行图像数据的捕获；对导入的素材的目标物体遮挡率进行计算以及自动标注；对处理后的素材进行三维模型导出，完成基于虚幻引擎的虚拟场景数据标注生成。本发明的输出标注信息涵盖图像、标签、掩码、场景目标信息、场景图（语义化场景描述）信息、甚至可以提供场景中特定物体的三维顶点模型以及整个场景合而为一的大场景网络模型，满足较为传统且更大众的二维图像的同时，同时也可以支持更新的研究方向更广阔的需求。

Description

一种虚拟场景数据标注生成方法及系统

技术领域

本发明涉及仿真场景构建技术领域，尤其涉及一种虚拟场景数据标注生成方法及系统。

背景技术

随着人工智能深度学习大网络、大模型的兴起，新技术新思路如雨后春笋般涌现，而以目前的主流学习范式中，不同功能、不同种类的网络模型对于带有多样化的、有丰富标注信息的数据集的需求有增无减。因此对于如何获取图像数据集，尤其是对于如何生成数据的高质量标注的问题，也越来越成为了一种重要的关注领域。对于通过在真实世界中采样和标注来构建的大体量数据集，如图像识别和目标检测领域的ImageNet以及目前日趋火热的自动驾驶领域的多模态数据标注的nuScenes，在各项比赛中提供给各式各样的模型进行训练，为模型展现优异的效果提供了基本支持和衡量基线。不过这类真实数据集往往也有着采样成本与采用难度高、人工标注开销大、自动标注局限于模型、常常存在有偏和错漏等问题。最近大火的AIGC，其本质为使用了如生成对抗网络GAN，扩散模型Diffusion等这些热点生成类模型进行工作，模型生成内容的流程越发偏向于自动化与智能化，已经有了从噪声生成或者从语言描述中生成二维图像的工作。虽然这类工作越发成熟和完善，但仍有一些问题存在，一方面，模型生成具有不确定性，即给定不同输入得到的输出并无规律可循，可能相差甚远，难以做到在三维上具有物理意义的可控生成；另一方面，对于特定的场景描述，模型生成无法得到较为满意的结果，只做到了简单场景下的单物体生成。

在这样的大环境大背景之下，随着人工智能发展，三维场景的构建与提出对应数据集的需求逐渐强烈，但目前仅有少数领域如SLAM方向的数据集具有对应的语义信息标注，而越来越多的生成任务以及底层任务，更需要进行场景精细化构建以及精细化三维重建。

目前对于人工智能、计算机视觉的研究，也已逐渐从图像颜色、纹理信息等等低表征维度上的信息逐步提升到高维度的物体的部分识别，包括物体的宏观类别、所处位置，到物体间关系，物体自身的属性信息。通过场景图标注可以很清晰表示场景内物体的自身属性以及物体间位置关系，而目前此类方法标注通常依赖于人工，且已有数据集中也很少有大批量准确的场景图语义标注。

发明内容

本发明提供了一种虚拟场景数据标注生成方法，不仅可以通过采用仿真平台半自动布局，对场景搭建自主可控。另一方面，可以实现在仿真环境中复现在真实场景中由于各种原因约束难以获取的困难样本以及创造并不存在的样本。

为解决上述发明目的，本发明提供的技术方案如下：一种虚拟场景数据标注生成方法，其特征在于，步骤包括：

一种虚拟场景数据标注生成方法，其特征在于，步骤包括：

S1：通过半自动布局物体的方式，对素材进行导入并对场景进行搭建；其中所述素材包括纹理图像数据、三维模型数据；

S2：在搭建好的场景中布设摄像机，通过所述摄像机进行场景与导入素材的交互；其中，所述摄像机通过自动脚本或键盘键入信息进行控制；

S3：对场景中导入的素材进行目标物体识别，控制摄像机进行目标物体的纹理图像数据的捕获；对目标物体遮挡率进行计算以及自动标注；基于所述三维模型数据，对自动标注后的目标物体进行三维模型导出，完成虚拟场景数据标注生成。

优选地，步骤S1中，通过半自动布局物体的方式，对素材进行导入并对场景进行搭建，包括：

对素材进行划分，划分种类包括：静态素材以及动态素材；

将所述静态素材从建模软件或虚幻引擎素材库中导入；

将所述动态素材通过场景编辑器进行自动布局，或对所述动态素材进行编辑规则区域，在运行中动态布局并进行场景搭建。

优选地，自动布局，包括：

在程序初始化生成场景的部分添加自动布局生成模块；对不同类型的动态素材进行规则集设定；

通过所述自动布局生成模块，根据所述规则集以及预设的布局数据，随机生成目标物体的位置；其中，所述目标物体为动态素材中的任一物体；

对程序进行参数设定；其中，所述参数设定包括：在编辑器页面设定要生成的目标物体引用、生成数目以及约束规则；

其中，所述约束规则包括：根据程序编码生成的符合行车或行走规则的约束规则；

根据设定好的程序，运行程序初始化生成场景的自动布局生成模块，进行自动布局。

优选地，步骤S3中，对场景中导入的素材进行目标物体识别，控制摄像机进行目标物体的纹理图像数据的捕获；对目标物体进行自动标注以及遮挡率计算；对自动标注后的目标物体进行三维模型导出，完成虚拟场景数据标注生成，包括：

通过所述摄像机捕获场景中RGB图像，所述RGB图像包括：语义分割图与实例分割图；根据路径追踪算法生成语义分割图与实例分割图的自动标注；

根据遮挡率算法对每个目标物体进行遮挡率计算，获得遮挡关系；根据场景中多个目标物体的坐标信息以及所述遮挡关系对目标物体间关系进行计算，获得场景图标注；

根据预先设定的导出选项，自动导出三维模型或手动选择需要导出的场景，将整个场景的大场景网格模型导出，完成虚拟场景数据标注生成。

优选地，所述通过所述摄像机捕获场景中RGB图像，所述RGB图像包括：语义分割图与实例分割图；根据路径追踪算法生成语义分割图与实例分割图的自动标注，包括：

获取程序初始化生成场景中的目标物体，通过所述摄像机对所述目标物体进行自动化捕获场景中RGB图像，或通过手动控制所述摄像机观察场景中的角色，并移动到合适角度捕获场景中RGB图像；所述RGB图像包括：语义分割图与实例分割图；

将捕获的RGB图像通过虚幻引擎API渲染到渲染目标RT中，并保存为图像文件；

基于路径追踪算法，获取所述图像文件中场景图像分辨率中的每一个像素点，根据路径追踪算法对所述每一个像素点进行射线求交操作，将射线求交后的每一个像素点都保存为标签图像文件，生成语义分割图与实例分割图的自动标注。

优选地，基于路径追踪算法，获取所述图像文件中场景图像分辨率中的每一个像素点，根据路径追踪算法对所述每一个像素点进行射线求交操作，将射线求交后的每一个像素点都保存为标签图像文件，生成语义分割图与实例分割图的自动标注，包括：

对于目标物体的语义分割图，从所述摄像机点出发，向语义分割图中每个像素点位置进行射线求交操作；若与某一物体相交，则查看所述物体是否已分配颜色，若没有则记录所述物体以及所述物体对应的颜色，以供后续同一物体置为同一颜色；若没有与任何物体相交，则此像素点无物体，默认为黑色；将每个像素点赋值后存储为与捕获的RGB图像同样大小的标签图像文件；

对于目标物体的实例分割图，从所述摄像机点出发，向要存储的图像中每个像素点位置进行射线求交操作，在射线求交时忽略整个场景中除目标物体外的所有物体；将每个像素点赋值后存储为与捕获的RGB图像同样大小的标签图像文件。

优选地，根据遮挡率算法对每个目标物体进行遮挡率计算；包括：

根据目标物体的label标签计算出其总面积大小，通过与场景中其余物体进行求交运算，判断前后位置：

（1）

其中，S_covered为被遮挡物体面积，S_{cover_i}表示第i个物体的遮挡物体面积，而S_cover∩S_covered表示两者中有所遮挡的部分，而结果S_{cover_rate_i}为第i个物体对总遮挡的贡献率；

将场景图像与目标物体mask求交的图像表示为目标物体像素的面积表示为S_{visible_covered}；将S_{visible_covered}与被遮挡物体面积S_covered求比例，表示为总未被遮挡率；将总未被遮挡率与公式（1）求差后则为总遮挡率S_{total_covered}：

（2）。

优选地，根据场景中多个目标物体的坐标信息以及遮挡关系对物体间关系进行计算，获得场景图标注，包括：

根据遮挡率计算结果以及RGB图像捕获结果，对每个目标物体分别用对应的实例分割图作为基准图像，逐像素点进行扫描计算遮挡关系，获得物体间关系，生成场景图数据标注信息。

一种虚拟场景数据标注生成系统，所述系统用于上述的虚拟场景数据标注生成，所述系统包括：

素材导入模块，用于通过半自动布局物体的方式，对素材进行导入并对场景进行搭建；其中所述素材包括纹理图像数据、三维模型数据；

交互模块，用于在搭建好的场景中布设摄像机，通过所述摄像机进行场景与导入素材的交互；其中，所述摄像机通过自动脚本或键盘键入信息进行控制；

自动标注及导出模块，用于对场景中导入的素材进行目标物体识别，控制摄像机进行目标物体的纹理图像数据的捕获；对目标物体遮挡率进行计算以及自动标注；基于所述三维模型数据，对自动标注后的目标物体进行三维模型导出，完成虚拟场景数据标注生成。

优选地，素材导入模块，进一步用于：

对素材进行划分，划分种类包括：静态素材以及动态素材；

将所述静态素材从建模软件或虚幻引擎素材库中导入；

一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述虚拟场景数据标注生成方法。

一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述虚拟场景数据标注生成方法。

上述技术方案，与现有技术相比至少具有如下有益效果：

上述方案，本发明通过采用仿真平台半自动布局，对场景搭建自主可控。本发明的输出标注信息涵盖图像、标签、掩码、场景目标信息、场景图（语义化场景描述）信息、甚至可以提供场景中特定物体的三维顶点模型以及整个场景合而为一的大场景顶点模型，满足较为传统且更大众的二维图像的同时，同时也可以支持更新的研究方向更广阔的需求。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种虚拟场景数据标注生成方法的流程示意图;

图2为本发明实施例中的自动布局方法流程图；

图3为本发明实施例中的图像数据捕获生成算法流程图；

图4为本发明实施例中的复杂遮挡图像数据生成系统模块图；

图5为本发明实施例中的三维模型文件导出方法流程图；

图6为本发明实施例中的仿真环境数据生成方法流程图；

图7为本发明实施例中的场景图数据标注生成方法流程图；

图8为本发明实施例中一种虚拟场景数据标注生成系统的系统框图；

图9为本发明实施例中的系统工作示意图；

图10为本发明实施例的电子设备示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明在仿真环境中复现在真实场景中由于各种原因约束难以获取的困难样本以及创造并不存在的样本的问题，提供了一种虚拟场景数据标注生成方法。

如图1所示，本发明实施例提供了一种虚拟场景数据标注生成方法，流程如下：

S101：通过半自动布局物体的方式，对素材进行导入并对场景进行搭建；其中所述素材包括纹理图像数据、三维模型数据；

一种可行的实施方式中，步骤S101中，通过半自动布局物体的方式，对素材进行导入；通过半自动布局物体的方法，对场景进行搭建，包括：

对素材进行划分，划分种类包括：静态素材以及动态素材；

将所述静态素材从建模软件活虚幻引擎素材库中导入；

将所述动态素材通过场景编辑器进行自动布局，或对所述动态素材进行编辑规则区域，在运行中动态布局。

一种可行的实施方式中，首先是对于场景中物体的划分问题。对于场景中如城市场景中的街道、高楼大厦此种类型的静态物体，我们采用从已有建模软件中导入或是从虚幻引擎素材库中导入；而对于动态物体或是场景中可以随时更改位置的静态物体如行人、车、栏杆、路障此类物体，可以通过场景编辑器中自动布局或者编辑规则区域在运行中动态布局。静态布局可以通过拖拽方法可视化预先布局，而自动布局可以在运行之前编码规则后在系统开始运行时初始化过程中布局对应物体后开始数据采集工作。

一种可行的实施方式中，自动布局，包括：

其中，约束规则包括：根据程序编码生成的符合行车或行走规则的约束规则；

一种可行的实施方式中，设置的参数为要自动布局的物体相关信息，包括物体种类以及数量，在引擎中一个物体以蓝图形式保存引用，本发明中表述为“目标物体引用”。

一种可行的实施方式中，规则由程序编码确认：在城市场景中，车会停靠于道路两边、车身方向沿道路延展方向，因此自动布局时生成的车辆会受到此约束（如果手工搭建复杂场景可以不使用自动布局功能）；类似的，行人大多在人行道、斑马线以及道路两侧上行走，因此自动布局时生成的行人也会受此约束。在底层实现中本发明将这些约束规则做了代码表示与实现，因此称此处自动布局时目标物体约束规则可以设置（是车的约束、人的约束或者其余约束）。

一种可行的实施方式中，自动布局方法实现为：自动布局实现流程如图2所示在目前的情况中大部分物体都约束在地面上或者其余物体之上，因此只需要确定物体布局所处的二维平面位置即可。对于城市场景，我们约束了车的布局位置为道路位置，以及路边停车场地，而行人布局位置可以为路边行人道路、以及车道斑马线等等符合现实世界约束的区域。当然此部分约束条件同时可以通过自定义规则进行扩充，如车的旋转方向一定为沿着道路，人面对方向同样沿着道路方向等。此布局方法也支持非地面物体的布局，仅需要在约束区域中由二维扩展到三维区域即可。

S102：在搭建好的场景中布设摄像机，通过摄像机进行场景与导入素材的交互；其中，摄像机通过自动脚本或键盘键入信息进行控制。

S103：对场景中导入的素材进行目标物体识别，控制摄像机进行目标物体的纹理图像数据的捕获；对目标物体遮挡率进行计算以及自动标注；基于三维模型数据，对自动标注后的目标物体进行三维模型导出，完成虚拟场景数据标注生成。

一种可行的实施方式中，通过所述摄像机捕获场景中RGB图像，根据路径追踪算法生成语义分割图与实例分割图的自动标注；

根据遮挡率算法对每个目标物体进行遮挡率计算；根据场景中多个目标物体的坐标信息以及遮挡关系对物体间关系进行计算，获得场景图标注；

根据预先设定，自动导出三维模型或手动选择需要导出的场景将整个场景的大场景网格模型导出，完成虚拟场景数据标注生成。

一种可行的实施方式中，软件运行前的设定，设定导出方式为自动导出则自动生成模型文件；或者手动选择需要导出的场景进行导出。

一种可行的实施方式中，对导入的素材进行图像数据的捕获和自动标注，包括：

获取程序初始化生成场景中的目标物体，对所述目标物体进行自动化捕获，或通过手动控制所述摄像机观察场景中角色移动到合适角度，捕获场景；

将捕获的RGB图像通过虚幻引擎API渲染到渲染目标RT中，保存为图像文件；

对所述图像文件中场景图像分辨率中的每一个像素点，进行射线求交操作，将射线求交后的每一个像素点都保存为标签图像文件。

优选地，对场景图像分辨率中的每一个像素点，进行光线求交操作后保存为新的图像文件，包括：

对于某一目标物体的语义分割图，从摄像机点出发，向语义分割图中每个像素位置进行射线求交操作；若与某一物体相交，则查看此物体是否已分配颜色，若没有则记录此物体以及此物体对应的颜色，以供后续同一物体置为同一颜色；若没有与物体相交，则此像素无物体，默认为黑色；将每个像素赋值后存储为与捕获的RGB图像同样大小的标签图像文件；

对于某一目标物体的单独实例分割图，从摄像机点出发，向要存储的图像中每个像素位置进行射线求交操作，在射线求交时忽略整个场景中除目标物体外的所有物体；将每个像素赋值后存储为同样大小的标签图像文件。

一种可行的实施方式中，本发明在场景中实例化了一个控制对象来在模拟过程中通过手动或脚本自动控制此对象来捕获场景。此控制对象下挂载了一个虚拟摄像机以实现对场景的实例与分割图进行绘制。在控制运动方面，此对象基础了基础角色类，实现了基础的角色移动与视角旋转，同时也支持通过脚本代码对此对象行为进行控制，因此可以实现手动控制与脚本自动控制采集数据两种方式。而对于场景数据的获取，发明通过虚幻引擎API进行实现，具体实现如图3所示，在场景初始化完成后，对控制对象进行初始化，初始化过程中获取到场景中所有标定为目标类型的物体，将其引用存储在对象中，后续捕获场景信息过程中可以直接使用初始化的引用对象而不需要实时寻找目标对象，以此设计实现了实时高效场景信息捕获。

在使用捕获功能时，手动捕获时候通过将编写的捕获函数绑定到键盘按键输入来调用对应功能，而自动捕获时在编写的脚本中对应时间调用功能函数实现捕获即可。捕获场景信息功能包括图像信息与数据信息两种。图像信息中的RGB图像信息可以由虚幻引擎API直接获取，而其余对于目标物体的单独标注图像渲染使用虚拟相机进行渲染单个目标物体，就需要初始化过程中所保存的目标物体的引用渲染。其具体mask图像以及语义分割图label的实现算法描述如图3所示。

整个发明软件的组成模块以及大致流程如图4所示。组成模块以及使用流程大致为，首先由场景模型的搭建，然后再到达目标物体模型的导入，再经过控制模块布局目标物体，再通过引擎自带的环境模块设置环境设置环境信息后，启动仿真进行数据捕获后，通过捕获模块将采集到的带标注数据输出存储到本地。

一种可行的实施方式中，本发明所采集保存的数据信息有：场景的RGB图像，场景目标物体的标签蒙版图，场景对应目标物体元数据信息的json文件以及通过调用python脚本实现的以规则为依据的场景图信息json文件，以及一些并不对应于某一个场景数据而是对于数据集整体标识的三维模型文件，以及对于场景中所有目标物体作为一个整体的模型文件。三维模型导出的方法有多种不同的方式，具体实现方法如图5所示。

其中不同的方法所存储的不同格式与内容的三维模型数据有着不同的用处。单个物体的模型文件可以用于对单物体生成模型的训练做支撑。而对于场景模型可以用于为三维重建模型的训练做支持。不同的三维模型数据导出可以对构建更为冗余鲁棒的数据集提供支持。

S103：对导入的素材的目标物体遮挡率进行计算以及自动标注；对处理后的素材进行三维模型导出，完成虚拟场景数据标注生成。

一种可行的实施方式中，步骤S103中，对导入的素材的目标物体遮挡率进行计算，包括：

根据目标物体的label计算出其总面积大小，通过与场景中其余物体进行求交运算，判断前后位置：

（1）

一种可行的实施方式中，遮挡贡献率作为数据标注的一部分，也可以用来判断物体间位置关系，在后续场景图信息生成时候使用。

通过最终成像场景图像与此物体mask求交的图像中为此物体像素的面积表示为Svisible_covered,将其与总面积求比例，则此为总未被遮挡率，与1求差后则为总遮挡率S_{total_covered}：

（2）。

一种可行的实施方式中，步骤S103中，对导入的素材的目标物体自动标注，包括：

根据遮挡率计算结果以及图像捕获结果，对每个物体分别用其对应的实力分割图作为基准图像，逐像素进行扫描计算，计算出遮挡关系，生成数据标注信息。

一种可行的实施方式中，对于目标物体的遮挡率，本发明中给出了精确的计算结果。在许多已有的数据集中常常很少关注物体的遮挡情况以及遮挡程度，而遮挡率以及遮挡关系在目标的识别与检测中也有着很大的影响，因此我们通过采用一个朴素的计算方法给出了场景中对于某物体的遮挡率。

对于物体遮挡率，针对的是某一个图像实例中该物体遮挡率的计算。在图像中，首先根据目标物体的label计算出其总面积大小，再通过与场景中其余物体进行求交运算，判断前后位置，对成像后确实有遮挡的部分计算贡献，计算方法如下：

其中，Scovered为被遮挡物体面积，Scover表示遮挡物体面积，而Scover∩Scovered表示两者中有所遮挡的部分。以此方法可以分别算出每一个遮挡物体对被遮挡物体的遮挡率贡献。然后通过最终成像场景图像与此物体mask求交的图像中为此物体像素的面积表示为Svisible_covered,将其与总面积求比例，则此为总未被遮挡率，与1求差后则为总遮挡率，计算方法如下：

遮挡关系由物体的遮挡方式、位置、距离决定。遮挡关系可以根据生成数据中物体间遮挡信息中物体列表查询分为：同类物体之间遮挡，不同类物体之间的遮挡，互遮挡类型。具体的遮挡率计算方法如图6所示。

场景图数据在可视化后显示为一个图结构的数据，而其主要的难点在于对于图像的理解。如图中车之间的位置关系，人与车的关系，如何将其准确描述出来。而我们的场景图生成主要关注于目标物体之间的关系，这些目标物体之间的信息与图像中的关系已经由捕获时的程序给出，因此省去了此部分的困难工作。而另一方面，物体间的关系种类多种多样导致目前的场景图数据难以使用，如VG数据集中和进一步挑选主要的五十个关系后出现的VG50数据集。我们主要关注于目标物体之间的位置信息，并选择出数个最主要的物体间关系，通过数据集采集完成后调用python脚本根据已有的信息生成对应的场景图数据。

假设描述场景信息的场景图为G，是一个有向图结构，而G可以被定义为，其中O为一个物体的集合，可以有人，车，物品，树等等不同类型，而且可以定义内部的属性，如人的身高体重年龄作为补充，可以在数据集中有选择的使用。因此每个物体的格式，其中c是该对象的类别，而A是该对象所拥有的属性。再定义R为物体间的关系，如一个物体在另一个物体旁边，一个物体拥有另一个物体。最后定义场景图中的边E为。通过这样的一个结构化数据，场景图通常与图像数据集相关联，但不与图像相关联;所以它只是描述了一个可以被图像描绘的场景。然而，场景图的一部分可以通过将每个对象实例与图像中的一个区域相关联而根植于图像。场景图对场景的语义特征具有强大的表示能力，有利于广泛的视觉任务。

在本发明方法中，场景图的定义与描述和我们所需要的功能恰好十分贴切。对比场景图的定义，对于场景中的所有目标物体，我们都可以查询到其物体，而且物体中的所有属性，以及物体在场景中的位置信息都可以查询到。而本发明中对于场景图的生成方法同样基于规则：对于某两个物体间的关系，预设了许多不同种类的关系。本发明抽象出了数个关系以描述物体间的空间位置以及图像中所展示出的位置关系。其中，每一个种类的关系有一个判断条件：如A物体与B物体关系为behind，则对此关系的评分为AB物体间的距离的反比以及图像中AB间存在的互相间的遮挡关系的代数和，由此得出AB物体间behind关系的得分，遍历所有关系评分后将AB间关系赋值为分数最高的关系，而若是所有评分都低于某一阈值，则认为此两种物体之间不存在关系。具体的场景图数据生成算法如图7所示。

本发明实施例中，相较于同类的其余技术产品，一类与本发明操作相类似，但是缺乏自动布局功能接口，且并无场景图标注类型的高层级语义输出，无法紧跟仿真数据集随着深度学习研究发展深入后的更高要求；另一类产品为辅助人工标注的产品，虽然可以与本发明同样定位，对图像信息构造高层级语义信息，但是为对二维图像的理解，且需要人工标注无法自动输出。

采用本发明操作简单，基于虚幻引擎的编辑器（也可导出可执行文件包方便移植到未安装虚幻引擎的机器使用），易用性强，自由度高。

本发明的输出标注信息涵盖图像、标签、掩码、场景目标信息、场景图（语义化场景描述）信息、甚至可以提供场景中特定物体的三维顶点模型以及整个场景合而为一的大场景顶点模型，满足较为传统且更大众的二维图像的同时，同时也可以支持更新的研究方向更广阔的需求。

对于生成不可控不可解释、困难样本获取部分，采用场景搭建以及半自动的生成和支持手动与半自动采集。

图8是本发明的一种虚拟场景数据标注生成系统示意图，所述系统200用于上述的虚拟场景数据标注生成，所述系统200包括：

素材导入模块210，用于通过半自动布局物体的方式，对素材进行导入；通过半自动布局物体的方法，对场景进行搭建；其中所述素材包括纹理图像数据、三维模型数据；

交互模块220，用于在搭建好的场景中布设摄像机，通过所述摄像机进行场景与导入素材的交互；其中，所述摄像机通过自动脚本或键盘键入信息控制；

自动标注及导出模块230，用于对场景中导入的素材进行目标物体识别，控制摄像机进行目标物体的纹理图像数据的捕获；对目标物体遮挡率进行计算以及自动标注；基于三维模型数据，对自动标注后的目标物体进行三维模型导出，完成虚拟场景数据标注生成。

优选地，素材导入模块210，进一步用于：

对素材进行划分，划分种类包括：静态素材以及动态素材；

将所述静态素材从建模软件或虚幻引擎素材库中导入；

优选地，素材导入模块210，进一步用于：

自动布局，包括：

优选地，自动标注及导出模块230，进一步用于通过所述摄像机捕获场景中RGB图像，所述RGB图像包括：语义分割图与实例分割图；根据路径追踪算法生成语义分割图与实例分割图的自动标注；

优选地，自动标注及导出模块230，进一步用于获取程序初始化生成场景中的目标物体，通过所述摄像机对所述目标物体进行自动化捕获场景中RGB图像，或通过手动控制所述摄像机观察场景中的角色，并移动到合适角度捕获场景中RGB图像；所述RGB图像包括：语义分割图与实例分割图；

优选地，自动标注及导出模块230，进一步用于对于目标物体的语义分割图，从所述摄像机点出发，向语义分割图中每个像素点位置进行射线求交操作；若与某一物体相交，则查看所述物体是否已分配颜色，若没有则记录所述物体以及所述物体对应的颜色，以供后续同一物体置为同一颜色；若没有与任何物体相交，则此像素点无物体，默认为黑色；将每个像素点赋值后存储为与捕获的RGB图像同样大小的标签图像文件；

优选地，自动标注及导出模块230，进一步用于根据目标物体的label标签计算出其总面积大小，通过与场景中其余物体进行求交运算，判断前后位置：

（1）

（2）。

优选地，自动标注及导出模块230，进一步用于根据遮挡率计算结果以及RGB图像捕获结果，对每个目标物体分别用对应的实例分割图作为基准图像，逐像素点进行扫描计算遮挡关系，获得物体间关系，生成场景图数据标注信息。

本发明的输出标注信息涵盖图像、标签、掩码、场景目标信息、场景图（语义化场景描述）信息、甚至可以提供场景中特定物体的三维顶点模型以及整个场景合而为一的大场景顶点模型，满足较为传统且更大众的二维图像的同时，同时也可以支持更新的研究方向更广阔的需求。如图9所示，采用本发明操作简单，基于虚幻引擎的编辑器（也可导出可执行文件包方便移植到未安装虚幻引擎的机器使用），易用性强，自由度高。

图10是本发明实施例提供的一种电子设备300的结构示意图，该电子设备300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（centralprocessing units，CPU）301和一个或一个以上的存储器302，其中，所述存储器302中存储有至少一条指令，所述至少一条指令由所述处理器301加载并执行以实现下述虚拟场景数据标注的方法的步骤：

S1：通过半自动布局物体的方式，对素材进行导入；通过半自动布局物体的方法，对场景进行搭建；其中所述素材包括纹理图像数据、三维模型数据；

S2：在搭建好的场景中布设摄像机，通过所述摄像机进行场景与导入素材的交互；其中，所述摄像机通过自动脚本或键盘键入信息控制；

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上虚拟场景数据标注生成方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

Claims

1.一种虚拟场景数据标注生成方法，其特征在于，步骤包括：

2.根据权利要求1所述的方法，其特征在于，步骤S1中，通过半自动布局物体的方式，对素材进行导入并对场景进行搭建，包括：

对素材进行划分，划分种类包括：静态素材以及动态素材；

将所述静态素材从建模软件或虚幻引擎素材库中导入；

3.根据权利要求2所述的方法，其特征在于，所述自动布局，包括：

4.根据权利要求3所述的方法，其特征在于，所述步骤S3中，对场景中导入的素材进行目标物体识别，控制摄像机进行目标物体的纹理图像数据的捕获；对目标物体进行自动标注以及遮挡率计算；对自动标注后的目标物体进行三维模型导出，完成虚拟场景数据标注生成，包括：

5.根据权利要求4所述的方法，其特征在于，所述通过所述摄像机捕获场景中RGB图像，所述RGB图像包括：语义分割图与实例分割图；根据路径追踪算法生成语义分割图与实例分割图的自动标注，包括：

6.根据权利要求5所述的方法，其特征在于，基于路径追踪算法，获取所述图像文件中场景图像分辨率中的每一个像素点，根据路径追踪算法对所述每一个像素点进行射线求交操作，将射线求交后的每一个像素点都保存为标签图像文件，生成语义分割图与实例分割图的自动标注，包括：

对于目标物体的语义分割图，从摄像机点出发，向语义分割图中每个像素点位置进行射线求交操作；若与某一物体相交，则查看所述物体是否已分配颜色，若没有则记录所述物体以及所述物体对应的颜色，以供后续同一物体置为同一颜色；若没有与任何物体相交，则此像素点无物体，默认为黑色；将每个像素点赋值后存储为与捕获的RGB图像同样大小的标签图像文件；

7.根据权利要求5所述的方法，其特征在于，所述根据遮挡率算法对每个目标物体进行遮挡率计算；包括：

（1）

（2）。

8.根据权利要求6所述的方法，其特征在于，所述根据场景中多个目标物体的坐标信息以及遮挡关系对物体间关系进行计算，获得场景图标注，包括：

9.一种虚拟场景数据标注生成系统，其特征在于，所述系统用于如权利要求1~8任意一项所述的虚拟场景数据标注生成方法，所述系统包括：

10.根据权利要求9所述的系统，其特征在于，所述素材导入模块，进一步用于：

对素材进行划分，划分种类包括：静态素材以及动态素材；

将所述静态素材从建模软件或虚幻引擎素材库中导入；