CN112150575B

CN112150575B - 场景数据获取方法及模型训练方法、装置及计算机设备

Info

Publication number: CN112150575B
Application number: CN202011194459.1A
Authority: CN
Inventors: 罗茜; 赵明国; 熊友军
Original assignee: Ubtech Robotics Corp
Current assignee: Ubtech Robotics Corp
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2023-09-01
Anticipated expiration: 2040-10-30
Also published as: US11461958B2; US20220139027A1; CN112150575A

Abstract

本发明实施例公开了场景数据获取方法及模型训练方法、装置及计算机设备，其中方法包括：搭建实际场景对应的虚拟仿真场景，其中，所述虚拟仿真场景为三维场景；确定预设视角在所述虚拟仿真场景内对应的视锥空间；利用所述预设视角对应的视锥空间采集所述虚拟仿真场景内的二维图像及图像关联的特征真实值；将全部所述二维图像及图像关联的特征真实值作为所述实际场景对应的场景数据。该方法的数据采集无需人工标注，节省了大量时间及资金。该数据可用于基于深度学习的感知模型训练，且可将该模型用于真实应用场景，具有广泛的适用性。

Description

场景数据获取方法及模型训练方法、装置及计算机设备

技术领域

本发明涉及数据处理领域，尤其涉及一种场景数据获取方法及模型训练方法、装置、及计算机设备。

背景技术

基于深度学习的机器人感知应用需要采集大量真实数据，通过模型训练及推理，来完成物体识别、目标检测与追踪、语义分割等任务。其中基于图像的感知任务需要采集大量在真实的应用场景中，不同光照、被识别物体不同颜色及纹理、不同拍摄视角下的图片。

缺乏大量包含多样性的图像数据将严重影响机器人完成诸如物体识别、目标检测等感知任务。传统人工采集图像的方法，耗费大量的资金与实践，非常费时费力。同时由于人力的介入，不可避免的会存在采集图像可用性较低，从而影响感知任务的完成度。

可见，现有的图像获取方法存在获取难度较大、成本较高且数据可用率较低的技术问题。

发明内容

本公开实施例提供一种场景数据获取方法及模型训练方法、装置及计算机设备，至少解决上述部分技术问题。

第一方面，本公开实施例提供了一种场景数据获取方法，所述方法包括：

搭建实际场景对应的虚拟仿真场景，其中，所述虚拟仿真场景为三维场景；

确定预设视角在所述虚拟仿真场景内对应的视锥空间；

利用所述预设视角对应的视锥空间采集所述虚拟仿真场景内的二维图像及图像关联的特征真实值；

将全部所述二维图像及图像关联的特征真实值作为所述实际场景对应的场景数据。

根据本公开的一种具体实现方式，所述利用所述预设视角对应的视锥空间采集所述虚拟仿真场景内的二维图像及图像关联的特征真实值的步骤，包括：

在所述虚拟仿真场景内，提取位于所述视锥空间内的目标像素点及各目标像素点的特征数据；

根据所述视锥空间内的目标像素点及各目标像素点的特征数据，确定所述预设视角对应的二维图像及图像关联的特征真实值。

根据本公开的一种具体实现方式，所述确定所述预设视角在所述虚拟仿真场景内对应的视锥空间的步骤，包括：

定位用于采集二维图像的虚拟相机所在的位置；

将所述虚拟相机所在的位置作为原点，根据所述虚拟相机的相机平面边缘线确定X轴和Y轴，将所述预设视角的中心轴线作为Z轴建立相机坐标系；

在所述相机坐标系中，以所述虚拟相机所在的位置为所述视锥空间的原点，根据所述虚拟相机的相机平面和所述预设视角确定所述视锥空间对应的空间范围。

根据本公开的一种具体实现方式，所述根据所述视锥空间内的目标像素点及各目标像素点的特征数据，确定所述预设视角对应的二维图像及图像关联的特征真实值的步骤，包括：

确定所述虚拟相机在所述视锥空间内的成像平面；

将所述视锥空间内的全部目标像素点均投影到所述成像平面，得到特征叠加之后的像素点集合作为所述二维图像，并利用各目标像素点的特征数据获取图像关联的特征真实值。

根据本公开的一种具体实现方式，所述将所述视锥空间内的全部目标像素点均投影到所述成像平面，得到特征叠加之后的像素点集合作为所述二维图像，并利用各目标像素点的特征数据获取图像关联的特征真实值的步骤，包括：

检测所述视锥空间内每个物体对应的全部边界顶点；

将所述物体的全部边界顶点投影到所述成像平面上，得到所述物体对应的投影区域；

根据所述物体对应的投影区域，确定所述物体对应的边界框，并形成所述二维图像的特征真实值；

所述将所述视锥空间内的全部目标像素点均投影到所述成像平面，得到特征叠加之后的像素点集合，作为所述二维图像的步骤之后，所述方法还包括：

在所述二维图像中所述物体的边界框上添加所述物体的真实值标签。

根据本公开的一种具体实现方式，所述搭建实际场景对应的虚拟仿真场景的步骤，包括：

获取所述实际场景内的布景因素，其中，所述布景因素包括环境因素、物体因素和光照因素；

根据所述环境因素和所述物体因素，搭建所述实际场景对应的虚拟仿真场景；

根据所述光照因素，对所述虚拟仿真场景进行图形化渲染。

根据本公开的一种具体实现方式，所述利用所述预设视角对应的视锥空间采集所述虚拟仿真场景内的二维图像及图像关联的特征真实值的步骤之后，所述方法还包括：

采用结构性领域随机化技术对所述虚拟仿真场景内的布景因素进行随机化处理，其中，随机化处理的依据包括全局变量、机器人的运动轨迹、虚拟相机相对机器人的自由度、不同移动物体出现在机器人本体运动轨迹中的任一种；

再次采集所述虚拟仿真场景内的二维图像及图像关联的特征真实值。

第二方面，本公开实施例还提供了一种模型训练方法，利用第一方面中任一项所述的场景数据获取方法获取的场景数据进行模型训练；所述方法包括：

利用全部所述二维图像及图像关联的特征值训练基础卷积神经网络，得到机器人视觉感知模型；

将所述机器人视觉感知模型加载到实际场景中的机器人。

根据本公开的一种具体实现方式，所述将所述机器人视觉感知模型加载到实际场景中的机器人的步骤之后，所述将所述机器人视觉感知模型加载到实际场景中的机器人的步骤之后，所述方法还包括：

采集所述实际场景中的真实图像；

利用所述真实图像及标注数据作为训练数据再次训练所述机器人视觉感知模型，得到优化后的机器人视觉感知模型。

第三方面，本公开实施例提供了一种场景数据获取装置，所述装置包括：

搭建模块，用于搭建实际场景对应的虚拟仿真场景，其中，所述虚拟仿真场景为三维场景；

确定模块，用于确定预设视角在所述虚拟仿真场景内对应的视锥空间；

采集模块，用于以预设视角分别采集所述虚拟仿真场景内的二维图像及图像关联的特征真实值；

处理模块，用于将全部所述二维图像及图像关联的特征真实值作为所述实际场景对应的场景数据。

第四方面，本公开实施例还提供了一种模型训练装置，利用第一方面中任一项所述的场景数据获取方法获取的场景图像及图像关联的特征真实值进行模型训练；所述模型训练装置包括：

训练模块，用于利用全部所述二维图像及图像关联的特征真实值训练基础卷积神经网络，得到机器人视觉感知模型；

加载模块，用于将所述机器人视觉感知模型加载到实际场景中的机器人。

第五方面，本公开实施例提供了一种计算机设备，包括存储器以及处理器，所述存储器均与所述处理器连接，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述计算机设备执行第一方面中任一项所述的场景数据获取方法。

第六方面，本公开实施例提供了一种计算机可读存储介质，其存储有第二方面所述的计算机设备中所用的计算机程序。

上述本公开实施例提供的场景数据获取方法及模型训练方法、装置及计算机设备，通过利用仿真三维游戏引擎等手段生成高保真的虚拟仿真场景，并利用仿真视觉传感器采集合成图像，并自动进行标注的数据采集及生成方法。该方法的数据采集无需人工标注，节省了大量时间及资金。该数据可用于基于深度学习的感知模型训练，且可将该模型用于真实应用场景，具有广泛的适用性。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对本发明保护范围的限定。在各个附图中，类似的构成部分采用类似的编号。

图1为本公开实施例提供的一种场景数据获取方法的流程示意图；

图2为本公开实施例提供的场景数据获取方法所涉及的虚拟仿真场景的示意图；

图3至图5为本公开实施例提供的场景数据获取方法所涉及的虚拟相机对应的视锥空间的示意图；

图6至图9为本公开实施例提供的场景数据获取方法所涉及的虚拟仿真场景的部分示意图；

图10为本公开实施例提供的场景数据获取方法所涉及的相机平面的示意图；

图11和图12为本公开实施例提供的场景数据获取方法所涉及的虚拟仿真场景的部分示意图；

图13和图14为本公开实施例提供的场景数据获取方法及模型训练方法的合并流程示意图；

图15为本公开实施例提供的场景数据获取装置的模块框图；

图16为本公开实施例提供的模型训练装置的模块框图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

在下文中，可在本发明的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合，并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。

此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

除非另有限定，否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义，除非在本发明的各种实施例中被清楚地限定。

实施例1

参见图1，为本公开实施例提供的一种场景数据获取方法的流程示意图。如图1所示，所述方法包括：

S101，搭建实际场景对应的虚拟仿真场景，其中，所述虚拟仿真场景为三维场景；

本实施例提供的场景数据获取方法，用于获取多视角的场景图像，所涉及的场景可以包括学校、餐厅、商场、工厂等场景。所获取的场景图像及图像关联的特征真实值等场景数据可以用于神经网络模型的训练过程，例如用于训练机器人的视觉感知模型等。

具体的，在进行场景数据获取时，可以先确定待感知的实际场景，再搭建该实际场景对应的虚拟仿真场景，直接在虚拟仿真场景中获取场景图像及图像关联的特征真实值，优化实际场景中人工或者机器人采集图像的高成本和低效率问题。需要说明的是，这里所涉及的实际场景与虚拟仿真场景之间的对应关系可以是类型对应关系，例如同为运动场景、餐厅场景、商场场景、学校场景、工厂场景等，并不限定实际场景与虚拟仿真场景中的环境、物体、光照等布景因素完全对应。

在搭建虚拟场景时，优选利用游戏三维引擎进行场景搭建。其中，游戏三维引擎是包括三维图形的各种算法整合起来，提供便捷的软件开发工具包(Software DevelopmentKit，简称SDK)接口或者插件(Plugin)接口以方便别人在这个基础上开发游戏及功能的模块。三维游戏引擎还包括声音、图形、物理、人工智能等多种开发功能。在构建完基础的三维场景之后，还可以按照环境光照、物体材质、模型面数及图形化渲染参数等渲染三维场景，生成包含颜色与阴影的更真实的虚拟仿真场景。

随着计算机图形学计算基数的发展，三维游戏引擎利用光线追踪等算法来模拟实际场景中的光线的物理特性，能够做到物理上精确的阴影、反射和折射以及全局光照，构建出更逼真的光影效果。具体的，将各种物体模型导入三维场景，即可通过图形化渲染得到虚拟仿真场景。使用三维游戏引擎搭建的静态虚拟仿真场景可以如图2所示。

S102，确定预设视角在所述虚拟仿真场景内对应的视锥空间；

S103，利用所述预设视角对应的视锥空间采集所述虚拟仿真场景内的二维图像及图像关联的特征真实值；

在搭建完虚拟仿真场景之后，根据实际场景中采集场景图像的需求，确定不同的视角，定义为预设视角。针对不同拍摄需求的预设视角，将三维的虚拟仿真场景投影成二维的数字图像。预设视角的具体参数及数量可以根据所需的场景图像具体确定。具体实施时，可以使用三维游戏引擎中的相机拍摄模块作为机器人视角的虚拟相机来采集虚拟仿真场景中的场景图像。

本实施方式对虚拟仿真场景内二维图像的获取方式作了进一步限定，主要引入了视锥空间和像素点的中间参考量。在三维场景中，视锥通常用来描述相机在某一视角所对应的包含所有可视内容的空间体，可以包含左、右、上、下锥面、远锥面和近锥面。如图3所示，视锥表示相机通过一个矩形框看到的空间，较近的平面n即为虚拟相机平面，r为距离相机较远的平面。

在进行虚拟仿真场景中二维图像采集时，先确定该预设视角在该虚拟仿真场景内对应的视锥空间，即包含该预设视角内的所有可视内容的空间体。利用所述预设视角对应的视锥空间内的像素点的特征数据获取所述虚拟仿真场景内的二维图像，同时获取图像关联的属性、参数等特征真实值。

S104，将全部所述二维图像及图像关联的特征真实值作为所述实际场景对应的场景数据。

依据上述步骤获取该实际场景对应虚拟仿真场景中不同预设视角的二维图像及图像关联的特征真实值后，即可将该全部二维图像作为所采集的该实际场景的场景图像。可以直接将该实际场景的场景图像及对应的特征真实值用作神经网络模型的训练数据，当然也可以利用数据增强的方法增大数据量，以较少的采集动作获取较多的训练数据，提高模型训练精度。

上述本公开实施例提供的场景数据获取方法，利用仿真三维游戏引擎等手段生成高保真的虚拟仿真场景，并利用仿真视觉传感器采集合成图像，并自动进行标注的数据采集及生成方法。该方法的数据采集无需人工标注，节省了大量时间及资金。该数据可用于基于深度学习的感知模型训练，且可将该模型用于真实应用场景，具有广泛的适用性。

在上述实施例的基础上，根据本公开的一种具体实现方式，所述利用所述预设视角对应的视锥空间采集所述虚拟仿真场景内的二维图像及图像关联的特征真实值的步骤，可以包括：

本实施方式中，预设视角对应的视锥空间为虚拟仿真场景的一部分，包含虚拟仿真场景内的一部分像素点，将该部分像素点定义为目标像素点。将该视锥空间内的目标像素点及各目标像素点的特征真实值数据进行一定规则的叠加，例如投影到该预设视角的成像平面上，所得到的叠加后的像素点的集合，即可作为该预设视角的二维图像及图像关联的特征真实值。

进一步的，上述确定所述预设视角在所述虚拟仿真场景内对应的视锥空间的步骤，可以包括：

定位用于采集二维图像的虚拟相机所在的位置；

本实施方式，限定利用三维游戏引擎汇总的虚拟相机来采集二维图像。先在虚拟仿真场景中定位虚拟相机所在的位置，以该位置作为原点O来建立相机坐标系，以该虚拟相机平面的相机平面的边缘线以及预设视角来确定坐标轴。具体实施时，如图3所示，相机坐标系以平行于相机平面向右为X轴，平行于相机平面向上方向为Y轴，垂直于相机平面指向视锥空间圆锥面为Z轴。

如图3、图4和图5所示，从O点到虚拟相机平面的垂直距离为相机焦距f。视锥左、右锥面与虚拟相机平面相交，其顶点为O点的夹角为相机水平方向视场角α。视锥空间的上、下锥面与虚拟相机平面相交，其顶点为O点的夹角为相机垂直方向视场角β。这样，即可确定该预设视角对应的视锥空间的范围。

相应的，上述根据所述视锥空间内的目标像素点及各目标像素点的特征数据，确定所述预设视角对应的二维图像及图像关联的特征真实值的步骤，可以包括：

确定所述虚拟相机在所述视锥空间内的成像平面；

如图3至图5所示，虚拟相机的相机平面为平面n，其想象平面为视锥空间末端的平面r。确定虚拟相机在视锥空间内的成像平面之后，即可将该视锥空间内的全部目标像素点投影到所确定的成像平面，即将平面n和平面r之间的像素点投影到平面r上，实现多层像素点的叠加，将叠加之后的像素点的集合作为该预设视角对应的二维图像。此外，再利用视锥空间内各目标像素点的特征数据，从中提炼出图像关联的特征数据形成特征真实值。

本方法中为了获得机器人真实相机视角下更为逼真的画面，可以将调整相机参数与真实机器人相机参数一致。这些参数包括但不仅限于如图4和图5所示的视场角大小、图像分辨率、焦距以及帧率。如图6所示，右图当相机水平固定放置于机器人上方并且朝机器人前方拍摄，左图为机器人相机拍摄到当前视角下的图片。

在上述各实施方式的基础上，还可以对虚拟仿真场景中的物体进行边界框检测。根据本公开的一种具体实现方式，所述将所述视锥空间内的全部目标像素点均投影到所述成像平面，得到特征叠加之后的像素点集合，作为所述二维图像，并利用各目标像素点的特征数据获取图像关联的特征真实值的步骤，可以具体包括：

检测所述视锥空间内每个物体对应的全部边界顶点；

在具体实施时，先检测视锥空间内每个物体对应的全部边界顶点，将所述物体的全部边界顶点投影到所述成像平面上，得到所述物体对应的投影区域，再根据边线识别确定该物体对应的边界框。通过投影至虚拟仿真图像的仿真场景中物体进行类别标注可以得知该物体的标签，将标签直接添加到该二维图像上的该物体的边界框即可获得该物体对应的标注真实值。标注真实值可以应用于物体识别、物体检测、物体追踪等任务。针对每个像素的真实值，可以应用于语义分割、图像分割等任务。

具体实施时，可以使用三维物体模型的顶点信息，生成多轴3D边界盒，即3DBounding Box。在2D计算机图形几何学中，常用的方式是最简单的基本几何图元GeometricPrimitive，例如点、线、多边形，来搭建更为复杂的2D平面物体。而3D计算机图形几何学中，通常使用置于3D空间中的三角形和多边形，搭建更为复杂的3D物体形态。对于场景中结构较简单的物体，可采用简单碰撞，其示意图如图7所示。

对于场景较为复杂的物体，为保证场景的实时计算效率，本方法采用k维离散有向多面体(K-DOP，Discrete Oriented Polytope)来计算碰撞，k是碰撞体所在轴数量。K-DOP算法沿着物体模型外部边缘及顶点，取K个轴所在平面，作为模型的碰撞外轮廓包络体Collision Hull。一个26维DOP离散有向多面体的碰撞示意图可以如图8所示。

在上述实施例的基础上，根据本公开的一种具体实现方式，所述搭建实际场景对应的虚拟仿真场景的步骤，可以包括：

根据所述光照因素，对所述虚拟仿真场景进行图形化渲染。

考虑到不同场景的布景因素不同，识别所需的训练数据也不同，需要针对实际场景的布景因素搭建对应的虚拟仿真场景，此处所涉及的布景因素包括环境因素、物体因素和光照因素，环境因素可以包括墙面、地面、建筑等，物体因素可以包括路灯、绿植、车辆等物体，光照因素可以包括太阳光、聚光源、点光源等光源。

在进行虚拟仿真场景搭建时，先根据环境因素和物体因素搭建基础场景，再根据光照因素进行图形化渲染Rendering。具体实施时，基于游戏3D引擎中的光栅化Rasterization、光线追踪技术或者二者相结合的方法进行渲染。通过对场景内光线照射到物体模型表面的颜色和强度进行光照计算，以及根据物体模型表面接收到的光源颜色和表面本身的反射特性，对物体模型表面上每一点反射到机器人视角视觉传感器光线的颜色和强度进行着色计算，完成场景渲染。

进一步的，所述利用所述预设视角对应的视锥空间采集所述虚拟仿真场景内的二维图像及图像关联的特征真实值的步骤之后，所述方法还包括：

本实施方式，考虑到机器人被越来越多的应用到具有大量动态移动，且与人近距离交互的非结构化场景中，例如送餐移动机器人需要识别并避让随时出现的行人。如图9所示，(a)中不包含移动物体的结构化场景被称为静态场景，而(b)含有大量物体随机出现或移动的非结构化场景被称为动态场景。

由于其他物体出现具有很强的随机性，提前采集并对动态场景中机器人相机拍摄到的大量图片进行标注，具有很大的难度。使用结构性领域随机化技术DomainRandomization进行参数调整。该技术涉及三部分参数：a)全局变量；b)一条或者多条机器人本体运动轨迹；c)机器人相机相对本体自由度；d)不同移动物体出现在机器人本体运动轨迹上。场景中可以由一种或多种剧本Scenario组成。场景中的各个剧本决定了剧本发生时的全局变量。

在室内场景中，全局变量包括但不仅限于光源、场景内主动光源的位置、方向，光源发出的颜色如RGB值、光源内外圆锥角范围、光源强度及半径等，场景内外部光源，例如从窗户处射入场景的太阳光、灯光，场景内静态物体模型参数，例如数量、颜色、结构形态、所在位置、方向，动态物体模型参数等。其中太阳光由太阳所在方向角/高度、色温、光强、天空颜色，当下时间等。

机器人本体运动轨迹参数由全局变量决定，根据机器人在场景中需执行的任务决定。主要包括机器人一系列行进位置、方位角及机器人相机内参数，如视场角、焦距等。

机器人相机相对本体自由度参数包括相机所在轴相对本体的俯仰角pitch、横转角yaw、侧摆角roll等。随机出现在机器人本体运动轨迹上的不同移动物体参数主要由随机出现的物体个数、相对机器人的移动物体位置、方向角、种类、模型形态等。

例如送餐移动轮式机器人在餐厅场景中，设定的机器人本体运动轨迹对应本方法中的c)机器人本体运动轨迹，而机器人行进过程中随机出现的行人即对应本方法中的d)不同移动物体。假设某场景剧本Scenarios，场景参数由全局变量决定，经过游戏3D引擎图形化渲染，由机器人相机拍摄到的任一图片I的联合概率分布为：

此时，g为全局变量，R(1，…，i)为机器人本体运动轨迹，D(1，…，k)为机器人相机相对本体自由度，O(1，…，j)为移动物体参数。i为轨迹个数，j为移动物体个数。

进一步的，还需要生成基于虚拟相机平面的2D标注边界框BoundingBox。由于机器人是通过附着在自身的相机来感知三维场景，因此本方法中需将三维场景中的坐标点投影到机器人虚拟相机所在的二维平面。如图10相机模型所示，假设一个位于点M的顶点(vertex)，通过计算从相机原点O发出的照向点M(X,Y,Z)的一束光线与投影交点，可以获得该顶点在虚拟相机平面的投影位置。该投影点m的坐标(u,v)计算式如下：

根据前述计算物体边界框的步骤，以及公式(1)、(2)逐一计算机器人虚拟相机平面中的物体顶点相对于世界坐标系的位置。之后需要将该顶点坐标系转换到相对于虚拟相机平面坐标系。其转换公式如下式：

其中，(u,v)^T是点M在2D虚拟相机平面的坐标，(X,Y,Z)^T是顶点M在世界坐标系的坐标。R_3×3是虚拟相机坐标系相对于世界坐标系的旋转矩阵参数，t_3×1是虚拟相机坐标系相对于世界坐标系的平移向量参数。δ_x，δ_y为虚拟相机的中心点坐标。本方法中为了获得机器人真实相机视角下的画面，调整相机旋转及平移矩阵参数与相机装配至真实机器人一致，同时中心点坐标、f焦距也与真实机器人相机调整一致。

分别对该物体各碰撞体顶点取(min(V_ui),min(V_vi))，(max(V_ui),max(V_vi))作为2D标注矩形框的左上角及右下角顶点，如图10所示。该矩形框将作为物体的2D标注矩形框及机器人虚拟相机平面图像，以及该物体对应的标注类别，将一同输出至引擎外，作为机器人视角下拍摄图片及标注框的真实值Ground Truth Data)。

由于其他物体出现具有很强的随机性，提前采集并对动态场景中机器人相机拍摄到的大量图片进行标注，具有很大的难度，如图11中(a)和(b)以及图12所示。本方法采用了结构性领域随机化技术。该技术涉及三部分参数：a)全局变量；b)一条或者多条机器人本体运动轨迹；c)机器人相机相对本体自由度；d)不同移动物体出现在机器人本体运动轨迹上。场景中可以由一种或多种剧本Scenario组成。场景中的各个剧本决定了剧本发生时的全局变量。

通过持续采集动作，渲染虚拟仿真场景之后，每采集一定量预设视角的场景图像之后，可以通过随机化处理变换虚拟仿真场景，再执行图像获取动作，这样，即可获取大量的针对不同场景的场景图像。

实施例2

此外，本公开实施例还提供一种模型训练方法的流程示意图，主要利用上述实施例所得到的场景数据进行模型训练，例如训练机器人视觉感知模型。所述方法主要包括以下步骤：

将所述机器人视觉感知模型加载到实际场景中的机器人。

整体流程图如图13所示，本实施方式中，限定利用机器人相机进行图像数据采集及模型训练。在此步骤中，按照上述步骤中的结构性领域随机化技术对场景参数进行随机化，并对场景进行图形化渲染，之后采用机器人虚拟相机对图像进行采集。同时对生成的2D标注边界框及类别数据进行同步采集。图像数据及其对应的2D标注边界框数据将作为监督学习的真实值输入，采用基于卷积神经网络的深度学习方法，进行模型训练。其模型应用流程图如图13所示，首先利用上述方法，对采集到的大量仿真合成图片及标注框数据，经模型训练后，获得预训练模型。该模型包括但不限于Yolo系列模型、Mobilenet、SSD、Fast R-CNN/Faster R-CNN等。

所述将所述机器人视觉感知模型加载到实际场景中的机器人的步骤之后，所述方法还可以包括：

采集所述实际场景中的真实图像；

利用所述真实图像作为训练数据再次训练所述机器人视觉感知模型，得到优化后的机器人视觉感知模型。

如图14所示，本实施方式中，限定利用真实场景中采集到的数据集，对模型再次训练，微调Fine Tune模型参数，以更适应真实场景内分布；最后将微调后的模型应用到真实场景内的物体检测、物体识别等应用。

综上所述，本公开实施例提供的场景数据获取方法，相比传统人工标注图像的方法，本方法的数据采集无需人工标注，节省大量时间及资金。采集后的数据可用于基于深度学习的感知神经网络模型训练，例如基于图像的物体识别、目标检测及追踪、语义分割等感知类任务。同时基于仿真数据训练的模型可扩展用于例如基于手臂的物体识别、抓取，以及基于轮式、四足、双足足式机器人的物体目标检测、目标识别及追踪等需要环境感知的真实应用场景，因此具有广泛的普及前景。

实施例3

参见图15，本公开实施例提供了一种场景数据获取装置1500。如图15所示，所述装置包括：

搭建模块1501，用于搭建实际场景对应的虚拟仿真场景，其中，所述虚拟仿真场景为三维场景；

确定模块1502，用于确定预设视角在所述虚拟仿真场景内对应的视锥空间；

采集模块1503，用于利用所述预设视角对应的视锥空间采集所述虚拟仿真场景内的二维图像及图像关联的特征真实值；

处理模块1504，用于将全部所述二维图像及图像关联的特征真实值作为所述实际场景对应的场景数据。

实施例4

参见图16，为本公开实施例提供的一种模型训练装置1600的模块框图。利用前述实施例所述的场景数据获取方法获取的场景数据进行模型训练。如图16所示，所述模型训练装置1600包括：

训练模块1601，用于利用全部所述二维图像训练基础卷积神经网络，得到机器人视觉感知模型；

加载模块1602，用于将所述机器人视觉感知模型加载到实际场景中的机器人。

此外，本公开实施例还提供了一种计算机设备，包括存储器以及处理器，所述存储器均与所述处理器连接，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述计算机设备执行上述实施例中所述的场景数据获取方法。

另外，本公开实施例提供了一种计算机可读存储介质，其存储有上述的计算机设备中所用的计算机程序。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和结构图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或更多个模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种场景数据获取方法，其特征在于，包括：

获取实际场景内的布景因素，其中，所述布景因素包括环境因素、物体因素和光照因素；

根据所述光照因素，对所述虚拟仿真场景进行图形化渲染，其中，所述虚拟仿真场景为三维场景；

确定预设视角在所述虚拟仿真场景内对应的视锥空间；

采用结构性领域随机化技术对所述虚拟仿真场景进行随机化处理，其中，随机化处理的依据包括全局变量、机器人的运动轨迹、虚拟相机相对机器人的自由度、不同移动物体出现在机器人本体运动轨迹中的任一种；

再次采集所述虚拟仿真场景内的二维图像及图像关联的特征真实值；

2.根据权利要求1所述的方法，其特征在于，所述利用所述预设视角对应的视锥空间采集所述虚拟仿真场景内的二维图像及图像关联的特征真实值的步骤，包括：

3.根据权利要求2所述的方法，其特征在于，所述确定预设视角在所述虚拟仿真场景内对应的视锥空间的步骤，包括：

定位用于采集二维图像的虚拟相机所在的位置；

4.根据权利要求3所述的方法，其特征在于，所述根据所述视锥空间内的目标像素点及各目标像素点的特征数据，确定所述预设视角对应的二维图像及图像关联的特征真实值的步骤，包括：

确定所述虚拟相机在所述视锥空间内的成像平面；

5.根据权利要求4所述的方法，其特征在于，所述将所述视锥空间内的全部目标像素点均投影到所述成像平面，得到特征叠加之后的像素点集合作为所述二维图像，并利用各目标像素点的特征数据获取图像关联的特征真实值的步骤，包括：

检测所述视锥空间内每个物体对应的全部边界顶点；

6.一种模型训练方法，其特征在于，利用权利要求1至5中任一项所述的场景数据获取方法获取的场景数据进行模型训练；所述方法包括：

将所述机器人视觉感知模型加载到实际场景中的机器人。

7.根据权利要求6所述的方法，其特征在于，所述将所述机器人视觉感知模型加载到实际场景中的机器人的步骤之后，所述方法还包括：

采集所述实际场景中的真实图像；

8.一种场景数据获取装置，其特征在于，所述装置包括：

搭建模块，用于获取实际场景内的布景因素，其中，所述布景因素包括环境因素、物体因素和光照因素；根据所述环境因素和所述物体因素，搭建所述实际场景对应的虚拟仿真场景；根据所述光照因素，对所述虚拟仿真场景进行图形化渲染，其中，所述虚拟仿真场景为三维场景；

采集模块，用于利用所述预设视角对应的视锥空间采集所述虚拟仿真场景内的二维图像及图像关联的特征真实值；采用结构性领域随机化技术对所述虚拟仿真场景进行随机化处理，其中，随机化处理的依据包括全局变量、机器人的运动轨迹、虚拟相机相对机器人的自由度、不同移动物体出现在机器人本体运动轨迹中的任一种；再次采集所述虚拟仿真场景内的二维图像及图像关联的特征真实值；

9.一种模型训练装置，其特征在于，利用权利要求1至5中任一项所述的场景数据获取方法获取的场景数据进行模型训练；所述模型训练装置包括：

10.一种计算机设备，其特征在于，包括存储器以及处理器，所述存储器均与所述处理器连接，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述计算机设备执行权利要求1至5中任一项所述的场景数据获取方法。

11.一种计算机可读存储介质，其特征在于，其存储有权利要求10所述的计算机设备中所用的计算机程序。