CN112308103A

CN112308103A - 生成训练样本的方法和装置

Info

Publication number: CN112308103A
Application number: CN201910712303.9A
Authority: CN
Inventors: 张欣; 辛安民; 陈杰
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2019-08-02
Filing date: 2019-08-02
Publication date: 2021-02-02
Anticipated expiration: 2039-08-02
Also published as: CN112308103B

Abstract

本申请公开了一种生成训练样本的方法和装置，属于人工智能技术领域。所述方法包括：获取目标三维场景的场景信息；基于所述场景信息，确定所述目标三维场景的虚拟拍摄图像和所述虚拟拍摄图像中目标物体的图像位置；基于所述虚拟拍摄图像和所述虚拟拍摄图像中目标物体的图像位置，确定训练样本。采用本申请，可以有效解决相关技术生成样本数据时，人工成本和时间成本都较高，标注错误的可能性较大的技术问题。

Description

生成训练样本的方法和装置

技术领域

本申请涉及人工智能技术领域，具体涉及一种生成训练样本的方法和装置。

背景技术

对象检测是计算机视觉的重要领域，较为流行的对象检测的方法有两种，分别是二阶段方法和一阶段方法。但是，不管哪种对象检测方法都需要大量训练样本进行模型训练。例如，在一种类型的训练样本中，训练样本包括原始图像和原始图像中各目标物体的图像位置，在进行模型训练时，首先，将原始图像输入到对象检测模型中，然后，对象检测模型会输出对原始图像中目标物体的预测图像位置，将输出的预测图像位置与训练样本中的图像位置进行比对，当输出的预测图像位置与训练样本中的图像位置，相差小于预设阈值时则模型训练成功。

相关技术中生成训练样本的方法为，获取大量的原始真实图像之后，对原始真实图像进行人工标注，从而将目标物体的图像位置确定出来，例如，在计算机上人工确定各目标物体的边框，以此得到各目标物体的图像位置，然后，将原始真实图像和各目标物体的图像位置作为训练样本即可。

在实现本申请的过程中，发明人发现相关技术至少存在以下问题：

对原始真实图像进行人工标注确定目标物体的图像位置的方法，人工成本和时间成本都较高，而且人工标注的方法标注错误的可能性也较大。

发明内容

本申请实施例提供了一种生成训练样本的方法和装置，可以解决相关技术中存在的技术问题。所述生成训练样本的方法和装置的技术方案如下：

第一方面，提供了一种生成训练样本的方法，所述方法包括：

获取目标三维场景的场景信息；

基于所述场景信息，确定所述目标三维场景的虚拟拍摄图像和所述虚拟拍摄图像中目标物体的图像位置；

基于所述虚拟拍摄图像和所述虚拟拍摄图像中目标物体的图像位置，确定训练样本。

可选的，所述场景信息包括所述目标三维场景中至少一个物体的尺寸信息、位姿信息、属性信息以及光照信息。

可选的，所述基于所述场景信息，确定所述目标三维场景的虚拟拍摄图像和所述虚拟拍摄图像中每个物体的图像位置，包括：

获取所述目标三维场景中虚拟相机的拍摄参数信息；

基于所述场景信息和所述拍摄参数信息，确定所述目标三维场景的虚拟拍摄图像和所述虚拟拍摄图像中目标物体的图像位置。

可选的，所述基于所述场景信息和所述拍摄参数信息，确定所述目标三维场景的虚拟拍摄图像和所述虚拟拍摄图像中目标物体的图像位置，包括：

基于所述尺寸信息，构建每个物体的三维模型；

基于每个物体的三维模型和所述位姿信息，生成所述目标三维场景对应的虚拟三维场景模型；

基于所述属性信息、所述光照信息、所述虚拟相机的拍摄参数信息和所述虚拟三维场景模型，确定每个物体的图像位置和颜色信息，其中，所述每个物体的图像位置包括所述每个物体的各像素点的图像位置；

基于所述每个物体的图像位置，确定所述虚拟拍摄图像中目标物体的图像位置；

基于所述每个物体的图像位置和颜色信息，确定所述目标三维场景模型的虚拟拍摄图像。

可选的，所述拍摄参数信息包括所述虚拟相机的类型和视场角。

可选的，所述光照信息包括光源的位置、强度和颜色。

可选的，所述属性信息包括物体的材质、纹理和颜色。

可选的，所述基于所述虚拟拍摄图像和所述虚拟拍摄图像中目标物体的图像位置，确定训练样本，包括：

基于所述虚拟拍摄图像中目标物体的图像位置，生成所述虚拟拍摄图像对应的语义标签分割图，其中，所述目标物体的图像位置包括所述目标物体各像素点的图像位置；

将所述虚拟拍摄图像和所述语义标签分割图，确定为训练样本。

可选的，所述基于所述虚拟拍摄图像中目标物体的图像位置，生成所述虚拟拍摄图像对应的语义标签分割图，包括：

确定所述目标物体对应的颜色信息；

基于所述目标物体的图像位置和所述目标物体对应的颜色信息，生成所述虚拟拍摄图像对应的语义标签分割图。

可选的，所述目标物体为所述虚拟拍摄图像中的所有物体。

将所述虚拟拍摄图像和所述虚拟拍摄图像中目标物体的图像位置，确定为训练样本。

第二方面，提供了一种生成训练样本的装置，所述装置包括：

获取模块，用于获取目标三维场景的场景信息；

生成模块，用于基于所述场景信息，确定所述目标三维场景的虚拟拍摄图像和所述虚拟拍摄图像中目标物体的图像位置；

确定模块，用于基于所述虚拟拍摄图像和所述虚拟拍摄图像中目标物体的图像位置，确定训练样本。

可选的，所述确定模块，用于：

获取所述目标三维场景中虚拟相机的拍摄参数信息；

可选的，所述生成模块，用于：

基于所述尺寸信息，构建每个物体的三维模型；

可选的，所述光照信息包括光源的位置、强度和颜色。

可选的，所述属性信息包括物体的材质、纹理和颜色。

可选的，所述确定模块，用于：

确定所述目标物体对应的颜色信息；

可选的，所述目标物体为所述虚拟拍摄图像中的所有物体。

可选的，所述确定模块，用于：

第三方面，提供了一种终端，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如第一方面所述的生成训练样本的方法。

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如第一方面所述的生成训练样本的方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

本申请实施例提供的生成训练样本的方法，可以用于生成训练样本。首先，获取目标三维场景的场景信息，然后，基于场景信息，确定目标三维场景的虚拟拍摄图像和虚拟拍摄图像中目标物体的图像位置，最后，基于虚拟拍摄图像和目标物体的图像位置，确定训练样本。本申请实施例提供的方法，通过对现实中的目标三维场景进行模拟，可以自动确定虚拟拍摄图像和虚拟拍摄图像中目标物体的图像位置，从而可以自动生成训练样本，进而不再需要人工标注，减少了人工成本和时间成本，并且也减小了标注错误的可能性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种生成训练样本的方法的流程图；

图2是本申请实施例提供的一种生成训练样本的装置的结构示意图；

图3是本申请实施例提供的一种终端的结构示意图；

图4是本申请实施例提供的一种虚拟拍摄图像；

图5是本申请实施例提供的一种语义标签分割图；

图6是本申请实施例提供的一种显示有物体的外界框图的虚拟拍摄图像。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请实施例提供了一种生成训练样本的方法，该方法可以由终端实现。其中，该终端可以是是手机、平板电脑和笔记本等移动终端，也可以是台式计算机等固定终端。

本申请实施例提供的生成训练样本的方法，可以用于生成训练样本。首先，获取目标三维场景的场景信息，然后，基于场景信息，确定目标三维场景的虚拟拍摄图像和虚拟拍摄图像中目标物体的图像位置，最后，基于虚拟拍摄图像和目标物体的图像位置，确定训练样本。然后，可以将生成的训练样本用于模型训练，如对象检测模型，生成的虚拟拍摄图像的真实程度与真实的拍摄图像十分接近，可以当做真实的拍摄图像用于模型训练。对于包括虚拟拍摄图像和目标物体的图像位置的训练样本，首先，将虚拟拍摄图像输入到对象检测模型中，然后，对象检测模型会输出对虚拟拍摄图像中目标物体的预测图像位置，将输出的预测图像位置与训练样本中的目标物体的图像位置进行比对，当输出的预测图像位置与训练样本中的目标物体的图像位置相差小于预设阈值时，则模型训练成功。

如图1所示，该方法的处理流程可以包括如下步骤：

在步骤101中，获取目标三维场景的场景信息。

其中，场景信息包括目标三维场景模型中至少一个物体的尺寸信息、位姿信息、属性信息以及光照信息。

其中，光照信息至少包括光源的位置、强度和颜色。属性信息至少包括物体的材质、纹理和颜色。物体的尺寸信息包括物体的长度、宽度、高度和厚度等外形尺寸。位姿信息包括物体的位置和摆放姿态信息，摆放姿态可以由物体的坐标系与目标三维场景的坐标系的角度来表征，该物体的坐标系应与后续构建物体的三维模型的基准坐标系一致。

目标三维场景为用户想要模拟的三维场景，即用户想要对针对该三维场景拍摄的图像进行对象检测或物体识别。

在实施中，首先选取需要进行模拟的目标三维场景，目标三维场景的选取与待训练的模型的类型有关。例如，对于针对水瓶进行检测的模型，选取的目标三维场景中应包含水瓶。在确定目标三维场景后，需要测量并记录目标三维场景中各物体的尺寸，确定并记录各物体的位置以及摆放姿态(即位姿信息)，确定并记录各物体的属性信息以及光照信息。在确定并记录这些信息后，将这些信息转化为计算机可以识别的形式进行存储。可选的，可以以EXCEL表格的形式对这些信息进行存储。又或者利用链表对这些信息进行存储。

光照信息和属性信息包括的具体内容可以如下所述，光照信息包括光源的外形，例如，是球形灯或矩形灯，光源的实体是否可见，光源的位置，例如对于球形灯可以为球心的位置和球形灯的半径，对于矩形灯可以为矩形灯的一个顶点的位置和用向量表示的矩形灯的两条边，光源的强度，例如，光源的瓦数；属性信息包括物体的颜色，物体的粗糙度，物体的反光强度，物体的金属度等。

然后，计算机可以获取预先存储的目标三维场景中至少一个物体的尺寸信息、位姿信息、属性信息以及光照信息。

可选的，还可以预先设置好最终生成图像的分辨率，并将分辨率信息进行存储。然后，计算机可以获取预先存储的分辨率信息。

在获取目标三维场景中至少一个物体的尺寸信息、位姿信息、属性信息以及光照信息之后，可以进行步骤102的处理。

在步骤102中，基于场景信息，确定目标三维场景的虚拟拍摄图像和虚拟拍摄图像中目标物体的图像位置。

其中，目标三维场景的虚拟拍摄图像，是计算机自动生成的，其真实程度与真实的拍摄图像十分接近，如图4所示。

目标物体的图像位置可以是目标物体的外边缘的每个像素点的图像位置，例如，可以是目标物体的边缘的每个像素点的坐标值。也可以是目标物体的所有像素点的图像位置，例如可以是目标物体的所有像素点的坐标值。还可以是目标物体的最小外接框图的图像位置。例如，可以是最小外接框图的四个顶点的坐标值。

虚拟拍摄图像中包含有多个物体的三维模型的二维图，但不一定包含所有物体的三维模型的二维图，因为某些物体的三维模型可能会被其他物体的三维模型遮挡。

在实施中，在确定场景信息之后，可以基于场景信息构建目标三维场景对应的虚拟三维场景模型，然后，还需要确定拍摄角度才能生成相应的图像，即此时需要获取虚拟相机的拍摄参数信息，则步骤102相应的处理过程可以如下所述，获取目标三维场景中虚拟相机的拍摄参数信息。基于场景信息和拍摄参数信息，确定目标三维场景的虚拟拍摄图像和虚拟拍摄图像中目标物体的图像位置。

其中，拍摄参数信息至少包括虚拟相机的类型和视场角。拍摄参数信息包括的具体内容可以如下所述，拍摄参数信息包括虚拟相机的类型，例如，是透视相机或正投影相机，虚拟相机的视场角，放大系数(即生成的虚拟拍摄图像中的物体与实际物体尺寸的比值)，焦距等信息。

在实施中，基于场景信息，可以确定目标三维场景对应的虚拟三维场景模型，但是还需要确定拍摄角度才能生成相应的图像，即此时应设置虚拟相机的拍摄参数信息，并且，为了提高效率，可以设置多个不同的拍摄参数信息，以一次性的生成多个虚拟拍摄图像。在确定目标三维场景中虚拟相机的拍摄参数信息之后，将确定的拍摄参数信息进行存储，可选的，可以以EXCEL表格的形式将拍摄参数信息进行存储。

然后，计算机可以获取预先存储的目标三维场景中虚拟相机的拍摄参数信息。

可选的，提供一种基于场景信息和拍摄参数信息确定目标三维场景的虚拟拍摄图像和虚拟拍摄图像中目标物体的图像位置的具体方法，相应的处理可以如下所述，基于尺寸信息，构建每个物体的三维模型。基于每个物体的三维模型和位姿信息，生成目标三维场景对应的虚拟三维场景模型。基于属性信息、光照信息、虚拟相机的拍摄参数信息和虚拟三维场景模型，确定每个物体的图像位置和颜色信息，其中，每个物体的图像位置包括每个物体的各像素点的图像位置。基于每个物体的图像位置，确定虚拟拍摄图像中目标物体的图像位置。基于每个物体的图像位置和颜色信息，确定目标三维场景模型的虚拟拍摄图像。

在实施中，可以基于获取的尺寸信息，对目标三维场景中的各物体进行三维建模，构建每个物体的三维模型。建模时，可以使用现有的三维建模软件进行三维模型的绘制。同时，还可以为每个物体的三维模型添加不同的标识信息，使每个物体的三维模型对应有不同的标识信息。

构建每个物体的三维模型之后，可以基于每个物体的三维模型和每个物体的位姿信息，生成目标三维场景对应的虚拟三维场景模型。也即，通过每个物体的位姿信息，自动布置各个三维模型，从而生成虚拟三维场景模型。

在生成虚拟三维场景模型之后，可以基于属性信息、光照信息和虚拟相机的拍摄参数信息，对虚拟三维场景模型进行渲染，生成虚拟相机的虚拟拍摄图像，具体过程可以如下所述：

首先，在生成虚拟三维场景模型之后，可以基于虚拟三维场景模型和虚拟相机的拍摄参数信息，确定每个物体的图像位置。即在虚拟三维场景模型的基础上，基于虚拟相机的拍摄参数信息确定投影面，对虚拟三维场景模型中的各物体进行投影，则可以计算得到每个物体的各像素点的图像位置。在确定每个物体的各像素点的图像位置之后，即可以绘制出初始虚拟拍摄图像。在初始虚拟拍摄图像中包含有多个物体的三维模型的二维图，但是这些二维图的颜色均为默认颜色。

然后，需要确定初始虚拟拍摄图像中每个二维图的颜色信息。具体的，需要基于属性信息、光照信息、虚拟相机的拍摄参数信息和虚拟三维场景模型，计算得到初始虚拟拍摄图像中每个物体对应的颜色信息，也即确定每个物体的各像素点的像素值。可选的，可以通过光线追踪算法得出每个物体对应的颜色信息。在确定每个物体的颜色信息之后，在初始虚拟拍摄图像中为每个物体的三维模型的二维图进行着色处理，着色完成后，即生成虚拟拍摄图像。

基于属性信息、光照信息、虚拟相机的拍摄参数信息和虚拟三维场景模型，计算初始虚拟拍摄图像中每个物体对应的颜色信息时，应考虑尽可能多的因素，以使生成的虚拟拍摄图像的真实程度接近真实的拍摄图像。例如，考虑物体的材质、纹理、颜色、反光性、光源的位置和强度等信息。

需要说明的是，上述虚拟拍摄图像可以是直接生成的，即并不生成初始虚拟拍摄图像，确定每个物体的各像素点的图像位置和各像素点的像素值之后，直接生成语义标签分割图。

同时，在确定每个物体的图像位置之后，可以根据每个物体的图像位置，确定虚拟拍摄图像中目标物体的图像位置。具体的确定方式可以有多种。可选的，可以在每个物体的图像位置中，选取目标物体的图像位置，即目标物体的图像位置包括目标物体的各像素点的图像位置；也可以将目标物体的外边缘的各像素点的图像位置，确定为目标物体的图像位置；还可以计算得到目标物体的最小外接框图的图像位置，并将其作为目标物体的图像位置。

目标物体的最小外接框图，可以是矩形框，也可以是圆形框。矩形框的图像位置，可以是矩形框的四个顶点的坐标值，还可以是矩形框左上顶点的坐标值和矩形框的长度和宽度。圆形框的图像位置，可以是圆形框的圆心的坐标值和圆形框的半径。具体的确定方法可以如下所述：

例如，以图像的水平方向为横坐标，竖直方向为纵坐标为例，得到目标物体对应的矩形框的图像位置的具体方法可以是，确定目标物体的边界的像素点中最上、最下、最左和最右的像素点的坐标，将最左的像素点的横坐标、最上的像素点的纵坐标分别确定为矩形框左上顶点的横坐标、纵坐标；将最左的像素点的横坐标、最下的像素点的纵坐标分别确定为矩形框左下顶点的横坐标、纵坐标；将最右的像素点的横坐标、最上的像素点的纵坐标分别确定为矩形框右上顶点的横坐标、纵坐标；将最右的像素点的横坐标、最下的像素点的纵坐标确定为矩形框右下顶点的横坐标、纵坐标。

或者，还可以以左上顶点的坐标值和矩形框的长度和宽度来表征矩形框的图像位置，具体方法可以如下，确定目标物体的边界的像素点中最上、最下、最左和最右的像素点的坐标，将最右的像素点的横坐标与最左的像素点的横坐标的差值，确定为矩形框的长度或宽度，将最上的像素点的纵坐标与最下的像素点的纵坐标的差值，确定为矩形框的长度或宽度，将最左的像素点的横坐标、最上的像素点的纵坐标分别确定为矩形框左上顶点的横坐标、纵坐标。

可选的，还可以显示标记有物体的最小外接框图的虚拟拍摄图像，如图6所示。

在步骤103中，基于虚拟拍摄图像和虚拟拍摄图像中目标物体的图像位置，确定训练样本。

在实施中，可以直接将虚拟拍摄图像和虚拟拍摄图像中目标物体的图像位置，确定为训练样本。

目标物体的图像位置的类型根据对象检测模型的实际输出有关，目标物体的图像位置可以是目标物体的外边缘的每个像素点的图像位置，例如，可以是目标物体的边缘的每个像素点的坐标值。也可以是目标物体的所有像素点的图像位置，例如可以是目标物体的所有像素点的坐标值。还可以是目标物体的最小外接框图的图像位置。例如，可以是最小外接框图的四个顶点的坐标值。

对于包含虚拟拍摄图像和目标物体的图像位置的训练样本的使用方法，可以如下所述，在确定训练样本之后，可以将确定出的训练样本用于模型的训练，以对象检测模型为例，首先，将生成的虚拟拍摄图像输入到对象检测模型中，对象检测模型输出虚拟拍摄图像中目标物体的预测图像位置，然后，将预测图像位置与训练样本中的目标物体的图像位置进行对比，基于对比的结果，对对象检测模型进行调整，直至对象检测模型输出的预测图像位置与训练样本中的目标物体的图像位置相差小于预设阈值，则对象检测模型训练完毕。

可选的，还可以根据目标物体的图像位置生成语义标签分割图，并将语义标签分割图和虚拟拍摄图像确定为训练样本，则步骤103相应的处理过程可以如下所述，基于虚拟拍摄图像中目标物体的图像位置，生成虚拟拍摄图像对应的语义标签分割图，其中，目标物体的图像位置包括目标物体各像素点的图像位置。将虚拟拍摄图像和语义标签分割图，确定为训练样本。

其中，语义标签分割图是指至少将图像中的目标物体用不同颜色标注出来的图像，也即在语义标签分割图中，目标物体具有不同的颜色，如图5所示。

在虚拟拍摄图像和语义标签分割图中目标物体的图像位置是一致的。

在实施中，语义标签分割图中可以只包含目标物体，即语义标签分割图中的物体比虚拟拍摄图像中的物体的数目少，并且不同的目标物体用不同的颜色进行标注。

基于每个物体各像素点的图像位置，可以生成初始语义标签分割图，在初始语义标签分割图中，包含目标物体对应的二维图，但是，目标物体的二维图的颜色为默认颜色，即目标物体的二维图并没有分割开。此时需要确定每个二维图对应的颜色信息。

由于在对目标三维场景中的各物体进行建模时，为每个物体的三维模型添加了标识信息，则基于每个物体的三维模型得到的每个物体的二维图也对应有标识信息，也即每个物体的像素点对应有标识信息。因此，目标物体的像素点也对应有标识信息，此时可以基于二维图对应的不同的标识信息，为每个二维图分配不同的颜色。为每个二维图分配不同的颜色的过程，也即确定目标物体的像素点的像素值的过程，一个目标物体的所有像素点的像素值相等。

在分配颜色之后，为初始语义标签分割图中的各二维图进行着色处理，着色完成后，即生成虚拟拍摄图像对应的语义标签分割图。

可选的，基于二维图对应的不同的标识信息，为每个二维图分配不同的颜色时，可以随机分配，即不同的二维图分配不同的颜色，但并不指定某一物体的具体颜色。可选的，基于二维图对应的不同的标识信息，为每个二维图分配不同的颜色时，还可以预先设置好标识信息对应的颜色，然后，基于标识信息对应的颜色，确定每个二维图的颜色。

需要说明的是，上述语义标签分割图可以是直接生成的，即并不生成初始语义标签分割图，确定每个物体的各像素点的图像位置和各像素点的像素值之后，直接生成语义标签分割图。上述语义标签分割图可以和初始虚拟拍摄图像同时生成。

可选的，目标物体可以是初始虚拟拍摄图像中的所有物体，则此时还可以基于每个物体的图像位置生成语义标签分割图，则相应的处理过程可以如下所述，基于虚拟拍摄图像中每个物体的图像位置，生成虚拟拍摄图像对应的语义标签分割图。

语义标签分割图，可以指将目标物体分割标注出来的图像。

在一个可选实施例中，该语义标签分割图是指至少将图像中的目标物体用不同颜色标注出来的图像，也即在语义标签分割图中，目标物体具有不同的颜色。语义标签分割图还可以是指将图像中的每个物体用不同的颜色标注出来的图像，也即在语义标签分割图中，每个物体均具有不同的颜色。例如，语义标签分割图中具有多个瓶子和多个桌子，其中，瓶子为目标物体，桌子不为目标物体，则语义标签分割图中每个瓶子用不同的颜色标注，而对于多个桌子，则既可以将每个桌子用不同的颜色进行标注，也可以将所有桌子用同一颜色进行标注。或者语义标签分割图，也可以是指用不同形状或线型标注出来不同目标物体的图像。

每个物体的图像位置包括每个物体各像素点的图像位置。

如图5所示，语义标签分割图包含虚拟拍摄图像中的所有物体，虚拟拍摄图像和对应的语义标签分割图除了物体的颜色不一样之外，每个物体的图像位置均相同，因此，语义标签分割图中每个物体的图像位置，也是虚拟拍摄图像中每个物体的图像位置。

在实施中，基于每个物体各像素点的图像位置，可以生成初始语义标签分割图，在初始语义标签分割图中，包含各物体对应的二维图，但是，该二维图的颜色为默认颜色，即物体对应的二维图并没有分割开。此时需要确定每个二维图对应的颜色信息。

由于在对目标三维场景中的各物体进行建模时，为每个物体的三维模型添加了标识信息，则基于每个物体的三维模型得到的每个物体的二维图也对应有标识信息，也即每个物体的像素点对应有标识信息。因此，可以基于二维图对应的不同的标识信息，为每个二维图分配不同的颜色。为每个二维图分配不同的颜色的过程，也即确定每个物体的像素点的像素值的过程，一个物体的所有像素点的像素值相等。

对于包含虚拟拍摄图像和语义标签分割图的训练样本的使用方法可以如下所述，将虚拟拍摄图像和语义标签分割图输入到对象检测模型中，语义标签分割图用于提供目标物体的图像位置。对象检测模型可以预测虚拟拍摄图像中目标物体的预测图像位置，然后，将预测图像位置与目标物体的图像位置进行对比，基于对比的结果，对对象检测模型进行调整，直至对象检测模型输出的预测图像位置与目标物体的图像位置相差小于预设阈值，则对象检测模型训练完毕。

基于相同的技术构思，本申请实施例还提供了一种生成训练样本的装置，该装置可以为上述实施例中的终端，如图2所示，该装置包括：

获取模块201，用于获取目标三维场景的场景信息；

生成模块202，用于基于场景信息，确定目标三维场景的虚拟拍摄图像和虚拟拍摄图像中目标物体的图像位置；

确定模块203，用于基于虚拟拍摄图像和虚拟拍摄图像中目标物体的图像位置，确定训练样本。

可选的，场景信息包括目标三维场景中至少一个物体的尺寸信息、位姿信息、属性信息以及光照信息。

可选的，确定模块203，用于：

获取目标三维场景中虚拟相机的拍摄参数信息；

基于场景信息和拍摄参数信息，确定目标三维场景的虚拟拍摄图像和虚拟拍摄图像中目标物体的图像位置。

可选的，生成模块202，用于：

基于尺寸信息，构建每个物体的三维模型；

基于每个物体的三维模型和位姿信息，生成目标三维场景对应的虚拟三维场景模型；

基于属性信息、光照信息、虚拟相机的拍摄参数信息和虚拟三维场景模型，确定每个物体的图像位置和颜色信息，其中，每个物体的图像位置包括每个物体的各像素点的图像位置；

基于每个物体的图像位置，确定虚拟拍摄图像中目标物体的图像位置；

基于每个物体的图像位置和颜色信息，确定目标三维场景模型的虚拟拍摄图像。

可选的，拍摄参数信息包括虚拟相机的类型和视场角。

可选的，光照信息包括光源的位置、强度和颜色。

可选的，属性信息包括物体的材质、纹理和颜色。

可选的，确定模块203，用于：

基于虚拟拍摄图像中目标物体的图像位置，生成虚拟拍摄图像对应的语义标签分割图，其中，目标物体的图像位置包括目标物体各像素点的图像位置；

将虚拟拍摄图像和语义标签分割图，确定为训练样本。

可选的，确定模块203，用于：

确定目标物体对应的颜色信息；

基于目标物体的图像位置和目标物体对应的颜色，生成虚拟拍摄图像对应的语义标签分割图。

可选的，目标物体为虚拟拍摄图像中的所有物体。

可选的，确定模块203，用于：

将虚拟拍摄图像和虚拟拍摄图像中目标物体的图像位置，确定为训练样本。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

需要说明的是：上述实施例提供的生成训练样本的装置在进行训练样本生成时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的生成训练样本的装置与生成训练样本的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图3是本申请实施例提供的一种终端的结构框图。该终端300可以是便携式移动终端，比如：智能手机、平板电脑、智能摄像机。终端300还可能被称为用户设备、便携式终端等其他名称。

通常，终端300包括有：处理器301和存储器302。

处理器301可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器301可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器301也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器301可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器301还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器302可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是有形的和非暂态的。存储器302还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器302中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器301所执行以实现本申请中提供的生成训练样本方法。

在一些实施例中，终端300还可选包括有：外围设备接口303和至少一个外围设备。具体地，外围设备包括：射频电路304、显示屏305、摄像头组件306、音频电路307、定位组件308和电源309中的至少一种。

外围设备接口303可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器301和存储器302。在一些实施例中，处理器301、存储器302和外围设备接口303被集成在同一芯片或电路板上；在一些其他实施例中，处理器301、存储器302和外围设备接口303中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路304用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路304通过电磁信号与通信网络以及其他通信设备进行通信。射频电路304将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路304包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路304可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路304还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏305用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。显示屏305还具有采集在显示屏305的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器301进行处理。显示屏305用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏305可以为一个，设置终端300的前面板；在另一些实施例中，显示屏305可以为至少两个，分别设置在终端300的不同表面或呈折叠设计；在再一些实施例中，显示屏305可以是柔性显示屏，设置在终端300的弯曲表面上或折叠面上。甚至，显示屏305还可以设置成非矩形的不规则图形，也即异形屏。显示屏305可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件306用于采集图像或视频。可选地，摄像头组件306包括前置摄像头和后置摄像头。通常，前置摄像头用于实现视频通话或自拍，后置摄像头用于实现照片或视频的拍摄。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能，主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能。在一些实施例中，摄像头组件306还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路307用于提供用户和终端300之间的音频接口。音频电路307可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器301进行处理，或者输入至射频电路304以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端300的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器301或射频电路304的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路307还可以包括耳机插孔。

定位组件308用于定位终端300的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件308可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源309用于为终端300中的各个组件进行供电。电源309可以是交流电、直流电、一次性电池或可充电电池。当电源309包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端300还包括有一个或多个传感器310。该一个或多个传感器310包括但不限于：加速度传感器311、陀螺仪传感器312、压力传感器313、指纹传感器314、光学传感器315以及接近传感器316。

加速度传感器311可以检测以终端300建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器311可以用于检测重力加速度在三个坐标轴上的分量。处理器301可以根据加速度传感器311采集的重力加速度信号，控制显示屏305以横向视图或纵向视图进行用户界面的显示。加速度传感器311还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器312可以检测终端300的机体方向及转动角度，陀螺仪传感器312可以与加速度传感器311协同采集用户对终端300的3D动作。处理器301根据陀螺仪传感器312采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器313可以设置在终端300的侧边框和/或显示屏305的下层。当压力传感器313设置在终端300的侧边框时，可以检测用户对终端300的握持信号，根据该握持信号进行左右手识别或快捷操作。当压力传感器313设置在显示屏305的下层时，可以根据用户对显示屏305的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器314用于采集用户的指纹，以根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器301授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器314可以被设置终端300的正面、背面或侧面。当终端300上设置有物理按键或厂商Logo时，指纹传感器314可以与物理按键或厂商Logo集成在一起。

光学传感器315用于采集环境光强度。在一个实施例中，处理器301可以根据光学传感器315采集的环境光强度，控制显示屏305的显示亮度。具体地，当环境光强度较高时，调高显示屏305的显示亮度；当环境光强度较低时，调低显示屏305的显示亮度。在另一个实施例中，处理器301还可以根据光学传感器315采集的环境光强度，动态调整摄像头组件306的拍摄参数。

接近传感器316，也称距离传感器，通常设置在终端300的正面。接近传感器316用于采集用户与终端300的正面之间的距离。在一个实施例中，当接近传感器316检测到用户与终端300的正面之间的距离逐渐变小时，由处理器301控制显示屏305从亮屏状态切换为息屏状态；当接近传感器316检测到用户与终端300的正面之间的距离逐渐变大时，由处理器301控制显示屏305从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图3中示出的结构并不构成对终端300的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种计算机可读存储介质，存储介质中存储有至少一条指令，至少一条指令由处理器加载并执行以实现上述实施例中的生成训练样本的方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种生成训练样本的方法，其特征在于，所述方法包括：

获取目标三维场景的场景信息；

2.根据权利要求1所述的方法，其特征在于，所述场景信息包括所述目标三维场景中至少一个物体的尺寸信息、位姿信息、属性信息以及光照信息。

3.根据权利要求2所述的方法，其特征在于，所述基于所述场景信息，确定所述目标三维场景的虚拟拍摄图像和所述虚拟拍摄图像中每个物体的图像位置，包括：

获取所述目标三维场景中虚拟相机的拍摄参数信息；

4.根据权利要求3所述的方法，其特征在于，所述基于所述场景信息和所述拍摄参数信息，确定所述目标三维场景的虚拟拍摄图像和所述虚拟拍摄图像中目标物体的图像位置，包括：

基于所述尺寸信息，构建每个物体的三维模型；

5.根据权利要求3所述的方法，其特征在于，所述拍摄参数信息包括所述虚拟相机的类型和视场角。

6.根据权利要求2所述的方法，其特征在于，所述光照信息包括光源的位置、强度和颜色。

7.根据权利要求2所述的方法，其特征在于，所述属性信息包括物体的材质、纹理和颜色。

8.根据权利要求1所述的方法，其特征在于，所述基于所述虚拟拍摄图像和所述虚拟拍摄图像中目标物体的图像位置，确定训练样本，包括：

9.根据权利要求8所述的方法，其特征在于，所述基于所述虚拟拍摄图像中目标物体的图像位置，生成所述虚拟拍摄图像对应的语义标签分割图，包括：

确定所述目标物体对应的颜色信息；

10.根据权利要求9所述的方法，其特征在于，所述目标物体为所述虚拟拍摄图像中的所有物体。

11.根据权利要求1所述的方法，其特征在于，所述基于所述虚拟拍摄图像和所述虚拟拍摄图像中目标物体的图像位置，确定训练样本，包括：

12.一种生成训练样本的装置，其特征在于，所述装置包括：

获取模块，用于获取目标三维场景的场景信息；