CN116630538A

CN116630538A - 面向餐桌场景的仿真数据集生成方法与装置

Info

Publication number: CN116630538A
Application number: CN202310534881.4A
Authority: CN
Inventors: 曾龙; 张欣宇; 张涛
Original assignee: Shenzhen International Graduate School of Tsinghua University; Shenzhen Pudu Technology Co Ltd
Current assignee: Shenzhen International Graduate School of Tsinghua University; Shenzhen Pudu Technology Co Ltd
Priority date: 2023-05-12
Filing date: 2023-05-12
Publication date: 2023-08-22

Abstract

本发明公开了一种面向餐桌场景的仿真数据集生成方法，包括如下步骤：S1、建立包含不同背景素材库以及包含不同种类餐盘和不同种类干扰物体的三维模型库；S2、通过步骤S1建立好的三维模型库，将环境背景及光照、餐盘的模型、干扰物体的模型导入渲染引擎中，通过渲染引擎渲染散乱场景并生成餐厅独立场景数据集和场景的连续帧数据集；S3、重复步骤S1‑S2生成餐厅场景中多种场景下不同餐盘不同菜品的RGB‑D多模态仿真数据集，并通过生成的数据集训练目标检测与位姿估计深度学习网络，实现真实餐厅场景中的菜品识别、餐盘的种类识别，以及个体级别的物体分割和位姿估计任务，以上方法能够大大降低人工成本和时间成本；获得的数据信息更加丰富。

Description

面向餐桌场景的仿真数据集生成方法与装置

技术领域

本发明涉及人工智能的技术领域，特别是涉及一种面向餐桌场景的仿真数据集生成方法与装置。

背景技术

随着企业对自动化、智能化的需求不断增加，人口红利的逐渐消失，疫情压力下各个产业的数字化变革不断发展，餐饮配送机器人逐渐步入餐厅，代替服务员进行送餐、回盘等重复机械的工作。一般来说，餐厅中的送餐过程是指厨师将菜品烹饪完成同餐盘一起放到出餐口后，由服务员将餐盘送到对应客人的餐桌上的过程。回盘过程一般是指服务员为了对餐盘进行清洗和整理，将餐桌上需要清洗的餐盘收回厨房的过程。在基于视觉引导的服务机器人自动送餐系统中，机器人需要对出餐口或餐桌上的餐盘进行种类识别，以及个体级别的物体分割和位姿估计，从而引导机械臂自行对餐盘进行准确地抓取，并放置到指定的位置。

近年来，基于深度学习的语义识别、物体检测和位姿估计的方法具有较高的时效性、准确性和泛化性，受到了非常广泛的研究和应用。然而，基于深度学习的方法通常需要大量高质量的数据对网络进行训练。目前，通过人工标注训练数据标签的方法需要大量的时间成本和人工成本，且误差较大，标注质量参差不齐，难以生成大规模高质量的训练数据。通过自动标注的方式生成仿真数据，不仅能够让标注数据更加精确，还能够节省大量的人工成本和时间成本，从而降低了生成大规模高质量数据的难度。此外，自动上餐及回盘机器人的研究作为一个新兴研究方向，目前业界内缺少对餐厅数据的收集和整理，同时缺乏面向基于视觉机器人系统对餐厅场景的餐盘同时进行种类识别、餐盘检测、实例分割、位姿估计等任务所设计的数据集。比如CN110765844A提出了一种基于对抗学习的非感应式餐盘图像数据自动标注方法，在没有标注标签的图像数据上自动标注餐盘的掩码图标签和包围框标签，所生成的数据只针对餐厅场景中餐盘的位置识别以及实例分割任务，无法做到对场景中物体的位姿进行训练监督。此外，对于餐厅场景来说，物体的模型也是数据集制作过程中非常重要的组成部分。然而，由于餐盘数据往往需要保密，而且采集困难，难以获得餐厅中餐盘的模型，这些因素对于餐厅场景数据集的制作也是很大的挑战。

因此，目前面向餐厅场景的深度学习数据集生成方法所生成的数据存在数据量不足、标签数据形式单一、场景复杂度较低、数据模态单一等问题，无法为基于深度学习的方法完成种类识别，以及个体级别的物体分割和位姿估计等任务提供所需要的数据，从而限制了基于深度学习的方法实现餐厅场景的场景理解等任务的研究和发展。

发明内容

为了解决目前面向餐厅场景的深度学习数据集生成方法所生成的数据存在数据量不足、标签数据形式单一、场景复杂度较低、数据模态单一等问题，无法为基于深度学习的方法完成种类识别，以及个体级别的物体分割和位姿估计等任务提供所需要的数据的技术问题，本发明的首要目的在于提供一种面向餐桌场景的仿真数据集生成方法，并基于该仿真数据集训练的深度学习网络模型在真实场景中进行推理，完成真实场景中物体的位姿估计任务。

本发明的技术问题通过以下的技术方案予以解决：

一种面向餐桌场景的仿真数据集生成方法，包括如下步骤：

S1、建立包含不同背景素材库以及包含不同种类餐盘、不同种类干扰物体的三维模型库；

S2、通过步骤S1建立好的背景素材库和物体三维模型库，将环境背景及光照、干扰物体和餐盘的模型导入渲染引擎中生成仿真的餐厅散乱场景，通过渲染引擎渲染散乱场景并生成餐厅独立场景格式的数据集和场景的连续帧格式的数据集；

S3、重复步骤S1-S2生成餐厅场景中多种场景下不同餐盘不同菜品的RGB-D多模态仿真数据集，并通过生成的所述数据集训练目标检测与位姿估计深度学习网络实现真实餐厅场景中的菜品识别、餐盘的种类识别，以及个体级别的物体分割和位姿估计任务。

在一些实施例中，步骤S1包括如下步骤：

S1-1、采集不同色彩和光照的环境背景，建立餐厅场景背景素材库；

S1-2、采集餐厅中包含不同菜品的不同种类餐盘、不同种类干扰物体的多视角RGB图片，并通过多视角RGB图片三维重建的方法，生成各个餐盘、干扰物体的三维模型；

S1-3、通过三维建模软件规整各个物体的三维模型在物体坐标系下的位姿、尺寸；

S1-4、通过采集到的背景数据以及物体的建模数据建立餐厅场景背景素材库、包含盛有不同菜品的多个种类待识别餐盘的三维模型库以及包含多个不同种类干扰物体的三维模型库。

在一些实施例中，步骤S1-1中，所述背景素材库的文件格式包含但不限于hdri；步骤S1-2中，所述多视角图片格式包括但不限于jpg、png、heic；步骤S1-3中，所述三维建模软件包括但不限于Meshlab。

在一些实施例中，步骤S2中，所述渲染引擎包括但不限于Blender、Renderman；所述渲染引擎中设置的仿真相机的参数包括但不限于相机生成图像的分辨率W×H、相机的焦距f、相机的传感器尺寸。

在一些实施例中，步骤S2中，所述通过渲染引擎渲染散乱场景并生成餐厅独立场景格式的数据集包括如下步骤：

a)根据实际机器人运动时，机器人的视觉传感器相对于桌面的位姿，设置仿真相机到桌面中心的距离范围及欧拉角范围；

b)设置生成仿真场景的个数N、每个场景包含餐盘的个数范围[m,n]、每个场景包含干扰物体的个数范围[a,b]；

c)对于每一个仿真场景的生成，首先在餐厅场景背景素材库中随机选取一个背景及光照；

d)生成随机数p(m≤p≤n)、d(a≤d≤b)；

e)在餐盘的三维模型库中随机选取一个餐盘种类，并在该餐盘种类中随机选取一个餐盘模型；

f)计算二维桌面上餐盘的可放置范围，并该范围内随机选取一点(x_p,y_p)；

g)将餐盘模型在该点以垂直于桌面的姿态，并在模型底部距离桌面上方1-2cm左右处摆放，作为餐盘模型的起始位置；

h)重复抽取餐盘模型且摆放位姿遵循上述步骤的约束，直至餐厅场景中餐盘的个数等于p；

i)在干扰物体的三维模型库中随机选取一个干扰物体的模型；

j)计算二维桌面上餐盘的可放置范围，并该范围内随机选取一点(x_p,y_p)；

k)将干扰物体的模型在该点以垂直于桌面的姿态或任意姿态并在模型底部距离桌面上方大于2cm处摆放，作为其起始位置；

l)重复抽取干扰物体的模型并重复上述步骤且摆放位置，遵循上述步骤的约束，直至餐厅场景中干扰物体的个数等于d；

m)渲染引擎平台对物体进行自由落体运动仿真和碰撞仿真，直到各个物体达到稳定状态，得到最终的餐厅仿真场景，渲染引擎平台自动获取各个物体的位姿和种类标签；

n)根据预先设定好的仿真相机的位姿范围，随机生成并记录仿真相机的位置和姿态；

o)生成仿真场景的RGB图像、餐盘像素级别的个体分割标注信息及餐盘的二维包围框以及仿真场景的深度图；

p)清空场景；

q)重复抽取背景及光照并遵循上述步骤的约束，直至生成场景的个数等于N。

在一些实施例中，步骤S2中，所述通过渲染引擎渲染散乱场景并生成餐厅场景的连续帧格式数据集包括如下步骤：

A)根据实际机器人运动时，机器人视觉传感器相对于桌面的位姿，设置仿真相机到桌面中心的距离范围及欧拉角范围，随机生成一个初始位姿；

B)设置生成仿真场景的个数N、每个场景的帧数F，每个场景包含餐盘的个数范围[m,n]、每个场景包含干扰物体的个数范围[a,b]；

C)在餐厅场景背景素材库中随机选取一个背景及光照；

D)生成随机数p(m≤p≤n)、d(a≤d≤b)；

L)重复抽取干扰物体的模型并重复上述步骤，且摆放位置遵循上述步骤的约束，直至餐厅场景中干扰物体的个数等于d；

N)根据预先设定好的仿真相机的位姿范围，按照具有一定运动规律的运动轨迹生成并记录仿真相机的位置和姿态，生成长度为F的有序位姿信息序列，序列中相邻的两个位姿之间变化较小，且模拟机器人的运动变化；

O)从位姿信息序列中按顺序选取未被选择过的位姿信息，生成仿真场景的RGB图像、餐盘像素级别的个体分割标注信息及餐盘的二维包围框以及仿真场景的深度图；

P)重复步骤O)F次，即该场景生成的帧数个数为F；

Q)清空场景；

R)重复抽取背景及光照并遵循上述步骤的约束，直至生成场景的个数大于N。

在一些实施例中，所述步骤o)和步骤O)中，所述生成仿真场景的RGB图像的具体步骤包括：首先根据选取的背景，设置仿真引擎中的环境和光源参数；然后读取环境、该场景内各个物体表面的材质、纹理和颜色；最后通过仿真相机拍摄场景生成仿真场景的RGB图像。

在一些实施例中，所述步骤o)和步骤O)中，所述生成像素级别的个体分割标注信息及干扰物体的二维包围框的具体步骤包括：首先预定义并计算不同餐盘种类、不同餐盘个体的颜色编码；然后属于同一个餐盘个体的像素点存储同一个颜色编码，即掩码图中属于同一物体的像素存储着相同的颜色编码值，该编码值能够区分属于不同种类、不同个体的餐盘；最后通过仿真相机生成并保存该场景的掩码图及二维包围框。

在一些实施例中，所述步骤o)和步骤O)中，所述生成仿真场景的深度图的具体步骤包括：首先设置读取仿真相机的最大深度值以及深度图的最大存储值；然后通过渲染引擎在读取范围内读取仿真相机到场景中所有可见表面的深度信息；最后将深度信息存储在每个像素中，通过仿真相机生成场景的深度图。

本发明还提出了一种上述的面向餐桌场景的仿真数据集生成方法的数据生成装置，包括：图像采集单元采集待识别菜品的多视角RGB图片并储存于存储单元Ⅰ；三维建模单元建立包含不同种类菜品的不同种类餐盘三维模型的三维模型库、不同干扰物体三维模型的三维模型库并存储于存储单元Ⅱ；渲染处理单元负责生成餐厅场景中餐盘的种类标注信息和位姿标注信息，以及该场景的RGB-D数据和每个餐盘的标注信息及标注数据，存储于存储单元Ⅲ；深度学习网络训练单元负责训练目标检测与位姿估计网络得到最终训练好的网络模型存储于存储单元Ⅳ中；网络模型推理单元负责预测真实的餐厅场景中各个场景的位姿结果并将其存储于存储单元Ⅴ中。

本发明与现有技术对比的有益效果包括：

本发明通过利用多视角三维重建的方式，对餐厅中的餐盘、杯子、食物等物体进行三维建模，并对建立的三维模型进行模型规整化，为数据集的生成提供数据支撑；利用自动标注的方式，通过对输入物体的三维模型进行运动仿真和场景渲染，可生成大批量用作训练深度学习网络的多模态仿真数据和标注信息，特别是不同餐盘的位姿标签信息等。相较于手动标注的方式，该方法能够大大降低数据集生成的人工成本和时间成本；同时该方法能够生成下的RGB-D仿真数据，相较于现有的RGB数据生成方法，该方法获得的数据信息更加丰富；且该方法能够生成餐厅场景中多种场景下不同餐盘不同菜品的RGB-D仿真数据集，适用于基于视觉引导的服务机器人系统等，为其提供了数据保障、评价标准，并在真实场景数据中实现了对复杂多变场景中物体的种类识别，以及个体级别的分割和位姿估计。

本发明实施例中的其他有益效果将在下文中进一步述及。

附图说明

图1是本发明实施例中面向餐桌场景的仿真数据集生成方法流程图；

图2是本发明实施例中面向餐桌场景的仿真数据集生成方法的具体流程图；

图3是本发明实施例中餐盘的三维模型存放格式示意图；

图4是本发明实施例中构建背景素材库和干扰物体三维模型库的流程图；

图5是本发明实施例中生成独立场景格式数据集的流程图；

图6是本发明实施例中独立场景格式数据集示意图；

图7是本发明实施例中生成场景的连续帧格式数据集的流程图；

图8是本发明实施例中某个场景的连续帧格式数据集示意图；

图9a是本发明实施例中某个餐厅场景的真实数据示意图；

图9b是本发明实施例中餐盘检测与位姿估计预测效果示意图；

图10是本发明实施例中数据生成装置示意图。

具体实施方式

下面对照附图并结合优选的实施方式对本发明作进一步说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本实施例中的左、右、上、下、顶、底等方位用语，仅是互为相对概念，或是以产品的正常使用状态为参考的，而不应该认为是具有限制性的。

为解决诸如基于视觉引导的服务机器人系统的场景理解等问题，如何提供一种面向餐厅场景、快速便捷地生成大批量多模态仿真训练数据的方法，从而实现菜品识别、餐盘的种类识别，以及个体级别的分割和位姿估计等任务，是本领域亟需解决的问题。

本发明实施例利用多视角三维重建的方式，对餐厅中的餐盘、杯子、食物等物体进行三维建模，并对建立的三维模型进行模型规整化，为数据集的生成提供数据支撑；利用自动标注的方式，通过输入物体的三维模型进行运动仿真和场景渲染，可生成大批量用作训练深度学习网络的多模态仿真数据和标注信息。相较于手动标注的方式能够大大降低人工成本和时间成本；与现有的RGB(一种颜色标准)数据集对比，本发明实施例提出的面向餐桌场景的仿真数据集生成方法可以生成场景的RGB-D(深度图像)多模态仿真数据；该方法能够生成餐厅场景中多种场景下不同餐盘不同菜品的RGB-D多模态仿真数据集，提出了一种适用于基于视觉引导的服务机器人系统的，能够实现对复杂多变场景中的菜品识别、餐盘的种类识别，以及个体级别的物体分割和位姿估计。

实施例：

本发明实施例提出了一种面向餐桌场景的仿真数据集生成方法，具体是生成不同背景的餐厅场景的RGB-D多模态仿真数据集的方法，主要面向以基于视觉机器人实现餐盘的自动送餐与回盘为例的应用场景。如图1所示该方法主要分为以下三个步骤进行：

S1、建立包含不同背景素材库以及包含不同种类餐盘和不同种类干扰物体的三维模型库；

S2、通过步骤S1建立好的背景素材库和三维模型库，将环境背景及光照、干扰物体和餐盘的模型导入渲染引擎中生成仿真的餐厅散乱场景，通过渲染引擎渲染散乱场景并生成餐厅独立场景格式的数据集和场景的连续帧格式的数据集；

S3、重复步骤S1-S2生成餐厅场景中多种场景下不同餐盘不同菜品的RGB-D多模态仿真数据集，并通过生成的所述数据集训练目标检测与位姿估计深度学习网络实现真实餐厅场景中的菜品识别、餐盘的种类识别，以及个体级别的分割和位姿估计任务。

具体描述如下：

S1、建立包含不同背景素材库以及包含不同种类干扰物体的三维模型库；

其中生成不同背景的素材库是指搜集不同的背景素材，集合形成一个可供搭建餐厅场景的背景素材库。

如图4所示，步骤S1还包括以下步骤：

S1-1、为了还原餐厅复杂多变的色彩与光照环境，采集不同色彩和光照的环境背景，根据实际需求建立不同背景的餐厅场景背景素材库；

S1-2、同时为了还原真实的餐厅出餐口或餐桌场景，根据实际需求采集包含不同菜品的不同种类餐盘以及不同种类的干扰物体(非需识别的物体)的多视角RGB图片，并通过多视角RGB图片三维重建的方法，生成各个餐盘、干扰物体的三维模型；

S1-4、通过采集到的背景数据以及建模数据，并基于多视角三维重建的方法分别建立餐厅场景背景素材库、盛有不同菜品的多个种类待识别餐盘的三维模型库以及包含多个不同种类干扰物体的三维模型库；

步骤S1利用多视角三维重建的方式，对餐厅中的餐盘、杯子、食物等物体进行三维建模，并对建立的三维模型进行模型规整化为数据集的生成提供数据支撑；

S2、为了模拟餐盘(餐盘中有菜品或无菜品)摆放在出餐口或餐桌旁等待机器人抓取的实际工作场景，在步骤S1建立好的背景素材库中随机选取不同的环境背景及光照作为场景背景，在三维模型库中随机选取干扰物体和餐盘的模型，将环境背景及光照、干扰物体的模型导入渲染引擎中生成仿真的餐厅桌面散乱场景，通过渲染引擎渲染散乱场景并生成餐厅独立场景格式的数据集和场景的连续帧格式的数据集；

其中物体模型包括了视觉系统待识别的餐盘模型和不需要视觉系统识别的干扰物体模型。步骤S2的具体操作如下：

首先对采样出的干扰物体以及餐盘模型按一定约束摆放在餐桌上，然后通过渲染仿真引擎中的动力学仿真计算，对这些物体进行自由落体运动仿真和碰撞仿真，待所有物体达到稳定状态后，通过仿真引擎自动标注并保存场景中每个餐盘的菜品的标签、餐盘的类别标签和位姿标签；

为了模拟基于视觉引导的机器人系统通过视觉传感器所得到的场景数据，根据实际相机的相关参数，设置渲染引擎中的仿真相机的参数，并以随机或按照一定约束的方式设置相机的位姿参数，从而为该场景分别生成深度图、RGB图、分割图，以及每个物体在图片中的包围框，并记录场景中的每个物体在相机坐标系下的位姿标注信息等。

步骤S2利用自动标注的方式，通过输入物体的三维模型进行运动仿真和场景渲染，可生成大批量用作训练深度学习网络的多模态仿真数据和标注信息。相较于手动标注的方式，利用渲染仿真引擎渲染和标注场景的方法能够大大降低人工成本和时间成本；同时该方法能够生成场景的RGB-D仿真数据，相较于现有的RGB数据生成方法，该方法获得的数据信息更加丰富；

S3、重复上述步骤即可生成大批量多模态仿真数据。具体生成餐厅场景中多种场景下不同餐盘不同菜品的RGB-D多模态仿真数据集，通过以上生成的数据集训练目标检测与位姿估计深度学习网络，可以通过基于位姿估计深度学习网络实现真实餐厅场景中的菜品识别、餐盘的种类识别，以及个体级别的物体分割和位姿估计任务。

本实施例提出的面向餐桌场景的仿真数据集生成方法能够生成餐厅场景中多种场景下不同餐盘不同菜品的RGB-D仿真数据集，适用于基于视觉引导的服务机器人系统等，为其提供了数据保障、评价标准，并在真实场景数据中实现了对复杂多变场景中物体的种类识别，以及个体级别的物体分割和位姿估计。

实验例：

本发明实施例是面向服务机器人在复杂多变的餐厅场景中的应用，提出了一种餐厅场景的RGB-D多模态仿真数据的生成方法。该方法通过自动标注的方式，可以依靠计算机自动快速地生成大批量用作深度学习网络训练的多模态仿真数据，并且在该数据集上训练的网络模型，能够在真实餐厅场景中实现餐盘的种类识别，以及个体级别的分割和位姿估计。以实现基于多模态传感器的视觉系统在餐厅场景下完成场景理解任务。

如图2所示，本实施例的面向餐桌场景的仿真数据集生成方法的具体流程描述如下：

S1、如图4所示，建立包含不同背景素材库、包含不同种类干扰物体的三维模型库以及包含不同种类餐盘的三维模型库；通过输入不同色彩和光照的环境背景和不同物体的多视角RGB图片；输出背景素材库和物体的三维模型库。

真实的餐厅场景中，出餐口和餐桌上往往包含了数十种不同的餐盘，每种餐盘可能包含了数十种不同的菜品，此外场景中可能还包含各种各样的干扰物体(无需视觉系统识别抓取的，例如筷子、勺子等)。在基于视觉的服务机器人自动送餐回盘系统中，需要预先为每一个物体构建一个三维模型。

然而目前餐盘数据由于保密、采集成本高等问题，缺少餐厅中装有不同菜品的不同种类餐盘的三维模型。为了构造与真实餐厅中常见的出餐口场景和餐桌场景相近的仿真场景，本发明实施例提出一种建立餐厅场景中物体的三维模型库的流程，其流程如图3所示。

首先，步骤S1-1中，采集不同色彩和光照的环境背景，建立餐厅场景背景素材库，其文件格式包含但不限于hdri等。

然后，步骤S1-2中，采集餐厅中包含不同菜品的不同种类餐盘、干扰物体的多视角图片，其格式包括但不限于jpg、png、heic等。

并通过多视角三维重建的方法重建出每个物体的三维模型，模型文件的格式包括但不限于obj、stl、step等，纹理信息文件的格式包括但不限于mtl等，贴图信息文件的格式包括但不限于jpg、png等。

而后，步骤S1-3中，通过三维建模软件规整物体三维模型在物体坐标系下的位姿、尺寸，建模软件包括但不限于Meshlab等。

最后，通过采集到的背景数据以及建模数据建立餐厅场景背景素材库、包含盛有不同菜品的多个种类待识别餐盘的三维模型库以及多个不同种类干扰物体的三维模型库。其中餐盘模型的存放格式如图3所示，将不同的餐盘作为一个种类，每个种类的餐盘模型中，包含了带有不同菜品的餐盘模型。

本发明实施例中利用渲染仿真引擎渲染和标注场景的方法，通过输入步骤S1中建立的背景素材库和物体的三维模型库，输出如下数据：N个独立场景下的深度图、RGB图、掩码图仿真数据，或N个独立场景下每个场景的F帧图像的深度图、RGB图、掩码图仿真数据(两种格式)。

具体操作如下：

为了生成餐厅场景的RGB-D仿真数据和标注信息，步骤S2中，根据实际相机的参数来设置渲染引擎中的仿真相机的参数，相机参数包括但不限于：相机生成图像的分辨率W×H(W水平方向上的像素数、H垂直方向上的像素数)、相机的焦距f、相机的传感器尺寸等。

通过步骤S1生成的背景素材库和物体的三维模型库，将环境背景及光照、物体的模型导入渲染引擎中，构造出包含不同种类餐盘、不同种类干扰物体的餐厅场景。

步骤S2中，所采用的渲染引擎包括但不限于：Blender、Renderman等。根据实际需求，本发明提出了两种格式的数据组成形式。为了得到更加复杂多变的场景数据，设计了独立场景格式的数据集，为了得到与机器人实际工作时所获取到的视觉信息更加符合的场景数据，设计了连续帧格式数据集，两种格式的数据集的生成流程如图5所示。

如图5所示，生成独立场景格式的数据集的具体操作如下：

首先，为了得到与实际机器人工作时所获取到的视觉信息相符合的数据，

a)根据实际机器人运动时机器人的视觉传感器相对于桌面的位姿，设置仿真相机到桌面中心的距离范围及欧拉角范围；

d)然后生成随机数p(m≤p≤n)、d(a≤d≤b)；

k)将干扰模型在该点以垂直于桌面的姿态或任意姿态并在模型底部距离桌面上方大于2cm处摆放，作为其起始位置；

l)重复抽取干扰物体的模型并重复上述步骤且摆放位置(姿态是随机的)遵循上述步骤的约束，直至餐厅场景中干扰物体的个数等于d；

o)生成仿真场景的RGB图像、像素级别的个体分割标注信息及干扰物体的二维包围框以及仿真场景的深度图；

具体操作如下：

为了得到仿真场景的RGB图像，其具体步骤包括：首先根据选取的背景，设置仿真引擎中的环境和光源参数。然后读取环境、该场景内各个物体表面的材质、纹理和颜色，最后通过仿真相机拍摄场景生成仿真场景的RGB图像。

为了得到像素级别的个体分割标注信息及物体的二维包围框，其具体步骤包括：首先预定义并计算不同餐盘个体的颜色编码，然后属于同一个餐盘个体的像素点存储同一个颜色编码，即掩码图中属于同一物体的像素存储着相同的颜色编码值，最后通过仿真相机生成并保存该场景的掩码图及2D包围框(即二维包围框)。

为了得到仿真场景的深度图，其具体步骤包括：首先设置读取仿真相机的最大深度值以及深度图的最大存储值，而后通过渲染引擎在读取范围内读取仿真相机到场景中所有可见表面的深度信息，最后将深度信息存储在每个像素中，通过仿真相机生成场景的深度图。

p)清空场景；

生成的独立场景格式的数据集示意图如图6所示，其中每一行都代表了本实施例构造的不同的独立仿真场景；

第一列的图像为该场景的RGB图像，图中包含了背景库中随机选取的背景，物体模型库中随机选取的餐盘模型和干扰物体模型；

第二列的图像为该场景的深度图像，该深度图像记录的是仿真相机获取到的在相机坐标系下，场景中物体的表面到相机的z坐标；

第三列的图像为该场景的分割图，可以看到RGB图中属于餐盘的模型(即需要视觉系统识别的物体)被标注上了不同的颜色，属于同一模型的物体被标注上了同一颜色。

如图7所示，对于如何生成某个场景的连续帧格式数据集的描述如下：

为了模拟实际机器人在工作时采集到的视觉数据，本发明针对一个构造好的仿真餐厅场景，在每次生成RGB-D数据前以较小的位姿变化变换相机的位姿，采集相机在相机位姿下连续对同一场景进行拍摄所生成的连续帧格式的数据，其流程如图6所示，与独立场景格式数据集的生成流程大致相同，某个场景的连续帧格式数据集具体内容如图7所示。

生成某个场景的连续帧格式数据集的具体操作如下：

A)根据实际机器人运动时，机器人的视觉传感器相对于桌面的位姿，设置仿真相机到桌面中心的距离范围及欧拉角范围，随机生成一个初始位姿；

C)在餐厅场景背景素材库中随机选取一个背景及光照；

D)生成随机数p(m≤p≤n)、d(a≤d≤b)；

L)重复抽取干扰物体的模型并重复上述步骤且摆放位置，遵循上述步骤的约束，直至餐厅场景中餐盘的个数等于d；

具体操作如下：

P)重复步骤O)F次，即该场景生成的帧数个数为F；

Q)清空场景；

生成的某个场景的连续帧格式数据集示意图如图8所示，其中每一行都代表了本实施例构造的一个连续帧场景，即在同一个场景下相机在沿某个轨迹缓慢运动时，连续对该场景进行拍摄，得到不同的连续帧；

第一列的图像为该场景的RGB图像，图中包含背景库中随机选取的背景，以及物体模型库中随机选取的餐盘模型和干扰物体模型；

本发明实施例具有如下有益效果：

本发明实施例利用多视角三维重建的方式，对餐厅中的餐盘、杯子、食物等物体进行三维建模，并对建立的三维模型进行模型规整化，为数据集的生成提供数据支撑；利用自动标注的方式，通过输入物体的三维模型进行运动仿真和场景渲染，可生成大批量用作训练深度学习网络的多模态仿真数据和标注信息。相较于手动标注的方式，该方法能够大大降低人工成本和时间成本；同时该方法能够生成下的RGB-D仿真数据，相较于现有的RGB数据生成方法，该方法获得的数据信息更加丰富；且该方法能够生成餐厅场景中多种场景下不同餐盘不同菜品的RGB-D仿真数据集，适用于基于视觉引导的服务机器人系统等，为其提供了数据保障、评价标准，并在真实场景数据中实现了对复杂多变场景中物体的种类识别，以及个体级别的分割和位姿估计。

比较例：

本实施例通过生成的数据集训练目标检测深度学习网络与位姿估计深度学习网络，在如图9a所示的真实场景中实现了菜品及其餐盘进行种类识别，以及个体级别的分割和位姿估计，具体操作如下：通过真实的相机在真实的餐厅场景中采集了包含真实餐盘和菜品的真实的RGB-D数据。然后将该真实的RGB-D数据通过经仿真数据集所训练的现有位姿估计网络模型，预测出每个餐盘的位姿；之后通过可视化的方法，即将每个物体模型通过预测出的位姿变换到场景中，通过观察变换后的物体模型是否与场景中的物体重合其效果图如图9b所示；其中，纯色的物体模型和包围盒表示网络的预测结果，原场景的场景即为采集到的场景点云。具体操作如下：

为使得视觉机器人基于深度学习的方法对茶餐厅中的笼屉进行识别和抓取，首先需要按照本实施例的步骤构建一个大型的RGB-D仿真数据集，而后通过深度学习算法在数据集上进行训练，得到训练好的深度学习模型，而后将该模型部署于基于视觉的机器人系统中，使得该系统能够通过视觉传感器获得场景数据，将场景数据作为深度学习模型的输入，经过深度学习模型预测出场景中物体的位姿信息，从而使得机器人能够根据该位姿信息进行抓取。

在面向餐厅场景的场景理解感知任务中，现有技术多以面向目标检测任务为主，缺乏面向位姿估计任务的数据集。比如CN110765844A提出了一种基于对抗学习的非感应式餐盘图像数据自动标注方法，在没有标注标签的图像数据上自动标注餐盘的掩码图标签和包围框标签，所生成的数据只针对餐厅场景中餐盘的位置识别以及实例分割任务，无法做到对场景中物体的位姿进行训练监督。此外，对于餐厅场景来说，物体的模型也是数据集制作过程中非常重要的组成部分。然而，由于餐盘数据往往需要保密，而且采集困难，这些因素对于餐厅场景数据集的制作也是很大的挑战。

综上，目前面向餐厅场景的深度学习数据集生成方法所生成的数据存在数据量不足、标签数据形式单一、场景复杂度较低、数据模态单一等问题，无法为基于深度学习的方法完成种类识别，以及个体级别的分割和位姿估计等任务提供所需要的数据，从而限制了基于深度学习实现餐厅场景的场景理解等任务的研究和发展。

数据的生成及应用装置构成如图10所示，首先图像采集单元采集待识别菜品的多视角RGB图片并储存于存储单元Ⅰ；然后，三维建模单元负责建立包含不同种类菜品的不同种类餐盘模型的三维模型库、包含不同干扰物体模型的三维模型库并存储于存储单元Ⅱ；然后，渲染处理单元负责生成餐厅场景中餐盘的种类标注信息和位姿标注信息，以及该场景的RGB-D数据和每个餐盘的标注信息及数据，并存储于存储单元Ⅲ；最后，深度学习网络训练单元负责训练目标检测与位姿估计网络，从而得到最终训练好的网络模型，并存储于存储单元Ⅳ中；网络模型推理单元负责预测真实的餐厅场景中各个物体的位姿结果并将其存储于存储单元Ⅴ中。

针对现有技术缺乏对餐厅数据的定义和采集，以及缺乏餐盘的三维模型数据的问题，本发明实施例利用多视角三维重建的方式，对餐厅中的餐盘、杯子、食物等物体进行三维建模，并对建立的三维模型进行模型规整化，为数据集的生成提供数据支撑。

针对现有技术大部分需依靠人工手动标注的方式生成数据的标注信息的问题，本发明实施例通过自动标注的方式，自动生成大批量与真实世界相近的仿真数据。

针对现有技术所生成的数据仅提供RGB的数据的问题，本发明能够生成场景的RGB-D多模态数据。

现有技术缺乏对餐厅场景数据集的设计和构造，部分现有技术虽然是面向餐厅场景，但所生成的训练数据集存在缺乏位姿标签、物体种类相对单一、场景复杂度较低、数据模态单一等问题，无法实现对餐厅场景中餐盘的种类识别，以及个体级别的分割和位姿估计任务，针对上述现有技术的问题，本发明实施例能够生成面向餐厅场景的仿真数据，从而可以通过基于深度学习的方法实现真实餐厅场景中的菜品识别、餐盘的种类识别，以及个体级别的分割和位姿估计任务。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围。

Claims

1.一种面向餐桌场景的仿真数据集生成方法，其特征在于，包括如下步骤：

S2、通过步骤S1建立好的背景素材库和三维模型库，将环境背景及光照、干扰物体和餐盘的模型导入渲染引擎中生成仿真的餐厅桌面散乱场景，通过渲染引擎渲染散乱场景并生成餐厅独立场景格式的数据集和场景的连续帧格式的数据集；

S3、重复步骤S1-S2生成餐厅场景中多种场景下不同餐盘不同菜品的RGB-D多模态仿真数据集，并通过生成的所述数据集训练目标检测与位姿估计深度学习网络，从而实现真实餐厅场景中的菜品识别、餐盘的种类识别，以及个体级别的物体分割和位姿估计任务。

2.如权利要求1所述的面向餐桌场景的仿真数据集生成方法，其特征在于，步骤S1包括如下步骤：

S1-2、采集餐厅中包含不同菜品的不同种类餐盘、干扰物体的多视角RGB图片，并通过多视角RGB图片三维重建的方法，生成各个餐盘、干扰物体的三维模型；

S1-4、通过采集到的背景数据以及物体的建模数据，建立餐厅场景背景素材库、包含盛有不同菜品的多个种类待识别餐盘的三维模型库以及包含多个不同种类干扰物体的三维模型库。

3.如权利要求2所述的面向餐桌场景的仿真数据集生成方法，其特征在于，步骤S1-1中，所述背景素材库的文件格式包含但不限于hdri；步骤S1-2中，所述多视角图片格式包括但不限于jpg、png、heic；步骤S1-3中，所述三维建模软件包括但不限于Meshlab。

4.如权利要求1所述的面向餐桌场景的仿真数据集生成方法，其特征在于，步骤S2中，所述渲染引擎包括但不限于Blender、Renderman；所述渲染引擎中设置的仿真相机的参数包括但不限于相机生成图像的分辨率W×H、相机的焦距f、相机的传感器尺寸。

5.如权利要求1所述的面向餐桌场景的仿真数据集生成方法，其特征在于，步骤S2中，所述通过渲染引擎渲染散乱场景并生成餐厅独立场景格式的数据集包括如下步骤：

d)生成随机数p(m≤p≤n)、d(a≤d≤b)；

p)清空场景；

6.如权利要求1所述的面向餐桌场景的仿真数据集生成方法，其特征在于，步骤S2中，所述通过渲染引擎渲染散乱场景并生成餐厅场景的连续帧格式数据集包括如下步骤：

A)根据实际机器人运动时机器人视觉传感器相对于桌面的位姿，设置仿真相机到桌面中心的距离范围及欧拉角范围，随机生成一个初始位姿；

C)在餐厅场景背景素材库中随机选取一个背景及光照；

D)生成随机数p(m≤p≤n)、d(a≤d≤b)；

O)从位姿信息序列中按顺序逐个选取未被选择过的位姿信息，生成仿真场景的RGB图像、餐盘像素级别的个体分割标注信息及餐盘的二维包围框以及仿真场景的深度图；

P)重复步骤O)F次，即该场景生成的帧数个数为F；

Q)清空场景；

7.如权利要求5或6所述的面向餐桌场景的仿真数据集生成方法，其特征在于，所述步骤o)和步骤O)中，所述生成仿真场景的RGB图像的具体步骤包括：首先根据选取的背景，设置仿真引擎中的环境和光源参数；然后读取环境、该场景内各个物体表面的材质、纹理和颜色；最后通过仿真相机拍摄场景生成仿真场景的RGB图像。

8.如权利要求5或6所述的面向餐桌场景的仿真数据集生成方法，其特征在于，所述步骤o)和步骤O)中，所述生成像素级别的个体分割标注信息及餐盘的二维包围框的具体步骤包括：首先预定义并计算不同餐盘种类、不同餐盘个体的颜色编码；然后属于同一个餐盘个体的像素点存储同一个颜色编码，即掩码图中属于同一物体的像素存储着相同的颜色编码值，该编码值能够区分属于不同种类、不同个体的餐盘；最后通过仿真相机生成并保存该场景中餐盘的掩码图及二维包围框。

9.如权利要求5或6所述的面向餐桌场景的仿真数据集生成方法，其特征在于，所述步骤o)和步骤O)中，所述生成仿真场景的深度图的具体步骤包括：首先设置读取仿真相机的最大深度值以及深度图的最大存储值；然后通过渲染引擎在读取范围内读取仿真相机到场景中所有可见表面的深度信息；最后将深度信息存储在每个像素中，通过仿真相机生成场景的深度图。

10.一种如权利要求1-9任一项所述的面向餐桌场景的仿真数据集生成方法的数据生成装置，其特征在于，包括：图像采集单元采集待识别菜品的多视角RGB图片并储存于存储单元Ⅰ；三维建模单元建立包含不同种类菜品的不同种类餐盘三维模型的三维模型库、建立不同干扰物体三维模型的三维模型库并存储于存储单元Ⅱ；渲染处理单元负责生成餐厅场景中餐盘的种类标注信息和位姿标注信息，以及该场景的RGB-D数据和每个餐盘的标注信息及标注数据，存储于存储单元Ⅲ；深度学习网络训练单元负责训练目标检测与位姿估计网络，得到最终训练好的网络模型存储于存储单元Ⅳ中；网络模型推理单元负责预测真实的餐厅场景中各个物体的位姿结果并将其存储于存储单元Ⅴ中。