CN117408304B

CN117408304B - 6d姿态预测神经网络模型系统及方法

Info

Publication number: CN117408304B
Application number: CN202311713882.1A
Authority: CN
Inventors: 陈虎; 涂燕晖; 姚振杰; 陈一昕
Original assignee: Jiangsu Future Network Group Co ltd
Current assignee: Jiangsu Future Network Group Co ltd
Priority date: 2023-12-14
Filing date: 2023-12-14
Publication date: 2024-02-27
Anticipated expiration: 2043-12-14
Also published as: CN117408304A

Abstract

本申请实施例提供一种6D姿态预测神经网络模型系统及方法，该神经网络模型包括特征提取模块、Embedding模块以及分类和回归模块；特征提取模块用于通过预训练的VGG19的前16个卷积层或VGG16的前13个卷积层提取RGB‑D图像中不同尺寸的3D特征图；Embedding模块用于对不同尺寸的3D特征图进行卷积、反卷积和加权求和操作，生成用于多对象分类预测的第一特征图集合和用于多对象中心坐标回归预测的第二特征图集合；分类和回归模块用于第一特征图集合和第二特征图集合计算出每一对象的3D转换矩阵，完成多对象的3D转换矩阵的预测，以及确定每一对象的3D旋转角，以完成多对象的3D旋转角的回归预测。

Description

6D姿态预测神经网络模型系统及方法

技术领域

本申请涉及机器视觉技术领域，特别涉及一种6D姿态预测神经网络模型系统及方法。

背景技术

当前已经出现由弱人工智能向强人工智能转化的趋势，然而我们希望让护理机器人拥有面向强人工智能的行为能力，能够全天候提供病人的床旁护理服务，除了能够与病人进行会话交流外，还能够自主帮助患者起居、康复训练、用餐、取药换药等工作。而要护理机器人实现上述功能，就得让护理机器人知道目标物体的空间相对坐标以及目标物体的移动方向。护理机器人通过深度照相机获取动态目标的图像数据，其内置的神经网络算法会根据实时抓拍的图像数据，完成目标物体的空间相对坐标及移动方向的预测。上述神经网络技术被称为6D姿态预测技术，在机器视觉领域应用较广。除了机器人外，汽车的无人驾驶系统、无人机察打一体系统以及巡飞弹自主巡航系统也在广泛应用6D姿态预测技术。

6D就是物体的六个自由度，其中三个自由度为物体图像坐标映射到相机坐标的转换矩阵，它是用来帮助机器人确定物体的空间位置参数；另外三个自由度为对象在空间中的三维旋转角，它是用来帮助机器人确定对象的动态转动参数。Hong等使用Multi-taskCascaded Convolutional Networks (MTCNN)完成RGB图像的2D目标检测，并基于得到的对象边界框计算出转换矩阵；另外，他们使用Q-net算法完成对象旋转角(四元数)的回归预测。然而MTCNN是针对人脸识别开发的神经网络算法，该算法使用滑动窗口及非极大值抑制等方法确定的最佳边界框的方式适用于小图像，对于包含更多对象的大尺寸图像耗时较为严重。另外，通过矩形框划定物体区域作为目标检测的标签，已训练的MTCNN将会把最佳的矩形区域作为该对象，但不规则对象外轮廓并非矩形，这将导致不规则对象质心与该矩形质心偏差较大，影响旋转角的预测准确度。

因此，现有技术存在缺陷，有待改进与发展。

发明内容

本申请实施例提供一种6D姿态预测神经网络模型系统及方法，能够提高对象3D转换矩阵预测的准确性和对象旋转角回归预测的准确性，从而提高护理机器人的行为能力。

本申请实施例提供一种6D姿态预测神经网络模型系统，包括特征提取模块、Embedding模块以及分类和回归模块；

所述特征提取模块用于通过预训练的VGG19的前16个卷积层或VGG16的前13个卷积层提取RGB-D图像中不同尺寸的3D特征图；

所述Embedding模块用于对不同尺寸的所述3D特征图进行卷积、反卷积和加权求和操作，生成用于多对象分类预测的第一特征图集合和用于多对象中心坐标回归预测的第二特征图集合；

所述分类和回归模块用于对所述第一特征图集合进行处理，以获取每一对象的像素级别的二分类预测结果，以及对所述第二特征图集合进行处理，以获取每一所述对象的像素空间位置参数的回归预测结果，并将所述像素级别的二分类预测结果和所述像素空间位置参数的回归预测结果输入至Hough-Voting层，通过所述Hough-Voting层确定每一对象的中心点空间位置以及深度，以计算出每一所述对象的3D转换矩阵，完成多对象的3D转换矩阵的预测；

所述分类和回归模块还用于基于每一所述对象的所述像素级别的二分类预测结果和所述对象的所述中心点空间位置确定出每一所述对象的矩形边界框，并通过ROIpooling层从所述VGG19或VGG16的三个预设卷积层中剪裁出第三特征图集、第四特征图集和第五特征图集，以及将所述第三特征图集、第四特征图集和第五特征图集输入至具有预设神经元个数的多层感知机中，通过所述多层感知机确定每一所述对象的3D旋转角，以完成多对象的3D旋转角的回归预测。

在本申请实施例所述的6D姿态预测神经网络模型系统中，所述Embedding模块用于对不同尺寸的所述3D特征图进行卷积、反卷积和加权求和操作，生成用于多对象分类预测的第一特征图集合和用于多对象中心坐标回归预测的第二特征图集合，包括：

所述Embedding模块用于对所述VGG19的第16个所述卷积层或VGG16的第13个所述卷积层中的所述3D特征图进行卷积和反卷积操作，得到第一操作结果，并将所述第一操作结果与所述VGG19的第12个所述卷积层或VGG16的第10个所述卷积层中的所述3D特征图执行卷积操作后得到的结果进行加权求和操作，得到第二操作结果，以及将所述第二操作结果进行反卷积和卷积操作，得到第三操作结果，将所述第三操作结果与所述VGG19的第8个所述卷积层或VGG16的第7个所述卷积层中的所述3D特征图执行卷积操作后得到的结果进行加权求和、反卷积和卷积操作，生成所述用于多对象分类预测的第一特征图集合；

所述Embedding模块还用于对所述VGG19的第16个所述卷积层获取VGG16的第13卷积层中的所述3D特征图执行卷积和反卷积操作，得到第四操作结果，并将所述第四操作结果与所述VGG19的第12个所述卷积层或VGG16的第10个所述卷积层中的所述3D特征图执行卷积操作后得到的结果进行加权求和操作，得到第五操作结果，以及将所述第五操作结果进行反卷积和卷积操作，得到第六操作结果，将所述第六操作结果与所述VGG19的第8个所述卷积层或VGG16的第7个所述卷积层中的所述3D特征图执行卷积后的结果进行加权求和、反卷积和卷积操作，生成所述用于多对象中心坐标回归预测的第二特征图集合。

在本申请实施例所述的6D姿态预测神经网络模型系统中，所述将所述第三操作结果与所述VGG19的第8个所述卷积层或VGG16的第7个所述卷积层中的所述3D特征图执行卷积操作后得到的结果进行加权求和、反卷积和卷积操作，生成所述用于多对象分类预测的第一特征图集合，包括：

将所述第三操作结果与所述VGG19的第8个所述卷积层或VGG16的第7个所述卷积层中的所述3D特征图执行卷积操作后得到的结果进行加权求和操作，将所述加权求和操作得到的结果进行反卷积操作，将所述反卷积操作得到的结果进行卷积操作，得到所述用于多对象分类预测的第一特征图集合。

在本申请实施例所述的6D姿态预测神经网络模型系统中，所述通过所述Hough-Voting层确定每一对象的中心点空间位置以及深度，以计算出每一所述对象的3D转换矩阵，完成多对象的3D转换矩阵的预测，包括：

通过所述Hough-Voting层生成每一像素点作为对象候选中心点时的像素点分值，得到所有像素点的所述像素点分值，并将所有所述像素点分值按分值从大到小的顺序排列，使用KMeans聚类方法将像素点分值大于或等于预设像素点分数阈值的像素点进行聚类操作，以确定每一对象的中心点空间位置以及深度，根据相机坐标与图像坐标的映射关系，计算出每个对象的3D转换矩阵，完成多对象的3D转换矩阵的预测。

在本申请实施例所述的6D姿态预测神经网络模型系统中，所述并通过ROIpooling层从所述VGG19或VGG16的三个预设卷积层中剪裁出第三特征图集、第四特征图集和第五特征图集，包括：

通过ROI pooling层按照所述矩形边界框在原图像中的位置及比例从所述VGG19的第16个所述卷积层或VGG16的第13个所述卷积层中的所述3D特征图中剪裁出所述第三特征图集，从所述VGG19的第12个所述卷积层或VGG16的第10个所述卷积层中的所述3D特征图中剪裁出所述第四特征图集，以及从所述VGG19的第8个所述卷积层或VGG16的第7个所述卷积层中的所述3D特征图中剪裁出所述第五特征图集。

本申请实施例还提供一种护理机器人的6D姿态预测神经网络模型系统，包括多个以上任一实施例所述的6D姿态预测神经网络模型系统，部分所述6D姿态预测神经网络模型系统通过预训练的VGG19的前16个卷积层提取RGB-D图像中不同尺寸的3D特征图，余下部分所述6D姿态预测神经网络模型系统通过预训练的VGG16的前13个卷积层提取所述RGB-D图像中不同尺寸的3D特征图。

本申请实施例还提供一种6D姿态预测方法，用于以上任一实施例所述的6D姿态预测神经网络模型系统，所述方法包括：

通过预训练的VGG19的前16个卷积层或VGG16的前13个卷积层提取RGB-D图像中不同尺寸的3D特征图；

对不同尺寸的所述3D特征图进行卷积、反卷积和加权求和操作，生成用于多对象分类预测的第一特征图集合和用于多对象中心坐标回归预测的第二特征图集合；

对所述第一特征图集合进行处理，以获取每一对象的像素级别的二分类预测结果，以及对所述第二特征图集合进行处理，以获取每一所述对象的像素空间位置参数的回归预测结果；

将所述像素级别的二分类预测结果和所述像素空间位置参数的回归预测结果输入至Hough-Voting层，通过所述Hough-Voting层确定每一对象的中心点空间位置以及深度，以计算出每一所述对象的3D转换矩阵，完成多对象的3D转换矩阵的预测；

基于每一所述对象的所述像素级别的二分类预测结果和所述对象的所述中心点空间位置确定出每一所述对象的矩形边界框，并通过ROI pooling层从所述VGG19或VGG16的三个预设卷积层中剪裁出第三特征图集、第四特征图集和第五特征图集；

将所述第三特征图集、第四特征图集和第五特征图集输入至具有预设神经元个数的多层感知机中，通过所述多层感知机确定每一所述对象的3D旋转角，以完成多对象的3D旋转角的回归预测。

在本申请实施例所述的6D姿态预测方法中，所述对不同尺寸的所述3D特征图进行卷积、反卷积和加权求和操作，生成用于多对象分类预测的第一特征图集合和用于多对象中心坐标回归预测的第二特征图集合，包括：

对所述VGG19的第16个所述卷积层或VGG16的第13个所述卷积层的所述3D特征图进行卷积和反卷积操作，得到第一操作结果；

将所述第一操作结果与所述VGG19的第12个所述卷积层或VGG16的第10个所述卷积层的所述3D特征图执行卷积操作后得到的结果进行加权求和操作，得到第二操作结果；

将所述第二操作结果进行反卷积和卷积操作，得到第三操作结果，将所述第三操作结果与所述VGG19的第8个所述卷积层或VGG16的第7个所述卷积层中的所述3D特征图执行卷积操作后得到的结果进行加权求和、反卷积和卷积操作，生成所述用于多对象分类预测的第一特征图集合；

对所述VGG19的第16个所述卷积层获取VGG16的第13卷积层执行卷积和反卷积操作，得到第四操作结果；

将所述第四操作结果与所述VGG19的第12个所述卷积层或VGG16的第10个所述卷积层中的所述3D特征图执行卷积操作后得到的结果进行加权求和操作，得到第五操作结果；

将所述第五操作结果进行反卷积和卷积操作，得到第六操作结果，将所述第六操作结果与所述VGG19的第8个所述卷积层或VGG16的第7个所述卷积层执行卷积后的结果进行加权求和、反卷积和卷积操作，生成所述用于多对象中心坐标回归预测的第二特征图集合。

在本申请实施例所述的6D姿态预测方法中，所述通过所述Hough-Voting层确定每一对象的中心点空间位置以及深度，以计算出每一所述对象的3D转换矩阵，完成多对象的3D转换矩阵的预测，包括：

通过所述Hough-Voting层生成每一像素点作为对象候选中心点时的像素点分值，得到所有像素点的所述像素点分值；

将所有所述像素点分值按分值从大到小的顺序排列，使用KMeans聚类方法将像素点分值大于或等于预设像素点分数阈值的像素点进行聚类操作，以确定每一对象的中心点空间位置以及深度；

根据相机坐标与图像坐标的映射关系，计算出每个对象的3D转换矩阵，完成多对象的3D转换矩阵的预测。

在本申请实施例所述的6D姿态预测方法中，所述并通过ROI pooling层从所述VGG19或VGG16的三个预设卷积层中剪裁出第三特征图集、第四特征图集和第五特征图集，包括：

通过ROI pooling层按照所述矩形边界框在原图像中的位置及比例从所述VGG19的第16个所述卷积层或VGG16的第13个所述卷积层中的所述3D特征图中剪裁出所述第三特征图集；

通过ROI pooling层按照所述矩形边界框在原图像中的位置及比例从所述VGG19的第12个所述卷积层或VGG16的第10个所述卷积层中的所述3D特征图中剪裁出所述第四特征图集；

通过ROI pooling层按照所述矩形边界框在原图像中的位置及比例从所述VGG19的第8个所述卷积层或VGG16的第7个所述卷积层中的所述3D特征图中剪裁出所述第五特征图集。

本申请实施例提供的6D姿态预测神经网络模型系统，包括特征提取模块、Embedding模块以及分类和回归模块，特征提取模块通过VGG19的前16个卷积层或VGG16的前13个卷积层提取RGB-D图像中不同尺寸的3D特征图，Embedding模块对不同尺寸的3D特征图进行卷积、反卷积和加权求和操作，生成用于多对象分类预测的第一特征图集合和用于多对象中心坐标回归预测的第二特征图集合，分类和回归模块对第一特征图集合进行处理，以获取每一对象的像素级别的二分类预测结果，以及对第二特征图集合进行处理，以获取每一对象的像素空间位置参数的回归预测结果，并将像素级别的二分类预测结果和像素空间位置参数的回归预测结果输入至Hough-Voting层，通过Hough-Voting层确定每一对象的中心点空间位置以及深度，以计算出每一对象的3D转换矩阵，完成多对象的3D转换矩阵的预测；分类和回归模块基于每一对象的像素级别的二分类预测结果和对象的中心点空间位置确定出每一对象的矩形边界框，并通过ROI pooling层从VGG19或VGG16的三个预设卷积层中剪裁出第三特征图集、第四特征图集和第五特征图集，以及将第三特征图集、第四特征图集和第五特征图集输入至具有预设神经元个数的多层感知机中，通过多层感知机确定每一对象的3D旋转角，以完成多对象的3D旋转角的回归预测，从而本申请实施例的6D姿态预测神经网络模型系统能够提高对象3D转换矩阵预测的准确性和对象旋转角回归预测的准确性，从而提高护理机器人的行为能力。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的6D姿态预测神经网络模型系统的结构示意图。

图2为本申请实施例提供的遗传算法流程示意图。

图3为本申请实施例提供的遗传算法优化超参数结果的可视化图。

图4为本申请实施例提供的Hough Voting的示意图。

图5为本申请实施例提供的护理机器人的6D姿态预测神经网络模型系统的结构示意图。

图6为本申请实施例提供的护理机器人的6D姿态预测神经网络模型系统实施例的设计流程图。

图7为本申请实施例提供的GAN的结构示意图。

图8为本申请实施例提供的6D姿态预测方法的流程示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本申请的保护范围。

本申请实施例提供一种6D姿态预测神经网络模型系统（MPoseCNN，ModifiedPoseCNN），其中，MPoseCNN也叫基学习器，MPoseCNN的结构图如图1所示，参考图1，该6D姿态预测神经网络模型系统包括特征提取模块、Embedding模块以及分类和回归模块。

特征提取模块用于通过预训练的VGG19的前16个卷积层（或VGG16的前13个卷积层）提取RGB-D图像中不同尺寸的3D特征图。其中，涉及三种类型的层，分别为0号层(RGB图像输入层)、1号层(卷积和Relu激活层)、2号层(最大池化层)。1号层与2号层交替完成卷积和池化操作，可以提取局部到全局的图像特征空间信息，为Embedding模块的搭建提供特征图集。

护理机器人的深度摄像机实时抓拍到多目标的物体图像，获取RGB-D数据，其中RGB表示该图像为红(R)、绿(G)、蓝(B)三个颜色通道的叠加图，D表示相机距离目标物体的深度。我们将每个颜色通道的分辨率都调整为224x224，那么一张图像的大小可用224x224x3个像素点表示。如图1所示，如果采用预训练的VGG19提取特征信息，则该特征提取模块包含六个部分：[0_224x224x3]^Ⅰ→[1_224x224x64→1_224x224x64]^Ⅱ→[2_112x112x64→1_112x112x128→1_112x112x128]^Ⅲ→[2_56x56x128→1_56x56x256→1_56x56x256→1_56x56x256→1_56x56x256]^Ⅳ→[2_28x28x256→1_28x28x512→1_28x28x512→1_28x28x512→1_28x28x512]^Ⅴ→[2_14x14x512→1_14x14x512→1_14x14x512→1_14x14x512→1_14x14x512]^Ⅵ。我们以[1_224x224x64→1_224x224x64]^Ⅱ为例，“1”表示1号层；“224x224x64”表示1号层输出的特征图尺寸224x224，特征图的个数为64个；“→”表示将前一个1号层的输出作为紧邻的下一个1号层的输入；“Ⅱ”表示VGG19的第二部分；“[]”用来表示该部分具体包括的层。如果采用预训练的VGG16提取特征信息，则该特征提取模块包含六个部分：[0_224x224x3]^Ⅰ→[1_224x224x64→1_224x224x64]^Ⅱ→[2_112x112x64→1_112x112x128→1_112x112x128]^Ⅲ→[2_56x56x128→1_56x56x256→1_56x56x256→1_56x56x256]^Ⅳ→[2_28x28x256→1_28x28x512→1_28x28x512→1_28x28x512]^Ⅴ→[2_14x14x512→1_14x14x512→1_14x14x512→1_14x14x512]^Ⅵ。通过此方式提取到RGB-D图像中不同尺寸的3D特征图。

所述Embedding模块用于对不同尺寸的所述3D特征图进行卷积、反卷积和加权求和操作，生成用于多对象分类预测的第一特征图集合和用于多对象中心坐标回归预测的第二特征图集合。

在一些实施例中，所述Embedding模块用于对不同尺寸的所述3D特征图进行卷积、反卷积和加权求和操作，生成用于多对象分类预测的第一特征图集合和用于多对象中心坐标回归预测的第二特征图集合，包括：

所述Embedding模块用于对所述VGG19的第16个所述卷积层（或VGG16的第13个所述卷积层）中的所述3D特征图进行卷积和反卷积操作，得到第一操作结果，并将所述第一操作结果与所述VGG19的第12个所述卷积层（或VGG16的第10个所述卷积层）中的所述3D特征图执行卷积操作后得到的结果进行加权求和操作，得到第二操作结果，以及将所述第二操作结果进行反卷积和卷积操作，得到第三操作结果，将所述第三操作结果与所述VGG19的第8个所述卷积层（或VGG16的第7个所述卷积层）中的所述3D特征图执行卷积操作后得到的结果进行加权求和、反卷积和卷积操作，生成所述用于多对象分类预测的第一特征图集合；

所述Embedding模块还用于对所述VGG19的第16个所述卷积层（获取VGG16的第13卷积层）中的所述3D特征图执行卷积和反卷积操作，得到第四操作结果，并将所述第四操作结果与所述VGG19的第12个所述卷积层（或VGG16的第10个所述卷积层）中的所述3D特征图执行卷积操作后得到的结果进行加权求和操作，得到第五操作结果，以及将所述第五操作结果进行反卷积和卷积操作，得到第六操作结果，将所述第六操作结果与所述VGG19的第8个所述卷积层（或VGG16的第7个所述卷积层）中的所述3D特征图执行卷积后的结果进行加权求和、反卷积和卷积操作，生成所述用于多对象中心坐标回归预测的第二特征图集合。

例如，如图1所示，VGG19或VGG16的第Ⅵ部分最后的一个特征图集合1_14x14x512，经卷积和反卷积操作后，生成尺寸为28x28的特征图，特征图个数为a个，我们使用[1_14x14x512→1_14x14xa→3_28x28xa]表示上述过程（第一操作结果）。a为超参数，由遗传算法确定。VGG19或VGG16的第Ⅴ部分最后的一个特征图集合1_28x28x512，经卷积操作后，生成尺寸为28x28的特征图，特征图个数为a个，我们使用[1_28x28x512→1_28x28xa]表示该过程。3_28x28xa与1_28x28xa对应元素加权求和，生成尺寸为28x28的特征图，特征图个数为a个，我们使用[(3_28x28xa+1_28x28xa)→4_28x28xa]表示该过程（第二操作结果）。随后4_28x28xa经过反卷积及卷积操作，生成1_56x56xa，我们使用[4_28x28xa→3_56x56xa→1_56x56xa]表示该过程（第三操作结果）。VGG19或VGG16的第Ⅳ部分最后的一个特征图集合1_56x56x256，经卷积操作后，生成尺寸为56x56的特征图，特征图个数为a个，我们使用[1_56x56x256→3_56x56xa]表示该过程。3_56x56xa与1_56x56xa加权求和，得到4_56x56xa，即[(1_56x56xa+3_56x56xa)→4_56x56xa]。4_56x56xa经过反卷积和卷积操作，最终得到用于多对象分类预测的第一特征图集合1_{224x224xClasses},即[4_56x56xa→3_224x224xa→1_{224x224xClasses}]，“Classes”表示数据集中包含的对象分类的个数。

在一些实施例中，所述将所述第三操作结果与所述VGG19的第8个所述卷积层（或VGG16的第7个所述卷积层）中的所述3D特征图执行卷积操作后得到的结果进行加权求和、反卷积和卷积操作，生成所述用于多对象分类预测的第一特征图集合，包括：

将所述第三操作结果与所述VGG19的第8个所述卷积层（或VGG16的第7个所述卷积层）中的所述3D特征图执行卷积操作后得到的结果进行加权求和操作，将所述加权求和操作得到的结果进行反卷积操作，将所述反卷积操作得到的结果进行卷积操作，得到所述用于多对象分类预测的第一特征图集合。

例如，如图1所示，VGG19或VGG16的第Ⅳ部分最后的一个特征图集合1_56x56x256，经卷积操作后，生成尺寸为56x56的特征图，特征图个数为a个，我们使用[1_56x56x256→3_56x56xa]表示该过程。3_56x56xa与1_56x56xa加权求和，得到4_56x56xa，即[(1_56x56xa+3_56x56xa)→4_56x56xa]。4_56x56xa经过反卷积和卷积操作，最终得到用于多对象分类预测的第一特征图集合1_{224x224xClasses},即[4_56x56xa→3_224x224xa→1_{224x224xClasses}]，“Classes”表示数据集中包含的对象分类的个数。

VGG19或VGG16的第Ⅵ部分最后的一个特征图集合1_14x14x512，经卷积和反卷积操作后，生成尺寸为28x28的特征图，特征图个数为b个，即[1_14x14x512→1_14x14xb→3_28x28xb]（第四操作结果），b为超参数，由遗传算法确定。VGG19或VGG16的第Ⅴ部分最后的一个特征图集合1_28x28x512，经卷积操作后，生成尺寸为28x28的特征图，特征图个数为b个，即[1_28x28x512→1_28x28xb]。3_28x28xb与1_28x28xb对应元素加权求和，生成尺寸为28x28的特征图，特征图个数为b个，即[(3_28x28xb+1_28x28xb)→4_28x28xb]（第五操作结果）。随后4_28x28xb经过反卷积及卷积操作，生成1_56x56xb，即[4_28x28xb→3_56x56xb→1_56x56xb]（第六操作结果）。VGG19或VGG16的第Ⅳ部分最后的一个特征图集合1_56x56x256，经卷积操作后，生成尺寸为56x56的特征图，特征图个数为b个，即[1_56x56x256→3_56x56xb]。3_56x56xb与1_56x56xb加权求和，得到4_56x56xb，即[(1_56x56xb+3_56x56xb)→4_56x56xb]。4_56x56xb经过反卷积和卷积操作，最终得到用于多对象中心坐标回归预测的第二特征图集合1_{224x224x3Classes}，即[4_56x56xb→3_224x224xb→1_{224x224x3Classes}]，“3Classes”表示数据集中所有对象分类个数的3倍，因为像素级别的中心回归参数包含3个，分别为图像坐标系中的X轴分量、Y轴分量以及该像素与相机的距离。

在一些实施例中，将所述第六操作结果与所述VGG19的第8个所述卷积层（或VGG16的第7个所述卷积层）中的所述3D特征图执行卷积后的结果进行加权求和、反卷积和卷积操作，生成所述用于多对象中心坐标回归预测的第二特征图集合，包括：

将所述第六操作结果与所述VGG19的第8个所述卷积层（或VGG16的第7个所述卷积层）中的所述3D特征图执行卷积操作后得到的结果进行加权求和操作，将所述加权求和操作得到的结果进行反卷积操作，将所述反卷积操作得到的结果进行卷积操作，得到所述用于多对象中心坐标回归预测的第二特征图集合。

例如，如图1所示，VGG19或VGG16的第Ⅳ部分最后的一个特征图集合1_56x56x256，经卷积操作后，生成尺寸为56x56的特征图，特征图个数为b个，即[1_56x56x256→3_56x56xb]。3_56x56xb与1_56x56xb加权求和，得到4_56x56xb，即[(1_56x56xb+3_56x56xb)→4_56x56xb]。4_56x56xb经过反卷积和卷积操作，最终得到用于多对象中心坐标回归预测的第二特征图集合1_{224x224x3Classes}，即[4_56x56xb→3_224x224xb→1_{224x224x3Classes}]，“3Classes”表示数据集中所有对象分类个数的3倍，因为像素级别的中心回归参数包含3个，分别为图像坐标系中的X轴分量、Y轴分量以及该像素与相机的距离。

其中，上述中a、b均为超参数，a、b均采用遗传算法确定，因为遗传算法可以得到全局最优解，而采用经验判断和简单网格搜索这种偏主观的寻优方式只会得到局部最优解。此外，本申请的6D姿态预测神经网络模型系统的网络拓扑结构也采用遗传算法确定。

遗传算法是基于进化理论和群体遗传理论（图2）。它通过计算机模拟生物世界中的自然选择和遗传机制，并利用基因复制和交叉突变的思想以适合特定环境的方式进化。首先，我们初始化种群大小、生成、交叉概率和突变概率，以及模型超参数的初始值（十进制）。在自定义适应度函数方面，本研究将训练集上5倍交叉验证的ADD值作为适应度值。然后使用轮盘算法来选择具有更低适应度值的超参数。为了模拟交叉和突变，我们对所选的超参数进行离散化并用二进制编码，然后将模型的所有编码超参数连接到个体中。每个种群都由一定数量的个体组成。在执行交叉操作时，我们随机配对个体，并根据交叉概率交换相应位置的二进制代码。在执行编译操作时，每个个体都会根据其突变概率自动反转其对每个比特的二进制编码。然后，个人将二进制代码解码为十进制。如果未达到迭代上限，就重复上述步骤。如果达到迭代上限，则停止优化，并选择具有最小适应度的个体作为模型的最优超参数。

我们以MPoseCNN为例，可视化该MPoseCNN的优化结果（图3）。经过800代遗传演化后，当MPoseCNN的超参数a取82，b取155时，其准确度达到0.936。

其中，通过6D姿态预测神经网络模型系统的Embedding模块将不同尺寸的3D特征图进行反卷积、加权和拼接等操作，获取不同像素级别的目标图像信息，能够进一步提高6D姿态预测神经网络模型系统的分类和回归的预测性能。

所述分类和回归模块用于对所述第一特征图集合进行处理，以获取每一对象的像素级别的二分类预测结果，以及对所述第二特征图集合进行处理，以获取每一所述对象的像素空间位置参数的回归预测结果，并将所述像素级别的二分类预测结果和所述像素空间位置参数的回归预测结果输入至Hough-Voting层，通过所述Hough-Voting层确定每一对象的中心点空间位置以及深度，以计算出每一所述对象的3D转换矩阵，完成多对象的3D转换矩阵的预测。

其中，此前已经获得了尺寸为224x224xClasses的第一特征图集合，用于对每个对象进行像素级别的分类。“Classes”表示模型可以预测对象类型的数量。本申请使用sigmoid函数来计算每个特征图上每个像素的分类概率，并使用交叉熵函数来完成所有像素的损失函数的计算。

其中，此前已经获得了尺寸为224x224x3*Classes的第二特征图集合，用于对每个对象进行像素级别的回归。使用相机坐标的中心点包括图像的X和Y坐标，以及从相机到对象中心点的距离D，因此回归特征图的数量为“3*Classes”。对于任一对象的像素点P，令该像素点的空间位置向量真实值为

。

在公式(1)中，x和y是像素点P在图像坐标系中的X轴坐标分量和Y轴坐标分量；和/>是物体的中心点在图像坐标系X轴坐标分量和Y轴坐标分量；/>是针孔相机到像素点P的直线距离；/>和/>分别表示以该对象中心为起点的X轴坐标分量和Y轴坐标分量；表示将以该对象中心为起点的X轴坐标分量和Y轴坐标分量的归一化值。

在前馈计算中，像素点P的空间位置向量预测值为。

分别表示将以该对象中心为起点的X轴坐标分量和Y轴坐标分量预测得到的归一化值；/>表示预测得到的针孔相机到像素点P的直线距离。每个像素P有/>和/>三个预测结果，所以用于多对象中心坐标回归预测的特征图集合的尺寸为224x224x3 *Classes。所以某个对象的某各像素P对应的损失函数为

。

在一些实施例中，所述通过所述Hough-Voting层确定每一对象的中心点空间位置以及深度，以计算出每一所述对象的3D转换矩阵，完成多对象的3D转换矩阵的预测，包括：

其中，在完成像素级别的分类和回归训练后，将获得的像素分类和回归结果输入到Hough-Voting层，图1中该层标号为5。对于每个预测对象，假设尺寸大小为224x224的特征图上的每个像素都可以是中心点。在公式(2)中，已经获得了每个像素点的回归值。此时，使用图像坐标系中的作为该像素点的方向向量（图4）。图4是图像坐标系，其中灰色正方形表示RGB图像上的一个像素点，假设它是对象的中心点，P1~P6是预测为该对象的6个像素点。以P1为例，可以看到P1的方向由/>决定。如果这条直线穿过该灰色像素点，该灰色像素点将获得1分。从图4中可以看出，共有三条直线穿过灰色像素点，因此该灰色像素点的分数为3分。当迭代RGB图像上的所有像素点时，可以获得每个像素点的分数，然后根据分数对它们进行排序。在这里，需要为待确定的中心点设置阈值分数下限（预设像素点分数阈值），对于大于等于该分数下限的像素点，使用KMeans方法自动将其聚类为一组或m组（m大于1），其中，当m个对象属于同一类别时，会自动聚类为m组，当只有一个对象属于某一类时，会自动聚类为一组。将每一组中所有像素点的横坐标和纵坐标的平均值作为该对象的中心点坐标/>；将每一组所有像素点到相机距离的平均值作为该对象中心点到相机的直线距离/>。使用Hough -Voting的目的是在正确寻找遮蔽对象的中心点。如果是非遮蔽对象，建议不使用耗时的Hough-Voting方法。

其中，使用Hough Voting算法和KMeans方法完成对象候选中心点集合的排序及聚类，完美解决了遮蔽对象等不规则物体的中心坐标和深度确定问题。

Hough-Voting层确定对象中心点的坐标以及从相机到对象中心点之间的距离/>后，3D转换矩阵的预测值/>可由公式(4)计算得到。

和/>表示照相机的焦距；/>表示初始点。我们将/>定义为从图像坐标到相机坐标的真实的3D转换矩阵，将/>定义为从图像坐标到相机坐标的预测的3D转换矩阵。由于/>和/>可以被预测和计算，则/>和/>在公式(4)中可以被求解，因此可以计算出/>。

在一些实施例中，所述并通过ROI pooling层从所述VGG19或VGG16的三个预设卷积层中剪裁出第三特征图集、第四特征图集和第五特征图集，包括：

通过ROI pooling层按照所述矩形边界框在原图像中的位置及比例从所述VGG19的第16个所述卷积层（或VGG16的第13个所述卷积层）中的所述3D特征图中剪裁出所述第三特征图集，从所述VGG19的第12个所述卷积层（或VGG16的第10个所述卷积层）中的所述3D特征图中剪裁出所述第四特征图集，以及从所述VGG19的第8个所述卷积层（或VGG16的第7个所述卷积层）中的所述3D特征图中剪裁出所述第五特征图集。

其中，经过Hough-Voting层后，再根据各对象中心点坐标以及各像素分类结果，可以生成原始图像各对象的边界矩形框。根据矩形框四个顶点在原始图像中的相对位置，我们可以将其映射为四元数。

为该对象真实的旋转方向，使用a,b,c,d表示该旋转方向。根据边界矩形框四个顶点在原始图像中的相对位置，我们可以将其映射到VGG19或VGG16特征图的特定矩形区域，再通过ROI pooling操作将特定区域的特征图映射到固定宽高的特征图。如图1所示，对于某个对象的VGG19或VGG16的第Ⅳ、Ⅴ和Ⅵ部分最后的一个特征图集合1_56x56x256、1_28x28x512和1_14x14x512，经ROI pooling操作后，生成尺寸为14x14的特征图，特征图个数分别为256、512和512，将这三个特征图集合（第三特征图集、第四特征图集和第五特征图集）拼接，生成尺寸为14x14的特征图，特征图个数为768个。将7_14x14x768输入到多层感知机，第一层感知机包含1000个神经元，第二层感知机包含500个神经元，输出层包含4*Classes个神经元。每一个对象的旋转方向为四元数，所以输出层包含4*Classes个神经元。输出层的预测结果为/>。

为该对象预测得到的旋转方向，我们使用/>表示该旋转方向。那么3D旋转角度的损失函数为/>。

其中，M 表示3D对象所有点的集合；表示该3D对象包含点的个数；/>表示旋转函数；/>表示M中的旋转点，/>是最接近/>的点。

其中，我们使用平均距离(ADD)作为6D姿态预测神经网络模型系统预测性能的评估标准。

我们将阈值设置为3D对象模型直径的10%，当ADD小于10%则表示预测正确，否则错误。

本申请在特征提取部分，使用VGG16和VGG19的三个特征图分别完成转换矩阵和旋转角的预测，相比于只是采用两个特征图，能够提高像素分类的准确度。在分类回归部分，使用Hough Voting算法对候选中心点进行投票记分，设定阈值，并采用KMeans方法自动确定不同种类对象的质心点候选集合，或同种类不同对象的质心点候选集合，最后对候选集的坐标和深度(距离相机的距离)取加权平均值作为对象的最终坐标和深度，直接回归得到该对象级别的旋转角和转换矩阵，大幅提高了预测实时性。而某些通过神经网络来完成像素级别的转换矩阵、旋转角和置信度的计算的方法，计算延时较高，算法的实时性并不理想，很难应用于实时性要求较高的自动驾驶、导航跟随以及工业流水线等领域。在模型超参数优化方面，使用遗传算法分别确定用于像素级别分类和回归的特征图个数，能够得到全局最优解，避免人工凭经验或简单搜索得到的只是局部最优解。

由上可知，本申请实施例提供的6D姿态预测神经网络模型系统，包括特征提取模块、Embedding模块以及分类和回归模块，特征提取模块通过VGG19的前16个卷积层（或VGG16的前13个卷积层）提取RGB-D图像中不同尺寸的3D特征图，Embedding模块对不同尺寸的3D特征图进行卷积、反卷积和加权求和操作，生成用于多对象分类预测的第一特征图集合和用于多对象中心坐标回归预测的第二特征图集合，分类和回归模块对第一特征图集合进行处理，以获取每一对象的像素级别的二分类预测结果，以及对第二特征图集合进行处理，以获取每一对象的像素空间位置参数的回归预测结果，并将像素级别的二分类预测结果和像素空间位置参数的回归预测结果输入至Hough-Voting层，通过Hough-Voting层确定每一对象的中心点空间位置以及深度，以计算出每一对象的3D转换矩阵，完成多对象的3D转换矩阵的预测；分类和回归模块基于每一对象的像素级别的二分类预测结果和对象的中心点空间位置确定出每一对象的矩形边界框，并通过ROI pooling层从VGG19或VGG16的三个预设卷积层中剪裁出第三特征图集、第四特征图集和第五特征图集，以及将第三特征图集、第四特征图集和第五特征图集输入至具有预设神经元个数的多层感知机中，通过多层感知机确定每一对象的3D旋转角，以完成多对象的3D旋转角的回归预测，从而本申请实施例的6D姿态预测神经网络模型系统能够提高对象3D转换矩阵预测的准确性和对象旋转角回归预测的准确性，从而提高护理机器人的行为能力。

本申请实施例还提供一种护理机器人的6D姿态预测神经网络模型系统（ECNN，EasyEnsemble MPoseCNNs)，包括多个以上任一实施例所述的6D姿态预测神经网络模型系统（MPoseCNN），部分所述6D姿态预测神经网络模型系统通过预训练的VGG19的前16个卷积层提取RGB-D图像中不同尺寸的3D特征图，余下部分所述6D姿态预测神经网络模型系统通过预训练的VGG16的前13个卷积层提取所述RGB-D图像中不同尺寸的3D特征图。

如图5所示，护理机器人的6D姿态预测神经网络模型系统（ECNN，EasyEnsembleMPoseCNNs)由10个MPoseCNN集成得到，其中MPoseCNN(1~5)采用VGG19完成特征提取，MPoseCNN(6~10)采用VGG16完成特征提取，MPoseCNN(1~5)的其余网络结构与MPoseCNN(6~10)完全相同。ECNN将MPoseCNN(1~10)的3D转换矩阵的回归预测结果的均值作为最终的3D转换矩阵的回归预测结果；ECNN将MPoseCNN(1~10)的3D旋转角的回归预测结果的均值作为最终的3D旋转角的回归预测结果。

其中，采用EasyEnsemble方法将MPoseCNN(1~10)集成为ECNN。我们将大规模数据集随机拆分成5份，基于每一份子数据集开发出MPoseCNN，每个MPoseCNN的6D姿态预测结果包括3D转换矩阵的回归预测结果和3D旋转角的回归预测结果。

其中，为了充分利用训练数据，减少遗传算法优化参数的时间损失，本申请使用EasyEnsemble算法将大数据集拆分为多个数据集，并分别使用预先训练的VGG 16和VGG 19作为MPoseCNN的特征提取结构。

其中，使用EasyEnsemble算法将大数据集拆分成子数据集训练，MPoseCNN可以在多个服务器上独立异步进行训练和调参，集成的ECNN具有可扩展性，可以不断叠加新增的MPoseCNN。

其中，使用平均距离(ADD)作为ECNN预测性能的评估标准。

其中是MPoseCNN(1~10)的预测结果/>的均值；/>是MPoseCNN(1~10)的预测结果/>的均值。在OccludedLINEMOD数据集中，我们将阈值设置为3D对象模型直径的10%，当ADD小于10%则表示预测正确，否则错误。

图6显示了该实施例的设计流程图。数据集包括YCB-Video数据集和IncludedLINEMOD数据集。对于YCB-Video视频数据集，我们选择80个视频作为基本训练集，从剩余的12个视频中选择2500帧作为测试集。为了检验算法在遮挡对象上的6D姿态预测的泛化能力，我们使用OccludedLINEMOD数据集来完成ECNN的评估。具体来说，我们从OccludedLINEMOD数据集中选择了1200帧，其中80%是基本训练集，20%是测试集。为了增强ECNN的鲁棒性，我们基于80%的基本训练集，使用GAN网络完成YCB-Video训练集和OccludedLINEMOD训练集的扩充。对于视频中的每一帧，我们标记了8个对象：Glue、Holepuncher、Ape、Duck、Eggbox、Can、Cat和Driller。使用EasyEnsemble创建集成模型ECNN的具体过程是将扩展的训练集依次划分为五个子训练集。对于每个子训练集，使用遗传算法来确定MPoseCNN(1~10)的网络结构和超参数。这样，可以获得10个MPoseCNN，然后这10个MPoseCNN的预测结果的平均值就是ECNN的预测结果。ECNN预测性能的评估标准充分考虑了对称对象的6D多对象姿态估计问题，并使用ADD-S标准使用最近点距离计算损失函数值。

其中，如图7所示，GAN由生成网络和判别网络组成，根据生成网络的损失函数及BP(Back Propagation) 算法不断优化自身权重，最大限度地提高新合成的样本被判别器判定为真实样本的概率。根据判别器的损失函数及BP算法不断优化自身权重，最大限度地降低新合成样本被判定为真实样本的概率，当然判别器同时要最大限度提高真实样本被判定为真实样本的概率。生成网络和判别网络在攻防博弈中最终达到纳什均衡。

生成网络的损失函数为。

代表生成网络；/>代表判别网络；/>代表交叉熵；/>表示输入的随机数据；/>表示根据随机数据合成样本；/>是对生成数据的判别概率；1表示真实样本；代表合成样本判别结果的分布与真实样本分布的差异大小。很显然，让判别器将生成数据判别为真数据即/>与1的距离越小，则生成网络的优化越好。

判定网络的损失函数为。

表示真实样本；0表示合成样本；/>表示真实样本判别结果的分布与真实样本分布的差异大小；/>代表合成样本判别结果的分布与合成样本分布的差异大小。该研究采用GAN算法将基础训练集扩充为原来的10倍。

其中，表1展示了10个MPoseCNN(1~10)及ECNN在不同数据集上的预测结果。

表1 基学习器（MPoseCNN）与ECNN的预测结果

表1显示了所有对象预测结果的平均准确度。我们使用EasyEsmble方法将10个MPoseCNN集成到一个超级学习器ECNN中，很明显，ECNN的准确性超过了任一MPoseCNN。YCB-Video数据集上的ECNN平均准确度达到0.940，而OccludedLINEMOD数据集的平均准确度则达到0.812。

由上可知，ECNN的性能很好，提出的ECNN算法在预测性能方面具有显著优势。预测性能的提高主要来自三个方面。首先，该研究使用GAN算法将数据添加到训练集中，这相当于为模型添加了正则化，增强了模型的鲁棒性。其次，我们将其划分为5个相等的部分，基于每个子训练集并使用GA算法，可以开发MPoseCNN(1~10)模型。GA优化模型具有较高的预测性能。最后，我们使用EasyEsemoble算法将10个基本学习者聚合为一个超级学习者ECNN，进一步提高了预测性能。ECNN的预测性能超过了任何MPoseCNN。

本申请实施例还提供一种6D姿态预测方法，用于以上任一实施例所述的6D姿态预测神经网络模型系统，请参阅图8，图8为本申请实施例提供的6D姿态预测方法的流程示意图。所述方法包括：

步骤101，通过预训练的VGG19的前16个卷积层（或VGG16的前13个卷积层）提取RGB-D图像中不同尺寸的3D特征图。

步骤102，对不同尺寸的所述3D特征图进行卷积、反卷积和加权求和操作，生成用于多对象分类预测的第一特征图集合和用于多对象中心坐标回归预测的第二特征图集合。

在一些实施例中，所述对不同尺寸的所述3D特征图进行卷积、反卷积和加权求和操作，生成用于多对象分类预测的第一特征图集合和用于多对象中心坐标回归预测的第二特征图集合，包括：

对所述VGG19的第16个所述卷积层（或VGG16的第13个所述卷积层）的所述3D特征图进行卷积和反卷积操作，得到第一操作结果；

将所述第一操作结果与所述VGG19的第12个所述卷积层（或VGG16的第10个所述卷积层）的所述3D特征图执行卷积操作后得到的结果进行加权求和操作，得到第二操作结果；

将所述第二操作结果进行反卷积和卷积操作，得到第三操作结果，将所述第三操作结果与所述VGG19的第8个所述卷积层（或VGG16的第7个所述卷积层）中的所述3D特征图执行卷积操作后得到的结果进行加权求和、反卷积和卷积操作，生成所述用于多对象分类预测的第一特征图集合；

对所述VGG19的第16个所述卷积层（获取VGG16的第13卷积层）执行卷积和反卷积操作，得到第四操作结果；

将所述第四操作结果与所述VGG19的第12个所述卷积层（或VGG16的第10个所述卷积层）中的所述3D特征图执行卷积操作后得到的结果进行加权求和操作，得到第五操作结果；

将所述第五操作结果进行反卷积和卷积操作，得到第六操作结果，将所述第六操作结果与所述VGG19的第8个所述卷积层（或VGG16的第7个所述卷积层）执行卷积后的结果进行加权求和、反卷积和卷积操作，生成所述用于多对象中心坐标回归预测的第二特征图集合。

步骤103，对所述第一特征图集合进行处理，以获取每一对象的像素级别的二分类预测结果，以及对所述第二特征图集合进行处理，以获取每一所述对象的像素空间位置参数的回归预测结果。

步骤104，将所述像素级别的二分类预测结果和所述像素空间位置参数的回归预测结果输入至Hough-Voting层，通过所述Hough-Voting层确定每一对象的中心点空间位置以及深度，以计算出每一所述对象的3D转换矩阵，完成多对象的3D转换矩阵的预测。

步骤105，基于每一所述对象的所述像素级别的二分类预测结果和所述对象的所述中心点空间位置确定出每一所述对象的矩形边界框，并通过ROI pooling层从所述VGG19或VGG16的三个预设卷积层中剪裁出第三特征图集、第四特征图集和第五特征图集。

通过ROI pooling层按照所述矩形边界框在原图像中的位置及比例从所述VGG19的第16个所述卷积层（或VGG16的第13个所述卷积层）中的所述3D特征图中剪裁出所述第三特征图集；

通过ROI pooling层按照所述矩形边界框在原图像中的位置及比例从所述VGG19的第12个所述卷积层（或VGG16的第10个所述卷积层）中的所述3D特征图中剪裁出所述第四特征图集；

通过ROI pooling层按照所述矩形边界框在原图像中的位置及比例从所述VGG19的第8个所述卷积层（或VGG16的第7个所述卷积层）中的所述3D特征图中剪裁出所述第五特征图集。

步骤106，将所述第三特征图集、第四特征图集和第五特征图集输入至具有预设神经元个数的多层感知机中，通过所述多层感知机确定每一所述对象的3D旋转角，以完成多对象的3D旋转角的回归预测。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

具体实施时，本申请不受所描述的各个步骤的执行顺序的限制，在不产生冲突的情况下，某些步骤还可以采用其它顺序进行或者同时进行。

由上可知，本申请实施例提供的6D姿态预测方法，在特征提取部分，使用VGG16和VGG19的三个特征图分别完成转换矩阵和旋转角的预测，相比于只是采用两个特征图，能够提高像素分类的准确度。在分类回归部分，使用Hough Voting算法对候选中心点进行投票记分，设定阈值，并采用KMeans方法自动确定不同种类对象的质心点候选集合，或同种类不同对象的质心点候选集合，最后对候选集的坐标和深度(距离相机的距离)取加权平均值作为对象的最终坐标和深度，直接回归得到该对象级别的旋转角和转换矩阵，大幅提高了预测实时性。而某些通过神经网络来完成像素级别的转换矩阵、旋转角和置信度的计算的方法，计算延时较高，算法的实时性并不理想，很难应用于实时性要求较高的自动驾驶、导航跟随以及工业流水线等领域。

以上对本申请实施例所提供的6D姿态预测神经网络模型系统及方法进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种6D姿态预测神经网络模型系统，其特征在于，包括特征提取模块、Embedding模块以及分类和回归模块；

所述分类和回归模块还用于基于每一所述对象的所述像素级别的二分类预测结果和所述对象的所述中心点空间位置确定出每一所述对象的矩形边界框，并通过ROI pooling层从所述VGG19或VGG16的三个预设卷积层中剪裁出第三特征图集、第四特征图集和第五特征图集，以及将所述第三特征图集、第四特征图集和第五特征图集输入至具有预设神经元个数的多层感知机中，通过所述多层感知机确定每一所述对象的3D旋转角，以完成多对象的3D旋转角的回归预测。

2.如权利要求1所述的6D姿态预测神经网络模型系统，其特征在于，所述Embedding模块用于对不同尺寸的所述3D特征图进行卷积、反卷积和加权求和操作，生成用于多对象分类预测的第一特征图集合和用于多对象中心坐标回归预测的第二特征图集合，包括：

3.如权利要求2所述的6D姿态预测神经网络模型系统，其特征在于，所述将所述第三操作结果与所述VGG19的第8个所述卷积层或VGG16的第7个所述卷积层中的所述3D特征图执行卷积操作后得到的结果进行加权求和、反卷积和卷积操作，生成所述用于多对象分类预测的第一特征图集合，包括：

4.如权利要求1所述的6D姿态预测神经网络模型系统，其特征在于，所述通过所述Hough-Voting层确定每一对象的中心点空间位置以及深度，以计算出每一所述对象的3D转换矩阵，完成多对象的3D转换矩阵的预测，包括：

5.如权利要求1所述的6D姿态预测神经网络模型系统，其特征在于，所述并通过ROIpooling层从所述VGG19或VGG16的三个预设卷积层中剪裁出第三特征图集、第四特征图集和第五特征图集，包括：

6.一种护理机器人的6D姿态预测神经网络模型系统，其特征在于，包括多个权利要求1至5任一项所述的6D姿态预测神经网络模型系统，部分所述6D姿态预测神经网络模型系统通过预训练的VGG19的前16个卷积层提取RGB-D图像中不同尺寸的3D特征图，余下部分所述6D姿态预测神经网络模型系统通过预训练的VGG16的前13个卷积层提取所述RGB-D图像中不同尺寸的3D特征图。

7.一种6D姿态预测方法，用于权利要求1至5任一项所述的6D姿态预测神经网络模型系统，其特征在于，所述方法包括：

8.如权利要求7所述的6D姿态预测方法，其特征在于，所述对不同尺寸的所述3D特征图进行卷积、反卷积和加权求和操作，生成用于多对象分类预测的第一特征图集合和用于多对象中心坐标回归预测的第二特征图集合，包括：

9.如权利要求7所述的6D姿态预测方法，其特征在于，所述通过所述Hough-Voting层确定每一对象的中心点空间位置以及深度，以计算出每一所述对象的3D转换矩阵，完成多对象的3D转换矩阵的预测，包括：

10.如权利要求7所述的6D姿态预测方法，其特征在于，所述并通过ROI pooling层从所述VGG19或VGG16的三个预设卷积层中剪裁出第三特征图集、第四特征图集和第五特征图集，包括：