CN113077512A

CN113077512A - 一种rgb-d位姿识别模型训练方法及系统

Info

Publication number: CN113077512A
Application number: CN202110313894.XA
Authority: CN
Inventors: 严佳; 曾剑锋
Original assignee: Zhejiang Zhongti Culture Group Co ltd
Current assignee: Zhejiang Zhongti Culture Group Co ltd
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2021-07-06
Anticipated expiration: 2041-03-24
Also published as: CN113077512B

Abstract

本发明公开了一种RGB‑D位姿识别模型训练方法及系统，通过将初始RGB‑D数据信息构建分为二维特征点数据信息和三维特征点数据信息；利用预设的特征点线图提取方法从所述二维特征点数据信息中提取由多个特征关键点坐标组成的特征点线图；再对所述三维特征点数据信息进行校正，最终确定训练RGB‑D数据信息；利用多个训练RGB‑D数据信息训练位姿识别模型；根据训练后的位姿识别模型最终得到位姿移动信息。本发明通过分开构建二维、三维数据信息并进行坐标校正最终确定训练数据信息，有效降低原有训练样本的复杂度，实现利用较少的训练RGB‑D图像即可完成对位姿识别模型的训练，降低位姿识别模型的训练时间。

Description

一种RGB-D位姿识别模型训练方法及系统

技术领域

本申请涉及人工智能领域，特别涉及一种RGB-D位姿识别模型训练方法及系统。

背景技术

随着人工智能技术的不断发展，RGB-D传感器已应用于各种场景。在计算机视觉识别领域，通过RGB-D传感器识别人体姿态、动作和行为已有很多应用场景。但RGB-D数据极易受到各种噪声的干扰，复杂的室内环境、光线的变化、传感器精度等都会使得识别效果不甚理想，而且基于图像的行为识别方法对数据量的要求也比较大，需要较大的数据量才能训练出来一个较为鲁棒的模型。

发明内容

鉴于上述问题，本发明提供了一种RGB-D位姿识别模型训练方法及系统。

为了解决上述问题或至少部分地解决上述技术问题，在本申请的一个实施例中，提供了一种RGB-D位姿识别模型训练方法，其特征在于，所述方法包括：

步骤S1、获取初始RGB-D数据信息；

步骤S2、将所述初始RGB-D数据信息构建分为二维特征点数据信息和三维特征点数据信息；

步骤S3、利用预设的特征点线图提取方法从所述二维特征点数据信息中提取由多个特征关键点坐标组成的特征点线图；

步骤S4、利用预设的深度数据误差模型对所述三维特征点数据信息进行校正得到校正后的三维特征点数据信息；

步骤S5、将特征点线图中的多个坐标数据映射到校正后的三维特征点数据信息中，得到初始RGB-D数据信息的三维坐标数据，最终确定训练RGB-D数据信息；

步骤S6、利用多个训练RGB-D数据信息训练所述位姿识别模型直至所述位姿识别模型对应的损失函数收敛；

步骤S7、根据训练后的位姿识别模型对前后两帧RGB-D图像进行位姿计算，得到位姿移动信息。

进一步的，其中步骤S7具体为：

步骤S701、通过得到的前后两帧RGB-D图像，对前一帧RGB-D图像其中的深度数据确定物体在地图坐标系下的中心位置坐标，同时与图像数据匹配，提取图像计算出的物体中心位置附近的点作为一组物体点集，最终得到nlaser1组物体点集；

步骤S702、取后一帧RGB-D图像，按照步骤S701得到n_laser2组物体点集；

步骤S703：定义n_laser1中点集为pts_1i，其中0<i<＝n_laser1，定义n_laser2中点集为Pts_2j，其中0<j<＝n_laser2；将n_laser1中各点集中心位置与n_laser2中各点集中心位置依次比较，距离小于阈值e1的认为是前后两帧RGB-D图像下同一物体；

步骤S704：针对同一物体，设其在前一帧RGB-D图像下的中心位置为p1(x1,y1,z1)，在后一帧RGB-D图像下的中心位置为p2(x2,y2,z2)，两帧RGB-D图像的时间间隔为dt，则计算出物体的移动速度向量Vo＝((x2-x1)/dt,(y2-y1)/dt,(z2-z1)/dt)；

步骤S705：结合深度数据获取位姿移动信息。

进一步的，其中所述位姿识别模型具体是，利用RGB-D特征点对，基于深度数据误差模型，对特征点对赋值权重确定不同特征点在姿态恢复中的贡献，通过最小化特征点距离获取数据帧相对姿态。

进一步的，其中深度数据误差模型，首先优化系统参数，获得的深度图像和归一化光栅差恢复系统初始参数，通过真值和原始深度数据获取深度误差,通过最小二乘方法优化系统参数，再通过深度信息真值获取光栅差数据真值及误差，构建最小化代价函数，进而最小化光栅误差，获取畸变参数。

本发明的提供的另一实施例，提供了一种RGB-D位姿识别模型训练系统，其特征在于，所述系统包括：

获取模块，用于获取初始RGB-D数据信息；

构建模块，用于将所述初始RGB-D数据信息构建分为二维特征点数据信息和三维特征点数据信息；

提取模块，用于利用预设的特征点线图提取方法从所述二维特征点数据信息中提取由多个特征关键点坐标组成的特征点线图；

校正模块，用于利用预设的深度数据误差模型对所述三维特征点数据信息进行校正得到校正后的三维特征点数据信息；

映射模块，用于将特征点线图中的多个坐标数据映射到校正后的三维特征点数据信息中，得到初始RGB-D数据信息的三维坐标数据，最终确定训练RGB-D数据信息；

训练模块，用于利用多个训练RGB-D数据信息训练所述位姿识别模型直至所述位姿识别模型对应的损失函数收敛；

计算模块，根据训练后的位姿识别模型对前后两帧RGB-D图像进行位姿计算，得到位姿移动信息。

进一步的，其中所述计算模块具体用于：

通过得到的前后两帧RGB-D图像，对前一帧RGB-D图像其中的深度数据确定物体在地图坐标系下的中心位置坐标，同时与图像数据匹配，提取图像计算出的物体中心位置附近的点作为一组物体点集，最终得到nlaser1组物体点集；

取后一帧RGB-D图像，按照步骤S701得到n_laser2组物体点集；

定义n_laser1中点集为pts_1i，其中0<i<＝n_laser1，定义n_laser2中点集为Pts_2j，其中0<j<＝n_laser2；将n_laser1中各点集中心位置与n_laser2中各点集中心位置依次比较，距离小于阈值e1的认为是前后两帧RGB-D图像下同一物体；

针对同一物体，设其在前一帧RGB-D图像下的中心位置为p1(x1,y1,z1)，在后一帧RGB-D图像下的中心位置为p2(x2,y2,z2)，两帧RGB-D图像的时间间隔为dt，则计算出物体的移动速度向量Vo＝((x2-x1)/dt,(y2-y1)/dt,(z2-z1)/dt)；

结合深度数据获取位姿移动信息。

本发明公开了一种RGB-D位姿识别模型训练方法及系统，通过将初始RGB-D数据信息构建分为二维特征点数据信息和三维特征点数据信息；利用预设的特征点线图提取方法从所述二维特征点数据信息中提取由多个特征关键点坐标组成的特征点线图；再对所述三维特征点数据信息进行校正，最终确定训练RGB-D数据信息；利用多个训练RGB-D数据信息训练位姿识别模型；根据训练后的位姿识别模型最终得到位姿移动信息。本发明通过分开构建二维、三维数据信息并进行坐标校正最终确定训练数据信息，有效降低原有训练样本的复杂度，实现利用较少的训练RGB-D图像即可完成对位姿识别模型的训练，降低位姿识别模型的训练时间。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单介绍。显而易见地，下面描述中的附图仅用于示意本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图中未提及的技术特征、连接关系乃至方法步骤。

图1是本发明一实施例的一种RGB-D位姿识别模型训练方法的流程示意图。

图2是本发明另一实施例的一种RGB-D位姿识别模型训练系统的结构示意图。

具体实施例

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种，但是不排除包含至少一种的情况。

应当理解，尽管在本申请实施例中可能采用术语第一、第二、第三等来描述XXX，但这些XXX不应限于这些术语。这些术语仅用来将XXX彼此区分开。例如，在不脱离本申请实施例范围的情况下，第一XXX也可以被称为第二XXX，类似地，第二XXX也可以被称为第一XXX。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于监测”。类似地，取决于语境，短语“如果确定”或“如果监测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当监测(陈述的条件或事件)时”或“响应于监测(陈述的条件或事件)”。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

在计算机视觉识别领域，通过RGB-D传感器识别人体姿态、动作和行为已有很多应用场景。但RGB-D数据极易受到各种噪声的干扰，复杂的室内环境、光线的变化、传感器精度等都会使得识别效果不甚理想，而且基于图像的行为识别方法对数据量的要求也比较大，需要较大的数据量才能训练出来一个较为鲁棒的模型。

基于人体的行为识别也是人机交互的重要研究方向之一，在视频监控、体感游戏等领域发挥着重要的作用。人体行为姿态复杂多变，通常训练一个行为识别模型需要大量的人体行为数据。通过视觉图像传感器，实时拍摄周围的图像，根据机器学习训练得到障碍物识别能力，从而感知和识别障碍物。

在本发明的一实施例中，其示出了RGB-D位姿识别模型训练方法，所述方法包括：

步骤S1、获取初始RGB-D数据信息；

可以理解的是，RGB-D图像包括RGB图像信息，以及深度图像信息，而RGB图像上包括待识别的行为姿态或手势姿态。原始RGB图像的获取，可以通过图像采集设备采集获取，例如，摄像机、照相机、热图像采集设备等；还可以通过采集视频录像的多个视频帧的方式获取；还可以直接从存储有原始RGB图像的存储设备中导入，例如，存储设备可以是硬盘、U盘、PAD和笔记本等具有存储功能的电子设备。而深度数据信息可以基于TOF和基于结构光来得到。

可以理解的是，RGB-D图像包括RGB图像信息，以及深度图像信息。那么对于RGB图像信息，将其构建成二维特征点数据信息。而带有深度数据信息的深度图像，则将其构建成三维特征点数据信息。

基于卷积神经网络和监督学习并以caffe、openpose为框架开发的开源库，可以用于人体动作、面部表情、手指运动等姿态估计。从每一个原始RGB图像中提取由预设数目个位姿关键点坐标组成的位姿点线图，即可以识别原始RGB图像中的各个人体关节点或人体关键部位，并输出各个人体关节点或人体关键部位的坐标。

其中深度数据误差模型，首先优化系统参数，获得的深度图像和归一化光栅差恢复系统初始参数，通过真值和原始深度数据获取深度误差,通过最小二乘方法优化系统参数，再通过深度信息真值获取光栅差数据真值及误差，构建最小化代价函数，进而最小化光栅误差，获取畸变参数。

基于特征点约束的相机追踪方法的数据融合，处理速度快，也可以通过纯几何约束、目标约束来进行数据融合，在此不再赘述。

所述位姿识别模型具体是，利用RGB-D特征点对，基于深度数据误差模型，对特征点对赋值权重确定不同特征点在姿态恢复中的贡献，通过最小化特征点距离获取数据帧相对姿态。

需要多个训练RGB-D图像训练所述位姿识别模型，训练RGB图像上的特征点线图仅仅包括关键部位的点线连接关系，与原有训练样本，即直接利用原始RGB-D图像作为训练样本相比，训练RGB图像可以有效降低原有训练样本的复杂度，实现利用较少的训练RGB-D图像即可完成对位姿识别模型的训练，降低位姿识别模型的训练时间。

其中，步骤S7具体为：步骤S701、通过得到的前后两帧RGB-D图像，对前一帧RGB-D图像其中的深度数据确定物体在地图坐标系下的中心位置坐标，同时与图像数据匹配，提取图像计算出的物体中心位置附近的点作为一组物体点集，最终得到nlaser1组物体点集；

步骤S705：结合深度数据获取位姿移动信息。

本发明公开了一种RGB-D位姿识别模型训练方法，通过将初始RGB-D数据信息构建分为二维特征点数据信息和三维特征点数据信息；利用预设的特征点线图提取方法从所述二维特征点数据信息中提取由多个特征关键点坐标组成的特征点线图；再对所述三维特征点数据信息进行校正，最终确定训练RGB-D数据信息；利用多个训练RGB-D数据信息训练位姿识别模型；根据训练后的位姿识别模型最终得到位姿移动信息。本发明通过分开构建二维、三维数据信息并进行坐标校正最终确定训练数据信息，有效降低原有训练样本的复杂度，实现利用较少的训练RGB-D图像即可完成对位姿识别模型的训练，降低位姿识别模型的训练时间。

在本发明的另一实施例中，其示出了RGB-D位姿识别模型训练系统，所述系统包括：

获取模块，用于获取初始RGB-D数据信息；

计算模块，用于根据训练后的位姿识别模型对前后两帧RGB-D图像进行位姿计算，得到位姿移动信息。

其中，计算模块还用于：通过得到的前后两帧RGB-D图像，对前一帧RGB-D图像其中的深度数据确定物体在地图坐标系下的中心位置坐标，同时与图像数据匹配，提取图像计算出的物体中心位置附近的点作为一组物体点集，最终得到nlaser1组物体点集；

取后一帧RGB-D图像，按照步骤S701得到n_laser2组物体点集；

结合深度数据获取位姿移动信息。

本发明公开了一种RGB-D位姿识别模型训练系统，通过将初始RGB-D数据信息构建分为二维特征点数据信息和三维特征点数据信息；利用预设的特征点线图提取方法从所述二维特征点数据信息中提取由多个特征关键点坐标组成的特征点线图；再对所述三维特征点数据信息进行校正，最终确定训练RGB-D数据信息；利用多个训练RGB-D数据信息训练位姿识别模型；根据训练后的位姿识别模型最终得到位姿移动信息。本发明通过分开构建二维、三维数据信息并进行坐标校正最终确定训练数据信息，有效降低原有训练样本的复杂度，实现利用较少的训练RGB-D图像即可完成对位姿识别模型的训练，降低位姿识别模型的训练时间。

上述说明示出并描述了本发明的若干优选实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种RGB-D位姿识别模型训练方法，其特征在于，所述方法包括：

步骤S1、获取初始RGB-D数据信息；

2.根据权利要求1所述的一种RGB-D位姿识别模型训练方法，其特征在于，其中步骤S7具体为：

步骤S705：结合深度数据获取位姿移动信息。

3.根据权利要求1所述的一种RGB-D位姿识别模型训练方法，其特征在于，其中所述位姿识别模型具体是，利用RGB-D特征点对，基于深度数据误差模型，对特征点对赋值权重确定不同特征点在姿态恢复中的贡献，通过最小化特征点距离获取数据帧相对姿态。

4.根据权利要求1所述的一种RGB-D位姿识别模型训练方法，其特征在于，其中深度数据误差模型，首先优化系统参数，获得的深度图像和归一化光栅差恢复系统初始参数，通过真值和原始深度数据获取深度误差,通过最小二乘方法优化系统参数，再通过深度信息真值获取光栅差数据真值及误差，构建最小化代价函数，进而最小化光栅误差，获取畸变参数。

5.一种RGB-D位姿识别模型训练系统，其特征在于，所述系统包括：

获取模块，用于获取初始RGB-D数据信息；

6.根据权利要求5所述的一种RGB-D位姿识别模型训练系统，其特征在于，其中所述计算模块具体用于：

取后一帧RGB-D图像，按照步骤S701得到n_laser2组物体点集；

结合深度数据获取位姿移动信息。

7.根据权利要求5所述的一种RGB-D位姿识别模型训练系统，其特征在于，其中所述位姿识别模型具体是，利用RGB-D特征点对，基于深度数据误差模型，对特征点对赋值权重确定不同特征点在姿态恢复中的贡献，通过最小化特征点距离获取数据帧相对姿态。

8.根据权利要求5所述的一种RGB-D位姿识别模型训练系统，其特征在于，其中深度数据误差模型，首先优化系统参数，获得的深度图像和归一化光栅差恢复系统初始参数，通过真值和原始深度数据获取深度误差,通过最小二乘方法优化系统参数，再通过深度信息真值获取光栅差数据真值及误差，构建最小化代价函数，进而最小化光栅误差，获取畸变参数。