CN113077512A - 一种rgb-d位姿识别模型训练方法及系统 - Google Patents

一种rgb-d位姿识别模型训练方法及系统 Download PDF

Info

Publication number
CN113077512A
CN113077512A CN202110313894.XA CN202110313894A CN113077512A CN 113077512 A CN113077512 A CN 113077512A CN 202110313894 A CN202110313894 A CN 202110313894A CN 113077512 A CN113077512 A CN 113077512A
Authority
CN
China
Prior art keywords
rgb
data information
feature point
pose
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110313894.XA
Other languages
English (en)
Other versions
CN113077512B (zh
Inventor
严佳
曾剑锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Zhongti Culture Group Co ltd
Original Assignee
Zhejiang Zhongti Culture Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Zhongti Culture Group Co ltd filed Critical Zhejiang Zhongti Culture Group Co ltd
Priority to CN202110313894.XA priority Critical patent/CN113077512B/zh
Publication of CN113077512A publication Critical patent/CN113077512A/zh
Application granted granted Critical
Publication of CN113077512B publication Critical patent/CN113077512B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/66Analysis of geometric attributes of image moments or centre of gravity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

本发明公开了一种RGB‑D位姿识别模型训练方法及系统,通过将初始RGB‑D数据信息构建分为二维特征点数据信息和三维特征点数据信息;利用预设的特征点线图提取方法从所述二维特征点数据信息中提取由多个特征关键点坐标组成的特征点线图;再对所述三维特征点数据信息进行校正,最终确定训练RGB‑D数据信息;利用多个训练RGB‑D数据信息训练位姿识别模型;根据训练后的位姿识别模型最终得到位姿移动信息。本发明通过分开构建二维、三维数据信息并进行坐标校正最终确定训练数据信息,有效降低原有训练样本的复杂度,实现利用较少的训练RGB‑D图像即可完成对位姿识别模型的训练,降低位姿识别模型的训练时间。

Description

一种RGB-D位姿识别模型训练方法及系统
技术领域
本申请涉及人工智能领域,特别涉及一种RGB-D位姿识别模型训练方法及系统。
背景技术
随着人工智能技术的不断发展,RGB-D传感器已应用于各种场景。在计算机视觉识别领域,通过RGB-D传感器识别人体姿态、动作和行为已有很多应用场景。但RGB-D数据极易受到各种噪声的干扰,复杂的室内环境、光线的变化、传感器精度等都会使得识别效果不甚理想,而且基于图像的行为识别方法对数据量的要求也比较大,需要较大的数据量才能训练出来一个较为鲁棒的模型。
发明内容
鉴于上述问题,本发明提供了一种RGB-D位姿识别模型训练方法及系统。
为了解决上述问题或至少部分地解决上述技术问题,在本申请的一个实施例中,提供了一种RGB-D位姿识别模型训练方法,其特征在于,所述方法包括:
步骤S1、获取初始RGB-D数据信息;
步骤S2、将所述初始RGB-D数据信息构建分为二维特征点数据信息和三维特征点数据信息;
步骤S3、利用预设的特征点线图提取方法从所述二维特征点数据信息中提取由多个特征关键点坐标组成的特征点线图;
步骤S4、利用预设的深度数据误差模型对所述三维特征点数据信息进行校正得到校正后的三维特征点数据信息;
步骤S5、将特征点线图中的多个坐标数据映射到校正后的三维特征点数据信息中,得到初始RGB-D数据信息的三维坐标数据,最终确定训练RGB-D数据信息;
步骤S6、利用多个训练RGB-D数据信息训练所述位姿识别模型直至所述位姿识别模型对应的损失函数收敛;
步骤S7、根据训练后的位姿识别模型对前后两帧RGB-D图像进行位姿计算,得到位姿移动信息。
进一步的,其中步骤S7具体为:
步骤S701、通过得到的前后两帧RGB-D图像,对前一帧RGB-D图像其中的深度数据确定物体在地图坐标系下的中心位置坐标,同时与图像数据匹配,提取图像计算出的物体中心位置附近的点作为一组物体点集,最终得到nlaser1组物体点集;
步骤S702、取后一帧RGB-D图像,按照步骤S701得到nlaser2组物体点集;
步骤S703:定义nlaser1中点集为pts1i,其中0<i<=nlaser1,定义nlaser2中点集为Pts2j,其中0<j<=nlaser2;将nlaser1中各点集中心位置与nlaser2中各点集中心位置依次比较,距离小于阈值e1的认为是前后两帧RGB-D图像下同一物体;
步骤S704:针对同一物体,设其在前一帧RGB-D图像下的中心位置为p1(x1,y1,z1),在后一帧RGB-D图像下的中心位置为p2(x2,y2,z2),两帧RGB-D图像的时间间隔为dt,则计算出物体的移动速度向量Vo=((x2-x1)/dt,(y2-y1)/dt,(z2-z1)/dt);
步骤S705:结合深度数据获取位姿移动信息。
进一步的,其中所述位姿识别模型具体是,利用RGB-D特征点对,基于深度数据误差模型,对特征点对赋值权重确定不同特征点在姿态恢复中的贡献,通过最小化特征点距离获取数据帧相对姿态。
进一步的,其中深度数据误差模型,首先优化系统参数,获得的深度图像和归一化光栅差恢复系统初始参数,通过真值和原始深度数据获取深度误差,通过最小二乘方法优化系统参数,再通过深度信息真值获取光栅差数据真值及误差,构建最小化代价函数,进而最小化光栅误差,获取畸变参数。
本发明的提供的另一实施例,提供了一种RGB-D位姿识别模型训练系统,其特征在于,所述系统包括:
获取模块,用于获取初始RGB-D数据信息;
构建模块,用于将所述初始RGB-D数据信息构建分为二维特征点数据信息和三维特征点数据信息;
提取模块,用于利用预设的特征点线图提取方法从所述二维特征点数据信息中提取由多个特征关键点坐标组成的特征点线图;
校正模块,用于利用预设的深度数据误差模型对所述三维特征点数据信息进行校正得到校正后的三维特征点数据信息;
映射模块,用于将特征点线图中的多个坐标数据映射到校正后的三维特征点数据信息中,得到初始RGB-D数据信息的三维坐标数据,最终确定训练RGB-D数据信息;
训练模块,用于利用多个训练RGB-D数据信息训练所述位姿识别模型直至所述位姿识别模型对应的损失函数收敛;
计算模块,根据训练后的位姿识别模型对前后两帧RGB-D图像进行位姿计算,得到位姿移动信息。
进一步的,其中所述计算模块具体用于:
通过得到的前后两帧RGB-D图像,对前一帧RGB-D图像其中的深度数据确定物体在地图坐标系下的中心位置坐标,同时与图像数据匹配,提取图像计算出的物体中心位置附近的点作为一组物体点集,最终得到nlaser1组物体点集;
取后一帧RGB-D图像,按照步骤S701得到nlaser2组物体点集;
定义nlaser1中点集为pts1i,其中0<i<=nlaser1,定义nlaser2中点集为Pts2j,其中0<j<=nlaser2;将nlaser1中各点集中心位置与nlaser2中各点集中心位置依次比较,距离小于阈值e1的认为是前后两帧RGB-D图像下同一物体;
针对同一物体,设其在前一帧RGB-D图像下的中心位置为p1(x1,y1,z1),在后一帧RGB-D图像下的中心位置为p2(x2,y2,z2),两帧RGB-D图像的时间间隔为dt,则计算出物体的移动速度向量Vo=((x2-x1)/dt,(y2-y1)/dt,(z2-z1)/dt);
结合深度数据获取位姿移动信息。
进一步的,其中所述位姿识别模型具体是,利用RGB-D特征点对,基于深度数据误差模型,对特征点对赋值权重确定不同特征点在姿态恢复中的贡献,通过最小化特征点距离获取数据帧相对姿态。
进一步的,其中深度数据误差模型,首先优化系统参数,获得的深度图像和归一化光栅差恢复系统初始参数,通过真值和原始深度数据获取深度误差,通过最小二乘方法优化系统参数,再通过深度信息真值获取光栅差数据真值及误差,构建最小化代价函数,进而最小化光栅误差,获取畸变参数。
本发明公开了一种RGB-D位姿识别模型训练方法及系统,通过将初始RGB-D数据信息构建分为二维特征点数据信息和三维特征点数据信息;利用预设的特征点线图提取方法从所述二维特征点数据信息中提取由多个特征关键点坐标组成的特征点线图;再对所述三维特征点数据信息进行校正,最终确定训练RGB-D数据信息;利用多个训练RGB-D数据信息训练位姿识别模型;根据训练后的位姿识别模型最终得到位姿移动信息。本发明通过分开构建二维、三维数据信息并进行坐标校正最终确定训练数据信息,有效降低原有训练样本的复杂度,实现利用较少的训练RGB-D图像即可完成对位姿识别模型的训练,降低位姿识别模型的训练时间。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单介绍。显而易见地,下面描述中的附图仅用于示意本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图中未提及的技术特征、连接关系乃至方法步骤。
图1是本发明一实施例的一种RGB-D位姿识别模型训练方法的流程示意图。
图2是本发明另一实施例的一种RGB-D位姿识别模型训练系统的结构示意图。
具体实施例
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。
应当理解,尽管在本申请实施例中可能采用术语第一、第二、第三等来描述XXX,但这些XXX不应限于这些术语。这些术语仅用来将XXX彼此区分开。例如,在不脱离本申请实施例范围的情况下,第一XXX也可以被称为第二XXX,类似地,第二XXX也可以被称为第一XXX。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于监测”。类似地,取决于语境,短语“如果确定”或“如果监测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当监测(陈述的条件或事件)时”或“响应于监测(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
在计算机视觉识别领域,通过RGB-D传感器识别人体姿态、动作和行为已有很多应用场景。但RGB-D数据极易受到各种噪声的干扰,复杂的室内环境、光线的变化、传感器精度等都会使得识别效果不甚理想,而且基于图像的行为识别方法对数据量的要求也比较大,需要较大的数据量才能训练出来一个较为鲁棒的模型。
基于人体的行为识别也是人机交互的重要研究方向之一,在视频监控、体感游戏等领域发挥着重要的作用。人体行为姿态复杂多变,通常训练一个行为识别模型需要大量的人体行为数据。通过视觉图像传感器,实时拍摄周围的图像,根据机器学习训练得到障碍物识别能力,从而感知和识别障碍物。
在本发明的一实施例中,其示出了RGB-D位姿识别模型训练方法,所述方法包括:
步骤S1、获取初始RGB-D数据信息;
可以理解的是,RGB-D图像包括RGB图像信息,以及深度图像信息,而RGB图像上包括待识别的行为姿态或手势姿态。原始RGB图像的获取,可以通过图像采集设备采集获取,例如,摄像机、照相机、热图像采集设备等;还可以通过采集视频录像的多个视频帧的方式获取;还可以直接从存储有原始RGB图像的存储设备中导入,例如,存储设备可以是硬盘、U盘、PAD和笔记本等具有存储功能的电子设备。而深度数据信息可以基于TOF和基于结构光来得到。
步骤S2、将所述初始RGB-D数据信息构建分为二维特征点数据信息和三维特征点数据信息;
可以理解的是,RGB-D图像包括RGB图像信息,以及深度图像信息。那么对于RGB图像信息,将其构建成二维特征点数据信息。而带有深度数据信息的深度图像,则将其构建成三维特征点数据信息。
步骤S3、利用预设的特征点线图提取方法从所述二维特征点数据信息中提取由多个特征关键点坐标组成的特征点线图;
基于卷积神经网络和监督学习并以caffe、openpose为框架开发的开源库,可以用于人体动作、面部表情、手指运动等姿态估计。从每一个原始RGB图像中提取由预设数目个位姿关键点坐标组成的位姿点线图,即可以识别原始RGB图像中的各个人体关节点或人体关键部位,并输出各个人体关节点或人体关键部位的坐标。
步骤S4、利用预设的深度数据误差模型对所述三维特征点数据信息进行校正得到校正后的三维特征点数据信息;
其中深度数据误差模型,首先优化系统参数,获得的深度图像和归一化光栅差恢复系统初始参数,通过真值和原始深度数据获取深度误差,通过最小二乘方法优化系统参数,再通过深度信息真值获取光栅差数据真值及误差,构建最小化代价函数,进而最小化光栅误差,获取畸变参数。
步骤S5、将特征点线图中的多个坐标数据映射到校正后的三维特征点数据信息中,得到初始RGB-D数据信息的三维坐标数据,最终确定训练RGB-D数据信息;
基于特征点约束的相机追踪方法的数据融合,处理速度快,也可以通过纯几何约束、目标约束来进行数据融合,在此不再赘述。
步骤S6、利用多个训练RGB-D数据信息训练所述位姿识别模型直至所述位姿识别模型对应的损失函数收敛;
所述位姿识别模型具体是,利用RGB-D特征点对,基于深度数据误差模型,对特征点对赋值权重确定不同特征点在姿态恢复中的贡献,通过最小化特征点距离获取数据帧相对姿态。
需要多个训练RGB-D图像训练所述位姿识别模型,训练RGB图像上的特征点线图仅仅包括关键部位的点线连接关系,与原有训练样本,即直接利用原始RGB-D图像作为训练样本相比,训练RGB图像可以有效降低原有训练样本的复杂度,实现利用较少的训练RGB-D图像即可完成对位姿识别模型的训练,降低位姿识别模型的训练时间。
步骤S7、根据训练后的位姿识别模型对前后两帧RGB-D图像进行位姿计算,得到位姿移动信息。
其中,步骤S7具体为:步骤S701、通过得到的前后两帧RGB-D图像,对前一帧RGB-D图像其中的深度数据确定物体在地图坐标系下的中心位置坐标,同时与图像数据匹配,提取图像计算出的物体中心位置附近的点作为一组物体点集,最终得到nlaser1组物体点集;
步骤S702、取后一帧RGB-D图像,按照步骤S701得到nlaser2组物体点集;
步骤S703:定义nlaser1中点集为pts1i,其中0<i<=nlaser1,定义nlaser2中点集为Pts2j,其中0<j<=nlaser2;将nlaser1中各点集中心位置与nlaser2中各点集中心位置依次比较,距离小于阈值e1的认为是前后两帧RGB-D图像下同一物体;
步骤S704:针对同一物体,设其在前一帧RGB-D图像下的中心位置为p1(x1,y1,z1),在后一帧RGB-D图像下的中心位置为p2(x2,y2,z2),两帧RGB-D图像的时间间隔为dt,则计算出物体的移动速度向量Vo=((x2-x1)/dt,(y2-y1)/dt,(z2-z1)/dt);
步骤S705:结合深度数据获取位姿移动信息。
本发明公开了一种RGB-D位姿识别模型训练方法,通过将初始RGB-D数据信息构建分为二维特征点数据信息和三维特征点数据信息;利用预设的特征点线图提取方法从所述二维特征点数据信息中提取由多个特征关键点坐标组成的特征点线图;再对所述三维特征点数据信息进行校正,最终确定训练RGB-D数据信息;利用多个训练RGB-D数据信息训练位姿识别模型;根据训练后的位姿识别模型最终得到位姿移动信息。本发明通过分开构建二维、三维数据信息并进行坐标校正最终确定训练数据信息,有效降低原有训练样本的复杂度,实现利用较少的训练RGB-D图像即可完成对位姿识别模型的训练,降低位姿识别模型的训练时间。
在本发明的另一实施例中,其示出了RGB-D位姿识别模型训练系统,所述系统包括:
获取模块,用于获取初始RGB-D数据信息;
可以理解的是,RGB-D图像包括RGB图像信息,以及深度图像信息,而RGB图像上包括待识别的行为姿态或手势姿态。原始RGB图像的获取,可以通过图像采集设备采集获取,例如,摄像机、照相机、热图像采集设备等;还可以通过采集视频录像的多个视频帧的方式获取;还可以直接从存储有原始RGB图像的存储设备中导入,例如,存储设备可以是硬盘、U盘、PAD和笔记本等具有存储功能的电子设备。而深度数据信息可以基于TOF和基于结构光来得到。
构建模块,用于将所述初始RGB-D数据信息构建分为二维特征点数据信息和三维特征点数据信息;
可以理解的是,RGB-D图像包括RGB图像信息,以及深度图像信息。那么对于RGB图像信息,将其构建成二维特征点数据信息。而带有深度数据信息的深度图像,则将其构建成三维特征点数据信息。
提取模块,用于利用预设的特征点线图提取方法从所述二维特征点数据信息中提取由多个特征关键点坐标组成的特征点线图;
基于卷积神经网络和监督学习并以caffe、openpose为框架开发的开源库,可以用于人体动作、面部表情、手指运动等姿态估计。从每一个原始RGB图像中提取由预设数目个位姿关键点坐标组成的位姿点线图,即可以识别原始RGB图像中的各个人体关节点或人体关键部位,并输出各个人体关节点或人体关键部位的坐标。
校正模块,用于利用预设的深度数据误差模型对所述三维特征点数据信息进行校正得到校正后的三维特征点数据信息;
其中深度数据误差模型,首先优化系统参数,获得的深度图像和归一化光栅差恢复系统初始参数,通过真值和原始深度数据获取深度误差,通过最小二乘方法优化系统参数,再通过深度信息真值获取光栅差数据真值及误差,构建最小化代价函数,进而最小化光栅误差,获取畸变参数。
映射模块,用于将特征点线图中的多个坐标数据映射到校正后的三维特征点数据信息中,得到初始RGB-D数据信息的三维坐标数据,最终确定训练RGB-D数据信息;
基于特征点约束的相机追踪方法的数据融合,处理速度快,也可以通过纯几何约束、目标约束来进行数据融合,在此不再赘述。
训练模块,用于利用多个训练RGB-D数据信息训练所述位姿识别模型直至所述位姿识别模型对应的损失函数收敛;
所述位姿识别模型具体是,利用RGB-D特征点对,基于深度数据误差模型,对特征点对赋值权重确定不同特征点在姿态恢复中的贡献,通过最小化特征点距离获取数据帧相对姿态。
需要多个训练RGB-D图像训练所述位姿识别模型,训练RGB图像上的特征点线图仅仅包括关键部位的点线连接关系,与原有训练样本,即直接利用原始RGB-D图像作为训练样本相比,训练RGB图像可以有效降低原有训练样本的复杂度,实现利用较少的训练RGB-D图像即可完成对位姿识别模型的训练,降低位姿识别模型的训练时间。
计算模块,用于根据训练后的位姿识别模型对前后两帧RGB-D图像进行位姿计算,得到位姿移动信息。
其中,计算模块还用于:通过得到的前后两帧RGB-D图像,对前一帧RGB-D图像其中的深度数据确定物体在地图坐标系下的中心位置坐标,同时与图像数据匹配,提取图像计算出的物体中心位置附近的点作为一组物体点集,最终得到nlaser1组物体点集;
取后一帧RGB-D图像,按照步骤S701得到nlaser2组物体点集;
定义nlaser1中点集为pts1i,其中0<i<=nlaser1,定义nlaser2中点集为Pts2j,其中0<j<=nlaser2;将nlaser1中各点集中心位置与nlaser2中各点集中心位置依次比较,距离小于阈值e1的认为是前后两帧RGB-D图像下同一物体;
针对同一物体,设其在前一帧RGB-D图像下的中心位置为p1(x1,y1,z1),在后一帧RGB-D图像下的中心位置为p2(x2,y2,z2),两帧RGB-D图像的时间间隔为dt,则计算出物体的移动速度向量Vo=((x2-x1)/dt,(y2-y1)/dt,(z2-z1)/dt);
结合深度数据获取位姿移动信息。
本发明公开了一种RGB-D位姿识别模型训练系统,通过将初始RGB-D数据信息构建分为二维特征点数据信息和三维特征点数据信息;利用预设的特征点线图提取方法从所述二维特征点数据信息中提取由多个特征关键点坐标组成的特征点线图;再对所述三维特征点数据信息进行校正,最终确定训练RGB-D数据信息;利用多个训练RGB-D数据信息训练位姿识别模型;根据训练后的位姿识别模型最终得到位姿移动信息。本发明通过分开构建二维、三维数据信息并进行坐标校正最终确定训练数据信息,有效降低原有训练样本的复杂度,实现利用较少的训练RGB-D图像即可完成对位姿识别模型的训练,降低位姿识别模型的训练时间。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
上述说明示出并描述了本发明的若干优选实施例,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (8)

1.一种RGB-D位姿识别模型训练方法,其特征在于,所述方法包括:
步骤S1、获取初始RGB-D数据信息;
步骤S2、将所述初始RGB-D数据信息构建分为二维特征点数据信息和三维特征点数据信息;
步骤S3、利用预设的特征点线图提取方法从所述二维特征点数据信息中提取由多个特征关键点坐标组成的特征点线图;
步骤S4、利用预设的深度数据误差模型对所述三维特征点数据信息进行校正得到校正后的三维特征点数据信息;
步骤S5、将特征点线图中的多个坐标数据映射到校正后的三维特征点数据信息中,得到初始RGB-D数据信息的三维坐标数据,最终确定训练RGB-D数据信息;
步骤S6、利用多个训练RGB-D数据信息训练所述位姿识别模型直至所述位姿识别模型对应的损失函数收敛;
步骤S7、根据训练后的位姿识别模型对前后两帧RGB-D图像进行位姿计算,得到位姿移动信息。
2.根据权利要求1所述的一种RGB-D位姿识别模型训练方法,其特征在于,其中步骤S7具体为:
步骤S701、通过得到的前后两帧RGB-D图像,对前一帧RGB-D图像其中的深度数据确定物体在地图坐标系下的中心位置坐标,同时与图像数据匹配,提取图像计算出的物体中心位置附近的点作为一组物体点集,最终得到nlaser1组物体点集;
步骤S702、取后一帧RGB-D图像,按照步骤S701得到nlaser2组物体点集;
步骤S703:定义nlaser1中点集为pts1i,其中0<i<=nlaser1,定义nlaser2中点集为Pts2j,其中0<j<=nlaser2;将nlaser1中各点集中心位置与nlaser2中各点集中心位置依次比较,距离小于阈值e1的认为是前后两帧RGB-D图像下同一物体;
步骤S704:针对同一物体,设其在前一帧RGB-D图像下的中心位置为p1(x1,y1,z1),在后一帧RGB-D图像下的中心位置为p2(x2,y2,z2),两帧RGB-D图像的时间间隔为dt,则计算出物体的移动速度向量Vo=((x2-x1)/dt,(y2-y1)/dt,(z2-z1)/dt);
步骤S705:结合深度数据获取位姿移动信息。
3.根据权利要求1所述的一种RGB-D位姿识别模型训练方法,其特征在于,其中所述位姿识别模型具体是,利用RGB-D特征点对,基于深度数据误差模型,对特征点对赋值权重确定不同特征点在姿态恢复中的贡献,通过最小化特征点距离获取数据帧相对姿态。
4.根据权利要求1所述的一种RGB-D位姿识别模型训练方法,其特征在于,其中深度数据误差模型,首先优化系统参数,获得的深度图像和归一化光栅差恢复系统初始参数,通过真值和原始深度数据获取深度误差,通过最小二乘方法优化系统参数,再通过深度信息真值获取光栅差数据真值及误差,构建最小化代价函数,进而最小化光栅误差,获取畸变参数。
5.一种RGB-D位姿识别模型训练系统,其特征在于,所述系统包括:
获取模块,用于获取初始RGB-D数据信息;
构建模块,用于将所述初始RGB-D数据信息构建分为二维特征点数据信息和三维特征点数据信息;
提取模块,用于利用预设的特征点线图提取方法从所述二维特征点数据信息中提取由多个特征关键点坐标组成的特征点线图;
校正模块,用于利用预设的深度数据误差模型对所述三维特征点数据信息进行校正得到校正后的三维特征点数据信息;
映射模块,用于将特征点线图中的多个坐标数据映射到校正后的三维特征点数据信息中,得到初始RGB-D数据信息的三维坐标数据,最终确定训练RGB-D数据信息;
训练模块,用于利用多个训练RGB-D数据信息训练所述位姿识别模型直至所述位姿识别模型对应的损失函数收敛;
计算模块,根据训练后的位姿识别模型对前后两帧RGB-D图像进行位姿计算,得到位姿移动信息。
6.根据权利要求5所述的一种RGB-D位姿识别模型训练系统,其特征在于,其中所述计算模块具体用于:
通过得到的前后两帧RGB-D图像,对前一帧RGB-D图像其中的深度数据确定物体在地图坐标系下的中心位置坐标,同时与图像数据匹配,提取图像计算出的物体中心位置附近的点作为一组物体点集,最终得到nlaser1组物体点集;
取后一帧RGB-D图像,按照步骤S701得到nlaser2组物体点集;
定义nlaser1中点集为pts1i,其中0<i<=nlaser1,定义nlaser2中点集为Pts2j,其中0<j<=nlaser2;将nlaser1中各点集中心位置与nlaser2中各点集中心位置依次比较,距离小于阈值e1的认为是前后两帧RGB-D图像下同一物体;
针对同一物体,设其在前一帧RGB-D图像下的中心位置为p1(x1,y1,z1),在后一帧RGB-D图像下的中心位置为p2(x2,y2,z2),两帧RGB-D图像的时间间隔为dt,则计算出物体的移动速度向量Vo=((x2-x1)/dt,(y2-y1)/dt,(z2-z1)/dt);
结合深度数据获取位姿移动信息。
7.根据权利要求5所述的一种RGB-D位姿识别模型训练系统,其特征在于,其中所述位姿识别模型具体是,利用RGB-D特征点对,基于深度数据误差模型,对特征点对赋值权重确定不同特征点在姿态恢复中的贡献,通过最小化特征点距离获取数据帧相对姿态。
8.根据权利要求5所述的一种RGB-D位姿识别模型训练系统,其特征在于,其中深度数据误差模型,首先优化系统参数,获得的深度图像和归一化光栅差恢复系统初始参数,通过真值和原始深度数据获取深度误差,通过最小二乘方法优化系统参数,再通过深度信息真值获取光栅差数据真值及误差,构建最小化代价函数,进而最小化光栅误差,获取畸变参数。
CN202110313894.XA 2021-03-24 2021-03-24 一种rgb-d位姿识别模型训练方法及系统 Active CN113077512B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110313894.XA CN113077512B (zh) 2021-03-24 2021-03-24 一种rgb-d位姿识别模型训练方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110313894.XA CN113077512B (zh) 2021-03-24 2021-03-24 一种rgb-d位姿识别模型训练方法及系统

Publications (2)

Publication Number Publication Date
CN113077512A true CN113077512A (zh) 2021-07-06
CN113077512B CN113077512B (zh) 2022-06-28

Family

ID=76613687

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110313894.XA Active CN113077512B (zh) 2021-03-24 2021-03-24 一种rgb-d位姿识别模型训练方法及系统

Country Status (1)

Country Link
CN (1) CN113077512B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110120093A (zh) * 2019-03-25 2019-08-13 深圳大学 一种多元特征混合优化的rgb-d室内三维测图方法及系统
CN110147767A (zh) * 2019-05-22 2019-08-20 深圳市凌云视迅科技有限责任公司 基于二维图像的三维手势姿态预测方法
CN110243370A (zh) * 2019-05-16 2019-09-17 西安理工大学 一种基于深度学习的室内环境三维语义地图构建方法
CN110827353A (zh) * 2019-10-18 2020-02-21 天津大学 一种基于单目摄像头辅助的机器人定位方法
CN111160303A (zh) * 2019-12-31 2020-05-15 深圳大学 一种眼动反应信息检测方法、装置、移动终端及存储介质
CN112215172A (zh) * 2020-10-17 2021-01-12 西安交通大学 融合彩色图像与深度信息的人体卧姿三维姿态估计方法
CN112270249A (zh) * 2020-10-26 2021-01-26 湖南大学 一种融合rgb-d视觉特征的目标位姿估计方法
CN112489129A (zh) * 2020-12-18 2021-03-12 深圳市优必选科技股份有限公司 位姿识别模型训练方法、装置、位姿识别方法和终端设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110120093A (zh) * 2019-03-25 2019-08-13 深圳大学 一种多元特征混合优化的rgb-d室内三维测图方法及系统
CN110243370A (zh) * 2019-05-16 2019-09-17 西安理工大学 一种基于深度学习的室内环境三维语义地图构建方法
CN110147767A (zh) * 2019-05-22 2019-08-20 深圳市凌云视迅科技有限责任公司 基于二维图像的三维手势姿态预测方法
CN110827353A (zh) * 2019-10-18 2020-02-21 天津大学 一种基于单目摄像头辅助的机器人定位方法
CN111160303A (zh) * 2019-12-31 2020-05-15 深圳大学 一种眼动反应信息检测方法、装置、移动终端及存储介质
CN112215172A (zh) * 2020-10-17 2021-01-12 西安交通大学 融合彩色图像与深度信息的人体卧姿三维姿态估计方法
CN112270249A (zh) * 2020-10-26 2021-01-26 湖南大学 一种融合rgb-d视觉特征的目标位姿估计方法
CN112489129A (zh) * 2020-12-18 2021-03-12 深圳市优必选科技股份有限公司 位姿识别模型训练方法、装置、位姿识别方法和终端设备

Also Published As

Publication number Publication date
CN113077512B (zh) 2022-06-28

Similar Documents

Publication Publication Date Title
KR102437456B1 (ko) 이벤트 카메라-기반 변형가능 물체 추적
US11237637B2 (en) Gesture recognition systems
Ren et al. Depth camera based hand gesture recognition and its applications in human-computer-interaction
EP3644277A1 (en) Image processing system, image processing method, and program
CN109934065B (zh) 一种用于手势识别的方法和装置
KR20180057096A (ko) 표정 인식과 트레이닝을 수행하는 방법 및 장치
CN110782483B (zh) 基于分布式相机网络的多视图多目标跟踪方法及系统
CN112506340B (zh) 设备控制方法、装置、电子设备及存储介质
CN110705478A (zh) 人脸跟踪方法、装置、设备及存储介质
CN111062263B (zh) 手部姿态估计的方法、设备、计算机设备和存储介质
WO2023071964A1 (zh) 数据处理方法, 装置, 电子设备及计算机可读存储介质
KR101612605B1 (ko) 얼굴 특징점 추출 방법 및 이를 수행하는 장치
KR101681104B1 (ko) 부분적 가림을 갖는 영상 객체 내의 주요 특징점 기반 다중 객체 추적 방법
CN110633004A (zh) 基于人体姿态估计的交互方法、装置和系统
KR20220004009A (ko) 키 포인트 검출 방법, 장치, 전자 기기 및 저장 매체
EP3757878A1 (en) Head pose estimation
CN110348359B (zh) 手部姿态追踪的方法、装置及系统
Ansar et al. Robust hand gesture tracking and recognition for healthcare via Recurent neural network
CN106406507B (zh) 图像处理方法以及电子设备
CN113077512B (zh) 一种rgb-d位姿识别模型训练方法及系统
Oikonomopoulos et al. Trajectory-based representation of human actions
CN113916223B (zh) 定位方法及装置、设备、存储介质
CN114638921A (zh) 动作捕捉方法、终端设备及存储介质
CN111563489A (zh) 一种目标跟踪方法、装置以及计算机存储介质
Li Badminton motion capture with visual image detection of picking robotics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant