CN106371599A - 深度图像中的高精度指尖定位方法及装置 - Google Patents

深度图像中的高精度指尖定位方法及装置 Download PDF

Info

Publication number
CN106371599A
CN106371599A CN201610810889.9A CN201610810889A CN106371599A CN 106371599 A CN106371599 A CN 106371599A CN 201610810889 A CN201610810889 A CN 201610810889A CN 106371599 A CN106371599 A CN 106371599A
Authority
CN
China
Prior art keywords
depth map
edge gradient
features
convolutional neural
neural networks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610810889.9A
Other languages
English (en)
Inventor
王贵锦
郭亨凯
陈醒濠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201610810889.9A priority Critical patent/CN106371599A/zh
Publication of CN106371599A publication Critical patent/CN106371599A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures

Abstract

本发明公开一种深度图像中的高精度指尖定位方法及装置,能够提高定位精度。所述方法包括:S1、从深度图中提取出边缘梯度图;S2、将所述深度图及边缘梯度图分别利用卷积神经网络提取特征;S3、将两路特征利用卷积神经网络进行融合,并回归出指尖的三维位置。

Description

深度图像中的高精度指尖定位方法及装置
技术领域
本发明涉及图像处理技术领域,具体涉及一种深度图像中的高精度指尖定位方法及装置。
背景技术
基于深度图的手部关键点定位在人机交互中十分关键,在近年来一直是研究热点。在所有手部关键点中,指尖是最重要的部分,和诸如点击、滑动等手势都有密切的关系。同时由于手势的巨大变化、严重的自遮挡和各种深度成像中在指尖处的较大误差,导致指尖位置的估计十分困难,位置误差大于1厘米。
现有的关键点检测算法主要分为两类:
(1)生成式方法:基于模型的方法,主要有四个组成部分,即模型定义、模型与图像的相似性度量,初始模型参数及最优化模型参数使得相似性最大的算法。其中最优化方法常用的有基于关节的迭代最近点算法和粒子群优化算法。这类方法对于遮挡比较鲁棒,且不需要复杂的模型训练过程,在最优值附近优化时能准确找到解,但算法需要很强的先验和较为准确的初始化参数,对于局部最优比较敏感,而且速度通常较慢,不能满足实时性的要求,这严重制约了算法的适用范围。
(2)判别式方法:通过图像特征直接预测关键点位置,即直接从特征训练一个机器学习的模型来对关键点参数进行预测。判别式方法一般采用回归的算法,回归的目标通常有两类,一类是位置偏移,即回归当前位置到目标关键点的位置偏移量,另一类是误差偏移,即回归当前预测的关键点位置和真实关键点位置的残差。常用的模型有随机森林和卷积神经网络。直接预测的方法计算速度比基于模型的方法要快,而且不需要初始化,预测值更为全局,但需要更多的训练,容易过拟合到训练集,在时间维度上会跳变,且对于遮挡更为敏感。目前这类方法大部分均基于手部的拓扑结构,从手掌逐步定位到指尖,这导致在指尖处的位置估计误差累积。
发明内容
有鉴于此,本发明提供一种深度图像中的高精度指尖定位方法及装置,能够提高定位精度。
一方面,本发明实施例提出一种深度图像中的高精度指尖定位方法,包括:
S1、从深度图中提取出边缘梯度图;
S2、将所述深度图及边缘梯度图分别利用卷积神经网络提取特征;
S3、将两路特征利用卷积神经网络进行融合,并回归出指尖的三维位置。
另一方面,本发明实施例提出一种深度图像中的高精度指尖定位装置,包括:
第一提取单元,用于从深度图中提取出边缘梯度图;
第二提取单元,用于将所述深度图及边缘梯度图分别利用卷积神经网络提取特征;
回归单元,用于将两路特征利用卷积神经网络进行融合,并回归出指尖的三维位置。
本发明实施例提供的深度图像中的高精度指尖定位方法及装置,创造性地利用了深度图的边缘梯度图,并提出了新的特征融合算法,相较于现有的判别式方法,不需要从手掌逐步定位到指尖,从而能够克服指尖处位置估计的误差积累问题,定位精度高,空间位置误差小于1厘米,而且整个过程运算速度快,可以在单核CPU下达到实时,算法鲁棒,能够适应不同的环境,实现简单,易于产品化。
附图说明
图1为本发明深度图像中的高精度指尖定位方法一实施例的流程示意图;
图2为图1中S1一实施例的流程示意图;
图3为本发明深度图像中的高精度指尖定位方法另一实施例的部分流程示意图;
图4为本发明深度图像中的高精度指尖定位装置一实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参看图1,本实施例公开一种深度图像中的高精度指尖定位方法,包括:
S1、从深度图中提取出边缘梯度图;
本实施例中,从深度图中提取边缘梯度图的流程如图2所示,主要将深度图或通过深度图提取出来的特征输入到机器学习的模型,得到每个位置预测的边缘梯度信息。特征可以是原图的像素值,也可以是其他机器视觉中的局部特征,比如原图中随机点对的像素差。机器学习模型有随机森林、卷积神经网络等,这些模型首先需要在一些已经标定好了边缘信息的深度图数据集上进行训练,最小化边缘估计误差。通过对每个图像位置的边缘估计,可以得到全图的梯度图。
S2、将所述深度图及边缘梯度图分别利用卷积神经网络提取特征;
S3、将两路特征利用卷积神经网络进行融合,并回归出指尖的三维位置。
后面两个步骤S2和S3的流程如图3所示(图3中各个内置数字的矩形框表示卷积神经网络的一个层,矩形框中的数字表示对应层的参数)。首先需要将深度图和梯度图进行像素值的归一化,使其范围在-1到1之间。然后利用两路卷积神经网络提取出特征,其中卷积神经网络的结构主要由交替的卷积层、降采样层和非线性层组成。为了避免过拟合,两路网络的参数实现共享。最后,利用慢融合的技术,两路特征进一步利用卷积神经网络经过卷积、降采样和非线性操作进行融合,并通过全连接层回归出指尖的三维空间坐标。我们在实验中对比了不同的融合方式,包括早融合(将两路图直接输入进卷积神经网络进行回归)、迟融合(两路特征直到全连接层才进行合并和回归),增强融合(将边缘图直接叠加在原深度图上作为单幅图进行回归),最后发现慢融合技术效果最好。
需要说明的是,特征提取的网络及指尖定位的网络可以利用基于随机梯度下降的反向传播算法进行训练。在已经标注了三维指尖位置的深度图数据集上对两部分网络进行联合训练,最小化指尖定位的误差。训练时也需要对深度图提取边缘图,以保证训练和测试的统一。经过评估,本专利的指尖定位误差为9.9毫米,优于目前论文中的所有结果。
本发明实施例提供的深度图像中的高精度指尖定位方法,创造性地利用了深度图的边缘梯度图,并提出了新的特征融合算法,相较于现有的判别式方法,不需要从手掌逐步定位到指尖,从而能够克服指尖处位置估计的误差积累问题,定位精度高,空间位置误差小于1厘米,而且整个过程运算速度快,可以在单核CPU下达到实时,算法鲁棒,能够适应不同的环境,实现简单,易于产品化。
参看图4,本实施例公开一种深度图像中的高精度指尖定位装置,包括:
第一提取单元1,用于从深度图中提取出边缘梯度图;
在具体应用中,所述第一提取单元1,可以用于:
将所述深度图或从所述深度图中提取出来的特征输入到预设的机器学习模型,预测每个位置的边缘梯度信息,从而得到所述边缘梯度图。其中,所述机器学习模型包括随机森林、卷积神经网络。
第二提取单元2,用于将所述深度图及边缘梯度图分别利用卷积神经网络提取特征;
本实施例中,所述第二提取单元2,可以用于:
将所述深度图和边缘梯度图进行像素值的归一化,使像素范围在-1到1之间;
利用相同的两路卷积神经网络分别从归一化后的所述深度图和边缘梯度图提取出特征,其中,所述两路卷积神经网络的结构主要由交替的卷积层、降采样层和非线性层组成。
回归单元3,用于将两路特征利用卷积神经网络进行融合,并回归出指尖的三维位置。
所述回归单元3,可以用于:
利用慢融合的技术,利用卷积神经网络将两路特征进行融合,并通过全连接层回归出指尖的三维空间坐标。
本发明实施例提供的深度图像中的高精度指尖定位装置,创造性地利用了深度图的边缘梯度图,并提出了新的特征融合算法,相较于现有的判别式方法,不需要从手掌逐步定位到指尖,从而能够克服指尖处位置估计的误差积累问题,定位精度高,空间位置误差小于1厘米,而且整个过程运算速度快,可以在单核CPU下达到实时,算法鲁棒,能够适应不同的环境,实现简单,易于产品化。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
本发明的说明书中,说明了大量具体细节。然而能够理解的是,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。类似地,应当理解,为了精简本发明公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释呈反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。本发明并不局限于任何单一的方面,也不局限于任何单一的实施例,也不局限于这些方面和/或实施例的任意组合和/或置换。而且,可以单独使用本发明的每个方面和/或实施例或者与一个或更多其他方面和/或其实施例结合使用。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (10)

1.一种深度图像中的高精度指尖定位方法,其特征在于,包括:
S1、从深度图中提取出边缘梯度图;
S2、将所述深度图及边缘梯度图分别利用卷积神经网络提取特征;
S3、将两路特征利用卷积神经网络进行融合,并回归出指尖的三维位置。
2.根据权利要求1所述的方法,其特征在于,所述S1,包括:
将所述深度图或从所述深度图中提取出来的特征输入到预设的机器学习模型,预测每个位置的边缘梯度信息,从而得到所述边缘梯度图。
3.根据权利要求2所述的方法,其特征在于,所述机器学习模型包括随机森林、卷积神经网络。
4.根据权利要求1所述的方法,其特征在于,所述S2,包括:
将所述深度图和边缘梯度图进行像素值的归一化,使像素范围在-1到1之间;
利用相同的两路卷积神经网络分别从归一化后的所述深度图和边缘梯度图提取出特征,其中,所述两路卷积神经网络的结构主要由交替的卷积层、降采样层和非线性层组成。
5.根据权利要求1所述的方法,其特征在于,所述S3,包括:
利用慢融合的技术,利用卷积神经网络将两路特征进行融合,并通过全连接层回归出指尖的三维空间坐标。
6.一种深度图像中的高精度指尖定位装置,其特征在于,包括:
第一提取单元,用于从深度图中提取出边缘梯度图;
第二提取单元,用于将所述深度图及边缘梯度图分别利用卷积神经网络提取特征;
回归单元,用于将两路特征利用卷积神经网络进行融合,并回归出指尖的三维位置。
7.根据权利要求6所述的装置,其特征在于,所述第一提取单元,用于:
将所述深度图或从所述深度图中提取出来的特征输入到预设的机器学习模型,预测每个位置的边缘梯度信息,从而得到所述边缘梯度图。
8.根据权利要求7所述的装置,其特征在于,所述机器学习模型包括随机森林、卷积神经网络。
9.根据权利要求6所述的装置,其特征在于,所述第二提取单元,用于:
将所述深度图和边缘梯度图进行像素值的归一化,使像素范围在-1到1之间;
利用相同的两路卷积神经网络分别从归一化后的所述深度图和边缘梯度图提取出特征,其中,所述两路卷积神经网络的结构主要由交替的卷积层、降采样层和非线性层组成。
10.根据权利要求6所述的装置,其特征在于,所述回归单元,用于:
利用慢融合的技术,利用卷积神经网络将两路特征进行融合,并通过全连接层回归出指尖的三维空间坐标。
CN201610810889.9A 2016-09-08 2016-09-08 深度图像中的高精度指尖定位方法及装置 Pending CN106371599A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610810889.9A CN106371599A (zh) 2016-09-08 2016-09-08 深度图像中的高精度指尖定位方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610810889.9A CN106371599A (zh) 2016-09-08 2016-09-08 深度图像中的高精度指尖定位方法及装置

Publications (1)

Publication Number Publication Date
CN106371599A true CN106371599A (zh) 2017-02-01

Family

ID=57900213

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610810889.9A Pending CN106371599A (zh) 2016-09-08 2016-09-08 深度图像中的高精度指尖定位方法及装置

Country Status (1)

Country Link
CN (1) CN106371599A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107240111A (zh) * 2017-06-14 2017-10-10 郑州天迈科技股份有限公司 边沿连通分割客流统计方法
CN107582001A (zh) * 2017-10-20 2018-01-16 珠海格力电器股份有限公司 洗碗机及其控制方法、装置和系统
CN108389172A (zh) * 2018-03-21 2018-08-10 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN110738677A (zh) * 2019-09-20 2020-01-31 清华大学 相机全清晰成像方法、装置与电子设备
WO2022237055A1 (zh) * 2021-05-10 2022-11-17 青岛小鸟看看科技有限公司 虚拟键盘交互方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105160310A (zh) * 2015-08-25 2015-12-16 西安电子科技大学 基于3d卷积神经网络的人体行为识别方法
CN105787439A (zh) * 2016-02-04 2016-07-20 广州新节奏智能科技有限公司 一种基于卷积神经网络的深度图像人体关节定位方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105160310A (zh) * 2015-08-25 2015-12-16 西安电子科技大学 基于3d卷积神经网络的人体行为识别方法
CN105787439A (zh) * 2016-02-04 2016-07-20 广州新节奏智能科技有限公司 一种基于卷积神经网络的深度图像人体关节定位方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
蔡娟: "基于卷积神经网络的手势识别初探", 《计算机系统应用》 *
费建超等: "基于梯度的多输入卷积神经网络", 《光电工程》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107240111A (zh) * 2017-06-14 2017-10-10 郑州天迈科技股份有限公司 边沿连通分割客流统计方法
CN107240111B (zh) * 2017-06-14 2021-03-26 郑州天迈科技股份有限公司 边沿连通分割客流统计方法
CN107582001A (zh) * 2017-10-20 2018-01-16 珠海格力电器股份有限公司 洗碗机及其控制方法、装置和系统
CN107582001B (zh) * 2017-10-20 2020-08-11 珠海格力电器股份有限公司 洗碗机及其控制方法、装置和系统
CN108389172A (zh) * 2018-03-21 2018-08-10 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN108389172B (zh) * 2018-03-21 2020-12-18 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN110738677A (zh) * 2019-09-20 2020-01-31 清华大学 相机全清晰成像方法、装置与电子设备
WO2022237055A1 (zh) * 2021-05-10 2022-11-17 青岛小鸟看看科技有限公司 虚拟键盘交互方法及系统

Similar Documents

Publication Publication Date Title
Braun et al. Improving progress monitoring by fusing point clouds, semantic data and computer vision
Zhang et al. A critical review of vision-based occupational health and safety monitoring of construction site workers
Rahimian et al. On-demand monitoring of construction projects through a game-like hybrid application of BIM and machine learning
CN106371599A (zh) 深度图像中的高精度指尖定位方法及装置
JP6940047B2 (ja) コンピュータによる鉄筋測定検査システム及び鉄筋測定検査方法
Liao et al. Occlusion gesture recognition based on improved SSD
Bae et al. High-precision vision-based mobile augmented reality system for context-aware architectural, engineering, construction and facility management (AEC/FM) applications
Svarm et al. Accurate localization and pose estimation for large 3d models
CN110287276A (zh) 高精地图更新方法、装置及存储介质
Hou et al. Detecting structural components of building engineering based on deep-learning method
CN103383731B (zh) 一种基于指尖定位的投影交互方法、系统及计算设备
CN105856243A (zh) 一种移动智能机器人
CN105043396A (zh) 一种移动机器人室内自建地图的方法和系统
Liu et al. YOLO-extract: Improved YOLOv5 for aircraft object detection in remote sensing images
CN103605978A (zh) 基于三维实景数据的城市违章建筑识别系统及方法
CN101794349A (zh) 机器人遥操作增强现实实验系统及方法
JP2021119507A (ja) 車線の決定方法、車線測位精度の評価方法、車線の決定装置、車線測位精度の評価装置、電子デバイス、コンピュータ可読記憶媒体、及びプログラム
CN104781849A (zh) 单眼视觉同时定位与建图(slam)的快速初始化
CN103994755B (zh) 一种基于模型的空间非合作目标位姿测量方法
CN112258567A (zh) 物体抓取点的视觉定位方法、装置、存储介质及电子设备
Ding et al. Crack detection and quantification for concrete structures using UAV and transformer
CN110852243B (zh) 一种基于改进YOLOv3的道路交叉口检测方法及装置
CN106447698B (zh) 一种基于距离传感器的多行人跟踪方法和系统
CN111400423B (zh) 基于多视图几何的智慧城市cim三维车辆位姿建模系统
TW202238449A (zh) 室內定位系統及室內定位方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170201