CN108073851A - 一种抓取手势识别的方法、装置及电子设备 - Google Patents
一种抓取手势识别的方法、装置及电子设备 Download PDFInfo
- Publication number
- CN108073851A CN108073851A CN201610981210.2A CN201610981210A CN108073851A CN 108073851 A CN108073851 A CN 108073851A CN 201610981210 A CN201610981210 A CN 201610981210A CN 108073851 A CN108073851 A CN 108073851A
- Authority
- CN
- China
- Prior art keywords
- image
- convolutional neural
- neural networks
- tributary
- gesture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
- G06V40/113—Recognition of static hand signs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23211—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with adaptive number of clusters
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种抓取手势识别的方法、装置及电子设备。本发明实施例在抓取手势识别过程中,采取多重网络支流进行特征抽取,能够学习到不同数据源信息,通过同时采用手掌和物体的相关信息,并结合多支流的卷积神经网络来自动学习特征,提高了抓取手势识别的准确性。
Description
技术领域
本发明涉及图像和视频处理技术领域,具体涉及一种抓取手势识别的方法、装置及电子设备。
背景技术
在人们的日常生活中,手是用户和真实世界/物体进行交互的重要工具,并在以下的技术中有着重要的作用:
增强现实技术:手掌是用户和其所穿戴设备交互的重要途径,用户可以用手掌控制所穿戴的设备。
机器人技术:机器人可以通过学习人类如何抓取物体来对物体进行抓取。抓取手势的识别可以提供理论上和可测量的基础来设计人工系统。
动作识别技术:随着穿戴设别的越来越普遍,经常需要从记录的影像设备中来挖掘识别用户的行为,而手作为一个用户和物体/世界交互的重要途径,可以通过对手的姿势识别来进一步识别用户的意图和活动。
抓取手势提供了用户动作和环境之间的交互信息,在人机交互、可穿戴设备等应用场景中,经常需要识别用户手部的抓取手势。然而,在不确定的应用场景中,可能存在大量的不同形状的物体外观,并且由于遮挡以及几何形变等原因,使得识别抓取手势成为一个很具有挑战性的任务。因此,亟需一种方案,能够提高抓取手势识别的准确性。
发明内容
本发明实施例要解决的技术问题是提供一种抓取手势识别的方法、装置及电子设备,提高抓取手势识别的准确性。
为解决上述技术问题,本发明实施例提供的抓取手势识别的方法,包括:
获得一待识别的抓取手势的第一彩色图像和第一深度图像;
根据所述第一彩色图像和第一深度图像,生成至少三种输入数据,所述至少三种输入数据包括:包含手掌部分的RGBD图像,手掌前景图像,被抓取物的掩膜图像;
将所述至少三种输入数据,输入至一预先训练得到的多支流卷积神经网络中的对应支流,并将所述多支流卷积神经网络的输出结果输入至一预先训练得到的聚类模型,识别得到所述待识别的抓取手势的类别;
其中,所述多支流卷积神经网络至少包括:用于学习抓取手势的全局信息的第一支流,用于学习手掌外观姿态的第二支流,用于学习物体形状的局部信息的第三支流,所述第一支流、第二支流和第三支流,分别对应于所述包含手掌部分的RGBD图像、所述手掌前景图像、和所述被抓取物的掩膜图像。
优选的,上述方法中,在所述获得一待识别的抓取手势的第一彩色图像和第一深度图像的步骤之前,所述方法还包括:
预处理多个抓取手势样本的样本彩色图像和样本深度图像,得到训练数据,所述训练数据包括每个抓取手势的所述至少三种输入数据;
建立多支流卷积神经网络,所述多支流卷积神经网络包括一一对应于每种输入数据的多个支流;
将所述训练数据中的每种输入数据,分别输入至所述多支流卷积神经网络中对应的支流,计算得到所述训练数据的特征;
融合所述多支流卷积神经网络的各个支流的得到的特征,得到融合特征;
对融合特征进行聚类,获得聚类结果并更新聚类中心;
根据聚类结果,更新所述多支流卷积神经网络的目标函数,并根据目标函数的梯度,更新所述多支流卷积神经网络的模型参数;
判断是否满足预设的迭代终止条件,若满足,则输出最终的多支流卷积神经网络和聚类模型,否则返回所述将所述训练数据中的每种输入数据,分别输入至所述多支流卷积神经网络中对应的支流,计算得到所述训练数据的特征的步骤。
优选的,上述方法中,所述预处理多个抓取手势的样本彩色图像和样本深度图像,得到训练数据的步骤,包括:
合成同一个抓取手势的样本彩色图像和样本深度图像,得到包含手掌以及被抓取物的RGBD图像;
对所述样本彩色图像分割出前景部分的手掌图像,得到手掌前景图像;
结合所述样本深度图像和被抓取物在样本彩色图像上的分割区域,得到被抓取物的掩膜图像。
优选的,上述方法中,所述根据聚类结果,更新所述多支流卷积神经网络的目标函数,并根据目标函数的梯度,更新所述多支流卷积神经网络的模型参数的步骤,包括:
在更新所述多支流卷积神经网络的目标函数时,计算所有的抓取手势样本与该抓取手势样本所属聚类中心之间的距离的和值,并在所述目标函数中加入所述和值,以作为约束条件训练所述多支流卷积神经网络。
优选的,上述方法中,所述预设的迭代终止条件包括:目标函数收敛到预设的条件或者迭代次数达到预设的次数。
本发明实施例还提供了一种抓取手势识别装置,包括:
图像获得单元,用于获得一待识别的抓取手势的第一彩色图像和第一深度图像;
图像预处理单元,用于根据所述第一彩色图像和第一深度图像,生成至少三种输入数据,所述至少三种输入数据包括:包含手掌部分的RGBD图像,手掌前景图像,被抓取物的掩膜图像;
识别处理单元,用于将所述至少三种输入数据,输入至一预先训练得到的多支流卷积神经网络中的对应支流,并将所述多支流卷积神经网络的输出结果输入至一预先训练得到的聚类模型,识别得到所述待识别的抓取手势的类别;
其中,所述多支流卷积神经网络至少包括:用于学习抓取手势的全局信息的第一支流,用于学习手掌外观姿态的第二支流,用于学习物体形状的局部信息的第三支流,所述第一支流、第二支流和第三支流,分别对应于所述包含手掌部分的RGBD图像、所述手掌前景图像、和所述被抓取物的掩膜图像。
优选的,上述抓取手势识别装置还包括:
样本预处理单元,用于预处理多个抓取手势样本的样本彩色图像和样本深度图像,得到训练数据,所述训练数据包括每个抓取手势的所述至少三种输入数据;
模型建立单元,用于建立多支流卷积神经网络,所述多支流卷积神经网络包括一一对应于每种输入数据的多个支流;
训练单元,用于将所述训练数据中的每种输入数据,分别输入至所述多支流卷积神经网络中对应的支流,计算得到所述训练数据的特征;融合所述多支流卷积神经网络的各个支流的得到的特征,得到融合特征;对融合特征进行聚类,获得聚类结果并更新聚类中心;根据聚类结果,更新所述多支流卷积神经网络的目标函数,并根据目标函数的梯度,更新所述多支流卷积神经网络的模型参数;
判断输出单元,用于判断是否满足预设的迭代终止条件,若满足,则输出最终的多支流卷积神经网络和聚类模型,否则继续触发所述训练单元。
优选的,上述抓取手势识别装置中,所述样本预处理单元,具体用于合成同一个抓取手势的样本彩色图像和样本深度图像,得到包含手掌以及被抓取物的RGBD图像;对所述样本彩色图像分割出前景部分的手掌图像,得到手掌前景图像;以及,结合所述样本深度图像和被抓取物在样本彩色图像上的分割区域,得到被抓取物的掩膜图像。
优选的,上述抓取手势识别装置中,所述训练单元,在更新所述多支流卷积神经网络的目标函数时,计算所有的抓取手势样本与该抓取手势样本所属聚类中心之间的距离的和值,并在所述目标函数中加入所述和值,以作为约束条件训练所述多支流卷积神经网络。
优选的,上述抓取手势识别装置中,所述预设的迭代终止条件包括:目标函数收敛到预设的条件或者迭代次数达到预设的次数。
本发明实施例还提供了一种用于抓取手势识别的电子设备,包括:
处理器;
和存储器,所述存储器中存储有计算机程序指令,
其中,在所述计算机程序指令被所述处理器运行时,使得所述处理器执行以下步骤:
获得一待识别的抓取手势的第一彩色图像和第一深度图像;
根据所述第一彩色图像和第一深度图像,生成至少三种输入数据,所述至少三种输入数据包括:包含手掌部分的RGBD图像,手掌前景图像,被抓取物的掩膜图像;
将所述至少三种输入数据,输入至一预先训练得到的多支流卷积神经网络中的对应支流,并将所述多支流卷积神经网络的输出结果输入至一预先训练得到的聚类模型,识别得到所述待识别的抓取手势的类别;
其中,所述多支流卷积神经网络至少包括:用于学习抓取手势的全局信息的第一支流,用于学习手掌外观姿态的第二支流,用于学习物体形状的局部信息的第三支流,所述第一支流、第二支流和第三支流,分别对应于所述包含手掌部分的RGBD图像、所述手掌前景图像、和所述被抓取物的掩膜图像。
与现有技术相比,本发明实施例提供的抓取手势识别的方法、装置及电子设备,至少具有以下有益效果:本发明实施例在抓取手势识别过程中,采取多重网络支流进行特征抽取,能够学习到不同数据源信息(如手掌姿势的外观和被抓物体的形状),通过同时采用手掌和物体的相关信息,并结合多支流的卷积神经网络来自动学习特征,提高了抓取手势识别的准确性。另外,由于抓取手势被手的外观影响的同时,还受被抓物体的影响,本发明实施例通过采用具有多个支流的神经网络,然后可以采用在线的聚类算法处理,可以解决多视角带来的类内距较大的问题。
附图说明
图1为本发明实施例的抓取手势识别方法的应用环境示意图;
图2为本发明实施例的抓取手势识别的方法的流程示意图;
图3为本发明实施例的建立多支流卷积神经网络的流程示意图;
图4是本发明实施例中一种多支流卷积神经网络的示意图;
图5是本发明实施例中基于多支流卷积神经网络的特征的融合示意图;
图6为本发明实施例提供的一种抓取手势识别装置的结构示意图;
图7为本发明实施例提供的另一种抓取手势识别装置的结构示意图;
图8为本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。在下面的描述中,提供诸如具体的配置和组件的特定细节仅仅是为了帮助全面理解本发明的实施例。因此,本领域技术人员应该清楚,可以对这里描述的实施例进行各种改变和修改而不脱离本发明的范围和精神。另外,为了清楚和简洁,省略了对已知功能和构造的描述。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。
在本发明的各种实施例中,应理解,下述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
经过对抓取手势识别任务的研究,本申请的发明人认为:
1)手掌的外观是识别抓取手势的主要因素。
2)被抓取物也能影响抓取手势,比如物体的形状,大小,质量等。
3)由于手掌的自由度很大,因此产生了同一种抓取手势具有不同的视角。
4)深度神经网络也可自动的学到可判别性的特征,相对而言人工设计的特征就非常耗时而且识别的结果很大程度上依赖于特征的设计。
基于以上认识,本发明实施例提供了一种抓取手势识别的方法,可应用于人机交互及可穿戴设备等领域,用于识别出用户的抓取手势的类别。本发明实施例中,可以基于预先获得的多份抓取手势样本的图像数据,人工标定出抓取手势的各种类别,进而基于抓取手势样本生成训练数据,训练得到多支流卷积神经网络。如图1所示,在进行抓取手势识别时,本发明实施例可以基于包含有抓取手势的深度图像和彩色图像,利用本发明实施例的抓取手势识别的方法,识别出待识别的手势具体属于哪一种类别。
请参照图2,本发明实施例提供的抓取手势识别的方法,包括:
步骤111,获得一待识别的抓取手势的第一彩色图像和第一深度图像。
这里,待识别的抓取手势的图像包括彩色图像(如RGB图像)以及深度图像,上述图像里通常应包括有用户的手掌以及被抓取物的图像数据。
步骤112,根据所述第一彩色图像和第一深度图像,生成至少三种输入数据,所述至少三种输入数据包括:包含手掌部分的彩色深度(RGBD)图像,手掌前景图像,被抓取物的掩膜图像。
这里,对上述第一彩色图像和第一深度图像进行处理,生成了多支流卷积神经网络中的输入数据,以利用多支流卷积神经网络计算出待识别的抓取手势的类别。具体的,可以通过合成所述第一彩色图像和第一深度图像,从而得到包含手掌以及被抓取物的RGBD图像;对第一彩色图像进行前景分割,分割出前景部分中的手掌图像,得到手掌前景图像,例如,可以采取肤色模型,从彩色图像中分割出手;以及,结合第一深度图像和被抓取物在第一彩色图像上的分割区域,提取出被抓取物的掩膜图像(即反映被抓取物的形状的图像)。
本发明实施例中,提供给多支流卷积神经网络的输入数据至少包括同一个抓取手势的上述三种图像数据,相应的,多支流卷积神经网络包括与每种图像数据一一对应的多个支流。当然,本发明实施例还可以定义更多种类的图像数据,例如,还可以提取出手掌与被抓取物相接触部分的图像数据,此时,多支流卷积神经网络则需要进一步包括与该图像数据对应的支流。也就是说,假设有N种的输入数据,则所述多支流卷积神经网络包括相同数量的N个支流,每个支流与其中一种输入数据相对应。
步骤113,将所述至少三种输入数据,输入至一预先训练得到的多支流卷积神经网络中的对应支流,并将所述多支流卷积神经网络的输出结果输入至一预先训练得到的聚类模型,识别得到所述待识别的抓取手势的类别;其中,所述多支流卷积神经网络至少包括:用于学习抓取手势的全局信息的第一支流,用于学习手掌外观姿态的第二支流,用于学习物体形状的局部信息的第三支流,所述第一支流、第二支流和第三支流,分别对应于所述包含手掌部分的RGBD图像、所述手掌前景图像、和所述被抓取物的掩膜图像。
这里,本发明实施例在上述步骤111之前,可以预先训练得到多支流卷积神经网络以及聚类模型,每种输入数据对应所述多支流卷积神经网络中的一个支流,如图3所示,具体的训练步骤可以包括:
步骤101,预处理多个抓取手势样本的样本彩色图像和样本深度图像,得到训练数据,所述训练数据包括每个抓取手势的所述至少三种输入数据。
这里,预处理的目的是为了生成训练神经网络以及聚类模型所需要的数据。可以预先获得多个抓取手势样本的图像,每个抓取手势样本的图像包括一个样本彩色图像(如RGB图像)和一个样本深度图像。另外,本发明实施例可以预先通过人工标定的方式,确定各个抓取手势样本的图像的抓取手势的类别,以在后续步骤中对模型进行训练学习。另外,这里针对每个抓取手势样本的样本彩色图像和样本深度图像,同样的生成至少三种输入数据,具体的:合成同一个抓取手势的样本彩色图像和样本深度图像,得到包含手掌部分的RGBD图像;对所述样本彩色图像分割出手掌图像,得到手掌前景图像,具体的,可以采取肤色模型从彩色图像中分割出手;以及,结合所述样本深度图像和被抓取物在样本彩色图像上的分割区域,得到被抓取物的掩膜图像。上述RGBD图像、手掌前景图像以及被抓取物的掩膜图像即为上述至少三种输入数据。同样的,在采用更多支流的卷积神经网络时,则相应的需要生成更多种类的输入数据。
步骤102,建立多支流卷积神经网络,所述多支流卷积神经网络包括一一对应于每种输入数据的多个支流。
这里,为步骤101中生成的每种输入数据建立一个神经网络支流,以三种输入数据为例,图4给出了本发明实施例建立的卷积神经网络的示例图。在本示例中,定义三个神经网络支流,分别是RGBD-CNN,HNAD-CNN,和OBJECT-CNN。
其中,神经网络支流RGBD-CNN输出为F1,由于RGBD-CNN包含了全部的彩色信息和深度信息,通过该神经网络支流可以学到全局信息。HNAD-CNN的输出为F2,由于HNAD-CNN的输入为手掌的外观信息,因此可以学习到手掌的形态信息。OBJECT-CNN的输出为F3,由于OBJECT-CNN的输入是所抓物体的掩膜。OBJECT-CNN神经网络可以学习到物体的形状信息。其中RGBD-CNN输出的是全局特征,HNAD-CNN和OBJECT-CNN输出的为局部特征。这三个网络支流在卷积神经网络的最后一层的全连接层需要连接在一起。
另外,本发明实施例可以自行定义卷积神经网络模型结构,也可以采用现有的网络结构,例如VGG,AlexNet,GoogleNet等等。
步骤103,将所述训练数据中的每种输入数据,分别输入至所述多支流卷积神经网络中对应的支流,计算得到所述训练数据的特征。
这里,利用训练数据,对卷积神经网络进行训练,通过在神经网络支流中进行前馈计算得到最后的特征。例如,图4中,将训练数据的每种输入数据输入至对应的支流,计算得到对应的特征,如F1、F2和F3。
步骤104,融合所述多支流卷积神经网络的各个支流的得到的特征,得到融合特征。
这里,融合多个神经网络支流输出的特征。例如,图5给出了融合神经网络支流输出特征的示意图,针对图4的三个神经网络支流输出特征F1,F2,F3进行融合,得到融合后的特征F,在此示例中采用全连接的方式进行融合。
步骤105,对融合特征进行聚类,获得聚类结果并更新聚类中心。
这里,对于上一步骤105输出的融合特征进行聚类处理并更新聚类中心。具体的,可以利用聚类模型,对步骤105输出的特征进行聚类。本发明实施例可以采用在线聚类的方法,也可以采取其他聚类方法,例如K-means和谱聚类等。
步骤106,根据聚类结果,更新所述多支流卷积神经网络的目标函数,并根据目标函数的梯度,更新所述多支流卷积神经网络的模型参数。
这里,在更新所述多支流卷积神经网络的目标函数时,可以计算所有的抓取手势样本与该抓取手势样本所属聚类中心之间的距离的和值,并在所述目标函数中加入所述和值,以作为约束条件训练所述多支流卷积神经网络。
以下公式(1)示例性的给出了神经网络的优化的目标函数J(θ),在优化过程中根据该目标函数的梯度更新上述神经网络支流以及聚类模型的参数,其中,公式(1)中的表示所有的抓取手势样本与该抓取手势样本所属聚类中心之间的距离的和值。
在上述公式(1)中,N是训练数据中的抓取手势样本的数量;T是抓取手势样本的抓取手势的类别的数量;y是通过多支流卷积神经网络及聚类模型预测得到的抓取手势的类别;y表示预测值,t表示真实值,1(y=t)是表示当预测值与真实值相等时取值为1,反之取值为0;θ是学习得到softmax回归中的参数;C是聚类的中心的数量,其中C>T。因为当C>T时,可以表达多视角下的同一个类别;NC是所属聚类中心c中的样本的数量;Fk是表示第k个抓取手势样本的经过神经网络提取的特征。
步骤107,判断是否满足预设的迭代终止条件,若满足,则进入步骤108;否则返回步骤103,以重复步骤103~106。
这里,所述预设的迭代终止条件可以包括:目标函数收敛到预设的条件(如小于某个阈值)或者迭代次数达到预设的次数。
步骤108,输出最终的多支流卷积神经网络和聚类模型。
这里,当训练模型完成之后,得到多支流卷积神经网络和聚类模型,具体的,多支流卷积神经网络的输出结果,即作为聚类模型的输入。从而可以通过上述通过多支流卷积神经网络和聚类模型,识别图2的待识别的抓取手势的类别。
从以上所述可以看出,本发明实施例在抓取手势识别过程中,同时采用手掌和物体的相关信息,结合多支流的卷积神经网络来自动学习特征,提高了抓取手势识别的准确性。另外,由于抓取手势被手的外观影响的同时,还受被抓物体的影响,本发明实施例通过采用具有多个支流的神经网络,然后可以采用在线的聚类算法处理,可以解决多视角带来的类内距较大的问题。
本发明实施例还提供了实施图2~图3所示方法的装置。请参照图6,本发明实施例提供了一种抓取手势识别装置60,包括:
图像获得单元611,用于获得一待识别的抓取手势的第一彩色图像和第一深度图像。
图像预处理单元612,用于根据所述第一彩色图像和第一深度图像,生成至少三种输入数据,所述至少三种输入数据包括:包含手掌部分的RGBD图像,手掌前景图像,被抓取物的掩膜图像。
识别处理单元613,用于将所述至少三种输入数据,输入至一预先训练得到的多支流卷积神经网络中的对应支流,并将所述多支流卷积神经网络的输出结果输入至一预先训练得到的聚类模型,识别得到所述待识别的抓取手势的类别;其中,所述多支流卷积神经网络至少包括:用于学习抓取手势的全局信息的第一支流,用于学习手掌外观姿态的第二支流,用于学习物体形状的局部信息的第三支流,所述第一支流、第二支流和第三支流,分别对应于所述包含手掌部分的RGBD图像、所述手掌前景图像、和所述被抓取物的掩膜图像。
请参照图7,本发明实施例提供的另一种抓取手势识别装置600,包括:
样本预处理单元601,用于预处理多个抓取手势样本的样本彩色图像和样本深度图像,得到训练数据,所述训练数据包括每个抓取手势的所述至少三种输入数据。
模型建立单元602,用于建立多支流卷积神经网络,所述多支流卷积神经网络包括一一对应于每种输入数据的多个支流。
训练单元603,用于将所述训练数据中的每种输入数据,分别输入至所述多支流卷积神经网络中对应的支流,计算得到所述训练数据的特征;融合所述多支流卷积神经网络的各个支流的得到的特征,得到融合特征;对融合特征进行聚类,获得聚类结果并更新聚类中心;根据聚类结果,更新所述多支流卷积神经网络的目标函数,并根据目标函数的梯度,更新所述多支流卷积神经网络的模型参数。
判断输出单元604,用于判断是否满足预设的迭代终止条件,若满足,则输出最终的多支流卷积神经网络和聚类模型,否则继续触发所述训练单元。其中,所述预设的迭代终止条件包括:目标函数收敛到预设的条件或者迭代次数达到预设的次数。
图像获得单元611,用于获得一待识别的抓取手势的第一彩色图像和第一深度图像。
图像预处理单元612,用于根据所述第一彩色图像和第一深度图像,生成至少三种输入数据,所述至少三种输入数据包括:包含手掌部分的RGBD图像,手掌前景图像,被抓取物的掩膜图像。
识别处理单元613,用于将所述至少三种输入数据,输入至一预先训练得到的多支流卷积神经网络中的对应支流,并将所述多支流卷积神经网络的输出结果输入至一预先训练得到的聚类模型,识别得到所述待识别的抓取手势的类别;其中,所述多支流卷积神经网络至少包括:用于学习抓取手势的全局信息的第一支流,用于学习手掌外观姿态的第二支流,用于学习物体形状的局部信息的第三支流。
这里,所述样本预处理单元601,具体用于合成同一个抓取手势的样本彩色图像和样本深度图像,得到包含手掌以及被抓取物的RGBD图像;对所述样本彩色图像分割出前景部分的手掌图像,得到手掌前景图像;以及,结合所述样本深度图像和被抓取物在样本彩色图像上的分割区域,得到被抓取物的掩膜图像。
所述训练单元603,在更新所述多支流卷积神经网络的目标函数时,计算所有的抓取手势样本与该抓取手势样本所属聚类中心之间的距离的和值,并在所述目标函数中加入所述和值,以作为约束条件训练所述多支流卷积神经网络。
最后,请参照图8,本发明实施例还提供了一种用于抓取手势识别的电子设备,可以实现本发明以上实施例的流程。所述电子设备可以是个人电脑(PC),平板电脑以及各种智能设备(包括智能眼镜或智能手机)等。如图8所示,上述电子设备80可以包括:处理器81和存储器,所述存储器中存储有计算机程序指令。这里,所述存储器具体可以包括RAM(随机存取存储器)82、ROM(只读存储器)83。其中,在所述计算机程序指令被所述处理器运行时,使得所述处理器执行以下步骤:
获得一待识别的抓取手势的第一彩色图像和第一深度图像;
根据所述第一彩色图像和第一深度图像,生成至少三种输入数据,所述至少三种输入数据包括:包含手掌部分的RGBD图像,手掌前景图像,被抓取物的掩膜图像;
将所述至少三种输入数据,输入至一预先训练得到的多支流卷积神经网络中的对应支流,并将所述多支流卷积神经网络的输出结果输入至一预先训练得到的聚类模型,识别得到所述待识别的抓取手势的类别;
其中,所述多支流卷积神经网络至少包括:用于学习抓取手势的全局信息的第一支流,用于学习手掌外观姿态的第二支流,用于学习物体形状的局部信息的第三支流,所述第一支流、第二支流和第三支流,分别对应于所述包含手掌部分的RGBD图像、所述手掌前景图像、和所述被抓取物的掩膜图像。
如图8所示,本发明实施例的电子设备还可以包括:硬盘84、输入设备88和显示设备86。具体的,输入设备88可以是具有输入功能和/或接收功能的设备,如键盘、触摸屏、各种接口,以获取预先得到的抓取手势样本的样本彩色图像和样本深度图像,以及接收获得待识别的抓取手势的图像数据。所述显示设备86可以是LED显示面板或显示器,可以用于显示多支流卷积神经网络模型的训练进度,还可以显示识别出的抓取手势的类别等。
上述处理器81、RAM 82、ROM 83、硬盘84、输入设备88和显示设备86可以通过总线架构互连。总线架构可以是可以包括任意数量的互联的总线和桥。具体由处理器82代表的一个或者多个中央处理器(CPU),以及由RAM 82和ROM 83代表的一个或者多个存储器的各种电路连接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其它电路连接在一起,这些都是本领域所公知的,因此本文不再对其进行详细描述。
上述输入设备88,用于将抓取手势样本的样本彩色图像和样本深度图像输入并保存在硬盘84中。
上述RAM 82和ROM 83,用于存储系统运行所必须的程序和数据,以及处理器计算过程中的中间结果等数据。
在本申请所提供的上述各个实施例中,应该理解到,所揭露方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理包括,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述收发方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (11)
1.一种抓取手势识别的方法,其特征在于,包括:
获得一待识别的抓取手势的第一彩色图像和第一深度图像;
根据所述第一彩色图像和第一深度图像,生成至少三种输入数据,所述至少三种输入数据包括:包含手掌部分的RGBD图像,手掌前景图像,被抓取物的掩膜图像;
将所述至少三种输入数据,输入至一预先训练得到的多支流卷积神经网络中的对应支流,并将所述多支流卷积神经网络的输出结果输入至一预先训练得到的聚类模型,识别得到所述待识别的抓取手势的类别;
其中,所述多支流卷积神经网络至少包括:用于学习抓取手势的全局信息的第一支流,用于学习手掌外观姿态的第二支流,用于学习物体形状的局部信息的第三支流,所述第一支流、第二支流和第三支流,分别对应于所述包含手掌部分的RGBD图像、所述手掌前景图像、和所述被抓取物的掩膜图像。
2.如权利要求1所述的方法,其特征在于,在所述获得一待识别的抓取手势的第一彩色图像和第一深度图像的步骤之前,所述方法还包括:
预处理多个抓取手势样本的样本彩色图像和样本深度图像,得到训练数据,所述训练数据包括每个抓取手势的所述至少三种输入数据;
建立多支流卷积神经网络,所述多支流卷积神经网络包括一一对应于每种输入数据的多个支流;
将所述训练数据中的每种输入数据,分别输入至所述多支流卷积神经网络中对应的支流,计算得到所述训练数据的特征;
融合所述多支流卷积神经网络的各个支流的得到的特征,得到融合特征;
对融合特征进行聚类,获得聚类结果并更新聚类中心;
根据聚类结果,更新所述多支流卷积神经网络的目标函数,并根据目标函数的梯度,更新所述多支流卷积神经网络的模型参数;
判断是否满足预设的迭代终止条件,若满足,则输出最终的多支流卷积神经网络和聚类模型,否则返回所述将所述训练数据中的每种输入数据,分别输入至所述多支流卷积神经网络中对应的支流,计算得到所述训练数据的特征的步骤。
3.如权利要求2所述的方法,其特征在于,所述预处理多个抓取手势的样本彩色图像和样本深度图像,得到训练数据的步骤,包括:
合成同一个抓取手势的样本彩色图像和样本深度图像,得到包含手掌以及被抓取物的RGBD图像;
对所述样本彩色图像分割出前景部分的手掌图像,得到手掌前景图像;
结合所述样本深度图像和被抓取物在样本彩色图像上的分割区域,得到被抓取物的掩膜图像。
4.如权利要求2所述的方法,其特征在于,
所述根据聚类结果,更新所述多支流卷积神经网络的目标函数,并根据目标函数的梯度,更新所述多支流卷积神经网络的模型参数的步骤,包括:
在更新所述多支流卷积神经网络的目标函数时,计算所有的抓取手势样本与该抓取手势样本所属聚类中心之间的距离的和值,并在所述目标函数中加入所述和值,以作为约束条件训练所述多支流卷积神经网络。
5.如权利要求4所述的方法,其特征在于,
所述预设的迭代终止条件包括:目标函数收敛到预设的条件或者迭代次数达到预设的次数。
6.一种抓取手势识别装置,其特征在于,包括:
图像获得单元,用于获得一待识别的抓取手势的第一彩色图像和第一深度图像;
图像预处理单元,用于根据所述第一彩色图像和第一深度图像,生成至少三种输入数据,所述至少三种输入数据包括:包含手掌部分的RGBD图像,手掌前景图像,被抓取物的掩膜图像;
识别处理单元,用于将所述至少三种输入数据,输入至一预先训练得到的多支流卷积神经网络中的对应支流,并将所述多支流卷积神经网络的输出结果输入至一预先训练得到的聚类模型,识别得到所述待识别的抓取手势的类别;
其中,所述多支流卷积神经网络至少包括:用于学习抓取手势的全局信息的第一支流,用于学习手掌外观姿态的第二支流,用于学习物体形状的局部信息的第三支流,所述第一支流、第二支流和第三支流,分别对应于所述包含手掌部分的RGBD图像、所述手掌前景图像、和所述被抓取物的掩膜图像。
7.如权利要求6所述的抓取手势识别装置,其特征在于,还包括:
样本预处理单元,用于预处理多个抓取手势样本的样本彩色图像和样本深度图像,得到训练数据,所述训练数据包括每个抓取手势的所述至少三种输入数据;
模型建立单元,用于建立多支流卷积神经网络,所述多支流卷积神经网络包括一一对应于每种输入数据的多个支流;
训练单元,用于将所述训练数据中的每种输入数据,分别输入至所述多支流卷积神经网络中对应的支流,计算得到所述训练数据的特征;融合所述多支流卷积神经网络的各个支流的得到的特征,得到融合特征;对融合特征进行聚类,获得聚类结果并更新聚类中心;根据聚类结果,更新所述多支流卷积神经网络的目标函数,并根据目标函数的梯度,更新所述多支流卷积神经网络的模型参数;
判断输出单元,用于判断是否满足预设的迭代终止条件,若满足,则输出最终的多支流卷积神经网络和聚类模型,否则继续触发所述训练单元。
8.如权利要求7所述的抓取手势识别装置,其特征在于,
所述样本预处理单元,具体用于合成同一个抓取手势的样本彩色图像和样本深度图像,得到包含手掌以及被抓取物的RGBD图像;对所述样本彩色图像分割出前景部分的手掌图像,得到手掌前景图像;以及,结合所述样本深度图像和被抓取物在样本彩色图像上的分割区域,得到被抓取物的掩膜图像。
9.如权利要求7所述的抓取手势识别装置,其特征在于,
所述训练单元,在更新所述多支流卷积神经网络的目标函数时,计算所有的抓取手势样本与该抓取手势样本所属聚类中心之间的距离的和值,并在所述目标函数中加入所述和值,以作为约束条件训练所述多支流卷积神经网络。
10.如权利要求9所述的抓取手势识别装置,其特征在于,
所述预设的迭代终止条件包括:目标函数收敛到预设的条件或者迭代次数达到预设的次数。
11.一种用于抓取手势识别的电子设备,其特征在于,包括:
处理器;
和存储器,所述存储器中存储有计算机程序指令,
其中,在所述计算机程序指令被所述处理器运行时,使得所述处理器执行以下步骤:
获得一待识别的抓取手势的第一彩色图像和第一深度图像;
根据所述第一彩色图像和第一深度图像,生成至少三种输入数据,所述至少三种输入数据包括:包含手掌部分的RGBD图像,手掌前景图像,被抓取物的掩膜图像;
将所述至少三种输入数据,输入至一预先训练得到的多支流卷积神经网络中的对应支流,并将所述多支流卷积神经网络的输出结果输入至一预先训练得到的聚类模型,识别得到所述待识别的抓取手势的类别;
其中,所述多支流卷积神经网络至少包括:用于学习抓取手势的全局信息的第一支流,用于学习手掌外观姿态的第二支流,用于学习物体形状的局部信息的第三支流,所述第一支流、第二支流和第三支流,分别对应于所述包含手掌部分的RGBD图像、所述手掌前景图像、和所述被抓取物的掩膜图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610981210.2A CN108073851B (zh) | 2016-11-08 | 2016-11-08 | 一种抓取手势识别的方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610981210.2A CN108073851B (zh) | 2016-11-08 | 2016-11-08 | 一种抓取手势识别的方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108073851A true CN108073851A (zh) | 2018-05-25 |
CN108073851B CN108073851B (zh) | 2021-12-28 |
Family
ID=62154056
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610981210.2A Active CN108073851B (zh) | 2016-11-08 | 2016-11-08 | 一种抓取手势识别的方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108073851B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108629946A (zh) * | 2018-06-14 | 2018-10-09 | 清华大学深圳研究生院 | 一种基于rgbd传感器的人体跌倒检测方法 |
CN109635750A (zh) * | 2018-12-14 | 2019-04-16 | 广西师范大学 | 一种复杂背景下的复合卷积神经网络手势图像识别方法 |
CN110135237A (zh) * | 2019-03-24 | 2019-08-16 | 北京化工大学 | 一种手势识别方法 |
CN110298886A (zh) * | 2019-07-01 | 2019-10-01 | 中国科学技术大学 | 一种基于四级卷积神经网络的灵巧手抓取规划方法 |
CN110348323A (zh) * | 2019-06-19 | 2019-10-18 | 广东工业大学 | 一种基于神经网络优化的穿戴式设备手势识别方法 |
CN113420609A (zh) * | 2021-05-31 | 2021-09-21 | 湖南森鹰智造科技有限公司 | 激光雷达人体手势识别方法、电子设备、存储介质 |
US11335007B2 (en) * | 2020-05-29 | 2022-05-17 | Zebra Technologies Corporation | Method to generate neural network training image annotations |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103098076A (zh) * | 2010-09-17 | 2013-05-08 | 索尼公司 | 电视机控制用手势识别系统 |
CN103810480A (zh) * | 2014-02-28 | 2014-05-21 | 青岛大学 | 基于rgb-d图像的手势检测方法 |
CN103839040A (zh) * | 2012-11-27 | 2014-06-04 | 株式会社理光 | 基于深度图像的手势识别方法和装置 |
CN103926999A (zh) * | 2013-01-16 | 2014-07-16 | 株式会社理光 | 手掌开合手势识别方法和装置、人机交互方法和设备 |
CN104050454A (zh) * | 2014-06-24 | 2014-09-17 | 深圳先进技术研究院 | 一种运动手势轨迹获取方法及系统 |
US20140298272A1 (en) * | 2013-03-29 | 2014-10-02 | Microsoft Corporation | Closing, starting, and restarting applications |
CN104408760A (zh) * | 2014-10-28 | 2015-03-11 | 燕山大学 | 一种基于双目视觉的高精度虚拟装配系统算法 |
CN105046199A (zh) * | 2015-06-17 | 2015-11-11 | 吉林纪元时空动漫游戏科技股份有限公司 | 基于像素分类器和椭圆拟合的指尖点提取方法 |
CN105205475A (zh) * | 2015-10-20 | 2015-12-30 | 北京工业大学 | 一种动态手势识别方法 |
CN105373785A (zh) * | 2015-11-30 | 2016-03-02 | 北京地平线机器人技术研发有限公司 | 基于深度神经网络的手势识别检测方法与装置 |
CN105718879A (zh) * | 2016-01-19 | 2016-06-29 | 华南理工大学 | 基于深度卷积神经网络的自由场景第一视角手指关键点检测方法 |
US20160323564A1 (en) * | 2015-05-01 | 2016-11-03 | Dell Products L.P. | Dynamic Mode Switching of 2D/3D Multi-Modal Camera for Efficient Gesture Detection |
-
2016
- 2016-11-08 CN CN201610981210.2A patent/CN108073851B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103098076A (zh) * | 2010-09-17 | 2013-05-08 | 索尼公司 | 电视机控制用手势识别系统 |
CN103839040A (zh) * | 2012-11-27 | 2014-06-04 | 株式会社理光 | 基于深度图像的手势识别方法和装置 |
US20140198031A1 (en) * | 2013-01-16 | 2014-07-17 | Huaixin XIONG | Palm gesture recognition method and device as well as human-machine interaction method and apparatus |
CN103926999A (zh) * | 2013-01-16 | 2014-07-16 | 株式会社理光 | 手掌开合手势识别方法和装置、人机交互方法和设备 |
US20140298272A1 (en) * | 2013-03-29 | 2014-10-02 | Microsoft Corporation | Closing, starting, and restarting applications |
CN103810480A (zh) * | 2014-02-28 | 2014-05-21 | 青岛大学 | 基于rgb-d图像的手势检测方法 |
CN104050454A (zh) * | 2014-06-24 | 2014-09-17 | 深圳先进技术研究院 | 一种运动手势轨迹获取方法及系统 |
CN104408760A (zh) * | 2014-10-28 | 2015-03-11 | 燕山大学 | 一种基于双目视觉的高精度虚拟装配系统算法 |
US20160323564A1 (en) * | 2015-05-01 | 2016-11-03 | Dell Products L.P. | Dynamic Mode Switching of 2D/3D Multi-Modal Camera for Efficient Gesture Detection |
CN105046199A (zh) * | 2015-06-17 | 2015-11-11 | 吉林纪元时空动漫游戏科技股份有限公司 | 基于像素分类器和椭圆拟合的指尖点提取方法 |
CN105205475A (zh) * | 2015-10-20 | 2015-12-30 | 北京工业大学 | 一种动态手势识别方法 |
CN105373785A (zh) * | 2015-11-30 | 2016-03-02 | 北京地平线机器人技术研发有限公司 | 基于深度神经网络的手势识别检测方法与装置 |
CN105718879A (zh) * | 2016-01-19 | 2016-06-29 | 华南理工大学 | 基于深度卷积神经网络的自由场景第一视角手指关键点检测方法 |
Non-Patent Citations (2)
Title |
---|
LV, X ET AL.: "RGB-D Hand-Held Object Recognition Based on Heterogeneous Feature Fusion", 《J. COMPUT. SCI. TECHNOL》 * |
N. NEVEROVA ET AL.: "ModDrop: Adaptive Multi-Modal Gesture Recognition", 《HTTPS://ARXIV.ORG/ABS/1501.00102》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108629946A (zh) * | 2018-06-14 | 2018-10-09 | 清华大学深圳研究生院 | 一种基于rgbd传感器的人体跌倒检测方法 |
CN108629946B (zh) * | 2018-06-14 | 2020-09-04 | 清华大学深圳研究生院 | 一种基于rgbd传感器的人体跌倒检测方法 |
CN109635750A (zh) * | 2018-12-14 | 2019-04-16 | 广西师范大学 | 一种复杂背景下的复合卷积神经网络手势图像识别方法 |
CN110135237A (zh) * | 2019-03-24 | 2019-08-16 | 北京化工大学 | 一种手势识别方法 |
CN110135237B (zh) * | 2019-03-24 | 2021-11-26 | 北京化工大学 | 一种手势识别方法 |
CN110348323A (zh) * | 2019-06-19 | 2019-10-18 | 广东工业大学 | 一种基于神经网络优化的穿戴式设备手势识别方法 |
CN110348323B (zh) * | 2019-06-19 | 2022-12-16 | 广东工业大学 | 一种基于神经网络优化的穿戴式设备手势识别方法 |
CN110298886A (zh) * | 2019-07-01 | 2019-10-01 | 中国科学技术大学 | 一种基于四级卷积神经网络的灵巧手抓取规划方法 |
CN110298886B (zh) * | 2019-07-01 | 2020-12-25 | 中国科学技术大学 | 一种基于四级卷积神经网络的灵巧手抓取规划方法 |
US11335007B2 (en) * | 2020-05-29 | 2022-05-17 | Zebra Technologies Corporation | Method to generate neural network training image annotations |
CN113420609A (zh) * | 2021-05-31 | 2021-09-21 | 湖南森鹰智造科技有限公司 | 激光雷达人体手势识别方法、电子设备、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108073851B (zh) | 2021-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109359538B (zh) | 卷积神经网络的训练方法、手势识别方法、装置及设备 | |
Yan et al. | Mirrornet: Bio-inspired camouflaged object segmentation | |
CN108073851A (zh) | 一种抓取手势识别的方法、装置及电子设备 | |
Zhang et al. | Fusing geometric features for skeleton-based action recognition using multilayer LSTM networks | |
WO2021022970A1 (zh) | 一种基于多层随机森林的零部件识别方法及系统 | |
CN107633207B (zh) | Au特征识别方法、装置及存储介质 | |
CN108537136B (zh) | 基于姿态归一化图像生成的行人重识别方法 | |
CN109325952B (zh) | 基于深度学习的时尚服装图像分割方法 | |
Khan et al. | Hand gesture recognition: a literature review | |
CN104318558B (zh) | 复杂场景下基于多信息融合的手势分割方法 | |
CN110569795A (zh) | 一种图像识别方法、装置以及相关设备 | |
Sincan et al. | Using motion history images with 3d convolutional networks in isolated sign language recognition | |
Agrawal et al. | A survey on manual and non-manual sign language recognition for isolated and continuous sign | |
Huang et al. | Joint cross-modal and unimodal features for RGB-D salient object detection | |
CN106446862A (zh) | 一种人脸检测方法及系统 | |
Rao et al. | Sign Language Recognition System Simulated for Video Captured with Smart Phone Front Camera. | |
CN111680550B (zh) | 情感信息识别方法、装置、存储介质及计算机设备 | |
CN112307975B (zh) | 融合语音与微表情的多模态情感识别方法及系统 | |
CN111857334A (zh) | 人体手势字母的识别方法、装置、计算机设备及存储介质 | |
CN103034851B (zh) | 自学习的基于肤色模型的手部跟踪装置及方法 | |
Liu et al. | Attentive cross-modal fusion network for RGB-D saliency detection | |
CN109670517A (zh) | 目标检测方法、装置、电子设备和目标检测模型 | |
CN109920018A (zh) | 基于神经网络的黑白照片色彩恢复方法、装置及存储介质 | |
CN110046544A (zh) | 基于卷积神经网络的数字手势识别方法 | |
CN117149944B (zh) | 一种基于宽时间范畴的多模态情境情感识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |