CN109993130A

CN109993130A - 一种基于深度图像动态手语语义识别系统及方法

Info

Publication number: CN109993130A
Application number: CN201910269214.1A
Authority: CN
Inventors: 刘禹欣; 李文越; 杜国铭; 赵雪洁; 宁可
Original assignee: Harbin Top Technology Co Ltd
Current assignee: Harbin Top Technology Co Ltd
Priority date: 2019-04-04
Filing date: 2019-04-04
Publication date: 2019-07-09

Abstract

本发明提出一种基于深度图像动态手语语义识别系统及方法，所述系统及方法通过获取操作者的深度图像视频信息，并对所述视频信息进行处理，获取手关节信息，通过关节信息分析出手语单词，将各所述单词输入到语义分析模型中，判断语义表达是否完整，在所述意图表达完整时，将各所述完整语义直接输出或转化控制命令传给其他控制单元，实现了将手语动作翻译为文字，控制机械或操作系统，有助于听障人士更好的融入社会生活。

Description

一种基于深度图像动态手语语义识别系统及方法

技术领域

本发明属于语义识别技术领域，特别是涉及一种基于深度图像动态手语语义识别系统及方法。

背景技术

手语识别控制从原理上可分为基于双目相机和基于深度图像三维回归，在手势分析上只支持简单手势识别、简单手语单词。其中，基于双目相机采用的是通过双目相机同时拍摄物体来计算出物体特征点的深度信息的方式来进行图像识别，从而分析出手势信息。基于深度图像三维回归方案主要依赖于深度摄像机对手势进行拍摄得到的图像及拍摄场景内各点与深度摄像机之间的距离信息建立该手势的三维模型。以三维模型为依据进行手势判断，在手势分析上，具体采用标准手势数据库,与手势动作进行匹配，选出与模型最为相近的手势。

现有技术中对语音识别以及语音控制做了很多的研究，也给可以使用语音控制的人创造了许多的便利，但对于聋哑人士却无法享受到这样的便利。而通过简单比划的方式(例如绘画、文字书写、动作比划)进行一些基础的沟通，并不能完全的表达使用者的意图，并且伴有一定的学习成本。所以，为了提高听障人士对控制设备的便利性，同时也为了便于聋哑残障人士与无手语基础的人进行无障碍沟通，急需一种能够理解手语语义的方法及系统。

发明内容

本发明目的是为了解决现有的技术问题，提出了一种基于深度图像动态手语语义识别系统及方法。

本发明是通过以下技术方案实现的，本发明提出一种基于深度图像动态手语语义识别系统，包括：

图像捕获模块，用于捕获操作者的深度图像视频数据并将每一帧深度图像传输给图像分析模块；

图像分析模块，用于处理深度图像视频数据，得到手部关节3d坐标并输出给手语分析模块；

手语分析模块，用于获取足够长度的手部关节3d坐标队列，并提取子队列进行分析，获得子队列可能表示的单词，并将所述单词传递给语义分析模块；

语义分析模块，用于获得足够表明一组完整的单词，并通过语义语境分析，对获取的单词矫正，并组合成完整正确语义的语句或者命令，并通过输出的语句或者命令进行控制操作。

进一步地，所述图像分析模块具体工作流程如下：

步骤21：接收图像捕获模块传输过来的深度图像视频数据；

步骤22：进行人手部矩形框选坐标的识别；

步骤23：通过循环神经网络进行基于时序信息的跟踪；

步骤24：通过提取深度图像框选区域为感兴趣区域，并对框选区域深度图像进行手部关节3d坐标提取；

步骤25：将提取的手部关节3d坐标输入到手语分析模块。

进一步地，所述步骤22具体为：

步骤221：通过图像发现并提取手部信息；

步骤222：对视频前后帧图像时序信息进行手部跟踪，根据检测结果确定目标矩形框选区域；

步骤223：持续跟踪手部，直到跟踪的手部信息消失，并返回步骤221。

进一步地，所述对框选区域深度图像进行手部关节3d坐标提取，具体为：

步骤241：接收框选后截取的深度图像；

步骤242：将深度图像以图像像素值最高点为基准截取到阈值的所有像素；

步骤243：将深度图像归一化到相同尺寸；

步骤244：以像素最低点的像素值为0，像素最高点的像素值为1，将图像进行归一化操作；

步骤245：将归一化后图像输入基于深度参差网络模型输出手部关节三维坐标；

步骤246：将手部关节三维坐标输出到手语分析模块中。

进一步地，所述手语分析模块具体用于将手部的三维坐标进行序列化存储，并通过训练得到的长短期记忆网络模型进行将坐标时序信息转化为手语单词的操作；输入为坐标序列帧，并将可能输出的单词通过独热编码进行重新编码，输出为通过softmax得到的所有概率密度分布，取前五高概率的单词的独热编码及其概率，从而实现从动作上识别操作者可能表达的单词。

进一步地，所述语义分析模块具体用于输入独热编码组和概率组序列，并通过训练得到的N-gram网络模型进行将单词组序列转化为具体语义的操作。

本发明还提出一种基于深度图像动态手语语义识别方法，具体包括以下步骤：

步骤1：调用图像捕获模块捕获操作者的深度图像视频数据将每一帧深度图像传输给图像分析模块；

步骤2：调用图像分析模块处理深度图像视频数据，得到手部关节3d坐标并输出给手语分析模块；

步骤3：重复步骤2，直到获取足够长度的手部关节3d坐标队列，并提取子队列进行分析，获得子队列可能表示的单词，并将所述单词传递给语义分析模块；

步骤4：重复步骤3，直到获得足够表明一组完整的的单词，并通过语义语境分析，对获取的单词矫正，并组合成完整正确语义的语句或者命令，并通过输出的语句或者命令进行控制操作。

进一步地，所述步骤3具体为：

步骤31：将手部关节3d坐标队列输入到长短期记忆网络模型中；

步骤32：通过所述长短期记忆网络模型得到前五高概率的单词独热编码及其概率；

步骤33：将独热编码组和概率组输入到语义分析模块中。

进一步地，所述步骤4具体为：

步骤41：将独热编码组和概率组序列输入到N-gram网络模型中；

步骤42：通过所述N-gram网络模型输出完整语义的句子；

步骤43：将完整语义的句子直接输出或者转化为操作信号传递给受控设备进行控制操作。

进一步地，所述图像捕获模块包括深度摄像机，所述深度摄像机的摄像头能够捕获视场范围内的深度信息，且视场范围可根据实际应用调节。

本发明与现有技术相比，具有如下优点：

1.为获取指定结果的输出，不必采用固定手势输入，只要手语语义相同。

2.采用深度相机采集数据，没有灯光、颜色等其他干扰。

3.系统耦合性低，可截取其中几个模块完成其他操作(例如可单独提取食指关节坐标，进行物体运动控制操作)

4.最终输出控制命令，可进行多项下属单元的控制。

附图说明

图1为本发明所述基于深度图像动态手语语义识别方法流程图。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

结合图1，本发明提出一种基于深度图像动态手语语义识别系统，包括：

所述图像分析模块具体工作流程如下：

步骤21：接收图像捕获模块传输过来的深度图像视频数据；

步骤22：进行人手部矩形框选坐标的识别；

步骤23：通过循环神经网络进行基于时序信息的跟踪；

步骤25：将提取的手部关节3d坐标输入到手语分析模块。

人手检测是通过模型对手部特征的比对以及前后帧的对比进行方位大小的定位，从而提取出操作人员手部位置信息的检测方法。训练过程中的时序图像采用图像捕获模块提取的时序视频。而对视频中的手部位置标注采用非实时性但准确率较高的基于卷积神经网络的yolov3模型，并配合人工修正的方式进行图像标注。对不同的人进行不同的数据采集来避免样本过拟合，从而让手型大小、以及不同场景上都可以得到非常好的效果。所述步骤22具体为：

步骤221：通过图像发现并提取手部信息；

所述对框选区域深度图像进行手部关节3d坐标提取，具体为：

步骤241：接收框选后截取的深度图像；

步骤243：将深度图像归一化到相同尺寸；

步骤246：将手部关节三维坐标输出到手语分析模块中。

所述手语分析模块具体用于将手部的三维坐标进行序列化存储，并通过训练得到的长短期记忆网络模型进行将坐标时序信息转化为手语单词的操作；输入为坐标序列帧，并将可能输出的单词通过独热编码进行重新编码，输出为通过softmax得到的所有概率密度分布，取前五高概率的单词的独热编码及其概率，从而实现从动作上识别操作者可能表达的单词。

所述语义分析模块具体用于输入独热编码组和概率组序列，并通过训练得到的N-gram网络模型进行将单词组序列转化为具体语义的操作。

所述步骤3具体为：

步骤33：将独热编码组和概率组输入到语义分析模块中。

所述步骤4具体为：

步骤42：通过所述N-gram网络模型输出完整语义的句子；

所述图像捕获模块包括深度摄像机，用于拍摄操作者进行手语表达时所作出的手势，该模块可接收控制信号，捕获深度图像并传入图像分析模块。所述深度摄像机的摄像头能够捕获视场范围内的深度信息，且视场范围可根据实际应用调节。同时可获取点云信息进行图像补正，并将原始深度图或者补正后深度图输入到图像分析模块中。

本发明所述系统及方法通过获取操作者的深度图像视频信息，并对所述视频信息进行处理，获取手关节信息，通过关节信息分析出手语单词，将各所述单词输入到语义分析模型中，判断语义表达是否完整，在所述意图表达完整时，将各所述完整语义直接输出或转化控制命令传给其他控制单元，实现了将手语动作翻译为文字，控制机械或操作系统，有助于听障人士更好的融入社会生活。

以上对本发明所提供的一种基于深度图像动态手语语义识别系统及方法，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于深度图像动态手语语义识别系统，其特征在于，包括：

2.根据权利要求1所述的系统，其特征在于，所述图像分析模块具体工作流程如下：

步骤21：接收图像捕获模块传输过来的深度图像视频数据；

步骤22：进行人手部矩形框选坐标的识别；

步骤23：通过循环神经网络进行基于时序信息的跟踪；

步骤25：将提取的手部关节3d坐标输入到手语分析模块。

3.根据权利要求2所述的系统，其特征在于，所述步骤22具体为：

步骤221：通过图像发现并提取手部信息；

4.根据权利要求2所述的系统，其特征在于，所述对框选区域深度图像进行手部关节3d坐标提取，具体为：

步骤241：接收框选后截取的深度图像；

步骤243：将深度图像归一化到相同尺寸；

步骤246：将手部关节三维坐标输出到手语分析模块中。

5.根据权利要求2、3或4所述的系统，其特征在于，所述手语分析模块具体用于将手部的三维坐标进行序列化存储，并通过训练得到的长短期记忆网络模型进行将坐标时序信息转化为手语单词的操作；输入为坐标序列帧，并将可能输出的单词通过独热编码进行重新编码，输出为通过softmax得到的所有概率密度分布，取前五高概率的单词的独热编码及其概率，从而实现从动作上识别操作者可能表达的单词。

6.根据权利要求5所述的系统，其特征在于，所述语义分析模块具体用于输入独热编码组和概率组序列，并通过训练得到的N-gram网络模型进行将单词组序列转化为具体语义的操作。

7.一种基于深度图像动态手语语义识别方法，其特征在于，具体包括以下步骤：

8.根据权利要求7所述的方法，其特征在于，所述步骤3具体为：

步骤33：将独热编码组和概率组输入到语义分析模块中。

9.根据权利要求8所述的方法，其特征在于，所述步骤4具体为：

步骤42：通过所述N-gram网络模型输出完整语义的句子；

10.根据权利要求7所述的方法，其特征在于，所述图像捕获模块包括深度摄像机，所述深度摄像机的摄像头能够捕获视场范围内的深度信息，且视场范围可根据实际应用调节。