CN111582039A

CN111582039A - 基于深度学习与大数据的手语识别与转换系统及方法

Info

Publication number: CN111582039A
Application number: CN202010283457.3A
Authority: CN
Inventors: 徐枫; 周玉枭; 杨东
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-04-13
Filing date: 2020-04-13
Publication date: 2020-08-25
Anticipated expiration: 2040-04-13
Also published as: CN111582039B

Abstract

本发明公开了一种基于深度学习与大数据的手语识别与转换系统及方法，该系统包括：图像采集模块、图像识别模块、信息匹配模块、内容整理模块、文字输出模块和语音输出模块；通过采集人体影像序列；提取人体影像序列的每一帧图像中的面部关键点坐标和手部关键点坐标；在手语动作数据库中搜索与面部关键点坐标和手部关键点坐标最匹配的自然语言语素，计算匹配值；根据相邻语素间的重复情况与匹配值对自然语言语素进行过滤；将保留的自然语言语素转换为文字并显示在屏幕上；根据文字语言数据库寻找与文字对应的语音，并进行播放。该系统能够方便快捷地将手语图像序列转换成其他语言的文字与语音输出，能够更加容易地理解手语的含义，提高沟通效率。

Description

基于深度学习与大数据的手语识别与转换系统及方法

技术领域

本发明涉及手语识别技术领域，特别涉及一种基于深度学习与大数据的手语识别与转换系统及方法。

背景技术

我国存在着大量的聋哑人使用手语进行交流,对于不会手语的人来说，理解手语的意思是非常困难的，手语由手势、手臂运动、面部表情组合而成，具有完备的表达能力。掌握手语的人之间可以高效地交流沟通，而不了解手语的人往往难以理解手语所表达的意思，这种情况阻碍了人与人之间的沟通与交流。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于深度学习与大数据的手语识别与转换系统，该系统能够方便快捷地将手语图像序列转换成其他语言的文字与语音输出，使得普通人能够更加容易地理解手语的含义，提高沟通效率。

本发明的另一个目的在于提出一种基于深度学习与大数据的手语识别与转换方法。

为达到上述目的，本发明一方面实施例提出了一种基于深度学习与大数据的手语识别与转换系统，包括：图像采集模块、图像识别模块、信息匹配模块、内容整理模块、文字输出模块和语音输出模块；

所述图像采集模块与所述图像识别模块连接，用于采集人体影像序列，并将所述人体影像序列发送至所述图像识别模块；

所述图像识别模块与所述信息匹配模块连接，用于提取所述人体影像序列的每一帧图像中的面部关键点坐标和手部关键点坐标，并将所述面部关键点坐标和所述手部关键点坐标发送给所述信息匹配模块；

所述信息匹配模块与所述内容整理模块连接，用于在手语动作数据库中搜索与所述面部关键点坐标和所述手部关键点坐标最匹配的自然语言语素，计算匹配值，将所述自然语言语素与所述匹配值发送给所述内容整理模块；

所述内容整理模块与所述文字输出模块连接，用于根据相邻语素间的重复情况与所述匹配值对所述自然语言语素进行过滤，将保留的自然语言语素发送给所述文字输出模块；

所述文字输出模块与所述语音输出模块连接，用于将保留的自然语言语素转换为文字并显示在屏幕上，将文字发送给所述语音输出模块；

所述语音输出模块用于根据文字语言数据库寻找与文字对应的语音，并进行播放。

本发明实施例的基于深度学习与大数据的手语识别与转换系统，通过图像采集模块不断采集人体影像，并逐帧传输到图像识别模块，图像识别模块对于每一帧图像提取面部与手部关键点坐标，将坐标传输给信息匹配模块，信息匹配模块在手语动作数据库中搜寻与关键点坐标最匹配的自然语言语素，将语素与传输值传输给内容整理模块，内容整理模块根据相邻语素之间的重复情况与匹配值过滤到无效的、重复的语素，将保留下来的信息发送给文字输出模块，文字输出模块将文字显示在屏幕上，并将文字传输给语音输出模块，语音输出模块在文字语音数据库中寻找文字对应的语音，并播放。由此，能够方便快捷地将手语图像序列转换成其他语言的文字与语音输出，使得普通人能够更加容易地理解手语的含义，提高沟通效率。

另外，根据本发明上述实施例的基于深度学习与大数据的手语识别与转换系统还可以具有以下附加的技术特征：

在本发明的一个实施例中，所述图像识别模块具体用于，利用人脸识别算法在所述人体影像序列中截取出人的面部区域，通过人脸特征点检测方法，提取人的面部区域的所述面部关键点坐标；

利用人体运动检测算法，提取所述人体影像序列中肘关节、腕关节和每个手指的指关节的三维坐标作为所述手部关键点坐标。

在本发明的一个实施例中，所述手语动作数据库包含预先采集的、一一对应的手语动作与目标语言词语。

在本发明的一个实施例中，所述信息匹配模块具体用于，通过所述匹配值确定与所述面部关键点坐标和所述手部关键点坐标最匹配的手语动作，根据所述手语动作数据库中的手语动作与目标语言词语的对应关系，将最匹配的自然语言语素发送到所述内容整理模块，其中，所述匹配值通过欧氏空间下对应特征点的坐标距离的平均值衡量，所述特征点平均距离与所述匹配值为负相关。

在本发明的一个实施例中，所述自然语言语素包括中文的词语或汉字、英文的单词。

在本发明的一个实施例中，根据不同标准的手语、不同的目标语言，更换所述信息匹配模块中的手语动作数据库。

在本发明的一个实施例中，所述内容整理模块具体用于，根据所述自然语言语素与所述匹配值，将重复的自然语言语素和匹配值低于预设阈值的自然语言语素删除，将保留的自然语言语素转换为自然语言，并将所述自然语言发送给所述文字输出模块。

为达到上述目的，本发明另一方面实施例提出了一种基于深度学习与大数据的手语识别与转换方法，包括：

采集人体影像序列；

提取所述人体影像序列的每一帧图像中的面部关键点坐标和手部关键点坐标；

在手语动作数据库中搜索与所述面部关键点坐标和所述手部关键点坐标最匹配的自然语言语素，计算匹配值；

根据相邻语素间的重复情况与所述匹配值对所述自然语言语素进行过滤；

将保留的自然语言语素转换为文字并显示在屏幕上；

根据文字语言数据库寻找与文字对应的语音，并进行播放。

本发明实施例的基于深度学习与大数据的手语识别与转换方法，通过采集人体影像序列提取所述人体影像序列的每一帧图像中的面部关键点坐标和手部关键点坐标；在手语动作数据库中搜索与所述面部关键点坐标和所述手部关键点坐标最匹配的自然语言语素，计算匹配值；根据相邻语素间的重复情况与所述匹配值对所述自然语言语素进行过滤；将保留的自然语言语素转换为文字并显示在屏幕上；根据文字语言数据库寻找与文字对应的语音，并进行播放。由此，能够方便快捷地将手语图像序列转换成其他语言的文字与语音输出，使得普通人能够更加容易地理解手语的含义，提高沟通效率。

另外，根据本发明上述实施例的基于深度学习与大数据的手语识别与转换方法还可以具有以下附加的技术特征：

在本发明的一个实施例中，所述提取所述人体影像序列的每一帧图像中的面部关键点坐标和手部关键点坐标，具体包括：

利用人脸识别算法在所述人体影像序列中截取出人的面部区域，通过人脸特征点检测方法，提取人的面部区域的所述面部关键点坐标；

在本发明的一个实施例中，所述在手语动作数据库中搜索与所述面部关键点坐标和所述手部关键点坐标最匹配的自然语言语素，计算匹配值，具体包括：

通过所述匹配值确定与所述面部关键点坐标和所述手部关键点坐标最匹配的手语动作，根据所述手语动作数据库中的手语动作与目标语言词语的对应关系，将最匹配的自然语言语素发送到所述内容整理模块，其中，所述匹配值通过欧氏空间下对应特征点的坐标距离的平均值衡量，所述特征点平均距离与所述匹配值为负相关。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的基于深度学习与大数据的手语识别与转换系统结构示意图；

图2为根据本发明一个实施例的基于深度学习与大数据的手语识别与转换方法流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于深度学习与大数据的手语识别与转换系统及方法。

首先将参照附图描述根据本发明实施例提出的基于深度学习与大数据的手语识别与转换系统。

图1为根据本发明一个实施例的基于深度学习与大数据的手语识别与转换系统结构示意图。

如图1所示，该基于深度学习与大数据的手语识别与转换系统包括：

图像采集模块100、图像识别模块200、信息匹配模块300、内容整理模块400、文字输出模块500和语音输出模块600。

图像采集模块100与图像识别模块200连接，用于采集人体影像序列，并将人体影像序列发送至图像识别模块。图像采集模块采集一段人体影像，并逐帧传输到图像识别模块。

图像识别模块200与信息匹配模块300连接，用于提取人体影像序列的每一帧图像中的面部关键点坐标和手部关键点坐标，并将面部关键点坐标和手部关键点坐标发送给信息匹配模块。图像识别模块的输入为图像，输出为模块对图像进行检测得到的高层次特征。

进一步地，图像识别模块具体用于，利用人脸识别算法在人体影像序列中截取出人的面部区域，通过人脸特征点检测方法，提取人的面部区域的面部关键点坐标；利用人体运动检测算法，提取人体影像序列中肘关节、腕关节和每个手指的指关节的三维坐标作为手部关键点坐标。

具体地，图像识别模块分别处理面部表情、手臂与手势，并一同输出。图像识别模块使用基于深度学习的人脸识别算法，将人的面部区域图像从输入的图像中截取出来，然后使用基于深度学习的人脸特征点检测方法，得到人脸特征点的坐标。这些坐标蕴含了人的面部表情信息，是本模块输出的一部分。同时，本模块使用基于深度学习的人体运动检测算法，能够从输入图像中得到肘关节、腕关节、每个手指的指关节的三维坐标。这些坐标蕴含了人的手部动作的信息，是本模块输出的另一部分。

信息匹配模块300与内容整理模块400连接，用于在手语动作数据库中搜索与面部关键点坐标和手部关键点坐标最匹配的自然语言语素，计算匹配值，将自然语言语素与匹配值发送给内容整理模块。

进一步地，信息匹配模块具体用于，通过匹配值确定与面部关键点坐标和手部关键点坐标最匹配的手语动作，根据手语动作数据库中的手语动作与目标语言词语的对应关系，将最匹配的自然语言语素发送到内容整理模块，其中，匹配值通过欧氏空间下对应特征点的坐标距离的平均值衡量，特征点平均距离与匹配值为负相关。

具体地，信息匹配模块的输入为图像识别模块的输出，即：人脸特征点的坐标与人体关节的坐标，输出为对应的语义元素(中文的词语或汉字，英文的单词)和相应的匹配值。信息匹配模块依赖于一个手语信息数据库，数据库内包含了预先采集的、一一对应的手语动作与目标语言词语。信息匹配模块根据输入的面部特征点坐标与身体关节坐标，在数据库中寻找最为匹配的手语动作，匹配值由欧氏空间下对应特征点的坐标距离的平均值来衡量。这个特征点平均距离越小，匹配值越高。由于手语与自然语言的对应完全由信息匹配模块中的手语数据库决定，对于不同标准下的手语、不同的目标语言，只需要采集获取对应的数据库，就可以完成所需的手语-自然语言转换。

内容整理模块400与文字输出模块500连接，用于根据相邻语素间的重复情况与匹配值对自然语言语素进行过滤，将保留的自然语言语素发送给文字输出模块。

进一步地，内容整理模块具体用于，根据自然语言语素与匹配值，将重复的自然语言语素和匹配值低于预设阈值的自然语言语素删除，将保留的自然语言语素转换为自然语言，并将自然语言发送给文字输出模块。

具体地，内容整理模块的输入为自然语言的语素序列，以及对应的匹配值，输出是整理后的语言内容。对于输入的视频序列中的每一帧图像，经过前述图像处理模块、信息匹配模块的处理，都会最终匹配到一个语义元素上。考虑到手语实际上是一个动作，这个动作中的每一帧都会被映射成相同的自然语言语素上，因而产生重复。因此，内容整理模块负责根据输入的语素序列与对应的匹配值，将重复的语素和匹配值过低的语素删除，只保留匹配值高的单一语素。内容整理模块对原始的转换进行了过滤，输出更容易被理解的自然语言转换结果。

文字输出模块500与语音输出模块600连接，用于将保留的自然语言语素转换为文字并显示在屏幕上，将文字发送给语音输出模块。

可以理解的是，将保留下的自然语言语素转换为多种类型的文字，并将其显示在屏幕上，供不同的用户观看。

语音输出模块600用于根据文字语言数据库寻找与文字对应的语音，并进行播放。

具体地，语音输出模块的输入是文字输出模块发送的文字，语音输出模块在文字语言数据库中寻找与文字对应的语音，将文字转换为语音进行播放，这里的文字语言数据库可以有多种，根据需要将文字转换为多种语言，以满足不同用户的使用。

需要说明的是，本发明的实施例可以由输入的手语图像序列(视频)完全自动地转换为其他语言的文字与语音。其转换方法是通用的，输入的手语并不限于某一具体的手语规定与标准，转换后输出的文字和语音也可以为中文或外文，具体取决于所使用的手语信息数据库，可以用于手语使用者与非手语使用者之间的沟通。

根据本发明实施例提出的基于深度学习与大数据的手语识别与转换系统，通过图像采集模块不断采集人体影像，并逐帧传输到图像识别模块，图像识别模块对于每一帧图像提取面部与手部关键点坐标，将坐标传输给信息匹配模块，信息匹配模块在手语动作数据库中搜寻与关键点坐标最匹配的自然语言语素，将语素与传输值传输给内容整理模块，内容整理模块根据相邻语素之间的重复情况与匹配值过滤到无效的、重复的语素，将保留下来的信息发送给文字输出模块，文字输出模块将文字显示在屏幕上，并将文字传输给语音输出模块，语音输出模块在文字语音数据库中寻找文字对应的语音，并播放。由此，能够方便快捷地将手语图像序列转换成其他语言的文字与语音输出，使得普通人能够更加容易地理解手语的含义，提高沟通效率。

其次参照附图描述根据本发明实施例提出的基于深度学习与大数据的手语识别与转换方法。

如图2所示，该基于深度学习与大数据的手语识别与转换方法包括：

S1，采集人体影像序列。

S2，提取人体影像序列的每一帧图像中的面部关键点坐标和手部关键点坐标。

进一步地，在本发明的一个实施例中，提取人体影像序列的每一帧图像中的面部关键点坐标和手部关键点坐标，具体包括：

利用人脸识别算法在人体影像序列中截取出人的面部区域，通过人脸特征点检测方法，提取人的面部区域的面部关键点坐标；

利用人体运动检测算法，提取人体影像序列中肘关节、腕关节和每个手指的指关节的三维坐标作为手部关键点坐标。

S3，在手语动作数据库中搜索与面部关键点坐标和手部关键点坐标最匹配的自然语言语素，计算匹配值。

进一步地，在本发明的一个实施例中，在手语动作数据库中搜索与面部关键点坐标和手部关键点坐标最匹配的自然语言语素，计算匹配值，具体包括：

通过匹配值确定与面部关键点坐标和手部关键点坐标最匹配的手语动作，根据手语动作数据库中的手语动作与目标语言词语的对应关系，将最匹配的自然语言语素发送到内容整理模块，其中，匹配值通过欧氏空间下对应特征点的坐标距离的平均值衡量，特征点平均距离与匹配值为负相关。

S4，根据相邻语素间的重复情况与匹配值对自然语言语素进行过滤。

S5，将保留的自然语言语素转换为文字并显示在屏幕上。

S6，根据文字语言数据库寻找与文字对应的语音，并进行播放。

需要说明的是，前述对系统实施例的解释说明也适用于该实施例的方法，此处不再赘述。

根据本发明实施例提出的基于深度学习与大数据的手语识别与转换方法，通过采集人体影像序列提取人体影像序列的每一帧图像中的面部关键点坐标和手部关键点坐标；在手语动作数据库中搜索与面部关键点坐标和手部关键点坐标最匹配的自然语言语素，计算匹配值；根据相邻语素间的重复情况与匹配值对自然语言语素进行过滤；将保留的自然语言语素转换为文字并显示在屏幕上；根据文字语言数据库寻找与文字对应的语音，并进行播放。由此，能够方便快捷地将手语图像序列转换成其他语言的文字与语音输出，使得普通人能够更加容易地理解手语的含义，提高沟通效率。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于深度学习与大数据的手语识别与转换系统，其特征在于，包括：图像采集模块、图像识别模块、信息匹配模块、内容整理模块、文字输出模块和语音输出模块；

2.根据权利要求1所述的基于深度学习与大数据的手语识别与转换系统，其特征在于，所述图像识别模块具体用于，利用人脸识别算法在所述人体影像序列中截取出人的面部区域，通过人脸特征点检测方法，提取人的面部区域的所述面部关键点坐标；

3.根据权利要求1所述的基于深度学习与大数据的手语识别与转换系统，其特征在于，所述手语动作数据库包含预先采集的、一一对应的手语动作与目标语言词语。

4.根据权利要求3所述的基于深度学习与大数据的手语识别与转换系统，其特征在于，所述信息匹配模块具体用于，通过所述匹配值确定与所述面部关键点坐标和所述手部关键点坐标最匹配的手语动作，根据所述手语动作数据库中的手语动作与目标语言词语的对应关系，将最匹配的自然语言语素发送到所述内容整理模块，其中，所述匹配值通过欧氏空间下对应特征点的坐标距离的平均值衡量，所述特征点平均距离与所述匹配值为负相关。

5.根据权利要求4所述的基于深度学习与大数据的手语识别与转换系统，其特征在于，所述自然语言语素包括中文的词语或汉字、英文的单词。

6.根据权利要求1所述的基于深度学习与大数据的手语识别与转换系统，其特征在于，根据不同标准的手语、不同的目标语言，更换所述信息匹配模块中的手语动作数据库。

7.根据权利要求1所述的基于深度学习与大数据的手语识别与转换系统，其特征在于，所述内容整理模块具体用于，根据所述自然语言语素与所述匹配值，将重复的自然语言语素和匹配值低于预设阈值的自然语言语素删除，将保留的自然语言语素转换为自然语言，并将所述自然语言发送给所述文字输出模块。

8.一种基于深度学习与大数据的手语识别与转换方法，其特征在于，包括以下步骤：

采集人体影像序列；

将保留的自然语言语素转换为文字并显示在屏幕上；

根据文字语言数据库寻找与文字对应的语音，并进行播放。

9.根据权利要求8所述的基于深度学习与大数据的手语识别与转换方法，其特征在于，所述提取所述人体影像序列的每一帧图像中的面部关键点坐标和手部关键点坐标，具体包括：

10.根据权利要求8所述的基于深度学习与大数据的手语识别与转换方法，其特征在于，所述在手语动作数据库中搜索与所述面部关键点坐标和所述手部关键点坐标最匹配的自然语言语素，计算匹配值，具体包括：