CN111104960A

CN111104960A - 一种基于毫米波雷达和机器视觉的手语识别方法

Info

Publication number: CN111104960A
Application number: CN201911046470.0A
Authority: CN
Inventors: 郭雨欣; 陈言滔; 马文煊; 赵国盛; 宋雨佳
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2020-05-05
Anticipated expiration: 2039-10-30
Also published as: CN111104960B

Abstract

本发明公开了一种基于毫米波雷达和机器视觉的手语识别方法，首先通过毫米波雷达进行手心位置的检测，获取关键帧的时间信息和位置信息，然后采用多线程融合方法，将毫米波雷达获取的关键帧的时间信息与通过摄像头获取的视频数据的时间信息进行融合；接着通过坐标系转换，将毫米波雷达获取的关键帧的位置信息与摄像头获取的视频数据的位置信息进行空间融合，接下来根据时间融合以及空间融合后的视频数据，提取出手部区域关键帧，最后通过预设神经网络对手部区域关键帧进行识别，得到识别结果。本发明的方法可以实现连续手语的识别，提高识别的准确率和实时性。

Description

一种基于毫米波雷达和机器视觉的手语识别方法

技术领域

本发明涉及手语的智能翻译技术领域，具体涉及一种基于毫米波雷达和机器视觉的手语识别方法。

背景技术

中国现有聋哑人数目庞大，手语识别在聋哑人教学及交流方面有着极其重要的作用。在当前研究中，随着新型体感交互设备的普及与机器学习理论的深入，如何基于视觉快速准确的捕获三维手语运动数据并实时理解连续手语的语义，已经成为自然人机交互领域的关键问题。

本申请发明人在实施本发明的过程中，发现现有技术的方法，至少存在如下技术问题：

专利文献CN109696963A公开了一种基于手语翻译手套的手语识别方法，从准确性上来分析，穿戴式设备手语句子平均识别率仅为72％。且设备昂贵，不利于大范围的推广应用。专利文献CN109460748A公开了一种基于三目视觉的手语识别方法，通过解决双目设备的视觉盲区缺陷以及独立的手势识别方案无法准确地获取聋哑人手语所要传达的信息等问题，从而提升准确性。然而，由于此种图像识别方法处理速度受限，在连续语句识别方面精度不高。同时提取特征受到复杂背景的影响很大，无法普遍推广。

由此可知，现有技术中的方法存在对于连续语句识别准确性和实时性不佳的技术问题。

发明内容

有鉴于此，本发明提供了一种基于毫米波雷达和机器视觉的手语识别方法，用以解决或者至少部分解决现有技术中的方法存在的对于连续语句识别准确性和实时性不佳的技术问题。

为了解决上述技术问题，本发明提供了一种基于毫米波雷达和机器视觉的手语识别方法，包括：

步骤S1：通过毫米波雷达进行手心位置的检测，获取关键帧的时间信息和位置信息；

步骤S2：采用多线程融合方法，将毫米波雷达获取的关键帧的时间信息与通过摄像头获取的视频数据的时间信息进行融合；

步骤S3：通过坐标系转换，将毫米波雷达获取的关键帧的位置信息与摄像头获取的视频数据的位置信息进行空间融合；

步骤S4：根据时间融合以及空间融合后的视频数据，提取出手部区域关键帧；

步骤S5：通过预设神经网络对手部区域关键帧进行识别，得到识别结果。

在一种实施方式中，步骤S1具体包括：

步骤S1.1：通过毫米波雷达对手语轨迹进行采样，计算手语轨迹中各个采样点在连续时间内的点密度，得到手语轨迹的点密度曲线；

步骤S1.2：采取等间隔划分方法，并设定阈值T，对手语轨迹的点密度曲线进行处理，得到划定间隔及阈值后的手心点密度曲线；

步骤S1.3：根据划定间隔及阈值后的手心点密度曲线，将每个区间中大于阈值T的最大值对应的点作为关键帧，并获取关键帧的时间信息和位置信息。

在一种实施方式中，步骤S1.1具体包括：

步骤S1.1.1：通过毫米波雷达连续发射时间间隔相等的调频信号，以测量手心与毫米波的距离信息以及相对于毫米波的角度和速度；

步骤S1.1.2：根据手心与毫米波的距离信息以及相对于毫米波的角度和速度，计算手语轨迹中各个采样点在每个位置的周围单位面积上的手心出现个数，求出点密度，得到手语轨迹的点密度曲线。

在一种实施方式中，步骤S2具体包括：

步骤S2.1：采用多线程分别处理毫米波雷达获取的关键帧数据和摄像头获取的视频数据，并进行数据融合；

步骤S2.2：根据毫米波雷达频率和摄像头频率的最大公约数确定采样频率，将毫米波雷达的关键帧数据与摄像头获取的视频数据在时间上进行同步。

在一种实施方式中，步骤S3具体包括：

通过坐标系转换，将毫米波雷达坐标系、图像坐标系、三维世界坐标系相统一，将毫米波雷达获取的关键帧的位置信息对应至摄像头的视频数据上。

在一种实施方式中，毫米波雷达还检测得到步骤S4具体包括：

步骤S4.1.1：根据毫米波雷达检测得到的手心与毫米波的距离信息以及相对于毫米波的角度和速度，判断手的出现位置；

步骤S4.1.2：将从关键帧上得到的点目标投影至关键帧对应的摄像头拍摄的图像上，并围绕点目标生成一个矩阵的感兴趣区域，获得一组有时序的仅包含手的关键帧图像，其为仅包含手部区域图像的关键帧图片。

在一种实施方式中，步骤S5具体包括：

步骤S5.1：将手部区域关键帧按时序输入预设长短期记忆神经网络LSTM；

步骤S5.2：通过LSTM将多个手部区域关键帧识别为手语词汇，并将连接得到手语动作的译文，完成手语识别。

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

本发明提供的一种基于毫米波雷达和机器视觉的手语识别方法，首先通过毫米波雷达进行手心位置的检测，获取关键帧的时间信息和位置信息；然后采用多线程融合方法，将毫米波雷达获取的关键帧的时间信息与通过摄像头获取的视频数据的时间信息进行融合；接着通过坐标系转换，将毫米波雷达获取的关键帧的位置信息与摄像头获取的视频数据的位置信息进行空间融合；接下来根据时间融合以及空间融合后的视频数据，提取出手部区域关键帧；最后通过预设神经网络对手部区域关键帧进行识别，得到识别结果。

由于本发明提供的识别方法，是一种新的基于毫米波雷达和机器视觉的手语识别方法，通过将毫米波雷达获取的视频关键数据与摄像头获取的视频数据相融合，具体包括时间信息融合和空间信息融合，从而将毫米波雷达获取的手语位置的数据信息对应到摄像头的视频图像上，进而提取出仅包含手部区域的关键帧，最后利用预设神经网络对提取出的手部区域关键帧进行识别，可以实现对连续语句的识别，并达到较高的识别准确度和实时性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种基于毫米波雷达和机器视觉的手语识别方法的流程示意图；

图2为本发明实施例的总体技术框图；

图3为本发明实施例中时间信息融合过程的技术框图；

图4为本发明实施例中空间信息融合的坐标转换原理图。

具体实施方式

本发明的旨在提供一种能够实现连续手语识别的方法，解决一般识别方法的准确度较低，无法达到实时性的问题，因此提出一种新的基于毫米波雷达和机器视觉的手语识别方法，利用毫米波和摄像头，实现对关键帧的提取，并利用LSTM识别手语，从而达到较高的准确度和实时性。

为达到上述目的，本发明的主要构思如下：

本发明为基于毫米波雷达和机器视觉的手语识别方法，分为三个阶段进行：第一阶段(步骤S1)，通过毫米波雷达实现手语关键帧的提取，并得到关键帧所在的时间信息和位置信息。具体可以通过使用毫米波实现对手语轨迹的采样，计算手语轨迹中各个采样点在连续时间内的点密度，得到手语轨迹的点密度曲线，并设定阈值T，对手语轨迹的点密度曲线进行处理。第二阶段(步骤S2～S4)，实现毫米波雷达和视频信息的融合，得到视频中关键帧的图像信息。分为时间信息融合、空间信息融合及手部区域提取步骤，得到仅包含手部区域图像的关键帧图片。第三阶段(步骤S5)，通过预设神经网络(例如LSTM——长短期记忆神经网络)，依次识别所有关键帧，实现手语的识别。

本发明旨在克服传统手语识别方法上的准确性低、实时性差的缺点，提出一种新的基于毫米波雷达和机器视觉的手语识别方法，实现手语识别，提高识别的准确率。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例提供了一种基于毫米波雷达和机器视觉的手语识别方法，请参见图1，该方法包括：

步骤S1：通过毫米波雷达进行手心位置的检测，获取关键帧的时间信息和位置信息。

具体来说，毫米波雷达，是指工作在毫米波波段(millimeter wave)探测的雷达。通常毫米波是指30～300GHz频域(波长为1～10mm)的。毫米波的波长介于微波和厘米波之间，因此毫米波雷达兼有微波雷达和光电雷达的一些优点。本实施例通过毫米波雷达连续发射时间间隔相等的调频信号，从而进行手心位置的检测。一个手语动作持续若干秒后会包含若干帧图像，其中的每一帧图像对手语语义的贡献是不同的，将关键手势所在的帧作为关键帧。

在一种实施方式中，步骤S1具体包括：

具体来说，每一帧视频的手心位置为一个采样点，这些采样点连接的曲线为手语轨迹点密度曲线。

在具体实施过程中，本实施例采用一种基于手心点密度的关键帧提取算法，对手语轨迹的点密度曲线按照0.5～0.8秒的间隔进行等间隔划分，并设定阈值T，将在每个区间中认定大于阈值T的最大值对应的点为关键帧，从而一个区间最多只有一个关键帧，确保不会漏帧。最后，取每个区间中大于阈值T的最大值对应的点为关键帧。

在一种实施方式中，步骤S1.1具体包括：

具体来说，通过毫米波雷达连续发射时间间隔相等的调频信号，可以测量手心与毫米波的距离以及手心相对于毫米波的角度和速度，进而进行点密度求解，得到手语轨迹的点密度曲线。

步骤S2：采用多线程融合方法，将毫米波雷达获取的关键帧的时间信息与通过摄像头获取的视频数据的时间信息进行融合。

具体来说，通过两个线程分别处理毫米波雷达获取的视频数据与摄像头获取的视频数据，然后对两种数据进行时间信息的融合。具体请参见图3，为实施例中时间信息融合过程的技术框图，通过一个雷达线程处理雷达数据：将采集的当前关键帧雷达数据加入缓存序列，通过一个摄像头线程采集当前时刻的图像数据，并获取同一时刻的雷达数据和摄像头数据，接着对雷达数据和摄像头数据进行融合，获取关键帧。

在一种实施方式中，步骤S2具体包括：

具体来说，首先确定采样频率，然后进行将毫米波雷达传感器的视频数据和摄像头的视频数据在时间上进行同步，从而达到时间上的同步，使目标能够准确显示。

步骤S3：通过坐标系转换，将毫米波雷达获取的关键帧的位置信息与摄像头获取的视频数据的位置信息进行空间融合。

具体来说，在进行时间信息融合后，本步骤进一步进行空间信息的融合。

在一种实施方式中，步骤S3具体包括：

具体来说，将三维世界坐标系(即真实环境的信息)转换到图像显示的坐标系下，即实现毫米波雷达坐标系、图像坐标系和三维世界坐标系、摄像头坐标系及图像像素坐标系相统一，原理如下：

(1)、雷达坐标系与世界坐标系的统一：

其中，H表示世界坐标系原点距地面高度，l和L分别表示O_w与O_r在X_r方向和Z_r方向的偏移量，X_w、Y_w、Z_w为雷达坐标系下坐标.

(2)、雷达与摄像头的位置关系等条件得出世界坐标系与图像坐标系的转换关系：

其中，(X_p,Y_p)为图像坐标系中投影点的坐标；d_x、d_y分别为每一个像素在X轴与Y轴方向上的物理尺寸；(X_p0,Y_p0)是摄像机主点偏移量；f为摄像机焦距；R是摄像机外部参数旋转矩阵，为3×3正交单位矩阵；t为摄像机外部参数平移向量；M称为投影矩阵。上述参数中，(d_x,d_y)、(X_p0,Y_p0)、焦距f是摄像机内部参数，R和T是摄像机外部参数，它们均可通过摄像机标定方法离线获取。

具体可以结合图4，通过对摄像机进行标定，则可以得到摄像机外部参数和摄像机内部参数，通过摄像机外部参数实现三维坐标系到摄像机坐标系的转换，通过摄像机内部参数、雷达与摄像头的位置，实现世界坐标系与图像坐标系的转换。

这样，将毫米波雷达获取的手语位置的数据信息对应到摄像头的视频图像上，进而获取目标区域，即关键帧中的手部区域。

步骤S4：根据时间融合以及空间融合后的视频数据，提取出手部区域关键帧。

具体来说，通过毫米波雷达检测相关信息，可以判断手可能出现的位置，然后将某一关键帧上得到的可能点目标投影到这一帧相机拍摄的图像上，围绕该点生成一个矩阵的感兴趣区域，从而得到一组有时序的仅包含手的关键帧图像。

步骤S5：通过预设神经网络对手部区域关键帧进行识别，得到识别结果

在一种实施方式中，步骤S5具体包括：

具体来说，将之前处理所得的手语关键帧(仅包含手的关键帧图像)按时序输入LSTM，每张关键帧首先在与数据集匹配后，将被赋予一个序号(类似于自然语言中的字母)；通过LSTM网络的处理，前后的“字母”得以相互作用，根据其语义得到所需的手语“单词”，将众多关键帧识别为手语词汇，并将其连接得到手语动作的译文，完成手语识别。

请参见图2，为本发明实施例的总体技术框图。本发明为基于毫米波雷达和机器视觉的手语识别方法，可以分为三个阶段进行：第一阶段，通过毫米波雷达实现手语关键帧的提取，得到关键帧所在的时间信息和位置信息，包括提取手心位置模块和获取手心点密度模块。第二阶段，实现毫米波雷达和视频信息的融合，得到视频中关键帧的图像信息；包括时间信息融合模块、空间信息融合模块、手部区域提取模块，得到只包含手部区域的关键帧图像。第三阶段，通过LSTM——长短期记忆神经网络，依次识别所有关键帧，实现手语的识别。

本发明将毫米波雷达与机器视觉相结合，不仅保证准确度，还实现了实时性。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于毫米波雷达和机器视觉的手语识别方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，步骤S1具体包括：

3.如权利要求2所述的方法，其特征在于，步骤S1.1具体包括：

4.如权利要求1所述的方法，其特征在于，步骤S2具体包括：

5.如权利要求1所述的方法，其特征在于，步骤S3具体包括：

6.如权利要求3所述的方法，其特征在于，毫米波雷达还检测得到步骤S4具体包括：

7.如权利要求1所述的方法，其特征在于，步骤S5具体包括：