CN111104960B - 一种基于毫米波雷达和机器视觉的手语识别方法 - Google Patents

一种基于毫米波雷达和机器视觉的手语识别方法 Download PDF

Info

Publication number
CN111104960B
CN111104960B CN201911046470.0A CN201911046470A CN111104960B CN 111104960 B CN111104960 B CN 111104960B CN 201911046470 A CN201911046470 A CN 201911046470A CN 111104960 B CN111104960 B CN 111104960B
Authority
CN
China
Prior art keywords
millimeter wave
wave radar
sign language
key frame
camera
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911046470.0A
Other languages
English (en)
Other versions
CN111104960A (zh
Inventor
郭雨欣
陈言滔
马文煊
赵国盛
宋雨佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201911046470.0A priority Critical patent/CN111104960B/zh
Publication of CN111104960A publication Critical patent/CN111104960A/zh
Application granted granted Critical
Publication of CN111104960B publication Critical patent/CN111104960B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/04Devices for conversing with the deaf-blind

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于毫米波雷达和机器视觉的手语识别方法,首先通过毫米波雷达进行手心位置的检测,获取关键帧的时间信息和位置信息,然后采用多线程融合方法,将毫米波雷达获取的关键帧的时间信息与通过摄像头获取的视频数据的时间信息进行融合;接着通过坐标系转换,将毫米波雷达获取的关键帧的位置信息与摄像头获取的视频数据的位置信息进行空间融合,接下来根据时间融合以及空间融合后的视频数据,提取出手部区域关键帧,最后通过预设神经网络对手部区域关键帧进行识别,得到识别结果。本发明的方法可以实现连续手语的识别,提高识别的准确率和实时性。

Description

一种基于毫米波雷达和机器视觉的手语识别方法
技术领域
本发明涉及手语的智能翻译技术领域,具体涉及一种基于毫米波雷达和机器视觉的手语识别方法。
背景技术
中国现有聋哑人数目庞大,手语识别在聋哑人教学及交流方面有着极其重要的作用。在当前研究中,随着新型体感交互设备的普及与机器学习理论的深入,如何基于视觉快速准确的捕获三维手语运动数据并实时理解连续手语的语义,已经成为自然人机交互领域的关键问题。
本申请发明人在实施本发明的过程中,发现现有技术的方法,至少存在如下技术问题:
专利文献CN109696963A公开了一种基于手语翻译手套的手语识别方法,从准确性上来分析,穿戴式设备手语句子平均识别率仅为72%。且设备昂贵,不利于大范围的推广应用。专利文献CN109460748A公开了一种基于三目视觉的手语识别方法,通过解决双目设备的视觉盲区缺陷以及独立的手势识别方案无法准确地获取聋哑人手语所要传达的信息等问题,从而提升准确性。然而,由于此种图像识别方法处理速度受限,在连续语句识别方面精度不高。同时提取特征受到复杂背景的影响很大,无法普遍推广。
由此可知,现有技术中的方法存在对于连续语句识别准确性和实时性不佳的技术问题。
发明内容
有鉴于此,本发明提供了一种基于毫米波雷达和机器视觉的手语识别方法,用以解决或者至少部分解决现有技术中的方法存在的对于连续语句识别准确性和实时性不佳的技术问题。
为了解决上述技术问题,本发明提供了一种基于毫米波雷达和机器视觉的手语识别方法,包括:
步骤S1:通过毫米波雷达进行手心位置的检测,获取关键帧的时间信息和位置信息;
步骤S2:采用多线程融合方法,将毫米波雷达获取的关键帧的时间信息与通过摄像头获取的视频数据的时间信息进行融合;
步骤S3:通过坐标系转换,将毫米波雷达获取的关键帧的位置信息与摄像头获取的视频数据的位置信息进行空间融合;
步骤S4:根据时间融合以及空间融合后的视频数据,提取出手部区域关键帧;
步骤S5:通过预设神经网络对手部区域关键帧进行识别,得到识别结果。
在一种实施方式中,步骤S1具体包括:
步骤S1.1:通过毫米波雷达对手语轨迹进行采样,计算手语轨迹中各个采样点在连续时间内的点密度,得到手语轨迹的点密度曲线;
步骤S1.2:采取等间隔划分方法,并设定阈值T,对手语轨迹的点密度曲线进行处理,得到划定间隔及阈值后的手心点密度曲线;
步骤S1.3:根据划定间隔及阈值后的手心点密度曲线,将每个区间中大于阈值T的最大值对应的点作为关键帧,并获取关键帧的时间信息和位置信息。
在一种实施方式中,步骤S1.1具体包括:
步骤S1.1.1:通过毫米波雷达连续发射时间间隔相等的调频信号,以测量手心与毫米波的距离信息以及相对于毫米波的角度和速度;
步骤S1.1.2:根据手心与毫米波的距离信息以及相对于毫米波的角度和速度,计算手语轨迹中各个采样点在每个位置的周围单位面积上的手心出现个数,求出点密度,得到手语轨迹的点密度曲线。
在一种实施方式中,步骤S2具体包括:
步骤S2.1:采用多线程分别处理毫米波雷达获取的关键帧数据和摄像头获取的视频数据,并进行数据融合;
步骤S2.2:根据毫米波雷达频率和摄像头频率的最大公约数确定采样频率,将毫米波雷达的关键帧数据与摄像头获取的视频数据在时间上进行同步。
在一种实施方式中,步骤S3具体包括:
通过坐标系转换,将毫米波雷达坐标系、图像坐标系、三维世界坐标系相统一,将毫米波雷达获取的关键帧的位置信息对应至摄像头的视频数据上。
在一种实施方式中,毫米波雷达还检测得到步骤S4具体包括:
步骤S4.1.1:根据毫米波雷达检测得到的手心与毫米波的距离信息以及相对于毫米波的角度和速度,判断手的出现位置;
步骤S4.1.2:将从关键帧上得到的点目标投影至关键帧对应的摄像头拍摄的图像上,并围绕点目标生成一个矩阵的感兴趣区域,获得一组有时序的仅包含手的关键帧图像,其为仅包含手部区域图像的关键帧图片。
在一种实施方式中,步骤S5具体包括:
步骤S5.1:将手部区域关键帧按时序输入预设长短期记忆神经网络LSTM;
步骤S5.2:通过LSTM将多个手部区域关键帧识别为手语词汇,并将连接得到手语动作的译文,完成手语识别。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本发明提供的一种基于毫米波雷达和机器视觉的手语识别方法,首先通过毫米波雷达进行手心位置的检测,获取关键帧的时间信息和位置信息;然后采用多线程融合方法,将毫米波雷达获取的关键帧的时间信息与通过摄像头获取的视频数据的时间信息进行融合;接着通过坐标系转换,将毫米波雷达获取的关键帧的位置信息与摄像头获取的视频数据的位置信息进行空间融合;接下来根据时间融合以及空间融合后的视频数据,提取出手部区域关键帧;最后通过预设神经网络对手部区域关键帧进行识别,得到识别结果。
由于本发明提供的识别方法,是一种新的基于毫米波雷达和机器视觉的手语识别方法,通过将毫米波雷达获取的视频关键数据与摄像头获取的视频数据相融合,具体包括时间信息融合和空间信息融合,从而将毫米波雷达获取的手语位置的数据信息对应到摄像头的视频图像上,进而提取出仅包含手部区域的关键帧,最后利用预设神经网络对提取出的手部区域关键帧进行识别,可以实现对连续语句的识别,并达到较高的识别准确度和实时性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种基于毫米波雷达和机器视觉的手语识别方法的流程示意图;
图2为本发明实施例的总体技术框图;
图3为本发明实施例中时间信息融合过程的技术框图;
图4为本发明实施例中空间信息融合的坐标转换原理图。
具体实施方式
本发明的旨在提供一种能够实现连续手语识别的方法,解决一般识别方法的准确度较低,无法达到实时性的问题,因此提出一种新的基于毫米波雷达和机器视觉的手语识别方法,利用毫米波和摄像头,实现对关键帧的提取,并利用LSTM识别手语,从而达到较高的准确度和实时性。
为达到上述目的,本发明的主要构思如下:
本发明为基于毫米波雷达和机器视觉的手语识别方法,分为三个阶段进行:第一阶段(步骤S1),通过毫米波雷达实现手语关键帧的提取,并得到关键帧所在的时间信息和位置信息。具体可以通过使用毫米波实现对手语轨迹的采样,计算手语轨迹中各个采样点在连续时间内的点密度,得到手语轨迹的点密度曲线,并设定阈值T,对手语轨迹的点密度曲线进行处理。第二阶段(步骤S2~S4),实现毫米波雷达和视频信息的融合,得到视频中关键帧的图像信息。分为时间信息融合、空间信息融合及手部区域提取步骤,得到仅包含手部区域图像的关键帧图片。第三阶段(步骤S5),通过预设神经网络(例如LSTM——长短期记忆神经网络),依次识别所有关键帧,实现手语的识别。
本发明旨在克服传统手语识别方法上的准确性低、实时性差的缺点,提出一种新的基于毫米波雷达和机器视觉的手语识别方法,实现手语识别,提高识别的准确率。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例提供了一种基于毫米波雷达和机器视觉的手语识别方法,请参见图1,该方法包括:
步骤S1:通过毫米波雷达进行手心位置的检测,获取关键帧的时间信息和位置信息。
具体来说,毫米波雷达,是指工作在毫米波波段(millimeter wave)探测的雷达。通常毫米波是指30~300GHz频域(波长为1~10mm)的。毫米波的波长介于微波和厘米波之间,因此毫米波雷达兼有微波雷达和光电雷达的一些优点。本实施例通过毫米波雷达连续发射时间间隔相等的调频信号,从而进行手心位置的检测。一个手语动作持续若干秒后会包含若干帧图像,其中的每一帧图像对手语语义的贡献是不同的,将关键手势所在的帧作为关键帧。
在一种实施方式中,步骤S1具体包括:
步骤S1.1:通过毫米波雷达对手语轨迹进行采样,计算手语轨迹中各个采样点在连续时间内的点密度,得到手语轨迹的点密度曲线;
步骤S1.2:采取等间隔划分方法,并设定阈值T,对手语轨迹的点密度曲线进行处理,得到划定间隔及阈值后的手心点密度曲线;
步骤S1.3:根据划定间隔及阈值后的手心点密度曲线,将每个区间中大于阈值T的最大值对应的点作为关键帧,并获取关键帧的时间信息和位置信息。
具体来说,每一帧视频的手心位置为一个采样点,这些采样点连接的曲线为手语轨迹点密度曲线。
在具体实施过程中,本实施例采用一种基于手心点密度的关键帧提取算法,对手语轨迹的点密度曲线按照0.5~0.8秒的间隔进行等间隔划分,并设定阈值T,将在每个区间中认定大于阈值T的最大值对应的点为关键帧,从而一个区间最多只有一个关键帧,确保不会漏帧。最后,取每个区间中大于阈值T的最大值对应的点为关键帧。
在一种实施方式中,步骤S1.1具体包括:
步骤S1.1.1:通过毫米波雷达连续发射时间间隔相等的调频信号,以测量手心与毫米波的距离信息以及相对于毫米波的角度和速度;
步骤S1.1.2:根据手心与毫米波的距离信息以及相对于毫米波的角度和速度,计算手语轨迹中各个采样点在每个位置的周围单位面积上的手心出现个数,求出点密度,得到手语轨迹的点密度曲线。
具体来说,通过毫米波雷达连续发射时间间隔相等的调频信号,可以测量手心与毫米波的距离以及手心相对于毫米波的角度和速度,进而进行点密度求解,得到手语轨迹的点密度曲线。
步骤S2:采用多线程融合方法,将毫米波雷达获取的关键帧的时间信息与通过摄像头获取的视频数据的时间信息进行融合。
具体来说,通过两个线程分别处理毫米波雷达获取的视频数据与摄像头获取的视频数据,然后对两种数据进行时间信息的融合。具体请参见图3,为实施例中时间信息融合过程的技术框图,通过一个雷达线程处理雷达数据:将采集的当前关键帧雷达数据加入缓存序列,通过一个摄像头线程采集当前时刻的图像数据,并获取同一时刻的雷达数据和摄像头数据,接着对雷达数据和摄像头数据进行融合,获取关键帧。
在一种实施方式中,步骤S2具体包括:
步骤S2.1:采用多线程分别处理毫米波雷达获取的关键帧数据和摄像头获取的视频数据,并进行数据融合;
步骤S2.2:根据毫米波雷达频率和摄像头频率的最大公约数确定采样频率,将毫米波雷达的关键帧数据与摄像头获取的视频数据在时间上进行同步。
具体来说,首先确定采样频率,然后进行将毫米波雷达传感器的视频数据和摄像头的视频数据在时间上进行同步,从而达到时间上的同步,使目标能够准确显示。
步骤S3:通过坐标系转换,将毫米波雷达获取的关键帧的位置信息与摄像头获取的视频数据的位置信息进行空间融合。
具体来说,在进行时间信息融合后,本步骤进一步进行空间信息的融合。
在一种实施方式中,步骤S3具体包括:
通过坐标系转换,将毫米波雷达坐标系、图像坐标系、三维世界坐标系相统一,将毫米波雷达获取的关键帧的位置信息对应至摄像头的视频数据上。
具体来说,将三维世界坐标系(即真实环境的信息)转换到图像显示的坐标系下,即实现毫米波雷达坐标系、图像坐标系和三维世界坐标系、摄像头坐标系及图像像素坐标系相统一,原理如下:
(1)、雷达坐标系与世界坐标系的统一:
Figure BDA0002254261230000071
其中,H表示世界坐标系原点距地面高度,l和L分别表示Ow与Or在Xr方向和Zr方向的偏移量,Xw、Yw、Zw为雷达坐标系下坐标.
(2)、雷达与摄像头的位置关系等条件得出世界坐标系与图像坐标系的转换关系:
Figure BDA0002254261230000072
其中,(Xp,Yp)为图像坐标系中投影点的坐标;dx、dy分别为每一个像素在X轴与Y轴方向上的物理尺寸;(Xp0,Yp0)是摄像机主点偏移量;f为摄像机焦距;R是摄像机外部参数旋转矩阵,为3×3正交单位矩阵;t为摄像机外部参数平移向量;M称为投影矩阵。上述参数中,(dx,dy)、(Xp0,Yp0)、焦距f是摄像机内部参数,R和T是摄像机外部参数,它们均可通过摄像机标定方法离线获取。
具体可以结合图4,通过对摄像机进行标定,则可以得到摄像机外部参数和摄像机内部参数,通过摄像机外部参数实现三维坐标系到摄像机坐标系的转换,通过摄像机内部参数、雷达与摄像头的位置,实现世界坐标系与图像坐标系的转换。
这样,将毫米波雷达获取的手语位置的数据信息对应到摄像头的视频图像上,进而获取目标区域,即关键帧中的手部区域。
步骤S4:根据时间融合以及空间融合后的视频数据,提取出手部区域关键帧。
在一种实施方式中,毫米波雷达还检测得到步骤S4具体包括:
步骤S4.1.1:根据毫米波雷达检测得到的手心与毫米波的距离信息以及相对于毫米波的角度和速度,判断手的出现位置;
步骤S4.1.2:将从关键帧上得到的点目标投影至关键帧对应的摄像头拍摄的图像上,并围绕点目标生成一个矩阵的感兴趣区域,获得一组有时序的仅包含手的关键帧图像,其为仅包含手部区域图像的关键帧图片。
具体来说,通过毫米波雷达检测相关信息,可以判断手可能出现的位置,然后将某一关键帧上得到的可能点目标投影到这一帧相机拍摄的图像上,围绕该点生成一个矩阵的感兴趣区域,从而得到一组有时序的仅包含手的关键帧图像。
步骤S5:通过预设神经网络对手部区域关键帧进行识别,得到识别结果
在一种实施方式中,步骤S5具体包括:
步骤S5.1:将手部区域关键帧按时序输入预设长短期记忆神经网络LSTM;
步骤S5.2:通过LSTM将多个手部区域关键帧识别为手语词汇,并将连接得到手语动作的译文,完成手语识别。
具体来说,将之前处理所得的手语关键帧(仅包含手的关键帧图像)按时序输入LSTM,每张关键帧首先在与数据集匹配后,将被赋予一个序号(类似于自然语言中的字母);通过LSTM网络的处理,前后的“字母”得以相互作用,根据其语义得到所需的手语“单词”,将众多关键帧识别为手语词汇,并将其连接得到手语动作的译文,完成手语识别。
请参见图2,为本发明实施例的总体技术框图。本发明为基于毫米波雷达和机器视觉的手语识别方法,可以分为三个阶段进行:第一阶段,通过毫米波雷达实现手语关键帧的提取,得到关键帧所在的时间信息和位置信息,包括提取手心位置模块和获取手心点密度模块。第二阶段,实现毫米波雷达和视频信息的融合,得到视频中关键帧的图像信息;包括时间信息融合模块、空间信息融合模块、手部区域提取模块,得到只包含手部区域的关键帧图像。第三阶段,通过LSTM——长短期记忆神经网络,依次识别所有关键帧,实现手语的识别。
本发明将毫米波雷达与机器视觉相结合,不仅保证准确度,还实现了实时性。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (5)

1.一种基于毫米波雷达和机器视觉的手语识别方法,其特征在于,包括:
步骤S1:通过毫米波雷达进行手心位置的检测,获取关键帧的时间信息和位置信息;
步骤S2:采用多线程融合方法,将毫米波雷达获取的关键帧的时间信息与通过摄像头获取的视频数据的时间信息进行融合;
步骤S3:通过坐标系转换,将毫米波雷达获取的关键帧的位置信息与摄像头获取的视频数据的位置信息进行空间融合;
步骤S4:根据时间融合以及空间融合后的视频数据,提取出手部区域关键帧;
步骤S5:通过预设神经网络对手部区域关键帧进行识别,得到识别结果;
其中,步骤S1具体包括:
步骤S1.1:通过毫米波雷达对手语轨迹进行采样,计算手语轨迹中各个采样点在连续时间内的点密度,得到手语轨迹的点密度曲线;
步骤S1.2:采取等间隔划分方法,并设定阈值T,对手语轨迹的点密度曲线进行处理,得到划定间隔及阈值后的手心点密度曲线;
步骤S1.3:根据划定间隔及阈值后的手心点密度曲线,将每个区间中大于阈值T的最大值对应的点作为关键帧,并获取关键帧的时间信息和位置信息;
步骤S1.1具体包括:
步骤S1.1.1:通过毫米波雷达连续发射时间间隔相等的调频信号,以测量手心与毫米波的距离信息以及相对于毫米波的角度和速度;
步骤S1.1.2:根据手心与毫米波的距离信息以及相对于毫米波的角度和速度,计算手语轨迹中各个采样点在每个位置的周围单位面积上的手心出现个数,求出点密度,得到手语轨迹的点密度曲线。
2.如权利要求1所述的方法,其特征在于,步骤S2具体包括:
步骤S2.1:采用多线程分别处理毫米波雷达获取的关键帧数据和摄像头获取的视频数据,并进行数据融合;
步骤S2.2:根据毫米波雷达频率和摄像头频率的最大公约数确定采样频率,将毫米波雷达的关键帧数据与摄像头获取的视频数据在时间上进行同步。
3.如权利要求1所述的方法,其特征在于,步骤S3具体包括:
通过坐标系转换,将毫米波雷达坐标系、图像坐标系、三维世界坐标系相统一,将毫米波雷达获取的关键帧的位置信息对应至摄像头的视频数据上。
4.如权利要求1所述的方法,其特征在于,步骤S4具体包括:
步骤S4.1.1:根据毫米波雷达检测得到的手心与毫米波的距离信息以及相对于毫米波的角度和速度,判断手的出现位置;
步骤S4.1.2:将从关键帧上得到的点目标投影至关键帧对应的摄像头拍摄的图像上,并围绕点目标生成一个矩阵的感兴趣区域,获得一组有时序的仅包含手的关键帧图像,其为仅包含手部区域图像的关键帧图片。
5.如权利要求1所述的方法,其特征在于,步骤S5具体包括:
步骤S5.1:将手部区域关键帧按时序输入预设长短期记忆神经网络LSTM;
步骤S5.2:通过LSTM将多个手部区域关键帧识别为手语词汇,并将连接得到手语动作的译文,完成手语识别。
CN201911046470.0A 2019-10-30 2019-10-30 一种基于毫米波雷达和机器视觉的手语识别方法 Active CN111104960B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911046470.0A CN111104960B (zh) 2019-10-30 2019-10-30 一种基于毫米波雷达和机器视觉的手语识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911046470.0A CN111104960B (zh) 2019-10-30 2019-10-30 一种基于毫米波雷达和机器视觉的手语识别方法

Publications (2)

Publication Number Publication Date
CN111104960A CN111104960A (zh) 2020-05-05
CN111104960B true CN111104960B (zh) 2022-06-14

Family

ID=70421433

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911046470.0A Active CN111104960B (zh) 2019-10-30 2019-10-30 一种基于毫米波雷达和机器视觉的手语识别方法

Country Status (1)

Country Link
CN (1) CN111104960B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113726465B (zh) * 2020-05-26 2022-12-27 华为技术有限公司 时间戳同步方法和设备
CN111624572B (zh) * 2020-05-26 2023-07-18 京东方科技集团股份有限公司 一种人体手部与人体手势识别的方法及装置
CN112034446A (zh) * 2020-08-27 2020-12-04 南京邮电大学 一种基于毫米波雷达的手势识别系统
CN112288906B (zh) * 2020-10-27 2022-08-02 北京五一视界数字孪生科技股份有限公司 仿真数据集的获取方法、装置、存储介质和电子设备
CN112989121B (zh) * 2021-03-08 2023-07-28 武汉大学 一种基于关键帧偏好的时序动作评估方法
WO2022217598A1 (zh) * 2021-04-16 2022-10-20 华为技术有限公司 肢体识别方法和装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003050274A (ja) * 2001-08-06 2003-02-21 Junichi Takeno 視界不良の環境において、三次元空間と特徴のあるエネルギーを放出する物体とを同時に立体視として可視化する装置
CN105956529A (zh) * 2016-04-25 2016-09-21 福州大学 一种基于lstm型rnn的中国手语识别方法
CN106778700A (zh) * 2017-01-22 2017-05-31 福州大学 一种基于変分编码器中国手语识别方法
CN108171198A (zh) * 2018-01-11 2018-06-15 合肥工业大学 基于非对称多层lstm的连续手语视频自动翻译方法
CN109271901A (zh) * 2018-08-31 2019-01-25 武汉大学 一种基于多源信息融合的手语识别方法
CN109459750A (zh) * 2018-10-19 2019-03-12 吉林大学 一种毫米波雷达与深度学习视觉融合的前方多车辆跟踪方法
CN110341711A (zh) * 2019-07-06 2019-10-18 深圳数翔科技有限公司 一种基于码头环境的行驶轨迹生成系统及方法
CN110363158A (zh) * 2019-07-17 2019-10-22 浙江大学 一种基于神经网络的毫米波雷达与视觉协同目标检测与识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003050274A (ja) * 2001-08-06 2003-02-21 Junichi Takeno 視界不良の環境において、三次元空間と特徴のあるエネルギーを放出する物体とを同時に立体視として可視化する装置
CN105956529A (zh) * 2016-04-25 2016-09-21 福州大学 一种基于lstm型rnn的中国手语识别方法
CN106778700A (zh) * 2017-01-22 2017-05-31 福州大学 一种基于変分编码器中国手语识别方法
CN108171198A (zh) * 2018-01-11 2018-06-15 合肥工业大学 基于非对称多层lstm的连续手语视频自动翻译方法
CN109271901A (zh) * 2018-08-31 2019-01-25 武汉大学 一种基于多源信息融合的手语识别方法
CN109459750A (zh) * 2018-10-19 2019-03-12 吉林大学 一种毫米波雷达与深度学习视觉融合的前方多车辆跟踪方法
CN110341711A (zh) * 2019-07-06 2019-10-18 深圳数翔科技有限公司 一种基于码头环境的行驶轨迹生成系统及方法
CN110363158A (zh) * 2019-07-17 2019-10-22 浙江大学 一种基于神经网络的毫米波雷达与视觉协同目标检测与识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A Modified LSTM Model for Continuous Sign Language Recognition Using Leap Motion;Anshul Mittal et al.;《IEEE SENSORS JOURNAL》;20190815;第19卷(第16期);第7056-7063页 *
基于毫米波雷达和机器视觉信息融合的障碍物检测;翟光耀 等;《物联网学报》;20170930;第1卷(第2期);第2-3节,第5节 *
基于神经网络的中小词汇量中国手语识别研究;李晓旭;《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》;20180315;第5.2节 *

Also Published As

Publication number Publication date
CN111104960A (zh) 2020-05-05

Similar Documents

Publication Publication Date Title
CN111104960B (zh) 一种基于毫米波雷达和机器视觉的手语识别方法
US11468585B2 (en) Pseudo RGB-D for self-improving monocular slam and depth prediction
CN109255813B (zh) 一种面向人机协作的手持物体位姿实时检测方法
WO2018177379A1 (zh) 手势识别、控制及神经网络训练方法、装置及电子设备
CN104317391B (zh) 一种基于立体视觉的三维手掌姿态识别交互方法和系统
US11928800B2 (en) Image coordinate system transformation method and apparatus, device, and storage medium
CN111327788B (zh) 相机组的同步方法、测温方法、装置及电子系统
CN108062525B (zh) 一种基于手部区域预测的深度学习手部检测方法
CN104821010A (zh) 基于双目视觉的人手三维信息实时提取方法及系统
CN1648840A (zh) 一种头戴式立体视觉手势识别装置
CN114119739A (zh) 一种基于双目视觉的手部关键点空间坐标获取方法
CN110796018A (zh) 一种基于深度图像和彩色图像的手部运动识别方法
CN108305321B (zh) 一种基于双目彩色成像系统的立体人手3d骨架模型实时重建方法和装置
KR20150021351A (ko) 영상 정합 장치 및 이를 이용한 영상 정합 방법
CN115830675B (zh) 一种注视点跟踪方法、装置、智能眼镜及存储介质
CN112365578A (zh) 基于双摄像机的三维人体模型重构系统及方法
CN116682140A (zh) 基于注意力机制多模态融合的三维人体姿态估计算法
CN109753930B (zh) 人脸检测方法及人脸检测系统
CN107479715A (zh) 利用手势控制实现虚拟现实交互的方法和装置
CN104349197A (zh) 一种数据处理方法及装置
CN116012459A (zh) 基于三维视线估计和屏幕平面估计的鼠标定位的方法
CN115205737A (zh) 基于Transformer模型的运动实时计数方法和系统
CN110189267B (zh) 一种基于机器视觉的实时定位装置和系统
CN110706357B (zh) 导航系统
CN113989830A (zh) 一种基于3d视频的运动手势识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant