CN105702130A

CN105702130A - 手语翻译器

Info

Publication number: CN105702130A
Application number: CN201610261643.0A
Authority: CN
Inventors: 罗回彬; 吴方; 黄哲; 陈韦澔; 陈匡林
Original assignee: Beijing Institute of Technology Zhuhai
Current assignee: Beijing Institute of Technology Zhuhai
Priority date: 2016-04-25
Filing date: 2016-04-25
Publication date: 2016-06-22

Abstract

本发明公开了一种手语翻译器，包括主控装置、手势识别装置、文本显示装置，所述手势识别装置为Leap Motion体感设备，所述主控装置接收手势识别装置捕捉到的手势数据并进行分析，将所述手势数据识别为文本信息并通过所述文本显示装置输出。本发明手语翻译器的Leap Motion体感设备对手部识别精度高、体积小巧，不仅支持静态手语的识别，同时也能识别出动态的手语，而且该设备还内置有光感调节，红外线打的摄像头对环境的兼容性很高，即使在强光弱光的情况下均能使用，基本实现了聋哑人与正常人之间简单的交流。

Description

手语翻译器

技术领域

本发明涉及动作捕捉识别技术，更具体地说，涉及一种手语翻译装置。

背景技术

目前全球大概有1个亿的聋哑人，而我国就有超过2000万的聋哑人，而且每年还在以2万～3万名的速度递增。听力正常人之间主要采用口语和书面语进行交流，并辅之以一定的体势和表情。在聋人之间的交流中，手语如同正常人的口语一样，起着非常重要的作用。由于正常人懂手语的较少，所以正常人与聋哑人之间的沟通存在较大的障碍。

随着社会的发展，聋哑人的地位不断提高，手语翻译工作应用的范围也越来越广泛，也将越来越引起社会各界的关注和重视。我国目前手语翻译职业化道路刚刚起步，各方面还很不完善，缺少专业的手语翻译，尤其分科明确专业程度很高的手语翻译人员。目前手语翻译工作大多是由聋校教师和残疾人工厂的手语翻译人员，这些人不仅缺乏手语翻译技能技巧等方面的专业培训，而且更缺乏某一专业领域的知识储备和训练，如法律、医疗、心理咨询等专业知识，手语翻译的水平极大地限制了聋人群体的发展和生存质量的提高。但是近年来互联网和计算机不断的发展，机器翻译变得随处可见。机器能有丰富的专业知识储备，能在不带任何私人感情和主观意识的情况下准确无漏地进行翻译，解决了手语翻译人员存在的一些翻译缺陷，而且其便携性也是一大优点。

目前手语识别系统主要分为基于数据手套的识别和基于视觉(图像)的手语识别系统。基于数据手套的手语识别系统，是利用数据手套和位置跟踪器测量手势在空间运动轨迹和时序信息。这种方法的优点是系统的识别率高，缺点是打手语的人必须穿戴复杂的数据手套和位置跟踪器，并且输入设备比较昂贵。

发明内容

针对现有技术的缺点，本发明的目的在于提供一种精度高、体积小、价格比较低的手语翻译器。

为了实现上述目的，本发明的技术方案为：一种手语翻译器，包括主控装置、手势识别装置、文本显示装置，所述手势识别装置为LeapMotion体感设备，所述主控装置接收手势识别装置捕捉到的手势数据并进行分析，将所述手势数据识别为文本信息并通过所述文本显示装置输出。

作为本发明的一种改进，所述手势识别装置将捕捉到的手势数据按照时间片的单位封装成一帧使用，所述主控装置通过对手势识别装置进行轮询获得多帧。

作为本发明的一种改进，在对动态手势的识别中，需要将当前帧的手势数据与前面的帧里对应的手势进行比较。

作为本发明的一种改进，所述文本显示装置通过http协议发送get翻译请求至百度翻译API，发送的请求中包含字符编码为UTF-8的待翻译内容和百度翻译API已授权用户的身份证明的ApiKey，指定要翻译的源语言和目标语言种类，返回的响应是ISO-8859-1编码格式的标准JSON字符串，将其转换成日常使用的字符编码格式UTF-8格式，对一层层解析返回的嵌套JSON字符串进行处理，将翻译完成后的文字内容显示出来。

作为本发明的一种改进，还包括语音播报装置，所述语音播报装置包括TTS引擎，所述语音播报装置接收所述文本显示装置的输出并通过语音播放出来。

与现有技术相比，本发明手语翻译器的LeapMotion体感设备对手部识别精度高、体积小巧，不仅支持静态手语的识别，同时也能识别出动态的手语，而且该设备还内置有光感调节，红外线打的摄像头对环境的兼容性很高，即使在强光弱光的情况下均能使用，基本实现了聋哑人与正常人之间简单的交流。

附图说明

下面结合附图和具体实施方式，对本发明的结构及其有益技术效果进行详细说明。

图1为本发明手语翻译器的组成框图。

图2为手势识别算法流程图。

图3为主控装置与语音装置流程图。

具体实施方式

为了使本发明的发明目的、技术方案及其有益技术效果更加清晰，以下结合附图和具体实施方式，对本发明进行进一步详细说明。应当理解的是，本说明书中描述的具体实施方式仅仅是为了解释本发明，并非为了限定本发明。

请参阅图1，本发明手语翻译器包括主控装置、手势识别装置、文本显示装置和语音播放装置，手势识别装置为LeapMotion体感设备，主控装置接收手势识别装置捕捉到的手势数据并进行分析，将手势数据识别为文本信息并通过文本显示装置输出，语音播报装置可以接收文本显示装置的输出并通过语音播放出来。LeapMotion是一款微米级3D手动交互设备，可以追踪到小到0.01毫米的动作，拥有150度的视角，可跟踪一个人10个手指的动作，最大频率是每秒钟290帧。LeapMotion体感设备利用自身的两个红外摄像头进行手势的捕捉，通过捕捉人手的姿势和动作，将其转换成数据通过数据线发送到主控装置进行处理，主控装置对这些数据进行提取，把提取出来的有用的数据通过算法处理识别出手势动作，翻译成文本信息显示在文本显示装置的显示器上，语音播报装置可以根据需要转换成语音信息，最后还可以通过接入互联网的方式连接云翻译服务平台实现多语言翻译功能。

在手势识别装置中，LeapMotion体感设备可捕捉到设备面前的一块半球型区域中的人手和一切棍棒状的工具，虚构出xyz三个轴，生成一个监听者，如手中各个手指的骨骼点之间的距离、手指的长度、数量、方向等，还可以识别出各种基础手势特征基元，如转圈，平移等，这些数据都将按照时间片的单位封装成帧使用。

但手势动作具有以下三个特点:

(1)时间可变性：完成同一个手势所用的时间不一致。

(2)空间可变性：完成同一个手势的空间差异性。

(3)完整可变性：缺少信息或出现重复信息。

这些特点决定了动态手势的识别难度，无法抽样或将其作为一个整体来识别。一个动态手势可以细化成很多帧，每一帧都有其特定的ID与之区别开来，而LeapMotion设备一次捕获一帧，可以通过轮询获得帧，然后将其通过数据线发送到主控装置。于是使用了一种新的算法——“时间回溯算法”，将手势划分为若干状态并根据时间向前检测。请参阅图2,步骤如下：

1.由于单个手势时间大约一致，首先我们维护一个长度大约为两秒的List。

2.如果List长度不够两秒，继续添加。

3.够两秒的长度之后，每次检测最新加入的数据是不是手势最后状态，比如说右手由下向上反转，最后状态就是右手掌心向上。如果是最后状态，转到4。

4.根据List向前回溯，检测手势的倒数第二状态。如果符合，继续回溯。直至符合动作逻辑，就返回识别结果即可，然后清空List，防止与新加入的数据产生混合导致识别出错。

文本显示装置主要是将手势手语翻译成文本并显示出来，能更方便聋哑人和正常人之间交流，实现实时交谈。为了更具实用性，还加入了多语翻译的功能，可连接上云翻译服务平台，将文本显示的容易翻译成多种语言。多语言翻译功能是利用网上百度公司提供的百度翻译API实现的。百度翻译提供中文、英语、日语、韩语、法语、泰语、德语、俄语、西班牙语、葡萄牙语、阿拉伯语、意大利语和粤语、文言文等16个语种，136个语言方向的翻译服务，支持文本翻译和网页翻译两种类型。目前市面上百度翻译API目前有近万个开发者接入，日均访问量近亿次。手机百度App、金山词霸全线产品、灵格斯词霸、华为手机、OPPO手机、敦煌网、百度文库、腾讯soso、特快翻译IOS和Android版、百度PC浏览器和手机浏览器、百度输入法等均与百度翻译建立了良好的合作关系。要使用百度翻译API需要先向百度申请开发所需的ApiKey。默认翻译API使用频率为每个IP1000次/小时，如有需要可向百度开发者中心申请更高频次权限。然后通过http协议发送get翻译请求，发送的请求中需包含字符编码必须为UTF-8的待翻译内容，和作为开发者已授权用户的身份证明的ApiKey，指定要翻译的源语言和目标语言种类(可设置为自动识别)。之后便可以得到相应的响应，返回的响应是ISO-8859-1编码格式的标准JSON字符串。为了能正常使用我们需要先将其转换成日常使用的字符编码格式UTF-8格式，然后使用QScriptEngine一层层解析返回的嵌套JSON字符串，除去多余的内容，将需要的翻译完成后的文字内容显示出来。

语音播放装置包括TTS引擎和发音包，使用微软官方提供的API，微软SDK提供的SAPI是基于COM封装的，通过初始化COM获取接口，调用接口完成某个功能，实现语音控制，程序结束的时候释放资源。语音播放装置的核心是ISpVoice接口，主要功能是speak()函数。

请参阅图3,主控装置与语音播放装置之间的数据转换和处理步骤如下：

1.主控装置识别手势，将识别的内容以文本形式显示出来，并作为可识别的字符串参数。

2.执行播报功能。

3.返回参数表示是否执行成功。

除了Speak()外IspVoice接口还有许多成员函数，如通过SetRate(int)，SetVolume(int)等语句将具体参数传入，设置音量、音调，Pause(void)和Resume(void)来暂停和回复语音的朗读，几乎可以使输出达到自然语音效果。至于音色，则通过SetVoice(ISpObjectToken*pToken)函数选择预装的语音库，可实现男声女声的切换。不仅如此，这个TTSAPI功能最强大之处在于能够分析XML标签，输入文本并不需要严格遵守W3C的标准，只要含有XML标签就行了。XML标签同样也能做到上述函数中的功能：设置音量、音调、延长、停顿等。再另外，根据XML标注的不同，数字、日期、时间之类的读法有自己的一套规则。实际上所有的语言发音都是由基本的音素组成，以中文发音为例，拼音是组成发音的最基本的元素，只要知道汉字的拼音，即使不知道怎么写，也不知道怎么读，都没有关系。对于TTS引擎来说，它不一定认识所有字，但是只要把拼音对应的符号(SYM)给它，它就一定能够读出来，而英语发音则可以用音标表示，例如“heh-low1”就是hello这个单词对应的语素。所以与一些用预先录制的声音文件实现发声的应用程序相比，TTS的发声引擎不需要大量的声音文件支持，只有几兆大小，因此可以节省很大的储存空间，缩小了程序的体积。

根据上述说明书的揭示和教导，本发明所属领域的技术人员还可以对上述实施方式进行适当的变更和修改。因此，本发明并不局限于上面揭示和描述的具体实施方式，对本发明的一些修改和变更也应当落入本发明的权利要求的保护范围内。此外，尽管本说明书中使用了一些特定的术语，但这些术语只是为了方便说明，并不对本发明构成任何限制。

Claims

1.一种手语翻译器，包括主控装置、手势识别装置、文本显示装置，其特征在于，所述手势识别装置为LeapMotion体感设备，所述主控装置接收手势识别装置捕捉到的手势数据并进行分析，将所述手势数据识别为文本信息并通过所述文本显示装置输出。

2.根据权利要求1所述的手语翻译器，其特征在于，所述手势识别装置将捕捉到的手势数据按照时间片的单位封装成一帧使用，所述主控装置通过对手势识别装置进行轮询获得多帧。

3.根据权利要求2所述的手语翻译器，其特征在于，在对动态手势的识别中，需要将当前帧的手势数据与前面的帧里对应的手势进行比较。

4.根据权利要求1所述的手语翻译器，其特征在于，所述文本显示装置通过http协议发送get翻译请求至百度翻译API，发送的请求中包含字符编码为UTF-8的待翻译内容和百度翻译API已授权用户的身份证明的ApiKey，指定要翻译的源语言和目标语言种类，返回的响应是ISO-8859-1编码格式的标准JSON字符串，将其转换成日常使用的字符编码格式UTF-8格式，对一层层解析返回的嵌套JSON字符串进行处理，将翻译完成后的文字内容显示出来。

5.根据权利要求1所述的手语翻译器，其特征在于，还包括语音播报装置，所述语音播报装置包括TTS引擎，所述语音播报装置接收所述文本显示装置的输出并通过语音播放出来。