CN108256458B

CN108256458B - 一种针对聋人自然手语的双向实时翻译系统及方法

Info

Publication number: CN108256458B
Application number: CN201810018401.8A
Authority: CN
Inventors: 王斐; 齐欢; 赵树森; 于海龙
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2018-01-04
Filing date: 2018-01-04
Publication date: 2020-08-04
Anticipated expiration: 2038-01-04
Also published as: CN108256458A

Abstract

本发明属于机器学习领域，涉及一种针对聋人自然手语的双向实时翻译系统及方法。针对聋人自然手语的双向实时翻译系统，包括人体上肢动作采集装置、交互终端和移动设备；交互终端包括语音听写功能模块和自然手语识别功能模块；可以将聋人自然手语翻译成听人能理解的文字和语音，也能将听人的语言翻译成聋人能理解的文字。通过人体上肢动作采集装置提取聋人自然手语动作的数据，并利用机器学习的方法对其识别，将识别结果显示到移动设备的屏幕上，识别结果随着聋人不断地打手语而进行更新，聋人自主选择修改。本发明可应用于银行、医院、商场、公安局、宾馆等多种场景，使聋人与听人之间能进行无障碍地交流，将有助于改善聋人的生活条件和工作条件。

Description

一种针对聋人自然手语的双向实时翻译系统及方法

技术领域

本发明属于机器学习领域，涉及一种针对聋人自然手语的双向实时翻译系统及方法。

背景技术

自然手语就是俗称的聋人手语，是聋人出于沟通交流的需要，以符合视觉语言规律为原则，在日常交流中自然产生和使用的词汇与语法。目前国内对于手语识别研究都不是针对自然手语开展的，大部分未受到特殊高等教育的聋人无法理解，所以其研究结果并无实际应用推广的可能。导致目前聋人与正常人之间的沟通还是采取以懂手语的正常人做翻译等手段，在很大程度上限制了聋人的交流范围，使得不懂手语的正常人无法对聋人所表达的全面理解，给聋人日常生活、工作和学习带来极大的不便。

本发明将提供一种针对聋人自然手语的双向实时翻译系统，能将聋人的自然手语翻译给听人，也能将听人的语言翻译给聋人，建立聋人与听人间的交流桥梁，为聋人的日常生活、工作和学习带来极大的方便。

发明内容

本发明提供一种针对聋人自然手语的双向实时翻译系统及方法，可将聋人的自然手语实时翻译成文字及声音使听人能够理解，也可将听人的语言实时翻译文字使聋人可以理解。

本发明的技术方案：

一种针对聋人自然手语的双向实时翻译系统，包括包括人体上肢动作采集装置、交互终端和移动设备；交互终端包括语音听写功能模块和自然手语识别功能模块；

语音听写功能模块，用于通过移动设备的声音接收装置采集听人讲话时的语音信息，并对语音信息进行识别听写，转化成聋人能看懂的文字通过移动设备的显示器显示；

自然手语识别功能模块，通过人体上肢动作采集装置提取聋人自然手语动作的数据，并利用机器学习的方法对其识别，将识别结果显示到移动设备的屏幕上，识别结果随着聋人不断地打手语而进行更新；针对识别结果句的关键词列出下拉菜单，列出与其相近的5-7个词，当聋人对识别结果不满意时做进一步选择、修改，并通过移动设备的声音输出装置播放最终确定的结果句，实现聋人自然手语到听人能理解的声音的翻译。

进一步地，上述针对聋人自然手语的双向实时翻译系统，所述的人体上肢动作采集装置为臂环，所述的臂环内置8块表面肌电信号传感器和一个九轴惯性传感器。

上述针对聋人自然手语的双向实时翻译系统中自然手语识别功能模块实现聋人自然手语对听人的翻译的方法，包括步骤如下：

步骤1：选取不同特定场景下的常用的正常语序的句子，将其中的关键词建立霍夫曼树，并对其进行霍夫曼编码，建立相应场景下的手语词库；霍夫曼编码(Huffman Coding)是David A.Huffman发明的一种编码方式，是一种用于无损数据压缩的编码算法。对常用句中的词进行编码，其中出现机率高的关键词使用短编码，出现机率低的使用长编码，从而达到无损压缩数据的目的；

步骤2：通过位于聋人两个前臂的人体上肢动作采集装置采集不同聋人的上肢表面肌电信号和惯性信息，应用机器学习算法对不同特定情景下聋人常用的手语动作进行识别，识别结果为步骤1建立的手语词库中的手语词；

步骤3：当手语句子的语序与正常语序不同时，为输出听人能理解的正常语序的句子，应用步骤1中对关键词的霍夫曼编码值，将手语句中关键词的编码值按手语的排序方式进行组合，将正常语序句中关键词的编码值按正常语序进行组合，分别得到手语句与正常语序句的霍夫曼编码值，建立两者编码值的映射关系即手语句到正常语序句的对应关系，制成手语语料库；

步骤4：聋人使用本系统时，本系统实时地将聋人当前手语动作与步骤1构建的手语词库进行最佳匹配，判断出聋人当前的手语动作对应的手语词；通过移动设备的屏幕显示手语词，随着聋人不断地做手语动作，屏幕显示内容不断同步更新对应的手语词；

步骤5：聋人停止做手语动作后，认为一条手语句输入结束；将手语词的序列输入步骤3中建立的手语语料库进行匹配，输出手语词序列对应的正常语序句；

步骤6：若聋人对屏幕显示的识别结果不满意，通过本系统的模糊词纠错功能，在下拉列表中对手语词进行选择、修正，使识别结果更符合聋人自身意愿；

步骤7：将最终确定的聋人自然手语翻译的结果句，通过移动设备的屏幕显示并通过扬声器进行播放，使听人能够理解聋人的意愿，实现聋人自然手语对听人的翻译。

进一步地，上述步骤2所述的机器学习算法为隐马尔科夫模型算法；具体实现如下：

学习过程：以每种手语动作的表面肌电信号与惯性信号作为一个观察序列集，采用前向-后向算法(forward-backward algorithm)对隐马尔科夫模型(HMM)模型参数进行估计，估计出一个最合适每种手语动作的隐马尔科夫模型(HMM)；

评估过程：使用前向算法(forward algorithm)计算当前所做的手语动作在学习过程中所确定的每个隐马尔科夫模型(HMM)下的概率，并选择概率最大的隐马尔科夫模型(HMM)对应的手语种类作为识别结果。

进一步地，上述步骤6中纠错功能的具体实现方法，包括以下步骤：

步骤6.1：选取开源的全网新闻数据作为语料库，语料库中的每个词都对应了向量空间中的一个唯一的向量，语料库中拥有共同上下文的词映射到向量空间中的距离更近；将词转成向量形式；通过配置参数实现每输入1个词，输出与其最相近的5-7个词。

步骤6.2：将步骤6.1输出的5-7个词，送入步骤1构建的手语词库中匹配，保留与手语词库匹配的词作为备选词，以下拉列表的形式列出，供聋人进行点触选择。

本发明的有益效果：

本发明可应用于银行、医院、商场、公安局、宾馆等多种场景，使聋人与听人之间能进行无障碍地交流，将有助于改善聋人的生活条件和工作条件。

附图说明

图1为针对聋人自然手语的双向实时翻译系统的结构示意图。

具体实施方式

以下结合技术方案和附图详细叙述本发明的具体实施例。

如图1所示，针对聋人自然手语的双向实时翻译系统，包括人体上肢动作采集装置、交互终端和移动设备；交互终端包括语音听写功能模块和自然手语识别功能模块；可以将聋人自然手语翻译成听人能理解的文字和语音，也能将听人的语言翻译成聋人能理解的文字。

自然手语识别功能模块，通过人体上肢动作采集装置提取聋人自然手语动作的数据，并利用机器学习的方法对其识别，将识别结果显示到移动设备的屏幕上，识别结果随着聋人不断地打手语而进行更新；针对识别结果句的关键词列出下拉菜单，列出与其相近的5个词，当聋人对识别结果不满意时做进一步选择、修改，并通过移动设备的声音输出装置播放最终确定的结果句，实现聋人自然手语到听人能理解的声音的翻译。

人体上肢动作采集装置采用内置8块表面肌电信号传感器和一个九轴惯性传感器的臂环。

聋人自然手语对听人的翻译的方法，步骤如下：

步骤1：选取不同特定场景下的常用的正常语序的句子，将其中的关键词建立霍夫曼树，并对其进行霍夫曼编码，建立相应场景下的手语词库；

步骤2：通过位于聋人前臂的人体上肢动作采集装置采集上肢表面肌电信号和惯性信息，应用机器学习算法对不同特定情景下聋人常用的手语动作进行识别，识别结果为步骤1建立的手语词库中的手语词；

所述的识别手语动作的机器学习算法的具体步骤如下：

学习过程：以每种手语动作的表面肌电信号与惯性信号作为一个观察序列集，采用前向-后向算法(forward-backward algorithm)对隐马尔科夫模型(HMM)模型参数进行估计，估计出一个最合适每种手语动作的隐马尔科夫模型(HMM)。

步骤3：建立正常语序句子与手语句子的对应关系，制成手语语料库；

应用步骤1中对词的霍夫曼编码值，将手语句中词的编码值按手语的排序方式进行组合，将正常语序句中词的编码值按正常语序进行组合，能分别得到手语句与正常语序句的霍夫曼编码值，建立两者编码值的映射关系即得到手语句到正常语序句的对应关系。

步骤4：聋人使用本系统时，本系统实时地将聋人当前手语动作与步骤1构建的手语词库进行最佳匹配，判断出聋人当前的手语动作对应的手语词；通过显示器显示手语词，随着聋人不断地做手语动作，屏幕显示内容不断同步更新对应的手语词。

步骤5：聋人停止做手语动作3s后，认为一条手语句输入结束。将手语词的序列输入步骤3中建立的手语语料库进行匹配，输出手语词序列对应的正常语序句；

步骤6：若聋人对显示器显示的识别结果不满意，通过本系统的模糊词纠错功能，在下拉列表中对手语词进行选择、修正，选择合适的结果句。

所述的纠错功能的具体实现方法，包括以下步骤：

步骤6.1：选取开源的全网新闻数据作为语料库，应用Google开源工具word2vec，将词转成向量形式；通过配置参数实现每输入1个词，输出与其最相近的5个词。

语料库中的每个词都对应了向量空间中的一个唯一的向量，语料库中拥有共同上下文的词映射到向量空间中的距离会更近。

步骤6.2：将步骤6.1输出的5个词，送入步骤1构建的手语词库中匹配，保留与手语词库匹配的词作为备选词，以下拉列表的形式列出，供聋人进行点触选择。

步骤7：将最终确定的聋人自然手语翻译的结果句，通过显示器显示并通过扬声器进行播放，使听人能够理解聋人的意愿，实现聋人自然手语对听人的翻译。

Claims

1.一种针对聋人自然手语的双向实时翻译系统的翻译方法，其特征在于，所述的针对聋人自然手语的双向实时翻译系统包括人体上肢动作采集装置、交互终端和移动设备；交互终端包括语音听写功能模块和自然手语识别功能模块；

自然手语识别功能模块，通过人体上肢动作采集装置提取聋人自然手语动作的数据，所述的人体上肢动作采集装置为臂环，所述的臂环内置8块表面肌电信号传感器和一个九轴惯性传感器；并利用机器学习的方法对其识别，将识别结果显示到移动设备的屏幕上，识别结果随着聋人不断地打手语而进行更新；针对识别结果句的关键词列出下拉菜单，列出与其相近的5-7个词，当聋人对识别结果不满意时做进一步选择、修改，并通过移动设备的声音输出装置播放最终确定的结果句，实现聋人自然手语到听人能理解的声音的翻译；

所述针对聋人自然手语的双向实时翻译系统中自然手语识别功能模块实现聋人自然手语对听人的翻译的方法，包括步骤如下：

步骤1：选取不同特定场景下的常用的正常语序的句子，将其中的关键词建立霍夫曼树，并对其进行霍夫曼编码，建立相应场景下的手语词库；对常用句中的词进行编码，其中出现机率高的关键词使用短编码，出现机率低的使用长编码，从而达到无损压缩数据的目的；

步骤3：当手语句子的语序与正常语序不同时，应用步骤1中对关键词的霍夫曼编码值，将手语句中关键词的编码值按手语的排序方式进行组合，将正常语序句中关键词的编码值按正常语序进行组合，分别得到手语句与正常语序句的霍夫曼编码值，建立两者编码值的映射关系即手语句到正常语序句的对应关系，制成手语语料库；

2.根据权利要求1所述的一种针对聋人自然手语的双向实时翻译系统的翻译方法，其特征在于，步骤2所述的机器学习算法为隐马尔科夫模型算法；具体实现如下：

学习过程：以每种手语动作的表面肌电信号与惯性信号作为一个观察序列集，采用前向-后向算法对隐马尔科夫模型模型参数进行估计，估计出一个最合适每种手语动作的隐马尔科夫模型；

评估过程：使用前向算法计算当前所做的手语动作在学习过程中所确定的每个隐马尔科夫模型下的概率，并选择概率最大的隐马尔科夫模型对应的手语种类作为识别结果。

3.根据权利要求1或2所述的一种针对聋人自然手语的双向实时翻译系统的翻译方法，其特征在于，步骤6中纠错功能的具体实现方法，包括以下步骤：

步骤6.1：选取开源的全网新闻数据作为语料库，语料库中的每个词都对应了向量空间中的一个唯一的向量，语料库中拥有共同上下文的词映射到向量空间中的距离更近；将词转成向量形式；通过配置参数实现每输入1个词，输出与其最相近的5-7个词；