CN108766433A

CN108766433A - 一种肢体语言翻译系统及方法

Info

Publication number: CN108766433A
Application number: CN201810448643.0A
Authority: CN
Inventors: 张运军
Original assignee: Shenzhen Double Monkey Technology Co Ltd
Current assignee: Shenzhen Double Monkey Technology Co Ltd
Priority date: 2018-05-11
Filing date: 2018-05-11
Publication date: 2018-11-06
Also published as: WO2019214456A1

Abstract

一种肢体语言翻译系统，包括终端设备与云端分布式服务；终端设备通过网络与云端分布式服务连接；其中，终端设备包括：阵列麦克风、摄像头、身体动作感知模块、声音输入模块；云端分布式服务包括：肢体识别服务、肢体翻译服务、肢体合成服务、语音识别服务、语音合成以及机器翻译。区别于现有技术，本发明实施例提供的一种肢体语言翻译系统，通过对身体动作的识别，并将其转换为对应的文字或语音，实现了翻译的多样化，对于具有语言障碍的人员或者外国人起到了很好的辅助作用，帮助其与他人能够正常沟通。

Description

一种肢体语言翻译系统及方法

技术领域

本发明实施方式涉及信息技术领域，特别是涉及一种肢体语言翻译系统及方法。

背景技术

通常正常人与聋哑人士沟通时需要学习一套手语，手语的学习需要花费相当大的精力及相当长的时间。另外，大多数手语的表达方式因国籍或地区的不同而不同，故不同国籍或地区的聋哑人士相互进行交流也存在沟通的问题。

发明内容

本发明实施方式主要解决的技术问题是提供一种。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种肢体语言翻译系统，包括终端设备与云端分布式服务；终端设备通过网络与云端分布式服务连接；

其中，终端设备包括：阵列麦克风、摄像头、身体动作感知模块、声音输入模块；

云端分布式服务包括：肢体识别服务、肢体翻译服务、肢体合成服务、语音识别服务、语音合成以及机器翻译。

一种肢体语言翻译方法，包括：

身体动作感知模块通过摄像头检测人体身体动作信息，并形成肢体视频流传输到云端分布式服务；

云端分布式服务中的肢体识别服务通过滤波，降噪处理，视频流特征提取，通过视频解码所传过来视频流，然后识别成所表达意思文本，接着由肢体翻译服务形成原文本，原文本再通过机器翻译通过nlp二次语义处理后，翻译成目标语言；

生成所要的目标语言后，经过语音合成服务合成声音回传到终端设备播放声音。

一种肢体语言翻译方法，包括：

语音识别引擎通过阵列式麦克风进行语音降噪；

接着将语音数据流传输至云端分布式服务，云端分布式服务中的语音识别服务进行提取特征值，解码语音流为文本，配合语音模型最终识别出语音对应文本，肢体生成服务，把识别出的语音对应文本转化为动作编码再合成身体动作视频流；

最后，该身体动作视频流回传到终端设备中进行播放。

附图说明

图1是本发明实施方式提供的一种肢体语言翻译系统的结构框图。

具体实施方式

为了便于理解本发明，下面结合附图和具体实施方式，对本发明进行更详细的说明。需要说明的是，当元件被表述“固定于”另一个元件，它可以直接在另一个元件上、或者其间可以存在一个或多个居中的元件。当一个元件被表述“连接”另一个元件，它可以是直接连接到另一个元件、或者其间可以存在一个或多个居中的元件。本说明书所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。

除非另有定义，本说明书所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本说明书中在本发明的说明书中所使用的术语只是为了描述具体的实施方式的目的，不是用于限制本发明。本说明书所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

如图1所示，一种肢体语言翻译系统，包括终端设备与云端分布式服务。终端设备通过网络与云端分布式服务连接。

其中，终端设备包括：阵列麦克风、摄像头、身体动作感知模块、声音输入模块。

阵列麦克风、摄像头、身体动作感知模块、声音输入模块集成在终端设备。

进行肢体语言翻译时，身体动作感知模块通过摄像头检测人体身体动作信息，并形成肢体视频流传输到云端分布式服务。由云端分布式服务中的肢体识别服务通过滤波，降噪处理，视频流特征提取，通过视频解码所传过来视频流，然后识别成所表达意思文本，接着由肢体翻译服务形成原文本，原文本再通过机器翻译通过nlp二次语义处理后，翻译成目标语言。生成所要的目标语言后，经过语音合成服务合成声音回传到终端设备播放声音。

进一步的，肢体识别服务通过深度神经网络训练动作模型，在有识别动作视频流过来通过视频流特征值提取，通过解码器解码动作语义，并通过语言模型进行校准，最终得到所表达文本，肢体识别服务，主要把文本翻译成对应动作编码，并合成视频流动态播放身体动作视频。

将语音翻译成肢体语言时，声音输入模块通过阵列式麦克风进行语音降噪，具体为进行VAD(静音检测)和过滤非人声。接着将语音数据流传输至云端分布式服务，云端分布式服务中的语音识别服务进行提取特征值，解码语音流为文本，配合语音模型最终识别出语音对应文本，肢体生成服务，把识别出的语音对应文本转化为动作编码再合成身体动作视频流；最后，该身体动作视频流回传到终端设备中进行播放。

云端分布式服务主要采用深度神经网络，CNN、LSTM、CTC技术实现。

一种肢体语言翻译方法，基于上述的肢体语言翻译系统实现，在进行肢体语言翻译时，包括：

身体动作感知模块通过摄像头检测人体身体动作信息，并形成肢体视频流传输到云端分布式服务。

云端分布式服务中的肢体识别服务通过滤波，降噪处理，视频流特征提取，通过视频解码所传过来视频流，然后识别成所表达意思文本，接着由肢体翻译服务形成原文本，原文本再通过机器翻译通过nlp二次语义处理后，翻译成目标语言。生成所要的目标语言后，经过语音合成服务合成声音回传到终端设备播放声音。

进一步的，肢体识别服务通过深度神经网络训练动作模型，在有识别动作视频流过来通过视频流特征值提取，通过解码器解码动作语义，并通过语言模型进行校准，最终得到所表达文本，文本翻译成对应动作编码，并合成视频流动态播放身体动作视频。

在语音翻译成肢体语言时，包括：

语音识别引擎通过阵列式麦克风进行语音降噪，具体为进行VAD(静音检测)和过滤非人声。

接着将语音数据流传输至云端分布式服务，云端分布式服务中的语音识别服务进行提取特征值，解码语音流为文本，配合语音模型最终识别出语音对应文本，肢体生成服务，把识别出的语音对应文本转化为动作编码再合成身体动作视频流。

最后，该身体动作视频流回传到终端设备中进行播放。

区别于现有技术，本发明实施例提供的一种肢体语言翻译系统及方法，通过对身体动作的识别，并将其转换为对应的文字或语音，实现了翻译的多样化，对于具有语言障碍的人员或者外国人起到了很好的辅助作用，帮助其与他人能够正常沟通。

本发明实施例还提供了一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行如上所述的方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域普通技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。

需要说明的是，本发明的说明书及其附图中给出了本发明的较佳的实施方式，但是，本发明可以通过许多不同的形式来实现，并不限于本说明书所描述的实施方式，这些实施方式不作为对本发明内容的额外限制，提供这些实施方式的目的是使对本发明的公开内容的理解更加透彻全面。并且，上述各技术特征继续相互组合，形成未在上面列举的各种实施方式，均视为本发明说明书记载的范围；进一步地，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种肢体语言翻译系统，其特征在于，包括终端设备与云端分布式服务；终端设备通过网络与云端分布式服务连接；

2.一种肢体语言翻译方法，其特征在于，包括：

3.根据权利要求2所述的方法，其特征在于，肢体识别服务通过深度神经网络训练动作模型，在有识别动作视频流过来通过视频流特征值提取，通过解码器解码动作语义，并通过语言模型进行校准，最终得到所表达文本，文本翻译成对应动作编码，并合成视频流动态播放身体动作视频。

4.一种肢体语言翻译方法，其特征在于，包括：

语音识别引擎通过阵列式麦克风进行语音降噪；

最后，该身体动作视频流回传到终端设备中进行播放。