CN108766433A - 一种肢体语言翻译系统及方法 - Google Patents

一种肢体语言翻译系统及方法 Download PDF

Info

Publication number
CN108766433A
CN108766433A CN201810448643.0A CN201810448643A CN108766433A CN 108766433 A CN108766433 A CN 108766433A CN 201810448643 A CN201810448643 A CN 201810448643A CN 108766433 A CN108766433 A CN 108766433A
Authority
CN
China
Prior art keywords
limbs
service
text
clouds
terminal device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201810448643.0A
Other languages
English (en)
Inventor
张运军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Double Monkey Technology Co Ltd
Original Assignee
Shenzhen Double Monkey Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Double Monkey Technology Co Ltd filed Critical Shenzhen Double Monkey Technology Co Ltd
Priority to CN201810448643.0A priority Critical patent/CN108766433A/zh
Publication of CN108766433A publication Critical patent/CN108766433A/zh
Priority to PCT/CN2019/084441 priority patent/WO2019214456A1/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Abstract

一种肢体语言翻译系统,包括终端设备与云端分布式服务;终端设备通过网络与云端分布式服务连接;其中,终端设备包括:阵列麦克风、摄像头、身体动作感知模块、声音输入模块;云端分布式服务包括:肢体识别服务、肢体翻译服务、肢体合成服务、语音识别服务、语音合成以及机器翻译。区别于现有技术,本发明实施例提供的一种肢体语言翻译系统,通过对身体动作的识别,并将其转换为对应的文字或语音,实现了翻译的多样化,对于具有语言障碍的人员或者外国人起到了很好的辅助作用,帮助其与他人能够正常沟通。

Description

一种肢体语言翻译系统及方法
技术领域
本发明实施方式涉及信息技术领域,特别是涉及一种肢体语言翻译系统及方法。
背景技术
通常正常人与聋哑人士沟通时需要学习一套手语,手语的学习需要花费相当大的精力及相当长的时间。另外,大多数手语的表达方式因国籍或地区的不同而不同,故不同国籍或地区的聋哑人士相互进行交流也存在沟通的问题。
发明内容
本发明实施方式主要解决的技术问题是提供一种。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种肢体语言翻译系统,包括终端设备与云端分布式服务;终端设备通过网络与云端分布式服务连接;
其中,终端设备包括:阵列麦克风、摄像头、身体动作感知模块、声音输入模块;
云端分布式服务包括:肢体识别服务、肢体翻译服务、肢体合成服务、语音识别服务、语音合成以及机器翻译。
一种肢体语言翻译方法,包括:
身体动作感知模块通过摄像头检测人体身体动作信息,并形成肢体视频流传输到云端分布式服务;
云端分布式服务中的肢体识别服务通过滤波,降噪处理,视频流特征提取,通过视频解码所传过来视频流,然后识别成所表达意思文本,接着由肢体翻译服务形成原文本,原文本再通过机器翻译通过nlp二次语义处理后,翻译成目标语言;
生成所要的目标语言后,经过语音合成服务合成声音回传到终端设备播放声音。
一种肢体语言翻译方法,包括:
语音识别引擎通过阵列式麦克风进行语音降噪;
接着将语音数据流传输至云端分布式服务,云端分布式服务中的语音识别服务进行提取特征值,解码语音流为文本,配合语音模型最终识别出语音对应文本,肢体生成服务,把识别出的语音对应文本转化为动作编码再合成身体动作视频流;
最后,该身体动作视频流回传到终端设备中进行播放。
附图说明
图1是本发明实施方式提供的一种肢体语言翻译系统的结构框图。
具体实施方式
为了便于理解本发明,下面结合附图和具体实施方式,对本发明进行更详细的说明。需要说明的是,当元件被表述“固定于”另一个元件,它可以直接在另一个元件上、或者其间可以存在一个或多个居中的元件。当一个元件被表述“连接”另一个元件,它可以是直接连接到另一个元件、或者其间可以存在一个或多个居中的元件。本说明书所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
除非另有定义,本说明书所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本说明书中在本发明的说明书中所使用的术语只是为了描述具体的实施方式的目的,不是用于限制本发明。本说明书所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
如图1所示,一种肢体语言翻译系统,包括终端设备与云端分布式服务。终端设备通过网络与云端分布式服务连接。
其中,终端设备包括:阵列麦克风、摄像头、身体动作感知模块、声音输入模块。
云端分布式服务包括:肢体识别服务、肢体翻译服务、肢体合成服务、语音识别服务、语音合成以及机器翻译。
阵列麦克风、摄像头、身体动作感知模块、声音输入模块集成在终端设备。
进行肢体语言翻译时,身体动作感知模块通过摄像头检测人体身体动作信息,并形成肢体视频流传输到云端分布式服务。由云端分布式服务中的肢体识别服务通过滤波,降噪处理,视频流特征提取,通过视频解码所传过来视频流,然后识别成所表达意思文本,接着由肢体翻译服务形成原文本,原文本再通过机器翻译通过nlp二次语义处理后,翻译成目标语言。生成所要的目标语言后,经过语音合成服务合成声音回传到终端设备播放声音。
进一步的,肢体识别服务通过深度神经网络训练动作模型,在有识别动作视频流过来通过视频流特征值提取,通过解码器解码动作语义,并通过语言模型进行校准,最终得到所表达文本,肢体识别服务,主要把文本翻译成对应动作编码,并合成视频流动态播放身体动作视频。
将语音翻译成肢体语言时,声音输入模块通过阵列式麦克风进行语音降噪,具体为进行VAD(静音检测)和过滤非人声。接着将语音数据流传输至云端分布式服务,云端分布式服务中的语音识别服务进行提取特征值,解码语音流为文本,配合语音模型最终识别出语音对应文本,肢体生成服务,把识别出的语音对应文本转化为动作编码再合成身体动作视频流;最后,该身体动作视频流回传到终端设备中进行播放。
云端分布式服务主要采用深度神经网络,CNN、LSTM、CTC技术实现。
一种肢体语言翻译方法,基于上述的肢体语言翻译系统实现,在进行肢体语言翻译时,包括:
身体动作感知模块通过摄像头检测人体身体动作信息,并形成肢体视频流传输到云端分布式服务。
云端分布式服务中的肢体识别服务通过滤波,降噪处理,视频流特征提取,通过视频解码所传过来视频流,然后识别成所表达意思文本,接着由肢体翻译服务形成原文本,原文本再通过机器翻译通过nlp二次语义处理后,翻译成目标语言。生成所要的目标语言后,经过语音合成服务合成声音回传到终端设备播放声音。
进一步的,肢体识别服务通过深度神经网络训练动作模型,在有识别动作视频流过来通过视频流特征值提取,通过解码器解码动作语义,并通过语言模型进行校准,最终得到所表达文本,文本翻译成对应动作编码,并合成视频流动态播放身体动作视频。
在语音翻译成肢体语言时,包括:
语音识别引擎通过阵列式麦克风进行语音降噪,具体为进行VAD(静音检测)和过滤非人声。
接着将语音数据流传输至云端分布式服务,云端分布式服务中的语音识别服务进行提取特征值,解码语音流为文本,配合语音模型最终识别出语音对应文本,肢体生成服务,把识别出的语音对应文本转化为动作编码再合成身体动作视频流。
最后,该身体动作视频流回传到终端设备中进行播放。
区别于现有技术,本发明实施例提供的一种肢体语言翻译系统及方法,通过对身体动作的识别,并将其转换为对应的文字或语音,实现了翻译的多样化,对于具有语言障碍的人员或者外国人起到了很好的辅助作用,帮助其与他人能够正常沟通。
本发明实施例还提供了一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行如上所述的方法。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域普通技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
需要说明的是,本发明的说明书及其附图中给出了本发明的较佳的实施方式,但是,本发明可以通过许多不同的形式来实现,并不限于本说明书所描述的实施方式,这些实施方式不作为对本发明内容的额外限制,提供这些实施方式的目的是使对本发明的公开内容的理解更加透彻全面。并且,上述各技术特征继续相互组合,形成未在上面列举的各种实施方式,均视为本发明说明书记载的范围;进一步地,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (4)

1.一种肢体语言翻译系统,其特征在于,包括终端设备与云端分布式服务;终端设备通过网络与云端分布式服务连接;
其中,终端设备包括:阵列麦克风、摄像头、身体动作感知模块、声音输入模块;
云端分布式服务包括:肢体识别服务、肢体翻译服务、肢体合成服务、语音识别服务、语音合成以及机器翻译。
2.一种肢体语言翻译方法,其特征在于,包括:
身体动作感知模块通过摄像头检测人体身体动作信息,并形成肢体视频流传输到云端分布式服务;
云端分布式服务中的肢体识别服务通过滤波,降噪处理,视频流特征提取,通过视频解码所传过来视频流,然后识别成所表达意思文本,接着由肢体翻译服务形成原文本,原文本再通过机器翻译通过nlp二次语义处理后,翻译成目标语言;
生成所要的目标语言后,经过语音合成服务合成声音回传到终端设备播放声音。
3.根据权利要求2所述的方法,其特征在于,肢体识别服务通过深度神经网络训练动作模型,在有识别动作视频流过来通过视频流特征值提取,通过解码器解码动作语义,并通过语言模型进行校准,最终得到所表达文本,文本翻译成对应动作编码,并合成视频流动态播放身体动作视频。
4.一种肢体语言翻译方法,其特征在于,包括:
语音识别引擎通过阵列式麦克风进行语音降噪;
接着将语音数据流传输至云端分布式服务,云端分布式服务中的语音识别服务进行提取特征值,解码语音流为文本,配合语音模型最终识别出语音对应文本,肢体生成服务,把识别出的语音对应文本转化为动作编码再合成身体动作视频流;
最后,该身体动作视频流回传到终端设备中进行播放。
CN201810448643.0A 2018-05-11 2018-05-11 一种肢体语言翻译系统及方法 Withdrawn CN108766433A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810448643.0A CN108766433A (zh) 2018-05-11 2018-05-11 一种肢体语言翻译系统及方法
PCT/CN2019/084441 WO2019214456A1 (zh) 2018-05-11 2019-04-26 一种肢体语言翻译系统、方法及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810448643.0A CN108766433A (zh) 2018-05-11 2018-05-11 一种肢体语言翻译系统及方法

Publications (1)

Publication Number Publication Date
CN108766433A true CN108766433A (zh) 2018-11-06

Family

ID=64010100

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810448643.0A Withdrawn CN108766433A (zh) 2018-05-11 2018-05-11 一种肢体语言翻译系统及方法

Country Status (2)

Country Link
CN (1) CN108766433A (zh)
WO (1) WO2019214456A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110133872A (zh) * 2019-05-24 2019-08-16 中国人民解放军东部战区总医院 一种能够实现多语言互译的智能眼镜
CN110163181A (zh) * 2019-05-29 2019-08-23 中国科学技术大学 手语识别方法及装置
WO2019214456A1 (zh) * 2018-05-11 2019-11-14 深圳双猴科技有限公司 一种肢体语言翻译系统、方法及服务器
CN111144287A (zh) * 2019-12-25 2020-05-12 Oppo广东移动通信有限公司 视听辅助交流方法、装置及可读存储介质
CN111428769A (zh) * 2020-03-18 2020-07-17 周升志 一种软件设计宠物行为语言的人工智能翻译系统

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113470614A (zh) * 2021-06-29 2021-10-01 维沃移动通信有限公司 语音生成方法、装置和电子设备
CN113822186A (zh) * 2021-09-10 2021-12-21 阿里巴巴达摩院(杭州)科技有限公司 手语翻译、客服、通信方法、设备和可读介质
CN116702801B (zh) * 2023-08-07 2024-04-05 深圳市微星智造科技有限公司 翻译方法、装置、设备及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5890120A (en) * 1997-05-20 1999-03-30 At&T Corp Matching, synchronization, and superposition on orginal speaking subject images of modified signs from sign language database corresponding to recognized speech segments
CN101594434A (zh) * 2009-06-16 2009-12-02 中兴通讯股份有限公司 移动终端的手语处理方法和手语处理移动终端
US20110116608A1 (en) * 2009-11-18 2011-05-19 Gwendolyn Simmons Method of providing two-way communication between a deaf person and a hearing person
CN101794528B (zh) * 2010-04-02 2012-03-14 北京大学软件与微电子学院无锡产学研合作教育基地 一种手语语音双向翻译系统
CN103116576A (zh) * 2013-01-29 2013-05-22 安徽安泰新型包装材料有限公司 一种语音手势交互翻译装置及其控制方法
CN104125548B (zh) * 2013-04-27 2017-12-22 中国移动通信集团公司 一种对通话语言进行翻译的方法、设备和系统
CN108766433A (zh) * 2018-05-11 2018-11-06 深圳双猴科技有限公司 一种肢体语言翻译系统及方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019214456A1 (zh) * 2018-05-11 2019-11-14 深圳双猴科技有限公司 一种肢体语言翻译系统、方法及服务器
CN110133872A (zh) * 2019-05-24 2019-08-16 中国人民解放军东部战区总医院 一种能够实现多语言互译的智能眼镜
CN110163181A (zh) * 2019-05-29 2019-08-23 中国科学技术大学 手语识别方法及装置
CN111144287A (zh) * 2019-12-25 2020-05-12 Oppo广东移动通信有限公司 视听辅助交流方法、装置及可读存储介质
CN111428769A (zh) * 2020-03-18 2020-07-17 周升志 一种软件设计宠物行为语言的人工智能翻译系统

Also Published As

Publication number Publication date
WO2019214456A1 (zh) 2019-11-14

Similar Documents

Publication Publication Date Title
CN108766433A (zh) 一种肢体语言翻译系统及方法
Eckert et al. Phonetics, phonology and social meaning
KR102115551B1 (ko) 글로스를 이용한 수어 번역 장치 및 번역모델 학습장치
Hozjan et al. Interface Databases: Design and Collection of a Multilingual Emotional Speech Database.
CN106688034A (zh) 具有情感内容的文字至语音转换
CN111276120A (zh) 语音合成方法、装置和计算机可读存储介质
CN105551480B (zh) 方言转换方法及装置
Teschner Analyzing the grammar of English
Dhanjal et al. An automatic machine translation system for multi-lingual speech to Indian sign language
CN106057192A (zh) 一种实时语音转换方法和装置
CN109102796A (zh) 一种语音合成方法及装置
CN101861621A (zh) 自动同步解释系统
CN108628859A (zh) 一种实时语音翻译系统
Patra et al. Text to speech conversion with phonematic concatenation
Räsänen et al. A computational model of early language acquisition from audiovisual experiences of young infants
Munroe Why are you talking to yourself? The epistemic role of inner speech in reasoning
Lotfian et al. Lexical dependent emotion detection using synthetic speech reference
Yu et al. Multi-stage audio-visual fusion for Dysarthric speech recognition with pre-trained models
Dhanjal et al. An optimized machine translation technique for multi-lingual speech to sign language notation
Wu et al. Oral English Speech Recognition Based on Enhanced Temporal Convolutional Network.
Luong et al. LaughNet: synthesizing laughter utterances from waveform silhouettes and a single laughter example
CN116778967B (zh) 基于预训练模型的多模态情感识别方法及装置
San-Segundo et al. Proposing a speech to gesture translation architecture for Spanish deaf people
Shechtman et al. Emphatic speech prosody prediction with deep lstm networks
CN117012177A (zh) 语音合成方法、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20181106

WW01 Invention patent application withdrawn after publication