CN108766433A - 一种肢体语言翻译系统及方法 - Google Patents
一种肢体语言翻译系统及方法 Download PDFInfo
- Publication number
- CN108766433A CN108766433A CN201810448643.0A CN201810448643A CN108766433A CN 108766433 A CN108766433 A CN 108766433A CN 201810448643 A CN201810448643 A CN 201810448643A CN 108766433 A CN108766433 A CN 108766433A
- Authority
- CN
- China
- Prior art keywords
- limbs
- service
- text
- clouds
- terminal device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Abstract
一种肢体语言翻译系统,包括终端设备与云端分布式服务;终端设备通过网络与云端分布式服务连接;其中,终端设备包括:阵列麦克风、摄像头、身体动作感知模块、声音输入模块;云端分布式服务包括:肢体识别服务、肢体翻译服务、肢体合成服务、语音识别服务、语音合成以及机器翻译。区别于现有技术,本发明实施例提供的一种肢体语言翻译系统,通过对身体动作的识别,并将其转换为对应的文字或语音,实现了翻译的多样化,对于具有语言障碍的人员或者外国人起到了很好的辅助作用,帮助其与他人能够正常沟通。
Description
技术领域
本发明实施方式涉及信息技术领域,特别是涉及一种肢体语言翻译系统及方法。
背景技术
通常正常人与聋哑人士沟通时需要学习一套手语,手语的学习需要花费相当大的精力及相当长的时间。另外,大多数手语的表达方式因国籍或地区的不同而不同,故不同国籍或地区的聋哑人士相互进行交流也存在沟通的问题。
发明内容
本发明实施方式主要解决的技术问题是提供一种。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种肢体语言翻译系统,包括终端设备与云端分布式服务;终端设备通过网络与云端分布式服务连接;
其中,终端设备包括:阵列麦克风、摄像头、身体动作感知模块、声音输入模块;
云端分布式服务包括:肢体识别服务、肢体翻译服务、肢体合成服务、语音识别服务、语音合成以及机器翻译。
一种肢体语言翻译方法,包括:
身体动作感知模块通过摄像头检测人体身体动作信息,并形成肢体视频流传输到云端分布式服务;
云端分布式服务中的肢体识别服务通过滤波,降噪处理,视频流特征提取,通过视频解码所传过来视频流,然后识别成所表达意思文本,接着由肢体翻译服务形成原文本,原文本再通过机器翻译通过nlp二次语义处理后,翻译成目标语言;
生成所要的目标语言后,经过语音合成服务合成声音回传到终端设备播放声音。
一种肢体语言翻译方法,包括:
语音识别引擎通过阵列式麦克风进行语音降噪;
接着将语音数据流传输至云端分布式服务,云端分布式服务中的语音识别服务进行提取特征值,解码语音流为文本,配合语音模型最终识别出语音对应文本,肢体生成服务,把识别出的语音对应文本转化为动作编码再合成身体动作视频流;
最后,该身体动作视频流回传到终端设备中进行播放。
附图说明
图1是本发明实施方式提供的一种肢体语言翻译系统的结构框图。
具体实施方式
为了便于理解本发明,下面结合附图和具体实施方式,对本发明进行更详细的说明。需要说明的是,当元件被表述“固定于”另一个元件,它可以直接在另一个元件上、或者其间可以存在一个或多个居中的元件。当一个元件被表述“连接”另一个元件,它可以是直接连接到另一个元件、或者其间可以存在一个或多个居中的元件。本说明书所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
除非另有定义,本说明书所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本说明书中在本发明的说明书中所使用的术语只是为了描述具体的实施方式的目的,不是用于限制本发明。本说明书所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
如图1所示,一种肢体语言翻译系统,包括终端设备与云端分布式服务。终端设备通过网络与云端分布式服务连接。
其中,终端设备包括:阵列麦克风、摄像头、身体动作感知模块、声音输入模块。
云端分布式服务包括:肢体识别服务、肢体翻译服务、肢体合成服务、语音识别服务、语音合成以及机器翻译。
阵列麦克风、摄像头、身体动作感知模块、声音输入模块集成在终端设备。
进行肢体语言翻译时,身体动作感知模块通过摄像头检测人体身体动作信息,并形成肢体视频流传输到云端分布式服务。由云端分布式服务中的肢体识别服务通过滤波,降噪处理,视频流特征提取,通过视频解码所传过来视频流,然后识别成所表达意思文本,接着由肢体翻译服务形成原文本,原文本再通过机器翻译通过nlp二次语义处理后,翻译成目标语言。生成所要的目标语言后,经过语音合成服务合成声音回传到终端设备播放声音。
进一步的,肢体识别服务通过深度神经网络训练动作模型,在有识别动作视频流过来通过视频流特征值提取,通过解码器解码动作语义,并通过语言模型进行校准,最终得到所表达文本,肢体识别服务,主要把文本翻译成对应动作编码,并合成视频流动态播放身体动作视频。
将语音翻译成肢体语言时,声音输入模块通过阵列式麦克风进行语音降噪,具体为进行VAD(静音检测)和过滤非人声。接着将语音数据流传输至云端分布式服务,云端分布式服务中的语音识别服务进行提取特征值,解码语音流为文本,配合语音模型最终识别出语音对应文本,肢体生成服务,把识别出的语音对应文本转化为动作编码再合成身体动作视频流;最后,该身体动作视频流回传到终端设备中进行播放。
云端分布式服务主要采用深度神经网络,CNN、LSTM、CTC技术实现。
一种肢体语言翻译方法,基于上述的肢体语言翻译系统实现,在进行肢体语言翻译时,包括:
身体动作感知模块通过摄像头检测人体身体动作信息,并形成肢体视频流传输到云端分布式服务。
云端分布式服务中的肢体识别服务通过滤波,降噪处理,视频流特征提取,通过视频解码所传过来视频流,然后识别成所表达意思文本,接着由肢体翻译服务形成原文本,原文本再通过机器翻译通过nlp二次语义处理后,翻译成目标语言。生成所要的目标语言后,经过语音合成服务合成声音回传到终端设备播放声音。
进一步的,肢体识别服务通过深度神经网络训练动作模型,在有识别动作视频流过来通过视频流特征值提取,通过解码器解码动作语义,并通过语言模型进行校准,最终得到所表达文本,文本翻译成对应动作编码,并合成视频流动态播放身体动作视频。
在语音翻译成肢体语言时,包括:
语音识别引擎通过阵列式麦克风进行语音降噪,具体为进行VAD(静音检测)和过滤非人声。
接着将语音数据流传输至云端分布式服务,云端分布式服务中的语音识别服务进行提取特征值,解码语音流为文本,配合语音模型最终识别出语音对应文本,肢体生成服务,把识别出的语音对应文本转化为动作编码再合成身体动作视频流。
最后,该身体动作视频流回传到终端设备中进行播放。
区别于现有技术,本发明实施例提供的一种肢体语言翻译系统及方法,通过对身体动作的识别,并将其转换为对应的文字或语音,实现了翻译的多样化,对于具有语言障碍的人员或者外国人起到了很好的辅助作用,帮助其与他人能够正常沟通。
本发明实施例还提供了一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行如上所述的方法。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域普通技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
需要说明的是,本发明的说明书及其附图中给出了本发明的较佳的实施方式,但是,本发明可以通过许多不同的形式来实现,并不限于本说明书所描述的实施方式,这些实施方式不作为对本发明内容的额外限制,提供这些实施方式的目的是使对本发明的公开内容的理解更加透彻全面。并且,上述各技术特征继续相互组合,形成未在上面列举的各种实施方式,均视为本发明说明书记载的范围;进一步地,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (4)
1.一种肢体语言翻译系统,其特征在于,包括终端设备与云端分布式服务;终端设备通过网络与云端分布式服务连接;
其中,终端设备包括:阵列麦克风、摄像头、身体动作感知模块、声音输入模块;
云端分布式服务包括:肢体识别服务、肢体翻译服务、肢体合成服务、语音识别服务、语音合成以及机器翻译。
2.一种肢体语言翻译方法,其特征在于,包括:
身体动作感知模块通过摄像头检测人体身体动作信息,并形成肢体视频流传输到云端分布式服务;
云端分布式服务中的肢体识别服务通过滤波,降噪处理,视频流特征提取,通过视频解码所传过来视频流,然后识别成所表达意思文本,接着由肢体翻译服务形成原文本,原文本再通过机器翻译通过nlp二次语义处理后,翻译成目标语言;
生成所要的目标语言后,经过语音合成服务合成声音回传到终端设备播放声音。
3.根据权利要求2所述的方法,其特征在于,肢体识别服务通过深度神经网络训练动作模型,在有识别动作视频流过来通过视频流特征值提取,通过解码器解码动作语义,并通过语言模型进行校准,最终得到所表达文本,文本翻译成对应动作编码,并合成视频流动态播放身体动作视频。
4.一种肢体语言翻译方法,其特征在于,包括:
语音识别引擎通过阵列式麦克风进行语音降噪;
接着将语音数据流传输至云端分布式服务,云端分布式服务中的语音识别服务进行提取特征值,解码语音流为文本,配合语音模型最终识别出语音对应文本,肢体生成服务,把识别出的语音对应文本转化为动作编码再合成身体动作视频流;
最后,该身体动作视频流回传到终端设备中进行播放。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810448643.0A CN108766433A (zh) | 2018-05-11 | 2018-05-11 | 一种肢体语言翻译系统及方法 |
PCT/CN2019/084441 WO2019214456A1 (zh) | 2018-05-11 | 2019-04-26 | 一种肢体语言翻译系统、方法及服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810448643.0A CN108766433A (zh) | 2018-05-11 | 2018-05-11 | 一种肢体语言翻译系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108766433A true CN108766433A (zh) | 2018-11-06 |
Family
ID=64010100
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810448643.0A Withdrawn CN108766433A (zh) | 2018-05-11 | 2018-05-11 | 一种肢体语言翻译系统及方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN108766433A (zh) |
WO (1) | WO2019214456A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110133872A (zh) * | 2019-05-24 | 2019-08-16 | 中国人民解放军东部战区总医院 | 一种能够实现多语言互译的智能眼镜 |
CN110163181A (zh) * | 2019-05-29 | 2019-08-23 | 中国科学技术大学 | 手语识别方法及装置 |
WO2019214456A1 (zh) * | 2018-05-11 | 2019-11-14 | 深圳双猴科技有限公司 | 一种肢体语言翻译系统、方法及服务器 |
CN111144287A (zh) * | 2019-12-25 | 2020-05-12 | Oppo广东移动通信有限公司 | 视听辅助交流方法、装置及可读存储介质 |
CN111428769A (zh) * | 2020-03-18 | 2020-07-17 | 周升志 | 一种软件设计宠物行为语言的人工智能翻译系统 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113470614A (zh) * | 2021-06-29 | 2021-10-01 | 维沃移动通信有限公司 | 语音生成方法、装置和电子设备 |
CN113822186A (zh) * | 2021-09-10 | 2021-12-21 | 阿里巴巴达摩院(杭州)科技有限公司 | 手语翻译、客服、通信方法、设备和可读介质 |
CN116702801B (zh) * | 2023-08-07 | 2024-04-05 | 深圳市微星智造科技有限公司 | 翻译方法、装置、设备及存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5890120A (en) * | 1997-05-20 | 1999-03-30 | At&T Corp | Matching, synchronization, and superposition on orginal speaking subject images of modified signs from sign language database corresponding to recognized speech segments |
CN101594434A (zh) * | 2009-06-16 | 2009-12-02 | 中兴通讯股份有限公司 | 移动终端的手语处理方法和手语处理移动终端 |
US20110116608A1 (en) * | 2009-11-18 | 2011-05-19 | Gwendolyn Simmons | Method of providing two-way communication between a deaf person and a hearing person |
CN101794528B (zh) * | 2010-04-02 | 2012-03-14 | 北京大学软件与微电子学院无锡产学研合作教育基地 | 一种手语语音双向翻译系统 |
CN103116576A (zh) * | 2013-01-29 | 2013-05-22 | 安徽安泰新型包装材料有限公司 | 一种语音手势交互翻译装置及其控制方法 |
CN104125548B (zh) * | 2013-04-27 | 2017-12-22 | 中国移动通信集团公司 | 一种对通话语言进行翻译的方法、设备和系统 |
CN108766433A (zh) * | 2018-05-11 | 2018-11-06 | 深圳双猴科技有限公司 | 一种肢体语言翻译系统及方法 |
-
2018
- 2018-05-11 CN CN201810448643.0A patent/CN108766433A/zh not_active Withdrawn
-
2019
- 2019-04-26 WO PCT/CN2019/084441 patent/WO2019214456A1/zh active Application Filing
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019214456A1 (zh) * | 2018-05-11 | 2019-11-14 | 深圳双猴科技有限公司 | 一种肢体语言翻译系统、方法及服务器 |
CN110133872A (zh) * | 2019-05-24 | 2019-08-16 | 中国人民解放军东部战区总医院 | 一种能够实现多语言互译的智能眼镜 |
CN110163181A (zh) * | 2019-05-29 | 2019-08-23 | 中国科学技术大学 | 手语识别方法及装置 |
CN111144287A (zh) * | 2019-12-25 | 2020-05-12 | Oppo广东移动通信有限公司 | 视听辅助交流方法、装置及可读存储介质 |
CN111428769A (zh) * | 2020-03-18 | 2020-07-17 | 周升志 | 一种软件设计宠物行为语言的人工智能翻译系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2019214456A1 (zh) | 2019-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108766433A (zh) | 一种肢体语言翻译系统及方法 | |
Eckert et al. | Phonetics, phonology and social meaning | |
KR102115551B1 (ko) | 글로스를 이용한 수어 번역 장치 및 번역모델 학습장치 | |
Hozjan et al. | Interface Databases: Design and Collection of a Multilingual Emotional Speech Database. | |
CN106688034A (zh) | 具有情感内容的文字至语音转换 | |
CN111276120A (zh) | 语音合成方法、装置和计算机可读存储介质 | |
CN105551480B (zh) | 方言转换方法及装置 | |
Teschner | Analyzing the grammar of English | |
Dhanjal et al. | An automatic machine translation system for multi-lingual speech to Indian sign language | |
CN106057192A (zh) | 一种实时语音转换方法和装置 | |
CN109102796A (zh) | 一种语音合成方法及装置 | |
CN101861621A (zh) | 自动同步解释系统 | |
CN108628859A (zh) | 一种实时语音翻译系统 | |
Patra et al. | Text to speech conversion with phonematic concatenation | |
Räsänen et al. | A computational model of early language acquisition from audiovisual experiences of young infants | |
Munroe | Why are you talking to yourself? The epistemic role of inner speech in reasoning | |
Lotfian et al. | Lexical dependent emotion detection using synthetic speech reference | |
Yu et al. | Multi-stage audio-visual fusion for Dysarthric speech recognition with pre-trained models | |
Dhanjal et al. | An optimized machine translation technique for multi-lingual speech to sign language notation | |
Wu et al. | Oral English Speech Recognition Based on Enhanced Temporal Convolutional Network. | |
Luong et al. | LaughNet: synthesizing laughter utterances from waveform silhouettes and a single laughter example | |
CN116778967B (zh) | 基于预训练模型的多模态情感识别方法及装置 | |
San-Segundo et al. | Proposing a speech to gesture translation architecture for Spanish deaf people | |
Shechtman et al. | Emphatic speech prosody prediction with deep lstm networks | |
CN117012177A (zh) | 语音合成方法、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20181106 |
|
WW01 | Invention patent application withdrawn after publication |