CN104064187A - 一种哑语转换语音系统 - Google Patents

一种哑语转换语音系统 Download PDF

Info

Publication number
CN104064187A
CN104064187A CN201410324724.1A CN201410324724A CN104064187A CN 104064187 A CN104064187 A CN 104064187A CN 201410324724 A CN201410324724 A CN 201410324724A CN 104064187 A CN104064187 A CN 104064187A
Authority
CN
China
Prior art keywords
data
sign language
voice
scan
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410324724.1A
Other languages
English (en)
Other versions
CN104064187B (zh
Inventor
张江杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liuyang Renjie Electronic Technology Co ltd
Renjie Semiconductor Co.,Ltd.
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201410324724.1A priority Critical patent/CN104064187B/zh
Publication of CN104064187A publication Critical patent/CN104064187A/zh
Application granted granted Critical
Publication of CN104064187B publication Critical patent/CN104064187B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Processing (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种哑语转换语音系统,包括3D扫描设备、数据储存处理系统、语音合成模块三部分,该哑语转换语音系统通过3D扫描设备扫描人体骨骼,得到一段时间内的骨骼动作的扫描数据;数据储存处理系统将扫描数据与数据库中预存的骨骼动作的存储数据进行对比,当扫描数据与存储数据吻合时,将数据库中预存的存储数据所对应的含义发送至语音合成模块生成语音并播放。该系统能够将哑语手势自动转换为语音输出,方便残疾人与正常人之间的交流;意思转换及表达准确率较高,速度较快,并具有语气模拟功能。

Description

一种哑语转换语音系统
技术领域
本发明涉及一种将哑语手势动作转换为语音输出的系统。
背景技术
哑语又叫手语:手语是由于聋人交际的需要而产生的,它已作为聋人的一种语言,逐渐为人们所接受。手语包括手指语和手势语。手指语是用手指的指式变化和动作代表字母,并按照拼音顺序依次拼出词语;在远古时代,全人类都处在简单的有声语言阶段,常常用手做各种姿势来表示意思,这样的手势大多数是指示性和形象性的动作,叫作自然手势,此后,随着社会的进步,特别是聋教育的产生与发展,开始创造出具有语言性质的手势,这种在有声语言和文字基础上产生的,与有声语言密切结合的手语,称之为人为手势。自然手势和人为手势结合成为手势语。
哑语虽然能够完成掌握哑语的交流者之间的交流需要,但是在交流双方只有一方掌握哑语的情况下,如残疾人和正常人之间进行交流时,哑语难以被正常人了解,还是存在交流障碍。
3D扫描最早出现的是接触式测量方法,代表是三维坐标测量机,虽然精度达到微米量级(0.5mm),但是由于体积巨大、造价高以及不能测量柔软的物体等缺点,使其应用领域受到限制。于是出现了非接触式测量方法,主要分两类。
一类是被动方式,就是不需要特定的光源,完全依靠物体所处的自然光条件进行扫描,常采用双目技术,但是精度低,只能扫描出有几何特征的物体,不能满足很多领域的要求。
另一类是主动方式,就是像物体投射特定的光,其中代表技术激光线式的扫描,精度比较高,但是由于每次只能投射一条光线,所以扫描速度慢。另外,由于激光会对生物体以及比较珍贵的物体造成伤害,所以不能应用于某些特定领域。
新兴的技术是结构光式的扫描,结构光也属于主动方式,通过投影或者光栅投射同时多条光线,就可以采取物体的一个表面,只需要几个面的信息就可以完成扫描,最大的特点是3D扫描仪扫描速度快,而且可编程实现。
还有一种是低频脉冲波(低频声波)式原理,主要应用于物位测量方面。基于二维数组波束形成器传送低频脉冲,3D物位扫描仪接收来自筒仓、仓室或其他容室内物料的回波。设备的数字信号处理器对接收到的信号进行取样和分析,通过估算回波到达的时间和方向,处理器形成一个物料表面的三维图,这个图像通过一种专有的计算方法对信息进行处理并生成3D图象,可以在远端屏幕上显示出来。
语音合成,又称文语转换(Text to Speech)技术,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是中文信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。我们所说的“让机器像人一样开口说话”与传统的声音回放设备有着本质的区别。传统的声音回放设备如磁带录音机,是通过预先录制声音然后回放来实现“让机器说话”的。这种方式无论是在内容、存储、传输或者方便性、及时性等方面都存在很大的限制。而通过计算机语音合成则可以在任何时候将任意文本转换成具有高自然度的语音,从而真正实现让机器“像人一样开口说话”。
文语转换系统实际上可以看作是一个人工智能系统。为了合成出高质量的语言,除了依赖于各种规则,包括语义学规则、词汇规则、语音学规则外,还必须对文字的内容有很好的理解,这也涉及到自然语言理解的问题。文语转换过程是先将文字序列转换成音韵序列,再由系统根据音韵序列生成语音波形。其中第一步涉及语言学处理,例如分词、字音转换等,以及一整套有效的韵律控制规则;第二步需要先进的语音合成技术,能按要求实时合成出高质量的语音流。因此一般说来,文语转换系统都需要一套复杂的文字序列到音素序列的转换程序,也就是说,文语转换系统不仅要应用数字信号处理技术,而且必须有大量的语言学知识的支持。
发明内容
本发明的目的在于提供一种哑语转换语音系统,能够将哑语手势自动转换为语音输出,方便残疾人与正常人之间的交流。为此本发明采用的技术方案是,一种哑语转换语音系统,其特征在于,包括3D扫描设备、数据储存处理系统、语音合成模块三部分,该哑语转换语音系统通过3D扫描设备扫描人体骨骼,得到一段时间内的骨骼动作的扫描数据;数据储存处理系统将扫描数据与数据库中预存的骨骼动作的存储数据进行对比,当扫描数据与存储数据吻合时,将数据库中预存的存储数据所对应的含义发送至语音合成模块生成语音并播放。
优选地,所述哑语转换语音系统对扫描数据和储存数据的完成相应骨骼动作的时间进行对比,根据时间差异调整合成语音的语速快慢和/或音量大小。比如:数据库中的存储数据中,完成一个骨骼动作的时间是2秒;当扫描数据中完成同一个骨骼动作的时间是1.8秒,则合成的语音的语速较为急促、音量较大;反之,则合成的语音的语速较为舒缓,音量较小。以实现对哑语者的语气的模拟。语速和音量可以同时调整,也可以分别单独调整。
优选地,根据使用者的实际骨骼动作的扫描数据,对所述数据库中预存的骨骼动作的储存数据进行录入更新。以提高识别速度和识别的准确性。
优选地,所述数据储存处理系统通过修改数据允许误差值(即灵敏度),提高扫描数据与存储数据对比的精准度。
本发明的有益效果在于,能够将哑语手势自动转换为语音输出,方便残疾人与正常人之间的交流;意思转换及表达准确率较高,识别率可以达到99%以上;意思转换及表达速度较快,使用现有普通合格处理器,即可达到感觉不到哑语和语音之间的延时的效果。该系统填补了市场空白,真正实现了聋哑人与正常人的无障碍交流,设备所用的技术都是经过多年投入市场经过检验的成熟技术,3D扫描可靠性极高,能够精准识别,每秒30帧的识别速度可快速分辨出0.03秒一个的动作,并有录入更新数据功能使设备能更加适合个体使用,首创根据动作速度合成相对应带有语气的合成语音,使设备更符合人体语音。能够应用到各种聋哑人需要用到语音表达的场合。
下面将结合附图和具体实施方式对本发明做进一步说明。
附图说明
附图为系统整体构成及流程示意框图。
具体实施方式
所述哑语转换语音系统包括3D扫描设备、数据储存处理系统、语音合成模块三部分,所述3D扫描设备采用微软成熟投入市场多年的KINECT设备,KINECT设备一共有三个镜头,其中中间的一个是RGB Camera,用来获取640x480的彩色图像,每秒钟最多获取30帧图像;两侧是两个景深(3D Depth)传感器,用来检测人体的相对位置,原理和人眼立体成像是一样的,这两个传感器使用的是红外线。Kinect两侧是麦克风,下边还有一个可移动底座,用来调整Kinect的仰角。所述数据的储存处理和语音的合成在单片机内完成,然后把识别出来的对应骨骼所指向的含义以及语气发送至语音合成模块进行合成语音,然后通过扬声器进行播放。
下面将通过一次标准的哑语转换语音的流程对本发明做出详细说明:该哑语转换语音系统通过3D扫描设备扫描人体骨骼,得到一段时间内的骨骼动作的扫描数据(见表1);
(表1)一段时间的右手掌的骨骼动作的扫描数据
时间 0秒 0.1秒 0.2秒 0.3秒 0.4秒 0.5秒 0.6秒 0.7秒 0.8秒
X轴坐标 100 105 110 114 120 126 129 135 140
Y轴坐标 100 99 101 100 100 99 100 101 99
Z轴坐标 100 101 100 98 100 101 100 99 100
数据库中预存的骨骼动作的存储数据(见表2)
(表2)数据库中对应的骨骼动作的储存数据
数据储存处理系统将扫描数据与数据库中预存的骨骼动作的存储数据进行对比;灵敏度为3(即扫描数据与数据库中存储的标准骨骼数据对比差值在3以内时,系统都判断为数据吻合),根据灵敏度及上述数据分析得到,一段时间内的右手掌骨骼动作的扫描数据与数据库中的骨骼动作储存数据吻合;吻合数据指向其含义为“你好”(而不是“吃饭”),扫描数据中该骨骼动作完成时间与数据库中完成动作时间一致,指向数据为“正常语气”(即语速和音量为标准值),把指令发送至语音合成模块,生成语音至微型扬声器播放。
由于使用者实际动作数据(表1)与标准动作数据(表2)有所差异,为了更好更准确使用该系统进行识别,所以采用录入使用者数据代替数据库中的标准动作数据形成新的标准动作数据(表3)。更新后的数据更利于使用者使用该系统。
(表3)数据库中“你好”更新录入覆盖后的标准动作数据
本发明描述的上述实现方式仅是为了清楚的说明本发明的技术方案,而不能理解为对本发明作出任何限制。本发明在本技术领域具有公知的多种替代或者变形,在不脱离本发明实质意义的前提下,均落入本发明的保护范围。

Claims (4)

1.一种哑语转换语音系统,其特征在于,包括3D扫描设备、数据储存处理系统、语音合成模块三部分,该哑语转换语音系统通过3D扫描设备扫描人体骨骼,得到一段时间内的骨骼动作的扫描数据;数据储存处理系统将扫描数据与数据库中预存的骨骼动作的存储数据进行对比,当扫描数据与存储数据吻合时,将数据库中预存的存储数据所对应的含义发送至语音合成模块生成语音并播放。
2.如权利要求1所述的一种哑语转换语音系统,其特征在于,所述哑语转换语音系统对扫描数据和储存数据的完成相应骨骼动作的时间进行对比,根据时间差异调整合成语音的语速和/或音量。
3.如权利要求1所述的一种哑语转换语音系统,其特征在于,根据使用者的实际骨骼动作的扫描数据,对所述数据库中预存的骨骼动作的储存数据进行录入更新。
4.如权利要求1所述的一种哑语转换语音系统,其特征在于,所述数据储存处理系统通过修改数据允许误差值,提高扫描数据与存储数据对比的精准度。
CN201410324724.1A 2014-07-09 2014-07-09 一种哑语转换语音系统 Active CN104064187B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410324724.1A CN104064187B (zh) 2014-07-09 2014-07-09 一种哑语转换语音系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410324724.1A CN104064187B (zh) 2014-07-09 2014-07-09 一种哑语转换语音系统

Publications (2)

Publication Number Publication Date
CN104064187A true CN104064187A (zh) 2014-09-24
CN104064187B CN104064187B (zh) 2017-12-08

Family

ID=51551866

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410324724.1A Active CN104064187B (zh) 2014-07-09 2014-07-09 一种哑语转换语音系统

Country Status (1)

Country Link
CN (1) CN104064187B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104538025A (zh) * 2014-12-23 2015-04-22 西北师范大学 手势到汉藏双语语音转换方法及装置
CN105488524A (zh) * 2015-11-26 2016-04-13 中山大学 一种基于可穿戴设备的唇语识别方法及系统
CN107492287A (zh) * 2017-10-16 2017-12-19 重庆师范大学 哑巴说话仪
CN109670073A (zh) * 2018-12-20 2019-04-23 科大讯飞股份有限公司 一种信息转换方法及装置、交互辅助系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001059741A1 (en) * 2000-02-10 2001-08-16 Koninklijke Philips Electronics N.V. Sign language to speech converting method and apparatus
CN101527092A (zh) * 2009-04-08 2009-09-09 西安理工大学 特定会话场景下的计算机辅助手语交流方法
CN101539994A (zh) * 2009-04-16 2009-09-23 西安交通大学 一种手语语音互译系统及手语语音互译方法
CN102956132A (zh) * 2011-08-25 2013-03-06 鸿富锦精密工业(深圳)有限公司 手语翻译系统、手语翻译装置及手语翻译方法
CN103150022A (zh) * 2013-03-25 2013-06-12 深圳泰山在线科技有限公司 手势识别方法及装置
CN103246891A (zh) * 2013-05-28 2013-08-14 重庆邮电大学 一种基于Kinect的中国手语识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001059741A1 (en) * 2000-02-10 2001-08-16 Koninklijke Philips Electronics N.V. Sign language to speech converting method and apparatus
CN101527092A (zh) * 2009-04-08 2009-09-09 西安理工大学 特定会话场景下的计算机辅助手语交流方法
CN101539994A (zh) * 2009-04-16 2009-09-23 西安交通大学 一种手语语音互译系统及手语语音互译方法
CN102956132A (zh) * 2011-08-25 2013-03-06 鸿富锦精密工业(深圳)有限公司 手语翻译系统、手语翻译装置及手语翻译方法
CN103150022A (zh) * 2013-03-25 2013-06-12 深圳泰山在线科技有限公司 手势识别方法及装置
CN103246891A (zh) * 2013-05-28 2013-08-14 重庆邮电大学 一种基于Kinect的中国手语识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
付倩等: "面向手语自动翻译的基于Kinect的手势识别", 《北京师范大学学报(自然科学版)》 *
杨勇等: "基于Kinect的中国手语识别", 《重庆邮电大学学报(自然科学版)》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104538025A (zh) * 2014-12-23 2015-04-22 西北师范大学 手势到汉藏双语语音转换方法及装置
CN105488524A (zh) * 2015-11-26 2016-04-13 中山大学 一种基于可穿戴设备的唇语识别方法及系统
CN105488524B (zh) * 2015-11-26 2018-12-21 中山大学 一种基于可穿戴设备的唇语识别方法及系统
CN107492287A (zh) * 2017-10-16 2017-12-19 重庆师范大学 哑巴说话仪
CN109670073A (zh) * 2018-12-20 2019-04-23 科大讯飞股份有限公司 一种信息转换方法及装置、交互辅助系统

Also Published As

Publication number Publication date
CN104064187B (zh) 2017-12-08

Similar Documents

Publication Publication Date Title
CN110531860B (zh) 一种基于人工智能的动画形象驱动方法和装置
Beskow et al. Visual correlates to prominence in several expressive modes.
US20200335128A1 (en) Identifying input for speech recognition engine
CN106575500B (zh) 基于面部结构合成话音的方法和装置
CN112908355B (zh) 一种师范生教学技能量化评价系统及其方法
Arsan et al. Sign language converter
CN104064187A (zh) 一种哑语转换语音系统
Karpov et al. A universal assistive technology with multimodal input and multimedia output interfaces
CN1969781A (zh) 导盲器
CN111009028A (zh) 虚拟脸部模型的表情拟真系统及方法
US20230386461A1 (en) Voice user interface using non-linguistic input
Kochetov Research methods in articulatory phonetics I: Introduction and studying oral gestures
Kryvonos et al. Methods to create systems for the analysis and synthesis of communicative information
House Intonational and visual cues in the perception of interrogative mode in Swedish.
Yu et al. Data-driven 3D visual pronunciation of Chinese IPA for language learning
Liu et al. An interactive speech training system with virtual reality articulation for Mandarin-speaking hearing impaired children
Alfonse et al. Arabic sign language benchmark database for different heterogeneous sensors
Zhao et al. Realizing speech to gesture conversion by keyword spotting
JP6997733B2 (ja) 情報処理装置、情報処理方法、及びプログラム
CN114428879A (zh) 一种基于多场景互动的多模态英语教学系统
Jeon et al. Noise-robust multimodal audio-visual speech recognition system for speech-based interaction applications
Jenkins et al. An innovative method for automatic American sign language interpretation using machine learning and leap motion controller
WO2020102943A1 (zh) 手势识别模型的生成方法、装置、存储介质及电子设备
Lee et al. Towards Designing a Context-Aware Multimodal Voice Assistant for Pronoun Disambiguation: A Demonstration of GazePointAR
Maskeliunas et al. ROBOSOFA-Low cost multimodal I/O fusion for smart furniture.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent of invention or patent application
CB02 Change of applicant information

Address after: 410300, No. 170, fireworks Road, Liuyang, Hunan, Changsha

Applicant after: Zhang Jiangjie

Address before: 410327 Hunan province Changsha city Liuyang Long Fu Zhen zhe Zhuang Cun zhe Zhuang new Zhang group No. 295

Applicant before: Zhang Jiangjie

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20190812

Address after: 410300 No. 170 Fireworks Middle Road, Jili Street Office, Liuyang City, Changsha City, Hunan Province

Patentee after: LIUYANG RENJIE ELECTRONIC TECHNOLOGY Co.,Ltd.

Address before: 410300, No. 170, fireworks Road, Liuyang, Hunan, Changsha

Patentee before: Zhang Jiangjie

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221222

Address after: No. 170, middle fireworks Road, Jili sub district office, Liuyang City, Changsha City, Hunan Province, 410300

Patentee after: LIUYANG RENJIE ELECTRONIC TECHNOLOGY Co.,Ltd.

Patentee after: Renjie Semiconductor Co.,Ltd.

Address before: No. 170, middle fireworks Road, Jili sub district office, Liuyang City, Changsha City, Hunan Province, 410300

Patentee before: LIUYANG RENJIE ELECTRONIC TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right