CN113158736A - 一种基于深度学习的手势识别辅助交流系统 - Google Patents
一种基于深度学习的手势识别辅助交流系统 Download PDFInfo
- Publication number
- CN113158736A CN113158736A CN202110079374.7A CN202110079374A CN113158736A CN 113158736 A CN113158736 A CN 113158736A CN 202110079374 A CN202110079374 A CN 202110079374A CN 113158736 A CN113158736 A CN 113158736A
- Authority
- CN
- China
- Prior art keywords
- communication
- data
- gesture
- video
- communication information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004891 communication Methods 0.000 title claims abstract description 112
- 238000013135 deep learning Methods 0.000 title claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 13
- 210000000707 wrist Anatomy 0.000 claims abstract description 12
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 8
- 230000015572 biosynthetic process Effects 0.000 claims description 6
- 238000003786 synthesis reaction Methods 0.000 claims description 6
- 238000000034 method Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 2
- 206010011878 Deafness Diseases 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Electrically Operated Instructional Devices (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及交流系统领域,具体涉及一种基于深度学习的手势识别辅助交流系统,包括:胸针,内载单目视觉传感器,用于实现手势交流动作视频和交流对象语音视频数据的采集,并将采集到的手势交流动作视频和交流对象语音视频数据传输至腕带;腕带,内载智能处理终端,用于实现手势交流动作视频内载交流信息的识别,并将识别的交流信息转换成音频数据经语音播放模块进行播放;还用于实现交流对象音频视频数据内载交流信息的识别,并将识别到的交流信息转换成手语数据经视频播放模块进行播放。
Description
技术领域
本发明涉及交流系统领域,具体涉及一种基于深度学习的手势识别辅助交 流系统。
背景技术
手语是聋哑残疾人使用的语言,是一种靠动作和视觉进行交际的特殊语言。 然而让大多数正常人掌握并运用手语直接与聋哑残疾人进行交流显然是不现 实的。目前聋哑人与正常人之间的沟通仅仅限于以懂手语的正常人做翻译等手 段,在很大程度上限制了不懂手语的正常人对聋哑残疾人的理解,给聋哑残疾 人的日常生活、学习和工作带来极大的不便。
发明内容
为解决上述问题,本发明提供了一种基于深度学习的手势识别辅助交流系 统,可以实现聋哑残疾人与正常人的交流。
为实现上述目的,本发明采取的技术方案为:
一种基于深度学习的手势识别辅助交流系统,包括:
胸针,内载单目视觉传感器,用于实现手势交流动作视频和交流对象语音 视频数据的采集,并将采集到的手势交流动作视频和交流对象语音视频数据传 输至腕带;
腕带,内载智能处理终端,用于实现手势交流动作视频内载交流信息的识 别,并将识别的交流信息转换成音频数据经语音播放模块进行播放;还用于实 现交流对象音频视频数据内载交流信息的识别,并将识别到的交流信息转换成 手语数据经视频播放模块进行播放。
进一步地,所述胸针呈纽扣状,其上配置一用于控制单目视觉传感器启闭 的按钮和一用于为胸针内载的蓄电池充电的充电口。
进一步地,所述智能处理终端内载一数据处理系统,包括:
手势交流信息识别模块,用于基于DSSD_Xception_coco模型实现手势 交流动作视频内载交流信息的识别,并将识别的交流信息转换成音频数据;
音频交流信息识别模块,用于基于Xception模型实现交流对象音频视频 数据内载交流信息的识别,并将识别到的交流信息转换成手语数据。
进一步地,所述DSSD_Xception_coco模型采用DSSD目标检测算法,用 coco数据集预训练Xception深度神经网络,然后用先前准备好的手语图像及 其对应的音频数据集训练该模型,微调深度神经网络中的各项参数,最后得到 合适的用于识别手势交流动作视频内载交流信息的目标检测模型。
进一步地,所述腕带上安装有一触控屏,用于输入文字信息,TMS320DM6446 处理器接收到数字信号后经过处理将信号传输给中文语音合成芯片,中文语音 合成芯片将数字转化成语音信号,再经语音播放模块进行播放。
进一步地,所述数据处理系统内载:
数据分类模块,用于基于无限深度网络模型实现手势交流动作视频和交流 对象语音视频数据的分类。
进一步地,所述胸针和腕带基于蓝牙模块实现通讯。
进一步地,所述胸针支持手机蓝牙连接功能,对应的配置一手机APP系统, 手机APP系统内载:
数据分类模块,用于基于无限深度网络模型实现手势交流动作视频和交流 对象语音视频数据的分类;
手势交流信息识别模块,用于基于DSSD_Xception_coco模型实现手势 交流动作视频内载交流信息的识别,并将识别的交流信息转换成音频数据进行 播放;
音频交流信息识别模块,用于基于Xception模型实现交流对象音频视频 数据内载交流信息的识别,并将识别到的交流信息转换成手语数据进行播放。
本发明具有以下有益效果:
能进行手语和声音文字的双向转换,转换效率和识别程度高;使得正常 人和聋哑人之间可以通过本设备进行高效无障碍的交流;特别是针对不识字 的聋哑人仍然有效。
附图说明
图1为实施例一种基于深度学习的手势识别辅助交流系统的结构图。
图2为本发明一种基于深度学习的手势识别辅助交流系统的系统框图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域 的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是, 对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若 干变形和改进。这些都属于本发明的保护范围。
如图1所示,本发明实施例的一种基于深度学习的手势识别辅助交流系统, 包括:
胸针,内载单目视觉传感器,用于实现手势交流动作视频和交流对象语音 视频数据的采集,并将采集到的手势交流动作视频和交流对象语音视频数据传 输至腕带;
腕带,内载智能处理终端,用于实现手势交流动作视频内载交流信息的识 别,并将识别的交流信息转换成音频数据经语音播放模块进行播放;还用于实 现交流对象音频视频数据内载交流信息的识别,并将识别到的交流信息转换成 手语数据经视频播放模块进行播放。
本实施例中,所述胸针呈纽扣状,其上配置一用于控制单目视觉传感器启 闭的按钮和一用于为胸针内载的蓄电池充电的充电口。
本实施例中,所述智能处理终端内载一数据处理系统,包括:
手势交流信息识别模块,用于基于DSSD_Xception_coco模型实现手势 交流动作视频内载交流信息的识别,并将识别的交流信息转换成音频数据;
音频交流信息识别模块,用于基于Xception模型实现交流对象音频视频 数据内载交流信息的识别,并将识别到的交流信息转换成手语数据。
本实施例中,所述DSSD_Xception_coco模型采用DSSD目标检测算法, 用coco数据集预训练Xception深度神经网络,然后用先前准备好的手语图像 及其对应的音频数据集训练该模型,微调深度神经网络中的各项参数,最后得 到合适的用于识别手势交流动作视频内载交流信息的目标检测模型。
本实施例中,所述腕带上安装有一触控屏,用于输入文字信息, TMS320DM6446处理器接收到数字信号后经过处理将信号传输给中文语音合成 芯片,中文语音合成芯片将数字转化成语音信号,再经语音播放模块进行播放。
本实施例中,所述数据处理系统内载:
数据分类模块,用于基于无限深度网络模型实现手势交流动作视频和交流 对象语音视频数据的分类。
本实施例中,所述胸针和腕带基于蓝牙模块实现通讯。
实施例2
如图2所示,本发明实施例的一种基于深度学习的手势识别辅助交流系统, 包括:
胸针,内载单目视觉传感器,用于实现手势交流动作视频和交流对象语音 视频数据的采集,并将采集到的手势交流动作视频和交流对象语音视频数据传 输至腕带;
手机APP系统,用于实现手势交流动作视频内载交流信息的识别,并将识 别的交流信息转换成音频数据进行播放;还用于实现交流对象音频视频数据内 载交流信息的识别,并将识别到的交流信息转换成手语数据进行播放;
本实施例中,所述手机APP系统内载:
数据分类模块,用于基于无限深度网络模型实现手势交流动作视频和交流 对象语音视频数据的分类;
手势交流信息识别模块,用于基于DSSD_Xception_coco模型实现手势 交流动作视频内载交流信息的识别,并将识别的交流信息转换成音频数据进行 播放;
音频交流信息识别模块,用于基于Xception模型实现交流对象音频视频 数据内载交流信息的识别,并将识别到的交流信息转换成手语数据进行播放;
文本转换模块,用于基于预设的模型将录入的文本数据转换成音频数据进 行播放。
本实施例中,所述胸针呈纽扣状,其上配置一用于控制单目视觉传感器启 闭的按钮和一用于为胸针内载的蓄电池充电的充电口。
本实施例中,所述DSSD_Xception_coco模型采用DSSD目标检测算法, 用coco数据集预训练Xception深度神经网络,然后用先前准备好的手语图像 及其对应的音频数据集训练该模型,微调深度神经网络中的各项参数,最后得 到合适的用于识别手势交流动作视频内载交流信息的目标检测模型。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限 于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化 或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例 和实施例中的特征可以任意相互组合。
Claims (8)
1.一种基于深度学习的手势识别辅助交流系统,其特征在于:包括:
胸针,内载单目视觉传感器,用于实现手势交流动作视频和交流对象语音视频数据的采集,并将采集到的手势交流动作视频和交流对象语音视频数据传输至腕带;
腕带,内载智能处理终端,用于实现手势交流动作视频内载交流信息的识别,并将识别的交流信息转换成音频数据经语音播放模块进行播放;还用于实现交流对象音频视频数据内载交流信息的识别,并将识别到的交流信息转换成手语数据经视频播放模块进行播放。
2.如权利要求1所述的一种基于深度学习的手势识别辅助交流系统,其特征在于:所述胸针呈纽扣状,其上配置一用于控制单目视觉传感器启闭的按钮和一用于为胸针内载的蓄电池充电的充电口。
3.如权利要求1所述的一种基于深度学习的手势识别辅助交流系统,其特征在于:所述智能处理终端内载一数据处理系统,包括:
手势交流信息识别模块,用于基于DSSD_Xception_coco模型实现手势交流动作视频内载交流信息的识别,并将识别的交流信息转换成音频数据;
音频交流信息识别模块,用于基于Xception模型实现交流对象音频视频数据内载交流信息的识别,并将识别到的交流信息转换成手语数据。
4.如权利要求3所述的一种基于深度学习的手势识别辅助交流系统,其特征在于:所述DSSD_Xception_coco模型采用DSSD目标检测算法,用coco数据集预训练Xception深度神经网络,然后用先前准备好的手语图像及其对应的音频数据集训练该模型,微调深度神经网络中的各项参数,最后得到合适的用于识别手势交流动作视频内载交流信息的目标检测模型。
5.如权利要求3所述的一种基于深度学习的手势识别辅助交流系统,其特征在于:所述腕带上安装有一触控屏,用于输入文字信息,TMS320DM6446处理器接收到数字信号后经过处理将信号传输给中文语音合成芯片,中文语音合成芯片将数字转化成语音信号,再经语音播放模块进行播放。
6.如权利要求1所述的一种基于深度学习的手势识别辅助交流系统,其特征在于:所述数据处理系统内载:
数据分类模块,用于基于无限深度网络模型实现手势交流动作视频和交流对象语音视频数据的分类。
7.如权利要求1所述的一种基于深度学习的手势识别辅助交流系统,其特征在于:所述胸针和腕带基于蓝牙模块实现通讯。
8.如权利要求1所述的一种基于深度学习的手势识别辅助交流系统,其特征在于:所述胸针支持手机蓝牙连接功能,对应的配置一手机APP系统,手机APP系统内载:
数据分类模块,用于基于无限深度网络模型实现手势交流动作视频和交流对象语音视频数据的分类;
手势交流信息识别模块,用于基于DSSD_Xception_coco模型实现手势交流动作视频内载交流信息的识别,并将识别的交流信息转换成音频数据进行播放;
音频交流信息识别模块,用于基于Xception模型实现交流对象音频视频数据内载交流信息的识别,并将识别到的交流信息转换成手语数据进行播放。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110079374.7A CN113158736A (zh) | 2021-01-21 | 2021-01-21 | 一种基于深度学习的手势识别辅助交流系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110079374.7A CN113158736A (zh) | 2021-01-21 | 2021-01-21 | 一种基于深度学习的手势识别辅助交流系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113158736A true CN113158736A (zh) | 2021-07-23 |
Family
ID=76878669
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110079374.7A Pending CN113158736A (zh) | 2021-01-21 | 2021-01-21 | 一种基于深度学习的手势识别辅助交流系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113158736A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN203070312U (zh) * | 2012-12-13 | 2013-07-17 | 合肥寰景信息技术有限公司 | 一种基于动作识别及语音合成技术的手语翻译系统 |
CN104980599A (zh) * | 2015-06-17 | 2015-10-14 | 上海斐讯数据通信技术有限公司 | 一种手语语音通话方法及系统 |
CN106570473A (zh) * | 2016-11-03 | 2017-04-19 | 深圳量旌科技有限公司 | 基于机器人的聋哑人手语识别交互系统 |
CN207624216U (zh) * | 2017-08-17 | 2018-07-17 | 山东师范大学 | 一种语音和手语双向互译系统 |
CN110070065A (zh) * | 2019-04-30 | 2019-07-30 | 李冠津 | 基于视觉以及语音智能的手语系统以及通讯方法 |
CN111354246A (zh) * | 2020-01-16 | 2020-06-30 | 浙江工业大学 | 一种用于帮助聋哑人交流的系统及方法 |
CN111414896A (zh) * | 2020-04-10 | 2020-07-14 | 吉林农业大学 | 一种基于卷积神经网络农作物病害图像识别方法 |
-
2021
- 2021-01-21 CN CN202110079374.7A patent/CN113158736A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN203070312U (zh) * | 2012-12-13 | 2013-07-17 | 合肥寰景信息技术有限公司 | 一种基于动作识别及语音合成技术的手语翻译系统 |
CN104980599A (zh) * | 2015-06-17 | 2015-10-14 | 上海斐讯数据通信技术有限公司 | 一种手语语音通话方法及系统 |
CN106570473A (zh) * | 2016-11-03 | 2017-04-19 | 深圳量旌科技有限公司 | 基于机器人的聋哑人手语识别交互系统 |
CN207624216U (zh) * | 2017-08-17 | 2018-07-17 | 山东师范大学 | 一种语音和手语双向互译系统 |
CN110070065A (zh) * | 2019-04-30 | 2019-07-30 | 李冠津 | 基于视觉以及语音智能的手语系统以及通讯方法 |
CN111354246A (zh) * | 2020-01-16 | 2020-06-30 | 浙江工业大学 | 一种用于帮助聋哑人交流的系统及方法 |
CN111414896A (zh) * | 2020-04-10 | 2020-07-14 | 吉林农业大学 | 一种基于卷积神经网络农作物病害图像识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108735209B (zh) | 唤醒词绑定方法、智能设备及存储介质 | |
KR20190022109A (ko) | 음성 인식 서비스를 활성화하는 방법 및 이를 구현한 전자 장치 | |
WO2016150001A1 (zh) | 语音识别的方法、装置及计算机存储介质 | |
CN110070863A (zh) | 一种语音控制方法及装置 | |
CN105957514A (zh) | 一种便携式聋哑人交流设备 | |
EP1416427A3 (en) | Person recognising apparatus, person recognising method & passage controller | |
CN108510988A (zh) | 一种用于聋哑人的语言识别系统及方法 | |
US20170024380A1 (en) | System and method for the translation of sign languages into synthetic voices | |
WO2022042274A1 (zh) | 一种语音交互方法及电子设备 | |
Dhanjal et al. | Tools and techniques of assistive technology for hearing impaired people | |
CN111985335A (zh) | 一种基于面部生理信息的唇语识别方法及装置 | |
CN101494816A (zh) | 一种适用于全聋患者的助听装置与方法 | |
KR20150135688A (ko) | 시청 데이터를 이용한 기억 보조 방법 | |
WO2022227507A1 (zh) | 唤醒程度识别模型训练方法及语音唤醒程度获取方法 | |
EP4156177A1 (en) | Voice wake-up method, electronic device, wearable device, and system | |
CN110146988A (zh) | 一种头戴式增强现实眼镜系统及其实现方法 | |
CN113158736A (zh) | 一种基于深度学习的手势识别辅助交流系统 | |
CN209571226U (zh) | 一种语音识别装置及系统 | |
CN209625783U (zh) | 智能音箱以及智能家居系统 | |
CN208362737U (zh) | 一种带声音控制系统的电动晾衣架 | |
KR20200094570A (ko) | 수화용 장갑과 언어 변환용 안경으로 이루어진 수화 통역 시스템 | |
CN107180629B (zh) | 一种语音采集识别方法与系统 | |
Freitas et al. | Multimodal silent speech interface based on video, depth, surface electromyography and ultrasonic doppler: Data collection and first recognition results | |
CN211699711U (zh) | 一种ai智能机器人自然语言处理系统 | |
CN209543926U (zh) | 一种语音控制户外照明的灯具装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |