CN118072397A - 一种移动设备上的实时手语翻译系统 - Google Patents

一种移动设备上的实时手语翻译系统 Download PDF

Info

Publication number
CN118072397A
CN118072397A CN202410310394.4A CN202410310394A CN118072397A CN 118072397 A CN118072397 A CN 118072397A CN 202410310394 A CN202410310394 A CN 202410310394A CN 118072397 A CN118072397 A CN 118072397A
Authority
CN
China
Prior art keywords
sign language
gesture
real
translation
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410310394.4A
Other languages
English (en)
Inventor
唐树江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202410310394.4A priority Critical patent/CN118072397A/zh
Publication of CN118072397A publication Critical patent/CN118072397A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明属于机器学习技术领域,提供了一种移动设备上的实时手语翻译系统,包括:采集模块,通过在移动设备内设置的摄像头捕捉用户手语动作,实时获取视频输入;姿态识别模块,采用轻量级深度学习模型进行实时手语姿态分析和识别;手语翻译模块,建立包含广泛手语词汇的数据库,支持多种手语和目标语言的翻译,使手语转换成文本以及文本转换成语音,输出文本和语音两种结果;交互界面模块,用于提供用户操作界面,包括手语识别启动、停止按钮,实时视频预览,翻译结果展示,支持用户自定义设置,选择目标语言、调整识别灵敏度;本发明通过采用轻量级深度学习模型,减少对计算资源的需求,使得手语识别系统能够流畅地在移动设备上运行。

Description

一种移动设备上的实时手语翻译系统
技术领域
本发明属于机器学习技术领域,具体地说是一种移动设备上的实时手语翻译系统。
背景技术
目前,手语翻译技术主要依赖于两类方式:基于传感器的手语识别和基于视觉(图像处理与计算机视觉)的手语识别;
基于传感器的手语识别:一般需要用户佩戴特定的传感器设备,如手套配备运动或压力传感器,通过捕捉手势动作的物理特性来识别手语。这种方式能够相对准确地识别手势,但存在显著的局限性,主要在于佩戴传感器的不便捷性和设备成本较高;
基于视觉的手语识别:利用摄像头捕捉手势图像,再通过图像处理和计算机视觉技术分析手势。近年来,随着深度学习技术的发展,基于视觉的手语识别取得了显著进步。尽管如此,现有技术在处理高解析度视频数据时往往需要较高的计算能力,这在移动设备上尤为突出。此外,对于复杂背景或低光照环境,识别准确率也会明显下降;
然而,对于基于深度学习的视觉手语识别,尽管准确率较高,但其通常需要显著的计算资源,这对移动设备来说是一个挑战,需要高昂的资源消耗;现有技术往往在背景复杂或光线不足的环境中表现不佳,限制了实际应用的场景,受到识别环境的限制;基于传感器的方案需要用户佩戴特定设备,这不利于日常使用和普及,便捷性不足;许多现有系统在实时反馈手语识别结果方面存在延迟,影响用户体验,实时性差。为此,提出了一种移动设备上的实时手语翻译系统。
发明内容
为了解决上述技术问题,本发明提供一种移动设备上的实时手语翻译系统,以解决背景技术中所提出的问题。
一种移动设备上的实时手语翻译系统,包括:
采集模块,通过在移动设备内设置的摄像头捕捉用户手语动作,实时获取视频输入;
姿态识别模块,采用轻量级深度学习模型进行实时手语姿态分析和识别;
手语翻译模块,建立包含广泛手语词汇的数据库,支持多种手语和目标语言的翻译,使手语转换成文本以及文本转换成语音,输出文本和语音两种结果;
交互界面模块,用于提供用户操作界面,包括手语识别启动、停止按钮,实时视频预览,翻译结果展示,支持用户自定义设置,选择目标语言、调整识别灵敏度。
优选的,所述姿态识别模块通过创建包含不同手语姿态的图像数据集,标注每个手语姿态的类别,并对数据集进行预处理,将预处理后的数据集对Mob i l eNet轻量级深度学习模型进行训练,学习手语姿态的特征,在训练过程中进行交叉验证和调参,将训练好的模型部署到移动设备上,通过采集模块捕捉用户手语动作,同时采用长短期记忆网络处理手语的时间序列数据,将图像输入模型进行推断,实时识别手语姿态。
优选的,所述轻量级深度学习模型训练过程具体包括:
S101、收集包含手语姿态的图像数据集,将数据集划分为训练集和验证集,采用80%的数据作为训练集,20%的数据作为验证集;
S102、对训练集进行数据增强,包括随机裁剪、旋转、翻转和缩放操作;
S103、使用训练集对Mobi l eNet模型进行训练,通过反向传播算法调整模型参数,并监控模型在验证集上的表现,根据验证集的性能调整模型超参数。
优选的,所述手语翻译模块具体实施过程是:
S201、通过使用训练好的轻量级深度学习模型对实时捕获的视频流进行手语姿态检测,即识别和跟踪手部和手指的位置和动作;
S202、基于检测到的手语姿态利用深度学习模型对手语动作进行识别,使用循环神经网络对手语动作特征进行学习和表示,捕捉手语动作的语义信息;
S203、构建手语词汇表,包括常见的手语动作或手势,每个手势对应唯一的标识符;
S204、构建Sep2Sep模型,基于编码器-解码器结构,用于将提取到的手语姿态序列映射到对应的手语词汇序列;
S205、引入注意力机制,使模型在翻译过程中关注手语姿态序列中重要部分;
S206、在解码器端设置生成模块,用于根据编码器的输出和注意力机制的信息生成对应手语翻译结果的文字描述。
优选的,所述手语翻译模块上当手语转换成文本后,进行文本转换成语音操作,具体步骤为:S301、对翻译的文本进行分词和词性标注处理;
S302、采用TTS模型,将文本转换为语音信号;
S303、使用声学模型捕捉语音的声音特征,使用TTS引擎将处理后的文本转换成语音。
优选的,所述手语翻译模块通过建立手语翻译数据库,包含手语姿态与对应翻译的映射关系,当姿态识别模块输出识别结果后,将其与手语翻译数据库中的数据进行匹配,找到对应的翻译结果,使用自然语言处理技术对手语识别结果进行翻译成目标语言文本。
与现有技术相比,本发明具有如下有益效果:
1、本发明通过采用轻量级深度学习模型,减少对计算资源的需求,使得手语识别系统能够流畅地在移动设备上运行,降低了资源消耗。
2、本发明通过利用现有的移动设备进行手语翻译,无需额外的硬件设备,大大提高了便携性,同时设计简洁直观的用户界面使得即使是手语新手或技术新手也能轻松上手,增强了系统的易用性。
3、本发明通过提供有效的沟通桥梁,帮助听力障碍人士更容易地与他人进行交流,促进了听障人士与社会的更好融合,有助于推动手语的普及和公众对听障文化的认识。
附图说明
图1为本发明的整体系统模块框图;
图2为本发明的轻量级深度学习模型训练过程步骤图;
图3为本发明的手语翻译模块实施过程步骤图;
图4为本发明的文本转换成语音过程步骤图。
具体实施方式
下面结合附图和实施例对本发明的实施方式作进一步详细描述。以下实施例用于说明本发明,但不能用来限制本发明的范围。
如附图1至附图4所示:
实施例一:本发明提供一种移动设备上的实时手语翻译系统,包括:
采集模块,通过在移动设备内设置的摄像头捕捉用户手语动作,实时获取视频输入;
姿态识别模块,采用轻量级深度学习模型进行实时手语姿态分析和识别;
手语翻译模块,建立包含广泛手语词汇的数据库,支持多种手语和目标语言的翻译,使手语转换成文本以及文本转换成语音,输出文本和语音两种结果;
交互界面模块,用于提供用户操作界面,包括手语识别启动、停止按钮,实时视频预览,翻译结果展示,支持用户自定义设置,选择目标语言、调整识别灵敏度。
该高效、便携、用户友好的手语翻译系统及其交互方法,主要面向移动设备用户,特别是听力障碍人士,以提高他们在日常生活中的沟通便利性和社交参与度,为其提供便捷的沟通方式,使其能够更好地融入社会。
姿态识别模块通过创建包含不同手语姿态的图像数据集,标注每个手语姿态的类别,并对数据集进行预处理,预处理包括裁剪、大小调整和数据增强,以增加模型的泛化能力,将预处理后的数据集对Mobi l eNet轻量级深度学习模型进行训练,学习手语姿态的特征,在训练过程中进行交叉验证和调参,用于优化模型性能,将训练好的模型部署到移动设备上,通过采集模块捕捉用户手语动作,同时采用长短期记忆网络处理手语的时间序列数据,将图像输入模型进行推断,实时识别手语姿态。
轻量级深度学习模型训练过程具体包括:
S101、收集包含手语姿态的图像数据集,确保数据集的质量和多样性,将数据集划分为训练集和验证集,采用80%的数据作为训练集,20%的数据作为验证集;
S102、对训练集进行数据增强,包括随机裁剪、旋转、翻转和缩放操作;以扩大数据集规模和增加模型的泛化能力;
S103、使用训练集对Mobi l eNet模型进行训练,通过反向传播算法调整模型参数以最小化损失函数,并监控模型在验证集上的表现,避免过拟合,根据验证集的性能调整模型超参数。
实施例二:手语翻译模块具体实施过程是:
S201、通过使用训练好的轻量级深度学习模型对实时捕获的视频流进行手语姿态检测,即识别和跟踪手部和手指的位置和动作;
S202、基于检测到的手语姿态利用深度学习模型对手语动作进行识别,使用循环神经网络对手语动作特征进行学习和表示,捕捉手语动作的语义信息;
S203、构建手语词汇表,包括常见的手语动作或手势,每个手势对应唯一的标识符;
S204、构建Sep2Sep模型,基于编码器-解码器结构,用于将提取到的手语姿态序列映射到对应的手语词汇序列;
S205、引入注意力机制,使模型在翻译过程中关注手语姿态序列中重要部分,提高翻译的准确性和流畅性;
S206、在解码器端设置生成模块,用于根据编码器的输出和注意力机制的信息生成对应手语翻译结果的文字描述。
手语翻译模块上当手语转换成文本后,进行文本转换成语音操作,具体步骤为:S301、对翻译的文本进行分词和词性标注处理;
S302、采用TTS模型,将文本转换为语音信号;
S303、使用声学模型捕捉语音的声音特征,使用TTS引擎将处理后的文本转换成语音。
通过将手语翻译结果转换成文本,再利用TTS技术将文本转换成语音,可以实现从手语翻译到语音输出的完整流程。
实施例三:本实施例与上一个实施例基本相同,区别在于,手语翻译模块通过建立手语翻译数据库,包含手语姿态与对应翻译的映射关系,当姿态识别模块输出识别结果后,将其与手语翻译数据库中的数据进行匹配,找到对应的翻译结果,使用自然语言处理技术对手语识别结果进行翻译成目标语言文本。
由上可知:通过采用优化的轻量级深度学习模型,本公开在减少移动设备计算负载的同时保证了手语识别的高准确性和速度,使得手语翻译过程更加流畅,减少了用户等待时间,提升了用户体验,可采用先进的图像预处理技术和深度学习模型的优化设计,提高系统在不同环境条件下(如不同光照、复杂背景)的手语识别准确度,进一步扩展系统的适用场景;利用现有的移动设备进行手语翻译,无需额外的硬件设备,大大提高了便携性;本公开还容易添加更多手语词汇、表达和支持更多目标语言的翻译,增加系统的实用价值,为不同文化和语言背景的用户提供更多的方便。
此外,为了提供示例性实施方案的简练描述,可以不描述实际实施方案的所有特征(即,与当前考虑的执行本发明的最佳模式不相关的那些特征,或与实现本发明不相关的那些特征)。
应理解的是,在任何实际实施方式的开发过程中,如在任何工程或设计项目中,可做出大量的具体实施方式决定。这样的开发努力可能是复杂的且耗时的,但对于那些得益于此公开内容的普通技术人员来说,不需要过多实验,所述开发努力将是一个设计、制造和生产的常规工作。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (6)

1.一种移动设备上的实时手语翻译系统,其特征在于,包括:
采集模块,通过在移动设备内设置的摄像头捕捉用户手语动作,实时获取视频输入;
姿态识别模块,采用轻量级深度学习模型进行实时手语姿态分析和识别;
手语翻译模块,建立包含广泛手语词汇的数据库,支持多种手语和目标语言的翻译,使手语转换成文本以及文本转换成语音,输出文本和语音两种结果;
交互界面模块,用于提供用户操作界面,包括手语识别启动、停止按钮,实时视频预览,翻译结果展示,支持用户自定义设置,选择目标语言、调整识别灵敏度。
2.如权利要求1所述一种移动设备上的实时手语翻译系统,其特征在于:所述姿态识别模块通过创建包含不同手语姿态的图像数据集,标注每个手语姿态的类别,并对数据集进行预处理,将预处理后的数据集对MobileNet轻量级深度学习模型进行训练,学习手语姿态的特征,在训练过程中进行交叉验证和调参,将训练好的模型部署到移动设备上,通过采集模块捕捉用户手语动作,同时采用长短期记忆网络处理手语的时间序列数据,将图像输入模型进行推断,实时识别手语姿态。
3.如权利要求2所述一种移动设备上的实时手语翻译系统,其特征在于:所述轻量级深度学习模型训练过程具体包括:
S101、收集包含手语姿态的图像数据集,将数据集划分为训练集和验证集,采用80%的数据作为训练集,20%的数据作为验证集;
S102、对训练集进行数据增强,包括随机裁剪、旋转、翻转和缩放操作;
S103、使用训练集对Mobi leNet模型进行训练,通过反向传播算法调整模型参数,并监控模型在验证集上的表现,根据验证集的性能调整模型超参数。
4.如权利要求1所述一种移动设备上的实时手语翻译系统,其特征在于:所述手语翻译模块具体实施过程是:
S201、通过使用训练好的轻量级深度学习模型对实时捕获的视频流进行手语姿态检测,即识别和跟踪手部和手指的位置和动作;
S202、基于检测到的手语姿态利用深度学习模型对手语动作进行识别,使用循环神经网络对手语动作特征进行学习和表示,捕捉手语动作的语义信息;
S203、构建手语词汇表,包括常见的手语动作或手势,每个手势对应唯一的标识符;
S204、构建Sep2Sep模型,基于编码器-解码器结构,用于将提取到的手语姿态序列映射到对应的手语词汇序列;
S205、引入注意力机制,使模型在翻译过程中关注手语姿态序列中重要部分;
S206、在解码器端设置生成模块,用于根据编码器的输出和注意力机制的信息生成对应手语翻译结果的文字描述。
5.如权利要求4所述一种移动设备上的实时手语翻译系统,其特征在于:所述手语翻译模块上当手语转换成文本后,进行文本转换成语音操作,具体步骤为:S301、对翻译的文本进行分词和词性标注处理;
S302、采用TTS模型,将文本转换为语音信号;
S303、使用声学模型捕捉语音的声音特征,使用TTS引擎将处理后的文本转换成语音。
6.如权利要求4所述一种移动设备上的实时手语翻译系统,其特征在于:所述手语翻译模块通过建立手语翻译数据库,包含手语姿态与对应翻译的映射关系,当姿态识别模块输出识别结果后,将其与手语翻译数据库中的数据进行匹配,找到对应的翻译结果,使用自然语言处理技术对手语识别结果进行翻译成目标语言文本。
CN202410310394.4A 2024-03-19 2024-03-19 一种移动设备上的实时手语翻译系统 Pending CN118072397A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410310394.4A CN118072397A (zh) 2024-03-19 2024-03-19 一种移动设备上的实时手语翻译系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410310394.4A CN118072397A (zh) 2024-03-19 2024-03-19 一种移动设备上的实时手语翻译系统

Publications (1)

Publication Number Publication Date
CN118072397A true CN118072397A (zh) 2024-05-24

Family

ID=91111029

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410310394.4A Pending CN118072397A (zh) 2024-03-19 2024-03-19 一种移动设备上的实时手语翻译系统

Country Status (1)

Country Link
CN (1) CN118072397A (zh)

Similar Documents

Publication Publication Date Title
US12002138B2 (en) Speech-driven animation method and apparatus based on artificial intelligence
CN111754978B (zh) 韵律层级标注方法、装置、设备和存储介质
CN108268452A (zh) 一种基于深度学习的专业领域机器同步翻译装置及方法
Madhuri et al. Vision-based sign language translation device
CN112151015B (zh) 关键词检测方法、装置、电子设备以及存储介质
WO2015059976A1 (ja) 情報処理装置、情報処理方法、及びプログラム
CN111539408A (zh) 基于拍照识物的智能点读方案
CN112802460B (zh) 一种基于语音处理的空间环境预报系统
Loeding et al. Progress in automated computer recognition of sign language
CN114239610A (zh) 多国语言语音辨识及翻译方法与相关的系统
Riad et al. Signsworld; deeping into the silence world and hearing its signs (state of the art)
Dhake et al. Sign language communication with dumb and deaf people
CN118072397A (zh) 一种移动设备上的实时手语翻译系统
CN112487951A (zh) 一种手语识别和翻译方法
Dokhe et al. Survey Paper: Image Reader For Blind Person
Maitrey et al. A Framework for Sign Language to Speech Conversion Using Hand Gesture Recognition Method
Sun et al. Kinect-based visual communication system
Shambhuwani et al. A Survey on Machine Learning Based Techniques for Sign Language Translation System
Mandal et al. Dual mode Sign Language Recognizer-An Android Based CNN and LSTM Prediction model
Jain et al. A Review of Sign Language Recognition Approaches
Chandra et al. Lip Reading Using Neural networks and Deep Learning
Wyawahare et al. ListenBot: Augmented Reality Based Speech To Sign Language Conversion
Sheth et al. American Sign Language Recognition and Generation: A CNN-based Approach
Kavitha et al. Real Time Automated Sign Language Recognition and Transcription with Audio Feedback
Mapari et al. A novel approach for detecting real-time Indian sign language using deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication