CN111444791A - 一种基于计算机视觉的手语翻译系统 - Google Patents
一种基于计算机视觉的手语翻译系统 Download PDFInfo
- Publication number
- CN111444791A CN111444791A CN202010176300.0A CN202010176300A CN111444791A CN 111444791 A CN111444791 A CN 111444791A CN 202010176300 A CN202010176300 A CN 202010176300A CN 111444791 A CN111444791 A CN 111444791A
- Authority
- CN
- China
- Prior art keywords
- module
- sign language
- processing module
- action
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B21/00—Teaching, or communicating with, the blind, deaf or mute
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- Image Analysis (AREA)
Abstract
本发明属于手语翻译领域,具体公开了一种基于计算机视觉的手语翻译系统,包括语义库模块、坐标处理模块、数据处理模块、参考系模块、交叉训练模块与采集识别模块,所述语义库模块用于构建语义库,搜集各手语动作,并分析每个动作的关键特征,并以此特征录制视频数据;所述坐标处理模块与语义库模块连接,坐标处理模块关联有openpose模型,openpose模型内左右手各设有21个关键点,坐标处理模块利用openpose模型对每个动作的视频数据进行处理,并获取所述关键点在视频画面中的坐标,并逐帧将画面的点坐标输出,且每个动作得到若干对应的json文件。本发明翻译效率高,通过抽取处理的方式,大幅提高了识别效率,同时采用多帧采集的方式极大地提高了识别的准确度。
Description
技术领域
本发明涉及手语翻译领域,具体为一种基于计算机视觉的手语翻译系统。
背景技术
手语,作为一种独特的交流方式,已经在无法言语的人身上得到了普遍的使用,通过手势的变化模拟出形象或者音节以构成与人体语言等同的意思或者词语,手语的使用对于促进聋哑人之间的信息沟通具有重要的意义,通过手语能够协助聋哑人重新融入社会,对于社会的和谐发展具有积极的促进作用;比如我国是世界上残疾人数最多的国家,聋哑人约占残疾人总数的33%。生活中手语成为他们的主要交流方式,但在生活中大部分人都不懂手语,通过笔和纸的交流也有着极大的限制,这就导致了聋哑人与正常人存在交流障碍问题;因此实现手语翻译,可以帮助聋哑人克服社交障碍,给他们带来帮助。
现有的手语翻译系统拥有数据量较少,只能翻译少量语句,同时对于多个连续句子的断句处理不太完善,且需要画面比较清晰才可。
发明内容
本发明的目的在于提供一种基于计算机视觉的手语翻译系统,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于计算机视觉的手语翻译系统,包括语义库模块、坐标处理模块、数据处理模块、参考系模块、交叉训练模块与采集识别模块,所述语义库模块用于构建语义库,搜集各手语动作,并分析每个动作的关键特征,并以此特征录制视频数据;所述坐标处理模块与语义库模块连接,坐标处理模块关联有openpose模型,openpose模型内左右手各设有21个关键点,坐标处理模块利用openpose模型对每个动作的视频数据进行处理,并获取所述关键点在视频画面中的坐标,并逐帧将画面的点坐标输出,且每个动作得到若干对应的json文件;所述数据处理模块与坐标处理模块连接,数据处理模块用于获取json文件并对该json文件进行数据处理,数据处理后形成数据集;所述交叉训练模块与数据处理模块连接,交叉训练模块用于对数据集进行处理,并利用分类算法进行交叉训练,交叉训练后获得机器学习模型。
优选的,数据处理模块对json文件进行数据处理包括:数据处理模块对json文件中的左右手关键点坐标进行数据处理,并转化至参考系模块中,消除在做动作时人与摄像头之间的距离和角度差异而带来的误差,增强数据的鲁棒性。
优选的,分类算法为k均值聚类算法与随机森林算法中任一种。
优选的,采集识别模块与交叉训练模块相关联,采集识别模块包括采集单元、实时处理单元、交叉验证单元与导入单元,采集单元用于实时逐帧捕捉使用者动作,并链接openpose转化为含有关键点坐标信息的数据,实时处理单元用于获取含有关键点坐标信息的数据并对该数据进行转化处理,将数据中的点坐标转化至参考系模块中,并转化为相对坐标。
优选的,交叉验证单元用于调用训练好的机器学习模型进行交叉验证,得到对应编码;所述导入单元用于获取一个语句的连续动作的连续编码导入到seq2seq模型,并转化为语义通顺的句子。
本发明还提供了上述一种基于计算机视觉的手语翻译系统的翻译方法,包括如下步骤:
S1:通过采集单元实时逐帧捕捉使用者动作,并将画面导入openpose,openpose处理转化为含有关键点坐标信息的json文件;
S2:实时处理单元用于读取json文件,并利用算法将关键点信息转化至参考系模块中;
S3:将左右手共42个点的相对坐标与训练好的机器学习模型进行交叉验证预测,并将交叉验证单元输出的语义转换为对应的模型内部的编码;
S4:将一个语句的连续动作的连续编码导入到seq2seq模型,转化为语义通顺的句子,完成翻译。
优选的,S3中交叉验证单元成功识别当前帧手语动作的语义后,采集识别模块会继续采集接下来四到五帧画面并进行手语动作识别,若这些帧的手语动作语义一致,则确认当前动作语义并输出,这种多帧采集的方法极大地提高了识别的准确度。
优选的,S3中,采集识别模块还将每一帧画面关键点矩阵抽象成高维坐标,计算前后两帧画面的欧式距离,去除近似帧。即从一个手部动作保持稳定并被识别开始到使用者的下一个动作被识别之间的若干帧,会被按照算法抽取处理,而不是全部处理,大幅提高了识别效率。
与现有技术相比,本发明的有益效果是:
本发明的手语翻译系统基于计算机视觉,翻译效率高,功能强大,且可翻译大量语句,对于多个连续句子的断句处理完善,识别效率高,通过抽取处理的方式,大幅提高了识别效率,同时采用多帧采集的方式极大地提高了识别的准确度。
附图说明
图1为本发明的结构框图;
图2为本发明机器学习模型的构建流程图;
图3为本发明翻译系统的翻译方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-3,本发明提供一种技术方案:一种基于计算机视觉的手语翻译系统,包括语义库模块、坐标处理模块、数据处理模块、参考系模块、交叉训练模块与采集识别模块,所述语义库模块用于构建语义库,搜集各手语动作,并分析每个动作的关键特征,并以此特征录制视频数据;所述坐标处理模块与语义库模块连接,坐标处理模块关联有openpose模型,openpose模型内左右手各设有21个关键点,坐标处理模块利用openpose模型对每个动作的视频数据进行处理,并获取所述关键点在视频画面中的坐标,并逐帧将画面的点坐标输出,且每个动作得到若干对应的json文件;所述数据处理模块与坐标处理模块连接,数据处理模块用于获取json文件并对该json文件进行数据处理,数据处理后形成数据集;所述交叉训练模块与数据处理模块连接,交叉训练模块用于对数据集进行处理,并利用分类算法进行交叉训练,交叉训练后获得机器学习模型。
在本实施例中,数据处理模块对json文件进行数据处理包括:数据处理模块对json文件中的左右手关键点坐标进行数据处理,并转化至参考系模块中,消除在做动作时人与摄像头之间的距离和角度差异而带来的误差,增强数据的鲁棒性。
在本实施例中,分类算法为k均值聚类算法与随机森林算法中任一种。
在本实施例中,采集识别模块与交叉训练模块相关联,采集识别模块包括采集单元、实时处理单元、交叉验证单元与导入单元,采集单元用于实时逐帧捕捉使用者动作,并链接openpose转化为含有关键点坐标信息的数据,实时处理单元用于获取含有关键点坐标信息的数据并对该数据进行转化处理,将数据中的点坐标转化至参考系模块中,并转化为相对坐标。
在本实施例中,交叉验证单元用于调用训练好的机器学习模型进行交叉验证,得到对应编码;所述导入单元用于获取一个语句的连续动作的连续编码导入到seq2seq模型,并转化为语义通顺的句子。
本发明还提供了上述一种基于计算机视觉的手语翻译系统的翻译方法,包括如下步骤:
S1:通过采集单元实时逐帧捕捉使用者动作,并将画面导入openpose,openpose处理转化为含有关键点坐标信息的json文件;
S2:实时处理单元用于读取json文件,并利用算法将关键点信息转化至参考系模块中;
S3:将左右手共42个点的相对坐标与训练好的机器学习模型进行交叉验证预测,并将交叉验证单元输出的语义转换为对应的模型内部的编码;
S4:将一个语句的连续动作的连续编码导入到seq2seq模型,转化为语义通顺的句子,完成翻译。
在本实施例中,S3中交叉验证单元成功识别当前帧手语动作的语义后,采集识别模块会继续采集接下来四到五帧画面并进行手语动作识别,若这些帧的手语动作语义一致,则确认当前动作语义并输出,这种多帧采集的方法极大地提高了识别的准确度。
在本实施例中,S3中,采集识别模块还将每一帧画面关键点矩阵抽象成高维坐标,计算前后两帧画面的欧式距离,去除近似帧。即从一个手部动作保持稳定并被识别开始到使用者的下一个动作被识别之间的若干帧,会被按照算法抽取处理,而不是全部处理,大幅提高了识别效率。
本发明的手语翻译系统基于计算机视觉,翻译效率高,功能强大,且可翻译大量语句,对于多个连续句子的断句处理完善,识别效率高,通过抽取处理的方式,大幅提高了识别效率,同时采用多帧采集的方式极大地提高了识别的准确度。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (8)
1.一种基于计算机视觉的手语翻译系统,其特征在于,包括语义库模块、坐标处理模块、数据处理模块、参考系模块、交叉训练模块与采集识别模块,所述语义库模块用于构建语义库,搜集各手语动作,并分析每个动作的关键特征,并以此特征录制视频数据;所述坐标处理模块与语义库模块连接,坐标处理模块关联有openpose模型,openpose模型内左右手各设有21个关键点,坐标处理模块利用openpose模型对每个动作的视频数据进行处理,并获取所述关键点在视频画面中的坐标,并逐帧将画面的点坐标输出,且每个动作得到若干对应的json文件;所述数据处理模块与坐标处理模块连接,数据处理模块用于获取json文件并对该json文件进行数据处理,数据处理后形成数据集;所述交叉训练模块与数据处理模块连接,交叉训练模块用于对数据集进行处理,并利用分类算法进行交叉训练,交叉训练后获得机器学习模型。
2.根据权利要求1所述的一种基于计算机视觉的手语翻译系统,其特征在于,所述数据处理模块对json文件进行数据处理包括:数据处理模块对json文件中的左右手关键点坐标进行数据处理,并转化至参考系模块中,消除在做动作时人与摄像头之间的距离和角度差异而带来的误差,增强数据的鲁棒性。
3.根据权利要求1所述的一种基于计算机视觉的手语翻译系统,其特征在于,所述分类算法为k均值聚类算法与随机森林算法中任一种。
4.根据权利要求1所述的一种基于计算机视觉的手语翻译系统,其特征在于,所述采集识别模块与交叉训练模块相关联,采集识别模块包括采集单元、实时处理单元、交叉验证单元与导入单元,采集单元用于实时逐帧捕捉使用者动作,并链接openpose转化为含有关键点坐标信息的数据,实时处理单元用于获取含有关键点坐标信息的数据并对该数据进行转化处理,将数据中的点坐标转化至参考系模块中,并转化为相对坐标。
5.根据权利要求4所述的一种基于计算机视觉的手语翻译系统,其特征在于,所述交叉验证单元用于调用训练好的机器学习模型进行交叉验证,得到对应编码;所述导入单元用于获取一个语句的连续动作的连续编码导入到seq2seq模型,并转化为语义通顺的句子。
6.根据权利要求1-5任一所述的一种基于计算机视觉的手语翻译系统的翻译方法,其特征在于,包括如下步骤:
S1:通过采集单元实时逐帧捕捉使用者动作,并将画面导入openpose,openpose处理转化为含有关键点坐标信息的json文件;
S2:实时处理单元用于读取json文件,并利用算法将关键点信息转化至参考系模块中;
S3:将左右手共42个点的相对坐标与训练好的机器学习模型进行交叉验证预测,并将交叉验证单元输出的语义转换为对应的模型内部的编码;
S4:将一个语句的连续动作的连续编码导入到seq2seq模型,转化为语义通顺的句子,完成翻译。
7.根据权利要求6所述的一种基于计算机视觉的手语翻译系统的翻译方法,其特征在于,所述S3中交叉验证单元成功识别当前帧手语动作的语义后,采集识别模块会继续采集接下来四到五帧画面并进行手语动作识别,若这些帧的手语动作语义一致,则确认当前动作语义并输出。
8.根据权利要求6所述的一种基于计算机视觉的手语翻译系统的翻译方法,其特征在于,所述S3中,采集识别模块还将每一帧画面关键点矩阵抽象成高维坐标,计算前后两帧画面的欧式距离,去除近似帧。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010176300.0A CN111444791A (zh) | 2020-03-13 | 2020-03-13 | 一种基于计算机视觉的手语翻译系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010176300.0A CN111444791A (zh) | 2020-03-13 | 2020-03-13 | 一种基于计算机视觉的手语翻译系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111444791A true CN111444791A (zh) | 2020-07-24 |
Family
ID=71627529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010176300.0A Withdrawn CN111444791A (zh) | 2020-03-13 | 2020-03-13 | 一种基于计算机视觉的手语翻译系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111444791A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113822187A (zh) * | 2021-09-10 | 2021-12-21 | 阿里巴巴达摩院(杭州)科技有限公司 | 手语翻译、客服、通信方法、设备和可读介质 |
-
2020
- 2020-03-13 CN CN202010176300.0A patent/CN111444791A/zh not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113822187A (zh) * | 2021-09-10 | 2021-12-21 | 阿里巴巴达摩院(杭州)科技有限公司 | 手语翻译、客服、通信方法、设备和可读介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Al-Qurishi et al. | Deep learning for sign language recognition: Current techniques, benchmarks, and open issues | |
CN109933198B (zh) | 一种语义识别方法及装置 | |
CN111046148A (zh) | 智能交互系统及智能客服机器人 | |
CN111126280A (zh) | 基于融合手势识别的失语症患者辅助康复训练系统及方法 | |
Liang et al. | Learning atomic human actions using variable-length Markov models | |
Vo et al. | Deep learning for Vietnamese Sign Language recognition in video sequence | |
Kanvinde et al. | Bidirectional sign language translation | |
CN116595023A (zh) | 地址信息的更新方法和装置、电子设备及存储介质 | |
CN111444791A (zh) | 一种基于计算机视觉的手语翻译系统 | |
Robert et al. | A review on computational methods based automated sign language recognition system for hearing and speech impaired community | |
Kumar et al. | Mediapipe and cnns for real-time asl gesture recognition | |
Li et al. | Contrastive token-wise meta-learning for unseen performer visual temporal-aligned translation | |
CN101877189A (zh) | 从汉语文本到手语机译方法 | |
CN116721449A (zh) | 视频识别模型的训练方法、视频识别方法、装置以及设备 | |
CN115512340A (zh) | 基于图片的意图检测方法及装置 | |
CN114067362A (zh) | 基于神经网络模型的手语识别方法、装置、设备及介质 | |
Moon et al. | An improved custom convolutional neural network based hand sign recognition using machine learning algorithm | |
Xu et al. | A facial expression recognition method based on residual separable convolutional neural network | |
Al-Ali et al. | Emirati Sign Language Recognition Using YOLOv5 | |
Shambhuwani et al. | A Survey on Machine Learning Based Techniques for Sign Language Translation System | |
Cabutaje et al. | Ano Raw: A Deep Learning Based Approach to Transliterating the Filipino Sign Language | |
Xu et al. | A two-stage sign language recognition method focusing on the semantic features of label text | |
Bhavana et al. | Empowering Communication: Harnessing CNN and Mediapipe for Sign Language Interpretation | |
Sarkar et al. | A Hybrid Transfer Learning Architecture Based Image Captioning Model for Assisting Visually Impaired | |
CN116883886B (zh) | 一种基于双级对比学习与噪声鲁棒的弱监督时序语言定位方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200724 |