CN111091021A - 基于随机森林的手语翻译系统 - Google Patents

基于随机森林的手语翻译系统 Download PDF

Info

Publication number
CN111091021A
CN111091021A CN201811234249.3A CN201811234249A CN111091021A CN 111091021 A CN111091021 A CN 111091021A CN 201811234249 A CN201811234249 A CN 201811234249A CN 111091021 A CN111091021 A CN 111091021A
Authority
CN
China
Prior art keywords
user
interface
recognition
random forest
person
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811234249.3A
Other languages
English (en)
Inventor
仲国强
田野
董玥
郑镉镉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ocean University of China
Original Assignee
Ocean University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ocean University of China filed Critical Ocean University of China
Priority to CN201811234249.3A priority Critical patent/CN111091021A/zh
Publication of CN111091021A publication Critical patent/CN111091021A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/009Teaching or communicating with deaf persons

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Psychiatry (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Image Analysis (AREA)

Abstract

手语是失语者(包含听障人士、脑中风、脑瘫、渐冻症患者)用手势比量动作,据手势的变化模拟形象或者音节以构成的一定意思或词语的特殊交流方式。一方面,手语识别可作为失语者日常交流的翻译,为他们提供更好的服务;另一方面,它对于提高计算机的人类语言理解水平和加强人机接口的可实用性也有着重大意义。本发明采用基于YCrCb颜色空间的肤色检测技术分割手势,再提取出八方向傅里叶描述子、Hu不变矩等48维特征值,最后使用随机森林模型训练出分类器用于静态或动态翻译。同时,本发明涉及前沿学科技术,功能丰富,受众独特,且具有识别精度高、开发成本低、易维护、个性化设置等特点,在一定程度上满足实际需求,具有一定市场潜力。

Description

基于随机森林的手语翻译系统
技术领域
本发明涉及数字图像处理领域的图像处理技术及特征提取技术,人工智能领域的机器学习技术。
背景技术
1. C++语言(版本号为C++11/14)以及opencv图像处理库及机器学习库(版本号为3.4)
本发明的图像处理及特征提取部分采用C++语言(版本号为C++11/14)和opencv图像处理库(版本号为3.4)共同开发;机器学习算法中的随机森林算法框架由opencv机器学习库搭建。运行环境为Windows10,设备需附带RGB彩色摄像头。
2. 程序使用的开发环境为跨平台C++图形用户界面应用程序集成开发环境——Qt Creator(版本号为4.6)
Qt是跨平台C++图形用户界面应用程序开发框架,而Qt Creator(版本号为4.6)是Qt的集成开发环境。
发明内容
近年来,随着AlphaGo的出现,“人工智能”热潮席卷整个计算机领域。同时由于如今计算机硬件设备的提高,人们对“机器学习”、“深度学习”逐渐重视起来,不断拓广其应用领域。但在初期,工业界的产品往往只满足主流社会群体的需求,险有将新的成果应用于特殊群体中。于是,本发明着重将新技术应用在这样一类特殊群体,即“失语者”,他们只能使用手语与他人进行交流,这便导致了不懂手语的人士无法与其正常沟通的现象。至于传统的解决方案(如:人工翻译,手语字典,复杂翻译设备等),既不方便携带,又无实时性,且往往成本高昂,需要苛刻的环境条件。于是而在涉及新领域的同时,本发明还简化了硬件设施,降低了环境限制,仅在具有RGB摄像头的计算机上即可安装运行。经过后期跨平台的拓展研发,本发明完全可以移植到手机端等移动平台,扩增应用场景。
本发明不仅涉及热门学科,面向用户独特,同时尝试了一种新颖的技术方案具体解决此问题。在以往的软件内部往往采用经典的人工智能算法,对未经处理的图像样本进行训练和识别。然而针对手语翻译这类问题,采用这样的技术方案是不合适的。不仅因为经典的人工智能算法训练成本高昂、程序代码复杂、涉及学科广泛,而且由于图像未经处理,其中包含着的大量噪声,使识别准确度不高。本发明则先对图像样本进行优化处理,再通过特征提取获得手势数据,最后用“机器学习”中的随机森林算法训练出分类器进行识别。这样一来,图像处理的过程可以减少图像内部噪声,提高识别准确度;随机森林算法既容易掌握,而且调参容易,开发成本得到大幅降低。最后,本发明使用“面向对象方法学”进行开发设计,借鉴软件工程中的开发思路,极大地降低了软件的后期维护成本。
本发明采用较小的训练数据集即可获得较高的识别率。现阶段不仅可对手语中数字、字母、日常词语等20种手势有高达91.63%的识别率,而每种手势样本仅需500张。同时针对数字0-6、男人、女人、爱等10种手语手势,在扩充每种手势样本至1500张后,便拥有98.5%的识别率。并且可较准确地翻译出叠词、短语、完整句子等。而且,本发明可识别的手势种类会跟随数据集中手势种类上升,识别率会随样本容量提高,具有升级空间巨大、易扩充功能等特点。
本发明使用跨平台C++图形用户界面应用程序集成开发环境——Qt Creator(版本号为4.6)开发,双击运行程序,系统自动加载模块,启动摄像头。用户可根据实际情况自行选择是否调节亮度和对比度,以达到最佳识别效果。用户可选择两种识别模式:静态识别与动态识别。若选择静态识别,则按下开始按钮,系统进入识别状态,用户可摆出静态手势,接着按下结束按钮,识别结束;若选择动态识别,则用户在点击开始按钮之后,即可摆出动态手势,接着按下结束按钮,识别结束。
附图说明
图1. 手势识别技术框架
本发明首先使用图像处理技术对获取到的手势图像运用图像处理技术,获得一张张处理后的手势图像。其次,对一张张处理后的手势图像进行筛选,将合格的图像保存为训练样本,用于训练随机森林模型。接着,对训练样本进行特征提取得到训练数据集,同时调用opencv机器学习库中的训练算法利用获得的训练数据集训练出随机森林模型。最终训练出的随机森林模型就是分类器。本发明在进行识别时对待识别的手势先进行图像处理和特征提取得到待识别手势数据,再用已训练好的分类器对待识别手势数据进行分类,同时语音输出分类结果。
图2. 手语翻译系统流程图
用户双击运行程序,系统自动加载模块,启动摄像头。用户据实际情况自行选择是否调节亮度和对比度。用户可选择两种识别模式:静态识别与动态识别。若选择静态识别,则按下开始按钮,系统进入识别状态,用户可摆出静态手势,接着按下结束按钮,识别结束;若选择动态识别,则用户在点击开始按钮之后,即可摆出动态手势,接着按下结束按钮,识别结束。最后系统暂停当前进程,应用语音信号反馈翻译结果。
图3. 系统界面
系统界面中第一幅图像为摄像头采集到的真实图像,第二幅图像为经图像处理技术处理过的二值图像。第三幅图像为经图像处理技术处理过的细节图像。图像下方第一个滑动条可调节对比度,第二个滑动条可调节亮度。滑动条下方五个矩形调节框均为细节参数,普通用户无需调节。最后一行为四个按钮,分别用于静态识别、动态识别、开始记录和结束记录。

Claims (2)

1.一个基于随机森林的手语翻译系统,包括利用图像处理和特征提取解析出手势数据,利用机器学习中的随机森林算法对数据集中的训练数据集进行训练,得到可以对手语中的手势进行静态及动态识别的分类器。
2.本发明使用跨平台C++图形用户界面应用程序集成开发环境——Qt Creator(版本号为4.6)制作系统界面,系统界面在系统与用户的交互过程中起到一个桥梁作用:系统运行时,界面实时地将采集到的图像和处理过的图像反馈给用户,用户依此选择适宜的识别环境或点击界面上的部件设置系统参数;界面实时响应部件上的点击事件对系统参数重新设置,并把系统调参后的结果以图像形式反馈给用户,用户依此继续调节;当用户认为无需再调节系统参数时,即可点击界面上的识别按钮开始或结束识别;界面接收相应按钮的点击事件,触发系统内的识别程序,并将识别结果以语音或文字形式反馈给用户。
CN201811234249.3A 2018-10-23 2018-10-23 基于随机森林的手语翻译系统 Pending CN111091021A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811234249.3A CN111091021A (zh) 2018-10-23 2018-10-23 基于随机森林的手语翻译系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811234249.3A CN111091021A (zh) 2018-10-23 2018-10-23 基于随机森林的手语翻译系统

Publications (1)

Publication Number Publication Date
CN111091021A true CN111091021A (zh) 2020-05-01

Family

ID=70391370

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811234249.3A Pending CN111091021A (zh) 2018-10-23 2018-10-23 基于随机森林的手语翻译系统

Country Status (1)

Country Link
CN (1) CN111091021A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598915A (zh) * 2014-01-24 2015-05-06 深圳奥比中光科技有限公司 一种手势识别方法与装置
CN106845384A (zh) * 2017-01-17 2017-06-13 西北大学 一种基于递归模型的手势识别方法
CN108537109A (zh) * 2018-02-13 2018-09-14 东南大学 基于OpenPose的单目相机手语识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598915A (zh) * 2014-01-24 2015-05-06 深圳奥比中光科技有限公司 一种手势识别方法与装置
CN106845384A (zh) * 2017-01-17 2017-06-13 西北大学 一种基于递归模型的手势识别方法
CN108537109A (zh) * 2018-02-13 2018-09-14 东南大学 基于OpenPose的单目相机手语识别方法

Similar Documents

Publication Publication Date Title
CN112200062B (zh) 一种基于神经网络的目标检测方法、装置、机器可读介质及设备
CN108304823B (zh) 一种基于双卷积cnn和长短时记忆网络的表情识别方法
CN108346427A (zh) 一种语音识别方法、装置、设备及存储介质
CN103810994B (zh) 基于情感上下文的语音情感推理方法及系统
Patel et al. Moment based sign language recognition for indian languages
Ahire et al. Two way communicator between deaf and dumb people and normal people
CN110188708A (zh) 一种基于卷积神经网络的人脸表情识别方法
CN111126280B (zh) 基于融合手势识别的失语症患者辅助康复训练系统及方法
CN105718885B (zh) 一种人脸特征点跟踪方法
CN112233698A (zh) 人物情绪识别方法、装置、终端设备及存储介质
WO2022127494A1 (zh) 位姿识别模型训练方法、装置、位姿识别方法和终端设备
CN111723239A (zh) 一种基于多模态的视频标注方法
Dhivyasri et al. An efficient approach for interpretation of Indian sign language using machine learning
Wang et al. Facial expression recognition based on CNN
CN109961152B (zh) 虚拟偶像的个性化互动方法、系统、终端设备及存储介质
Rahim et al. Dynamic hand gesture based sign word recognition using convolutional neural network with feature fusion
CN111091840A (zh) 一种建立性别识别模型的方法及性别识别方法
CN114708443A (zh) 截图处理方法及装置、电子设备和计算机可读介质
CN117115312B (zh) 一种语音驱动面部动画方法、装置、设备及介质
CN108628454B (zh) 基于虚拟人的视觉交互方法及系统
CN112149599B (zh) 表情追踪方法、装置、存储介质和电子设备
Prajapati et al. Hand gesture recognition and voice conversion for deaf and dumb
Reda et al. Svbicomm: sign-voice bidirectional communication system for normal,“deaf/dumb” and blind people based on machine learning
Gao et al. Metric Learning Based Feature Representation with Gated Fusion Model for Speech Emotion Recognition.
CN111091021A (zh) 基于随机森林的手语翻译系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200501

RJ01 Rejection of invention patent application after publication