CN111091021A

CN111091021A - 基于随机森林的手语翻译系统

Info

Publication number: CN111091021A
Application number: CN201811234249.3A
Authority: CN
Inventors: 仲国强; 田野; 董玥; 郑镉镉
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2018-10-23
Filing date: 2018-10-23
Publication date: 2020-05-01

Abstract

手语是失语者（包含听障人士、脑中风、脑瘫、渐冻症患者）用手势比量动作，据手势的变化模拟形象或者音节以构成的一定意思或词语的特殊交流方式。一方面，手语识别可作为失语者日常交流的翻译，为他们提供更好的服务；另一方面，它对于提高计算机的人类语言理解水平和加强人机接口的可实用性也有着重大意义。本发明采用基于YCrCb颜色空间的肤色检测技术分割手势，再提取出八方向傅里叶描述子、Hu不变矩等48维特征值，最后使用随机森林模型训练出分类器用于静态或动态翻译。同时，本发明涉及前沿学科技术，功能丰富，受众独特，且具有识别精度高、开发成本低、易维护、个性化设置等特点，在一定程度上满足实际需求，具有一定市场潜力。

Description

基于随机森林的手语翻译系统

技术领域

本发明涉及数字图像处理领域的图像处理技术及特征提取技术，人工智能领域的机器学习技术。

背景技术

1. C++语言（版本号为C++11/14）以及opencv图像处理库及机器学习库（版本号为3.4）

本发明的图像处理及特征提取部分采用C++语言（版本号为C++11/14）和opencv图像处理库（版本号为3.4）共同开发;机器学习算法中的随机森林算法框架由opencv机器学习库搭建。运行环境为Windows10，设备需附带RGB彩色摄像头。

2. 程序使用的开发环境为跨平台C++图形用户界面应用程序集成开发环境——Qt Creator（版本号为4.6）

Qt是跨平台C++图形用户界面应用程序开发框架，而Qt Creator（版本号为4.6）是Qt的集成开发环境。

发明内容

近年来，随着AlphaGo的出现，“人工智能”热潮席卷整个计算机领域。同时由于如今计算机硬件设备的提高，人们对“机器学习”、“深度学习”逐渐重视起来，不断拓广其应用领域。但在初期，工业界的产品往往只满足主流社会群体的需求，险有将新的成果应用于特殊群体中。于是，本发明着重将新技术应用在这样一类特殊群体，即“失语者”，他们只能使用手语与他人进行交流，这便导致了不懂手语的人士无法与其正常沟通的现象。至于传统的解决方案（如：人工翻译，手语字典，复杂翻译设备等），既不方便携带，又无实时性，且往往成本高昂，需要苛刻的环境条件。于是而在涉及新领域的同时，本发明还简化了硬件设施，降低了环境限制，仅在具有RGB摄像头的计算机上即可安装运行。经过后期跨平台的拓展研发，本发明完全可以移植到手机端等移动平台，扩增应用场景。

本发明不仅涉及热门学科，面向用户独特，同时尝试了一种新颖的技术方案具体解决此问题。在以往的软件内部往往采用经典的人工智能算法，对未经处理的图像样本进行训练和识别。然而针对手语翻译这类问题，采用这样的技术方案是不合适的。不仅因为经典的人工智能算法训练成本高昂、程序代码复杂、涉及学科广泛，而且由于图像未经处理，其中包含着的大量噪声，使识别准确度不高。本发明则先对图像样本进行优化处理，再通过特征提取获得手势数据，最后用“机器学习”中的随机森林算法训练出分类器进行识别。这样一来，图像处理的过程可以减少图像内部噪声，提高识别准确度；随机森林算法既容易掌握，而且调参容易，开发成本得到大幅降低。最后，本发明使用“面向对象方法学”进行开发设计，借鉴软件工程中的开发思路，极大地降低了软件的后期维护成本。

本发明采用较小的训练数据集即可获得较高的识别率。现阶段不仅可对手语中数字、字母、日常词语等20种手势有高达91.63%的识别率，而每种手势样本仅需500张。同时针对数字0-6、男人、女人、爱等10种手语手势，在扩充每种手势样本至1500张后，便拥有98.5%的识别率。并且可较准确地翻译出叠词、短语、完整句子等。而且，本发明可识别的手势种类会跟随数据集中手势种类上升，识别率会随样本容量提高，具有升级空间巨大、易扩充功能等特点。

本发明使用跨平台C++图形用户界面应用程序集成开发环境——Qt Creator（版本号为4.6）开发，双击运行程序，系统自动加载模块，启动摄像头。用户可根据实际情况自行选择是否调节亮度和对比度，以达到最佳识别效果。用户可选择两种识别模式：静态识别与动态识别。若选择静态识别，则按下开始按钮，系统进入识别状态，用户可摆出静态手势，接着按下结束按钮，识别结束；若选择动态识别，则用户在点击开始按钮之后，即可摆出动态手势，接着按下结束按钮，识别结束。

附图说明

图1. 手势识别技术框架

本发明首先使用图像处理技术对获取到的手势图像运用图像处理技术，获得一张张处理后的手势图像。其次，对一张张处理后的手势图像进行筛选，将合格的图像保存为训练样本，用于训练随机森林模型。接着，对训练样本进行特征提取得到训练数据集，同时调用opencv机器学习库中的训练算法利用获得的训练数据集训练出随机森林模型。最终训练出的随机森林模型就是分类器。本发明在进行识别时对待识别的手势先进行图像处理和特征提取得到待识别手势数据，再用已训练好的分类器对待识别手势数据进行分类，同时语音输出分类结果。

图2. 手语翻译系统流程图

用户双击运行程序，系统自动加载模块，启动摄像头。用户据实际情况自行选择是否调节亮度和对比度。用户可选择两种识别模式：静态识别与动态识别。若选择静态识别，则按下开始按钮，系统进入识别状态，用户可摆出静态手势，接着按下结束按钮，识别结束；若选择动态识别，则用户在点击开始按钮之后，即可摆出动态手势，接着按下结束按钮，识别结束。最后系统暂停当前进程，应用语音信号反馈翻译结果。

图3. 系统界面

系统界面中第一幅图像为摄像头采集到的真实图像，第二幅图像为经图像处理技术处理过的二值图像。第三幅图像为经图像处理技术处理过的细节图像。图像下方第一个滑动条可调节对比度，第二个滑动条可调节亮度。滑动条下方五个矩形调节框均为细节参数，普通用户无需调节。最后一行为四个按钮，分别用于静态识别、动态识别、开始记录和结束记录。

Claims

1.一个基于随机森林的手语翻译系统，包括利用图像处理和特征提取解析出手势数据，利用机器学习中的随机森林算法对数据集中的训练数据集进行训练，得到可以对手语中的手势进行静态及动态识别的分类器。

2.本发明使用跨平台C++图形用户界面应用程序集成开发环境——Qt Creator（版本号为4.6）制作系统界面，系统界面在系统与用户的交互过程中起到一个桥梁作用：系统运行时，界面实时地将采集到的图像和处理过的图像反馈给用户，用户依此选择适宜的识别环境或点击界面上的部件设置系统参数；界面实时响应部件上的点击事件对系统参数重新设置，并把系统调参后的结果以图像形式反馈给用户，用户依此继续调节；当用户认为无需再调节系统参数时，即可点击界面上的识别按钮开始或结束识别；界面接收相应按钮的点击事件，触发系统内的识别程序，并将识别结果以语音或文字形式反馈给用户。