CN109086699A

CN109086699A - 一种基于XGboost的静态手语识别系统

Info

Publication number: CN109086699A
Application number: CN201810804429.4A
Authority: CN
Inventors: 程树英; 林培杰; 卢箫扬; 陈志聪; 吴丽君; 郑茜颖; 章杰
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2018-07-20
Filing date: 2018-07-20
Publication date: 2018-12-25

Abstract

本发明涉及一种基于XGboost的静态手语识别系统，包括以下步骤：步骤S1:通过数据手套采集手部姿态角信息数据，包括三轴姿态角信息数据和手指弯曲度数据；步骤S2:通过wifi连接将收集到的三轴姿态角信息数据传输至计算机；步骤S3:通过计算机将采集到的三轴姿态角信息数据按照预定格式存储为数据集；步骤S4:采用XGboost对数据集进行训练，得到最优模型；步骤S5:将最优模型移植至Android端，并对姿态信息进行分类，得到分类结果后结合手指弯曲度数据后得到手语识别结果，并根据识别的词汇进行发声。本发明使用低维度的数据，模型结构简单，可以满足实时识别手语的要求，并且在准确度高，性能好。

Description

一种基于XGboost的静态手语识别系统

技术领域

本发明涉及静态手语分类与识别领域，特别设计一种基于XGboost的静态手语识别系统。

背景技术

据统计，在我国，约有2780万聋哑人，而在聋哑人的交流中，主要依靠手语的方式进行交流，然而，手语交流具有局限性，在与其他不懂手语的人交流时，很难正确理解手语所要表达的意思。因此如果能设计出一套帮助聋哑人与非聋哑人的交流的设备，将为这些聋哑人带来福音。

《中国手语》中目前收录了5000多个词汇，分为手指语和手势语两种，手指语即字母，这与键盘没有本质上的区别，因此研究的重点在于手势语的识别上。手势语都是由手势和手形共同组成，能对这些特征进行识别，目前研究包括了两类：(1)基于机器视觉；(2)基于数据手套。机器视觉识别手语的方式存在稳定性差，容易受到环境的影响，并且在识别率上还有待提高，很难在近期进入市场。而数据手套的方式在保证数据精确度的同时，在后期数据处理方面使得识别速度上更快，是目前手语识别的研究重点。

手语识别的研究上，分静态手语和动态手语。而本文主要针对静态手语的识别。姜峰等人利用HMM与SVM实现了90%以上的手语识别准确率。Mohandes利用支持向量机对数据手套采集的100个手语进行分类，准确率达到99.6%，但是该数据手套使用了56个维度的信息，依然具有较大的时延，并且由于其数据集较小，在不同人使用时准确率降低；提高响应速度的一个方式就是降低处理维度，Das等人通过降低处理数据的维度，只使用了三维空间数据与手指弯曲度信息实现了较快的识别，但是准确度却下降了。为了提高响应的速度，López-Noriega等人通过人工神经网络实现了26个字母的手语识别，达到了97以上的准确率，但是其识别手语只有26个，并且只是应用在小数据集上。

而传统的静态手语识别为了获得高的准确率大多采用增加特征维数的方法，这样不仅增加了制作成本，并且在一定程度上对于识别的速度也有了一定的影响。

发明内容

有鉴于此，本发明的目的在于提供一种基于XGboost的静态手语识别系统，使用低维度的数据，模型结构简单，可以满足实时识别手语的要求，并且在准确度高，性能好。

为实现上述目的，本发明采用如下技术方案：

一种基于XGboost的静态手语识别系统，所述系统包括数据手套、计算机和Android端；所述系统识别静态手语包括以下步骤：

步骤S1:通过数据手套采集手部姿态角信息数据，包括三轴姿态角信息数据和手指弯曲度数据；

步骤S2:通过数据手套的wifi模块连接计算机，将收集到的三轴姿态角信息数据传输至计算机；

步骤S3:通过计算机将采集到的三轴姿态角信息数据按照预定格式存储为数据集；

步骤S4:采用XGboost对数据集进行训练，得到最优模型；

步骤S5:将最优模型移植至Android端，并对姿态信息进行分类，得到分类结果后结合手指弯曲度数据后得到手语识别结果，并根据识别的词汇进行发声。

进一步的，所述三轴姿态角信息数据包括Yaw，Pitch，Roll。

进一步的，所述数据集预定格式为：

标签 1：Yaw 2：Pitch 3：Roll

其中，标签为类别信息，1，2，3为特征数，其后紧跟该特征的数据。

进一步的，所述步骤S3具体为：

步骤S31:首先XGboost读取特征总数，根据这些特征先训练一棵CART树，对于第一棵树，寻找该特征的分裂点以及每个叶子节点的权值并对此权值进行优化；

步骤S32：得到第一棵树后将第一棵树的预测误差结合数据一并输入至第二颗树，第二棵数在此基础上进行训练以得到第三棵CART树，得到相应的特征分裂点与叶子节点权值；

步骤S33：在前两棵数训练完成后再将第二课数的预测误差误差结合数据一并输入至第三棵树训练得到叶子节点的权值以及特征分裂点，至此，用于分类；

步骤S34：对于训练结束后将得到的树模型作为最优模型进行保存，以便移植至Android手机端。

进一步的，所述的将手部姿态信息通过分类将数据分为11类常用手部姿态，而这11类手部姿态已经基本包含所有静态手语动作的手部姿态。

本发明与现有技术相比具有以下有益效果：

本发明基于XGboost的静态手语识别系统，使用低维度的数据，模型结构简单，可以满足实时识别手语的要求，并且在准确度高，性能好。

附图说明

图1是本发明流程框图；

图2是本发明一实施例中的模型结构图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

请参照图1，本发明提供一种基于XGboost的静态手语识别系统，流程框图如图1所示。图2为本实施例的XGboost训练得到的模型图，系统由两部分组成，分别为数据采集手套以及Android控制端对手语数据的识别与发声，具体包括以下步骤：

步骤S1：通过STM32采集手部9轴数据以及手指弯曲度信息；

步骤S2：将第一步采集到的9轴数据转化为姿态角并采用华东窗口滤波对弯曲度数据进行处理；

步骤S3：根据步骤S2中得到的两只手的姿态角数据以及弯曲度数据通过NRF24l01传输到左手数据采集手套，左手的数据采集手套将数据组合和通过WIFI模块传输至PC端收集数据；

步骤S4：将测试样本组合分成训练集和验证集；对验证样本集中的每个样本进行预测，采用XGboost对数据进行分类训练，

步骤S5：根据步骤S4得到训练模型并移植到Android端APP；

步骤S6：利用所述步骤S5建立的训练模型对姿态数据进行分类之后结合手指弯曲度状况得到手语识别结果，最后调用语音发声程序发声。

在本实施例中，采集的数据包括每个手部姿态的11种不同位置数据，分为3种不同的数据集对手部姿态数据进行训练，数据集分为随机数据集，噪声数据集以及将两部分数据集合并完整数据集。随机选取其中60%作为训练样本集，剩余40%作为验证样本集。数据集结构如表1所示

表1 不同工作状态下采集的样本数

数据集类型	数据集大小
		平稳数据集	10978
噪声数据集	21979
		完整数据集	32957

经过1000轮训练结束后，对手语的分类准确率如表2所示：

表2 静态手语分类准确率

训练用数据集	训练准确率
		平稳数据集	95.39%
噪声数据集	94.92%
		完整数据集	93.93%
平均准确率	94.75%

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于XGboost的静态手语识别系统，其特征在于：所述系统包括数据手套、计算机和Android端；所述系统识别静态手语包括以下步骤：

步骤S4:采用XGboost对数据集进行训练，得到最优模型；

2.根据权利要求1所述一种基于XGboost的静态手语识别系统，其特征在于：所述三轴姿态角信息数据包括Yaw，Pitch，Roll。

3.根据权利要求1所述一种基于XGboost的静态手语识别系统，其特征在于：所述数据集预定格式为：

标签 1：Yaw 2：Pitch 3：Roll

4.根据权利要求3所述的一种基于XGboost的静态手语识别系统，其特征在于：所述步骤S3具体为：