CN107729823B

CN107729823B - 一种基于e-soinn网络的在线人机交互方法

Info

Publication number: CN107729823B
Application number: CN201710894420.2A
Authority: CN
Inventors: 杨滨
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2017-09-28
Filing date: 2017-09-28
Publication date: 2020-03-17
Anticipated expiration: 2037-09-28
Also published as: CN107729823A

Abstract

本发明公开了一种基于E‑SOINN网络的在线人机交互方法，包括采集手势动作视频，通过帧间差分法获得手势轮廓图像，进行E‑SOINN自组织增量神经网络学习等训练神经网络的步骤；和手机采集手势视频，获得手势轮廓图像和通过网络实现手势识别的手势判断的步骤。本发明是主要针对廉价移动终端开发交互手势识别方法。基于帧间差分法和E‑SOINN自组织增量神经网络，客户端采集手势视频，通过网络就可以实现手势识别。实现低性能的移动终端手势识别过程。

Description

一种基于E-SOINN网络的在线人机交互方法

技术领域

本发明属于人机交互技术领域，特别是涉及一种基于E-SOINN网络的在线人机交互方法。

背景技术

人机交互的发展过程就是从人适应计算机到计算机逐步适应人的过程,人机交互的发展经历了早期的手工操作阶段、作业控制语言及交互命令语言阶段、图形用户界面(GUI)阶段、网络用户界面阶段、多通道与多媒体智能人机交互阶段。手作为身体上最灵活的部位，是最早用来进行人与人之间肢体交流的工具。动态手势识别是人机交互领域中的重要研究课题，具有重要的理论研究意义以及广泛的应用前景。

国外对基于视觉的动态手势识别技术的研究起步比较早，在该领域的研究中有着丰富的经验，并取得了一定的研究成果。M.Elmezain等人通过融合Camshift算法和Kalman滤波算法来提高动态手势跟踪的效果，然后对相应的动态手势轨迹特征进行提取，最后通过HMM算法识别数字0～9的轨迹，识别率达到95.87％。M.Al-Rousan和K.Assaleh对动态手势识别做了深入研究，他们首先从视频中分割出手部，然后采用HMM模型对阿拉伯手语进行识别，最终该手势识别系统的在线识别率达到90.6％。R.Shrivastava利用Hu矩和手势轨迹方向角作为特征进行提取，然后使用HMM算法进行手势轨迹的识别，提高了识别速度，并且平均识别率达到了90％以上。R L.Vieriu等人利用HMM算法对手势轮廓的序列点进行判断分类，实现了9个不同角度手势的识别。华南理工大学的常亚南在经典HMM算法的基础上，提出了一种基于HMM的阈值模型的动态手势识别方法，最终完成了动态手势轨迹的识别，并且对典型动态手势轨迹的识别率达到97.87％。国内大连理工大学的杨青通过定位手势指尖的方法提取轨迹特征，最终利用HMM算法实现26个英文字母的动态手势轨迹的识别，其识别率可达85％以上。电子科技大学的杜晓川提出了一种基于外接椭圆中心距离的跟踪算法，并通过HMM算法进行轨迹的识别，平均识别率达到87％。中科院自动化研究所的单彩峰等人开发出了基于动态手势识别的智能轮椅控制系统，通过改进的粒子滤波算法实现对动态手势的实时跟踪，并在提取动态手势轨迹特征后，利用训练好的手势轨迹模型对待识别手势轨迹进行识别，最后将识别结果转化为控制轮椅的指令，从而实现对轮椅的运动控制。近年来，随着人工智能、模式识别、机器学习技术的快速发展。越来越多手势识别方法应用了人工神经网络和SVM等技术。马风力提出了一种基于MLP神经网络的手势识别方法。

从上述介绍可以知道，基于手势识别的人机交互方法已经吸引了国内外众多学者的兴趣并取得了比较丰富的成果，但是已有的基于机器学习的算法在效率及通用性等方面仍存在许多亟待解决的问题。本发明主要针对廉价移动终端开发交互手势识别方法。由于在性能较低的移动终端较难实现大规模神经网络运算，因此现有的在线手势识别方法一般都无法使用机器学习技术，因此难以高效准确的处理交互手势的识别和判断。而非在线技术则由于设备性能的限制，难以使用在轻量化设备中。

发明内容

本发明目的在于针对现有基于机器学习的手势交互方法对于性能较低的移动终端较难实现大规模神经网络运算的缺陷，提供一种基于E-SOINN网络的在线人机交互方法。

本发明为实现上述目的，采用如下技术方案：

一种基于E-SOINN网络的在线人机交互方法，其特征在于包括下述步骤：

(1)训练神经网络：

1.1从视频库中获取一段手势动作帧序列，假设总帧数为n；

1.2从帧序列提取第i帧，第i+1帧，第i+2帧图像，记为：Ii,Ii+1,Ii+2，i的初始值为1；

1.3将图像Ii分解为RGB三通道，根据图像Ii的R G B三个分量中各自的平均值确定出图像Ii的平均灰度值，然后调整图像Ii每个像素的R G B值，使得调整后图像Ii的R GB三个分量中各自的平均值都趋于平均灰度值；

1.4对图像的红色通道进行如下处理：

1.4.1假设IR_i，IR_i+1，IR_i+2分别对应图像I_i，I_i+1，I_i+2的红色通道图像，记其像素点(x，y)的亮度值记分别为IR_i(x,y)、IR_i+1(x,y)和IR_i+2(x,y)，按照以下公式分别得到像素点(x，y)的差分图像DR_i(x,y)和DR_i+1(x,y)；

DR_i(x,y)＝|IR_i(x,y)-IR_i+1(x,y)|

DR_i+1(x,y)＝|IR_i+1(x,y)-IR_i+2(x,y)|

1.4.2对差分图像DR_i(x,y)和DR_i+1(x,y)按照以下公式进行与操作，得到像素点(x，y)的图像DR_i'(x,y)；

DR_i′(x,y)＝BR_i(x,y)∩BR_i+1(x,y)

其中∩是“与”运算，T是一个阈值；

1.5按照步骤1.4分别对绿蓝通道进行相同的处理；得到像素点(x，y)的图像DGi'(x,y)和图像DBi'(x,y)；

1.6根据像素点(x，y)的图像DRi(x,y)、图像DGi'(x,y)和图像DBi'(x,y)得到整个图像DRi'、DGi'、DBi'，对得到的三个图像DRi'、DGi'、DBi'进行以下公式运算，得到图像Di'：

D_i′＝DR_i∩DG_i∩DB_i

其中∩是“与”运算；

1.7根据人体肤色灰度值数据Gskin，标记出图像Di'中的手轮廓Aj；通过数学形态学方法填充图像Di'中的手轮廓；Gskin值通过100张照片数据求平均值得出；

1.8轮廓外区域设置颜色值为0，轮廓内区域设置颜色值为INT(256*i/n)，得到图像Si；

1.9如果第i帧是倒数第二帧，则执行步骤1.10，否则，则i＝i+1，跳转到步骤1.3；

1.10把图像Si输入到E-SOINN自组织增量神经网络中进行训练，输入下个视频，跳转到步骤1.1；

1.11对训练库里的所有视频执行步骤1.1-1.10后，得到训练好的神经网络；

(2)手势判断：

2.1在客户端，通过摄像头拍摄获取到一段手势动作帧序列，假设总帧数为n；

2.2执行训练神经网络步骤中的1.2-1.9步骤，得到图像S；

2.3把图像S通过互联网发送至服务器端，保存在服务器端存储器中；

2.4服务器端在接收到图像S后，输入到训练好的E-SOINN自组织增量神经网络中，判断出输入的手势动作属于什么类型手势；

2.5把结果输出，发送至客户端,进行相应手势操作。

其进一步特征在于：在步骤1.1和步骤1.2之间对图像Ii进项中值滤波去噪操作，提高鲁棒性。

优选的：所述步骤1.4.2中红色通道T的阈值设置为20，绿色通道T的阈值设置为8，蓝色通道T的阈值设置为13。

步骤2.3中，当服务器空闲时，同时保存的图像数量大于阈值N后，使用新的数据调整神经网络；所述N的阈值设置为100。

本发明是主要针对廉价移动终端开发交互手势识别方法。基于帧间差分法和E-SOINN自组织增量神经网络，客户端采集手势视频，通过网络就可以实现手势识别。实现低性能的移动终端手势识别过程。

附图说明

图1为本发明方法流程示意图。

具体实施方式

如图1所示一种基于E-SOINN网络的在线人机交互方法，主要分为训练神经网络和手势交互识别两个步骤。

一、训练神经网络的步骤如下：

1.从视频库中获取一段手势动作帧序列，假设总帧数为n。

2.对帧序列内的所有图像进项中值滤波去噪，提高鲁棒性。

3.从帧序列提取第i帧，第i+1帧，第i+2帧图像，记为：I_i，I_i+1，I_i+2(i的初始值为1)。

4.假设图像是RGB三通道图像，根据图像I_i的R G B三个分量中各自的平均值确定出图像I_i的平均灰度值，然后调整图像I_i每个像素的R G B值，使得调整后图像I_i的R G B三个分量中各自的平均值都趋于平均灰度值。

5.分别对其三个通道执行以下操作(以下以红色通道为例，其余通道操作类似)：

a)假设IR_i，IR_i+1，IR_i+2分别对应图像I_i，I_i+1，I_i+2的红色通道图像，记其像素点(x,y)的亮度值记分别为IR_i(x,y)、IR_i+1(x,y)和IR_i+2(x,y)，按照以下公式分别得到素点(x,y)的差分图像DR_i(x,y)和DR_i+1(x,y)；

DR_i(x,y)＝|IR_i(x,y)-IR_i+1(x,y)|

DR_i+1(x,y)＝|IR_i+1(x,y)-IR_i+2(x,y)|

b)对差分图像DR_i(x,y)和DR_i+1(x,y)按照以下公式进行与操作，得到图像DR_i'(x,y)；

DR_i′(x,y)＝BR_i(x,y)∩BR_i+1(x,y)

其中∩是“与”运算，T是一个阈值，由于人体皮肤在红色通道中与背景差异最大，因此T的值设为20即可。

6.对绿和蓝通道也分别执行步骤5的操作，其中的阈值T分别设为8和13；得到图像DG_i'(x,y)和图像DB_i'(x,y)

7.根据像素点(x，y)的图像DRi(x,y)、图像DGi'(x,y)和图像DBi'(x,y)得到整个图像DRi'、DGi'、DBi'，对得到的三个图像DRi'、DGi'、DBi'进行以下公式运算，得到图像Di'：

D_i′＝DR_i∩DG_i∩DB_i

其中∩是“与”运算。

8.根据人体肤色灰度值数据G_skin(该值通过100张照片数据求平均值得出)，标记出图像D_i'中的手轮廓A_j；通过数学形态学方法填充图像D_i'中的手轮廓。

9.轮廓外区域设置颜色值为0，轮廓内区域设置颜色值为INT(256*i/n)，得到图像S_i。

10.如果第i帧是倒数第二帧，则执行步骤11，否则，则i＝i+1，跳转到步骤3。

11.把图像S_i输入到E-SOINN自组织增量神经网络中进行训练，输入下个视频，跳转到步骤1。

12.对训练库里的所有视频执行步骤1-11后，得到训练好的神经网络。

二、手势判断的步骤如下：

1.在客户端，通过摄像头拍摄获取到一段手势动作帧序列，假设总帧数为n。

2.执行训练步骤一中的2-10小步骤，得到图像S。

3.把图像S通过互联网发送至服务器端。

4.服务器端在接收到图像S后，输入到训练好的E-SOINN自组织增量神经网络中，判断出输入的手势动作属性什么类型手势。

5.把图像S保存在服务器端存储器中，当服务器空闲时，同时保存的图像数量大于阈值N后(N＝100)，使用新的数据调整神经网络。

6.把结果输出，发送至客户端,进行相应手势操作。

Claims

1.一种基于E-SOINN网络的在线人机交互方法，其特征在于包括下述步骤：

(1)训练神经网络：

1.1 从视频库中获取一段手势动作帧序列，假设总帧数为n；

1.2 从帧序列提取第i帧，第i+1帧，第i+2帧图像，记为：Ii，Ii+1，Ii+2，i的初始值为1；

1.3 将图像Ii分解为RGB三通道，根据图像Ii的R G B三个分量中各自的平均值确定出图像Ii的平均灰度值，然后调整图像Ii每个像素的R G B值，使得调整后图像Ii的R G B三个分量中各自的平均值都趋于平均灰度值；

1.4 对图像的红色通道进行如下处理：

1.4.1 假设IR_i，IR_i+1，IR_i+2分别对应图像I_i，I_i+1，I_i+2的红色通道图像，记其像素点(x，y)的亮度值记分别为IR_i(x，y)、IR_i+1(x，y)和IR_i+2(x，y)，按照以下公式分别得到像素点(x，y)的差分图像DR_i(x，y)和DR_i+1(x，y)；

DR_i(x，y)＝|IR_i(x，y)-IR_i+1(x，y)|

DR_i+1(x，y)＝|IR_i+1(x，y)-IR_i+2(x，y)|

1.4.2 对差分图像DR_i(x，y)和DR_i+1(x，y)按照以下公式进行与操作，得到像素点(x，y)的图像DR_i′(x，y)；

DR_i′(x，y)＝BR_i(x，y)∩BR_i+1(x，y)

其中∩是“与”运算，T是一个阈值；

1.5 按照步骤1.4分别对绿蓝通道进行相同的处理；得到像素点(x，y)的图像DGi′(x，y)和图像DBi′(x，y)；

1.6 根据像素点(x，y)的图像DRi′(x，y)、图像DGi′(x，y)和图像DBi′(x，y)得到整个图像DRi′、DGi′、DBi′，对得到的三个图像DRi′、DGi′、DBi′进行以下公式运算，得到图像Di′：

D′_i＝DR′_i∩DG′_i∩DB′_i

其中∩是“与”运算；

1.7 根据人体肤色灰度值数据Gskin，标记出图像Di′中的手轮廓Aj；通过数学形态学方法填充图像Di′中的手轮廓；Gskin值通过100张照片数据求平均值得出；

1.8 轮廓外区域设置颜色值为0，轮廓内区域设置颜色值为INT(256*i/n)，得到图像Si；

1.9 如果第i帧是倒数第二帧，则执行步骤1.10，否则，则i＝i+1，跳转到步骤1.3；

1.10 把图像Si输入到E-SOINN自组织增量神经网络中进行训练，输入下个视频，跳转到步骤1.1；

1.11 对训练库里的所有视频执行步骤1.1-1.10后，得到训练好的神经网络；

(2)手势判断：

2.1 在客户端，通过摄像头拍摄获取到一段手势动作帧序列，假设总帧数为n；

2.2 执行训练神经网络步骤中的1.2-1.9步骤，得到图像S；

2.3 把图像S通过互联网发送至服务器端，保存在服务器端存储器中；

2.4 服务器端在接收到图像S后，输入到训练好的E-SOINN自组织增量神经网络中，判断出输入的手势动作属于什么类型手势；

2.5 把结果输出，发送至客户端,进行相应手势操作。

2.根据权利要求1所述的基于E-SOINN网络的在线人机交互方法，其特征在于：在步骤1.1和步骤1.2之间对图像Ii进项中值滤波去噪操作，提高鲁棒性。

3.根据权利要求1所述的基于E-SOINN网络的在线人机交互方法，其特征在于：所述步骤1.4.2中红色通道T的阈值设置为20，绿色通道T的阈值设置为8，蓝色通道T的阈值设置为13。

4.根据权利要求1-3任一项所述的基于E-SOINN网络的在线人机交互方法，其特征在于：步骤2.3中，当服务器空闲时，同时保存的图像数量大于阈值N后，使用新的数据调整神经网络。

5.根据权利要求4所述的基于E-SOINN网络的在线人机交互方法，其特征在于：所述N的阈值设置为100。