CN112712103A

CN112712103A - 一种基于多特征提取与融合的头势识别算法

Info

Publication number: CN112712103A
Application number: CN202011378619.8A
Authority: CN
Inventors: 谢佳龙; 张波涛; 王煜升; 吴秋轩
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-12-01
Filing date: 2020-12-01
Publication date: 2021-04-27
Anticipated expiration: 2040-12-01
Also published as: CN112712103B

Abstract

本发明公开了一种基于多特征提取与融合的头势识别算法，包括：利用RGB相机采集的视频数据，并进行数据增强，得到训练集；使用稠密光流算法从训练集中得到稠密光流图片序列，将训练集的原图片序列和提取的稠密光流图片序列分别输入RGB特征提取3DInceptionV2通道和光流特征提取3DInceptionV2通道，并进行特征交叉融合；通过3DInception模块提取融合特征的高维动作特征；通过迭代训练神经网络参数，得到3DInceptionV2网络模型参数；用RGB相机采集待识别的RGB视频数据，得到待测集，通过稠密光流算法获取稠密光流图片序列，待测集图片序列和稠密光流图片序列数据并行输入加载模型参数的双流3DInceptionV2网络中，获得对应的头势识别结果。本发明拥有更好的便携性、易用性且易于功能扩展。

Description

一种基于多特征提取与融合的头势识别算法

技术领域

本发明涉及人机交互技术领域，特别涉及一种基于多特征提取与融合的头势识别算法。

背景技术

人机交互是实现用户和机器之间信息交换的通路，现有交互方式主要有触控操作、手势识别、语音识别等，自然的人机交互方式是机器人智能化关键技术之一。头势识别是人与人传递特定语义，携带一些副语言信息的交互方式，通过对头部动作进行识别，可以更好地理解用户的语义，还可以通过头部动作进行机器人行为控制，所以头势识别是人机交互必不可少的分支。对大部分护理机器人来说，头势识别可以作为交互的基础组成部分，而头势是人类常用的交互方式，常常用来表示否定或肯定意愿，因此头势识别在机器人控制、人机交流等领域具有广泛的应用性。

现有技术在这方面的成果不多，如授权公告号CN101889928B的发明公开了一种基于头势识别技术的轮椅控制方法，在轮椅车体上安装图像采集设备、计算及控制单元、支架及电机。当使用轮椅时，图像采集设备实时的采集轮椅使用者的头部图像并传输至计算及控制单元中。计算单元通过对图像进行处理、分析和计算，得到人脸和鼻子的位置信息，并据此判断使用者的头部姿势。根据所获取的头部姿势，由计算及控制单元产生对应的控制命令。最后电机根据得到的控制命令，驱动轮椅运动。

上述现有技术主要依靠判断鼻子位置来确定头势，局限性较大，识别精确度低。

发明内容

针对现有技术识别精度低的问题，本发明提供了一种基于多特征提取与融合的头势识别算法，同时利用稠密光流算法获取的动作信息和RGB存在的空间信息并训练双流3DInceptionV2网络获取更多的头部动作高维度特征，从而得到头势识别模型，在获取实时头部动作之后，通过均匀取帧获取关键运动信息，再根据训练的模型，快速准确地获取用户的头部动作类别。

以下是本发明的技术方案。

一种基于多特征提取与融合的头势识别算法，包括以下步骤：利用RGB相机采集的视频数据，并进行数据增强，得到训练集；使用稠密光流算法从训练集中得到稠密光流图片序列，将训练集的原图片序列和提取的稠密光流图片序列分别输入RGB特征提取3DInceptionV2通道和光流特征提取3DInceptionV2通道，并进行特征交叉融合；通过3DInception模块提取融合特征的高维动作特征；通过迭代训练神经网络参数，得到3DInceptionV2网络模型参数；用RGB相机采集待识别的RGB视频数据，得到待测集，通过稠密光流算法获取稠密光流图片序列，待测集图片序列和稠密光流图片序列数据并行输入加载模型参数的双流3DInceptionV2网络中，获得对应的头势识别结果。

本发明利用3DInceptionV2网络提取高维、高表征的动作特征，将动作特征获取的计算转移到网络训练过程中，使得头势识别拥有更好的便携性、易用性且易于功能扩展。

作为优选，所述数据增强包括：对视频数据进行随机角度旋转、随机裁剪、随机调节亮度和随机调节对比度，并在视频中选取中间帧以前的任意一帧为起始帧，截取一半帧数的图像序列，得到帧数是原视频一半的若干图像序列作为训练集。牺牲部分帧数，以扩充训练集，可以大幅增加数据量。

作为优选，所述训练集的稠密光流图片序列的获得过程包括：使用稠密光流算法提取训练集中相邻两帧图片之间的稠密光流数据，训练集中n帧光流图片序列可获得n-1帧稠密光流图片序列，复制训练集中原第一帧填充到稠密光流图片序列中，获得最终的n帧稠密光流图片序列。

作为优选，所述特征交叉融合包括：通过特征图交叉融合通道将两个3DInceptionV2网络分别提取的RGB特征与光流特征进行交叉融合；将交叉融合的特征通过3D卷积和3D池化对融合特征进行特征提取与融合。

作为优选，所述待测集的获取过程还包括降采样：将获得的待识别的RGB视频数据每隔1帧进行采样处理，得到帧数为原有一半的待测集。

作为优选，所述待测集的稠密光流图片序列的获得过程包括：使用稠密光流算法提取待测集相邻两帧图片之间的稠密光流数据，其中m帧光流图片序列可获得m-1帧稠密光流图片序列，复制原第一帧填充到稠密光流图片序列中，获得最终的m帧稠密光流图片序列。

作为优选，所述RGB相机采样帧率为30fps/s，每次采集时长在2s以内。

作为优选，所述训练集和待测集的获得过程还包括格式统一步骤：每帧图片的长宽比例缩放成最短边为112像素的大小，并居中裁剪成112×112大小的图片。

本发明的实质性效果包括：同时利用稠密光流算法获取的动作信息和RGB存在的空间信息并训练双流3DInceptionV2网络获取更多的头部动作高维度特征，从而得到头势识别模型，在获取实时头部动作之后，通过均匀取帧获取关键运动信息，再根据训练的模型，快速准确地获取用户的头部动作类别，该方法利用3DInceptionV2网络提取高维、高表征的动作特征，将动作特征获取的计算转移到网络训练过程，使得头势识别拥有更好的便携性、易用性且易于功能扩展。本发明还可以训练其他肢体动作数据，从而可以应用到更多的场景。

附图说明

图1是本发明实施例的流程示意图。

具体实施方式

下面将结合实施例，对本申请的技术方案进行描述。另外，为了更好的说明本发明，在下文中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本发明同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未做详细描述，以便于凸显本发明的主旨。

实施例：

一种基于多特征提取与融合的头势识别算法的流程图，包括：利用RGB相机采集的视频数据，并进行数据增强，得到训练集；使用稠密光流算法从训练集中得到稠密光流图片序列，将训练集的原图片序列和提取的稠密光流图片序列分别输入RGB特征提取3DInceptionV2通道和光流特征提取3DInceptionV2通道，并进行特征交叉融合；通过3DInception模块提取融合特征的高维动作特征；通过迭代训练神经网络参数，得到3DInceptionV2网络模型参数；用RGB相机采集待识别的RGB视频数据，得到待测集，通过稠密光流算法获取稠密光流图片序列，待测集图片序列和稠密光流图片序列数据并行输入加载模型参数的双流3DInceptionV2网络中，获得对应的头势识别结果。

本实施例采用如图1所示的流程，具体包括以下详细步骤：

步骤一：使用帧率为30fps/s的RGB相机尽可能多地采集2s左右的头部动作视频数据用于网络训练。

步骤二：将视频均匀采集成帧率为16fps/s，时长为2s的视频，采集的视频最终含有32帧图像数据。

步骤三：将视频进行随机小角度旋转、随机裁剪、随机调节亮度和对比度对数据进行增强。

步骤四：把视频每帧数据的长宽比例缩放成最短边为112像素的大小，并居中裁剪成112×112大小的图片。

步骤五：在上述32帧图像的前16帧中随机选取起始帧，再按顺序获取后16帧图像序列作为训练集，以此提高数据多样性。

步骤六：使用稠密光流算法提取上述16帧数据相邻两帧图片之间的稠密光流数据，16帧图片序列可获得15帧稠密光流图片序列，复制原光流图片序列第一帧填充到稠密光流图片序列中，最终获得16帧稠密光流图片序列。

步骤七：把16帧原图像序列数据和其提取的16帧稠密光流图片序列同时分别输入RGB特征提取3DInceptionV2通道和光流特征提取3DInceptionV2通道。

步骤八：通过特征图交叉融合通道把两个3DInceptionV2网络分别提取的RGB特征与光流特征进行交叉融合。

步骤九：把交叉融合的特征通过3D卷积和3D池化对融合特征进行特征提取与融合。

步骤十：通过3DInception模块提取融合特征的高维动作特征。

步骤十一：通过迭代训练神经网络参数，得到3DInceptionV2网络模型参数。

步骤十二：通过帧率为30fps/s的RGB相机获取实时32帧数据作为待测数据。

步骤十三：把32帧数据每隔1帧进行采样处理，最终获得16帧RGB数据。

步骤十四：把RGB数据的每帧按长宽比例缩放成最短边为112像素的大小，并居中裁剪成112×112大小的图片。

步骤十五：通过稠密光流算法获取16帧RGB数据的稠密光流，可获得15帧稠密光流图片序列，复制原光流图片序列第一帧填充到稠密光流图片序列中，最终获得16帧稠密光流图片序列。

步骤十六：把 RGB数据和稠密光流数据并行输入加载模型参数的双流3DInceptionV2网络中，从而获得对应的头势类别。

通过以上实施方式的描述，所属领域的技术人员可以了解到，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上内容，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于多特征提取与融合的头势识别算法，其特征在于，包括以下步骤：

利用RGB相机采集的视频数据，并进行数据增强，得到训练集；

使用稠密光流算法从训练集中得到稠密光流图片序列，将训练集的原图片序列和提取的稠密光流图片序列分别输入RGB特征提取3DInceptionV2通道和光流特征提取3DInceptionV2通道，并进行特征交叉融合；

通过3DInception模块提取融合特征的高维动作特征；通过迭代训练神经网络参数，得到3DInceptionV2网络模型参数；

用RGB相机采集待识别的RGB视频数据，得到待测集，通过稠密光流算法获取稠密光流图片序列，待测集图片序列和稠密光流图片序列数据并行输入加载模型参数的双流3DInceptionV2网络中，获得对应的头势识别结果。

2.根据权利要求1所述的一种基于多特征提取与融合的头势识别算法，其特征在于，所述数据增强包括：对视频数据进行随机角度旋转、随机裁剪、随机调节亮度和随机调节对比度，并在视频中选取中间帧以前的任意一帧为起始帧，截取一半帧数的图像序列，得到帧数是原视频一半的若干图像序列作为训练集。

3.根据权利要求1或2所述的一种基于多特征提取与融合的头势识别算法，其特征在于，所述训练集的稠密光流图片序列的获得过程包括：使用稠密光流算法提取训练集中相邻两帧图片之间的稠密光流数据，训练集中n帧光流图片序列可获得n-1帧稠密光流图片序列，复制训练集中原第一帧填充到稠密光流图片序列中，获得最终的n帧稠密光流图片序列。

4.根据权利要求1或2所述的一种基于多特征提取与融合的头势识别算法，其特征在于，所述特征交叉融合包括：通过特征图交叉融合通道将两个3DInceptionV2网络分别提取的RGB特征与光流特征进行交叉融合；将交叉融合的特征通过3D卷积和3D池化对融合特征进行特征提取与融合。

5.根据权利要求1或2所述的一种基于多特征提取与融合的头势识别算法，其特征在于，所述待测集的获取过程还包括降采样：将获得的待识别的RGB视频数据每隔1帧进行采样处理，得到帧数为原有一半的待测集。

6.根据权利要求1所述的一种基于多特征提取与融合的头势识别算法，其特征在于，所述待测集的稠密光流图片序列的获得过程包括：使用稠密光流算法提取待测集相邻两帧图片之间的稠密光流数据，其中m帧光流图片序列可获得m-1帧稠密光流图片序列，复制原第一帧填充到稠密光流图片序列中，获得最终的m帧稠密光流图片序列。

7.根据权利要求1所述的一种基于多特征提取与融合的头势识别算法，其特征在于，所述RGB相机采样帧率为30fps/s，每次采集时长在2s以内。

8.根据权利要求1所述的一种基于多特征提取与融合的头势识别算法，其特征在于，所述训练集和待测集的获得过程还包括格式统一步骤：每帧图片的长宽比例缩放成最短边为112像素的大小，并居中裁剪成112×112大小的图片。