CN112712103A - 一种基于多特征提取与融合的头势识别算法 - Google Patents
一种基于多特征提取与融合的头势识别算法 Download PDFInfo
- Publication number
- CN112712103A CN112712103A CN202011378619.8A CN202011378619A CN112712103A CN 112712103 A CN112712103 A CN 112712103A CN 202011378619 A CN202011378619 A CN 202011378619A CN 112712103 A CN112712103 A CN 112712103A
- Authority
- CN
- China
- Prior art keywords
- optical flow
- fusion
- dense optical
- picture sequence
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 36
- 238000000605 extraction Methods 0.000 title claims abstract description 28
- 230000003287 optical effect Effects 0.000 claims abstract description 77
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000000034 method Methods 0.000 claims abstract description 18
- 238000013528 artificial neural network Methods 0.000 claims abstract description 5
- 238000005070 sampling Methods 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000000474 nursing effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000004148 unit process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
- G06V10/464—Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
Abstract
本发明公开了一种基于多特征提取与融合的头势识别算法,包括:利用RGB相机采集的视频数据,并进行数据增强,得到训练集;使用稠密光流算法从训练集中得到稠密光流图片序列,将训练集的原图片序列和提取的稠密光流图片序列分别输入RGB特征提取3DInceptionV2通道和光流特征提取3DInceptionV2通道,并进行特征交叉融合;通过3DInception模块提取融合特征的高维动作特征;通过迭代训练神经网络参数,得到3DInceptionV2网络模型参数;用RGB相机采集待识别的RGB视频数据,得到待测集,通过稠密光流算法获取稠密光流图片序列,待测集图片序列和稠密光流图片序列数据并行输入加载模型参数的双流3DInceptionV2网络中,获得对应的头势识别结果。本发明拥有更好的便携性、易用性且易于功能扩展。
Description
技术领域
本发明涉及人机交互技术领域,特别涉及一种基于多特征提取与融合的头势识别算法。
背景技术
人机交互是实现用户和机器之间信息交换的通路,现有交互方式主要有触控操作、手势识别、语音识别等,自然的人机交互方式是机器人智能化关键技术之一。头势识别是人与人传递特定语义,携带一些副语言信息的交互方式,通过对头部动作进行识别,可以更好地理解用户的语义,还可以通过头部动作进行机器人行为控制,所以头势识别是人机交互必不可少的分支。对大部分护理机器人来说,头势识别可以作为交互的基础组成部分,而头势是人类常用的交互方式,常常用来表示否定或肯定意愿,因此头势识别在机器人控制、人机交流等领域具有广泛的应用性。
现有技术在这方面的成果不多,如授权公告号CN101889928B的发明公开了一种基于头势识别技术的轮椅控制方法,在轮椅车体上安装图像采集设备、计算及控制单元、支架及电机。当使用轮椅时,图像采集设备实时的采集轮椅使用者的头部图像并传输至计算及控制单元中。计算单元通过对图像进行处理、分析和计算,得到人脸和鼻子的位置信息,并据此判断使用者的头部姿势。根据所获取的头部姿势,由计算及控制单元产生对应的控制命令。最后电机根据得到的控制命令,驱动轮椅运动。
上述现有技术主要依靠判断鼻子位置来确定头势,局限性较大,识别精确度低。
发明内容
针对现有技术识别精度低的问题,本发明提供了一种基于多特征提取与融合的头势识别算法,同时利用稠密光流算法获取的动作信息和RGB存在的空间信息并训练双流3DInceptionV2网络获取更多的头部动作高维度特征,从而得到头势识别模型,在获取实时头部动作之后,通过均匀取帧获取关键运动信息,再根据训练的模型,快速准确地获取用户的头部动作类别。
以下是本发明的技术方案。
一种基于多特征提取与融合的头势识别算法,包括以下步骤:利用RGB相机采集的视频数据,并进行数据增强,得到训练集;使用稠密光流算法从训练集中得到稠密光流图片序列,将训练集的原图片序列和提取的稠密光流图片序列分别输入RGB特征提取3DInceptionV2通道和光流特征提取3DInceptionV2通道,并进行特征交叉融合;通过3DInception模块提取融合特征的高维动作特征;通过迭代训练神经网络参数,得到3DInceptionV2网络模型参数;用RGB相机采集待识别的RGB视频数据,得到待测集,通过稠密光流算法获取稠密光流图片序列,待测集图片序列和稠密光流图片序列数据并行输入加载模型参数的双流3DInceptionV2网络中,获得对应的头势识别结果。
本发明利用3DInceptionV2网络提取高维、高表征的动作特征,将动作特征获取的计算转移到网络训练过程中,使得头势识别拥有更好的便携性、易用性且易于功能扩展。
作为优选,所述数据增强包括:对视频数据进行随机角度旋转、随机裁剪、随机调节亮度和随机调节对比度,并在视频中选取中间帧以前的任意一帧为起始帧,截取一半帧数的图像序列,得到帧数是原视频一半的若干图像序列作为训练集。牺牲部分帧数,以扩充训练集,可以大幅增加数据量。
作为优选,所述训练集的稠密光流图片序列的获得过程包括:使用稠密光流算法提取训练集中相邻两帧图片之间的稠密光流数据,训练集中n帧光流图片序列可获得n-1帧稠密光流图片序列,复制训练集中原第一帧填充到稠密光流图片序列中,获得最终的n帧稠密光流图片序列。
作为优选,所述特征交叉融合包括:通过特征图交叉融合通道将两个3DInceptionV2网络分别提取的RGB特征与光流特征进行交叉融合;将交叉融合的特征通过3D卷积和3D池化对融合特征进行特征提取与融合。
作为优选,所述待测集的获取过程还包括降采样:将获得的待识别的RGB视频数据每隔1帧进行采样处理,得到帧数为原有一半的待测集。
作为优选,所述待测集的稠密光流图片序列的获得过程包括:使用稠密光流算法提取待测集相邻两帧图片之间的稠密光流数据,其中m帧光流图片序列可获得m-1帧稠密光流图片序列,复制原第一帧填充到稠密光流图片序列中,获得最终的m帧稠密光流图片序列。
作为优选,所述RGB相机采样帧率为30fps/s,每次采集时长在2s以内。
作为优选,所述训练集和待测集的获得过程还包括格式统一步骤:每帧图片的长宽比例缩放成最短边为112像素的大小,并居中裁剪成112×112大小的图片。
本发明的实质性效果包括:同时利用稠密光流算法获取的动作信息和RGB存在的空间信息并训练双流3DInceptionV2网络获取更多的头部动作高维度特征,从而得到头势识别模型,在获取实时头部动作之后,通过均匀取帧获取关键运动信息,再根据训练的模型,快速准确地获取用户的头部动作类别,该方法利用3DInceptionV2网络提取高维、高表征的动作特征,将动作特征获取的计算转移到网络训练过程,使得头势识别拥有更好的便携性、易用性且易于功能扩展。本发明还可以训练其他肢体动作数据,从而可以应用到更多的场景。
附图说明
图1是本发明实施例的流程示意图。
具体实施方式
下面将结合实施例,对本申请的技术方案进行描述。另外,为了更好的说明本发明,在下文中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本发明同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未做详细描述,以便于凸显本发明的主旨。
实施例:
一种基于多特征提取与融合的头势识别算法的流程图,包括:利用RGB相机采集的视频数据,并进行数据增强,得到训练集;使用稠密光流算法从训练集中得到稠密光流图片序列,将训练集的原图片序列和提取的稠密光流图片序列分别输入RGB特征提取3DInceptionV2通道和光流特征提取3DInceptionV2通道,并进行特征交叉融合;通过3DInception模块提取融合特征的高维动作特征;通过迭代训练神经网络参数,得到3DInceptionV2网络模型参数;用RGB相机采集待识别的RGB视频数据,得到待测集,通过稠密光流算法获取稠密光流图片序列,待测集图片序列和稠密光流图片序列数据并行输入加载模型参数的双流3DInceptionV2网络中,获得对应的头势识别结果。
本实施例采用如图1所示的流程,具体包括以下详细步骤:
步骤一:使用帧率为30fps/s的RGB相机尽可能多地采集2s左右的头部动作视频数据用于网络训练。
步骤二:将视频均匀采集成帧率为16fps/s,时长为2s的视频,采集的视频最终含有32帧图像数据。
步骤三:将视频进行随机小角度旋转、随机裁剪、随机调节亮度和对比度对数据进行增强。
步骤四:把视频每帧数据的长宽比例缩放成最短边为112像素的大小,并居中裁剪成112×112大小的图片。
步骤五:在上述32帧图像的前16帧中随机选取起始帧,再按顺序获取后16帧图像序列作为训练集,以此提高数据多样性。
步骤六:使用稠密光流算法提取上述16帧数据相邻两帧图片之间的稠密光流数据,16帧图片序列可获得15帧稠密光流图片序列,复制原光流图片序列第一帧填充到稠密光流图片序列中,最终获得16帧稠密光流图片序列。
步骤七:把16帧原图像序列数据和其提取的16帧稠密光流图片序列同时分别输入RGB特征提取3DInceptionV2通道和光流特征提取3DInceptionV2通道。
步骤八:通过特征图交叉融合通道把两个3DInceptionV2网络分别提取的RGB特征与光流特征进行交叉融合。
步骤九:把交叉融合的特征通过3D卷积和3D池化对融合特征进行特征提取与融合。
步骤十:通过3DInception模块提取融合特征的高维动作特征。
步骤十一:通过迭代训练神经网络参数,得到3DInceptionV2网络模型参数。
步骤十二: 通过帧率为30fps/s的RGB相机获取实时32帧数据作为待测数据。
步骤十三:把32帧数据每隔1帧进行采样处理,最终获得16帧RGB数据。
步骤十四:把RGB数据的每帧按长宽比例缩放成最短边为112像素的大小,并居中裁剪成112×112大小的图片。
步骤十五:通过稠密光流算法获取16帧RGB数据的稠密光流,可获得15帧稠密光流图片序列,复制原光流图片序列第一帧填充到稠密光流图片序列中,最终获得16帧稠密光流图片序列。
步骤十六:把 RGB数据和稠密光流数据并行输入加载模型参数的双流3DInceptionV2网络中,从而获得对应的头势类别。
通过以上实施方式的描述,所属领域的技术人员可以了解到,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上内容,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (8)
1.一种基于多特征提取与融合的头势识别算法,其特征在于,包括以下步骤:
利用RGB相机采集的视频数据,并进行数据增强,得到训练集;
使用稠密光流算法从训练集中得到稠密光流图片序列,将训练集的原图片序列和提取的稠密光流图片序列分别输入RGB特征提取3DInceptionV2通道和光流特征提取3DInceptionV2通道,并进行特征交叉融合;
通过3DInception模块提取融合特征的高维动作特征;通过迭代训练神经网络参数,得到3DInceptionV2网络模型参数;
用RGB相机采集待识别的RGB视频数据,得到待测集,通过稠密光流算法获取稠密光流图片序列,待测集图片序列和稠密光流图片序列数据并行输入加载模型参数的双流3DInceptionV2网络中,获得对应的头势识别结果。
2.根据权利要求1所述的一种基于多特征提取与融合的头势识别算法,其特征在于,所述数据增强包括:对视频数据进行随机角度旋转、随机裁剪、随机调节亮度和随机调节对比度,并在视频中选取中间帧以前的任意一帧为起始帧,截取一半帧数的图像序列,得到帧数是原视频一半的若干图像序列作为训练集。
3.根据权利要求1或2所述的一种基于多特征提取与融合的头势识别算法,其特征在于,所述训练集的稠密光流图片序列的获得过程包括:使用稠密光流算法提取训练集中相邻两帧图片之间的稠密光流数据,训练集中n帧光流图片序列可获得n-1帧稠密光流图片序列,复制训练集中原第一帧填充到稠密光流图片序列中,获得最终的n帧稠密光流图片序列。
4.根据权利要求1或2所述的一种基于多特征提取与融合的头势识别算法,其特征在于,所述特征交叉融合包括:通过特征图交叉融合通道将两个3DInceptionV2网络分别提取的RGB特征与光流特征进行交叉融合;将交叉融合的特征通过3D卷积和3D池化对融合特征进行特征提取与融合。
5.根据权利要求1或2所述的一种基于多特征提取与融合的头势识别算法,其特征在于,所述待测集的获取过程还包括降采样:将获得的待识别的RGB视频数据每隔1帧进行采样处理,得到帧数为原有一半的待测集。
6.根据权利要求1所述的一种基于多特征提取与融合的头势识别算法,其特征在于,所述待测集的稠密光流图片序列的获得过程包括:使用稠密光流算法提取待测集相邻两帧图片之间的稠密光流数据,其中m帧光流图片序列可获得m-1帧稠密光流图片序列,复制原第一帧填充到稠密光流图片序列中,获得最终的m帧稠密光流图片序列。
7.根据权利要求1所述的一种基于多特征提取与融合的头势识别算法,其特征在于,所述RGB相机采样帧率为30fps/s,每次采集时长在2s以内。
8.根据权利要求1所述的一种基于多特征提取与融合的头势识别算法,其特征在于,所述训练集和待测集的获得过程还包括格式统一步骤:每帧图片的长宽比例缩放成最短边为112像素的大小,并居中裁剪成112×112大小的图片。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011378619.8A CN112712103B (zh) | 2020-12-01 | 2020-12-01 | 一种基于多特征提取与融合的头势识别算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011378619.8A CN112712103B (zh) | 2020-12-01 | 2020-12-01 | 一种基于多特征提取与融合的头势识别算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112712103A true CN112712103A (zh) | 2021-04-27 |
CN112712103B CN112712103B (zh) | 2024-02-06 |
Family
ID=75543319
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011378619.8A Active CN112712103B (zh) | 2020-12-01 | 2020-12-01 | 一种基于多特征提取与融合的头势识别算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112712103B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116883913A (zh) * | 2023-09-05 | 2023-10-13 | 长江信达软件技术(武汉)有限责任公司 | 一种基于视频流相邻帧的船只识别方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108288035A (zh) * | 2018-01-11 | 2018-07-17 | 华南理工大学 | 基于深度学习的多通道图像特征融合的人体动作识别方法 |
WO2020102988A1 (zh) * | 2018-11-20 | 2020-05-28 | 西安电子科技大学 | 基于特征融合和稠密连接的红外面目标检测方法 |
-
2020
- 2020-12-01 CN CN202011378619.8A patent/CN112712103B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108288035A (zh) * | 2018-01-11 | 2018-07-17 | 华南理工大学 | 基于深度学习的多通道图像特征融合的人体动作识别方法 |
WO2020102988A1 (zh) * | 2018-11-20 | 2020-05-28 | 西安电子科技大学 | 基于特征融合和稠密连接的红外面目标检测方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116883913A (zh) * | 2023-09-05 | 2023-10-13 | 长江信达软件技术(武汉)有限责任公司 | 一种基于视频流相邻帧的船只识别方法及系统 |
CN116883913B (zh) * | 2023-09-05 | 2023-11-21 | 长江信达软件技术(武汉)有限责任公司 | 一种基于视频流相邻帧的船只识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112712103B (zh) | 2024-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11430263B2 (en) | Machine vision with dimensional data reduction | |
CN109635621B (zh) | 用于第一人称视角中基于深度学习识别手势的系统和方法 | |
Chen et al. | Fsrnet: End-to-end learning face super-resolution with facial priors | |
CN107239728A (zh) | 基于深度学习姿态估计的无人机交互装置与方法 | |
EP3811337A1 (en) | System for predicting articulated object feature location | |
CN109345253A (zh) | 资源转移方法、装置及系统 | |
CN109961005A (zh) | 一种基于二维卷积网络的动态手势识别方法及系统 | |
US11488320B2 (en) | Pose estimation method, pose estimation apparatus, and training method for pose estimation | |
CN112308949A (zh) | 模型训练、人脸图像生成方法和装置以及存储介质 | |
CN111080776B (zh) | 人体动作三维数据采集和复现的处理方法及系统 | |
CN116997941A (zh) | 用于姿态估计的基于关键点的采样 | |
KR101916675B1 (ko) | 사용자 인터랙션을 위한 제스처 인식 방법 및 시스템 | |
CN110705566A (zh) | 一种基于空间金字塔池的多模态融合显著性检测方法 | |
CN110619334A (zh) | 基于深度学习的人像分割方法、架构及相关装置 | |
CN115331259A (zh) | 一种三维人体姿态估计方法、系统及存储介质 | |
CN113570689B (zh) | 人像卡通化方法、装置、介质和计算设备 | |
CN112712103B (zh) | 一种基于多特征提取与融合的头势识别算法 | |
CN111126358A (zh) | 人脸检测方法、装置、存储介质及设备 | |
CN114613006A (zh) | 一种远距离手势识别方法及装置 | |
CN112766028A (zh) | 人脸模糊处理方法、装置、电子设备及存储介质 | |
CN112329663B (zh) | 一种基于人脸图像序列的微表情时刻检测方法及装置 | |
CN115984949B (zh) | 一种带有注意力机制的低质量人脸图像识别方法及设备 | |
Meshram et al. | Convolution Neural Network based Hand Gesture Recognition System | |
CN113887373B (zh) | 基于城市智慧体育的并行融合网络的姿态识别方法和系统 | |
CN115205974A (zh) | 手势识别方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |