CN107679491B - 一种融合多模态数据的3d卷积神经网络手语识别方法 - Google Patents

一种融合多模态数据的3d卷积神经网络手语识别方法 Download PDF

Info

Publication number
CN107679491B
CN107679491B CN201710909671.3A CN201710909671A CN107679491B CN 107679491 B CN107679491 B CN 107679491B CN 201710909671 A CN201710909671 A CN 201710909671A CN 107679491 B CN107679491 B CN 107679491B
Authority
CN
China
Prior art keywords
layer
gesture
neural network
classification
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710909671.3A
Other languages
English (en)
Other versions
CN107679491A (zh
Inventor
廖盛斌
梁智杰
杨宗凯
刘三女牙
左明章
刘攀
吴琼
郭丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central China Normal University
Original Assignee
Central China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central China Normal University filed Critical Central China Normal University
Priority to CN201710909671.3A priority Critical patent/CN107679491B/zh
Publication of CN107679491A publication Critical patent/CN107679491A/zh
Application granted granted Critical
Publication of CN107679491B publication Critical patent/CN107679491B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多模态数据的3D卷积神经网络动态手语识别方法,具体为:构建深度神经网络,分别针对手势红外图像和轮廓图像从视频的空间维度和时间维度进行特征提取,融合两个基于不同数据格式的网络输出进行最终的手语分类。本发明对两种不同数据格式中的肢体运动轨迹信息进行准确的提取,有效降低了模型的计算复杂度,并采用深度学习策略融合两个网络的分类结果,有效解决了单个分类器由于数据丢失所引起的分类错误问题,使模型对不同场景的光照和背景噪声干扰有较好的鲁棒性。

Description

一种融合多模态数据的3D卷积神经网络手语识别方法
技术领域
本发明属于教育信息化技术领域,更具体的涉及一种基于3D卷积神经网络的动态手语识别方法及系统,可应用于科技馆环境下面向聋哑人特殊群体的体感互动。
背景技术
手语是聋哑人互相交流以及聋哑人与正常人交流最有利的工具,也是聋哑人群获取信息服务从而平等地参与社会生活、共享社会物质文化成果最重要最自然的途径。同时,动态手语因具有很强的视觉效果以及形象、直观的特点,在人机交互领域具有相当高的应用价值。
现有的手势识别方法都是遵循以下两个步骤:(1)从原始的输入数据中提取出复杂的特征;(2)基于提取到的特征训练出分类器。然而,人工的特征提取和选择是一件非常耗时耗力的工作,必须要有非常深厚的专业知识和经验才能确保分类特征的正确性。同时,人工选取的特征也很难适应动态手势的多变性。
中国专利申请号为201410795071.5的发明专利申请公开了一种基于主元分析和K均值聚类的手势识别方法,其主要技术方案为:人工标记视频流中的手势区域为感兴趣区域;利用肤色分割对感兴趣的区域进行边缘处理提取手部轮廓;最后利用PCA分析得到一个新的向量,通过比较新向量与训练得到的手势聚类中心之间的距离来判定该向量代表哪种手势。该方法采用K-Means无监督学习模型进行手势识别,所以前期的人工特征提取和选择情况会影响到系统的整体性能。
卷积神经网络(Convolutional Neural Networks,CNNs)是目前机器学习研究中一个新的热点,其优点在于通过多个串行的卷积层和池化层间隔排列,将原样本数据逐层变换到一个新的特征空间中,从而实现特征的自动提取。但是,传统的卷积神经网络是为了识别二维图像而设计的多层架构,现有算法在应对动态手势识别任务时无法考虑多帧之间的相关性,而时序特征恰恰是动态视频识别区别于静态图像识别的关键,这导致卷积神经网络在基于视频的动态手势识别方面的效果较差。
中国专利申请号为201710031563.0的发明专利申请公开了一种基于递归模型的手势识别方法,该方法的基本步骤包括:1.对静态、动态手势图像进行预处理;2.提取静态、动态手势空间序列;3.根据手势空间序列构造手势递归模型;4.通过手势递归模型进行手势分类。该方法采用RGB-D图像来训练深度网络模型,由于数据量比较大,计算分析数据慢,且算法复杂度较高,对于手部运动速度过快或肢体范围变化较大的动态手语,分类效果不够理想。
发明内容
针对上述现有技术中存在的不足,本发明提供了一种融合多模态数据的3D卷积神经网络的动态手语识别方法。该方法将传统的卷积神经网络(CNNs)进行了3D扩展,从视频的空间维度和时间维度进行特征提取,以捕捉到连续帧之间的肢体运动信息;根据不同的数据输入格式,分别训练两个3D卷积神经网络并将输出结果进行概率融合,从而达到复杂度低,实时性高、正确率高的目的。
为了实现上述任务,本发明采用以下技术方案:
一种基于多模态数据的3D卷积神经网络动态手语识别方法,包括以下步骤:
(1)提取待识别的手势红外图像和轮廓图像;
(2)将待识别的手势红外图像和轮廓图像分别输入两个3D卷积神经网络分类器,两个3D卷积神经网络分类器输出手势分类结果;
(3)对两个3D卷积神经网络输出手势分类结果进行加权计算得到融合分类结果;
所述步骤(2)中的两个3D卷积神经网络结构相同,均按照以下方式训练得到:
所述3D卷积神经网络结构包括输入层、至少两次交互堆叠的卷积层和池化层、softmax分类层;输入层将样本手势红外图像或样本轮廓图像输入交互堆叠的卷积层和池化层,得到用于手势分类的图像特征;softmax分类层依据图像特征进行分类输出手势类别结果;计算softmax分类层输出的手势分类结果与实际手势类别之间的误差,依据计算得到的误差反向传播计算每一层参数的梯度,进而依据梯度对连接每一层参数进行调整,该过程循环进行,直到使每一层参数达到分类输出的误差极小点而停止迭代;
所述卷积层表示为:
Figure BDA0001424559660000031
式中,
Figure BDA0001424559660000032
表示卷积层输出结果,
Figure BDA0001424559660000033
表示输入的样本图像数据,下标中(l-1)m表示第l-1层中的第m个特征图,上标中x和y代表输入样本的空间维度,z代表输入样本的时间维度,p,q,r分别是卷积操作中三个维度的大小;
Figure BDA0001424559660000034
是卷积核连接到前面第m个特征图中坐标为(i,j,m)的参数;Pi,Qi,Ri代表卷积核的大小;
Figure BDA0001424559660000037
表示l层中的第j个特征图的偏置参数;σ(·)是神经网络的激活函数;
所述池化层表示为:
Figure BDA0001424559660000035
式中,
Figure BDA0001424559660000036
为三维输入向量即卷积层输出结果,poolmax为池化后得到的输出,n和l分别代表池化操作在空间维度和时间维度上的大小。
进一步地,所述依据计算得到的误差反向传播计算每一层参数的梯度的具体实现方式为:
Figure BDA0001424559660000041
Figure BDA0001424559660000042
式中,▽f(θt)表示使用一个批量的样本数据训练后得到的误差L对于前一个迭代周期参数θt-1的梯度,vt是动量项,表示当前迭代累计的参数调整惯性,μ是冲量系数,ε表示学习速率。
进一步地,所述计算softmax分类层输出的手势分类结果与实际手势类别之间的误差的具体实现方式为:
Figure BDA0001424559660000043
式中,y'是真实的手势类别离散分布,f(x',θ)是神经网络结构预测的概率分布,L(y',f(x',θ))是损失函数,代表神经网络结构的分类结果与真实值的偏差,x'是输入的图像数据样本,θ是待优化的神经网络结构参数,直至达到一个全局最优或者局部最优解。
进一步地,所述步骤(3)对两个3D卷积神经网络输出手势分类结果进行加权计算得到融合分类结果的具体实现方式为:
P(C|x')∝a*P(C|xI,WI)+(1-a)*P(C|xc,WC)
式中,P(C|x')表示以所有图像数据x'作为输入数据对应的输出手势类别C的概率,P(C|xI,WI)表示第一个参数为WI,以红外图像xI作为输入数据子网络输出的所属手势类别C的概率,P(C|xc,WC)表示第二个参数为WC,以轮廓图像xc作为输入数据的子网络输出所属手势类别C的概率,权值a的值介于0和1之间。
本发明与现有技术方案相比,具有以下明显的优势和有益的效果:
1.使用深度学习策略,逐层抽取到更为抽象和宏观的特征。本发明通过对原始输入数据进行3D卷积操作从空间维度和时间维度上进行提取特征,使得模型能从相邻的帧之间高效地抽取出手语的静态特征和动态特征,有效克服了现有技术中人工特征提取费时费力、精确度不高的缺陷。
2.使用单通道的红外和轮廓图像来训练两个子网络,有效降低了模型的计算复杂度,且对不同场景的光照和背景噪声干扰有较好的鲁棒性。
3.提出了有效的融合策略,实现了在数据丢失时对单个分类器分类错误的补偿,使模型的分类准确率更高。
附图说明
图1是本发明方法流程图;
图2是本发明所采用的一个多模态数据样本;
图3是动态手语分割过程图;
图4是2D卷积和3D卷积的示意图;
图5是输入网络中的四种图像;
图6是本发明的网络总体结构图;
图7是本方法在科技馆手语数据集的分类正确率。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明的技术思路是:使用单通道的红外和轮廓数据来分别训练两个神经子网络,网络对原始输入数据进行3D卷积操作从空间维度和时间维度上提取特征,使得模型能从相邻的帧之间高效地抽取出手语的静态特征和动态特征,最后再对两个神经子网络的输出进行有效融合。本发明对两种不同数据格式中的肢体运动轨迹信息进行准确的提取,有效降低了模型的计算复杂度,并采用深度学习策略融合两个网络的分类结果,有效解决了在单个分类器由于数据丢失时所引起的分类错误问题,使模型对不同场景的光照和背景噪声干扰有较好的鲁棒性。
两个3D卷积神经子网络结构相同,包括输入层、至少两次的交互堆叠的卷积层和池化层、softmax分类层。本发明使用的3D卷积神经网络的构造和训练包含以下环节:
第一步,前向传播
参照附图4,前向传播过程中的3D卷积操作实现如下式:
Figure BDA0001424559660000061
上式中,
Figure BDA0001424559660000062
表示输入的样本图像数据,下标中(l-1)m表示第l-1层中的第m个特征图,上标中x和y代表输入样本的空间维度,z代表时间维度,p,q,r分别是卷积操作中三个维度的大小。
Figure BDA0001424559660000063
是卷积核连接到前面第m个特征图中坐标为(i,j,m)的权值参数,Pi,Qi,Ri代表卷积核的大小。
Figure BDA0001424559660000065
表示l层中的第j个特征图的偏置参数。
Figure BDA0001424559660000064
表示卷积层输出结果。σ(·)是神经网络的激活函数,传统的S型(sigmoid)和双正切tanh激活函数导数的值域都小于1,在经过每一层传递都会不断衰减,当网络层数很深时,会出现梯度消失问题,因此这里优选使用Rectified linear unit(ReLUs)作为激活函数,公式如下:
rectifier(X)=max(0,X)
上式中,当输入的X值小于等于0时,强制X等于0;当输入的X值大于0时则不做改变。这样可以使输出具有一定的稀疏性从而加快网络训练的收敛速度。
每一个3D卷积层之后紧随的是池化层。传统基于图片的卷积神经网络的池化操作,可以使数据量急剧减小从而加速后面的计算,同时也保证了网络具有一定的不变形。而转移至基于视频的分类任务中时,在时间域上也同样需要一定的不变形,因此本发明将池化操作也拓展到了三维,3D的重叠最大池化定义为:
Figure BDA0001424559660000071
上式中,
Figure BDA0001424559660000072
为三维输入向量,即卷积操作后的输出,poolmax为池化后得到的输出,n代表池化操作在空间维度上的窗口大小,对二维的单帧图像不同n*n块内的所有特征提取最大值,这样特征图的尺寸缩小了n倍;l代表池化操作在时间维度上的大小,池化后的特征图数量将减小l倍,同时,网络对时间域上的变化更加鲁棒。
针对多个手势的分类任务,在最后的输出层使用了softmax分类器,即把可以判定为某个类的特征求一个加权和,然后把这些特征转化为判定是某一类的概率。这里,对于k个标量x1,...,xk,softmax函数定义为:
Figure BDA0001424559660000073
上式中,xi表示输出层第i个神经元的输出。这样,可以将k个标量x1,...,xk转换为一个概率分布:p1,...,pk,满足
Figure BDA0001424559660000074
也就是分类器计算出每个样本属于第i类的概率,且所有概率之和为1。
第二步,定义损失函数
考虑到手语的多分类任务,预测目标y'为离散的类别而神经网络结构输出f(x',θ)为每个类的条件概率,为了计算出神经网络输出和实际手语标签之间的误差值,这里对交叉熵损失函数进行了改进:
假设y'∈{1,...C},神经网络结构预测的第i个类的条件概率P(y'=i|x')=fi(x',θ),则f(x',θ)满足
Figure BDA0001424559660000075
考虑到计算问题,使用了负对数似然损失函数,定义如下式:
Figure BDA0001424559660000081
上式中,x'是输入的图像数据样本,y'是真实的手势类别离散分布,f(x',θ)是神经网络结构预测的概率分布,L(y',f(x',θ))是损失函数,用来判断神经网络结构对真实概率分布估计的准确程度,θ表示待训练的神经网络结构参数,可以直接用改进的梯度下降算法来优化。而训练的目的是通过优化θ的值,从而不断将L(y',f(x',θ))减小,直到达到一个全局最优或者局部最优解。
第三步,改进的梯度下降优化算法
由损失函数计算得到的误差来反向传播从而计算每一层参数的梯度,按照下式进行神经网络参数的更新:
Figure BDA0001424559660000082
Figure BDA0001424559660000083
θt+1=θt+vt+1
上式中,▽f(θt)表示使用一个批量(batch)的数据训练后得到的损失函数L对于前一个迭代周期参数θt-1的梯度,且第t次迭代时的参数更新依赖于发生在第t-1次迭代时的更新。ε表示学习速率,初始值指定为0.003;为了防止过拟合,在迭代过程中如果损失函数误差值的减小速率没有达到10%,则每一个周期对ε进行5%的衰减,从而保证参数更新不断减小,使学习过程向着复杂决策面的反方向偏置。vt是动量项,表示当前迭代累计的参数调整惯性,μ是冲量系数设为0.9,在迭代的初期,使用前一次的梯度进行加速;而在迭代后期优化到达收敛值附近时,因为两次更新方向基本相反,使得梯度逐渐缩小。
这里的参数更新法则与随机梯度下降(Stochastic gradient descent,SGD)的方法类似,不同点是这里在计算梯度的时候,求解权重加上了冲量(momentum)的梯度▽f(θt+μvt),而SGD中只是简单的计算当前权重的梯度▽f(θt),所以收敛速度相比SGD有了很大的提升。
为了进一步提高3D CNNs系统对手语的识别准确率,本发明对网络结构进一步做了改进,采用了一种由2个结构相同但输入数据不同的双列深度3D CNNs结构,融合模型按照下式结合从两个子网络估计出的所属类别概率来计算手语分类的最终输出:
P(C|x')∝a*P(C|xI,WI)+(1-a)*P(C|xc,WC)
上式中,P(C|xI,WI)表示第1个以红外图像作为输入数据的子网络输出的所属类别概率,P(C|xc,WC)表示第2个以轮廓图像作为输入数据的子网络输出的所属类别概率。a的值介于0和1之间,是用来控制两种模式对分类结果影响的权重系数,并通过交叉验证优化其值。
下面结合附图1和实例对本发明的具体方法具体描述:
步骤1:体感数据采集
为了有效抑制光照和场景噪声的干扰,本发明摒弃了以往传统的使用RGB图像作为训练样例的方法,而是基于Kinect V2for Windows开发了多模态数据采集系统“SignLanguage Recorder",该系统从红外图像、轮廓图像中独立的进行特征提取,在自然光照条件下,采集动态手语视频6800个共计20类,视频分辨率为512*424,并利用骨骼数据从上述两种图像中分割出手部区域和上肢的动态轨迹。如附图2是所采集样本的示例。
步骤2:数据预处理
第一步,手语时间维度的分割。参照附图3,使用窗口滑动法,将视频长度标准化为固定长度(譬如32帧)。如果采集的视频长度大于32帧,则删除两端的多余帧;反之,则重复某些帧。
Figure BDA0001424559660000091
为原手语样例视频x的起始帧,
Figure BDA0001424559660000092
为原手语样本视频x的结束帧,
Figure BDA0001424559660000093
为手语样例视频x的长度。
若Lx>32,则
Figure BDA0001424559660000094
这里
Figure BDA0001424559660000095
为分割后的手语样例x新的起始帧。
Figure BDA0001424559660000101
这里
Figure BDA0001424559660000102
为分割后的手语样例x新的结束帧。
若Lx≤32,则
Figure BDA0001424559660000103
仍作为分割后的手语样例x的起始帧。
Figure BDA0001424559660000104
这里
Figure BDA0001424559660000105
为分割后的手语样例x新的结束帧。
第二步,按照人体区域范围将每一帧图像剪切为64*64像素,得到统一分辨率的视频。
步骤3:构造深度网络模型
构建两个3D卷积神经子网络,每个子网络结构相同,包括输入层、卷积层、池化层和softmax分类层以及最终的输出层。参照附图6,网络的深度共计11层。
其中,softmax的权重初始化使用了Xavier初始化器创建了一个
Figure BDA0001424559660000106
范围内的均匀分布,使权重满足0均值,同时方差为
Figure BDA0001424559660000107
这里,nin是输入节点的数量,nout是输出节点的数量。
本发明实例的3DCNNs结构如附图6所示,一共有三次卷积和池化组合构成了卷积层C1,池化层P1,卷积层C2,池化层P2,卷积层C3,池化层P3。紧随其后的softmax分类器由传统的3层神经网络构成,网络最终的手语分类层由20个节点构成,对应20种手语分类。因此,包含输入层网络的深度是11层。
网络的输入由连续32帧动态手势图像组成,每帧图像大小为64*64,因此输入数据大小为64*64*32,卷积层C1的3D卷积核数目为16个,3D卷积核的大小为5*5*5,每个3D卷积核的权重均设置相同。输入数据经过卷积后得到16幅大小为60*60*28的特征图,池化层P1使用大小为2*2*2的窗口进行降维采样,因此得到16幅大小为30*30*14的特征图。同理,C2层3D卷积核数目为32个,大小为5*5*5,经过卷积后得到32幅大小为26*26*10的特征图,然后池化后得到32幅大小为13*13*5的特征图。第三次卷积操作C3将卷积核的大小设置为4*4*4,得到48幅大小为10*10*2的特征图,经过池化操作后得到48幅大小为5*5*1的特征图。
3DCNNs通过堆叠连续的多帧图像组成一个连续帧图像立方体,然后使用3D卷积核对多帧立方体进行卷积操作,卷积层中每一个特征图都与上一层中的多张图像连接,因此输入的视频经过三维的卷积操作后,连续帧中的肢体运动信息就会被捕捉到。
步骤4:数据输入
第一步,利用骨骼数据信息,将预处理后的视频图像裁切成两部分:上身图像和手部图像。这里,如果手语使用双手完成的话,就随机跟踪左、右任意一个手的轨迹形成连续的视频。
第二步,使用阈值法去除红外图像背景中的噪声,在网络的前两层使用(Localcontrast normalization,LCN)进行归一化处理。最后输入网络的数据有四种图像构成:上身红外图、手部红外图、上身轮廓图、手部轮廓图,如附图5所示。
步骤5:逐层提取特征向量
经过前期多模态数据的预处理,得到了4种数据格式;按照存储图像格式(红外、轮廓)的不同,参照附图6,分别输入到网络中进行训练。
第一步:输入的样本视频分辨率为64*64*32,其中64*64表示图像的分辨率,32表示连续的帧数。
第二步:使用16个尺寸为5*5*5的不同3D卷积核进行3D卷积操作,其中5*5是指在空间维度上的卷积核尺寸,同时在时间维度上卷积核的大小为5,从而得到含有8倍于通道数量的feature map。
第三步:紧接卷积操作之后为池化操作,在各feature map空间域上进行采样单元为2*2的下采样,在时间域上进行采样单元为2的下采样,得到数量相同但时空分辨率减小的feature map,作为网络第三层。
第四步:对第三层的每个feature map采用尺寸为5*5*5的32个不同的3D卷积核进行3D卷积,得到2倍于第三层数量的feature map。
第五步:紧接卷积操作之后,在各feature map的空间域上进行尺寸为2*2的下采样操作,时间域上进行采样单元为2的下采样,得到网络第五层。
第六步:对网络进行第3次卷积和下采样操作。与前两次操作不同,采用尺寸为4*4*4的48个不同的3D卷积核,得到1.5倍于第五层数量的feature map,紧随其后进行2*2*2的下采样操作,得到网络的第七层。
步骤6:对特征向量进行分类
结束3次卷积和下采样的特征提取操作之后,使用传统的3层全链接softmax作为分类器进行最后的分类工作。网络的第八层为1200个尺寸为1*1的feature map,每个feature map与第七层的所有feature map全链接,作为三层神经网络分类器的输入层。中间隐藏层节点个数为512。
步骤7:输出分类结果
网络的输出层包含20个输出节点,对应20种手语分类结果的标签,分别得到两个子网络输出的概率P(C|xI,WI)和P(C|xC,WC)。采用反向传播算法(Back-Propagation,BP)对训练样本集进行在线训练,并使用加速梯度(Nesterov’s accelerated gradient,NAG)算法进行参数的调整。
步骤8:多模态融合
后期的融合模型按照下式结合从两个子网络估计出的所属类别概率来计算手语分类的最终输出:
P(C|x')∝a*P(C|xI,WI)+(1-a)*P(C|xc,WC)
P(C|xI,WI)表示第1个以红外图像作为输入数据的子网络输出的所属类别概率,P(C|xc,WC)表示第2个以轮廓图像作为输入数据的子网络输出的所属类别概率。a是用来控制两种模式对分类结果影响的权重系数。
为了验证本方法的有效性,本发明分别在公开数据集和自主设计的科技馆参观手语数据库上进行了实验验证:
实验使用了2014年手势识别竞赛Chalearn LAP的动态手语公共数据集,本方法的识别精度达到了90.3%,比Chang J Y等提出的基于HOG特征和MRF分类器的识别精确率高了7.6%,比Necati C等提出的基于模板匹配和Random Forest分类器的识别精度高了15.6%,比Monnier C等提出的基于HOG特征和Boosted classifier分类的识别精度高了8.1%。
在自主设计的聋哑人科技馆参观手语数据库上,分别进行了两组实验。首先选用Baccouche M等人提出的基于传统CNNs模型的方法对该数据集进行分类,识别精度是63.8%;而使用本发明提出的算法,识别精度达到了68.7%,提升了4.9%。同时,实验还表明本发明提出的算法可以对数据丢失时单个分类器分类的错误进行补偿,使模型的分类准确率更高。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于多模态数据的3D卷积神经网络动态手语识别方法,其特征在于,包括以下步骤:
(1)提取待识别的手势红外图像和轮廓图像;
(2)将待识别的手势红外图像和轮廓图像分别输入两个3D卷积神经网络分类器,两个3D卷积神经网络分类器输出手势分类结果;
(3)对两个3D卷积神经网络输出手势分类结果进行加权计算得到融合分类结果;
所述步骤(2)中的两个3D卷积神经网络结构相同,均按照以下方式训练得到:
所述3D卷积神经网络结构包括输入层、至少两次交互堆叠的卷积层和池化层、softmax分类层;输入层将样本手势红外图像或样本轮廓图像输入交互堆叠的卷积层和池化层,得到用于手势分类的图像特征;softmax分类层依据图像特征进行分类输出手势类别结果;计算softmax分类层输出的手势分类结果与实际手势类别之间的误差,依据计算得到的误差反向传播计算每一层参数的梯度,进而依据梯度对连接每一层参数进行调整,该调整过程循环进行,直到使每一层参数达到分类输出的误差极小点而停止迭代;
所述卷积层表示为:
Figure FDA0002331764470000011
式中,
Figure FDA0002331764470000012
表示卷积层输出结果,
Figure FDA0002331764470000013
表示输入的样本图像数据,下标中(l-1)m表示第l-1层中的第m个特征图,上标中x和y代表输入样本的空间维度,z代表输入样本的时间维度,p,q,r分别是卷积操作中三个维度的大小;
Figure FDA0002331764470000014
是卷积核连接到前面第m个特征图中坐标为(i,j,m)的参数;Pi,Qi,Ri代表卷积核的大小;
Figure FDA0002331764470000021
表示l层中的第j个特征图的偏置参数;σ(·)是神经网络的激活函数;
所述池化层表示为:
Figure FDA0002331764470000022
式中,
Figure FDA0002331764470000023
为三维输入向量即卷积层输出结果,poolmax为池化后得到的输出,n代表池化操作在空间维度上的窗口大小,l代表池化操作在时间维度上的大小。
2.根据权利要求1所述的基于多模态数据的3D卷积神经网络动态手语识别方法,其特征在于,所述依据计算得到的误差反向传播计算每一层参数的梯度的具体实现方式为:
Figure FDA0002331764470000024
Figure FDA0002331764470000025
θt+1=θt+vt+1
式中,θt表示当前计算周期,batch表示训练数据的一个批量,δL表示由损失函数计算得到的误差,
Figure FDA0002331764470000026
表示使用一个批量的样本数据训练后得到的误差L对于前一个迭代周期参数θt-1的梯度,vt是动量项,表示当前迭代累计的参数调整惯性,μ是冲量系数,ε表示学习速率。
3.根据权利要求1或2所述的基于多模态数据的3D卷积神经网络动态手语识别方法,其特征在于,所述计算softmax分类层输出的手势分类结果与实际手势类别之间的误差的具体实现方式为:
Figure FDA0002331764470000027
式中,y'是真实的手势类别离散分布,f(x',θ)是神经网络结构预测的概率分布,L(y',f(x',θ))是损失函数,代表神经网络结构的分类结果与真实值的偏差,x'是输入的图像数据样本,θ是待优化的神经网络结构参数,通过迭代优化直至达到一个全局最优或者局部最优解。
4.根据权利要求1或2所述的基于多模态数据的3D卷积神经网络动态手语识别方法,其特征在于,所述步骤(3)对两个3D卷积神经网络输出手势分类结果进行加权计算得到融合分类结果的具体实现方式为:
P(C|x')∝a*P(C|xI,WI)+(1-a)*P(C|xc,WC)
式中,P(C|x')表示以所有图像数据x'作为输入数据对应的输出手势类别C的概率,P(C|xI,WI)表示第一个参数为WI,以红外图像xI作为输入数据子网络输出的所属手势类别C的概率,P(C|xc,WC)表示第二个参数为WC,以轮廓图像xc作为输入数据的子网络输出所属手势类别C的概率,权值a的值介于0和1之间。
CN201710909671.3A 2017-09-29 2017-09-29 一种融合多模态数据的3d卷积神经网络手语识别方法 Active CN107679491B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710909671.3A CN107679491B (zh) 2017-09-29 2017-09-29 一种融合多模态数据的3d卷积神经网络手语识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710909671.3A CN107679491B (zh) 2017-09-29 2017-09-29 一种融合多模态数据的3d卷积神经网络手语识别方法

Publications (2)

Publication Number Publication Date
CN107679491A CN107679491A (zh) 2018-02-09
CN107679491B true CN107679491B (zh) 2020-05-19

Family

ID=61138703

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710909671.3A Active CN107679491B (zh) 2017-09-29 2017-09-29 一种融合多模态数据的3d卷积神经网络手语识别方法

Country Status (1)

Country Link
CN (1) CN107679491B (zh)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549841A (zh) * 2018-03-21 2018-09-18 南京邮电大学 一种基于深度学习的老人跌倒行为的识别方法
CN108634934B (zh) * 2018-05-07 2021-01-29 北京长木谷医疗科技有限公司 对脊柱矢状位图像进行处理的方法和设备
CN108734208B (zh) * 2018-05-15 2020-12-25 重庆大学 基于多模态深度迁移学习机制的多源异构数据融合系统
CN109034044B (zh) * 2018-06-14 2022-04-05 天津师范大学 一种基于融合卷积神经网络的行人再识别方法
CN109086664B (zh) * 2018-06-27 2023-04-28 济南大学 一种动静态融合的多态手势识别方法
CN109034012A (zh) * 2018-07-09 2018-12-18 四川大学 基于动态图像和视频子序列的第一人称视角手势识别方法
CN109271838B (zh) * 2018-07-19 2020-11-03 重庆邮电大学 一种基于fmcw雷达的三参数特征融合手势识别方法
CN109063615B (zh) * 2018-07-20 2021-03-09 中国科学技术大学 一种手语识别方法及系统
US11017296B2 (en) 2018-08-22 2021-05-25 Ford Global Technologies, Llc Classifying time series image data
WO2020037594A1 (zh) * 2018-08-23 2020-02-27 合刃科技(深圳)有限公司 一种基于高光谱成像的手势识别方法及装置
CN109242863B (zh) * 2018-09-14 2021-10-26 北京市商汤科技开发有限公司 一种缺血性脑卒中图像区域分割方法及装置
CN109271947A (zh) * 2018-09-28 2019-01-25 合肥工业大学 一种基于热成像的夜间实时手语识别系统
CN109409276A (zh) * 2018-10-19 2019-03-01 大连理工大学 一种健壮手语特征提取方法
CN109508670B (zh) * 2018-11-12 2021-10-12 东南大学 一种基于红外摄像头的静态手势识别方法
CN109886415A (zh) * 2019-01-07 2019-06-14 鲁班嫡系机器人(深圳)有限公司 数据处理方法、装置、计算机设备和存储介质
CN109871781B (zh) * 2019-01-28 2020-11-06 山东大学 基于多模态3d卷积神经网络的动态手势识别方法及系统
CN109925717B (zh) * 2019-03-06 2022-07-12 网易(杭州)网络有限公司 一种游戏胜率的预测方法、模型生成方法和装置
CN109966743A (zh) * 2019-03-06 2019-07-05 网易(杭州)网络有限公司 一种游戏胜率的预测方法、模型生成方法和装置
CN109847367A (zh) * 2019-03-06 2019-06-07 网易(杭州)网络有限公司 一种游戏胜率的预测方法、模型生成方法和装置
CN110110580B (zh) * 2019-03-12 2023-04-07 西北大学 一种面向Wi-Fi信号的手语孤立词识别网络构建及分类方法
CN109919243A (zh) * 2019-03-15 2019-06-21 天津拾起卖科技有限公司 一种基于cnn的废钢铁种类自动识别方法及装置
CN110046656B (zh) * 2019-03-28 2023-07-11 南京邮电大学 基于深度学习的多模态场景识别方法
CN110084150B (zh) * 2019-04-09 2021-05-11 山东师范大学 一种基于深度学习的白细胞自动分类方法及系统
CN110110602A (zh) * 2019-04-09 2019-08-09 南昌大学 一种基于三维残差神经网络和视频序列的动态手语识别方法
CN110147819B (zh) * 2019-04-11 2021-02-26 深圳先进技术研究院 一种视频特征提取方法、装置、可读存储介质及终端设备
CN110188732B (zh) * 2019-06-07 2022-04-05 吉林大学 一种基于卷积神经网络的静态手语识别方法
CN110414327B (zh) * 2019-06-18 2023-06-23 平安科技(深圳)有限公司 样本数据处理方法、装置、计算机装置及存储介质
CN110414326B (zh) * 2019-06-18 2024-05-07 平安科技(深圳)有限公司 样本数据处理方法、装置、计算机装置及存储介质
CN110309761A (zh) * 2019-06-26 2019-10-08 深圳市微纳集成电路与系统应用研究院 基于具有门限循环单元的三维卷积神经网络的连续性手势识别方法
CN110309786B (zh) * 2019-07-03 2023-04-07 华南农业大学 一种基于深度视频的哺乳母猪姿态转换识别方法
CN110472506B (zh) * 2019-07-11 2023-05-26 广东工业大学 一种基于支持向量机和神经网络优化的手势识别方法
CN110348420B (zh) * 2019-07-18 2022-03-18 腾讯科技(深圳)有限公司 手语识别方法、装置、计算机可读存储介质和计算机设备
CN110909207B (zh) * 2019-09-08 2023-06-02 东南大学 一种包含手语的新闻类视频描述数据集构建方法
CN111160173B (zh) * 2019-12-19 2024-04-26 深圳市优必选科技股份有限公司 一种基于机器人的手势识别方法及机器人
CN113191171B (zh) * 2020-01-14 2022-06-17 四川大学 一种基于特征融合的疼痛强度评估方法
CN111340375A (zh) * 2020-02-28 2020-06-26 创新奇智(上海)科技有限公司 一种电费回收风险预测方法、装置、电子设备及存储介质
CN111428639A (zh) * 2020-03-24 2020-07-17 京东方科技集团股份有限公司 手势识别模型的训练方法、手势识别方法及装置
CN111368800B (zh) * 2020-03-27 2023-11-28 中国工商银行股份有限公司 手势识别方法及装置
CN111507115B (zh) * 2020-04-12 2021-07-27 北京花兰德科技咨询服务有限公司 多模态语言信息人工智能翻译方法、系统和设备
CN111639561A (zh) * 2020-05-17 2020-09-08 西北工业大学 基于类别自适应聚类的无监督行人重识别方法
CN111931859B (zh) * 2020-08-28 2023-10-24 中国科学院深圳先进技术研究院 一种多标签图像识别方法和装置
CN112151030B (zh) * 2020-09-07 2023-11-21 中国人民解放军军事科学院国防科技创新研究院 一种基于多模态的复杂场景语音识别方法和装置
CN112487949B (zh) * 2020-11-27 2023-05-16 华中师范大学 一种基于多模态数据融合的学习者行为识别方法
CN113052112B (zh) * 2021-04-02 2023-06-02 北方工业大学 基于混合神经网络的手势动作识别互动系统及方法
EP4360078A1 (en) * 2021-06-24 2024-05-01 Microsoft Technology Licensing, LLC Sign language and gesture capture and detection
CN113837263B (zh) * 2021-09-18 2023-09-26 浙江理工大学 基于特征融合注意力模块和特征选择的手势图像分类方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980386A (zh) * 2017-04-24 2017-07-25 清华大学 手型跟踪方法、装置和计算机可读介质
WO2017134059A1 (en) * 2016-02-05 2017-08-10 Delphi Technologies, Inc. System and method for detecting hand gestures in a 3d space

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017134059A1 (en) * 2016-02-05 2017-08-10 Delphi Technologies, Inc. System and method for detecting hand gestures in a 3d space
CN106980386A (zh) * 2017-04-24 2017-07-25 清华大学 手型跟踪方法、装置和计算机可读介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于多列深度3D卷积神经网络的手势识别;易生等;《计算机工程》;20170831;第43卷(第8期);243-248 *

Also Published As

Publication number Publication date
CN107679491A (zh) 2018-02-09

Similar Documents

Publication Publication Date Title
CN107679491B (zh) 一种融合多模态数据的3d卷积神经网络手语识别方法
Rao et al. Selfie video based continuous Indian sign language recognition system
CN108830157B (zh) 基于注意力机制和3d卷积神经网络的人体行为识别方法
CN110458844B (zh) 一种低光照场景的语义分割方法
CN108133188B (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
Pigou et al. Gesture and sign language recognition with temporal residual networks
Minhas et al. Incremental learning in human action recognition based on snippets
CN109919122A (zh) 一种基于3d人体关键点的时序行为检测方法
CN106778796B (zh) 基于混合式协同训练的人体动作识别方法及系统
Bouchard et al. Semantic segmentation of motion capture using laban movement analysis
CN111310659B (zh) 基于增进式图卷积神经网络的人体动作识别方法
CN107273905B (zh) 一种结合运动信息的目标主动轮廓跟踪方法
CN111161315B (zh) 一种基于图神经网络的多目标跟踪方法和系统
CN111274921B (zh) 一种利用姿态掩模进行人体行为识别的方法
CN110889375B (zh) 用于行为识别的隐双流协作学习网络及方法
CN107590432A (zh) 一种基于循环三维卷积神经网络的手势识别方法
CN105160310A (zh) 基于3d卷积神经网络的人体行为识别方法
CN107424161B (zh) 一种由粗至精的室内场景图像布局估计方法
CN109858406A (zh) 一种基于关节点信息的关键帧提取方法
CN109002755B (zh) 基于人脸图像的年龄估计模型构建方法及估计方法
Rao et al. Sign Language Recognition System Simulated for Video Captured with Smart Phone Front Camera.
CN106650617A (zh) 一种基于概率潜在语义分析的行人异常识别方法
CN113744311A (zh) 基于全连接注意力模块的孪生神经网络运动目标跟踪方法
CN114821764A (zh) 一种基于kcf追踪检测的手势图像识别方法及系统
Hammam et al. DeepPet: A pet animal tracking system in internet of things using deep neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant