CN112101262B - 一种多特征融合手语识别方法及网络模型 - Google Patents

一种多特征融合手语识别方法及网络模型 Download PDF

Info

Publication number
CN112101262B
CN112101262B CN202011003283.7A CN202011003283A CN112101262B CN 112101262 B CN112101262 B CN 112101262B CN 202011003283 A CN202011003283 A CN 202011003283A CN 112101262 B CN112101262 B CN 112101262B
Authority
CN
China
Prior art keywords
features
sign language
feature
rgb
lbp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011003283.7A
Other languages
English (en)
Other versions
CN112101262A (zh
Inventor
叶中付
潘威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202011003283.7A priority Critical patent/CN112101262B/zh
Publication of CN112101262A publication Critical patent/CN112101262A/zh
Application granted granted Critical
Publication of CN112101262B publication Critical patent/CN112101262B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis

Abstract

本发明公开一种多特征融合手语识别方法及网络模型,方法包括:1.获取手语演示者的RGB彩色图像和骨骼关节数据;2.从中提取LBP、HOG和RGB特征;将3D骨骼关节点坐标按三方向二维平面投影得到骨骼关节投影点,相连得到二维图特征;3.将RGB、HOG和LBP特征经三个不同3D CNN训练得相应特征向量,将各特征向量经第一注意力网络权重叠加得三维图像特征;将二维图特征经第二注意力网络线性加权得融合特征,并经2D CNN训练得骨骼特征;4.将三维图像和骨骼特征相连输入第三注意力网络,得到手语视频特征向量;5.将手语视频特征向量输入全连接层和soft max层得到概率分布向量,进而得出手语识别结果。该方法赋予不同特征在特征描述中以适当的注意力权重,提高了手语识别的准确性。

Description

一种多特征融合手语识别方法及网络模型
技术领域
本发明涉及图像处理领域,尤其涉及一种多特征融合手语识别方法及网络模型。
背景技术
3D手语识别方法,通常可以分为生成方法、判别方法以及混合方法。近几年使用的比较多的是基于CNN(卷积神经网络)的判别方法。在现有的基于CNN的手语识别方法中,又可以分为基于3D CNN(3D卷积神经网络)和基于2D CNN(2D卷积神经网络)的识别方法。由于3D CNN能够同时捕捉手语视频的空间特性和时序特性,因此近几年来3D CNN逐渐成为手语识别的主流研究方法,更多的技术创新都是基于3D CNN。
虽然3D CNN相对于2D CNN有明显的优势,但是,相比于2D CNN,3D CNN具有更多的参数和更高的网络复杂性,计算资源耗费大大增加。此外,对于骨骼数据,3D CNN的处理反而会带来更多数据的复杂性和不必要的混杂信息,降低了特征的描述功能。2D CNN在处理骨骼数据方面仍然发挥着比较重要的作用。所以,进行手语识别,特征提取阶段的任务普遍分为两个部分:根据RGB彩色图像提取出3D的特征描述,根据骨骼数据提取出2D的特征描述。对两种特征进行多网络并行训练,特征融合,模型融合等多重手段进行网络参数更新和学习,进而提高手语的识别准确率。
虽然各种特征的融合可显著提高网络的学习能力和识别准确率,但目前的识别方法并未考虑各种特征的权重,因此在特征表述阶段仍然有一定的改进余地。
发明内容
基于现有技术所存在的问题,本发明的目的是提供一种多特征融合手语识别方法及网络模型,能改进现有的特征融合方法中未考虑各项特征权重的问题。
本发明的目的是通过以下技术方案实现的:
本发明实施方式提供一种多特征融合手语识别方法,包括如下步骤:
步骤1、获取手语演示者的RGB彩色图像和骨骼关节数据;
步骤2、从所述RGB彩色图像中分别提取LBP特征、HOG特征和RGB特征;
根据所述骨骼关节数据,将3D骨骼关节点坐标进行三个方向的二维平面投影得到各二维平面的手语演示过程中的骨骼关节投影点,并将各骨骼关节投影点相连后得到二维图特征;
步骤3、将步骤2得到的RGB特征、HOG特征和LBP特征分别输入三个不同的3D卷积神经网络中进行训练,得到相应的特征向量,将得到所述特征向量通过第一注意力网络进行权重叠加后得到三维图像特征;
将步骤2得到的二维图特征通过第二注意力网络进行线性加权得到融合特征,将所述融合特征输入2D卷积神经网络中进行训练得到骨骼特征;
步骤4、将所述步骤3得到的三维图像特征和骨骼特征相连输入第三注意力网络,得到最终的手语视频特征向量;
步骤5、将手语视频特征向量输入全连接层和softmax层得到概率分布向量,根据所述概率分布向量得出手语识别结果。
本发明实施方式还提供一种多特征融合手语识别神经网络,包括:
三个3D卷积神经网络、第一注意力网络、一个2D卷积神经网络、第二注意力网络和第三注意力网络、全连接层和softmax逻辑回归模型;其中,
所述三个3D卷积神经网络并列设置,三个3D卷积神经网络的输出端均与所述第一注意力网络相连;
第二注意力网络的输出端与所述2D卷积神经网络的输入端相连;
所述第一注意力网络的输出端和所述2D卷积神经网络的输出端均与所述第三注意力网络的输入端相连,该第三注意力网络的输出端依次与所述全连接层和softmax逻辑回归模型相连。
由上述本发明提供的技术方案可以看出,本发明实施例提供的多特征融合手语识别方法及网络模型,其有益效果为:
提供提取手语演示者的运动特性和色彩特性,并设置注意力机制,充分考虑各种特征的权重相对值,对每个特征赋予不同的注意力权重,挖掘了手语识别的时序特征以及不同特征在特征表述中所占有的权重的比例,能更好地优化网络,消除了背景变化的影响,进而得到更为精确的手语识别结果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的多特征融合手语识别方法的流程图;
图2为本发明实施例提供的多特征融合手语识别网络模型的构成示意图;
图3为本发明实施例提供的方法中,将手语骨骼关节点的三维数据(x,y,z)投影到3个二维平面中以获取三个二维平面向量(x,y)(x,z)(y,z)的示意图;
图4为本发明实施例提供的方法中,以xy平面为例得到的,以10个手指关节的三维坐标在该xy平面内投影的十个点所得到的十阶完全图;
图中:
RGB为:三维彩色图像;
HOG为:梯度直方图,用于表示图像的轮廓特征;
LBP为:局部二值模式特征,主要表现图像的纹理特征,对于光照有很好的鲁棒性,可以消除手语演示者的演示背景和光照条件变化的影响;
ReLu为:非线性函数:f(x)=max(0,x);
T为:单个手语样本抽取的用于表述整个手语视频的关键帧数目C:向量的连接操作;
softmax层为:将输出向量转换为概率分布向量。即,对于输出向量x=(x1,x2,……,xC),经过该softmax层后得到的输出向量为:
Figure BDA0002695043910000031
具体实施方式
下面结合本发明的具体内容,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
如图1所示,本发明实施例提供一种多特征融合手语识别方法,包括如下步骤:
步骤1、获取手语演示者的RGB彩色图像和骨骼关节数据;
步骤2、从所述RGB彩色图像中分别提取LBP特征、HOG特征和RGB特征;
根据所述骨骼关节数据,将3D骨骼关节点坐标进行三个方向二维平面投影得到各二维平面的手语演示过程中的骨骼关节投影点,并将各骨骼关节投影点相连后得到二维图特征;
步骤3、将所述步骤2得到的RGB特征、HOG特征和LBP特征分别输入三个不同的3D卷积神经网络中进行训练,得到相应的特征向量,将得到所述特征向量通过第一注意力网络进行权重叠加后得到三维图像特征;
将所述步骤2得到的二维图特征通过第二注意力网络进行线性加权得到融合特征,将所述融合特征输入2D卷积神经网络中进行训练得到骨骼特征;
步骤4、将所述步骤3得到的三维图像特征和骨骼特征进行融合,得到最终的手语视频特征向量;
步骤5、将手语视频特征向量输入全连接层和softmax层得到概率分布向量,根据所述概率分布向量得出手语识别结果。
上述识别方法的步骤1中,获取手语演示者的RGB彩色图像为:
对给定的手语样本进行关键帧采样,获取T帧数据作为手语演示者的RGB彩色图像,并统一RGB彩色图像的尺寸为224×224×3(具体是指像素,即RGB彩色图像的三个通道的每个通道的像素个数为224×224,像素点个数是224×224×3);
获取骨骼关节数据为:基于Kinect-2.0系统提供的骨骼关节数据。
上述识别方法的步骤2中,从所述RGB彩色图像中分别提取LBP特征、HOG特征和RGB特征为:
通过LBP算子从所述RGB彩色图像中分别提取LBP特征,该LBP特征表示为:
Figure BDA0002695043910000041
通过HOG算子从所述RGB彩色图像中分别提取HOG特征,该HOG特征表示为:
Figure BDA0002695043910000042
从所述RGB彩色图像中提取RGB特征,该RGB特征表示为:
Figure BDA0002695043910000043
上述识别方法的步骤2中,根据所述骨骼关节数据,将3D骨骼关节点坐标进行三个二维平面投影得到二维图特征为:
选取25个骨骼关节点坐标中的10个与手部相关的关节点坐标,将它们分别投影到xy,xz,yz三个二维平面,得到二维平面中的十个点:(xi,yi)(1≤i≤10),这十个点分别相连得到一个10阶完全图,计算每两点之间的距离得到长度为45的数组,作为描述该二维平面内手指关节在整个手语演示过程中的轨迹变化特征;
将三个二维平面的轨迹变化特征相连得到二维图特征,该二维图特征表示为:
Figure BDA0002695043910000051
上述识别方法的步骤3中,将所述步骤2得到的RGB特征、HOG特征和LBP特征分别输入三个不同的3D卷积神经网络中进行训练,得到对应的RGB特征向量、HOG特征向量和LBP特征向量,并通过第一注意力网络进行权重叠加后得到三维图像特征为:
将RGB特征、HOG特征和LBP特征分别输入三个不同的3D卷积神经网络中,得到相应的特征向量FRGB,FHOG,FLBP=(3D_CNN1(fRGB)),3D_CNN2(fHOG.),3D_CNN3(fLBP)),将该特征向量输入第一注意力网络进行权重叠加后得到三维图像特征:
Figure BDA0002695043910000052
将所述步骤2得到的二维图特征通过第二注意力网络进行线性加权得到融合特征,将所述融合特征输入2D卷积神经网络中进行训练得到骨骼特征为:
将三个二维平面的特征向量,输入第二注意力网络得到新的特征向量:
Figure BDA0002695043910000053
将得到的该特征向量
Figure BDA0002695043910000054
输入2D卷积神经网络中进行训练得到输出特征向量
Figure BDA0002695043910000055
即为骨骼特征。
上述识别方法的步骤4中,将所述步骤3得到的三维图像特征和骨骼特征相连作为描述该手语视频的最终特征向量:
Figure BDA0002695043910000056
上述识别方法的步骤5中,将所述步骤4得到的所述手语视频特征向量输入全连接层和softmax层得到概率分布向量为:
将所述步骤4得到的该手语视频的最终特征向量,
Figure BDA0002695043910000057
输入全连接层和softmax层得到概率分布向量:
Figure BDA0002695043910000058
上述识别方法还包括:
在网络训练阶段,得到概率分布向量后,以交叉熵函数Error_function=-∑pilogpi(1≤i≤C)作为损失函数进行反向梯度传播算法进行参数更新。
如图2所示,本发明实施例还提供一种多特征融合手语识别用网络模型,包括:
三个3D卷积神经网络、第一注意力网络、一个2D卷积神经网络、第二注意力网络和第三注意力网络、全连接层和softmax逻辑回归模型;其中,
所述三个3D卷积神经网络并列设置,三个3D卷积神经网络的输出端均与所述第一注意力网络相连;
第二注意力网络的输出端与所述2D卷积神经网络的输入端相连;
所述第一注意力网络的输出端和所述2D卷积神经网络的输出端均与所述第三注意力网络的输入端相连,该第三注意力网络的输出端依次与所述全连接层和softmax逻辑回归模型相连。
上述神经网络中,第一、第二和第三注意力网络均采用神经网络领域中的多层感知机作为基本单元。
下面对本发明实施例具体作进一步地详细描述。
本发明实施例提供一种多特征融合手语识别方法,该方法充分发掘了彩色图像和骨骼数据的特征,并且考虑了不同特征的权重值,如图1所示,该方法主要包括如下步骤:
步骤1、获取手语演示者的RGB彩色图像和骨骼关节数据;
步骤2、通过提取RGB彩色图像,利用HOG算子和LBP算子,获取具有几何不变性的梯度直方图特征(即HOG特征)以及对于光照条件变化鲁棒的局部二值模式特征(即LBP特征);
根据骨骼关节数据特征,将3D骨骼关节点坐标进行三个方向的二维平面投影得到各二维平面的手语演示过程中的骨骼关节投影点,并将各骨骼关节投影点相连后得到二维图特征;具体是对3D关节点坐标进行2D投影获取3个2D平面的N阶完全图,以图中各点之间的距离作为描述手部关节在整个手语演示过程中的轨迹变化特征;
步骤3、将RGB特征、HOG特征和LBP特征分别输入三个不同的3D卷积神经网络中进行训练,得到相应的特征向量,将得到所述特征向量通过第一注意力网络进行权重叠加后得到三维图像特征;
将二维图特征通过第二注意力网络进行线性加权得到融合特征,将所述融合特征输入2D卷积神经网络训练得到骨骼特征;
步骤4、将上述步骤3获取的三维图像特征和骨骼特征相连输入第三注意力网络,得到最终的手语视频特征向量;
步骤5、将手语视频特征向量输入全连接层和softmax层得到概率分布向量,根据所述概率分布向量得到手语识别结果。
在整个网络模型设计中,充分考虑了各种特征的权重不同这个特点,添加了第一、第二、第三注意力网络层按注意力机制进行各特征的权重分配,使得到的特征向量能更好地描述手语视频。
上述方法各步骤的具体处理方式如下:
(1)获得图像的RGB特性、HOG特性和LBP特征:
利用HOG算子获取梯度直方图特征的基本步骤为:分割图像;计算梯度图;计算局部图像的梯度直方图,归一化;获取特征向量;
利用LBP算子获取局部二值化特征的基本步骤为:划分图像为若干个胞元;对于每个胞元中的一个像素,将相邻的8个像素的灰度值与其进行比较,若周围像素值大于中心像素值,则该像素点的位置被标记为1,否则为0。产生的8位二进制数即为该窗口中心像素点的LBP值;然后计算每个胞元的直方图,即每个数字出现的频率;然后对该直方图进行归一化处理。将得到的每个胞元的统计直方图进行连接成为一个特征向量;
(2)获取N阶图特征的基本步骤为:
将骨骼关节坐标的3D数据分别投影到三个二维平面中,图2表示了该步骤的示意图;而图3则表示了10个手部关节点坐标在xy平面内的投影所构成的十阶完全图;在手语的演示过程中,不同时刻的手指骨关节在相同平面内的投影不同,这个完全图的形状随着手语演示者手部的运动体现出不同的结构,因此,可将十阶图中每两个关节点的投影点的欧式距离作为描述该时刻手部关节运行轨迹的特征;以xy平面为例,以10个手指关节的三维坐标在该xy平面内投影的十个点得到的十阶完全图,(xi,yi)(1≤i≤10)是十个投影点的坐标值,将十个点两两进行连线,能得到
Figure BDA0002695043910000071
条线段,分别计算这些线段的欧氏距离,得到长度为45的一维数组,作为描述二维平面内骨骼运动轨迹特征的特征向量,具体的,xy平面内,10个投影点两两之间的欧氏距离能表示成如下集合:
Figure BDA0002695043910000072
1≤i<j≤10;
这里,将三维坐标分别投影到三个平面,而不是单纯地计算三维空间中10个手指骨关节所构成的空间十阶完全图中两两关节点的欧式距离的原因在于:手语演示者相对于摄影仪的平面,和与该平面正交的两个平面上,手部运动轨迹是有着明显的差别的,所以,将三维运动的轨迹投影到这三个平面,可以充分挖掘三个平面对于手语运动的不同角度的表述能力,可以保证尽可能少地遗漏手指骨关节运动轨迹的信息。
得到了三个方向的二维平面的特征向量之后,将其连接便得到了轨迹运动特征:
Figure BDA0002695043910000073
对于注意力机制的考虑,主要是由于,如果单纯地像上式那样将三个特征向量叠加,那么就默认了这三个特征向量的权重在叠加过程中是相等的,而结合之前的分析,这显然是不符合直观理解和实际情况的。因此,增加了注意力机制,在三个特征向量相连之后再输入一个3*3的线性映射层,相当于在连接过程中对每个向量添加了一定的注意力权重,如下式所示:
Figure BDA0002695043910000081
(3)将LBP HOG RGB特征分别输入三个不同的3D卷积神经网络中进行训练,得到相应的特征向量;将骨骼数据输入2D卷积神经网络训练得到特征向量;将特征向量进行融合得到最终的手语视频特征向量,依次输入全连接层和softmax层得到输出概率向量,计算相应的误差函数。
对于每个得到的骨骼二维图特征
Figure BDA0002695043910000082
输入2D卷积神经网络,经过卷积池化和ReLu操作之后,得到输出特征向量和
Figure BDA0002695043910000083
预训练阶段,将特征F输入全连接层和Softmax层得到概率分布向量:
Figure BDA0002695043910000084
其中C是手语词的类别数。
得到概率分布向量之后,以交叉熵函数作为损失函数进行反向梯度传播算法进行网络参数更新:Error_function=-∑pi logpi(1≤i≤C);
对于LBP特征HOG特征和RGB特征,由于单帧图片获取的特征维数为三维张量,所以采用3D残差网络作为3D卷积神经网络进行分类学习:将RGB HOG LBP特征分别输入三个不同的3D卷积神经网络中,得到相应的特征向量FRGB,FHOG,FLBP=(3D_CNN1(fRGB)),3D_CNN2(fHOG.),3D_CNN3(fLBP));增加注意力层,充分考虑三种特征所占权重的不同,以更好地描述手语视频,得到
Figure BDA0002695043910000085
将四个特征向量相连作为描述该手语视频的最终特征向量
Figure BDA0002695043910000086
再将其输入全连接层和Softmax层得到概率分布向量:
Figure BDA0002695043910000087
根据概率分布向量得到手语识别结果。
本发明的网络模型的损失函数为:得到概率分布向量p=(p1,p2,…,pC)之后,以交叉熵函数作为损失函数进行反向梯度传播更新:Error_function=-∑pi logpi(1≤i≤C)。
如图4所示,本发明实施例还提供一种多特征融合手语识别用网络模型,包括:
三个3D卷积神经网络、第一注意力网络、一个2D卷积神经网络、第二注意力网络和第三注意力网络、全连接层和softmax逻辑回归模型;其中,
所述三个3D卷积神经网络并列设置,三个3D卷积神经网络的输出端均与所述第一注意力网络相连;
第二注意力网络的输出端与所述2D卷积神经网络的输入端相连;
所述第一注意力网络的输出端和所述2D卷积神经网络的输出端均与所述第三注意力网络的输入端相连,该第三注意力网络的输出端依次与所述全连接层和softmax逻辑回归模型相连。
上述神经网络中,各3D卷积神经网络均采用3D残差网络。
本发明通过提取RGB彩色图像,利用HOG算子和LBP算子,获取具有几何不变性的梯度直方图特征以及对于光照条件变化鲁棒的局部二值模式特征。同时,根据骨骼关节数据特征,对3D关节点坐标进行2D投影获取3个2D平面的N阶完全图,以图中各点之间的距离作为描述手部关节在整个手语演示过程中的轨迹变化特征。最后,将相应的特征输入3D CNN和2D CNN,并结合注意力机制进行训练。将各自网络对于各自特征的输出进行叠加得到新的融合特征,将其作为描述手语视频的最终特征,进行网络训练。本发明充分考虑了手语演示者的运动特性和色彩特性,挖掘了手语识别的时序特征以及不同特征在特征表述中所占有的权重的比例,消除了背景变化的影响,提高了手语识别的准确性。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (10)

1.一种多特征融合手语识别方法,其特征在于,包括如下步骤:
步骤1、获取手语演示者的RGB彩色图像和骨骼关节数据;
步骤2、从所述RGB彩色图像中分别提取LBP特征、HOG特征和RGB特征;
根据所述骨骼关节数据,将3D骨骼关节点坐标进行三个方向的二维平面投影得到各二维平面的手语演示过程中的骨骼关节投影点,并将各骨骼关节投影点相连后得到二维图特征;
步骤3、将所述步骤2得到的RGB特征、HOG特征和LBP特征分别输入三个不同的3D卷积神经网络中进行训练,得到相应的特征向量,将得到所述特征向量通过第一注意力网络进行权重叠加后得出三维图像特征;
将所述步骤2得到的二维图特征通过第二注意力网络进行线性加权得到融合特征,将所述融合特征输入2D卷积神经网络中进行训练得到骨骼特征;
步骤4、将所述步骤3得到的三维图像特征和骨骼特征相连输入第三注意力网络,得到最终的手语视频特征向量;
步骤5、将手语视频特征向量输入全连接层和softmax层得到概率分布向量,根据所述概率分布向量得到手语识别结果。
2.根据权利要求1所述的多特征融合手语识别方法,其特征在于,所述方法的步骤1中,获取手语演示者的RGB彩色图像为:
对给定的手语样本进行关键帧采样,获取T帧数据作为手语演示者的RGB彩色图像,并统一RGB彩色图像的尺寸为224×224×3;
获取骨骼关节数据为:基于Kinect-2.0系统提供的骨骼关节数据。
3.根据权利要求2所述的多特征融合手语识别方法,其特征在于,所述方法的步骤2中,从所述RGB彩色图像中分别提取LBP特征、HOG特征和RGB特征为:
通过LBP算子从所述RGB彩色图像中分别提取LBP特征,该LBP特征表示为:
Figure FDA0003683881570000011
通过HOG算子从所述RGB彩色图像中分别提取HOG特征,该HOG特征表示为:
Figure FDA0003683881570000012
从所述RGB彩色图像中提取RGB特征,该RGB特征表示为:
Figure FDA0003683881570000013
4.根据权利要求2所述的多特征融合手语识别方法,其特征在于,所述方法的步骤2中,根据所述骨骼关节数据,将3D骨骼关节点坐标进行三个方向的二维平面投影得到二维图特征为:
选取25个骨骼关节点坐标中的10个与手部相关的关节点坐标,将它们分别投影到xy,xz,yz三个二维平面,得到二维平面中的十个点:(xi,yi)(1≤i≤10),这十个点分别相连得到一个10阶完全图,计算每两点之间的距离得到长度为45的数组,作为描述该二维平面内手指关节在整个手语演示过程中的轨迹变化特征;
将三个二维平面的轨迹变化特征相连得到二维图特征,该二维图特征表示为:
Figure FDA0003683881570000026
5.根据权利要求1至4任一项所述的多特征融合手语识别方法,其特征在于,所述方法的步骤3中,将所述步骤2得到的RGB特征、HOG特征和LBP特征分别输入三个不同的3D卷积神经网络中进行训练,得到对应的RGB特征向量、HOG特征向量和LBP特征向量,将得到所述RGB特征向量、HOG特征向量和LBP特征向量通过第一注意力网络进行权重叠加后得到三维图像特征为:
将RGB特征、HOG特征和LBP特征分别输入三个不同的3D卷积神经网络中,得到相应的特征向量FRGB,FHOG,FLBP=(3D_CNN1(fRGB)),3D_CNN2(fHOG.),3D_CNN3(fLBP)),将所述特征向量FRGB,FHOG,FLBP=(3D_CNN1(fRGB)),3D_CNN2(fHOG.),3D_CNN3(fLBP))输入第一注意力网络进行权重叠加后得到三维图像特征
Figure FDA0003683881570000021
将所述步骤2得到的二维图特征通过第二注意力网络进行线性加权得到融合特征,将所述融合特征输入2D卷积神经网络中进行训练得到骨骼特征为:
将三个二维平面的特征向量相连后,输入第二注意力网络得到新的特征向量:
Figure FDA0003683881570000022
将得到的所述特征向量
Figure FDA0003683881570000023
输入2D卷积神经网络中进行训练得到输出特征向量
Figure FDA0003683881570000024
该输出特征向量
Figure FDA0003683881570000025
即为骨骼特征。
6.根据权利要求5所述的多特征融合手语识别方法,其特征在于,所述方法的步骤4中,将所述步骤3得到的三维图像特征和骨骼特征相连作为描述该手语视频的最终特征向量
Figure FDA0003683881570000031
7.根据权利要求6所述的多特征融合手语识别方法,其特征在于,所述方法的步骤5中,将所述步骤4得到的所述手语视频特征向量输入全连接层和softmax层得到概率分布向量为:
将所述步骤4得到的该手语视频的最终特征向量,
Figure FDA0003683881570000032
输入全连接层和soft max层得到概率分布向量:p=soft max(full_connected(F))。
8.根据权利要求7所述的多特征融合手语识别方法,其特征在于,所述方法还包括:
在网络训练阶段,得到概率分布向量后,以交叉熵函数Error_function=-∑pi log pi(1≤i≤C)作为损失函数进行反向梯度传播算法进行参数更新。
9.一种多特征融合手语识别网络模型,用于实现如权利要求1-8所述的多特征融合手语方法,其特征在于,包括:
三个3D卷积神经网络、第一注意力网络、一个2D卷积神经网络、第二注意力网络和第三注意力网络、全连接层和softmax逻辑回归模型;其中,
所述三个3D卷积神经网络并列设置,三个3D卷积神经网络的输出端均与所述第一注意力网络相连;
第二注意力网络的输出端与所述2D卷积神经网络的输入端相连;
所述第一注意力网络的输出端和所述2D卷积神经网络的输出端均与所述第三注意力网络的输入端相连,该第三注意力网络的输出端依次与所述全连接层和softmax逻辑回归模型相连。
10.根据权利要求9所述的多特征融合手语识别网络模型,其特征在于,第一、第二和第三注意力网络均采用多层感知机作为基本单元。
CN202011003283.7A 2020-09-22 2020-09-22 一种多特征融合手语识别方法及网络模型 Active CN112101262B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011003283.7A CN112101262B (zh) 2020-09-22 2020-09-22 一种多特征融合手语识别方法及网络模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011003283.7A CN112101262B (zh) 2020-09-22 2020-09-22 一种多特征融合手语识别方法及网络模型

Publications (2)

Publication Number Publication Date
CN112101262A CN112101262A (zh) 2020-12-18
CN112101262B true CN112101262B (zh) 2022-09-06

Family

ID=73755865

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011003283.7A Active CN112101262B (zh) 2020-09-22 2020-09-22 一种多特征融合手语识别方法及网络模型

Country Status (1)

Country Link
CN (1) CN112101262B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112806977B (zh) * 2021-02-05 2022-03-18 复旦大学 基于多尺度融合网络的生理参数测量方法
CN113221663B (zh) * 2021-04-16 2022-08-12 南京邮电大学 一种实时手语智能识别方法、装置及系统
CN113537024B (zh) * 2021-07-08 2022-06-21 天津理工大学 多层时序注意力融合机制的弱监督神经网络手语识别方法
WO2023152832A1 (ja) * 2022-02-09 2023-08-17 日本電気株式会社 識別装置、識別方法、及び非一時的なコンピュータ可読媒体

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106228109A (zh) * 2016-07-08 2016-12-14 天津大学 一种基于骨骼运动轨迹的动作识别方法
WO2019075133A1 (en) * 2017-10-13 2019-04-18 Fyusion, Inc. EFFECTS BASED ON SKELETAL AND BACKGROUND REPLACEMENT
CN110399850A (zh) * 2019-07-30 2019-11-01 西安工业大学 一种基于深度神经网络的连续手语识别方法
CN110427877A (zh) * 2019-08-01 2019-11-08 大连海事大学 一种基于结构信息的人体三维姿态估算的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106228109A (zh) * 2016-07-08 2016-12-14 天津大学 一种基于骨骼运动轨迹的动作识别方法
WO2019075133A1 (en) * 2017-10-13 2019-04-18 Fyusion, Inc. EFFECTS BASED ON SKELETAL AND BACKGROUND REPLACEMENT
CN110399850A (zh) * 2019-07-30 2019-11-01 西安工业大学 一种基于深度神经网络的连续手语识别方法
CN110427877A (zh) * 2019-08-01 2019-11-08 大连海事大学 一种基于结构信息的人体三维姿态估算的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Attention-Based 3D-CNNs for Large-Vocabulary Sign Language Recognition;Jie Huang;《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》;20190930;第29卷(第9期);第2822-2832页 *
基于深度卷积神经网络的多特征融合的手势识别;贠卫国等;《液晶与显示》;20190430;第34卷(第4期);第417-422页 *

Also Published As

Publication number Publication date
CN112101262A (zh) 2020-12-18

Similar Documents

Publication Publication Date Title
CN112101262B (zh) 一种多特征融合手语识别方法及网络模型
CN108520535B (zh) 基于深度恢复信息的物体分类方法
Anwar et al. Image colorization: A survey and dataset
CN106547880B (zh) 一种融合地理区域知识的多维度地理场景识别方法
CN106529447B (zh) 一种小样本人脸识别方法
CN111401384B (zh) 一种变电设备缺陷图像匹配方法
CN109410168B (zh) 用于确定图像中的子图块类别的卷积神经网络的建模方法
Yin et al. FD-SSD: An improved SSD object detection algorithm based on feature fusion and dilated convolution
CN112800903B (zh) 一种基于时空图卷积神经网络的动态表情识别方法及系统
CN114255238A (zh) 一种融合图像特征的三维点云场景分割方法及系统
CN112529015A (zh) 一种基于几何解缠的三维点云处理方法、装置及设备
CN112036260B (zh) 一种自然环境下多尺度子块聚合的表情识别方法及系统
Xu et al. Aligning correlation information for domain adaptation in action recognition
CN112131908A (zh) 基于双流网络的动作识别方法、装置、存储介质及设备
CN113221663B (zh) 一种实时手语智能识别方法、装置及系统
CN111768415A (zh) 一种无量化池化的图像实例分割方法
CN112308137B (zh) 一种利用注意力机制聚合邻域点和全局特征的图像匹配方法
CN110827304A (zh) 一种基于深度卷积网络与水平集方法的中医舌像定位方法和系统
CN110852199A (zh) 一种基于双帧编码解码模型的前景提取方法
Zhang et al. A deep extractor for visual rail surface inspection
Liu et al. Dunhuang murals contour generation network based on convolution and self-attention fusion
CN113822134A (zh) 一种基于视频的实例跟踪方法、装置、设备及存储介质
CN111401209B (zh) 一种基于深度学习的动作识别方法
CN113066074A (zh) 一种基于双目视差偏移融合的视觉显著性预测方法
CN117252928A (zh) 用于电子产品模块化智能组装的视觉图像定位系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant