CN112101262B - 一种多特征融合手语识别方法及网络模型 - Google Patents
一种多特征融合手语识别方法及网络模型 Download PDFInfo
- Publication number
- CN112101262B CN112101262B CN202011003283.7A CN202011003283A CN112101262B CN 112101262 B CN112101262 B CN 112101262B CN 202011003283 A CN202011003283 A CN 202011003283A CN 112101262 B CN112101262 B CN 112101262B
- Authority
- CN
- China
- Prior art keywords
- features
- sign language
- feature
- rgb
- lbp
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
Abstract
本发明公开一种多特征融合手语识别方法及网络模型,方法包括:1.获取手语演示者的RGB彩色图像和骨骼关节数据;2.从中提取LBP、HOG和RGB特征;将3D骨骼关节点坐标按三方向二维平面投影得到骨骼关节投影点,相连得到二维图特征;3.将RGB、HOG和LBP特征经三个不同3D CNN训练得相应特征向量,将各特征向量经第一注意力网络权重叠加得三维图像特征;将二维图特征经第二注意力网络线性加权得融合特征,并经2D CNN训练得骨骼特征;4.将三维图像和骨骼特征相连输入第三注意力网络,得到手语视频特征向量;5.将手语视频特征向量输入全连接层和soft max层得到概率分布向量,进而得出手语识别结果。该方法赋予不同特征在特征描述中以适当的注意力权重,提高了手语识别的准确性。
Description
技术领域
本发明涉及图像处理领域,尤其涉及一种多特征融合手语识别方法及网络模型。
背景技术
3D手语识别方法,通常可以分为生成方法、判别方法以及混合方法。近几年使用的比较多的是基于CNN(卷积神经网络)的判别方法。在现有的基于CNN的手语识别方法中,又可以分为基于3D CNN(3D卷积神经网络)和基于2D CNN(2D卷积神经网络)的识别方法。由于3D CNN能够同时捕捉手语视频的空间特性和时序特性,因此近几年来3D CNN逐渐成为手语识别的主流研究方法,更多的技术创新都是基于3D CNN。
虽然3D CNN相对于2D CNN有明显的优势,但是,相比于2D CNN,3D CNN具有更多的参数和更高的网络复杂性,计算资源耗费大大增加。此外,对于骨骼数据,3D CNN的处理反而会带来更多数据的复杂性和不必要的混杂信息,降低了特征的描述功能。2D CNN在处理骨骼数据方面仍然发挥着比较重要的作用。所以,进行手语识别,特征提取阶段的任务普遍分为两个部分:根据RGB彩色图像提取出3D的特征描述,根据骨骼数据提取出2D的特征描述。对两种特征进行多网络并行训练,特征融合,模型融合等多重手段进行网络参数更新和学习,进而提高手语的识别准确率。
虽然各种特征的融合可显著提高网络的学习能力和识别准确率,但目前的识别方法并未考虑各种特征的权重,因此在特征表述阶段仍然有一定的改进余地。
发明内容
基于现有技术所存在的问题,本发明的目的是提供一种多特征融合手语识别方法及网络模型,能改进现有的特征融合方法中未考虑各项特征权重的问题。
本发明的目的是通过以下技术方案实现的:
本发明实施方式提供一种多特征融合手语识别方法,包括如下步骤:
步骤1、获取手语演示者的RGB彩色图像和骨骼关节数据;
步骤2、从所述RGB彩色图像中分别提取LBP特征、HOG特征和RGB特征;
根据所述骨骼关节数据,将3D骨骼关节点坐标进行三个方向的二维平面投影得到各二维平面的手语演示过程中的骨骼关节投影点,并将各骨骼关节投影点相连后得到二维图特征;
步骤3、将步骤2得到的RGB特征、HOG特征和LBP特征分别输入三个不同的3D卷积神经网络中进行训练,得到相应的特征向量,将得到所述特征向量通过第一注意力网络进行权重叠加后得到三维图像特征;
将步骤2得到的二维图特征通过第二注意力网络进行线性加权得到融合特征,将所述融合特征输入2D卷积神经网络中进行训练得到骨骼特征;
步骤4、将所述步骤3得到的三维图像特征和骨骼特征相连输入第三注意力网络,得到最终的手语视频特征向量;
步骤5、将手语视频特征向量输入全连接层和softmax层得到概率分布向量,根据所述概率分布向量得出手语识别结果。
本发明实施方式还提供一种多特征融合手语识别神经网络,包括:
三个3D卷积神经网络、第一注意力网络、一个2D卷积神经网络、第二注意力网络和第三注意力网络、全连接层和softmax逻辑回归模型;其中,
所述三个3D卷积神经网络并列设置,三个3D卷积神经网络的输出端均与所述第一注意力网络相连;
第二注意力网络的输出端与所述2D卷积神经网络的输入端相连;
所述第一注意力网络的输出端和所述2D卷积神经网络的输出端均与所述第三注意力网络的输入端相连,该第三注意力网络的输出端依次与所述全连接层和softmax逻辑回归模型相连。
由上述本发明提供的技术方案可以看出,本发明实施例提供的多特征融合手语识别方法及网络模型,其有益效果为:
提供提取手语演示者的运动特性和色彩特性,并设置注意力机制,充分考虑各种特征的权重相对值,对每个特征赋予不同的注意力权重,挖掘了手语识别的时序特征以及不同特征在特征表述中所占有的权重的比例,能更好地优化网络,消除了背景变化的影响,进而得到更为精确的手语识别结果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的多特征融合手语识别方法的流程图;
图2为本发明实施例提供的多特征融合手语识别网络模型的构成示意图;
图3为本发明实施例提供的方法中,将手语骨骼关节点的三维数据(x,y,z)投影到3个二维平面中以获取三个二维平面向量(x,y)(x,z)(y,z)的示意图;
图4为本发明实施例提供的方法中,以xy平面为例得到的,以10个手指关节的三维坐标在该xy平面内投影的十个点所得到的十阶完全图;
图中:
RGB为:三维彩色图像;
HOG为:梯度直方图,用于表示图像的轮廓特征;
LBP为:局部二值模式特征,主要表现图像的纹理特征,对于光照有很好的鲁棒性,可以消除手语演示者的演示背景和光照条件变化的影响;
ReLu为:非线性函数:f(x)=max(0,x);
T为:单个手语样本抽取的用于表述整个手语视频的关键帧数目C:向量的连接操作;
具体实施方式
下面结合本发明的具体内容,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
如图1所示,本发明实施例提供一种多特征融合手语识别方法,包括如下步骤:
步骤1、获取手语演示者的RGB彩色图像和骨骼关节数据;
步骤2、从所述RGB彩色图像中分别提取LBP特征、HOG特征和RGB特征;
根据所述骨骼关节数据,将3D骨骼关节点坐标进行三个方向二维平面投影得到各二维平面的手语演示过程中的骨骼关节投影点,并将各骨骼关节投影点相连后得到二维图特征;
步骤3、将所述步骤2得到的RGB特征、HOG特征和LBP特征分别输入三个不同的3D卷积神经网络中进行训练,得到相应的特征向量,将得到所述特征向量通过第一注意力网络进行权重叠加后得到三维图像特征;
将所述步骤2得到的二维图特征通过第二注意力网络进行线性加权得到融合特征,将所述融合特征输入2D卷积神经网络中进行训练得到骨骼特征;
步骤4、将所述步骤3得到的三维图像特征和骨骼特征进行融合,得到最终的手语视频特征向量;
步骤5、将手语视频特征向量输入全连接层和softmax层得到概率分布向量,根据所述概率分布向量得出手语识别结果。
上述识别方法的步骤1中,获取手语演示者的RGB彩色图像为:
对给定的手语样本进行关键帧采样,获取T帧数据作为手语演示者的RGB彩色图像,并统一RGB彩色图像的尺寸为224×224×3(具体是指像素,即RGB彩色图像的三个通道的每个通道的像素个数为224×224,像素点个数是224×224×3);
获取骨骼关节数据为:基于Kinect-2.0系统提供的骨骼关节数据。
上述识别方法的步骤2中,从所述RGB彩色图像中分别提取LBP特征、HOG特征和RGB特征为:
上述识别方法的步骤2中,根据所述骨骼关节数据,将3D骨骼关节点坐标进行三个二维平面投影得到二维图特征为:
选取25个骨骼关节点坐标中的10个与手部相关的关节点坐标,将它们分别投影到xy,xz,yz三个二维平面,得到二维平面中的十个点:(xi,yi)(1≤i≤10),这十个点分别相连得到一个10阶完全图,计算每两点之间的距离得到长度为45的数组,作为描述该二维平面内手指关节在整个手语演示过程中的轨迹变化特征;
上述识别方法的步骤3中,将所述步骤2得到的RGB特征、HOG特征和LBP特征分别输入三个不同的3D卷积神经网络中进行训练,得到对应的RGB特征向量、HOG特征向量和LBP特征向量,并通过第一注意力网络进行权重叠加后得到三维图像特征为:
将RGB特征、HOG特征和LBP特征分别输入三个不同的3D卷积神经网络中,得到相应的特征向量FRGB,FHOG,FLBP=(3D_CNN1(fRGB)),3D_CNN2(fHOG.),3D_CNN3(fLBP)),将该特征向量输入第一注意力网络进行权重叠加后得到三维图像特征:
将所述步骤2得到的二维图特征通过第二注意力网络进行线性加权得到融合特征,将所述融合特征输入2D卷积神经网络中进行训练得到骨骼特征为:
上述识别方法的步骤5中,将所述步骤4得到的所述手语视频特征向量输入全连接层和softmax层得到概率分布向量为:
上述识别方法还包括:
在网络训练阶段,得到概率分布向量后,以交叉熵函数Error_function=-∑pilogpi(1≤i≤C)作为损失函数进行反向梯度传播算法进行参数更新。
如图2所示,本发明实施例还提供一种多特征融合手语识别用网络模型,包括:
三个3D卷积神经网络、第一注意力网络、一个2D卷积神经网络、第二注意力网络和第三注意力网络、全连接层和softmax逻辑回归模型;其中,
所述三个3D卷积神经网络并列设置,三个3D卷积神经网络的输出端均与所述第一注意力网络相连;
第二注意力网络的输出端与所述2D卷积神经网络的输入端相连;
所述第一注意力网络的输出端和所述2D卷积神经网络的输出端均与所述第三注意力网络的输入端相连,该第三注意力网络的输出端依次与所述全连接层和softmax逻辑回归模型相连。
上述神经网络中,第一、第二和第三注意力网络均采用神经网络领域中的多层感知机作为基本单元。
下面对本发明实施例具体作进一步地详细描述。
本发明实施例提供一种多特征融合手语识别方法,该方法充分发掘了彩色图像和骨骼数据的特征,并且考虑了不同特征的权重值,如图1所示,该方法主要包括如下步骤:
步骤1、获取手语演示者的RGB彩色图像和骨骼关节数据;
步骤2、通过提取RGB彩色图像,利用HOG算子和LBP算子,获取具有几何不变性的梯度直方图特征(即HOG特征)以及对于光照条件变化鲁棒的局部二值模式特征(即LBP特征);
根据骨骼关节数据特征,将3D骨骼关节点坐标进行三个方向的二维平面投影得到各二维平面的手语演示过程中的骨骼关节投影点,并将各骨骼关节投影点相连后得到二维图特征;具体是对3D关节点坐标进行2D投影获取3个2D平面的N阶完全图,以图中各点之间的距离作为描述手部关节在整个手语演示过程中的轨迹变化特征;
步骤3、将RGB特征、HOG特征和LBP特征分别输入三个不同的3D卷积神经网络中进行训练,得到相应的特征向量,将得到所述特征向量通过第一注意力网络进行权重叠加后得到三维图像特征;
将二维图特征通过第二注意力网络进行线性加权得到融合特征,将所述融合特征输入2D卷积神经网络训练得到骨骼特征;
步骤4、将上述步骤3获取的三维图像特征和骨骼特征相连输入第三注意力网络,得到最终的手语视频特征向量;
步骤5、将手语视频特征向量输入全连接层和softmax层得到概率分布向量,根据所述概率分布向量得到手语识别结果。
在整个网络模型设计中,充分考虑了各种特征的权重不同这个特点,添加了第一、第二、第三注意力网络层按注意力机制进行各特征的权重分配,使得到的特征向量能更好地描述手语视频。
上述方法各步骤的具体处理方式如下:
(1)获得图像的RGB特性、HOG特性和LBP特征:
利用HOG算子获取梯度直方图特征的基本步骤为:分割图像;计算梯度图;计算局部图像的梯度直方图,归一化;获取特征向量;
利用LBP算子获取局部二值化特征的基本步骤为:划分图像为若干个胞元;对于每个胞元中的一个像素,将相邻的8个像素的灰度值与其进行比较,若周围像素值大于中心像素值,则该像素点的位置被标记为1,否则为0。产生的8位二进制数即为该窗口中心像素点的LBP值;然后计算每个胞元的直方图,即每个数字出现的频率;然后对该直方图进行归一化处理。将得到的每个胞元的统计直方图进行连接成为一个特征向量;
(2)获取N阶图特征的基本步骤为:
将骨骼关节坐标的3D数据分别投影到三个二维平面中,图2表示了该步骤的示意图;而图3则表示了10个手部关节点坐标在xy平面内的投影所构成的十阶完全图;在手语的演示过程中,不同时刻的手指骨关节在相同平面内的投影不同,这个完全图的形状随着手语演示者手部的运动体现出不同的结构,因此,可将十阶图中每两个关节点的投影点的欧式距离作为描述该时刻手部关节运行轨迹的特征;以xy平面为例,以10个手指关节的三维坐标在该xy平面内投影的十个点得到的十阶完全图,(xi,yi)(1≤i≤10)是十个投影点的坐标值,将十个点两两进行连线,能得到条线段,分别计算这些线段的欧氏距离,得到长度为45的一维数组,作为描述二维平面内骨骼运动轨迹特征的特征向量,具体的,xy平面内,10个投影点两两之间的欧氏距离能表示成如下集合:1≤i<j≤10;
这里,将三维坐标分别投影到三个平面,而不是单纯地计算三维空间中10个手指骨关节所构成的空间十阶完全图中两两关节点的欧式距离的原因在于:手语演示者相对于摄影仪的平面,和与该平面正交的两个平面上,手部运动轨迹是有着明显的差别的,所以,将三维运动的轨迹投影到这三个平面,可以充分挖掘三个平面对于手语运动的不同角度的表述能力,可以保证尽可能少地遗漏手指骨关节运动轨迹的信息。
得到了三个方向的二维平面的特征向量之后,将其连接便得到了轨迹运动特征:
对于注意力机制的考虑,主要是由于,如果单纯地像上式那样将三个特征向量叠加,那么就默认了这三个特征向量的权重在叠加过程中是相等的,而结合之前的分析,这显然是不符合直观理解和实际情况的。因此,增加了注意力机制,在三个特征向量相连之后再输入一个3*3的线性映射层,相当于在连接过程中对每个向量添加了一定的注意力权重,如下式所示:
(3)将LBP HOG RGB特征分别输入三个不同的3D卷积神经网络中进行训练,得到相应的特征向量;将骨骼数据输入2D卷积神经网络训练得到特征向量;将特征向量进行融合得到最终的手语视频特征向量,依次输入全连接层和softmax层得到输出概率向量,计算相应的误差函数。
得到概率分布向量之后,以交叉熵函数作为损失函数进行反向梯度传播算法进行网络参数更新:Error_function=-∑pi logpi(1≤i≤C);
对于LBP特征HOG特征和RGB特征,由于单帧图片获取的特征维数为三维张量,所以采用3D残差网络作为3D卷积神经网络进行分类学习:将RGB HOG LBP特征分别输入三个不同的3D卷积神经网络中,得到相应的特征向量FRGB,FHOG,FLBP=(3D_CNN1(fRGB)),3D_CNN2(fHOG.),3D_CNN3(fLBP));增加注意力层,充分考虑三种特征所占权重的不同,以更好地描述手语视频,得到
本发明的网络模型的损失函数为:得到概率分布向量p=(p1,p2,…,pC)之后,以交叉熵函数作为损失函数进行反向梯度传播更新:Error_function=-∑pi logpi(1≤i≤C)。
如图4所示,本发明实施例还提供一种多特征融合手语识别用网络模型,包括:
三个3D卷积神经网络、第一注意力网络、一个2D卷积神经网络、第二注意力网络和第三注意力网络、全连接层和softmax逻辑回归模型;其中,
所述三个3D卷积神经网络并列设置,三个3D卷积神经网络的输出端均与所述第一注意力网络相连;
第二注意力网络的输出端与所述2D卷积神经网络的输入端相连;
所述第一注意力网络的输出端和所述2D卷积神经网络的输出端均与所述第三注意力网络的输入端相连,该第三注意力网络的输出端依次与所述全连接层和softmax逻辑回归模型相连。
上述神经网络中,各3D卷积神经网络均采用3D残差网络。
本发明通过提取RGB彩色图像,利用HOG算子和LBP算子,获取具有几何不变性的梯度直方图特征以及对于光照条件变化鲁棒的局部二值模式特征。同时,根据骨骼关节数据特征,对3D关节点坐标进行2D投影获取3个2D平面的N阶完全图,以图中各点之间的距离作为描述手部关节在整个手语演示过程中的轨迹变化特征。最后,将相应的特征输入3D CNN和2D CNN,并结合注意力机制进行训练。将各自网络对于各自特征的输出进行叠加得到新的融合特征,将其作为描述手语视频的最终特征,进行网络训练。本发明充分考虑了手语演示者的运动特性和色彩特性,挖掘了手语识别的时序特征以及不同特征在特征表述中所占有的权重的比例,消除了背景变化的影响,提高了手语识别的准确性。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (10)
1.一种多特征融合手语识别方法,其特征在于,包括如下步骤:
步骤1、获取手语演示者的RGB彩色图像和骨骼关节数据;
步骤2、从所述RGB彩色图像中分别提取LBP特征、HOG特征和RGB特征;
根据所述骨骼关节数据,将3D骨骼关节点坐标进行三个方向的二维平面投影得到各二维平面的手语演示过程中的骨骼关节投影点,并将各骨骼关节投影点相连后得到二维图特征;
步骤3、将所述步骤2得到的RGB特征、HOG特征和LBP特征分别输入三个不同的3D卷积神经网络中进行训练,得到相应的特征向量,将得到所述特征向量通过第一注意力网络进行权重叠加后得出三维图像特征;
将所述步骤2得到的二维图特征通过第二注意力网络进行线性加权得到融合特征,将所述融合特征输入2D卷积神经网络中进行训练得到骨骼特征;
步骤4、将所述步骤3得到的三维图像特征和骨骼特征相连输入第三注意力网络,得到最终的手语视频特征向量;
步骤5、将手语视频特征向量输入全连接层和softmax层得到概率分布向量,根据所述概率分布向量得到手语识别结果。
2.根据权利要求1所述的多特征融合手语识别方法,其特征在于,所述方法的步骤1中,获取手语演示者的RGB彩色图像为:
对给定的手语样本进行关键帧采样,获取T帧数据作为手语演示者的RGB彩色图像,并统一RGB彩色图像的尺寸为224×224×3;
获取骨骼关节数据为:基于Kinect-2.0系统提供的骨骼关节数据。
5.根据权利要求1至4任一项所述的多特征融合手语识别方法,其特征在于,所述方法的步骤3中,将所述步骤2得到的RGB特征、HOG特征和LBP特征分别输入三个不同的3D卷积神经网络中进行训练,得到对应的RGB特征向量、HOG特征向量和LBP特征向量,将得到所述RGB特征向量、HOG特征向量和LBP特征向量通过第一注意力网络进行权重叠加后得到三维图像特征为:
将RGB特征、HOG特征和LBP特征分别输入三个不同的3D卷积神经网络中,得到相应的特征向量FRGB,FHOG,FLBP=(3D_CNN1(fRGB)),3D_CNN2(fHOG.),3D_CNN3(fLBP)),将所述特征向量FRGB,FHOG,FLBP=(3D_CNN1(fRGB)),3D_CNN2(fHOG.),3D_CNN3(fLBP))输入第一注意力网络进行权重叠加后得到三维图像特征
将所述步骤2得到的二维图特征通过第二注意力网络进行线性加权得到融合特征,将所述融合特征输入2D卷积神经网络中进行训练得到骨骼特征为:
8.根据权利要求7所述的多特征融合手语识别方法,其特征在于,所述方法还包括:
在网络训练阶段,得到概率分布向量后,以交叉熵函数Error_function=-∑pi log pi(1≤i≤C)作为损失函数进行反向梯度传播算法进行参数更新。
9.一种多特征融合手语识别网络模型,用于实现如权利要求1-8所述的多特征融合手语方法,其特征在于,包括:
三个3D卷积神经网络、第一注意力网络、一个2D卷积神经网络、第二注意力网络和第三注意力网络、全连接层和softmax逻辑回归模型;其中,
所述三个3D卷积神经网络并列设置,三个3D卷积神经网络的输出端均与所述第一注意力网络相连;
第二注意力网络的输出端与所述2D卷积神经网络的输入端相连;
所述第一注意力网络的输出端和所述2D卷积神经网络的输出端均与所述第三注意力网络的输入端相连,该第三注意力网络的输出端依次与所述全连接层和softmax逻辑回归模型相连。
10.根据权利要求9所述的多特征融合手语识别网络模型,其特征在于,第一、第二和第三注意力网络均采用多层感知机作为基本单元。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011003283.7A CN112101262B (zh) | 2020-09-22 | 2020-09-22 | 一种多特征融合手语识别方法及网络模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011003283.7A CN112101262B (zh) | 2020-09-22 | 2020-09-22 | 一种多特征融合手语识别方法及网络模型 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112101262A CN112101262A (zh) | 2020-12-18 |
CN112101262B true CN112101262B (zh) | 2022-09-06 |
Family
ID=73755865
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011003283.7A Active CN112101262B (zh) | 2020-09-22 | 2020-09-22 | 一种多特征融合手语识别方法及网络模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112101262B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112806977B (zh) * | 2021-02-05 | 2022-03-18 | 复旦大学 | 基于多尺度融合网络的生理参数测量方法 |
CN113221663B (zh) * | 2021-04-16 | 2022-08-12 | 南京邮电大学 | 一种实时手语智能识别方法、装置及系统 |
CN113537024B (zh) * | 2021-07-08 | 2022-06-21 | 天津理工大学 | 多层时序注意力融合机制的弱监督神经网络手语识别方法 |
WO2023152832A1 (ja) * | 2022-02-09 | 2023-08-17 | 日本電気株式会社 | 識別装置、識別方法、及び非一時的なコンピュータ可読媒体 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106228109A (zh) * | 2016-07-08 | 2016-12-14 | 天津大学 | 一种基于骨骼运动轨迹的动作识别方法 |
WO2019075133A1 (en) * | 2017-10-13 | 2019-04-18 | Fyusion, Inc. | EFFECTS BASED ON SKELETAL AND BACKGROUND REPLACEMENT |
CN110399850A (zh) * | 2019-07-30 | 2019-11-01 | 西安工业大学 | 一种基于深度神经网络的连续手语识别方法 |
CN110427877A (zh) * | 2019-08-01 | 2019-11-08 | 大连海事大学 | 一种基于结构信息的人体三维姿态估算的方法 |
-
2020
- 2020-09-22 CN CN202011003283.7A patent/CN112101262B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106228109A (zh) * | 2016-07-08 | 2016-12-14 | 天津大学 | 一种基于骨骼运动轨迹的动作识别方法 |
WO2019075133A1 (en) * | 2017-10-13 | 2019-04-18 | Fyusion, Inc. | EFFECTS BASED ON SKELETAL AND BACKGROUND REPLACEMENT |
CN110399850A (zh) * | 2019-07-30 | 2019-11-01 | 西安工业大学 | 一种基于深度神经网络的连续手语识别方法 |
CN110427877A (zh) * | 2019-08-01 | 2019-11-08 | 大连海事大学 | 一种基于结构信息的人体三维姿态估算的方法 |
Non-Patent Citations (2)
Title |
---|
Attention-Based 3D-CNNs for Large-Vocabulary Sign Language Recognition;Jie Huang;《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》;20190930;第29卷(第9期);第2822-2832页 * |
基于深度卷积神经网络的多特征融合的手势识别;贠卫国等;《液晶与显示》;20190430;第34卷(第4期);第417-422页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112101262A (zh) | 2020-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112101262B (zh) | 一种多特征融合手语识别方法及网络模型 | |
CN108520535B (zh) | 基于深度恢复信息的物体分类方法 | |
Anwar et al. | Image colorization: A survey and dataset | |
CN106547880B (zh) | 一种融合地理区域知识的多维度地理场景识别方法 | |
CN106529447B (zh) | 一种小样本人脸识别方法 | |
CN111401384B (zh) | 一种变电设备缺陷图像匹配方法 | |
CN109410168B (zh) | 用于确定图像中的子图块类别的卷积神经网络的建模方法 | |
Yin et al. | FD-SSD: An improved SSD object detection algorithm based on feature fusion and dilated convolution | |
CN112800903B (zh) | 一种基于时空图卷积神经网络的动态表情识别方法及系统 | |
CN114255238A (zh) | 一种融合图像特征的三维点云场景分割方法及系统 | |
CN112529015A (zh) | 一种基于几何解缠的三维点云处理方法、装置及设备 | |
CN112036260B (zh) | 一种自然环境下多尺度子块聚合的表情识别方法及系统 | |
Xu et al. | Aligning correlation information for domain adaptation in action recognition | |
CN112131908A (zh) | 基于双流网络的动作识别方法、装置、存储介质及设备 | |
CN113221663B (zh) | 一种实时手语智能识别方法、装置及系统 | |
CN111768415A (zh) | 一种无量化池化的图像实例分割方法 | |
CN112308137B (zh) | 一种利用注意力机制聚合邻域点和全局特征的图像匹配方法 | |
CN110827304A (zh) | 一种基于深度卷积网络与水平集方法的中医舌像定位方法和系统 | |
CN110852199A (zh) | 一种基于双帧编码解码模型的前景提取方法 | |
Zhang et al. | A deep extractor for visual rail surface inspection | |
Liu et al. | Dunhuang murals contour generation network based on convolution and self-attention fusion | |
CN113822134A (zh) | 一种基于视频的实例跟踪方法、装置、设备及存储介质 | |
CN111401209B (zh) | 一种基于深度学习的动作识别方法 | |
CN113066074A (zh) | 一种基于双目视差偏移融合的视觉显著性预测方法 | |
CN117252928A (zh) | 用于电子产品模块化智能组装的视觉图像定位系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |