CN111325099A - 一种基于双流时空图卷积神经网络的手语识别方法及系统 - Google Patents

一种基于双流时空图卷积神经网络的手语识别方法及系统 Download PDF

Info

Publication number
CN111325099A
CN111325099A CN202010069598.5A CN202010069598A CN111325099A CN 111325099 A CN111325099 A CN 111325099A CN 202010069598 A CN202010069598 A CN 202010069598A CN 111325099 A CN111325099 A CN 111325099A
Authority
CN
China
Prior art keywords
time
space
global
local
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010069598.5A
Other languages
English (en)
Other versions
CN111325099B (zh
Inventor
刘天亮
王焱章
鲍秉坤
谢世朋
戴修斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202010069598.5A priority Critical patent/CN111325099B/zh
Publication of CN111325099A publication Critical patent/CN111325099A/zh
Application granted granted Critical
Publication of CN111325099B publication Critical patent/CN111325099B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于双流时空图卷积神经网络的手语识别方法及系统,首先,将手语动作视频切分为视频帧,提取手语动作视频片段中人物上半身和手部骨架点,并构建全局和局部图数据;利用双流时空图卷网络分别提取全局和局部时空特征,经过特征拼接得到全局‑局部特征;同时,将视频对应文本通过分词处理之后编码为词向量,并采用特征变换将二者映射到同一隐空间,利用动态时间规整算法进行模型训练;对全局‑局部特征序列,采用自注意力机制编解码网络对其进行序列化建模,解码器的输出采用softmax分类器获得每个视频片段所对应的单词,并组成相应文本句子。本发明能提高生成文本句子的准确率,在字幕生成、人机交互等场景中具有重要的应用价值。

Description

一种基于双流时空图卷积神经网络的手语识别方法及系统
技术领域
本发明属于计算机视觉中行为识别和自然语言处理中机器翻译的交叉领域,具体涉及一种基于双流时空图卷积神经网络的手语识别方法及系统。
背景技术
人体行为识别是一项以目标检测、识别、跟踪为基础的高层次的任务,构建一套鲁棒性好、应用范围广的人体行为识别系统仍极具挑战性。基于计算视觉的人体行为识别研究包含丰富的研究内容,涉及图像处理、计算机视觉、模式识别、人工智能等诸多方面的知识。当前,基于计算机视觉的人体行为识别主要包括基于手工特征的传统方法和基于卷积神经网络的深度学习方法。传统方法通过设计手工特征,然后对视频帧提取特征然后通过机器学习的方法训练分类器,最后通过训练所得分类器利用特征进行分类,从而实现人体行为的识别。深度学习的方法通过设计特定的端到端的神经网络结构,可以完成特征提取、动作分类等一连串操作。目前两种主流方法虽然均取得了重要的进展,但是基于视频的人体行为识别受光照条件各异、视角多样性、背景复杂、类内变化大等诸多因素的影响,使得人体行为识别成为图像视频理解任务中棘手且极具挑战的研究方向。
手语是聋哑人的主要语言,尽管其作为一种“语言”被广泛使用,但这一特殊群体在与不懂手语的人进行交流时存在困难。目前的相关文献中,在手语识别任务中所使用的RGB、深度图等模态的数据很容易受到场景中视觉信息的干扰,特别是复杂场景下,针对RGB图片或者深度图等数据进行特征提取,一方面运算量大不能满足实时性要求,另一方面,所提取的特征鲁棒性不强,表征能力不够,特别是无法对时域上的信息进行描述。
发明内容
发明目的:针对现有技术存在的问题,本发明目的在于提出一种基于双流时空图卷积神经网络的手语识别方法及系统,采用双流时空图卷积网络分别对两个部分分别提取时空特征,更合理地描述了手语动作视频中的动作信息;针对复杂场景有显著的鲁棒性,能在一定程度上提高了手语识别的准确度。
发明内容:本发明所述的一种基于双流时空图卷积神经网络的手语识别方法,具体包括以下步骤:
(1)将带有标签文本的手语动作视频按照设定帧率分割为若干候选帧图像序列;
(2)利用自下而上的人体姿态估计方法和手部标志模型分别提取由设定长度的候选帧组成的视频片段中人物的上半身和手部的骨架关键点,得到骨架关键点坐标;利用图数据结构,将检测所得关键点按照人体关节的物理形态结构进行连接,构建全局和局部两种图数据,分别对应上半身和手部两个部分;
(3)将步骤(2)中构建的全局和局部图数据分别输入到双流时空图卷积神经网络中,按顺序依次提取出相应候选视频片段中的时空特征,得到对应上半身的全局时空特征和对应手部局部时空特征序列,经过即得的特征拼接之后形成全局-局部时空特征序列;
(4)利用特征映射函数对步骤(3)提取的全局-局部时空特征序列,进行特征变换,并加入位置编码;然后,依次经过各子层计算注意力,并通过前向传播,经过层正则化得到自注意力向量;
(5)在解码阶段,首先,对前一时间步的输出进行词嵌入,加入位置编码之后输入到解码器,解码器的第一个子层对其计算掩膜注意力;然后,同编码器的输出一起输入到解码器的第二、三子层;最终,经过softmax分类器得到对应单词的概率;
(6)在利用时空图卷积分别对人物上半身和手部分别提取全局和局部时空特征的同时,将视频对应的句子进行分词处理,并编码为脉冲激活编码向量;然后,将全局-局部特征和文本的脉冲激活编码向量分别映射到同一隐空间,并采用动态时间规整算法对二者进行相关性计算,并构造损失函数进行模型训练。
进一步地,所述步骤(2)包括以下步骤:
(21)将整个视频候选帧图像每连续T帧视为一个短帧序列;然后,使用自下而上的人体姿态估计方法和手部标志模型分别提取每个短帧序列的人物上半身和手部骨架关键点,得到骨架关键点坐标序列;其中T为设定的连续帧的长度,不足T帧时,对最后一帧进行过采样,填补为一个短帧序列;最终,分别得到k段人物上躯干和双手的连续帧序列;
(22)对k段人物上躯干的帧序列中NB×T个骨架关键点进行连接,构建上躯干图GB=(VB,EB,AB),其中NB为每一帧内提取得到的人物上半身骨架关键点的总数;
Figure BDA0002376968590000031
为骨架关键点集合,
Figure BDA0002376968590000032
表示边集合,其包含两个子集
Figure BDA0002376968590000033
Figure BDA0002376968590000034
分别表示每一帧内部的连接边和相邻时间上的连接边;同时,可得邻接矩阵
Figure BDA0002376968590000035
(23)对k段手部的连续帧序列中NH×T个骨架关键点进行连接,构建双手图GH=(VH,EH,AH),其中,NH为每一帧内提取得到的手部骨架关键点的总数;
Figure BDA0002376968590000036
为骨架关键点集合,
Figure BDA0002376968590000037
表示边集合,其包含两个子集
Figure BDA0002376968590000038
Figure BDA0002376968590000039
分别表示每一帧内部的连接边和相邻时间上的连接边;同时,可得邻接矩阵
Figure BDA00023769685900000310
进一步地,所述步骤(3)包括以下步骤:
(31)单层图卷积计算形式如下:
Figure BDA00023769685900000311
其中Λii=∑j(Aij+Iij),fin为输入特征图,W为输出多个通道的权重向量叠加而成的权重矩阵,I为自连结矩阵;
(32)经过双流时空图卷积网络,分别得到基于上半身的全局特征fG和基于手部的局部特征fL,经过特征拼接之后得到全局-局部特征fG-L=[fG;fL]。
进一步地,所述步骤(4)所包括以下步骤:
(41)利用特征映射函数将步骤(3)中提取得到的全局-局部特征序列F=(f1,f2,...,fk)进行特征变换:
F′=Tv(F)
(42)将F′采用基于自注意力的编解码模型对其进行编解码得到输出序列,编码器中每一个单元模块计算如下:
Qi=Wqf′i,Ki=Wkf′i,Vi=Wvf′i
Figure BDA00023769685900000312
Figure BDA00023769685900000313
bi=layerNorm(xi+ai)
hi=layerNorm(bi+FFN(bi))
FFN(x)=ReLU(xW1+b1)W2+b2
其中,Q、K、V分别表示Query,Key,Value矩阵;
Figure BDA0002376968590000041
表示注意力权重;a表示注意力向量;b为输入与注意力向量通过残差连接并经过层正则化之后的输出;h为每个编码单元的输出;dotProduct表示矩阵点积运算,即相同维度的矩阵对应位置项相乘并累加;softmax表示归一化指数函数;layerNorm表示层正则化运算;ReLU为线性整流函数;FFN表示前向传播计算,W1、W2和b1、b2分别表示权重矩阵及偏置项。
进一步地,所述步骤(5)所包括以下步骤:
(51)将前一时间步的输出通过词嵌入得到词向量,作为解码器的一部分输入,之后计算解码器输入部分的注意力向量;
gi=Ts(oi-1)
Qi=Wqgi,Ki=Wkgi,Vi=Wvgi
Figure BDA0002376968590000042
Figure BDA0002376968590000043
bi=layerNorm(xi+ai)
其中,g为经过位置编码和脉冲激活编码之后的词向量;
(52)在解码器中的每一个时间步,使用与编码器相同的结构处理来自编码器的输出以及来自解码器的自注意力;
Q=Wqx,K=Wkx,V=Wvx
Figure BDA0002376968590000044
Figure BDA0002376968590000045
b=layerNorm(x+a)
o=layerNorm(ReLU(xW1+b1)W2+b2+b)
其中,o表示解码器的输出;
(53)对解码器输出进行线性映射将其转换为非归一化概率向量,并经过softmax分类器输出归一化的类别概率值;最后,找到最大概率值对应的单词完成解码:
y=sofmax(linear(o)W+b)
其中,o为解码器输出,linear表示线性运算;W,b分别为线性映射的权重矩阵及偏置项。
进一步地,所述步骤(6)实现过程如下:
依据动态时间规整算法构建如下损失函数:
fv(f)=Tv(f),fs(xs)=Ts(xs)
Figure BDA0002376968590000051
D[i,j]=min(D[i-1,j],D[i-1,j-1])+d(i,j)
Est-gcn(F,Xs;Tv,Ts)=D(k,m)
=min(D[k-1,m],D[k-1,m-1])+d(k,m)
其中,Tv,Ts分别为f和xs的特征映射函数;d(i,j)表示第i个动作特征和第j个文本特征之间的距离;D[i,j]表示第i个动作特征序列与第j个文本特征序列之间的距离,根据损失函数的定义,可依据随机梯度下降法和链式规则迭代计算学习得到;
对于基于自注意力的编解码网络,给定隐空间中的特征序F′=(f′1,f′2,...,f′k),经过自注意力编解码网络得到输出序列Y=(y1,y2,...,ym),手语识别最终可定义为求解最大化条件概率p(Y|F′)=Πp(yt|f′t,yt-1),损失函数定义为如下形式:
Figure BDA0002376968590000052
模型参数
Figure BDA0002376968590000053
可通过随机梯度下降法优化得到。
本发明还提供一种基于双流时空图卷积神经网络的手语识别系统,包括:
视频预处理模块,用于将包含手语动作的视频按照设定帧率分割为若干候选帧图像序列;然后,利用自下而上的人体姿态估计方法和手部标志模型对视频帧的人物上半身和手部分别提取骨架关键点信息;接着,根据设定的连接方式及长度构建全局和局部时空图结构数据;
视频片段特征提取模块,用于利用双流时空图卷积神经网络分别对全局和局部图数据提取全局和局部时空特征,并对两部分特征进行拼接得到全局-局部时空特征;
特征映射及位置编码模块,用于将编码器和解码器的输入进行特征变换,以获得高层语义特征,同时进行位置编码,加入位置信息;
自注意力编码模块,用于将视频片段的全局-局部时空特征进行特征变换;然后,利用多层编码器对其通过多头注意力和层正则化进行计算得到自注意力向量,作为自注意力解码模块的一部分输入;
自注意力解码模块,用于对编码模块的输出以及其前一时刻解码模块的输出进行解码;首先,对加入位置编码的前一时间步的输出经过解码器的第一子层计算得到掩膜注意力;然后,将其与编码器的输出同时输入到第二、三子层;最后,经过softmax分类器得到对应单词的概率。
本发明另提供一种基于双流时空图卷积神经网络的手语识别系统,包括至少一台计算机设备,所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的基于双流时空图卷积神经网络的手语动作视频识别方法。
有益效果:与现有技术相比,本发明的有益效果:1、本发明利用时空图卷积神经网络对骨架图数据提取时空特征,综合考虑空间和时间维度上的相关性,针对手语动作视频中人体上肢躯干和手部的动作幅度及细节程度的差异,采用双流时空图卷积网络分别对两个部分分别提取时空特征,更合理地描述了手语动作视频的动作信息;2、通过一种新的基于骨架关节点的手语特征表示,并且针对复杂场景有显著的鲁棒性,能在一定程度上提高了手语识别的准确度。
附图说明
图1本发明流程图;
图2为本发明训练流程图;
图3为编解码单元模块示意图。
具体实施方式
下面结合附图对本发明的技术方案进行详细说明:
如图1所示,本发明公开的一种基于双流时空图卷积的手语识别方法,利用自下而上的人体姿态估计方法和手部标志模型对手语动作视频检测并提取人体骨架关节点信息,构建人体骨架关键点图数据;采用时空图卷积神经网络分别对人体上躯干骨架图数据和手部图数据提取出视频序列的全局时空特征序列和局部时空特征序列,并进行特征拼接得到全局-局部时空特征序列;再利用自注意力编解码网络对时空特征进行序列化建模;最后,通过softmax分类器获得视频片段的最大分类概率,经过映射得到最终的输出文本。具体包括如下步骤:
步骤1:将带有标签文本的手语动作视频按照设定帧率,如16帧每秒,分割为若干候选帧图像序列。
步骤2:利用自下而上的人体姿态估计方法和手部标志模型分别提取由设定长度的候选帧组成的视频片段中人物的上半身和手部的骨架关键点,得到骨架关键点坐标;利用图数据结构,将检测所得关键点按照人体关节的物理形态结构进行连接,构建全局和局部两种图数据,分别对应上半身和手部两个部分。
(1)将步骤1中提取出的视频候选帧图像每连续T帧视为一个短帧序列;然后,使用自下而上的人体姿态估计方法和手部标志模型分别提取每个短帧序列的人物上半身和手部骨架关键点,得到骨架关键点坐标序列;其中T为设定的连续帧的长度,不足T帧时,对最后一帧进行过采样,填补为一个短帧序列;最终,分别得到k段人物上躯干和双手的连续帧序列。
(2)对k段人物上躯干的帧序列中NB×T个骨架关键点进行连接,构建上躯干图GB=(VB,EB,AB)。其中,NB为每一帧内提取得到的人物上半身骨架关键点的总数;
Figure BDA0002376968590000071
为骨架关键点集合,
Figure BDA0002376968590000072
表示边集合,其包含两个子集
Figure BDA0002376968590000073
Figure BDA0002376968590000074
分别表示每一帧内部的连接边和相邻时间上的连接边;同时,可得邻接矩阵
Figure BDA0002376968590000075
(3)对k段手部的连续帧序列中NH×T个骨架关键点进行连接,构建双手图GH=(VH,EH,AH)。其中,NH为每一帧内提取得到的手部骨架关键点的总数;
Figure BDA0002376968590000076
为骨架关键点集合,
Figure BDA0002376968590000077
表示边集合,其包含两个子集
Figure BDA0002376968590000078
Figure BDA0002376968590000079
分别表示每一帧内部的连接边和相邻时间上的连接边;同时,可得邻接矩阵
Figure BDA00023769685900000710
步骤3:将步骤2中构建的全局和局部图数据分别输入到时空图卷积神经网络中,按顺序依次提取出相应候选视频片段中的时空特征,得到对应上半身的全局时空特征和对应手部局部时空特征,经过即得的特征拼接之后形成全局-局部时空特征。
单层图卷积计算形式如下:
Figure BDA00023769685900000711
其中Λii=∑j(Aij+Iij),fin为输入特征图,W为输出多个通道的权重向量叠加而成的权重矩阵,I为自联结矩阵。
经过双流时空图卷积网络处理之后,最终,分别得到基于上躯干的全局特征fG和基于手部的局部特征fL,经过即得的特征拼接之后得到最终的全局-局部特征f=[fG;fL]。
本例中采用的时空图卷积神经网络包括9层时空图卷积运算,前三层64个输出通道,中间三层128个输出通道,后三层256个输出通道。
步骤4:利用特征映射函数对步骤3提取的全局-局部时空特征序列,进行特征变换,并加入位置编码;然后,依次经过各子层计算注意力,并通过前向传播,之后经过层正则化得到自注意力向量。
(1)利用特征映射函数Tv将步骤3中提取得到的全局-局部特征序列F=(f1,f2,...,fk)进行特征变换;
F′=Tv(F) (2)
(2)如图3所示,将F′采用基于自注意力的编解码模型对其进行编解码得到输出序列;编码器中每一个单元模块计算如下:
Figure BDA0002376968590000081
其中,Q、K、V分别表示Query,Key,Value矩阵;
Figure BDA0002376968590000082
表示注意力权重;a表示注意力向量;b为输入与注意力向量通过残差连接并经过层正则化之后的输出;h为每个编码单元的输出;dotProduct表示矩阵点积运算,即相同维度的矩阵对应位置项相乘并累加;softmax表示归一化指数函数;layerNorm表示层正则化运算;ReLU为线性整流函数;FFN表示前向传播计算,W1、W2和b1、b2分别表示权重矩阵及偏置项。
步骤5:在解码阶段,首先,对前一时间步产生的输出进行词嵌入,加入位置编码之后输入到解码器,解码器的第一个子层对其计算掩膜注意力;然后,同编码器的输出一起输入到解码器的第二、三子层;最终,经过softmax分类器得到对应单词的概率。
(1)将前一时间步的输出通过词嵌入得到词向量,作为解码器的一部分输入,之后计算解码器输入部分的注意力向量。计算形式如下:
Figure BDA0002376968590000091
其中,g为经过位置编码和脉冲激活编码之后的词向量;其余符号同上。
(2)如图3所示,在解码器中的每一个时间步,使用与编码器相同的结构处理来自编码器的输出以及来自解码器的自注意力;每个单元模块的计算如下:
Figure BDA0002376968590000092
其中,o表示解码器的输出;其余符号同上。
(3)对解码器输出进行线性映射将其转换为非归一化概率向量,并经过softmax分类器输出归一化的类别概率值;最后,找到最大概率值对应的单词完成解码:
y=sofmax(linear(o)W+b) (6)
其中,o表示解码器输出;linear表示线性运算;W,b分别表示线性映射的权重矩阵和偏置项。
步骤6:如图2所示,在利用时空图卷积分别对人物上半身和手部分别提取全局和局部时空特征的同时,将视频对应的句子进行分词处理,并编码成脉冲激活编码向量;然后,将全局-局部特征和文本的脉冲激活编码向量分别映射到相同的隐空间,并采用动态时间规整算法对二者进行相关性计算,并构造损失函数进行训练。
依据动态时间规整算法构造如下损失函数进行参数学习:
Figure BDA0002376968590000093
Figure BDA0002376968590000094
其中,Tv,Ts分别为f和xs的特征映射函数;d(i,j)表示第i个动作特征和第j个文本特征之间的距离;D[i,j]表示第i个动作特征序列与第j个文本特征序列之间的距离。根据损失函数的定义,可依据随机梯度下降法和链式规则迭代计算学习得到。
对于基于自注意力的编解码网络,给定隐空间中的特征序列F′=(f′1,f′2,...,f′k),经过自注意力编解码网络得到输出序列Y=(y1,y2,...,ym),手语识别最终可定义为求解最大化条件概率p(Y|F′)=Πp(yt|f′t,yt-1),损失函数定义为如下形式:
Figure BDA0002376968590000101
模型参数
Figure BDA0002376968590000102
可通过随机梯度下降法优化得到。
本发明提供一种基于双流时空图卷积的手语识别系统,包括:视频预处理模块,用于将包含手语动作的视频按照设定帧率分割为若干候选帧图像;然后,利用自下而上的人体姿态估计方法和手部标志模型对视频帧的人物上躯干和手部分别提取骨架关键点信息;接着,根据设定的连接方式及长度构建全局和局部时空图结构;视频片段特征提取模块,用于利用双流时空图卷积神经网络分别对全局和局部图数据提取全局和局部时空特征,并对两部分特征进行拼接得到全局-局部时空特征;特征映射及位置编码模块,用于将编码器和解码器的输入进行特征变换,以获得高层语义特征,同时进行位置编码,加入位置信息;自注意力编码模块,用于将视频片段的全局-局部时空特征进行特征变换;然后,利用多个编码器模块对其通过多头注意力和层正则化进行计算得到自注意力向量,作为自注意力解码模块的一部分输入;自注意力解码模块,用于对编码模块的输出以及其前一时刻解码模块的输出进行解码,根据编码模块的输出以及前一时刻解码模块的输出;首先,对加入位置编码的前一时间步的输出经过解码器的第一子层计算得到掩膜注意力;然后,将其与编码器的输出同时输入到第二、三子层;最后,经过softmax层计算得到对应单词的概率。
上述基于双流时空图卷积的手语识别系统实施例可以用于执行上述基于双流时空图卷积的手语识别方法实施例,其技术原理、所解决的技术问题及产生的技术效果相似,上述描述的基于双流时空图卷积的手语识别的具体工作过程及有关说明,可以参考前述基于双流时空图卷积的手语识别方法实施例中的对应过程,在此不再赘述。
本领域技术人员可以理解,可以对实施例中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个系统中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。
基于相同的发明构思,本发明实施例还提供一种基于双流时空图卷积的手语识别系统,包括至少一台计算机设备,所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的基于双流时空图卷积的手语识别方法。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (8)

1.一种基于双流时空图卷积神经网络的手语识别方法,其特征在于,包括以下步骤:
(1)将带有标签文本的手语动作视频按照设定帧率分割为若干候选帧图像序列;
(2)利用自下而上的人体姿态估计方法和手部标志模型分别提取由设定长度的候选帧组成的视频片段中人物的上半身和手部的骨架关键点,得到骨架关键点坐标;借助图数据结构,将检测所得关键点按照人体关节的物理形态结构进行连接,构建全局和局部两种图数据,分别对应上半身和手部两个部分;
(3)将步骤(2)中构建的全局和局部图数据分别输入到双流时空图卷积神经网络中,按顺序依次提取出相应候选视频片段中的时空特征,得到对应上半身的全局时空特征和对应手部局部时空特征序列,经过即得的特征拼接之后形成全局-局部时空特征序列;
(4)利用特征映射函数对步骤(3)提取的全局-局部时空特征序列,进行特征变换,并加入位置编码;然后,依次经过各子层计算注意力,并通过前向传播,之后经过层正则化得到自注意力向量;
(5)在解码阶段,首先对前一时间步的输出进行词嵌入,加入位置编码之后输入到解码器,解码器的第一个子层对其计算掩膜注意力;然后,同编码器的输出一起输入到解码器的第二、三子层;最终,经过softmax分类器得到对应单词的概率;
(6)在利用时空图卷积分别对人物上半身和手部分别提取全局和局部时空特征的同时,将视频对应的句子进行分词处理,并编码成脉冲激活编码向量;然后,将全局-局部特征和文本的脉冲激活编码向量分别映射到同一隐空间,并采用动态时间规整算法对二者进行相关性计算,并构造损失函数进行模型训练。
2.根据权利要求1所述的一种基于双流时空图卷积神经网络的手语识别方法,其特征在于,所述步骤(2)包括以下步骤:
(21)将整个视频候选帧图像每连续T帧视为一个短帧序列;然后,使用自下而上的人体姿态估计方法和手部标志模型分别提取每个短帧序列的人物上半身和手部骨架关键点,得到骨架关键点坐标序列;其中T为设定的连续帧的长度,不足T帧时,对最后一帧进行过采样,填补为一个短帧序列;最终,分别得到k段人物上躯干和双手的连续短帧序列;
(22)对k段人物上躯干的短帧序列中NB×T个骨架关键点进行连接,构建上躯干图GB=(VB,EB,AB),其中NB为每一帧内提取得到的人物上半身骨架关键点的总数;
Figure FDA0002376968580000021
为骨架关键点集合,
Figure FDA0002376968580000022
表示边集合,其包含两个子集
Figure FDA0002376968580000023
Figure FDA0002376968580000024
分别表示每一帧内部的连接边和相邻时间上的连接边;同时,可得邻接矩阵
Figure FDA0002376968580000025
(23)对k段手部的连续帧序列中NH×T个骨架关键点进行连接,构建双手图GH=(VH,EH,AH),其中,NH为每一帧内提取得到的手部骨架关键点的总数;
Figure FDA0002376968580000026
为骨架关键点集合,
Figure FDA0002376968580000027
表示边集合,其包含两个子集
Figure FDA0002376968580000028
Figure FDA0002376968580000029
分别表示每一帧内部的连接边和相邻时间上的连接边;同时,可得邻接矩阵
Figure FDA00023769685800000210
3.根据权利要求1所述的一种基于双流时空图卷积神经网络的手语识别方法,其特征在于,所述步骤(3)包括以下步骤:
(31)单层图卷积计算形式如下:
Figure FDA00023769685800000211
其中Λii=∑j(Aij+Iij),fin为输入特征图,W为输出多个通道的权重向量叠加而成的权重矩阵,I为自连结矩阵;
(32)经过双流时空图卷积网络,分别得到基于上半身的全局特征fG和基于手部的局部特征fL,经过特征拼接之后得到全局-局部特征fG-L=[fG;fL]。
4.根据权利要求1所述的一种基于双流时空图卷积神经网络的手语识别方法,其特征在于,所述步骤(4)所包括以下步骤:
(41)利用特征映射函数将步骤(3)中提取得到的全局-局部特征序列F=(f1,f2,...,fk)进行特征变换:
F′=Tv(F)
(42)将F′采用基于自注意力的编解码模型对其进行编解码得到输出序列,编码器中每一个单元模块计算如下:
Qi=Wqf′i,Ki=Wkf′i,Vi=Wvf′i
Figure FDA0002376968580000031
Figure FDA0002376968580000032
bi=layerNorm(xi+ai)
hi=layerNorm(bi+FFN(bi))
FFN(x)=ReLU(xW1+b1)W2+b2
其中,Q、K、V分别表示Query,Key,Value矩阵;
Figure FDA0002376968580000033
表示注意力权重;a表示注意力向量;b为输入与注意力向量通过残差连接并经过层正则化之后的输出;h为每个编码单元的输出;dotProduct表示向量点积运算,即相同维度的向量对应位置项相乘并累加;softmax表示归一化指数函数;layerNorm表示层正则化运算;ReLU为线性整流函数;FFN表示前向传播运算,W1、W2和b1、b2分别表示权重矩阵及偏置项。
5.根据权利要求1所述的一种基于双流时空图卷积神经网络的手语识别方法,其特征在于,所述步骤(5)所包括以下步骤:
(51)将前一时间步的输出通过词嵌入得到词向量,作为解码器的一部分输入;接着,计算解码器输入部分的注意力向量;
gi=Ts(oi-1)
Qi=Wqgi,Ki=Wkgi,Vi=Wvgi
Figure FDA0002376968580000034
Figure FDA0002376968580000035
bi=layerNorm(xi+ai)
其中,g为经过位置编码和脉冲激活编码之后的词向量;
(52)在解码器中的每一个时间步,使用与编码器相同的结构处理来自编码器的输出以及来自解码器的自注意力;
Q=Wqx,K=Wkx,V=Wvx
Figure FDA0002376968580000036
Figure FDA0002376968580000037
b=layerNorm(x+a)
o=layerNorm(ReLU(xW1+b1)W2+b2+b)
其中,o表示解码器的输出;
(53)对解码器输出进行线性映射将其转换为非归一化概率向量,并经过softmax分类器输出归一化的类别概率值,最后找到最大概率值对应的单词完成解码:
y=sofmax(linear(o)W+b)
其中,o为解码器输出,linear表示线性运算;W,b分别为线性映射的权重矩阵及偏置项。
6.根据权利要求1所述的一种基于双流时空图卷积神经网络的手语识别方法,其特征在于,所述步骤(6)实现过程如下:
依据动态时间规整算法构建如下损失函数:
fv(f)=Tv(f),fs(xs)=Ts(xs)
Figure FDA0002376968580000041
D[i,j]=min(D[i-1,j],D[i-1,j-1])+d(i,j)
Est-gcn(F,Xs;Tv,Ts)=D(k,m)
=min(D[k-1,m],D[k-1,m-1])+d(k,m)
其中,Tv,Ts分别为f和xs的特征映射函数;d(i,j)表示第i个动作特征和第j个文本特征之间的距离;D[i,j]表示第i个动作特征序列与第j个文本特征序列之间的距离,根据损失函数的定义,可依据随机梯度下降法和链式规则迭代计算学习得到;
对于基于自注意力的编解码网络,给定隐空间中的特征序F′=(f′1,f′2,...,f′k),经过自注意力编解码网络得到输出序列Y=(y1,y2,...,ym),手语识别最终可定义为求解最大化条件概率p(Y|F′)=Πp(yt|f′t,yt-1),损失函数定义为如下形式:
Figure FDA0002376968580000042
模型参数
Figure FDA0002376968580000043
可通过随机梯度下降法优化得到。
7.一种基于双流时空图卷积神经网络的手语识别系统,其特征在于,包括:
视频预处理模块,用于将包含手语动作的视频按照设定帧率分割为若干候选帧图像序列;然后,利用自下而上的人体姿态估计方法和手部标志模型对视频帧的人物上半身和手部分别提取骨架关键点信息;接着,根据设定的连接方式及长度构建全局和局部时空图结构数据;
视频片段特征提取模块,用于利用双流时空图卷积神经网络分别对全局和局部图数据提取全局和局部时空特征,并对两部分特征进行拼接得到全局-局部时空特征;
特征映射及位置编码模块,用于将编码器和解码器的输入进行特征变换,以获得高层语义特征,同时进行位置编码,加入位置信息;
自注意力编码模块,用于将视频片段的全局-局部时空特征进行特征变换,然后,利用多层编码器对其通过多头注意力和层正则化进行计算得到自注意力向量,作为自注意力解码模块的一部分输入;
自注意力解码模块,用于对编码模块的输出以及其前一时刻解码模块的输出进行解码,首先,对加入位置编码的前一时间步的输出经过解码器的第一子层计算得到掩膜注意力;然后,将其与编码器的输出同时输入到第二、三子层;最后,经过softmax分类器得到对应单词的概率。
8.一种基于双流时空图卷积神经网络的手语识别系统,其特征在于,包括至少一台计算机设备,所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1-6所述的基于双流时空图卷积神经网络的手语动作视频识别方法。
CN202010069598.5A 2020-01-21 2020-01-21 一种基于双流时空图卷积神经网络的手语识别方法及系统 Active CN111325099B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010069598.5A CN111325099B (zh) 2020-01-21 2020-01-21 一种基于双流时空图卷积神经网络的手语识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010069598.5A CN111325099B (zh) 2020-01-21 2020-01-21 一种基于双流时空图卷积神经网络的手语识别方法及系统

Publications (2)

Publication Number Publication Date
CN111325099A true CN111325099A (zh) 2020-06-23
CN111325099B CN111325099B (zh) 2022-08-26

Family

ID=71170935

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010069598.5A Active CN111325099B (zh) 2020-01-21 2020-01-21 一种基于双流时空图卷积神经网络的手语识别方法及系统

Country Status (1)

Country Link
CN (1) CN111325099B (zh)

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723779A (zh) * 2020-07-20 2020-09-29 浙江大学 一种基于深度学习的中文手语识别系统
CN111797777A (zh) * 2020-07-07 2020-10-20 南京大学 基于时空语义特征的手语识别系统及方法
CN111966865A (zh) * 2020-07-21 2020-11-20 西北大学 利用基于查表子网络的空域图卷积层进行特征提取的方法
CN112036379A (zh) * 2020-11-03 2020-12-04 成都考拉悠然科技有限公司 基于注意力时间池化图卷积的骨架动作识别方法
CN112052816A (zh) * 2020-09-15 2020-12-08 山东大学 基于自适应图卷积对抗网络的人体行为预测方法及系统
CN112132430A (zh) * 2020-09-14 2020-12-25 国网山东省电力公司电力科学研究院 一种配电主设备分布式状态传感器可靠性评估方法及系统
CN112132094A (zh) * 2020-09-30 2020-12-25 中国科学技术大学 基于多语言协同的连续手语识别系统
CN112215223A (zh) * 2020-10-16 2021-01-12 清华大学 基于多元注意力机制的多方向场景文字识别方法及系统
CN112329801A (zh) * 2020-12-03 2021-02-05 中国石油大学(华东) 一种卷积神经网络非局部信息构建方法
CN112380395A (zh) * 2020-10-30 2021-02-19 华南理工大学 基于双流架构的图卷积网络的情感获取方法、系统及存储介质
CN112464847A (zh) * 2020-12-07 2021-03-09 北京邮电大学 视频中人体动作切分方法及装置
CN112543936A (zh) * 2020-10-29 2021-03-23 香港应用科技研究院有限公司 用于动作识别的动作结构自注意力图卷积网络
CN112597796A (zh) * 2020-11-18 2021-04-02 中国石油大学(华东) 一种鲁棒的基于图卷积的点云表征学习方法
CN112651360A (zh) * 2020-12-31 2021-04-13 福州大学 一种小样本下骨架动作识别方法
CN112668543A (zh) * 2021-01-07 2021-04-16 中国科学技术大学 一种手模型感知的孤立词手语识别方法
CN112766177A (zh) * 2021-01-22 2021-05-07 西安电子科技大学 基于特征映射和多层时间交互注意力的行为识别方法
CN112800903A (zh) * 2021-01-19 2021-05-14 南京邮电大学 一种基于时空图卷积神经网络的动态表情识别方法及系统
CN113158970A (zh) * 2021-05-11 2021-07-23 清华大学 一种基于快慢双流图卷积神经网络的动作识别方法与系统
CN113255514A (zh) * 2021-05-24 2021-08-13 西安理工大学 基于局部场景感知图卷积网络的行为识别方法
CN113297955A (zh) * 2021-05-21 2021-08-24 中国矿业大学 一种基于多模态分层级信息融合的手语词识别方法
CN113313039A (zh) * 2021-05-31 2021-08-27 西安电子科技大学 基于动作知识库与集成学习的视频行为识别方法及系统
CN113343752A (zh) * 2021-04-15 2021-09-03 山东师范大学 基于时空序列图的手势检测方法及系统
CN113435576A (zh) * 2021-06-24 2021-09-24 中国人民解放军陆军工程大学 一种双速时空图卷积神经网络架构及数据处理方法
CN113538581A (zh) * 2021-07-19 2021-10-22 之江实验室 一种基于图注意力时空卷积的3d姿态估计方法
CN113537024A (zh) * 2021-07-08 2021-10-22 天津理工大学 多层时序注意力融合机制的弱监督神经网络手语识别方法
CN113642422A (zh) * 2021-07-27 2021-11-12 东北电力大学 一种连续中文手语识别方法
CN113780059A (zh) * 2021-07-24 2021-12-10 上海大学 一种基于多特征点的连续手语识别方法
CN113781876A (zh) * 2021-08-05 2021-12-10 深兰科技(上海)有限公司 一种将文本转换为手语动作视频的转换方法和装置
CN113780075A (zh) * 2021-08-05 2021-12-10 深兰科技(上海)有限公司 骨架动作图生成方法、生成装置、计算机设备及介质
WO2022088176A1 (en) * 2020-10-29 2022-05-05 Hong Kong Applied Science and Technology Research Institute Company Limited Actional-structural self-attention graph convolutional network for action recognition
CN114495285A (zh) * 2022-04-18 2022-05-13 江西科技学院 复杂行为识别方法、系统、计算机设备及可读存储介质
CN114613004A (zh) * 2022-02-28 2022-06-10 电子科技大学 一种人体动作的轻量化在线检测方法
CN115048979A (zh) * 2022-04-29 2022-09-13 贵州大学 一种基于正则化的机器人触觉脉冲数据分类方法
CN116132756A (zh) * 2023-01-06 2023-05-16 重庆大学 一种基于深度学习的端到端视频字幕生成方法
CN116434347A (zh) * 2023-06-12 2023-07-14 中山大学 一种基于掩码图自编码器的骨架序列识别方法及系统
CN117809381A (zh) * 2024-03-01 2024-04-02 鹏城实验室 视频动作分类方法、装置、设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222653A (zh) * 2019-06-11 2019-09-10 中国矿业大学(北京) 一种基于图卷积神经网络的骨架数据行为识别方法
CN110399850A (zh) * 2019-07-30 2019-11-01 西安工业大学 一种基于深度神经网络的连续手语识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222653A (zh) * 2019-06-11 2019-09-10 中国矿业大学(北京) 一种基于图卷积神经网络的骨架数据行为识别方法
CN110399850A (zh) * 2019-07-30 2019-11-01 西安工业大学 一种基于深度神经网络的连续手语识别方法

Cited By (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797777A (zh) * 2020-07-07 2020-10-20 南京大学 基于时空语义特征的手语识别系统及方法
CN111797777B (zh) * 2020-07-07 2023-10-17 南京大学 基于时空语义特征的手语识别系统及方法
CN111723779A (zh) * 2020-07-20 2020-09-29 浙江大学 一种基于深度学习的中文手语识别系统
CN111723779B (zh) * 2020-07-20 2023-05-02 浙江大学 一种基于深度学习的中文手语识别系统
CN111966865A (zh) * 2020-07-21 2020-11-20 西北大学 利用基于查表子网络的空域图卷积层进行特征提取的方法
CN111966865B (zh) * 2020-07-21 2023-09-22 西北大学 利用基于查表子网络的空域图卷积层进行特征提取的方法
CN112132430A (zh) * 2020-09-14 2020-12-25 国网山东省电力公司电力科学研究院 一种配电主设备分布式状态传感器可靠性评估方法及系统
CN112132430B (zh) * 2020-09-14 2022-09-27 国网山东省电力公司电力科学研究院 一种配电主设备分布式状态传感器可靠性评估方法及系统
CN112052816B (zh) * 2020-09-15 2022-07-12 山东大学 基于自适应图卷积对抗网络的人体行为预测方法及系统
CN112052816A (zh) * 2020-09-15 2020-12-08 山东大学 基于自适应图卷积对抗网络的人体行为预测方法及系统
CN112132094B (zh) * 2020-09-30 2022-07-15 中国科学技术大学 基于多语言协同的连续手语识别系统
CN112132094A (zh) * 2020-09-30 2020-12-25 中国科学技术大学 基于多语言协同的连续手语识别系统
CN112215223A (zh) * 2020-10-16 2021-01-12 清华大学 基于多元注意力机制的多方向场景文字识别方法及系统
CN112215223B (zh) * 2020-10-16 2024-03-19 清华大学 基于多元注意力机制的多方向场景文字识别方法及系统
US11881038B2 (en) 2020-10-16 2024-01-23 Tsinghua University Multi-directional scene text recognition method and system based on multi-element attention mechanism
CN112543936A (zh) * 2020-10-29 2021-03-23 香港应用科技研究院有限公司 用于动作识别的动作结构自注意力图卷积网络
WO2022088176A1 (en) * 2020-10-29 2022-05-05 Hong Kong Applied Science and Technology Research Institute Company Limited Actional-structural self-attention graph convolutional network for action recognition
CN112543936B (zh) * 2020-10-29 2021-09-28 香港应用科技研究院有限公司 用于动作识别的动作结构自注意力图卷积网络模型
CN112380395B (zh) * 2020-10-30 2022-04-22 华南理工大学 基于双流架构的图卷积网络的情感获取方法、系统及存储介质
CN112380395A (zh) * 2020-10-30 2021-02-19 华南理工大学 基于双流架构的图卷积网络的情感获取方法、系统及存储介质
CN112036379A (zh) * 2020-11-03 2020-12-04 成都考拉悠然科技有限公司 基于注意力时间池化图卷积的骨架动作识别方法
CN112597796A (zh) * 2020-11-18 2021-04-02 中国石油大学(华东) 一种鲁棒的基于图卷积的点云表征学习方法
CN112329801A (zh) * 2020-12-03 2021-02-05 中国石油大学(华东) 一种卷积神经网络非局部信息构建方法
CN112464847A (zh) * 2020-12-07 2021-03-09 北京邮电大学 视频中人体动作切分方法及装置
CN112651360A (zh) * 2020-12-31 2021-04-13 福州大学 一种小样本下骨架动作识别方法
CN112668543B (zh) * 2021-01-07 2022-07-15 中国科学技术大学 一种手模型感知的孤立词手语识别方法
CN112668543A (zh) * 2021-01-07 2021-04-16 中国科学技术大学 一种手模型感知的孤立词手语识别方法
CN112800903A (zh) * 2021-01-19 2021-05-14 南京邮电大学 一种基于时空图卷积神经网络的动态表情识别方法及系统
CN112800903B (zh) * 2021-01-19 2022-08-26 南京邮电大学 一种基于时空图卷积神经网络的动态表情识别方法及系统
CN112766177B (zh) * 2021-01-22 2022-12-02 西安电子科技大学 基于特征映射和多层时间交互注意力的行为识别方法
CN112766177A (zh) * 2021-01-22 2021-05-07 西安电子科技大学 基于特征映射和多层时间交互注意力的行为识别方法
CN113343752B (zh) * 2021-04-15 2023-09-26 山东师范大学 基于时空序列图的手势检测方法及系统
CN113343752A (zh) * 2021-04-15 2021-09-03 山东师范大学 基于时空序列图的手势检测方法及系统
CN113158970A (zh) * 2021-05-11 2021-07-23 清华大学 一种基于快慢双流图卷积神经网络的动作识别方法与系统
CN113297955B (zh) * 2021-05-21 2022-03-18 中国矿业大学 一种基于多模态分层级信息融合的手语词识别方法
CN113297955A (zh) * 2021-05-21 2021-08-24 中国矿业大学 一种基于多模态分层级信息融合的手语词识别方法
CN113255514A (zh) * 2021-05-24 2021-08-13 西安理工大学 基于局部场景感知图卷积网络的行为识别方法
CN113313039B (zh) * 2021-05-31 2023-07-25 西安电子科技大学 基于动作知识库与集成学习的视频行为识别方法及系统
CN113313039A (zh) * 2021-05-31 2021-08-27 西安电子科技大学 基于动作知识库与集成学习的视频行为识别方法及系统
CN113435576A (zh) * 2021-06-24 2021-09-24 中国人民解放军陆军工程大学 一种双速时空图卷积神经网络架构及数据处理方法
CN113537024A (zh) * 2021-07-08 2021-10-22 天津理工大学 多层时序注意力融合机制的弱监督神经网络手语识别方法
CN113538581B (zh) * 2021-07-19 2024-03-12 之江实验室 一种基于图注意力时空卷积的3d姿态估计方法
CN113538581A (zh) * 2021-07-19 2021-10-22 之江实验室 一种基于图注意力时空卷积的3d姿态估计方法
CN113780059A (zh) * 2021-07-24 2021-12-10 上海大学 一种基于多特征点的连续手语识别方法
CN113642422A (zh) * 2021-07-27 2021-11-12 东北电力大学 一种连续中文手语识别方法
CN113642422B (zh) * 2021-07-27 2024-05-24 东北电力大学 一种连续中文手语识别方法
CN113780075A (zh) * 2021-08-05 2021-12-10 深兰科技(上海)有限公司 骨架动作图生成方法、生成装置、计算机设备及介质
CN113781876B (zh) * 2021-08-05 2023-08-29 深兰科技(上海)有限公司 一种将文本转换为手语动作视频的转换方法和装置
CN113780075B (zh) * 2021-08-05 2024-04-23 深兰科技(上海)有限公司 骨架动作图生成方法、生成装置、计算机设备及介质
CN113781876A (zh) * 2021-08-05 2021-12-10 深兰科技(上海)有限公司 一种将文本转换为手语动作视频的转换方法和装置
CN114613004B (zh) * 2022-02-28 2023-08-01 电子科技大学 一种人体动作的轻量化在线检测方法
CN114613004A (zh) * 2022-02-28 2022-06-10 电子科技大学 一种人体动作的轻量化在线检测方法
CN114495285A (zh) * 2022-04-18 2022-05-13 江西科技学院 复杂行为识别方法、系统、计算机设备及可读存储介质
CN115048979A (zh) * 2022-04-29 2022-09-13 贵州大学 一种基于正则化的机器人触觉脉冲数据分类方法
CN116132756B (zh) * 2023-01-06 2024-05-03 重庆大学 一种基于深度学习的端到端视频字幕生成方法
CN116132756A (zh) * 2023-01-06 2023-05-16 重庆大学 一种基于深度学习的端到端视频字幕生成方法
CN116434347A (zh) * 2023-06-12 2023-07-14 中山大学 一种基于掩码图自编码器的骨架序列识别方法及系统
CN116434347B (zh) * 2023-06-12 2023-10-13 中山大学 一种基于掩码图自编码器的骨架序列识别方法及系统
CN117809381A (zh) * 2024-03-01 2024-04-02 鹏城实验室 视频动作分类方法、装置、设备和存储介质
CN117809381B (zh) * 2024-03-01 2024-05-14 鹏城实验室 视频动作分类方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN111325099B (zh) 2022-08-26

Similar Documents

Publication Publication Date Title
CN111325099B (zh) 一种基于双流时空图卷积神经网络的手语识别方法及系统
CN109543667B (zh) 一种基于注意力机制的文本识别方法
CN113673489B (zh) 一种基于级联Transformer的视频群体行为识别方法
CN110135375B (zh) 基于全局信息整合的多人姿态估计方法
CN112766172B (zh) 一种基于时序注意力机制的人脸连续表情识别方法
CN111931602B (zh) 基于注意力机制的多流分段网络人体动作识别方法及系统
CN109711316A (zh) 一种行人重识别方法、装置、设备及存储介质
CN106096568A (zh) 一种基于cnn和卷积lstm网络的行人再识别方法
CN113128424B (zh) 基于注意力机制的图卷积神经网络动作识别方法
CN112801068B (zh) 一种视频多目标跟踪与分割系统和方法
CN113609922B (zh) 基于模态匹配的连续手语语句识别方法
CN112800891A (zh) 一种用于微表情识别的鉴别性特征学习方法与系统
CN115294655A (zh) 一种基于非局部机制的多级模块特征的对抗生成行人再识别方法、装置和设备
CN115719510A (zh) 基于多模态融合及隐式交互关系学习的群组行为识别方法
CN112906520A (zh) 一种基于姿态编码的动作识别方法及装置
CN113780059A (zh) 一种基于多特征点的连续手语识别方法
CN116580278A (zh) 一种基于多注意力机制的唇语识别方法、设备及存储介质
CN114140831B (zh) 人体姿态估计方法、装置、电子设备及存储介质
CN117218709A (zh) 基于时间可变形注意力机制的居家老人实时状态监测方法
CN114973416A (zh) 一种基于三维卷积网络的手语识别算法
CN116704596A (zh) 一种基于骨骼序列的人体行为识别方法
CN116226357A (zh) 一种输入中包含错误信息场景下的文档检索方法
Hua et al. Scn: dilated silhouette convolutional network for video action recognition
CN113780350B (zh) 一种基于ViLBERT和BiLSTM的图像描述方法
Mohamed A novice guide towards human motion analysis and understanding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 210003 Gulou District, Jiangsu, Nanjing new model road, No. 66

Applicant after: NANJING University OF POSTS AND TELECOMMUNICATIONS

Address before: Yuen Road Qixia District of Nanjing City, Jiangsu Province, No. 9 210046

Applicant before: NANJING University OF POSTS AND TELECOMMUNICATIONS

GR01 Patent grant
GR01 Patent grant