CN115393949A - 一种连续手语识别方法及装置 - Google Patents

一种连续手语识别方法及装置 Download PDF

Info

Publication number
CN115393949A
CN115393949A CN202210827343.XA CN202210827343A CN115393949A CN 115393949 A CN115393949 A CN 115393949A CN 202210827343 A CN202210827343 A CN 202210827343A CN 115393949 A CN115393949 A CN 115393949A
Authority
CN
China
Prior art keywords
sign language
attention
vector
layer
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210827343.XA
Other languages
English (en)
Inventor
崔振超
张文博
齐静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei University
Original Assignee
Hebei University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei University filed Critical Hebei University
Priority to CN202210827343.XA priority Critical patent/CN115393949A/zh
Publication of CN115393949A publication Critical patent/CN115393949A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Psychiatry (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明涉及一种连续手语识别方法及装置。识别方法是将原始手语视频通过随机删减的方法删除冗余帧,获得连续的手语视频序列;对获取的手语视频序列进行分块操作和向量化处理,获得手语序列向量;通过时空编码器对获得的手语序列向量进行特征提取,获得手语序列特征向量;对获得的手语序列特征向量进行特征解码;对解码后的特征进行预测序列;对获得的手语视频的预测序列与手语文本序列进行WER计算;进行网络级训练,对最终的手语识别结果进行输出。本发明在多手语者、多语句、多语言输入等情况下,都具有较强的鲁棒性并能够获得更高的识别率。

Description

一种连续手语识别方法及装置
技术领域
本发明涉及一种人机交互方法,具体地说是一种连续手语识别方法及装置。
背景技术
手语是一种重要的人类肢体语言表达方式,包含信息量多,是聋哑人和健听人之间沟通的主要方式。由于手语语义丰富、动作幅度相比其他人体行为具有局部性和细节性,同时又受到光照、背景、运动速度等影响,使用传统模式识别或机器学习方法所能达到的精度与鲁棒性已达到瓶颈期,往往局限于静态手势识别或孤立的动态手势识别,而连续手语识别才更能满足聋哑人交流的需求。
连续手语识别与孤立词的识别不同的是视频序列更长、更复杂,需要在手语视频的连续帧序列中进行特征和语义学习。在实际场景中,手语视频包含复杂的生活场景,因此视频中存在长期的语义依赖。每个视频帧不仅与相邻视频帧相关,还与远处视频帧相关。然而,现有的方法很难利用简单的视频表示来捕获长时间间隔内的详细时间动态,究其原因还是特征提取不够充分。
CN202010083258.8号专利公开了一种基于对多模态图像序列特征融合和自注意力机制的编码解码网络的连续手语识别的方法。该方法首先获得光流图像序列,通过原始手语图像序列和光流图像序列时空特征的提取和多模态图像序列时空特征融合和手语句子标签的文本特征序列的提取,将融合后的多模态图像序列时空特征和提取的手语句子标签的文本特征序列输入到基于自注意力机制的编码解码网络中进行手语标签预测输出。但是,目前基于深度学习的手语识别方法在长序列连续手语序列下,现有的网络收敛速度较慢,手语识别率并不高。
由于手语的多变性,手部检测的结果易产生丰富的背景,从而干扰手语识别,降低交互性。复杂背景中的手语还存在有序列较长、计算量较大的问题。此外,手语视频包含丰富的上下文语义信息,特征提取不充分就导致语义识别不准确,降低了识别的效果。
发明内容
本发明的目的就是提供一种基于Spatial-Temporal Transformer的连续手语识别方法及装置,以解决现有方法对复杂背景下的连续手语识别率不高的问题。
本发明是这样实现的:一种基于Spatial-Temporal Transformer的连续手语识别方法,包括如下步骤:
S1、原始手语视频通过随机删减的方法删除冗余帧,获得连续的手语视频序列;
S2、对获取的手语视频序列进行分块操作和向量化处理,获得手语序列向量;
S3、通过以Spatial-Temporal Transformer网络中的编码器作为时空编码器,对获得的手语序列向量进行特征提取,获得手语序列特征向量;所述编码器为时间和空间双通道的编码器;
S4、对获得的手语序列特征向量进行特征解码;
S5、对解码后的特征进行序列预测,获得手语视频的预测序列;
S6、对获得的手语视频的预测序列与手语文本序列进行WER计算;
S7、对步骤S3、步骤S4、步骤S5和步骤S6进行网络级训练,对最终的手语识别结果进行输出。
Spatial-Temporal Transformer网络包括一个向量化模块、一个编码器以及一个解码器。向量化模块包含了patch操作,Patch-embedding和Positional Encoding操作;编码器包括时间注意力计算机制和空间注意力机制以及前馈神经网络;解码器包含自注意力计算机制和交叉注意力机制,以及前馈神经网络。
进一步地,本发明步骤S2中,为了便于处理输入(T帧手语视频)维度为f∈RB×T×N×D的手语视频序列向量,将T帧(B是batch-size,H,W是原始图像的分辨率,C是通道数)的手语视频帧中的每一帧重塑(reshape)为(h×w)×(p1×p2×C)维的2维图块,其中H=h×p1,W=w’×p2。h×w是每帧分成的图块数量,直接影响输入序列的长度(p的选择可以作为一个实验对比),并且在所有的图层上使用恒定的隐矢量dmodel,将图块展平投影映射到dmodel=D的大小,此投影输出即为patch embedding。此时feature map大小为B×T×N×D,N=h×w,patch embedding后的向量记为:X(p,t)
在得到了f0∈RB×T×N×D维的feature map之后,还需要进行Positional Encoding。因为原始的transformer的self-attention不含有位置的信息,但是手语视频帧存在非常强烈的序列信息,为了防止前后帧概念的丢失并且为了便于后续提取时间维度的特征,为feature map加上位置信息,位置编码要求每个位置有一个唯一的positional encoding并且两个位置之间的关系可以通过他们位置编码间的仿射变换来建模,而经过实验验证:
Figure BDA0003747044820000021
Figure BDA0003747044820000022
公式(1,2)恰能满足这两个要求,也就是Positional Encoding(PE),其中pos对应token再序列中的位置,起始token位置记为0,2i和2i+1表示了Positional Encoding的维度,dmodel为位置编码后的维度,i的取值范围为[0,dmodel/2],将位置编码信息标记为
Figure BDA0003747044820000031
进一步地,本发明步骤S3中所用编码器是兼顾时间和空间的编码器结构,包括一个空间注意力模块和一个时间注意力模块;传进编码器的手语视频向量通过两个通道分别进入时间注意力模块和空间注意力模块,然后再将由时间注意力模块和空间注意力模块提取到的特征进行拼接,利用动态空间相关性和长期时间相关性,以提高网络对手语视频帧特征的提取和编码。
进一步地,编码器的编码过程如下:将向量化模块的输出结果进行维度重排,首先将时间维度t放到第一维度batch上,对空间维度n个向量块进行动态的空间相关性注意力计算;再将空间维度n放到第一维度batch上,对时间维度t帧序列进行长期的时间相关性注意力计算;接着将时间注意力计算结果和空间注意力计算结果进行融合;最后经线性归一化层和前馈神经网络后进行输出。
进一步地,编码器的时间和空间注意力计算过程如下:
(1)Spatial Self-Attention Block仅对同一帧的不同token进行MSA计算,空间维度的查询Q向量的attention值计算如下公式(3)。
Figure BDA0003747044820000032
Figure BDA0003747044820000033
其中,space指在空间维度进行注意力计算,time指在时间维度进行注意力计算,softmax指激活函数,l指第l层,a指第a个注意力头,p指每帧中的第p块,t指第t帧。Dh=D/A指对应的注意力头的维度值,D为响亮的维度值,A为总头数,q指代查询向量,k为q对应的权重矩阵。
(2)Temporal Self-Attention Block仅对不同帧相同位置的token进行MSA计算,时间维度的查询Q向量的attention计算如公式(4),分别计算时间和空间维度的attention之后进行cat拼接:
Figure BDA0003747044820000034
进一步地,本发明步骤S3的具体操作方式包括以下步骤:
S3-1、将步骤S2中的训练数据作为输入视频,先进行Embedding和PositionalEncoding操作,其中,Positional Encoding的计算依据下面两个公式:
Figure BDA0003747044820000041
Figure BDA0003747044820000042
其中:pos对应token再序列中的位置,起始token位置记为0,2i和2i+1表示Positional Encoding的维度,i的取值范围为[0,dmodel/2],将位置编码信息标记为
Figure BDA0003747044820000043
S3-2、将Embedding和Positional Encoding后的向量作为STT编码模块的输入P,向量进入STTN编码模块之后,先利用维度变换操作将向量P的帧数T放到第一维度batch-size,由空间编码模块对维度变换后的向量P0进行空间注意力计算,计算后的向量记为Z0;再利用维度变换操作,将向量P的块数N放到第一维度batch-size,通过时间编码模块对维度变换后的向量P1进行时间注意力的计算,计算后的向量记为Z1;其中的时间注意力和空间注意力的计算方式均为Self Attention计算;三个矩阵WQ,WK,WV对所有的P0/P1向量分别进行三次线性变换,所有向量又衍生出三个新的向量qt,kt,vt;所有的向量qt拼成查询矩阵Q,所有的向量kt拼成键矩阵K,所有的向量vt拼成值矩阵V;
计算公式如下:
Q=Linear(X)=XWQ (8)
K=Linear(X)=XWK (9)
V=Linear(X)=XWV (10)
Xattention=Self Attention(Q,K,V) (11)
其中,X为输入序列,WQ,WK,WV为三个矩阵;
对向量Z0和向量Z1进行特征拼接操作,经Layer Normalization和FeedForward操作后进行编码器的输出,公式如下:
Xattention=Layer Norm(Xattention) (12)
其中,FeedForward是两层线性映射并用激活函数激活,激活函数选用ReLU;
Xhidden=Layer(ReLU(Linear(Xattention))) (13)
其中,Xhidden∈Rbatch_size*seq_len*embed_dim
S3-3、对解码器依次进行三部分操作:①Masked Multi-Head Self-Attention,②Multi-Head Encoder-Decoder Attention,③FeedForward Network,每部分操作后接一个Layer Normalization;解码器的注意力计算包括手语文本之间的自注意力计算以及注意力输出与编码器输出的交叉注意力计算。
进一步地,解码器的整体解码操作包括以下步骤:
S3-3-1、首先对手语文本进行Word-Embedding操作,通过Matrix映射为D维向量,记为matX,再经Positional-Encoding操作给手语文本不同单词编码上不同的位置信息,维度为D,记为matP,进行相加得到解码器的输入为:matDec=matP+matX;
S3-3-2、手语文本之间的自注意力计算时,Multi-head attention的三个输入分别为Q、K、V,对V、K、Q分别进行线性变换;再将Q在最后一维上进行切分为num_heads段,对切分完的矩阵在axis=0维上进行concat链接;对V和K进行同样的操作;操作后的矩阵记为Q_,K_,V_;Q_矩阵相乘K_的转置,生成的结果记为outputs。
S3-3-3、对outputs进行scale一次更新为outputs;对outputs进行sofimax运算,更新outputs;
S3-3-4、注意力输出与编码器输出的交叉注意力计算时,Q为编码器的输出,K=V=matDec,计算过程与手语文本之间的自注意力的计算相同;在Add&Norm层的操作同ResNet,将最初的输入与其对应的输出叠加一次,即outputs=outputs+Q,使网络有效叠加,避免梯度消失,经过Add&Norm层和Feed Forward,对outputs进行归一化和线性变换;完成Nx次后,通过线性层,将解码器堆栈生成的向量投影到一个更大的向量,成为logits向量,再由softmax层将其转换为概率,选择最高的概率单元生成与其相关联的词作为当前时间步的输出,至此模型的解码完成。
进一步地,本发明步骤S4是利用解码网络进行特征解码,所述解码网络包括一个多头注意力机制、一个多头交叉注意力机制和一个前馈神经网络,首先对手语文本进行自注意力计算,再跟编码生成的特征向量进行交叉注意力计算。
进一步地,本发明步骤S4中所用的解码器包括三个子层组成,第一个子层包括一个含有掩码的多头自注意力层和规范化层以及残差连接层,第二个子层包括一个多头交叉注意力层和规范化层以及残差连接层,第三个子层包含一个前馈神经网络和规范化层以及残差连接层。
三层的计算公式为:
Figure BDA0003747044820000051
其中,Qi-1指代计算上一层的输出,F指编码器的输出,
Figure BDA0003747044820000052
指加上位置编码操作的F。
进一步地,本发明步骤S5中,在进入解码过程之前同样需要进行位置编码,给手语文本加上位置信息。此后会先经过一个masked self-attention层,使用mask的目的是解决解码过程中会遇到的训练过程中信息泄露问题,也就是避免了模型作弊以及预测过程中的模型架构不一致问题,这是由于预测阶段使用sequence masked可以保持重复的句子预测结果是一样的,不仅符合规则,而且可以增量更新,同时也可以与训练的模型架构、前向传播的方式保持一致。此外编码器端只有一个输出,传入解码器部分的每一个解码层充当其中第二个子层中多头注意力机制的K,V。解码器的最后是线性层,是一个简单的全连接神经网络,将解码器堆栈生成的向量投影到一个更大的向量,成为logits向量。
由softmax层将logits向量转换为概率,选择最高的概率单元生成与其相关联的词作为当前时间步的输出。
为了很好的将手语视频输入在网络中进行训练,模型将手语视频看作包含众多图像块的时空序列,将每个视频帧分为多个patch,通过将每个patch与视频中的其他patch进行注意力加权来捕捉每个patch的语义,并且能很好的捕捉相邻patch的之间短期依赖以及远距离patch的上下文依赖。具体实现如下:空间编码部分提取整个手语序列的所有tokens计算空间注意力,然后对相同空间序列(即同一帧分成的块)的tokens计算时间注意力。
本发明手语识别方法首先采用patch操作对手语视频帧进行预处理,使其大小尺寸便于被模型直接处理,同时降低计算复杂度。其次,通过组合时空双通道编码器分别对手语视频帧的上下文时间维度和动态空间维度特征进行提取和编码,通过双维度对手语视频动态特征进行充分提取。另外,对编码后的特征进行融合,使用解码器对融合后的特征向量进行预测输出。最后再将预测序列与手语文本序列进行对齐识别。通过本发明可以提高模型对视频帧的特征提取,从而提高连续手语识别的识别率。
在复杂背景下用提出的密集分割网络过滤掉冗余的背景,把手势图像分割出来,将定位出来的手势区域输入到手势识别网络,采用改进算法进行识别。本发明提高了手势图像的分割性能,从而提高了手势图像的识别率。
本发明手语识别方法是基于Transformer改进的手语识别网络,通过时间和空间双通道编码,真正做到动态局部特征和长期全局特征的融合,丰富了特征表达。本发明在多手语者、多语句、多语言输入等情况下,都具有较强的鲁棒性并能够获得更高的识别率。
本发明还可这样实现:一种基于Spatial-Temporal Transformer的连续手语识别装置,包括如下模块:
手语视频获取模块,与预处理模块相接,用于从手语视频中提取手语视频帧,获得RGB手语视频帧;
预处理模块,分别与手语视频提取模块和手语识别网络训练模块相接,用于对彩色手语视频帧进行patch操作,为Spatial-Temporal Transformer网络提供序列化的手语视频块;
手语识别网络训练模块,包括STT编码部、解码部、交叉熵损失函数和反向传播部,用于将手语视频帧进行特征提取编码和解码预测;以及
输出模块,与手语识别网络训练模块相接,对最后的手语识别结果进行输出。
进一步地,所述预处理模块包含patch操作部和embedding网络;所述embedding网络包括patch-embedding网络和positional-encoding网络。
进一步地,手语识别网络训练模块中的所述STT编码部包括有多层编码器,每层编码器包括一个时间与空间的双通道编码器、一个线性归一化层以及一个前馈神经网络;所述STT编码部利用预处理模块输出的输入帧,通过时间和空间双通道进行动态空间相关性和长期时间相关性的特征提取和编码。
进一步地,手语识别网络训练模块中的所述解码部包括多层解码器,每层解码器包括三个子层;其中,第一个子层包括:含有掩码的多头自注意力层、规范化层和残差连接层;第二个子层包括:多头交叉注意力层、规范化层和残差连接层;第三个子层包括:前馈神经网络、规范化层和残差连接层。
本发明手语识别装置通过在预处理模块中设计了patch操作,将手语视频帧进行序列化,降低了网络的计算复杂度,更便于网络处理。手语识别训练网络中的双通道编码器可以全面获取手语视频的动态空间特征和长期时间特征,将丰富的动作语义和上下文信息融合在一起,获得了更饱满的特征表达。因此,Spatial-Temporal Transformer Network(STTN)将全局、高级的语义特征与局部、细节的语义特征联合在一起过滤了背景中的冗余信息,有助于提升识别效果。
本发明利用获取时间和空间双通道手语动态和上下文特征信息,得到了更加准确的手语识别结果。本发明总体性能比一般主流算法更好,且更加适用于人机产品上。改进的手语识别网络的有益效果是:通过全面提取视觉特征,提升网络处理能力,比基于卷积的手语识别方法更好。
附图说明
图1是本发明连续手语识别装置的结构框图。
图2是手语识别网络的训练流程框图。
图3是位置编码效果对比图。
图4是STTN网络的框架图。
图5是ST编码器的框架图。
图6是解码器的框架图。
图7是注意力Q、K、V的生成图。
图8是解码器端的预测输出图。
图9是中国手语数据集CSL100样例图。
图10是STTN网络在RWTHPHOENIX-Weather-2014(PHOENIX14)数据集上的训练效果图。
图11是RWTHPHOENIX-Weather-2014(PHOENIX14)数据集的样例图。
具体实施方式
实施例1:基于Spatial-Temporal Transformer的连续手语识别方法。
如图1所示,本发明手语识别方法,包括以下步骤:
步骤S1:原始手语视频通过随机删减的方法删除冗余帧,获得连续的手语视频序列。
输入RGB手语视频。本发明实施例中所输入的RGB手语视频选自公共数据集CSL100和RWTHPHOENIX-Weather-2014(PHOENIX14)数据集中。所输入的RGB手语视频,是为后续训练和验证网络模型打基础的。Spatial-Temporal Transformer网络包括一个向量化模块、一个编码器以及一个解码器。向量化模块包含了patch操作,Patch-embedding和Positional Encoding操作;编码器包括时间注意力计算机制和空间注意力机制以及前馈神经网络;解码器包含自注意力计算机制和交叉注意力机制,以及前馈神经网络。
步骤S2:对获取的手语视频序列进行分块操作和向量化处理,获得手语序列向量。
对输入图像进行预处理使得图像达到固定维度并进行分块操作。本步骤中,CSL100数据集中其预处理后视频数量为25000个,其中20000个视频作为训练集,5000个视频作为验证集。RWTHPHOENIX-Weather-2014(PHOENIX14)数据集预处理后视频数量为6841个,其中5672个视频作为训练集,540个视频作为验证集,629个视频作为测试集。对视频进行均匀提帧,并随机删减,将保留后的手语视频默认调整(裁剪、重置大小)到224×224像素大小,并进一步放到patch模块进行分块操作,默认分为大小16×16像素大小。为了丰富实验,设计了手语视频帧大小:112×112像素,224×224像素,256×256像素;块的大小:8×8像素,16×16像素,32×32像素。
为了便于处理输入(T帧手语视频)维度为f∈RB×T×N×D的手语视频序列向量,将T帧(B是batch-size,H,W是原始图像的分辨率,C是通道数)的手语视频帧中的每一帧重塑(reshape)为(h×w)×(p1×p2×C)维的2维图块,其中H=h×pl,W=w×p2。h×w是每帧分成的图块数量,直接影响输入序列的长度(p的选择可以作为一个实验对比),并且在所有的图层上使用恒定的隐矢量dmodel,将图块展平投影映射到dmodel=D的大小,此投影输出即为patch embedding。此时feature map大小为B×T×N×D,N=h×w,patch embedding后的向量记为:X(p,t)
在得到了f0∈RB×T×N×D维的feature map之后,还需要进行Positional Encoding。因为原始的transformer的self-attention不含有位置的信息,但是手语视频帧存在非常强烈的序列信息,为了防止前后帧概念的丢失并且为了便于后续提取时间维度的特征,为feature map加上位置信息,位置编码要求每个位置有一个唯一的positional encoding并且两个位置之间的关系可以通过他们位置编码间的仿射变换来建模,而经过实验验证:
Figure BDA0003747044820000091
Figure BDA0003747044820000092
公式(1,2)恰能满足这两个要求,也就是Positional Encoding(PE),其中pos对应token再序列中的位置,起始token位置记为0,2i和2i+1表示了Positional Encoding的维度,dmodel为位置编码后的维度,i的取值范围为[0,dmodel/2),将位置编码信息标记为
Figure BDA0003747044820000093
图3为位置编码前后的效果图,左图是不加位置编码的效果,每个位置对应的维度值相同,无法区分不同位置的信息,右图是加上位置编码的效果,可以看到每个位置上的维度值都是独一无二的,因此可以标示出每一个位置的信息。
步骤S3:通过以Spatial-Temporal Transformer网络中的编码器作为时空编码器,对获得的手语序列向量进行特征提取,获得手语序列特征向量;所述编码器为时间和空间双通道的编码器。
具体是先构建STTN网络。所设置的STTN网络是针对接近日常的手语视频识别而专门设计。如图4所示,神经网络的具体结构是由视频帧处理部分、文本嵌入部分、STT编码器、解码器组成。如图5所示,STT编码模块结构为时间注意力和空间注意力双通道编码结构。如图6所示,解码器的结构由两层多头注意力层、前馈神经网络、线性连接层、softmax函数,以及多个求和与归一化层组成。
本发明步骤S3中所用编码器是兼顾时间和空间的编码器结构,包括一个空间注意力模块和一个时间注意力模块;传进编码器的手语视频向量通过两个通道分别进入时间注意力模块和空间注意力模块,然后再将由时间注意力模块和空间注意力模块提取到的特征进行拼接,利用动态空间相关性和长期时间相关性,以提高网络对手语视频帧特征的提取和编码。
进一步地,编码器的编码过程如下:将向量化模块的输出结果进行维度重排,首先将时间维度t放到第一维度batch上,对空间维度n个向量块进行动态的空间相关性注意力计算;再将空间维度n放到第一维度batch上,对时间维度t帧序列进行长期的时间相关性注意力计算;接着将时间注意力计算结果和空间注意力计算结果进行融合;最后经线性归一化层和前馈神经网络后进行输出。
进一步地,编码器的时间和空间注意力计算过程如下:
(1)Spatial Self-Attention Block仅对同一帧的不同token进行MSA计算,空间维度的查询Q向量的attention值计算如下公式(3)。
Figure BDA0003747044820000101
Figure BDA0003747044820000102
其中,space指在空间维度进行注意力计算,time指在时间维度进行注意力计算,softmax指激活函数,l指第l层,a指第a个注意力头,p指每帧中的第p块,t指第t帧。Dh=D/A指对应的注意力头的维度值,D为响亮的维度值,A为总头数,q指代查询向量,k为q对应的权重矩阵。
(3)Temporal Self-Attention Block仅对不同帧相同位置的token进行MSA计算,时间维度的查询Q向量的attention计算如公式(4),分别计算时间和空间维度的attention之后进行cat拼接:
Figure BDA0003747044820000103
本发明步骤S3的具体操作方式是:
S3-1、将步骤S2中的训练数据(此处仅利用预处理后的训练集)作为步骤3的输入视频。对输入视频首先进行Embedding和Positional Encoding操作,该两个操作维度相同,其中Positional Encoding计算公式如下:
Figure BDA0003747044820000104
Figure BDA0003747044820000105
其中:pos对应token再序列中的位置,起始token位置记为0,2i和2i+1表示了Positional Encoding的维度,i的取值范围为[0,dmodel/2],将位置编码信息标记为
Figure BDA0003747044820000111
S3-2、将Embedding和Positional Encoding后的向量作为STT编码模块的输入P,向量进入STTN编码模块之后,首先,利用维度变换操作将向量P的帧数T放到第一维度batch-size,由空间编码模块对维度变换后的向量P0进行空间注意力计算,计算后的向量记为Z0;然后,再利用维度变换操作将向量P的块数N放到第一维度batch-size,通过时间编码模块对维度变换后的向量P1进行时间注意力的计算,计算后的向量记为Z1;其中是时间和空间注意力计算方式相同,均为Self Attention计算,三个矩阵WQ,WK,WV,使用这三个矩阵分别对所有的P0/P1向量进行三次线性变换,于是所有的向量又衍生出三个新的向量qt,kt,vt。将所有的向量qt拼成一个大矩阵,记作查询矩阵Q,将所有的向量kt拼成一个大矩阵,记作键矩阵K,将所有的向量vt拼成一个大矩阵,记作值矩阵V(分别见图7中的“查询”、“键”、“值”矩阵)。
计算公式如下:
Q=Linear(X)=XWQ (8)
K=Linear(X)=XWK (9)
V=Linear(X)=XWV (10)
Xattention=Self Attention(Q,K,V) (11)
其中,X指代输入序列,WQ,WK,WV为三个矩阵。
之后对Z0和Z1进行特征拼接操作,经Layer Normalization和FeedForward操作后进行编码器的输出公式如下:
Xattention=Layer Norm(Xattention) (12)
其中,FeedForward是两层线性映射并用激活函数激活,激活函数选用ReLU,
Xhidden=Layer(ReLU(Linear(Xattention))) (13)
其中,Xhidden∈Rbatch-size*seq_len*embed_dim
S3-3、对于解码器和Encoder一样,依次需要三部分操作:①Masked Multi-HeadSelf-Attention,②Multi-Head Encoder-Decoder Attention,③FeedForwardNetwork。同样的,每部分操作后接一个Layer Normalization。为了在解码过程中恢复更多的细节特征,解码器包含了两种注意力计算,分别是手语文本之间的自注意力计算以及注意力输出与编码器输出的交叉注意力计算。计算方式与编码器部分的multi-headattention类似,但是多了一次masked。具体来说,传统Seq2Seq中Decoder使用的是RNN模型,因此在训练过程中输入t时刻的词,模型无论如何也看不到未来时刻的词,因为循环神经网络是时间驱动的,只有当t时刻运算结束了,才能看到t+1时刻的词。而TransformerDecoder抛弃了RNN,改为Self-Attention,由此就产生了一个问题,在训练过程中,整个ground truth都暴露在Decoder中,这显然是不对的,需要对Decoder的输入进行一些处理,该处理被称为Mask。
解码器的整体的解码包括以下步骤:
S3-3-1、首先对手语文本进行Word-Embedding操作,通过Matrix映射为D维向量,记为matX,再经Positional-Encoding操作给手语文本不同单词编码上不同的位置信息,维度同样为D,记为matP,此时的matX和matP的shape相同,进行相加得到解码器输入matDec=matP+matX。
S3-3-2、自注意力计算时Multi-head attention的三个输入,分别为Q、K、V,此时Q=K=V=matDec;首先分别对V,K,Q三者分别进行线性变换,即将三者分别输入到三个单层神经网络层,激活函数选择relu,输出新的V,K,Q(三者shape都和原来shape相同,即经过线性变换时输出维度和输入维度相同);然后将Q在最后一维上进行切分为num_heads(假设为8)段,然后对切分完的矩阵在axis=0维上进行concat链接起来;对V和K都进行和Q一样的操作;操作后的矩阵记为Q,K,V;Q矩阵相乘K的转置(对最后2维),生成结果记为outputs。
S3-3-3、对outputs进行scale一次更新为outputs;此次矩阵相乘是计算词与词的相关性,切成多个num_heads进行计算是为了实现对词与词之间深层次相关性进行计算;对outputs进行softmax运算,更新outputs,即outputs=softmax(outputs)。
S3-3-4、进行交叉注意力计算,Q为编码器的输出,K=V=matDec,计算过程与子注意力阶段相同。在此之后时Add&Norm层,此层操作类似于ResNet,将最初的输入与其对应的输出叠加一次,即outputs=outputs+Q,使网络有效叠加,避免梯度消失,经过Add&Norm层和Feed Forward,对outputs进行归一化和线性变换;完成Nx次后,通过线性层(是一个简单的全连接神经网络),将解码器堆栈生成的向量投影到一个更大的向量,成为logits向量,再由softmax层将其转换为概率,选择最高的概率单元生成与其相关联的词作为当前时间步的输出(图8),模型的解码部分完成。
步骤S4:对获得的手语序列特征向量进行特征解码。
本发明步骤S4是利用解码网络进行特征解码,所述解码网络包括一个多头注意力机制、一个多头交叉注意力机制和一个前馈神经网络,首先对手语文本进行自注意力计算,再跟编码生成的特征向量进行交叉注意力计算。
本发明提出了patch操作+STTN网络手语识别的策略。Patch操作可极大化地降低长序列带来的计算复杂度问题,减少网络负担,STTN网络可以获取动态空间特征的同时处理长期上下文语义特征从而提高手语识别的精确度。步骤S4中的STTN网络主要由两部分组成,依次为:STT编码器和解码器。
本发明步骤S4中所用的解码器包括三个子层,第一个子层包括一个含有掩码的多头自注意力层和规范化层以及残差连接层,第二个子层包括一个多头交叉注意力层和规范化层以及残差连接层,第三个子层包含一个前馈神经网络和规范化层以及残差连接层。
三层的计算公式为:
Figure BDA0003747044820000131
其中,Qi-1指代计算上一层的输出,F指编码器的输出,
Figure BDA0003747044820000132
指加上位置编码操作的F。
如图5所示,步骤S4中其编码器网络的输入是将T帧的224×224×3的RGB图像分块后的T×N×D的序列,其中N是所分的块数,D是向量维度,默认设置为512;编码部分由时间编码器和空间编码器模块组成。其中时间编码器是对所有T帧进行时间维度长期相关性的编码和特征提取,空间编码器是对每帧的所有N块进行空间维度动态相关性的编码和特征提取。经过时间编码和空间编码后进行融合,再依次经过Add&Norm、Feed Forward、Add&Norm操作之后完成编码。
如图6所示,步骤S4中其解码器网络的输入是解码器的输出以及手语文本。解码器包含了两种注意力计算,分别是手语文本之间的自注意力计算、注意力输出与编码器输出的交叉注意力计算,计算方式与编码器部分的multi-head attention类似,但是多了一次masked,因为在解码部分,解码的时候时从左到右依次解码的,当解出第一个字的时候,第一个字只能与第一个字计算相关性,当解出第二个字的时候,只能计算出第二个字与第一个字和第二个字的相关性,所以需要进行一次mask;详细来说,解码过程如下:
S4-1、首先对手语文本进行Word-Embedding操作,通过Matrix映射为D维向量,记为matX,再经Positional-Encoding操作给手语文本不同单词编码上不同的位置信息,维度同样为D,记为matP,此时的matX和matP的shape相同,进行相加得到解码器输入matDec=matP+matX。
S4-2、在自注意力计算时Multi-head attention的三个输入,分别为Q、K、V,此时Q=K=V=matDec;分别对V,K,Q三者分别进行线性变换,即将三者分别输入到三个单层神经网络层,激活函数选择relu,输出新的V,K,Q(三者shape都和原来shape相同,即经过线性变换时输出维度和输入维度相同);
S4-3、将Q在最后一维上进行切分为num_heads(假设为8)段,然后对切分完的矩阵在axis=0维上进行concat链接起来;对V和K都进行和Q一样的操作;操作后的矩阵记为Q_,K_,V_;Q_矩阵相乘K-的转置(对最后2维),生成结果记为outputs,然后对outputs进行scale一次更新为outputs;此次矩阵相乘是计算词与词的相关性,切成多个num_heads进行计算是为了实现对词与词之间深层次相关性进行计算;
S4-4、对outputs进行softmax运算,更新outputs,即outputs=softmax(outputs);最新的outputs(即K和Q的相关性)矩阵相乘V,其值更新为outputs;最后将outputs在axis=0维上切分为num_heads段,然后在axis=2维上合并,恢复原来Q的维度。
S4-5、在交叉注意力阶段,Q为编码器的输出,K=V=matDec,计算过程与子注意力阶段相同。在此之后是Add&Norm层,此层操作类似于ResNet,将最初的输入与其对应的输出叠加一次,即outputs=outputs+Q,使网络有效叠加,避免梯度消失;
S4-6、进行标准化矫正一次,在outputs对最后一维计算均值和方差,用outputs减去均值除以方差+spsilon得值更新为outputs,然后变量gamma×outputs+变量beta。下一层FeedForward,也就是两层卷积操作,对outputs进行第一次卷积操作,结果更新为outputs(卷积核为1×1,每一次卷积操作的计算发生在一个词对应的向量元素上,卷积核数目即最后一维向量长度,也就是一个词对应的向量维数);对最新outputs进行第二次卷积操作,卷积核仍然为1×1,卷积核数目为N。
S4-7、此后进行Add&Norm层,和e中的Add&Norm相同,经过以上操作后,此时最新的output和matEnc的shape相同;令matEnc=outputs,完成一次循环,然后返回到S4-3开始第二次循环。共循环Nx(自定义;每一次循环其结构相同,但对应的参数是不同的,即是独立训练的)。完成Nx次后,模型的解码部分完成。
步骤S5:对解码后的特征进行序列预测,获得手语视频的预测序列。
本发明步骤S5中,在进入解码过程之前同样需要进行位置编码,给手语文本加上位置信息。此后会先经过一个masked self-attention层,使用mask的目的是解决解码过程中会遇到的训练过程中信息泄露问题,也就是避免了模型作弊以及预测过程中的模型架构不一致问题,这是由于预测阶段使用sequence masked可以保持重复的句子预测结果是一样的,不仅符合规则,而且可以增量更新,同时也可以与训练的模型架构、前向传播的方式保持一致。此外编码器端只有一个输出,传入解码器部分的每一个解码层充当其中第二个子层中多头注意力机制的K,V。解码器的最后是线性层,是一个简单的全连接神经网络,将解码器堆栈生成的向量投影到一个更大的向量,成为logits向量。
由softmax层将logits向量转换为概率,选择最高的概率单元生成与其相关联的词作为当前时间步的输出。
步骤S6:对获得的手语视频的预测序列与手语文本序列进行WER计算。
步骤S7:对步骤S3、步骤S4、步骤S5和步骤S6进行网络级训练,对最终的手语识别结果进行输出。
实施例2:基于Spatial-Temporal Transformer的连续手语识别装置。
如图1~图3所示,本发明基于Spatial-Temporal Transformer的连续手语识别装置,包括手语视频获取模块、预处理模块、手语识别网络训练模块和输出模块等部分。其中,手语视频获取模块与预处理模块相接,用于从手语视频中提取手语视频帧,获得RGB手语视频帧。预处理模块分别与手语视频提取模块和手语识别网络训练模块相接,用于对彩色手语视频帧进行patch操作,为Spatial-Temporal Transformer网络提供序列化的手语视频块。手语识别网络训练模块包括STT编码部、解码部、交叉熵损失函数和反向传播部,用于将手语视频帧进行特征提取编码和解码预测。输出模块与手语识别网络训练模块相接,对最后的手语识别结果进行输出。
预处理模块包含patch操作部和embedding网络;所述embedding网络包括patch-embedding网络和positional-encoding网络。手语识别网络训练模块中的所述STT编码部包括有多层编码器,每层编码器包括一个时间与空间的双通道编码器、一个线性归一化层以及一个前馈神经网络;所述STT编码部利用预处理模块输出的输入帧,通过时间和空间双通道进行动态空间相关性和长期时间相关性的特征提取和编码。手语识别网络训练模块中的所述解码部包括多层解码器,每层解码器包括三个子层;其中,第一个子层包括:含有掩码的多头自注意力层、规范化层和残差连接层;第二个子层包括:多头交叉注意力层、规范化层和残差连接层;第三个子层包括:前馈神经网络、规范化层和残差连接层。
为了进一步证明本发明提出的STTN模型的有效性,本发明实施例在CSL100和RWTHPHOENIX-Weather-2014(PHOENIX14)公共数据集上进行手语识别实验,与其他基于深度学习的识别算法进行了对比。CSL100的实验对比结果见表1。
表1:在CSL100数据集上的识别率
Figure BDA0003747044820000161
由表1可见,本发明提出的STTN网络的在CSL100数据集上的识别错误率降至1.2%,相较其他算法有了提升。因此,本发明提出的识别算法可极大化的提高手语识别的准确率。
本发明在RWTHPHOENIX-Weather-2014(PHOENIX14)公共数据集上实验对比结果见表2。
表2:本发明与深度学习方法在RWTHPHOENIX-Weather-2014(PHOENIX14)数据集下的对比结果
Figure BDA0003747044820000162
从表2中可以看出,与之前使用卷积的方法相比,本发明手语识别方法取得了优势,将它与多网络融合方法进行了比较。与纯卷积相比,多网络融合方法有助于网络注意到更多信息。然而,本发明手语识别方法通过时间和空间级别分层提取信息,并且使用可以精确记录上下文信息的转换器,本发明可以提取更充分的信息,这说明了本发明手语识别方法在各方面优于对比算法。
如图9所示,为了更好的理解学习过程,在RWTH-PHOENIX-Weather multi-signer2014数据集中选择了一个随机数据样本,图中展示了连续语句中手语者的连续动作姿态。
如图10所示,可视化了的训练效果(训练、测试和验证期间的WER变化曲线)表明,WER在训练过程中下降得更快,并且在7个epoch之后测试和验证的曲线基本保持不变,曲线更趋于平稳,在第13个epoch取得了最好的结果。
如图11所示,在来自中国手语数据集(CSL100)的句子识别结果示例中,显示了五个预测句子,错误率从预测1到5递减。第一行表示输入帧序列。文本前带有S、D等表示的方框表示错误的预测。用“D”、“S”和“I”分别代表删除、替换和插入操作。

Claims (11)

1.一种连续手语识别方法,其特征在于,包括如下步骤:
S1、原始手语视频通过随机删减的方法删除冗余帧,获得连续的手语视频序列;
S2、对获取的手语视频序列进行分块操作和向量化处理,获得手语序列向量;
S3、通过以Spatial-Temporal Transformer网络中的编码器作为时空编码器,对获得的手语序列向量进行特征提取,获得手语序列特征向量;所述编码器为时间和空间双通道的编码器;
S4、对获得的手语序列特征向量进行特征解码;
S5、对解码后的特征进行序列预测,获得手语视频的预测序列;
S6、对获得的手语视频的预测序列与手语文本序列进行WER计算;
S7、对步骤S3、步骤S4、步骤S5和步骤S6进行网络级训练,对最终的手语识别结果进行输出。
2.根据权利要求1所述的连续手语识别方法,其特征是,步骤S2中,将T帧的手语视频帧中的每一帧重塑为(h×w)×(p1×p2×C)维的2维图块,其中,H=h×p1,W=w×p2;h×w是每帧分成的图块数量;在所有的图层上使用恒定的隐矢量dmodel,将图块展平投影映射到dmodel=D的大小,此投影输出即为patch embedding;此时feature map大小为B×T×N×D,N=h×w,patch embedding后的向量记为:X(p,t)
3.根据权利要求1所述的连续手语识别方法,其特征是,步骤S3中所用编码器是兼顾时间和空间的编码器结构,包括一个空间注意力模块和一个时间注意力模块;传进编码器的手语视频向量通过两个通道分别进入时间注意力模块和空间注意力模块,然后再将由时间注意力模块和空间注意力模块提取到的特征进行拼接。
4.根据权利要求1所述的连续手语识别方法,其特征是,步骤S3的具体操作方式包括以下步骤:
S3-1、将步骤S2中的训练数据作为输入视频,先进行Embedding和PositionalEncoding操作,其中,Positional Encoding的计算依据下面两个公式:
Figure FDA0003747044810000012
Figure FDA0003747044810000013
其中:pos对应token再序列中的位置,起始token位置记为0,2i和2i+1表示PositionalEncoding的维度,i的取值范围为[0,dmodel/2],将位置编码信息标记为
Figure FDA0003747044810000011
S3-2、将Embedding和Positional Encoding后的向量作为STT编码模块的输入P,向量进入STTN编码模块之后,先利用维度变换操作将向量P的帧数T放到第一维度batch-size,由空间编码模块对维度变换后的向量P0进行空间注意力计算,计算后的向量记为Z0;再利用维度变换操作,将向量P的块数N放到第一维度batch-size,通过时间编码模块对维度变换后的向量P1进行时间注意力的计算,计算后的向量记为Z1;其中的时间注意力和空间注意力的计算方式均为Self Attention计算;三个矩阵WQ,WK,WV对所有的P0/P1向量分别进行三次线性变换,所有向量又衍生出三个新的向量qt,kt,vt;所有的向量qt拼成查询矩阵Q,所有的向量kt拼成键矩阵K,所有的向量vt拼成值矩阵V;
计算公式如下:
Q=Linear(X)=XWQ (8)
K=Linear(X)=XWK (9)
V=Linear(X)=XWV (10)
Xattention=Self Attention(Q,K,V) (11)
其中,X为输入序列,WQ,WK,WV为三个矩阵;
对向量Z0和向量Z1进行特征拼接操作,经Layer Normalization和FeedForward操作后进行编码器的输出,公式如下:
Xattention=Layer Norm(Xattention) (12)
其中,FeedForward是两层线性映射并用激活函数激活,激活函数选用ReLU;
Xhidden=Layer(ReLU(Linear(Xattention))) (13)
其中,Xhidden∈Rbatch_size*seq_len*embed_dim
S3-3、对解码器依次进行三部分操作:①Masked Multi-Head Self-Attention,②Multi-Head Encoder-Decoder Attention,③FeedForward Network,每部分操作后接一个Layer Normalization;解码器的注意力计算包括手语文本之间的自注意力计算以及注意力输出与编码器输出的交叉注意力计算。
5.根据权利要求4所述的连续手语识别方法,其特征是,解码器的整体解码操作包括以下步骤:
S3-3-1、首先对手语文本进行Word-Embedding操作,通过Matrix映射为D维向量,记为matX,再经Positional-Encoding操作给手语文本不同单词编码上不同的位置信息,维度为D,记为matP,进行相加得到解码器的输入为:matDec=matP+matX;
S3-3-2、手语文本之间的自注意力计算时,Multi-head attention的三个输入分别为Q、K、V,对V、K、Q分别进行线性变换;再将Q在最后一维上进行切分为num_heads段,对切分完的矩阵在axis=0维上进行concat链接;对V和K进行同样的操作;操作后的矩阵记为Q_,K_,V_;Q_矩阵相乘K_的转置,生成的结果记为outputs。
S3-3-3、对outputs进行scale一次更新为outputs;对outputs进行softmax运算,更新outputs;
S3-3-4、注意力输出与编码器输出的交叉注意力计算时,Q为编码器的输出,K=V=matDec,计算过程与手语文本之间的自注意力的计算相同;在Add&Norm层的操作同ResNet,将最初的输入与其对应的输出叠加一次,即outputs=outputs+Q,使网络有效叠加,避免梯度消失,经过Add&Norm层和Feed Forward,对outputs进行归一化和线性变换;完成Nx次后,通过线性层,将解码器堆栈生成的向量投影到一个更大的向量,成为logits向量,再由softmax层将其转换为概率,选择最高的概率单元生成与其相关联的词作为当前时间步的输出,至此模型的解码完成。
6.根据权利要求5所述的连续手语识别方法,其特征是,步骤S4是利用解码网络进行特征解码,所述解码网络包括一个多头注意力机制、一个多头交叉注意力机制和一个前馈神经网络;先对手语文本进行自注意力计算,再跟编码生成的特征向量进行交叉注意力计算。
7.根据权利要求1所述的连续手语识别方法,其特征是,步骤S4中所用的解码器包括三个子层组成,第一个子层包括一个含有掩码的多头自注意力层和规范化层以及残差连接层,第二个子层包括一个多头交叉注意力层和规范化层以及残差连接层,第三个子层包含一个前馈神经网络和规范化层以及残差连接层。
三层的计算公式为:
Figure FDA0003747044810000031
Figure FDA0003747044810000032
Figure FDA0003747044810000033
其中,Qi-1指代计算上一层的输出,F指编码器的输出,
Figure FDA0003747044810000034
指加上位置编码操作的F。
8.一种连续手语识别装置,其特征在于,包括:
手语视频获取模块,与预处理模块相接,用于从手语视频中提取手语视频帧,获得RGB手语视频帧;
预处理模块,分别与手语视频提取模块和手语识别网络训练模块相接,用于对彩色手语视频帧进行patch操作,为Spatial-Temporal Transformer网络提供序列化的手语视频块;
手语识别网络训练模块,包括STT编码部、解码部、交叉熵损失函数和反向传播部,用于将手语视频帧进行特征提取编码和解码预测;以及
输出模块,与手语识别网络训练模块相接,对最后的手语识别结果进行输出。
9.根据权利要求8所述的连续手语识别装置,其特征是,所述预处理模块包含patch操作部和embedding网络;所述embedding网络包括patch-embedding网络和positional-encoding网络。
10.根据权利要求8所述的连续手语识别装置,其特征是,手语识别网络训练模块中的所述STT编码部包括有多层编码器,每层编码器包括一个时间与空间的双通道编码器、一个线性归一化层以及一个前馈神经网络;所述STT编码部利用预处理模块输出的输入帧,通过时间和空间双通道进行动态空间相关性和长期时间相关性的特征提取和编码。
11.根据权利要求8所述的连续手语识别装置,其特征是,手语识别网络训练模块中的所述解码部包括多层解码器,每层解码器包括三个子层;其中,第一个子层包括:含有掩码的多头自注意力层、规范化层和残差连接层;第二个子层包括:多头交叉注意力层、规范化层和残差连接层;第三个子层包括:前馈神经网络、规范化层和残差连接层。
CN202210827343.XA 2022-07-14 2022-07-14 一种连续手语识别方法及装置 Pending CN115393949A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210827343.XA CN115393949A (zh) 2022-07-14 2022-07-14 一种连续手语识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210827343.XA CN115393949A (zh) 2022-07-14 2022-07-14 一种连续手语识别方法及装置

Publications (1)

Publication Number Publication Date
CN115393949A true CN115393949A (zh) 2022-11-25

Family

ID=84117116

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210827343.XA Pending CN115393949A (zh) 2022-07-14 2022-07-14 一种连续手语识别方法及装置

Country Status (1)

Country Link
CN (1) CN115393949A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115690917A (zh) * 2023-01-04 2023-02-03 南京云创大数据科技股份有限公司 一种基于外观和运动智能关注的行人动作识别方法
CN117612071A (zh) * 2024-01-23 2024-02-27 中国科学技术大学 一种基于迁移学习的视频动作识别方法
CN118135452A (zh) * 2024-02-02 2024-06-04 广州像素数据技术股份有限公司 一种基于大规模视频-语言模型的理化生实验视频描述方法及相关设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115690917A (zh) * 2023-01-04 2023-02-03 南京云创大数据科技股份有限公司 一种基于外观和运动智能关注的行人动作识别方法
CN117612071A (zh) * 2024-01-23 2024-02-27 中国科学技术大学 一种基于迁移学习的视频动作识别方法
CN117612071B (zh) * 2024-01-23 2024-04-19 中国科学技术大学 一种基于迁移学习的视频动作识别方法
CN118135452A (zh) * 2024-02-02 2024-06-04 广州像素数据技术股份有限公司 一种基于大规模视频-语言模型的理化生实验视频描述方法及相关设备
CN118135452B (zh) * 2024-02-02 2024-08-27 广州像素数据技术股份有限公司 一种基于大规模视频-语言模型的理化生实验视频描述方法及相关设备

Similar Documents

Publication Publication Date Title
WO2022111236A1 (zh) 一种结合注意力机制的面部表情识别方法及系统
CN111783705B (zh) 一种基于注意力机制的文字识别方法及系统
CN115393949A (zh) 一种连续手语识别方法及装置
CN112329690B (zh) 基于时空残差网络和时序卷积网络的连续手语识别方法
CN111444889A (zh) 基于多级条件影响的卷积神经网络的细粒度动作检测方法
CN113627233B (zh) 基于视觉语义信息的人脸伪造检测方法和装置
Yin et al. Dynamic difference learning with spatio-temporal correlation for deepfake video detection
CN114511798A (zh) 基于transformer的驾驶员分心检测方法及装置
CN115100329B (zh) 基于多模态驱动的情感可控面部动画生成方法
CN113435421B (zh) 一种基于跨模态注意力增强的唇语识别方法及系统
Sarhan et al. HLR-net: a hybrid lip-reading model based on deep convolutional neural networks
CN113935435A (zh) 基于时空特征融合的多模态情感识别方法
CN115249382A (zh) 一种基于Transformer与CNN的静默活体检测方法
Dastbaravardeh et al. Channel Attention‐Based Approach with Autoencoder Network for Human Action Recognition in Low‐Resolution Frames
CN114240811A (zh) 一种基于多张图像生成新图像的方法
CN117237326A (zh) 证件照缺陷检测及提示方法、装置、介质及设备
CN116994264A (zh) 一种文本识别方法、芯片及终端
CN116469153A (zh) 一种基于深度学习的特定目标唇语识别方法
CN116758092A (zh) 图像分割方法、装置、电子设备及存储介质
CN114399824B (zh) 一种多角度侧面人脸矫正方法、装置、计算机设备和介质
CN114782995A (zh) 一种基于自注意力机制的人交互行为检测方法
Ji et al. RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network
Yu et al. Visual speech recognition in natural scenes based on spatial transformer networks
CN118570054B (zh) 图像生成模型的训练方法、相关装置和介质
US20240169701A1 (en) Affordance-based reposing of an object in a scene

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination