CN113239834A - 一种可预训练手模型感知表征的手语识别系统 - Google Patents

一种可预训练手模型感知表征的手语识别系统 Download PDF

Info

Publication number
CN113239834A
CN113239834A CN202110553174.0A CN202110553174A CN113239834A CN 113239834 A CN113239834 A CN 113239834A CN 202110553174 A CN202110553174 A CN 202110553174A CN 113239834 A CN113239834 A CN 113239834A
Authority
CN
China
Prior art keywords
hand
dimensional
vector
data
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110553174.0A
Other languages
English (en)
Other versions
CN113239834B (zh
Inventor
李厚强
周文罡
胡鹤臻
赵伟超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202110553174.0A priority Critical patent/CN113239834B/zh
Publication of CN113239834A publication Critical patent/CN113239834A/zh
Application granted granted Critical
Publication of CN113239834B publication Critical patent/CN113239834B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种可预训练手模型感知表征的手语识别系统,系统包含自监督预训练和下游任务微调两个阶段,这两个阶段依次进行,系统融合了模型与数据驱动的范式,通过引入手型先验,并结合遮罩建模策略,更好地捕捉到了手语视频中多层级的上下文信息,经过良好的预训练后,只需要简单的微调,即可使下游任务的性能增强,具有良好的应用前景。

Description

一种可预训练手模型感知表征的手语识别系统
技术领域
本发明涉及手语识别技术领域,尤其涉及一种可预训练手模型感知表征的手语识别系统。
背景技术
手语是一种视觉语言,它是听障群体的首选交流方式。为了促进听人与聋人之间的便捷交流,自动手语识别技术应运而生,并被广泛研究。该技术具有广泛的社会意义和应用前景。手语识别任务定义为将输入的一段手语视频识别为对应的文本,是一个细粒度分类问题。
手在手语的表意中起到主导作用。它通常仅占有相对小的尺寸,具有动态的背景。同时,手展现出类似的外观,并出现自遮挡现象。这给手的表征学习带来了很大的困难。部分现有的深度学习方法直接从视频中裁剪出的RGB视频序列以数据驱动的方式进行表征学习。考虑到手的高铰接特性,一些方法将手表示为稀疏的姿态。姿态是一种高阶、简洁和富含语义的表征,可以在外观变化下具有鲁棒性,并带来潜在的计算便捷性。然而,手的姿态通常是从现有的提取器中得到的,存在检测失败和检测残缺的问题。这也导致基于手姿态的识别方法性能远远低于全RGB的方法。
预训练的有效性已经被计算机视觉(CV)和自然语言处理(NLP)验证。在CV任务中,通常会采用先在ImageNet或Kinetics或大型的网络数据上进行预训练。NLP任务中,近期进展主要来源于在大型数据上自监督预训练学习。在这其中,BERT因其简便和性能优越,成为最成功的方法之一。它的成功主要归功于强大的基于自注意力机制的Transformer骨干网络,并结合精心设计的预训练策略,用于建模文本序列中固有的上下文信息。
现有的手语识别方法采用直接的数据驱动范式,在手语视频对应的文本下进行监督学习,但是它们通常具有有限的可解释性。同时,由于手语数据规模的有限性,现有方法通常会过拟合。同样地,虽然手姿态具有潜在的计算优越性,但是现有姿态提取器对于手语视频常存在错误检测,导致最终识别性能很低。
发明内容
本发明的目的是提供一种可预训练手模型感知表征的手语识别系统,通过在大规模数据上的预训练,可以提高手语识别性能。
本发明的目的是通过以下技术方案实现的:
一种可预训练手模型感知表征的手语识别系统,包括:手姿态嵌入向量生成模块、编码器、手模型感知解码器以及预测模块;
在自监督预训练阶段,对于给定的包含双手的二维手姿态序列随机选取设定比例的帧数据进行标记,对标记的帧数据以均等概率随机进行包含遮罩的预处理操作;之后,所有二维手姿态数据均通过手姿态嵌入向量生成模块生成相应的手姿态嵌入向量,并通过编码器编码后由手模型感知解码器重建出相应的二维手姿态数据,最终,利用标记的帧数据对应的二维手姿态重建结果构建损失函数;
在下游任务微调阶段,将手模型感知解码器替换为预测模块,利用未遮罩的二维手姿态序列进行编码器参数与预测模块参数的微调使得系统能够用于手语识别任务。
由上述本发明提供的技术方案可以看出,针对手表征学习的困难性和数据的有限性,设计的模型感知的可预训练的手语识别系统包含自监督预训练和下游任务微调两个阶段,这两个阶段依次进行,系统融合了模型与数据驱动的范式,通过引入手型先验,并结合遮罩建模策略,更好地捕捉到了手语视频中多层级的上下文信息,经过良好的预训练后,只需要简单的微调,即可使下游任务的性能增强,具有良好的应用前景。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种可预训练手模型感知表征的手语识别系统的示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
为了解决现有技术手机识别性能很低的技术问题,本发明实施例提供了一种可预训练手模型感知表征的手语识别系统,系统主要包括两个重要阶段:
1)自监督预训练阶段,通过预训练获得更好的手模型感知表征。
手姿态,作为一种视觉标记,被嵌入其手势状态,时序和手性信息。由于手语是通过两只手共同传递信息的,因此将它们同时融入系统框架中。在自监督预训练阶段,整个系统框架通过遮罩并重建视觉标记,以自监督的范式工作。与遮罩建模策略联合,解码器融合了手型先验,以更好地捕捉双手的层次性上下文和手语过程中的时间依赖性。
2)下游任务微调阶段,将预训练好的框架进行微调,提高在下游任务的性能。
当将系统框架用于下游识别任务时,手模型感知的解码器被替换为预测模块。它在监督的范式下通过相应的视频类别标签进行学习。
为了便于理解,下面结合图1对系统的模型架构、以及两个重要阶段分别进行详细的介绍。
一、系统的模型架构。
如图1所示,系统主要包括:手姿态嵌入向量生成模块、编码器、手模型感知解码器以及预测模块。
1、手姿态嵌入向量生成模块。
本发明实施例中,每帧中的手姿态被视为一个视觉标记。对于每个视觉标记,其表示向量是由相应的手势状态嵌入向量fp、时序嵌入向量fo和手性嵌入向量fh相加而构建的。具体来说:
1)手势状态嵌入向量fp
手姿势具有良好的结构性(手关节点之间具有物理连接),可以将其组成为一个空间图。给定一个二维手骨架点
Figure BDA0003076069070000031
它代表第t帧的二维位置(x和y坐标),一个无方向的空间图通过节点集V和边集E进行定义。节点集包括了所有对应的手关节点,而边集则包括物理和对称的关节连接。
本发明实施例中,二维手姿态数据(每一帧)被送入手势状态提取器,得到帧级别的语义表征向量,也即手势状态嵌入向量fp
示例性的,手势状态提取器可以通过多个图卷积层与图池化层实现,训练时输入至系统的二维手姿态序列逐帧输入至图卷积层,再通过图池化层将邻居节点进行融合,生成帧级别的语义表征。
2)时序嵌入向量fo
时序信息在视觉级别的手语识别中至关重要。因为自注意力并没有考虑到序列信息,因此,通过使用位置编码策略增加时间序列信息。具体地,对于同一个手,对于不同时刻加入不同的时序嵌入;同时,因为双手在打手语时同步地传达语义,无论手性,对于同一时刻增加了同样的时序嵌入。
3)手性嵌入向量fh
考虑到手语的语义是通过双手,因此,引入了两个特殊的标记去表示每帧的手性,也就是“L”和“R”分别代表左手和右手。具体地,它采用与手势状态和时序嵌入相同维度的WordPiece嵌入来实现,对于同一个手的所有帧数据都设置相同的手性嵌入向量fh,手性嵌入向量fh用来标记帧数据中手为左手或右手。
最终,手姿态嵌入向量表示为:
Figure BDA0003076069070000041
其中,T为二维手姿态序列的总帧数。
2、编码器。
本发明实施例中,所述编码器为包含自注意力和前向传播网络的Transformer编码器,该编码器对输入的手姿态嵌入向量F0进行编码,编码结果FN保持与F0一致的尺寸,编码过程表示为:
Figure BDA0003076069070000042
Figure BDA0003076069070000043
其中,i=1,...,N,N为编码器的总层数,Fi表示第i层的表征向量,
Figure BDA0003076069070000044
表示第i层的中间层得到的特征向量;L(·),M(·)和C(·)分别表示层正则化、多头自注意力和前向传播网络。
3、手模型感知解码器。
在本发明提供的自监督预训练范式中,整个系统框架需要重建被遮罩的输入序列,在这其中,手模型感知编码器起到将特征转换为姿态序列的作用,其工作过程主要包括:
首先,通过隐语义向量提取模块从编码器输出的编码特征中提取描述手状态和相机的隐语义向量,表示为:
Fla={θ,β,cr,co,cs}
其中,θ和β表示手姿态和形状语义变量,二者属于描述手状态的隐语义向量;
Figure BDA0003076069070000051
Figure BDA0003076069070000052
是弱透视成像相机的参数,属于相机的隐语义向量,分别指示旋转、平移和缩放。
示例性的,隐语义向量提取模块可以通过全连接层D(·)实现,则Fla={θ,β,cr,co,cs}=D(FN)。
然后,通过手模型解码隐语义向量到手表征,所述手模型采用MANO模型,MANO是一个全可微的手模型,它能够提供从低维度姿态θ和形状β空间到三角形网格
Figure BDA0003076069070000053
(Nv=778个顶点和Nf=1538个面)的映射。为了生成合理的手网格,姿态和形状被限制在从大量手扫描数据中学习到的PCA空间中。解码过程表示为:
M(β,θ)=W(T(β,θ),J(β),θ,Q)
Figure BDA0003076069070000054
其中,M(β,θ)表示根据形状参数β与姿态参数θ得到的高维手表征,Q是一系列的混合权重,BS(·)和BP(·)分别对应于形状和姿态混合函数;
Figure BDA0003076069070000055
为手模板(可根据姿态和形状的混合权重进行变形);T(β,θ)表示修正后的手模版,J(β)表示MANO手模型输出的16个三维关节点,W(·)为骨骼蒙皮算法,可以通过使用骨骼蒙皮算法W(·)旋转各关节点附近的部位得到输出的手网格。此外,为了与通用的手关节点标注一致,从MANO输出的网格中提取5个指尖点与MANO模型输出的16个三维关节点组成21个三维关节点;也就是说,基于M(β,θ)能够提取出16个三维手关节点与5个三维指尖点,记为
Figure BDA0003076069070000056
最后,将21个三维关节点映射回二维空间,从而重建出二维手姿态数据,表示为:
Figure BDA0003076069070000057
其中,∏(·)指代垂直投影,
Figure BDA0003076069070000058
表示三维关节点,
Figure BDA0003076069070000059
表示通过相机映射得到的二维关节点。
4、预测模块。
由于关键判别线索只包含在某些帧中,可利用时间注意力机制对二维手姿态序列进行加权,将加权后的二维手姿态序列特征融合进行最终的分类识别。
二、自监督预训练阶段。
本发明实施例中,系统框架在自监督的范式工作,以抓取多层级的语义上下文。与原有BERT预训练在离散词空间不同,本发明在连续的手姿态空间上进行预训练。实质上,分类问题转换成了回归问题,这也对手部姿态序列的重建提出了挑战。为了解决这一问题,本发明将手部姿态视为视觉上的“词”(连续标记),并联合利用手模型感知解码器作为约束,并引入手型先验。
1、自监督预训练阶段的主要过程。
对于给定的包含双手的二维手姿态序列随机选取设定比例(例如,50%)的帧数据进行标记;与BERT相似,对标记的帧数据以均等概率随机进行包含遮罩的预处理操作;之后,对于所有二维手姿态数据均通过手姿态嵌入向量生成模块生成相应的手姿态嵌入向量,并通过编码器编码后由手模型感知解码器重建出相应的二维手姿态数据,最终,利用标记的帧数据对应的二维手姿态重建结果构建损失函数。
本领域技术人员可以理解,网络需要根据所有的输入(无论是否标记)捕捉上下文信息,从而有助于去恢复需要被重建的姿态(即参与损失计算的标记数据)。
2、对于二维手姿态序列的三种操作策略。
本发明实施例中,对标记的帧数据以均等概率随机进行的预处理操作主要包括三类操作:
1)遮罩关节点建模操作。
因为现有姿态提取器也许会包含在某些关节点上的误检测,本发明采用了遮罩关节点建模去模拟通常的错误样例。对于一个选定的标记,随机选择m个关节点,范围从1到M。对于这些选定的关节点,以相同的概率随机执行其中一种操作,零掩膜(用全0遮罩原有关节点的坐标)操作或随机空间干扰操作。这种建模试图使得系统框架具有从剩余关节点中推断手势状态的能力。
2)遮罩帧建模操作,
遮罩帧建模是在一个更全面的视角上进行的。对于一个选定的标记,所有的关节点都被零掩膜。以这种方式,迫使整个系统框架通过从另一只手或者其余姿态标记的观察中来重建这个被遮罩的标记。以这种方式,可以捕获每只手的时间上下文和双手之间的相互信息。
3)恒等建模操作。
恒等建模操作将不变的标记输入系统框架中,不变的标记指代对标记数据不做任何操作即通入网络中;该操作对于框架学习到恒等映射必不可少。
3、自监督预训练的目标函数。
本发明实施例提出的上述三种操作策略可以使得系统最大化重建手姿态序列的联合概率分布,以这种方式,蕴含在序列中的上下文信息被捕捉。
本发明实施例中,使用被标记的二维手姿态数据的相关数据参与自监督预训练阶段中损失函数的计算;所述损失函数包含了重建损失以及正则损失。
1)重建损失。
以标记的二维手姿态数据的手姿态检测的结果J2D作为伪标签,忽略了预测置信度低于设定值∈的关节点,并采用预测置信度加权余下的关节点参与损失计算,表示为:
Figure BDA0003076069070000071
其中,
Figure BDA0003076069070000072
表示指示函数,c(t,j)指代伪标签J2D中第j个关节点在第t帧中的置信度,
Figure BDA0003076069070000073
表示重建出的二维手姿态数据中的二维关节点。
2)正则损失。
为了保证手模型感知解码器中手模型正常工作,本发明增加了一个正则化损失项。它是通过约束MANO输入的幅值和导数来实现的。这对MANO生成合理的网格和保持手语者身份信息不变是很重要的。
正则损失表示为:
Figure BDA0003076069070000074
其中,θt与βt分别表示在第t帧中的手姿态和形状语义变量,ωβ和ωδ表示权重因子。
最终,损失函数表示为:
Figure BDA0003076069070000075
其中,λ指代权重因子。
上述自监督预训练能够优化编码器,使得预训练后的编码器能够得到更鲁棒的特征用于下游任务。
三、下游任务微调阶段。
经过前期预训练的框架,可以通过相对简单的微调用于下游手语识别任务。在下游任务微调阶段,将手模型感知解码器替换为预测模块,框架输入为未遮罩的二维手姿态序列,框架进行编码器参数与预测模块参数的微调使得系统能够用于手语识别任务。下游任务微调阶段使用交叉熵监督预测模块的输出。
考虑到只有手姿态序列不足以表达手语的全部含义,有必要将下游任务中的分类识别结果(识别的是“手语词”)与全帧的识别结果进行融合;所述全帧用RGB数据或是全身关键点来表示。本发明实施例中,采用了简单的后融合策略,直接将它们的预测概率分布相加后选取概率最大的作为最终的识别结果。
本领域技术人员可以理解,相较而言,本申请中的二维手姿态序列所包含的信息是从全帧中裁剪出的包含手部区域的相关信息。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (8)

1.一种可预训练手模型感知表征的手语识别系统,其特征在于,包括:手姿态嵌入向量生成模块、编码器、手模型感知解码器以及预测模块;
在自监督预训练阶段,对于给定的包含双手的二维手姿态序列随机选取设定比例的帧数据进行标记,对标记的帧数据以均等概率随机进行包含遮罩的预处理操作;之后,所有二维手姿态数据均通过手姿态嵌入向量生成模块生成相应的手姿态嵌入向量,并通过编码器编码后由手模型感知解码器重建出相应的二维手姿态数据,最终,利用标记的帧数据对应的二维手姿态重建结果构建损失函数;
在下游任务微调阶段,将手模型感知解码器替换为预测模块,利用未遮罩的二维手姿态序列进行编码器参数与预测模块参数的微调使得系统能够用于手语识别任务。
2.根据权利要求1所述的一种可预训练手模型感知表征的手语识别系统,其特征在于,所述预处理操作包括三类操作:
遮罩关节点建模操作,随机选择若干个关节点,对选择的每一个关节点以相同的概率随机执行零掩膜操作或随机空间干扰操作;
遮罩帧建模操作,即对所有关节点进行零掩膜操作;
恒等建模操作,将不变的标记输入系统中。
3.根据权利要求1所述的一种可预训练手模型感知表征的手语识别系统,其特征在于,所述手姿态嵌入向量包括:手势状态嵌入向量fp、时序嵌入向量fo和手性嵌入向量fh;其中:
二维手姿态数据被送入手势状态提取器,得到帧级别的语义表征向量,也即手势状态嵌入向量fp
对于同一个手,对于不同时刻加入不同的时序嵌入向量fo;同时,无论手性,对于同一时刻增加了同样的时序嵌入向量fo
对于同一个手的所有帧数据都设置相同的手性嵌入向量fh,手性嵌入向量fh用来标记帧数据中手为左手或右手;
最终,手姿态嵌入向量表示为:
Figure FDA0003076069060000011
其中,T为二维手姿态序列的总帧数。
4.根据权利要求1所述的一种可预训练手模型感知表征的手语识别系统,其特征在于,所述编码器为包含自注意力和前向传播网络的Transformer编码器,该编码器对输入的手姿态嵌入向量F0进行编码,编码结果FN保持与F0一致的尺寸,编码过程表示为:
Figure FDA0003076069060000021
Figure FDA0003076069060000022
其中,i=1,...,N,N为编码器的总层数,Fi表示第i层的表征向量,
Figure FDA0003076069060000023
表示第i层的中间层得到的特征向量;L(·),M(·)和C(·)分别表示层正则化、多头自注意力和前向传播网络。
5.根据权利要求1所述的一种可预训练手模型感知表征的手语识别系统,其特征在于,所述手模型感知解码器重建出相应的二维手姿态数据的步骤包括:
首先,通过隐语义向量提取模块从编码器输出的编码特征中提取描述手状态和相机的隐语义向量,表示为:
Fla={θ,β,cr,co,cs}
其中,θ和β表示手姿态和形状语义变量,二者属于描述手状态的隐语义向量;cr、co与和cr是弱透视成像相机的参数,属于相机的隐语义向量,分别指示旋转、平移和缩放;
然后,通过手模型解码隐语义向量到手表征,所述手模型采用MANO模型,解码过程表示为:
M(β,θ)=W(T(β,θ),J(β),θ,Q)
Figure FDA0003076069060000024
其中,Q是一系列的混合权重,BS(·)和BP(·)分别对应于形状和姿态混合函数;
Figure FDA0003076069060000025
为手模板,T(β,θ)表示修正后的手模版,J(β)为MANO手模型输出的16个三维关节点,W(·)为骨骼蒙皮算法;
基于M(β,θ)提取出16个三维手关节点与5个三维指尖点,组成21个三维关节点,记为
Figure FDA0003076069060000026
最后,将21个三维关节点映射回二维空间,从而重建出二维手姿态数据,表示为:
Figure FDA0003076069060000027
其中,Π(·)指代垂直投影,
Figure FDA0003076069060000028
表示三维关节点,
Figure FDA0003076069060000029
表示映射得到的二维关节点。
6.根据权利要求1或5所述的一种可预训练手模型感知表征的手语识别系统,其特征在于,使用被标记的二维手姿态数据的相关数据参与自监督预训练阶段中损失函数的计算;所述损失函数包含了重建损失以及正则损失;
其中,重建损失以标记的二维手姿态数据的手姿态检测的结果J2D作为伪标签,忽略了预测置信度低于设定值∈的关节点,并采用预测置信度加权余下的关节点参与损失计算,表示为:
Figure FDA0003076069060000031
其中,
Figure FDA0003076069060000032
表示指示函数,c(t,j)指代伪标签J2D中第j个关节点在第t帧中的置信度,
Figure FDA0003076069060000033
表示重建出的二维手姿态数据中的二维关节点;
正则损失用来保证手模型感知解码器中手模型正常工作,其表示为:
Figure FDA0003076069060000034
其中,θt与βt分别表示在第t帧中的手姿态和形状语义变量,ωβ和ωδ表示权重因子;
最终,损失函数表示为:
Figure FDA0003076069060000035
其中,λ指代权重因子。
7.根据权利要求1所述的一种可预训练手模型感知表征的手语识别系统,其特征在于,预测模块中利用时间注意力机制对二维手姿态序列进行加权,将加权后的二维手姿态序列特征融合进行最终的分类识别。
8.根据权利要求1所述的一种可预训练手模型感知表征的手语识别系统,其特征在于,下游任务微调阶段使用交叉熵监督预测模块的输出;
同时,将下游任务中的分类识别结果与全帧的识别结果进行融合;所述全帧用RGB数据或是全身关键点来表示。
CN202110553174.0A 2021-05-20 2021-05-20 一种可预训练手模型感知表征的手语识别系统 Active CN113239834B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110553174.0A CN113239834B (zh) 2021-05-20 2021-05-20 一种可预训练手模型感知表征的手语识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110553174.0A CN113239834B (zh) 2021-05-20 2021-05-20 一种可预训练手模型感知表征的手语识别系统

Publications (2)

Publication Number Publication Date
CN113239834A true CN113239834A (zh) 2021-08-10
CN113239834B CN113239834B (zh) 2022-07-15

Family

ID=77137923

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110553174.0A Active CN113239834B (zh) 2021-05-20 2021-05-20 一种可预训练手模型感知表征的手语识别系统

Country Status (1)

Country Link
CN (1) CN113239834B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792607A (zh) * 2021-08-19 2021-12-14 辽宁科技大学 基于Transformer的神经网络手语分类识别方法
CN114882584A (zh) * 2022-04-07 2022-08-09 长沙千博信息技术有限公司 一种手语词汇识别系统
CN115186720A (zh) * 2022-09-07 2022-10-14 中国科学技术大学 预训练模型、无线感知模型的训练方法及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX2009011936A (es) * 2009-11-04 2011-05-19 Sergio Rodriguez Prado Sistema humana mediante interface de comunicacion gestual (hmi).
US20180204111A1 (en) * 2013-02-28 2018-07-19 Z Advanced Computing, Inc. System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform
CN110929616A (zh) * 2019-11-14 2020-03-27 北京达佳互联信息技术有限公司 一种人手识别方法、装置、电子设备和存储介质
CN111797692A (zh) * 2020-06-05 2020-10-20 武汉大学 一种基于半监督学习的深度图像手势估计方法
WO2020226696A1 (en) * 2019-12-05 2020-11-12 Huawei Technologies Co. Ltd. System and method of generating a video dataset with varying fatigue levels by transfer learning
CN112347826A (zh) * 2019-08-09 2021-02-09 中国科学技术大学 一种基于强化学习的视频连续手语识别方法及系统
CN112668543A (zh) * 2021-01-07 2021-04-16 中国科学技术大学 一种手模型感知的孤立词手语识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX2009011936A (es) * 2009-11-04 2011-05-19 Sergio Rodriguez Prado Sistema humana mediante interface de comunicacion gestual (hmi).
US20180204111A1 (en) * 2013-02-28 2018-07-19 Z Advanced Computing, Inc. System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform
CN112347826A (zh) * 2019-08-09 2021-02-09 中国科学技术大学 一种基于强化学习的视频连续手语识别方法及系统
CN110929616A (zh) * 2019-11-14 2020-03-27 北京达佳互联信息技术有限公司 一种人手识别方法、装置、电子设备和存储介质
WO2020226696A1 (en) * 2019-12-05 2020-11-12 Huawei Technologies Co. Ltd. System and method of generating a video dataset with varying fatigue levels by transfer learning
CN111797692A (zh) * 2020-06-05 2020-10-20 武汉大学 一种基于半监督学习的深度图像手势估计方法
CN112668543A (zh) * 2021-01-07 2021-04-16 中国科学技术大学 一种手模型感知的孤立词手语识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TAORAN LE等: "A novel chipless RFID-based stretchable and wearable hand gesture sensor", 《2015 EUROPEAN MICROWAVE CONFERENCE (EUMC)》 *
魏馥琳: "中国普乐手语手势动作识别研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792607A (zh) * 2021-08-19 2021-12-14 辽宁科技大学 基于Transformer的神经网络手语分类识别方法
CN113792607B (zh) * 2021-08-19 2024-01-05 辽宁科技大学 基于Transformer的神经网络手语分类识别方法
CN114882584A (zh) * 2022-04-07 2022-08-09 长沙千博信息技术有限公司 一种手语词汇识别系统
CN114882584B (zh) * 2022-04-07 2024-08-13 长沙千博信息技术有限公司 一种手语词汇识别系统
CN115186720A (zh) * 2022-09-07 2022-10-14 中国科学技术大学 预训练模型、无线感知模型的训练方法及电子设备

Also Published As

Publication number Publication date
CN113239834B (zh) 2022-07-15

Similar Documents

Publication Publication Date Title
Xiang et al. Deep learning for image inpainting: A survey
Ding et al. VLT: Vision-language transformer and query generation for referring segmentation
CN113239834B (zh) 一种可预训练手模型感知表征的手语识别系统
CN111489287A (zh) 图像转换方法、装置、计算机设备和存储介质
CN112530019B (zh) 三维人体重建方法、装置、计算机设备和存储介质
CN114359768A (zh) 一种基于多模态异质特征融合的视频密集事件描述方法
WO2024109374A1 (zh) 换脸模型的训练方法、装置、设备、存储介质和程序产品
Liu et al. Gmm-unit: Unsupervised multi-domain and multi-modal image-to-image translation via attribute gaussian mixture modeling
Liang et al. Multi-modal human action recognition with sub-action exploiting and class-privacy preserved collaborative representation learning
Lu et al. Detection of deepfake videos using long-distance attention
Abdollahzadeh et al. A survey on generative modeling with limited data, few shots, and zero shot
CN116611496A (zh) 文本到图像的生成模型优化方法、装置、设备及存储介质
Zhang et al. Deep RGB-D saliency detection without depth
Cha et al. Learning 3D skeletal representation from transformer for action recognition
CN117218246A (zh) 图像生成模型的训练方法、装置、电子设备及存储介质
CN116051686A (zh) 图上文字擦除方法、系统、设备及存储介质
Han et al. 3d shape temporal aggregation for video-based clothing-change person re-identification
Li et al. Transformer-based image inpainting detection via label decoupling and constrained adversarial training
Tu et al. Clothing-change person re-identification based on fusion of RGB modality and gait features
Wan et al. Angular-driven feedback restoration networks for imperfect sketch recognition
Zhang et al. Two-stage co-segmentation network based on discriminative representation for recovering human mesh from videos
CN114241167B (zh) 一种从视频到视频的无模板虚拟换衣方法及装置
Teng et al. Unimodal face classification with multimodal training
Usman et al. Skeleton-based motion prediction: A survey
Zhao et al. Unrestricted Anchor Graph Based GCN for Incomplete Multi-View Clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant