CN113239834A

CN113239834A - 一种可预训练手模型感知表征的手语识别系统

Info

Publication number: CN113239834A
Application number: CN202110553174.0A
Authority: CN
Inventors: 李厚强; 周文罡; 胡鹤臻; 赵伟超
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-05-20
Filing date: 2021-05-20
Publication date: 2021-08-10
Anticipated expiration: 2041-05-20
Also published as: CN113239834B

Abstract

本发明公开了一种可预训练手模型感知表征的手语识别系统，系统包含自监督预训练和下游任务微调两个阶段，这两个阶段依次进行，系统融合了模型与数据驱动的范式，通过引入手型先验，并结合遮罩建模策略，更好地捕捉到了手语视频中多层级的上下文信息，经过良好的预训练后，只需要简单的微调，即可使下游任务的性能增强，具有良好的应用前景。

Description

一种可预训练手模型感知表征的手语识别系统

技术领域

本发明涉及手语识别技术领域，尤其涉及一种可预训练手模型感知表征的手语识别系统。

背景技术

手语是一种视觉语言，它是听障群体的首选交流方式。为了促进听人与聋人之间的便捷交流，自动手语识别技术应运而生，并被广泛研究。该技术具有广泛的社会意义和应用前景。手语识别任务定义为将输入的一段手语视频识别为对应的文本，是一个细粒度分类问题。

手在手语的表意中起到主导作用。它通常仅占有相对小的尺寸，具有动态的背景。同时，手展现出类似的外观，并出现自遮挡现象。这给手的表征学习带来了很大的困难。部分现有的深度学习方法直接从视频中裁剪出的RGB视频序列以数据驱动的方式进行表征学习。考虑到手的高铰接特性，一些方法将手表示为稀疏的姿态。姿态是一种高阶、简洁和富含语义的表征，可以在外观变化下具有鲁棒性，并带来潜在的计算便捷性。然而，手的姿态通常是从现有的提取器中得到的，存在检测失败和检测残缺的问题。这也导致基于手姿态的识别方法性能远远低于全RGB的方法。

预训练的有效性已经被计算机视觉(CV)和自然语言处理(NLP)验证。在CV任务中，通常会采用先在ImageNet或Kinetics或大型的网络数据上进行预训练。NLP任务中，近期进展主要来源于在大型数据上自监督预训练学习。在这其中，BERT因其简便和性能优越，成为最成功的方法之一。它的成功主要归功于强大的基于自注意力机制的Transformer骨干网络，并结合精心设计的预训练策略，用于建模文本序列中固有的上下文信息。

现有的手语识别方法采用直接的数据驱动范式，在手语视频对应的文本下进行监督学习，但是它们通常具有有限的可解释性。同时，由于手语数据规模的有限性，现有方法通常会过拟合。同样地，虽然手姿态具有潜在的计算优越性，但是现有姿态提取器对于手语视频常存在错误检测，导致最终识别性能很低。

发明内容

本发明的目的是提供一种可预训练手模型感知表征的手语识别系统，通过在大规模数据上的预训练，可以提高手语识别性能。

本发明的目的是通过以下技术方案实现的：

一种可预训练手模型感知表征的手语识别系统，包括：手姿态嵌入向量生成模块、编码器、手模型感知解码器以及预测模块；

在自监督预训练阶段，对于给定的包含双手的二维手姿态序列随机选取设定比例的帧数据进行标记，对标记的帧数据以均等概率随机进行包含遮罩的预处理操作；之后，所有二维手姿态数据均通过手姿态嵌入向量生成模块生成相应的手姿态嵌入向量，并通过编码器编码后由手模型感知解码器重建出相应的二维手姿态数据，最终，利用标记的帧数据对应的二维手姿态重建结果构建损失函数；

在下游任务微调阶段，将手模型感知解码器替换为预测模块，利用未遮罩的二维手姿态序列进行编码器参数与预测模块参数的微调使得系统能够用于手语识别任务。

由上述本发明提供的技术方案可以看出，针对手表征学习的困难性和数据的有限性，设计的模型感知的可预训练的手语识别系统包含自监督预训练和下游任务微调两个阶段，这两个阶段依次进行，系统融合了模型与数据驱动的范式，通过引入手型先验，并结合遮罩建模策略，更好地捕捉到了手语视频中多层级的上下文信息，经过良好的预训练后，只需要简单的微调，即可使下游任务的性能增强，具有良好的应用前景。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种可预训练手模型感知表征的手语识别系统的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

为了解决现有技术手机识别性能很低的技术问题，本发明实施例提供了一种可预训练手模型感知表征的手语识别系统，系统主要包括两个重要阶段：

1)自监督预训练阶段，通过预训练获得更好的手模型感知表征。

手姿态，作为一种视觉标记，被嵌入其手势状态，时序和手性信息。由于手语是通过两只手共同传递信息的，因此将它们同时融入系统框架中。在自监督预训练阶段，整个系统框架通过遮罩并重建视觉标记，以自监督的范式工作。与遮罩建模策略联合，解码器融合了手型先验，以更好地捕捉双手的层次性上下文和手语过程中的时间依赖性。

2)下游任务微调阶段，将预训练好的框架进行微调，提高在下游任务的性能。

当将系统框架用于下游识别任务时，手模型感知的解码器被替换为预测模块。它在监督的范式下通过相应的视频类别标签进行学习。

为了便于理解，下面结合图1对系统的模型架构、以及两个重要阶段分别进行详细的介绍。

一、系统的模型架构。

如图1所示，系统主要包括：手姿态嵌入向量生成模块、编码器、手模型感知解码器以及预测模块。

1、手姿态嵌入向量生成模块。

本发明实施例中，每帧中的手姿态被视为一个视觉标记。对于每个视觉标记，其表示向量是由相应的手势状态嵌入向量f_p、时序嵌入向量f_o和手性嵌入向量f_h相加而构建的。具体来说：

1)手势状态嵌入向量f_p。

手姿势具有良好的结构性(手关节点之间具有物理连接)，可以将其组成为一个空间图。给定一个二维手骨架点

它代表第t帧的二维位置(x和y坐标)，一个无方向的空间图通过节点集V和边集E进行定义。节点集包括了所有对应的手关节点，而边集则包括物理和对称的关节连接。

本发明实施例中，二维手姿态数据(每一帧)被送入手势状态提取器，得到帧级别的语义表征向量，也即手势状态嵌入向量f_p。

示例性的，手势状态提取器可以通过多个图卷积层与图池化层实现，训练时输入至系统的二维手姿态序列逐帧输入至图卷积层，再通过图池化层将邻居节点进行融合，生成帧级别的语义表征。

2)时序嵌入向量f_o。

时序信息在视觉级别的手语识别中至关重要。因为自注意力并没有考虑到序列信息，因此，通过使用位置编码策略增加时间序列信息。具体地，对于同一个手，对于不同时刻加入不同的时序嵌入；同时，因为双手在打手语时同步地传达语义，无论手性，对于同一时刻增加了同样的时序嵌入。

3)手性嵌入向量f_h。

考虑到手语的语义是通过双手，因此，引入了两个特殊的标记去表示每帧的手性，也就是“L”和“R”分别代表左手和右手。具体地，它采用与手势状态和时序嵌入相同维度的WordPiece嵌入来实现，对于同一个手的所有帧数据都设置相同的手性嵌入向量f_h，手性嵌入向量f_h用来标记帧数据中手为左手或右手。

最终，手姿态嵌入向量表示为：

其中，T为二维手姿态序列的总帧数。

2、编码器。

本发明实施例中，所述编码器为包含自注意力和前向传播网络的Transformer编码器，该编码器对输入的手姿态嵌入向量F₀进行编码，编码结果F_N保持与F₀一致的尺寸，编码过程表示为：

其中，i＝1,...,N，N为编码器的总层数，F_i表示第i层的表征向量，

表示第i层的中间层得到的特征向量；L(·)，M(·)和C(·)分别表示层正则化、多头自注意力和前向传播网络。

3、手模型感知解码器。

在本发明提供的自监督预训练范式中，整个系统框架需要重建被遮罩的输入序列，在这其中，手模型感知编码器起到将特征转换为姿态序列的作用，其工作过程主要包括：

首先，通过隐语义向量提取模块从编码器输出的编码特征中提取描述手状态和相机的隐语义向量，表示为：

F_la＝{θ,β,c_r,c_o,c_s}

其中，θ和β表示手姿态和形状语义变量，二者属于描述手状态的隐语义向量；

和

是弱透视成像相机的参数，属于相机的隐语义向量，分别指示旋转、平移和缩放。

示例性的，隐语义向量提取模块可以通过全连接层D(·)实现，则F_la＝{θ,β，c_r，c_o，c_s}＝D(F_N)。

然后，通过手模型解码隐语义向量到手表征，所述手模型采用MANO模型，MANO是一个全可微的手模型，它能够提供从低维度姿态θ和形状β空间到三角形网格

(N_v＝778个顶点和N_f＝1538个面)的映射。为了生成合理的手网格，姿态和形状被限制在从大量手扫描数据中学习到的PCA空间中。解码过程表示为：

M(β，θ)＝W(T(β，θ)，J(β)，θ，Q)

其中，M(β，θ)表示根据形状参数β与姿态参数θ得到的高维手表征，Q是一系列的混合权重，B_S(·)和B_P(·)分别对应于形状和姿态混合函数；

为手模板(可根据姿态和形状的混合权重进行变形)；T(β,θ)表示修正后的手模版，J(β)表示MANO手模型输出的16个三维关节点，W(·)为骨骼蒙皮算法，可以通过使用骨骼蒙皮算法W(·)旋转各关节点附近的部位得到输出的手网格。此外，为了与通用的手关节点标注一致，从MANO输出的网格中提取5个指尖点与MANO模型输出的16个三维关节点组成21个三维关节点；也就是说，基于M(β,θ)能够提取出16个三维手关节点与5个三维指尖点，记为

最后，将21个三维关节点映射回二维空间，从而重建出二维手姿态数据，表示为：

其中，∏(·)指代垂直投影，

表示三维关节点，

表示通过相机映射得到的二维关节点。

4、预测模块。

由于关键判别线索只包含在某些帧中，可利用时间注意力机制对二维手姿态序列进行加权，将加权后的二维手姿态序列特征融合进行最终的分类识别。

二、自监督预训练阶段。

本发明实施例中，系统框架在自监督的范式工作，以抓取多层级的语义上下文。与原有BERT预训练在离散词空间不同，本发明在连续的手姿态空间上进行预训练。实质上，分类问题转换成了回归问题，这也对手部姿态序列的重建提出了挑战。为了解决这一问题，本发明将手部姿态视为视觉上的“词”(连续标记)，并联合利用手模型感知解码器作为约束，并引入手型先验。

1、自监督预训练阶段的主要过程。

对于给定的包含双手的二维手姿态序列随机选取设定比例(例如，50％)的帧数据进行标记；与BERT相似，对标记的帧数据以均等概率随机进行包含遮罩的预处理操作；之后，对于所有二维手姿态数据均通过手姿态嵌入向量生成模块生成相应的手姿态嵌入向量，并通过编码器编码后由手模型感知解码器重建出相应的二维手姿态数据，最终，利用标记的帧数据对应的二维手姿态重建结果构建损失函数。

本领域技术人员可以理解，网络需要根据所有的输入(无论是否标记)捕捉上下文信息，从而有助于去恢复需要被重建的姿态(即参与损失计算的标记数据)。

2、对于二维手姿态序列的三种操作策略。

本发明实施例中，对标记的帧数据以均等概率随机进行的预处理操作主要包括三类操作：

1)遮罩关节点建模操作。

因为现有姿态提取器也许会包含在某些关节点上的误检测，本发明采用了遮罩关节点建模去模拟通常的错误样例。对于一个选定的标记，随机选择m个关节点，范围从1到M。对于这些选定的关节点，以相同的概率随机执行其中一种操作，零掩膜(用全0遮罩原有关节点的坐标)操作或随机空间干扰操作。这种建模试图使得系统框架具有从剩余关节点中推断手势状态的能力。

2)遮罩帧建模操作，

遮罩帧建模是在一个更全面的视角上进行的。对于一个选定的标记，所有的关节点都被零掩膜。以这种方式，迫使整个系统框架通过从另一只手或者其余姿态标记的观察中来重建这个被遮罩的标记。以这种方式，可以捕获每只手的时间上下文和双手之间的相互信息。

3)恒等建模操作。

恒等建模操作将不变的标记输入系统框架中，不变的标记指代对标记数据不做任何操作即通入网络中；该操作对于框架学习到恒等映射必不可少。

3、自监督预训练的目标函数。

本发明实施例提出的上述三种操作策略可以使得系统最大化重建手姿态序列的联合概率分布，以这种方式，蕴含在序列中的上下文信息被捕捉。

本发明实施例中，使用被标记的二维手姿态数据的相关数据参与自监督预训练阶段中损失函数的计算；所述损失函数包含了重建损失以及正则损失。

1)重建损失。

以标记的二维手姿态数据的手姿态检测的结果J_2D作为伪标签，忽略了预测置信度低于设定值∈的关节点，并采用预测置信度加权余下的关节点参与损失计算，表示为：

其中，

表示指示函数，c(t,j)指代伪标签J_2D中第j个关节点在第t帧中的置信度，

表示重建出的二维手姿态数据中的二维关节点。

2)正则损失。

为了保证手模型感知解码器中手模型正常工作，本发明增加了一个正则化损失项。它是通过约束MANO输入的幅值和导数来实现的。这对MANO生成合理的网格和保持手语者身份信息不变是很重要的。

正则损失表示为：

其中，θ_t与β_t分别表示在第t帧中的手姿态和形状语义变量，ω_β和ω_δ表示权重因子。

最终，损失函数表示为：

其中，λ指代权重因子。

上述自监督预训练能够优化编码器，使得预训练后的编码器能够得到更鲁棒的特征用于下游任务。

三、下游任务微调阶段。

经过前期预训练的框架，可以通过相对简单的微调用于下游手语识别任务。在下游任务微调阶段，将手模型感知解码器替换为预测模块，框架输入为未遮罩的二维手姿态序列，框架进行编码器参数与预测模块参数的微调使得系统能够用于手语识别任务。下游任务微调阶段使用交叉熵监督预测模块的输出。

考虑到只有手姿态序列不足以表达手语的全部含义，有必要将下游任务中的分类识别结果(识别的是“手语词”)与全帧的识别结果进行融合；所述全帧用RGB数据或是全身关键点来表示。本发明实施例中，采用了简单的后融合策略，直接将它们的预测概率分布相加后选取概率最大的作为最终的识别结果。

本领域技术人员可以理解，相较而言，本申请中的二维手姿态序列所包含的信息是从全帧中裁剪出的包含手部区域的相关信息。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。