CN113657127B

CN113657127B - 手语生成方法和系统

Info

Publication number: CN113657127B
Application number: CN202110935678.9A
Authority: CN
Inventors: 赵洲; 程诗卓; 沈子栋; 黄文璨; 潘文雯
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-08-16
Filing date: 2021-08-16
Publication date: 2023-08-18
Anticipated expiration: 2041-08-16
Also published as: CN113657127A

Abstract

本发明公开了一种手语生成方法和系统，属于手语生成领域。获取手语注解序列与目标手势姿态序列；将手续注解序列通过一个非自回归模型生成预测的手势姿态序列；在非自回归模型中，手语注解序列经过嵌入及位置编码后，由第一Transformer网络转换为注解同步特征序列，由持续时间预测器预测与每个注解对齐的手势姿态序列的对数持续时间，通过长度调节器将注解同步特征序列扩展到姿态同步特征序列，然后依次由另一个Transformer网络和时空图卷积姿态生成器变换为手势姿态序列；根据预测得到的手势姿态序列合成手语视频；在对非自回归模型进行训练时，引入一个外部对齐器以获得每个注解的目标对数持续时间。

Description

手语生成方法和系统

技术领域

本发明涉及手语生成技术领域，具体涉及一种手语生成方法和系统。

背景技术

手语是一种丰富的视觉语言，具有复杂的语法结构，是听障人士社群的交流语言。为了让听障人士参与到更广泛的世界的主要语言中，已经采用了大量的方法来实现手语生成(SLP)。

通过给定一个口语描述，SLP的目标是将其自动翻译为相应的连续手势序列。一般来说，手势序列可以用手势骨架姿势序列或手语视频来表示。如图1所示，通常首先将口语转化为注解序列，然后从注解序列(G2P)生成手势姿态序列，最后可以使用手势姿态序列生成符号语言视频。

现有的G2P方法是基于序列自回归或序列到序列的编码器-解码器学习，它根据注解序列以及当前生成的姿态帧生成下一个姿态帧。然而，这些自回归方法很可能面临以下两个挑战：

1)误差积累：当前帧的预测精度很大程度上依赖于之前的帧，导致周期性的预测误差随时间传播。

2)高推理延迟：处理时间随手势姿态序列的长度近似线性增加。

发明内容

为了解决上述中的技术问题，本发明提供了一种手语生成方法和系统。

本发明采用如下技术方案：

一个目的在于提供一种手语生成方法，包括：

获取手语注解序列与目标手势姿态序列作为训练样本；将手续注解序列通过一个非自回归模型生成预测的手势姿态序列，计算生成损失；

所述的非自回归模型包括第一Transformer网络、持续时间预测器、长度调节器、第二Transformer网络和时空图卷积姿态产生器；手语注解序列经过嵌入及位置编码后，首先由第一Transformer网络转换为注解同步特征序列；接下来，由持续时间预测器预测与每个注解对齐的手势姿态序列的对数持续时间；根据预测的持续时间，通过长度调节器将注解同步特征序列扩展到姿态同步特征序列，然后依次由另一个Transformer 网络和时空图卷积姿态生成器变换为手势姿态序列；根据预测得到的手势姿态序列合成手语视频；

在对非自回归模型进行训练时，引入一个外部对齐器以获得每个注解的目标对数持续时间，计算持续时间损失。

进一步的，所述的第一Transformer网络和第二Transformer网络的结构相同，参数不共享；每一个Transformer网络由若干FFT块叠加构成，每一个FFT块包括一个自注意层、一个前馈层，且每一层之后设有残差连接和层规范化。

进一步的，所述的外部对齐器包括一个混合密度网络和单调排列搜索器；

手语注解序列经过嵌入及位置编码后，首先应用一个混合密度网络来将其转换为注解同步手势姿态高斯分布序列其中z_i＝(μ_i,σ_i)是对应于第i个注解的手势姿态帧的高斯分布平均值和方差；

然后通过单调排列搜索器预测最优单调对齐：将目标手势姿态序列和注解同步手势姿态高斯分布序列作为单调排列搜索器的输入，如果目标手势姿态帧y_j遵循第i个注解的预测分布那么就定义A(j)＝i；采用单调对齐搜索法得到注解同步手势姿态高斯分布序列和目标手势姿态序列之间最可能的单调对齐，从而最大限度地提高数据的对数似然：

其中，是数据集，/>是手语注解序列集合，/>是目标手势姿态序列集合，θ是混合密度函数的参数，/>表示(X,Y)样本对来自于/>数据集的概率，X是手语注解序列，Y是手势姿态序列，/>表示在单调对齐A下的目标手势姿态帧y_j遵循第i个注解的预测分布，A表示单调对齐函数；y_j表示第j个手势姿态帧，μ_A(j),σ_A(j)表示与第j个手势姿态帧对齐的高斯分布平均值和方差，N_Y表示手势姿态序列的长度，A^*表示预测得到的最优单调对齐。

进一步的，所述的混合密度网络包含N个FFT块，最后一个FFT块的输出经线性层投射到注解同步手势姿态高斯分布的均值序列和方差序列中。

进一步的，通过对齐损失函数优化混合密度网络：

其中，表示对齐损失，/>在单调对齐A^*下的目标手势姿态帧y_j遵循第i个注解的预测分布。

进一步的，根据训练好的外部对齐器生成真实的目标对数持续时间。

进一步的，所述的时空图卷积姿态生成器包含五个卷积块：第一卷积块通过激活层、批量正则化层、以及1维卷积层，对第二Transformer网络输出的序列进行初始化；第二到第四卷积块重复进行激活层、批量正则化层、时空图卷积层、以及图上采样层；第五个卷积块通过时空图卷积层输出预测的手势姿态序列。

进一步的，在所述的姿态同步特征序列中加入位置编码并经第二Transformer网络执行二次特征提取后，将其作为第一卷积块的输入；将第一卷积块输出的初始化结果经三个卷积块逐步上采样；所述的上采样方式由手势姿态图金字塔实现；

所述的手势姿态图金字塔实现过程为：首先，将图中关节初始化为空心标记和实心标记的间隔排列，通过删除空心标记的关节，而将实心标记的关节保留来执行图下采样；重复此操作，直到只剩下两个关节，结果得到一个图金字塔；在执行所述的上采样过程时，采用所述下采样的逆操作，根据图金字塔将关节数少的粗略图嵌入到关节数多的精细图中，然后通过相邻关节的平均值给新关节赋值。

第二个目的在于提供一种手语生成系统，用于实现上述的手语生成方法。

与现有技术相比，(1)本发明采用了一种时空图卷积姿态生成器(STGCPG)，可以使生成的手势姿态序列更接近真实值；(2)传统的自回归模型中存在高推理延迟和误差积累问题，而本发明提出的具有外对齐器的非自回归模型(NAT-EA)通过单调对齐搜索从外部对齐器中提取对齐来进行持续时间预测，利用长度调节器来扩展源序列，以匹配目标手势姿态序列的长度，可以有效规避这些问题；(3)本发明并行生成手势姿态序列，加快了翻译速度，且在PHOENIX14T数据集上进行的大量实验表明，本发明的模型在速度和质量方面显著优于现有模型。

附图说明

图1为典型的手语生成的流程示意图。

图2为本发明方法的整体框架设计图。

图3为本发明中的FFT块网络结构示意图。

图4为本发明中的持续时间预测器网络结构示意图。

图5为PHOENIX14T数据集的图形金字塔。

图6为PT(base)和NAT-EA的误差积累验证结果。

图7为NAT-EA和PT(FP&GN)的推理时间与生成的手势姿态序列长度之间的关系。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。

如图1所示，本发明提出的手语生成方法，主要包括以下几部分内容：

给定一个注解序列X，如图1所示，典型SLP流水线的G2P过程旨在生成语义对应的手势姿态序列：

其中，y_Ny表示第Ny个手势姿态帧，每个手势姿态帧代表单个骨架，包含J个关节数据，/>是第n帧第j个关节的关节表达，K是表达人体关节数据的特征维度。

总体架构设计：

本发明提出一种具有外部对齐器的非自回归手语生成模型，简称NAT-EA模型，如图2所示，主要由两个部分组成：非自回归模型NAT和外部对齐器EA。外部对齐器EA的设计是用来生成各注解的对齐长度，将其用作训练阶段持续时间预测器的目标长度，并开发了时空图卷积姿态生成器来生成手势姿态序列。

(一)非自回归模型NAT

所述的非自回归模型NAT包括了第一Transformer网络、持续时间预测器、长度调节器、第二Transformer网络和时空图卷积姿态产生器。

在推理阶段，手语注解序列经过嵌入及位置编码后，首先由第一Transformer网络转换为注解同步特征序列。接下来，由持续时间预测器预测与每个注解对齐的手势姿态序列的对数持续时间其中Nx是输入的手语注解序列的长度，/>是与第i个注解对齐的手势姿态序列的对数持续时间。根据预测的持续时间，通过长度调节器将注解同步特征序列扩展到姿态同步特征序列，然后依次由另一个Transformer网络和时空图卷积姿态生成器变换为手势姿态序列。在训练阶段，持续时间预测器针对由一个训练好的外部对齐器EA生成的目标长度进行优化。

本实施例中，如图4所示，所述的持续时间预测器由一个2层的一维ReLU激活的卷积层和一个线性层组成，每一个卷积层后都接着一个正则化层和dropout层；线性层用于将卷积层的隐藏状态投影到输出序列。

在训练过程中，我们将手语注解序列输入到训练好的外部对齐器EA以获得每个注解的目标对数持续时间其中/>Ny是目标手势姿态序列的长度。

根据训练阶段的目标对数持续时间l^trg或根据推理阶段的预测对数持续时间l^pred，将注解同步特征序列拓展到姿态同步特征序列，这个拓展通过长度调节器进行，通过以下例子进行说明：给定一个特征序列H_gloss＝[h₁,h₂,h₃,h₄]和对应的持续时间序列 e^l＝[1,2,3,2]，拓展后的特征序列变为H_pose＝[h₁,h₂,h₂,h₃,h₃,h₃,h₄,h₄]。

当获得了目标对数持续时间l^trg或根据推理阶段的预测对数持续时间l^pred后，持续时间损失可以通过均方误差得出：

其中，为持续时间损失，MSE(.)为均方误差。

经拓展后，由第二Transformer网络、时空图卷积位姿态生成器相继将姿态同步特征序列转换为预测的手势姿态序列。生成损失函数定义为生成的手势姿态序列与目标手势姿态序列之间的均方误差：

其中，为生成损失，MSE(.)为均方误差，Y_gen为生成的手势姿态序列，Y为目标手势姿态序列。

在本发明的一项具体实施中，两个Transformer网络的结构相同，均由N个FFT 块构成。如图3所示，每一个FFT块包括一个自注意层、一个前馈层，且每一层之后设有残差连接和层规范化(加、正则化层)。

(二)外部对齐器EA

接下来对我们介绍外部对齐器，一个独立于NAT模型之外的模型，它为持续时间预测器生成目标持续时间(为了方便，采用目标持续时间的对数形式进行表示，记为目标对数持续时间l^trg)。

为了获得目标持续时间，EA需要学习手语注解序列与相应的手势姿态序列之间的对齐。由于误差积累问题，很难从训练良好的自回归模型中提取令人满意的对齐。因此，手语注解序列经过嵌入及位置编码后，首先应用一个混合密度网络来将其转换为注解同步手势姿态高斯分布序列其中z_i＝(μ_i,σ_i)是对应于第i个注解的手势姿态帧的高斯分布平均值和方差。

具体地说，混合密度网络包含N个FFT块，然后由线性层将隐藏状态分别投射到注解同步手势姿态高斯分布的均值序列和方差序列中，FFT块不与NAT模型中的FFT 块共享，这使得EA更加灵活。

我们将手势姿态帧与手势姿态高斯分布之间的对应关系定义为一种对齐方式，因此，将目标手势姿态序列作为EA的一个输入，如果目标手势姿态帧y_j遵循第i个注解的预测分布那么就定义A(j)＝i。采用现有的单调对齐搜索法得到注解同步手势姿态高斯分布序列和目标手势姿态序列之间最可能的单调对齐，从而最大限度地提高数据的对数似然：

其中，是数据集，/>是其中的手语注解序列，/>是其中的手势姿态序列，θ是混合密度函数的参数，/>表示(X,Y)来自于/>数据集的概率，X是手语注解序列，Y是姿态序列，/>表示在单调对齐A下的目标手势姿态帧y_j遵循第i个注解的预测分布，A表示单调对齐函数；y_j表示第j个手势姿态帧，μ_A(j),σ_A(j)表示与第j个手势姿态帧对齐的高斯分布平均值和方差，N_Y表示手势姿态序列的长度，A^*表示预测得到的最优单调对齐。

通过对齐损失函数优化混合密度网络：

在训练之后，注解序列的目标对数持续时间可以通过预测得到的最优单调对齐A^*来计算得到：

其中，是第i个注解的目标对数持续时间，/>表示对齐到第i个注解的第j个手势姿态帧的持续时间，N_X是输入的手语注解序列的长度。

(三)时空图卷积姿态生成器

时空图卷积姿态生成器(STGCPG)用于将姿态同步特征序列转换为手势姿态序列。。

表1 STGCPG的体系结构

输入姿态同步特征序列，其时空图尺寸表示为(T、V、C)，其中T为时间维度， V为关节维度，C是特征维度。STGCPG主要包含五个卷积块：

第一卷积块通过LeakyReLU(LR激活层)，批量正则化层(BN)，以及1维卷积层(Conv1d)，将时空图尺寸从(T,1,256)转换为(T,1,512)，该操作为上采样的初始化；

第二到第四卷积块重复进行LR激活层、批量正则化层、时空图卷积层(Convst)、以及图上采样层(Ups)，逐步提高关节维度的大小。

第五个卷积块最后通过时空图卷积层(Convst)得到尺寸为(T,50,3)的输出。

为了生成更平滑、更自然的手势姿态序列，我们引入了两个图操作：图上采样和时空图卷积，如下所示。

给定一个姿态同步特征序列其中C是特征维数，它没有空间范围。在姿态同步特征序列H_pose中加入位置编码和二次特征提取(二次特征提取由第二Transformer网络执行)，最终目标是利用时空图卷积姿态生成器将它转换为相应的手势姿态序列/>它可以表示为一个时空图，即一个手势姿态图的时间序列，其中一个手势姿态图在图5中表示为G₀，逐步上采样，逐层提高分辨率并添加细节。然而，由于手势姿态图不是规则的网格，所以执行逐步上采样的路径是不唯一的，因此，本发明利用一个手势姿态图金字塔来解决这个问题。图金字塔是由一个具有J个关节的完整分辨率的手势姿态图构造而成的，在PHOENIX14T数据集的手势姿态图上构建的图金字塔的示例如图5所示。

上采样的算子可以通过如下方法得到：如图5所示，首先，关节初始化为空心标记和实心标记的间隔排列，通过删除空心标记的关节，而将实心标记的关节保留来执行图下采样。我们重复此操作，直到只剩下两个关节，结果是一个图金字塔，其中图第i级G_i是下采样第i次迭代的输出。由此，图上采样Up_s可以通过下采样的逆操作得到，首先根据图金字塔将关节数较少的粗略图嵌入到关节数较多的精细图中，然后通过相邻关节的平均值给新关节分配值。

时空图卷积将空间图卷积和时间卷积相结合，有效地对时空信息进行建模。在这项工作中，我们采用这种体系结构进行手势姿态序列的生成。

(四)训练过程

基于上述设计，首先通过优化对齐损失来训练EA。然后使用训练好的EA来生成目标对数持续时间并以端到端方式训练NAT模型，由以下多任务损失给出：

其中，为NAT模型损失，/>为生成损失，/>为持续时间损失，λ为控制损失平衡的超参数。

与前述的一种手语生成方法的实施例相对应，本申请还提供了一种手语生成系统的实施例，其包括：

数据获取模块，其用于获取手语注解序列与目标手势姿态序列作为训练样本。

非自回归模型模块，其包括第一Transformer网络、持续时间预测器、长度调节器、第二Transformer网络和时空图卷积姿态产生器；手语注解序列经过嵌入及位置编码后，首先由第一Transformer网络转换为注解同步特征序列；接下来，由持续时间预测器预测与每个注解对齐的手势姿态序列的对数持续时间，；根据预测的持续时间，通过长度调节器将注解同步特征序列扩展到姿态同步特征序列，然后依次由另一个Transformer 网络和时空图卷积姿态生成器变换为手势姿态序列；根据预测得到的手势姿态序列合成手语视频。

外部对齐器，其用于获得每个注解的目标对数持续时间。

训练模块，其用于计算生成损失及持续时间损失，对非自回归模型模块中的第一Transformer网络、持续时间预测器、长度调节器、第二Transformer网络和时空图卷积姿态产生器进行训练。

对于系统实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为非自回归模型模块，可以是或者也可以不是物理上分开的。另外，在本发明中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述集成的模块或单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现，以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。

实施例

本发明在一个典型的公共SLP数据集——RWTH-PHOENIXWeather2014T上进行实验，这是一个德语手语数据集，它包含来自9个手语者的8257个天气预报样本。它有两个阶段的表示：1066个不同手势的手势注解用于注解到手势生成，与2877个不同单词的德语翻译注解用于文本到注解翻译。此外，它已被正式分为7096、519和642 个样本，分别进行训练、验证和测试。

评价标准：

我们应用反向翻译作为一种评估的手段。使用最先进的SLT作为我们的后翻译模型，修改为以手势姿态序列作为输入，它是在PHOENIX14T数据集上进行训练的。我们生成了产生手势姿态序列的口语翻译和注解识别结果，并分别计算了BLEU、rouge 和chrF分数和Word错误率(WER)。为了完整性，我们提供了从1到4的BLEU n-grams。

此外，我们提出了根据预测关节与真实值之间的平均欧几里得距离(平均关节误差)报告结果，平均误差是一个广泛接受的人类运动预测的度量。由于生成的手势姿态序列通常在长度上不同于真实值，我们在计算平均关节误差之前应用动态时间规整 (DTW)来对齐它们，我们称这个标准为DTW-MJE。

接下来，我们将介绍NAT-EA模型和反向翻译模型的实现细节。

(1)数据预处理：由于PHOENIX14T数据集本身不包含任何姿态信息，因此需要生成真实值手势姿态序列。遵循已有报道，首先使用OpenPose从每个视频中提取二维关节位置，然后应用骨骼模型估计将二维关节位置提升到三维，同时保持一致的骨骼长度和纠正错位的关节。最后，应用骨架标准化来消除不同手语者之间的骨架大小差异，并将三维关节表示为x,y和z坐标。

(2)模型设置：NAT模型中的FFT块有2层，8个头，嵌入尺寸为256。混合密度网络中的FFT块共4层，8个头，嵌入尺寸为256层。Conv的时空核的大小st 分别设置为9和3。在NAT模型的训练过程中，为了简单起见，将λ设置为1.0。使用了Adam优化器优化参数，初始学习率为0.001，批处理大小为32。

将本发明的方法NAT-EA与其他一些模型进行了比较，包括了自回归最先进的方法PT(base)和PT(FP&GN)。此外还进行了消融研究，以验证本发明模型设计的有效性，包括外部对齐器(EA)和时空图卷积姿态生成器(STGCPG)。

EA的有效性：我们移除了EA，然后利用了训练好的自回归模型PT(FP&GN)来从编码器-解码器注意力中获得对齐，如FastSpeech一样，这个方法称为使用自回归模型的NAT模型(NAT-AT)

STGCPG的有效性：我们移除了NAT模型中的STGCPG，并应用了一个线性映射层来生成手势姿态序列，这个方法被称作w/o.STGCPG。

结果如表2所示：

表2 PHOENIX14T测试集上不同模型的实验结果

自回归方法的DTW-MJE分数远大于平均姿态，这在一定程度上验证了误差积累问题的负面影响。在WER和DTW-MJE评分中，PT(FP&GN)仅稍稍超过PT(base)。这一事实证明，在没有非自回归框架的情况下，仅仅通过数据增强方法不能有效地解决误差积累问题。而本发明的NAT-EA方法在几乎所有标准上都取得了最好的性能，特别是在WER和DTW-MJE评分上，并且较自回归方法PT(base)和PT(FP&GN)，具有显著的优势。这一事实验证了我们的NAT-EA方法的有效性。

此外，本发明完整的模型比w/o.STGCPG模型取得了更好的结果。这表明， STGCPG模块可以使生成的手势姿态序列更接近真实值，并提高反翻译性能。NAT-AT 模型比NAT-EA模型有严重的性能下降，这一事实表明，我们提出的外部对齐器可以比自回归模型提供更好的对齐效果，因为自回归模型存在严重的误差积累问题。

关于误差积累问题，本实施例进一步做了实验，验证SLP中的这一事实。

我们在PHOENIX14T测试集上分析了由训练好的自回归模型PT(base)和训练好的非自回归模型NAT-EA生成的所有手势姿态序列。首先应用DTW来对齐生成的手势姿态序列和真实值，然后记录在原始生成手势姿态序列的不同帧中对齐手势姿态序列与真实值之间的平均单帧MJE，结果如图6。我们注意到，自回归模型的MJE 约线性增加，而我们提出的NAT-EA的MJE在帧数小于50的时候不会增加。在后半段，由于数据缺乏，两种模型的MJEs开始波动。这一事实证实了SLP的自回归模型存在误差积累，我们提出的NAT-EA模型有效地解决了这个问题。

我们比较了NAT-EA与自回归SLP模型的平均推理延迟。然后，我们分析了加速与预测序列长度之间的关系。

平均延迟时间比较：平均延迟是生成一个手势所需的平均时间，以秒为单位进行测量。在PHOENIX14T数据集的测试集上的姿态序列，我们记录了PT(FP&GN) 和NAT-EA的推理延迟，结果表明，与PT(FP&GN)相比，NAT-EA平均提高了21.8 倍。

速度和长度之间的关系：我们可视化了图7中的推断延迟与生成的手势姿态序列的长度之间的关系。可以看出，推理延迟与PT(FP&GN)生成的手势姿态序列长度近似线性增加，而NAT-EA几乎保持一个小常数。然后，我们将测试手势姿态序列的长度装在[175,200]范围内，并计算其PT(FP&GN)和NAT-EA的平均推理延迟，以获得 PHOENIX14T测试集上最大的加速比。PT(FP&GN)和NAT-EA的结果分别为1.071s 和0.0206s，表明在PHOENIX14T测试集，NAT-EA加速比达到了40.97×。

在本实施例中，我们验证了典型自回归模型中存在高推理延迟和误差积累问题，而本发明提出的新的具有外对齐器(NAT-EA)的非自回归模型可以有效规避这些问题，且在PHOENIX14T数据集上进行的大量实验表明，我们提出的模型在速度和质量方面显著优于现有模型。

以上列举的仅是本发明的具体实施例。显然，本发明不限于以上实施例，还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形，均应认为是本发明的保护范围。

Claims

1.一种手语生成方法，其特征在于，包括：

所述的非自回归模型包括第一Transformer网络、持续时间预测器、长度调节器、第二Transformer网络和时空图卷积姿态产生器；手语注解序列经过嵌入及位置编码后，首先由第一Transformer网络转换为注解同步特征序列；接下来，由持续时间预测器预测与每个注解对齐的手势姿态序列的对数持续时间；根据预测的持续时间，通过长度调节器将注解同步特征序列扩展到姿态同步特征序列，然后依次由另一个Transformer网络和时空图卷积姿态生成器变换为手势姿态序列；根据预测得到的手势姿态序列合成手语视频；

在对非自回归模型进行训练时，引入一个外部对齐器以获得每个注解的目标对数持续时间，计算持续时间损失；

所述的外部对齐器包括一个混合密度网络和单调排列搜索器；

然后通过单调排列搜索器预测最优单调对齐：将目标手势姿态序列和注解同步手势姿态高斯分布序列作为单调排列搜索器的输入，如果目标手势姿态帧y_j遵循第i个注解的预测分布那么就定义A(j＝i；采用单调对齐搜索法得到注解同步手势姿态高斯分布序列和目标手势姿态序列之间最可能的单调对齐，从而最大限度地提高数据的对数似然：

2.根据权利要求1所述的手语生成方法，其特征在于，所述的第一Transformer网络和第二Transformer网络的结构相同，参数不共享；每一个Transformer网络由若干FFT块叠加构成，每一个FFT块包括一个自注意层、一个前馈层，且每一层之后设有残差连接和层规范化。

3.根据权利要求1所述的手语生成方法，其特征在于，所述的混合密度网络包含N个FFT块，最后一个FFT块的输出经线性层投射到注解同步手势姿态高斯分布的均值序列和方差序列中。

4.根据权利要求1所述的手语生成方法，其特征在于，通过对齐损失函数优化混合密度网络：

5.根据权利要求4所述的手语生成方法，其特征在于，根据训练好的外部对齐器生成真实的目标对数持续时间：

i＝1，...，N_X

6.根据权利要求1所述的手语生成方法，其特征在于，所述的生成损失为：

其中，为生成损失，MSE(.)为均方误差，Y_gen为生成的手势姿态序列，Y为目标手势姿态序列；

所述的持续时间损失为：

其中，为持续时间损失，MSE(.)为均方误差，l^pred是预测得到的对数持续时间，l^trg是真实的目标对数持续时间；

将生成损失与持续时间损失的加权结果作为非自回归模型的总损失。

7.根据权利要求1所述的手语生成方法，其特征在于，所述的时空图卷积姿态生成器包含五个卷积块：第一卷积块通过激活层、批量正则化层、以及1维卷积层，对第二Transformer网络输出的序列进行初始化；第二到第四卷积块重复进行激活层、批量正则化层、时空图卷积层、以及图上采样层；第五个卷积块通过时空图卷积层输出预测的手势姿态序列。

8.根据权利要求7所述的手语生成方法，其特征在于，在所述的姿态同步特征序列中加入位置编码并经第二Transformer网络执行二次特征提取后，将其作为第一卷积块的输入；将第一卷积块输出的初始化结果经三个卷积块逐步上采样；所述的上采样方式由手势姿态图金字塔实现；

9.一种手语生成系统，其特征在于，用于实现权利要求1所述的手语生成方法。