CN110728203A

CN110728203A - 基于深度学习的手语翻译视频生成方法及系统

Info

Publication number: CN110728203A
Application number: CN201910900738.6A
Authority: CN
Inventors: 徐枫; 薄子豪; 娄昕; 杨东; 兰怡娜; 雍俊海; 戴琼海
Original assignee: Tsinghua University; Chinese PLA General Hospital
Current assignee: Tsinghua University; Chinese PLA General Hospital
Priority date: 2019-09-23
Filing date: 2019-09-23
Publication date: 2020-01-24
Anticipated expiration: 2039-09-23
Also published as: CN110728203B

Abstract

本发明公开了一种基于深度学习的手语翻译视频生成方法及系统，其中，该方法包括：通过数据集的手语视频循环训练变分自编码器模型和环状生成对抗网络模型，直至达到预设维度，输出图像低维特征序列；通过数据集的语言文本序列训练语言翻译模型，输出与图像低维特征序列对应的文本低维特征序列，以构建语言文本序列与手语视频的映射关系；基于映射关系，将待测语言文本序列输入语言翻译模型，映射出待测语言文本序列对应的图像低维特征序列，视频模型解码图像低维特征序列，生成对应的手语视频。本发明实施例的方法通过构建压缩隐空间来对图像进行降维处理，解决视频生成问题对计算机存储与计算能力的极高要求，可以使用通用语言模型进行翻译训练。

Description

基于深度学习的手语翻译视频生成方法及系统

技术领域

本发明涉及计算机视觉、自然语言处理技术领域，特别涉及一种基于深度学习的手语翻译视频生成方法及系统。

背景技术

残障人士，特别是听力障碍人士在现在的社会中占有不小的比例，如何保障残障人士的社会生活，方便聋哑人同普通人之间的沟通成为一个重要的问题。社会保障健全的国家和地区都十分重视残疾人的教育及就业，但同聋哑人的沟通却需要对所有人进行相关的手语教育，耗资过于庞大。因此，如果能使用计算机自动完成手语和自然语言的翻译转化，将极大方便与改善聋哑人的日常生活。

随着计算机科学技术、人工智能与深度学习的不断发展，建立一种基于深度学习的手语翻译与视频生成系统已成为可能。但受到现阶段计算资源与能力的限制，精细的视频生成仍是一项挑战。并且，手语视频生成需要融合有关翻译的语言模型与有关视频图像的生成模型，还未有相关工作能够实现这一挑战。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于深度学习的手语翻译视频生成方法，该方法通过构建压缩隐空间来对图像进行降维处理，解决视频生成问题对计算机存储与计算能力的极高要求。

本发明的另一个目的在于提出一种基于深度学习的手语翻译视频生成系统。

为达到上述目的，本发明一方面提出了基于深度学习的手语翻译视频生成方法，包括以下步骤：步骤S1，构建数据集，其中，所述数据集包括语言文本序列和手语视频；步骤S2，通过所述手语视频训练视频模型的变分自编码器模型，生成多个图像低维空间特征；步骤S3，通过所述视觉模型的环状生成对抗网络模型修正所述多个图像低维空间特征；步骤S4，迭代执行步骤S2-S3，直至所述多个图像低维空间特征达到预设维度，输出图像低维特征序列；步骤S5，通过所述语言文本序列训练语言翻译模型，输出与所述图像低维特征序列对应的文本低维特征序列；步骤S6，通过所述图像低维特征序列和所述文本低维特征序列，构建所述语言文本序列与所述手语视频的映射关系；步骤S7，获取待测语言文本序列；步骤S8，将所述待测语言文本序列输入所述语言翻译模型中，根据所述映射关系生成所述待测语言文本序列对应的图像低维特征序列；步骤S9，通过所述视觉模型解码所述图像低维特征序列，生成所述待测语言文本序列对应的手语视频。

本发明实施例的基于深度学习的手语翻译视频生成方法，通过构建压缩隐空间来对图像进行降维处理，变分自编码器(Variational Auto-Encoder,VAE)可以有效利用自监督数据，对手语图像进行降维；环状生成对抗网络(Cycle Generate AdversarialNetwork,CycleGAN)则利用变分自编码器VAE得到的数据，对抗学习精细化的编解码器，降维之后的图像数据便可以使用通用语言模型进行翻译训练。

另外，根据本发明上述实施例的基于深度学习的手语翻译视频生成方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述变分自编码器模型包括编码器和解码器，利用所述编码器对所述手语视频进行降维，生成所述多个图像低维空间特征，利用所述解码器将所述多个图像低维空间特征生成手语图像，与输入所述手语视频进行比对。

进一步地，在本发明的一个实施例中，所述环状生成对抗网络模型包括两个生成器和两个辨别器，利用所述两个生成器初始化所述变分自编码器模型的编码和解码器权重，以修正所述多个图像低维空间特征。

进一步地，在本发明的一个实施例中，所述步骤S8包括：将所述待测语言文本序列拆分成多个词向量；将所述多个词向量输入所述语言翻译模型中，输出所述文本低维特征序列；根据所述映射关系映射出与所述文本低维特征序列对应的图像低维特征序列。

为达到上述目的，本发明另一方面提出了一种基于深度学习的手语翻译视频生成系统，包括：构建模块，用于构建数据集，其中，所述数据集包括语言文本序列和手语视频；第一训练模块，用于通过所述手语视频训练视频模型的变分自编码器模型，生成多个图像低维空间特征；修正模块，用于通过所述视觉模型的环状生成对抗网络模型修正所述多个图像低维空间特征；迭代模块，用于迭代执行所述第一训练模块和所述修正模块，直至所述多个图像低维空间特征达到预设维度，输出图像低维特征序列；第二训练模块，用于通过所述语言文本序列训练语言翻译模型，输出与所述图像低维特征序列对应的文本低维特征序列；映射模块，用于通过所述图像低维特征序列和所述文本低维特征序列，构建所述语言文本序列与所述手语视频的映射关系；获取模块，用于获取待测语言文本序列；生成模块，用于将所述待测语言文本序列输入所述语言翻译模型中，根据所述映射关系生成所述待测语言文本序列对应的图像低维特征序列；解码模块，用于通过所述视觉模型解码所述图像低维特征序列，生成所述待测语言文本序列对应的手语视频。

本发明实施例的基于深度学习的手语翻译视频生成系统，通过构建压缩隐空间来对图像进行降维处理，变分自编码器可以有效利用自监督数据，对手语图像进行降维；环状生成对抗网络Cycle GAN则利用变分自编码器VAE得到的数据，对抗学习精细化的编解码器，降维之后的图像数据便可以使用通用语言模型进行翻译训练。

另外，根据本发明上述实施例的基于深度学习的手语翻译视频生成系统还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述变分自编码器模型包括编码器和解码器，利用所述编码器对所述手语视频进行降维，生成所述多个图像低维空间特征，利用所述解码器将所述多个图像低维空间特征生成手语图像。

进一步地，在本发明的一个实施例中，所述生成模块包括：拆分单元，用于将所述待测语言文本序列拆分成多个词向量；输出单元，用于将所述多个词向量输入所述语言翻译模型中，输出所述文本低维特征序列；映射单元，用于根据所述映射关系映射出与所述文本低维特征序列对应的图像低维特征序列。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的基于深度学习的手语翻译视频生成方法流程图；

图2为根据本发明实施例的视频模型和语言模型的训练流程图；

图3为根据本发明实施例的视觉模型中变分自编码器的执行流程图；

图4为根据本发明实施例的视觉模型中环状生成对抗网络的执行流程图；

图5为根据本发明实施例的语言模型的执行流程图；

图6为根据本发明实施例的测试流程图；

图7为根据本发明实施例的基于深度学习的手语翻译视频生成系统结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

本发明实施例为使听力障碍人士更加方便地同普通人进行交流，计算机自动进行手语翻译和手语视频生成是非常关键的工作。不同于通常意义上的翻译任务，手语翻译需要构建文本同图像序列之间的映射。而图像，特别是序列图像的特征空间十分庞大，构建其同文本序列之间的映射颇具挑战。基于此，本发明实施例融合了语言模型和视觉生成模型的手语生成方法，应用场景为输入自然语言文本序列，经过语言模型翻译后，输出相应的手语视频/图像序列，其中，视觉模型采用自监督方法，学习隐状态空间与图像空间的转换。

下面参照附图描述根据本发明实施例提出的基于深度学习的手语翻译视频生成方法及系统，首先将参照附图描述根据本发明实施例提出的基于深度学习的手语翻译视频生成方法。

图1是本发明一个实施例的基于深度学习的手语翻译视频生成方法流程图。

如图1所示，该基于深度学习的手语翻译视频生成方法包括以下步骤：

在步骤S1中，构建数据集，其中，数据集包括语言文本序列和手语视频。

需要说明的是，数据集包括训练集和测试集，在步骤S1中的语言文本序列和手语视频在训练集中获取，步骤S7中的待测语言文本序列在测试集中获取。

在步骤S2中，通过手语视频训练视频模型的变分自编码器模型，生成多个图像低维空间特征。

进一步地，在本发明的一个实施例中，如图2所示，变分自编码器模型包括编码器和解码器，利用编码器对手语视频进行降维，生成多个图像低维空间特征，利用解码器将多个图像低维空间特征生成手语图像，与输入手语视频进行比对。

具体而言，如图3所示，先将手语视频分解成多个手语图像，将多个手语图像分别输入变分自编码器模型中，经过变分自编码器模型的编码器使多个手语图像的编码压缩，得到经过压缩编码的多个图像低维特征，利用解码器将多个图像低维空间特征生成手语图像，进而比对降维后的图像与原手语图像误差大小，减小输出图像与原图像的误差，进行变分自编码器的训练。需要说明的是，变分自编码器生成图像的结果较为模糊，但仍然可以确定人物的整体姿态，手部位置等信息。

在步骤S3中，通过视觉模型的环状生成对抗网络模型修正多个图像低维空间特征。

也就是说，如图2所示，将变分自编码器模型得到的图像低维空间特征作为真实结果，训练一个环状生成对抗模型。

进一步地，如图4所示，环状生成对抗网络模型包括两个生成器和两个辨别器，利用两个生成器初始化变分自编码器模型的编码和解码器权重，以修正多个图像低维空间特征。

具体而言，本发明实施例通过环状生成对抗网络模型中的两个生成器和两个辨别器，来减少生成误差、对抗误差和环形重构误差，以训练出更加精细的生成器。同时，使用生成对抗网络得到的图像有着更丰富的细节，能够更好地建模图像和低维特征的双向映射。

可以理解的是，视频模型包括变分自编码器模型和环状生成对抗网络模型。

在步骤S4中，如图2所示，迭代执行步骤S2-S3，直至多个图像低维空间特征达到预设维度，输出图像低维特征序列。

也就是说，使用步骤S3得到的两个生成器分别初始化变分自编码器的编码和解码器权重，重复步骤S2和步骤S3，迭代进行训练，使用自监督训练方法逐步增强编解码器的性能。

在步骤S5中，通过语言文本序列训练语言翻译模型，输出与图像低维特征序列对应的文本低维特征序列。

具体而言，如图5所示，从训练集中获得语言文本序列，并将得到的语言文本序列转化为词向量，再将词向量输入至基于长短期记忆网络(Long Short-Term Memory，LSTM)的序列生成语言翻译模型中，优化语言翻译模型的参数，使得输出接近与图像低维特征序列对应的文本低维特征序列。

在步骤S6中，通过图像低维特征序列和文本低维特征序列，构建语言文本序列与手语视频的映射关系。

也就是说，构建成文本同图像序列之间的映射关系。

在步骤S7中，获取待测语言文本序列。

具体地，从测试集中获取待测语言文本序列。

在步骤S8中，将待测语言文本序列输入语言翻译模型中，根据映射关系生成待测语言文本序列对应的图像低维特征序列。

进一步地，如图6所示，步骤S8包括：将待测语言文本序列拆分成多个词向量；将多个词向量输入语言翻译模型中，输出文本低维特征序列；根据映射关系映射出与文本低维特征序列对应的图像低维特征序列。

也就是说，输入自然语言文本序列，经由嵌入模型将语言文本序列转化为词向量序列，通过语言翻译模型和映射关系，生成图像低维特征序列。其中，视频/图像序列的分辨率为224x224，输入和输出序列长度不定。

在步骤S9中，通过视觉模型解码图像低维特征序列，生成待测语言文本序列对应的手语视频。

也就是说，利用视频模型中的变分自编码器模型将图像低维特征序列解码为高维图像序列，即找到待测语言文本序列对应的手语视频，完成手语视频/图像序列生成任务。

根据本发明实施例提出的基于深度学习的手语翻译视频生成方法，利用变分自编码器VAE模型自监督地学习编解码器，将高维的视频图像编码为低维的特征，并能由低维特征解码出高维图像；使用环状生成对抗网络CycleGAN模型，自监督地完善图像和低维特征生成模型；使用长短期记忆网络LSTM构建语言翻译模型，建立自然语言文本空间与视频图像的隐状态空间的联系；也就是说，有效地利用采用自监督训练的视觉模型对图像特征进行降维，并结合语言模型完成翻译任务，从而有助于帮助聋哑人更好地融入社会生活，并对相关领域有着重要的启发意义。

其次参照附图描述根据本发明实施例提出的基于深度学习的手语翻译视频生成系统。

图7是本发明一个实施例的基于深度学习的手语翻译视频生成系统结构示意图。

如图7所示，该基于深度学习的手语翻译视频生成系统10包括：构建模块100、第一训练模块200、修正模块300、迭代模块400、第二训练模块500、映射模块600、获取模块700、生成模块800和解码模块900。

其中，构建模块100，用于构建数据集，其中，数据集包括语言文本序列和手语视频；第一训练模块200，用于通过手语视频训练视频模型的变分自编码器模型，生成多个图像低维空间特征；修正模块300，用于通过视觉模型的环状生成对抗网络模型修正多个图像低维空间特征；迭代模块400，用于迭代执行第一训练模块和修正模块，直至多个图像低维空间特征达到预设维度，输出图像低维特征序列；第二训练模块500，用于通过语言文本序列训练语言翻译模型，输出与图像低维特征序列对应的文本低维特征序列；映射模块600，用于通过图像低维特征序列和文本低维特征序列，构建语言文本序列与手语视频的映射关系；获取模块700，用于获取待测语言文本序列；生成模块800，用于将待测语言文本序列输入语言翻译模型中，根据映射关系生成待测语言文本序列对应的图像低维特征序列；解码模块900，用于通过视觉模型解码图像低维特征序列，生成待测语言文本序列对应的手语视频。

进一步地，在本发明的一个实施例中，视频模型包括变分自编码器模型和环状生成对抗网络模型。

进一步地，在本发明的一个实施例中，环状生成对抗网络模型包括两个生成器和两个辨别器，利用两个生成器初始化变分自编码器模型的编码和解码器权重，以修正多个图像低维空间特征。

进一步地，在本发明的一个实施例中，生成模块包括：拆分单元，用于将待测语言文本序列拆分成多个词向量；输出单元，用于将多个词向量输入语言翻译模型中，输出文本低维特征序列；映射单元，用于根据映射关系映射出与文本低维特征序列对应的图像低维特征序列。

需要说明的是，前述对基于深度学习的手语翻译视频生成方法实施例的解释说明也适用于该系统，此处不再赘述。

根据本发明实施例提出的基于深度学习的手语翻译视频生成系统，利用变分自编码器VAE模型自监督地学习编解码器，将高维的视频图像编码为低维的特征，并能由低维特征解码出高维图像；使用环状生成对抗网络CycleGAN模型，自监督地完善图像和低维特征生成模型；使用长短期记忆网络LSTM构建语言翻译模型，建立自然语言文本空间与视频图像的隐状态空间的联系；也就是说，有效地利用采用自监督训练的视觉模型对图像特征进行降维，并结合语言模型完成翻译任务，从而有助于帮助聋哑人更好地融入社会生活，并对相关领域有着重要的启发意义。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于深度学习的手语翻译视频生成方法，其特征在于，包括以下步骤：

步骤S1，构建数据集，其中，所述数据集包括语言文本序列和手语视频；

步骤S2，通过所述手语视频训练视频模型的变分自编码器模型，生成多个图像低维空间特征；

步骤S3，通过所述视觉模型的环状生成对抗网络模型修正所述多个图像低维空间特征；

步骤S4，迭代执行步骤S2-S3，直至所述多个图像低维空间特征达到预设维度，输出图像低维特征序列；

步骤S5，通过所述语言文本序列训练语言翻译模型，输出与所述图像低维特征序列对应的文本低维特征序列；

步骤S6，通过所述图像低维特征序列和所述文本低维特征序列，构建所述语言文本序列与所述手语视频的映射关系；

步骤S7，获取待测语言文本序列；

步骤S8，将所述待测语言文本序列输入所述语言翻译模型中，根据所述映射关系生成所述待测语言文本序列对应的图像低维特征序列；以及

步骤S9，通过所述视觉模型解码所述图像低维特征序列，生成所述待测语言文本序列对应的手语视频。

2.根据权利要求1所述的基于深度学习的手语翻译视频生成方法，其特征在于，所述变分自编码器模型包括编码器和解码器，利用所述编码器对所述手语视频进行降维，生成所述多个图像低维空间特征，利用所述解码器将所述多个图像低维空间特征生成手语图像，以与输入所述手语视频进行比对。

3.根据权利要求1所述的基于深度学习的手语翻译视频生成方法，其特征在于，所述环状生成对抗网络模型包括两个生成器和两个辨别器，利用所述两个生成器初始化所述变分自编码器模型的编码和解码器权重，以修正所述多个图像低维空间特征。

4.根据权利要求1所述的基于深度学习的手语翻译视频生成方法，其特征在于，所述步骤S8包括：

将所述待测语言文本序列拆分成多个词向量；

将所述多个词向量输入所述语言翻译模型中，输出所述文本低维特征序列；

根据所述映射关系映射出与所述文本低维特征序列对应的图像低维特征序列。

5.一种基于深度学习的手语翻译视频生成系统，其特征在于，包括：

构建模块，用于构建数据集，其中，所述数据集包括语言文本序列和手语视频；

第一训练模块，用于通过所述手语视频训练视频模型的变分自编码器模型，生成多个图像低维空间特征；

修正模块，用于通过所述视觉模型的环状生成对抗网络模型修正所述多个图像低维空间特征；

迭代模块，用于迭代执行所述第一训练模块和所述修正模块，直至所述多个图像低维空间特征达到预设维度，输出图像低维特征序列；

第二训练模块，用于通过所述语言文本序列训练语言翻译模型，输出与所述图像低维特征序列对应的文本低维特征序列；

映射模块，用于通过所述图像低维特征序列和所述文本低维特征序列，构建所述语言文本序列与所述手语视频的映射关系；

获取模块，用于获取待测语言文本序列；

生成模块，用于将所述待测语言文本序列输入所述语言翻译模型中，根据所述映射关系生成所述待测语言文本序列对应的图像低维特征序列；以及

解码模块，用于通过所述视觉模型解码所述图像低维特征序列，生成所述待测语言文本序列对应的手语视频。

6.根据权利要求5所述的基于深度学习的手语翻译视频生成系统，其特征在于，所述变分自编码器模型包括编码器和解码器，利用所述编码器对所述手语视频进行降维，生成所述多个图像低维空间特征，利用所述解码器将所述多个图像低维空间特征生成手语图像。

7.根据权利要求1所述的基于深度学习的手语翻译视频生成系统，其特征在于，所述环状生成对抗网络模型包括两个生成器和两个辨别器，利用所述两个生成器初始化所述变分自编码器模型的编码和解码器权重，以修正所述多个图像低维空间特征。

8.根据权利要求5所述的基于深度学习的手语翻译视频生成系统，其特征在于，所述生成模块包括：

拆分单元，用于将所述待测语言文本序列拆分成多个词向量；

输出单元，用于将所述多个词向量输入所述语言翻译模型中，输出所述文本低维特征序列；

映射单元，用于根据所述映射关系映射出与所述文本低维特征序列对应的图像低维特征序列。