CN110728203A - 基于深度学习的手语翻译视频生成方法及系统 - Google Patents

基于深度学习的手语翻译视频生成方法及系统 Download PDF

Info

Publication number
CN110728203A
CN110728203A CN201910900738.6A CN201910900738A CN110728203A CN 110728203 A CN110728203 A CN 110728203A CN 201910900738 A CN201910900738 A CN 201910900738A CN 110728203 A CN110728203 A CN 110728203A
Authority
CN
China
Prior art keywords
language
sequence
model
video
low
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910900738.6A
Other languages
English (en)
Other versions
CN110728203B (zh
Inventor
徐枫
薄子豪
娄昕
杨东
兰怡娜
雍俊海
戴琼海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Chinese PLA General Hospital
Original Assignee
Tsinghua University
Chinese PLA General Hospital
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, Chinese PLA General Hospital filed Critical Tsinghua University
Priority to CN201910900738.6A priority Critical patent/CN110728203B/zh
Publication of CN110728203A publication Critical patent/CN110728203A/zh
Application granted granted Critical
Publication of CN110728203B publication Critical patent/CN110728203B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的手语翻译视频生成方法及系统,其中,该方法包括:通过数据集的手语视频循环训练变分自编码器模型和环状生成对抗网络模型,直至达到预设维度,输出图像低维特征序列;通过数据集的语言文本序列训练语言翻译模型,输出与图像低维特征序列对应的文本低维特征序列,以构建语言文本序列与手语视频的映射关系;基于映射关系,将待测语言文本序列输入语言翻译模型,映射出待测语言文本序列对应的图像低维特征序列,视频模型解码图像低维特征序列,生成对应的手语视频。本发明实施例的方法通过构建压缩隐空间来对图像进行降维处理,解决视频生成问题对计算机存储与计算能力的极高要求,可以使用通用语言模型进行翻译训练。

Description

基于深度学习的手语翻译视频生成方法及系统
技术领域
本发明涉及计算机视觉、自然语言处理技术领域,特别涉及一种基于深度学习的手语翻译视频生成方法及系统。
背景技术
残障人士,特别是听力障碍人士在现在的社会中占有不小的比例,如何保障残障人士的社会生活,方便聋哑人同普通人之间的沟通成为一个重要的问题。社会保障健全的国家和地区都十分重视残疾人的教育及就业,但同聋哑人的沟通却需要对所有人进行相关的手语教育,耗资过于庞大。因此,如果能使用计算机自动完成手语和自然语言的翻译转化,将极大方便与改善聋哑人的日常生活。
随着计算机科学技术、人工智能与深度学习的不断发展,建立一种基于深度学习的手语翻译与视频生成系统已成为可能。但受到现阶段计算资源与能力的限制,精细的视频生成仍是一项挑战。并且,手语视频生成需要融合有关翻译的语言模型与有关视频图像的生成模型,还未有相关工作能够实现这一挑战。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于深度学习的手语翻译视频生成方法,该方法通过构建压缩隐空间来对图像进行降维处理,解决视频生成问题对计算机存储与计算能力的极高要求。
本发明的另一个目的在于提出一种基于深度学习的手语翻译视频生成系统。
为达到上述目的,本发明一方面提出了基于深度学习的手语翻译视频生成方法,包括以下步骤:步骤S1,构建数据集,其中,所述数据集包括语言文本序列和手语视频;步骤S2,通过所述手语视频训练视频模型的变分自编码器模型,生成多个图像低维空间特征;步骤S3,通过所述视觉模型的环状生成对抗网络模型修正所述多个图像低维空间特征;步骤S4,迭代执行步骤S2-S3,直至所述多个图像低维空间特征达到预设维度,输出图像低维特征序列;步骤S5,通过所述语言文本序列训练语言翻译模型,输出与所述图像低维特征序列对应的文本低维特征序列;步骤S6,通过所述图像低维特征序列和所述文本低维特征序列,构建所述语言文本序列与所述手语视频的映射关系;步骤S7,获取待测语言文本序列;步骤S8,将所述待测语言文本序列输入所述语言翻译模型中,根据所述映射关系生成所述待测语言文本序列对应的图像低维特征序列;步骤S9,通过所述视觉模型解码所述图像低维特征序列,生成所述待测语言文本序列对应的手语视频。
本发明实施例的基于深度学习的手语翻译视频生成方法,通过构建压缩隐空间来对图像进行降维处理,变分自编码器(Variational Auto-Encoder,VAE)可以有效利用自监督数据,对手语图像进行降维;环状生成对抗网络(Cycle Generate AdversarialNetwork,CycleGAN)则利用变分自编码器VAE得到的数据,对抗学习精细化的编解码器,降维之后的图像数据便可以使用通用语言模型进行翻译训练。
另外,根据本发明上述实施例的基于深度学习的手语翻译视频生成方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述变分自编码器模型包括编码器和解码器,利用所述编码器对所述手语视频进行降维,生成所述多个图像低维空间特征,利用所述解码器将所述多个图像低维空间特征生成手语图像,与输入所述手语视频进行比对。
进一步地,在本发明的一个实施例中,所述环状生成对抗网络模型包括两个生成器和两个辨别器,利用所述两个生成器初始化所述变分自编码器模型的编码和解码器权重,以修正所述多个图像低维空间特征。
进一步地,在本发明的一个实施例中,所述步骤S8包括:将所述待测语言文本序列拆分成多个词向量;将所述多个词向量输入所述语言翻译模型中,输出所述文本低维特征序列;根据所述映射关系映射出与所述文本低维特征序列对应的图像低维特征序列。
为达到上述目的,本发明另一方面提出了一种基于深度学习的手语翻译视频生成系统,包括:构建模块,用于构建数据集,其中,所述数据集包括语言文本序列和手语视频;第一训练模块,用于通过所述手语视频训练视频模型的变分自编码器模型,生成多个图像低维空间特征;修正模块,用于通过所述视觉模型的环状生成对抗网络模型修正所述多个图像低维空间特征;迭代模块,用于迭代执行所述第一训练模块和所述修正模块,直至所述多个图像低维空间特征达到预设维度,输出图像低维特征序列;第二训练模块,用于通过所述语言文本序列训练语言翻译模型,输出与所述图像低维特征序列对应的文本低维特征序列;映射模块,用于通过所述图像低维特征序列和所述文本低维特征序列,构建所述语言文本序列与所述手语视频的映射关系;获取模块,用于获取待测语言文本序列;生成模块,用于将所述待测语言文本序列输入所述语言翻译模型中,根据所述映射关系生成所述待测语言文本序列对应的图像低维特征序列;解码模块,用于通过所述视觉模型解码所述图像低维特征序列,生成所述待测语言文本序列对应的手语视频。
本发明实施例的基于深度学习的手语翻译视频生成系统,通过构建压缩隐空间来对图像进行降维处理,变分自编码器可以有效利用自监督数据,对手语图像进行降维;环状生成对抗网络Cycle GAN则利用变分自编码器VAE得到的数据,对抗学习精细化的编解码器,降维之后的图像数据便可以使用通用语言模型进行翻译训练。
另外,根据本发明上述实施例的基于深度学习的手语翻译视频生成系统还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述变分自编码器模型包括编码器和解码器,利用所述编码器对所述手语视频进行降维,生成所述多个图像低维空间特征,利用所述解码器将所述多个图像低维空间特征生成手语图像。
进一步地,在本发明的一个实施例中,所述环状生成对抗网络模型包括两个生成器和两个辨别器,利用所述两个生成器初始化所述变分自编码器模型的编码和解码器权重,以修正所述多个图像低维空间特征。
进一步地,在本发明的一个实施例中,所述生成模块包括:拆分单元,用于将所述待测语言文本序列拆分成多个词向量;输出单元,用于将所述多个词向量输入所述语言翻译模型中,输出所述文本低维特征序列;映射单元,用于根据所述映射关系映射出与所述文本低维特征序列对应的图像低维特征序列。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的基于深度学习的手语翻译视频生成方法流程图;
图2为根据本发明实施例的视频模型和语言模型的训练流程图;
图3为根据本发明实施例的视觉模型中变分自编码器的执行流程图;
图4为根据本发明实施例的视觉模型中环状生成对抗网络的执行流程图;
图5为根据本发明实施例的语言模型的执行流程图;
图6为根据本发明实施例的测试流程图;
图7为根据本发明实施例的基于深度学习的手语翻译视频生成系统结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
本发明实施例为使听力障碍人士更加方便地同普通人进行交流,计算机自动进行手语翻译和手语视频生成是非常关键的工作。不同于通常意义上的翻译任务,手语翻译需要构建文本同图像序列之间的映射。而图像,特别是序列图像的特征空间十分庞大,构建其同文本序列之间的映射颇具挑战。基于此,本发明实施例融合了语言模型和视觉生成模型的手语生成方法,应用场景为输入自然语言文本序列,经过语言模型翻译后,输出相应的手语视频/图像序列,其中,视觉模型采用自监督方法,学习隐状态空间与图像空间的转换。
下面参照附图描述根据本发明实施例提出的基于深度学习的手语翻译视频生成方法及系统,首先将参照附图描述根据本发明实施例提出的基于深度学习的手语翻译视频生成方法。
图1是本发明一个实施例的基于深度学习的手语翻译视频生成方法流程图。
如图1所示,该基于深度学习的手语翻译视频生成方法包括以下步骤:
在步骤S1中,构建数据集,其中,数据集包括语言文本序列和手语视频。
需要说明的是,数据集包括训练集和测试集,在步骤S1中的语言文本序列和手语视频在训练集中获取,步骤S7中的待测语言文本序列在测试集中获取。
在步骤S2中,通过手语视频训练视频模型的变分自编码器模型,生成多个图像低维空间特征。
进一步地,在本发明的一个实施例中,如图2所示,变分自编码器模型包括编码器和解码器,利用编码器对手语视频进行降维,生成多个图像低维空间特征,利用解码器将多个图像低维空间特征生成手语图像,与输入手语视频进行比对。
具体而言,如图3所示,先将手语视频分解成多个手语图像,将多个手语图像分别输入变分自编码器模型中,经过变分自编码器模型的编码器使多个手语图像的编码压缩,得到经过压缩编码的多个图像低维特征,利用解码器将多个图像低维空间特征生成手语图像,进而比对降维后的图像与原手语图像误差大小,减小输出图像与原图像的误差,进行变分自编码器的训练。需要说明的是,变分自编码器生成图像的结果较为模糊,但仍然可以确定人物的整体姿态,手部位置等信息。
在步骤S3中,通过视觉模型的环状生成对抗网络模型修正多个图像低维空间特征。
也就是说,如图2所示,将变分自编码器模型得到的图像低维空间特征作为真实结果,训练一个环状生成对抗模型。
进一步地,如图4所示,环状生成对抗网络模型包括两个生成器和两个辨别器,利用两个生成器初始化变分自编码器模型的编码和解码器权重,以修正多个图像低维空间特征。
具体而言,本发明实施例通过环状生成对抗网络模型中的两个生成器和两个辨别器,来减少生成误差、对抗误差和环形重构误差,以训练出更加精细的生成器。同时,使用生成对抗网络得到的图像有着更丰富的细节,能够更好地建模图像和低维特征的双向映射。
可以理解的是,视频模型包括变分自编码器模型和环状生成对抗网络模型。
在步骤S4中,如图2所示,迭代执行步骤S2-S3,直至多个图像低维空间特征达到预设维度,输出图像低维特征序列。
也就是说,使用步骤S3得到的两个生成器分别初始化变分自编码器的编码和解码器权重,重复步骤S2和步骤S3,迭代进行训练,使用自监督训练方法逐步增强编解码器的性能。
在步骤S5中,通过语言文本序列训练语言翻译模型,输出与图像低维特征序列对应的文本低维特征序列。
具体而言,如图5所示,从训练集中获得语言文本序列,并将得到的语言文本序列转化为词向量,再将词向量输入至基于长短期记忆网络(Long Short-Term Memory,LSTM)的序列生成语言翻译模型中,优化语言翻译模型的参数,使得输出接近与图像低维特征序列对应的文本低维特征序列。
在步骤S6中,通过图像低维特征序列和文本低维特征序列,构建语言文本序列与手语视频的映射关系。
也就是说,构建成文本同图像序列之间的映射关系。
在步骤S7中,获取待测语言文本序列。
具体地,从测试集中获取待测语言文本序列。
在步骤S8中,将待测语言文本序列输入语言翻译模型中,根据映射关系生成待测语言文本序列对应的图像低维特征序列。
进一步地,如图6所示,步骤S8包括:将待测语言文本序列拆分成多个词向量;将多个词向量输入语言翻译模型中,输出文本低维特征序列;根据映射关系映射出与文本低维特征序列对应的图像低维特征序列。
也就是说,输入自然语言文本序列,经由嵌入模型将语言文本序列转化为词向量序列,通过语言翻译模型和映射关系,生成图像低维特征序列。其中,视频/图像序列的分辨率为224x224,输入和输出序列长度不定。
在步骤S9中,通过视觉模型解码图像低维特征序列,生成待测语言文本序列对应的手语视频。
也就是说,利用视频模型中的变分自编码器模型将图像低维特征序列解码为高维图像序列,即找到待测语言文本序列对应的手语视频,完成手语视频/图像序列生成任务。
根据本发明实施例提出的基于深度学习的手语翻译视频生成方法,利用变分自编码器VAE模型自监督地学习编解码器,将高维的视频图像编码为低维的特征,并能由低维特征解码出高维图像;使用环状生成对抗网络CycleGAN模型,自监督地完善图像和低维特征生成模型;使用长短期记忆网络LSTM构建语言翻译模型,建立自然语言文本空间与视频图像的隐状态空间的联系;也就是说,有效地利用采用自监督训练的视觉模型对图像特征进行降维,并结合语言模型完成翻译任务,从而有助于帮助聋哑人更好地融入社会生活,并对相关领域有着重要的启发意义。
其次参照附图描述根据本发明实施例提出的基于深度学习的手语翻译视频生成系统。
图7是本发明一个实施例的基于深度学习的手语翻译视频生成系统结构示意图。
如图7所示,该基于深度学习的手语翻译视频生成系统10包括:构建模块100、第一训练模块200、修正模块300、迭代模块400、第二训练模块500、映射模块600、获取模块700、生成模块800和解码模块900。
其中,构建模块100,用于构建数据集,其中,数据集包括语言文本序列和手语视频;第一训练模块200,用于通过手语视频训练视频模型的变分自编码器模型,生成多个图像低维空间特征;修正模块300,用于通过视觉模型的环状生成对抗网络模型修正多个图像低维空间特征;迭代模块400,用于迭代执行第一训练模块和修正模块,直至多个图像低维空间特征达到预设维度,输出图像低维特征序列;第二训练模块500,用于通过语言文本序列训练语言翻译模型,输出与图像低维特征序列对应的文本低维特征序列;映射模块600,用于通过图像低维特征序列和文本低维特征序列,构建语言文本序列与手语视频的映射关系;获取模块700,用于获取待测语言文本序列;生成模块800,用于将待测语言文本序列输入语言翻译模型中,根据映射关系生成待测语言文本序列对应的图像低维特征序列;解码模块900,用于通过视觉模型解码图像低维特征序列,生成待测语言文本序列对应的手语视频。
进一步地,在本发明的一个实施例中,视频模型包括变分自编码器模型和环状生成对抗网络模型。
进一步地,在本发明的一个实施例中,环状生成对抗网络模型包括两个生成器和两个辨别器,利用两个生成器初始化变分自编码器模型的编码和解码器权重,以修正多个图像低维空间特征。
进一步地,在本发明的一个实施例中,生成模块包括:拆分单元,用于将待测语言文本序列拆分成多个词向量;输出单元,用于将多个词向量输入语言翻译模型中,输出文本低维特征序列;映射单元,用于根据映射关系映射出与文本低维特征序列对应的图像低维特征序列。
需要说明的是,前述对基于深度学习的手语翻译视频生成方法实施例的解释说明也适用于该系统,此处不再赘述。
根据本发明实施例提出的基于深度学习的手语翻译视频生成系统,利用变分自编码器VAE模型自监督地学习编解码器,将高维的视频图像编码为低维的特征,并能由低维特征解码出高维图像;使用环状生成对抗网络CycleGAN模型,自监督地完善图像和低维特征生成模型;使用长短期记忆网络LSTM构建语言翻译模型,建立自然语言文本空间与视频图像的隐状态空间的联系;也就是说,有效地利用采用自监督训练的视觉模型对图像特征进行降维,并结合语言模型完成翻译任务,从而有助于帮助聋哑人更好地融入社会生活,并对相关领域有着重要的启发意义。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种基于深度学习的手语翻译视频生成方法,其特征在于,包括以下步骤:
步骤S1,构建数据集,其中,所述数据集包括语言文本序列和手语视频;
步骤S2,通过所述手语视频训练视频模型的变分自编码器模型,生成多个图像低维空间特征;
步骤S3,通过所述视觉模型的环状生成对抗网络模型修正所述多个图像低维空间特征;
步骤S4,迭代执行步骤S2-S3,直至所述多个图像低维空间特征达到预设维度,输出图像低维特征序列;
步骤S5,通过所述语言文本序列训练语言翻译模型,输出与所述图像低维特征序列对应的文本低维特征序列;
步骤S6,通过所述图像低维特征序列和所述文本低维特征序列,构建所述语言文本序列与所述手语视频的映射关系;
步骤S7,获取待测语言文本序列;
步骤S8,将所述待测语言文本序列输入所述语言翻译模型中,根据所述映射关系生成所述待测语言文本序列对应的图像低维特征序列;以及
步骤S9,通过所述视觉模型解码所述图像低维特征序列,生成所述待测语言文本序列对应的手语视频。
2.根据权利要求1所述的基于深度学习的手语翻译视频生成方法,其特征在于,所述变分自编码器模型包括编码器和解码器,利用所述编码器对所述手语视频进行降维,生成所述多个图像低维空间特征,利用所述解码器将所述多个图像低维空间特征生成手语图像,以与输入所述手语视频进行比对。
3.根据权利要求1所述的基于深度学习的手语翻译视频生成方法,其特征在于,所述环状生成对抗网络模型包括两个生成器和两个辨别器,利用所述两个生成器初始化所述变分自编码器模型的编码和解码器权重,以修正所述多个图像低维空间特征。
4.根据权利要求1所述的基于深度学习的手语翻译视频生成方法,其特征在于,所述步骤S8包括:
将所述待测语言文本序列拆分成多个词向量;
将所述多个词向量输入所述语言翻译模型中,输出所述文本低维特征序列;
根据所述映射关系映射出与所述文本低维特征序列对应的图像低维特征序列。
5.一种基于深度学习的手语翻译视频生成系统,其特征在于,包括:
构建模块,用于构建数据集,其中,所述数据集包括语言文本序列和手语视频;
第一训练模块,用于通过所述手语视频训练视频模型的变分自编码器模型,生成多个图像低维空间特征;
修正模块,用于通过所述视觉模型的环状生成对抗网络模型修正所述多个图像低维空间特征;
迭代模块,用于迭代执行所述第一训练模块和所述修正模块,直至所述多个图像低维空间特征达到预设维度,输出图像低维特征序列;
第二训练模块,用于通过所述语言文本序列训练语言翻译模型,输出与所述图像低维特征序列对应的文本低维特征序列;
映射模块,用于通过所述图像低维特征序列和所述文本低维特征序列,构建所述语言文本序列与所述手语视频的映射关系;
获取模块,用于获取待测语言文本序列;
生成模块,用于将所述待测语言文本序列输入所述语言翻译模型中,根据所述映射关系生成所述待测语言文本序列对应的图像低维特征序列;以及
解码模块,用于通过所述视觉模型解码所述图像低维特征序列,生成所述待测语言文本序列对应的手语视频。
6.根据权利要求5所述的基于深度学习的手语翻译视频生成系统,其特征在于,所述变分自编码器模型包括编码器和解码器,利用所述编码器对所述手语视频进行降维,生成所述多个图像低维空间特征,利用所述解码器将所述多个图像低维空间特征生成手语图像。
7.根据权利要求1所述的基于深度学习的手语翻译视频生成系统,其特征在于,所述环状生成对抗网络模型包括两个生成器和两个辨别器,利用所述两个生成器初始化所述变分自编码器模型的编码和解码器权重,以修正所述多个图像低维空间特征。
8.根据权利要求5所述的基于深度学习的手语翻译视频生成系统,其特征在于,所述生成模块包括:
拆分单元,用于将所述待测语言文本序列拆分成多个词向量;
输出单元,用于将所述多个词向量输入所述语言翻译模型中,输出所述文本低维特征序列;
映射单元,用于根据所述映射关系映射出与所述文本低维特征序列对应的图像低维特征序列。
CN201910900738.6A 2019-09-23 2019-09-23 基于深度学习的手语翻译视频生成方法及系统 Active CN110728203B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910900738.6A CN110728203B (zh) 2019-09-23 2019-09-23 基于深度学习的手语翻译视频生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910900738.6A CN110728203B (zh) 2019-09-23 2019-09-23 基于深度学习的手语翻译视频生成方法及系统

Publications (2)

Publication Number Publication Date
CN110728203A true CN110728203A (zh) 2020-01-24
CN110728203B CN110728203B (zh) 2022-04-12

Family

ID=69218290

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910900738.6A Active CN110728203B (zh) 2019-09-23 2019-09-23 基于深度学习的手语翻译视频生成方法及系统

Country Status (1)

Country Link
CN (1) CN110728203B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259860A (zh) * 2020-02-17 2020-06-09 合肥工业大学 基于数据自驱动的多阶特征动态融合手语翻译方法
CN111565318A (zh) * 2020-05-06 2020-08-21 中国科学院重庆绿色智能技术研究院 一种基于稀疏样本的视频压缩方法
CN111652135A (zh) * 2020-06-03 2020-09-11 广州视源电子科技股份有限公司 心电图数据生成方法、装置及电子设备
CN111933110A (zh) * 2020-08-12 2020-11-13 北京字节跳动网络技术有限公司 视频生成方法、生成模型训练方法、装置、介质及设备
CN112149603A (zh) * 2020-09-30 2020-12-29 中国科学技术大学 一种基于跨模态数据增广的连续手语识别方法
CN112307778A (zh) * 2020-11-17 2021-02-02 南京工业大学 特定场景手语视频的翻译模型训练方法、翻译方法及系统
CN112712130A (zh) * 2021-01-13 2021-04-27 清华大学 视觉理解模型训练方法、装置、计算机设备和存储介质
CN113449564A (zh) * 2020-03-26 2021-09-28 上海交通大学 基于人体局部语义知识的行为图像分类方法
CN113641854A (zh) * 2021-07-28 2021-11-12 上海影谱科技有限公司 一种将文字转化为视频的方法及系统
CN113657257A (zh) * 2021-08-16 2021-11-16 浙江大学 一种端到端的手语翻译方法和系统
CN113781876A (zh) * 2021-08-05 2021-12-10 深兰科技(上海)有限公司 一种将文本转换为手语动作视频的转换方法和装置
US11922320B2 (en) 2021-06-09 2024-03-05 Ford Global Technologies, Llc Neural network for object detection and tracking

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647603A (zh) * 2018-04-28 2018-10-12 清华大学 基于注意力机制的半监督连续手语翻译方法及装置
CN109214347A (zh) * 2018-09-19 2019-01-15 北京因时机器人科技有限公司 一种跨语种的手语翻译方法、装置和移动设备
CN109889849A (zh) * 2019-01-30 2019-06-14 北京市商汤科技开发有限公司 视频生成方法、装置、介质及设备
CN110046712A (zh) * 2019-04-04 2019-07-23 天津科技大学 基于生成模型的隐空间模型化策略搜索学习方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647603A (zh) * 2018-04-28 2018-10-12 清华大学 基于注意力机制的半监督连续手语翻译方法及装置
CN109214347A (zh) * 2018-09-19 2019-01-15 北京因时机器人科技有限公司 一种跨语种的手语翻译方法、装置和移动设备
CN109889849A (zh) * 2019-01-30 2019-06-14 北京市商汤科技开发有限公司 视频生成方法、装置、介质及设备
CN110046712A (zh) * 2019-04-04 2019-07-23 天津科技大学 基于生成模型的隐空间模型化策略搜索学习方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HAO ZHANG ETAL.: ""InteractionFusion: Real-time Reconstruction of Hand Poses and Deformable Objects in Hand-object Interactions"", 《ACM》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259860B (zh) * 2020-02-17 2022-03-15 合肥工业大学 基于数据自驱动的多阶特征动态融合手语翻译方法
CN111259860A (zh) * 2020-02-17 2020-06-09 合肥工业大学 基于数据自驱动的多阶特征动态融合手语翻译方法
CN113449564A (zh) * 2020-03-26 2021-09-28 上海交通大学 基于人体局部语义知识的行为图像分类方法
CN113449564B (zh) * 2020-03-26 2022-09-06 上海交通大学 基于人体局部语义知识的行为图像分类方法
CN111565318A (zh) * 2020-05-06 2020-08-21 中国科学院重庆绿色智能技术研究院 一种基于稀疏样本的视频压缩方法
CN111652135A (zh) * 2020-06-03 2020-09-11 广州视源电子科技股份有限公司 心电图数据生成方法、装置及电子设备
CN111933110A (zh) * 2020-08-12 2020-11-13 北京字节跳动网络技术有限公司 视频生成方法、生成模型训练方法、装置、介质及设备
CN112149603A (zh) * 2020-09-30 2020-12-29 中国科学技术大学 一种基于跨模态数据增广的连续手语识别方法
CN112149603B (zh) * 2020-09-30 2022-07-15 中国科学技术大学 一种基于跨模态数据增广的连续手语识别方法
CN112307778A (zh) * 2020-11-17 2021-02-02 南京工业大学 特定场景手语视频的翻译模型训练方法、翻译方法及系统
CN112307778B (zh) * 2020-11-17 2023-11-24 南京工业大学 特定场景手语视频的翻译模型训练方法、翻译方法及系统
CN112712130B (zh) * 2021-01-13 2022-06-10 清华大学 视觉理解模型训练方法、装置、计算机设备和存储介质
CN112712130A (zh) * 2021-01-13 2021-04-27 清华大学 视觉理解模型训练方法、装置、计算机设备和存储介质
US11922320B2 (en) 2021-06-09 2024-03-05 Ford Global Technologies, Llc Neural network for object detection and tracking
CN113641854B (zh) * 2021-07-28 2023-09-26 上海影谱科技有限公司 一种将文字转化为视频的方法及系统
CN113641854A (zh) * 2021-07-28 2021-11-12 上海影谱科技有限公司 一种将文字转化为视频的方法及系统
CN113781876A (zh) * 2021-08-05 2021-12-10 深兰科技(上海)有限公司 一种将文本转换为手语动作视频的转换方法和装置
CN113781876B (zh) * 2021-08-05 2023-08-29 深兰科技(上海)有限公司 一种将文本转换为手语动作视频的转换方法和装置
CN113657257B (zh) * 2021-08-16 2023-12-19 浙江大学 一种端到端的手语翻译方法和系统
CN113657257A (zh) * 2021-08-16 2021-11-16 浙江大学 一种端到端的手语翻译方法和系统

Also Published As

Publication number Publication date
CN110728203B (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
CN110728203B (zh) 基于深度学习的手语翻译视频生成方法及系统
CN110084863B (zh) 一种基于生成对抗网络的多域图像转换方法与系统
CN109086869B (zh) 一种基于注意力机制的人体动作预测方法
CN109271964B (zh) 基于深度学习模型与长短记忆网络的情绪识别方法及系统
CN110599395A (zh) 目标图像生成方法、装置、服务器及存储介质
CN113901894A (zh) 一种视频生成方法、装置、服务器及存储介质
CN110689561B (zh) 基于模块化gan的多模态mri与多模态ct的转换方法、系统及介质
CN112785542B (zh) 遥感影像转换网络地图方法、装置、计算机设备和介质
KR102165160B1 (ko) 순차적 정보 기반의 순환 신경망 모델을 이용하여 사용자 의도 시퀀스를 예측하기 위한 장치 및 그 방법
CN112669215A (zh) 一种训练文本图像生成模型、文本图像生成的方法和装置
Merhej et al. Embedding prior knowledge within compressed sensing by neural networks
US20230032472A1 (en) Method and apparatus for reconstructing medical image
CN110175338B (zh) 一种数据处理方法及装置
CN113065496B (zh) 神经网络机器翻译模型训练方法、机器翻译方法和装置
CN112862727B (zh) 一种跨模态图像转换方法及装置
CN112380843B (zh) 一种基于随机扰动网络的开放性答案生成方法
JP7205646B2 (ja) 出力方法、出力プログラム、および出力装置
US20230196739A1 (en) Machine learning device and far-infrared image capturing device
CN116363563A (zh) 基于图像和文本的视频生成方法和装置
CN115880762A (zh) 面向人机混合视觉的可伸缩人脸图像编码方法、系统
Talafha et al. Attentional adversarial variational video generation via decomposing motion and content
CN112668517A (zh) 图片处理方法、装置及电子设备
Jaegle et al. Predicting the future with transformational states
CN115311138B (zh) 图像超分辨率方法及装置
CN112016480B (zh) 人脸特征表示方法、系统、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant