CN110717054B

CN110717054B - 基于对偶学习的跨模态文字生成视频的方法及系统

Info

Publication number: CN110717054B
Application number: CN201910872485.6A
Authority: CN
Inventors: 朱文武; 刘月; 王鑫
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-09-16
Filing date: 2019-09-16
Publication date: 2022-07-15
Anticipated expiration: 2039-09-16
Also published as: CN110717054A

Abstract

本发明公开了一种基于对偶学习的跨模态文字生成视频的方法及系统，其中，该方法包括以下步骤：构建文字到视频的生成模型；构建视频到文字的映射模型；利用对偶学习机制联合训练生成模型和映射模型，以获得训练模型；将预设文字输入训练模型中，以生成对应初始视频；利用映射模型将初始视频映射出新文字，并将新文字反馈给生成模型，以判断新文字与预设文字是否匹配，进而对初始视频进行修复，获得最终映射视频。该方法考虑文字信息和视频信息之间的双向映射，更好地实现文字到视频的生成，同时，也使得生成视频的质量更高，与用户需求匹配度更高。

Description

基于对偶学习的跨模态文字生成视频的方法及系统

技术领域

本发明涉及多模态生成模型技术领域，特别涉及一种基于对偶学习的跨模态文字生成视频的方法及系统。

背景技术

当前，在用户与机器的语言、视觉交互场景方面，用户体验非常重要。用户输入文字或语言，机器能够根据用户输入生成相对应的视频，但其生成的视频是否逼真以及与用户输入是否一致上都还存在一些问题。如，现有的由文字生成视频的方法只考虑文字到视频的单向映射，将文字数据和视频数据映射到同一隐空间，再根据隐空间数据点重构视频，达到从文字生成视频的目的。在技术层面，具体的步骤是先将文字映射到隐空间，再从隐空间生成对应的视频。

但这种方法没有考虑到文字和视频包含的信息是不对等、不平衡的：文字通常信息较少；视频通常信息较多，包含了物体、运动等多方面的信息。将文字和视频共同映射到同一个空间会损失信息，导致生成视频的效果不好、与输入文字不匹配等问题。虽然，已有解决该问题的技术，但这类的方法均是训练一个判别器判别视频是真或假、是否与输入文字相匹配。这样的学习过程不稳定，且生成的视频通常是类似的，不具有多样性。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于对偶学习的跨模态文字生成视频的方法，该方法考虑文字信息和视频信息之间的双向映射，更好地实现文字到视频的生成，也考虑视频在时间上的多尺度特征，学习文字到视频多尺度特征的映射，生成模型表现更好。

本发明的另一个目的在于提出一种基于对偶学习的跨模态文字生成视频的系统。

为达到上述目的，本发明一方面提出了基于对偶学习的跨模态文字生成视频的方法，包括以下步骤：构建文字到视频的生成模型；构建视频到文字的映射模型；利用对偶学习机制联合训练所述生成模型和所述映射模型，以获得训练模型；将预设文字输入所述训练模型中，以生成对应初始视频；利用所述映射模型将所述初始视频映射出新文字，并将所述新文字反馈给所述生成模型，判断所述新文字与所述预设文字是否匹配，进而对所述初始视频进行修复，获得最终映射视频。

本发明实施例的基于对偶学习的跨模态文字生成视频的方法，使用对偶学习的机制，同时学习文字到视频和视频到文字的双向映射，通过联合学习双向映射，减少文字到视频单向映射中的信息损失，使得生成视频的质量更高；将视频到文字的映射的结果作为反馈，输入到原有的文字到视频的生成器中，增强文字到视频生成器的生成能力，使得生成视频和输入文字匹配度更高，且在样本数据很少的情况下，也能稳定表现；还考虑时间上的多尺度特征，使得生成视频时间连续性好，质量更加好。

另外，根据本发明上述实施例的基于对偶学习的跨模态文字生成视频的方法还可以具有以下附加的技术特征：

在本发明的一个实施例中，所述生成模型中采用长短时记忆神经网络，融合网络和三维反卷积神经网络。

在本发明的一个实施例中，所述映射模型中采用三维卷积神经网络和长短时记忆神经网络。

在本发明的一个实施例中，所述将预设文字输入所述训练模型中，以生成对应初始视频，进一步包括：

利用长短时记忆网络提取所述预设文字中的文字信息，再利用三维反卷积神经网络模型将所述文字信息映射到多尺度视觉信息上，以生成所述初始视频。

在本发明的一个实施例中，所述利用所述映射模型将所述初始视频映射出新文字，并将所述新文字反馈给所述生成模型，判断所述新文字与所述预设文字是否匹配，进而对所述初始视频进行修复，获得最终映射视频，进一步包括：

利用三维卷积神经网络提取所述初始视频中的视频信息，并利用长短时记忆网络将所述视频信息映射出所述新文字，并反馈到所述生成模型，以判断所述新文字与所述预设文字是否匹配，若匹配，则将所述初始视频作为所述最终映射视频，若不匹配，则获取损失信息，并根据所述损失信息对所述初始视频进行修复，获得所述最终映射视频。

为达到上述目的，本发明另一方面提出了一种基于对偶学习的跨模态文字生成视频的系统，包括：第一构建模块，用于构建文字到视频的生成模型；第二构建模块，用于构建视频到文字的映射模型；训练模块，用于利用对偶学习机制联合训练所述生成模型和所述映射模型，以获得训练模型；生成模块，用于将预设文字输入所述训练模型中，以生成对应初始视频；修复模块，用于利用所述映射模型将所述初始视频映射出新文字，并将所述新文字反馈给所述生成模型，判断所述新文字与所述预设文字是否匹配，进而对所述初始视频进行修复，获得最终映射视频。

本发明实施例的基于对偶学习的跨模态文字生成视频的系统，使用对偶学习的机制，同时学习文字到视频和视频到文字的双向映射，通过联合学习双向映射，减少文字到视频单向映射中的信息损失，使得生成视频的质量更高；将视频到文字的映射的结果作为反馈，输入到原有的文字到视频的生成器中，增强文字到视频生成器的生成能力，使得生成视频和输入文字匹配度更高，且在样本数据很少的情况下，也能稳定表现；还考虑时间上的多尺度特征，使得生成视频时间连续性好，质量更加好。

另外，根据本发明上述实施例的基于对偶学习的跨模态文字生成视频的系统还可以具有以下附加的技术特征：

在本发明的一个实施例中，所述生成模块进一步包括：文字信息提取单元，用于利用长短时记忆网络提取所述预设文字中的文字信息；视频映射单元，用于利用三维反卷积神经网络模型将所述文字信息映射到多尺度视觉信息上，以生成所述初始视频。

在本发明的一个实施例中，所述修复模块进一步包括：视频信息提取单元，用于三维利用卷积神经网络提取所述初始视频中的视频信息；文字映射单元，用于利用长短时记忆网络将所述视频信息映射出所述新文字；匹配单元，用于将所述新文字反馈到所述生成模型，以判断所述新文字与所述预设文字是否匹配，若匹配，则将所述初始视频作为所述最终映射视频，若不匹配，则获取损失信息，并根据所述损失信息对所述初始视频进行修复，获得所述最终映射视频。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的一种基于对偶学习的跨模态文字生成视频的方法流程图；

图2为根据本发明实施例的另一种基于对偶学习的跨模态文字生成视频的方法流程图；

图3为根据本发明实施例的基于对偶学习的跨模态文字生成视频的方法工作原理图；

图4为根据本发明实施例的基于对偶学习的跨模态文字生成视频的系统结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于对偶学习的跨模态文字生成视频的方法及系统，首先将参照附图描述根据本发明实施例提出的基于对偶学习的跨模态文字生成视频的方法。

图1是本发明一个实施例的基于对偶学习的跨模态文字生成视频的方法流程图。

如图1所示，该基于对偶学习的跨模态文字生成视频的方法包括以下步骤：

在步骤S1中，构建文字到视频的生成模型。

其中，采用长短时记忆神经网络，融合网络和三维反卷积神经网络构建所述生成模型。

具体地，生成模型的工作过程为将文字输入处理成向量，输入到长短时记忆神经网络中，生成全局视觉向量和局部视觉向量，再将全局视觉向量和局部视觉向量输入融合网络，输出的融合向量最终输入到三维反卷积神经网络，得到生成视频。

在步骤S2中，构建视频到文字的映射模型。

其中，采用三维卷积神经网络和长短时记忆神经网络构建所述映射模型。

具体地，映射模块的工作过程为将视频输入三维卷积神经网络中，得到视频特征向量，再将视频特征向量输入长短时记忆神经网络，得到生成文字。

在步骤S3中，利用对偶学习机制联合训练生成模型和映射模型，以获得训练模型。

具体地，如图2所示，应用对偶学习机制联合训练文字到视频的生成模型，以及视频到文字的映射模型，以学习模型参数，生成训练模型。

其中，本发明实施例使用对偶学习的机制，联合学习文字到视频和视频到文字的双向映射，通过联合学习双向映射，减少文字到视频单向映射中的信息损失，使得生成视频的质量更高。

在步骤S4中，将预设文字输入训练模型中，以生成对应初始视频。

也就是说，用户向训练模型中输入文字，使用生成模块生成相对应的映射模块。或是用户语音等渠道识别出文字信息，再使用生成模块生成相应的映射模块。

具体而言，如图3所示，图中左边部分是文字到视频的映射部分，使用长短时记忆网络(LSTM)和三维反卷积神经网络(3D deCNN)模型实现，其中，先使用LSTM提取预设文字中的文字信息；再利用3D deCNN将文字信息映射到多尺度视觉信息上，从而从多尺度视觉信息生成初始视频。

在步骤S5中，利用映射模型将初始视频映射出新文字，并将新文字反馈给生成模型，以判断新文字与预设文字是否匹配，进而对初始视频进行修复，获得最终映射视频。

具体而言，如图3所示，图中的右边部分是视频到文字的映射部分，使用三维卷积神经网络(CNN)和长短时记忆网络(LSTM)模型实现，其中，先利用CNN提取初始视频中的视频信息；再利用LSTM将视频信息映射出新文字，然后该部分生成的新文字会反馈到生成模型，以判断新文字与预设文字是否匹配，若匹配，则将初始视频作为最终映射视频输出，若不匹配，则获取损失文字信息，并根据损失信息对初始视频进行修复，直至修复后的新文字与预设文字达到预设匹配度，那么此时获得的最终映射视频很好还原预设文字的内容，该最终映射视频质量更高。

简单来讲，本发明实施例将视频到文字的映射的结果作为反馈，输入到预设文字到视频的生成器中，增强文字到视频生成器的生成能力，使得生成视频和输入文字匹配度更高。

需要说明的是，在生成视频时，本发明实施例考虑视频在时间上的多尺度特征：整体特征和局部特征。整体特征反映了视频的总体场景，例如背景；局部特征反映了视频中物体的运动细节。使得从多尺度信息生成视频，使得生成视频时间连续性好、更逼真。

根据本发明实施例提出的基于对偶学习的跨模态文字生成视频的方法，使用对偶学习的机制，同时学习文字到视频和视频到文字的双向映射，通过联合学习双向映射，减少文字到视频单向映射中的信息损失，使得生成视频的质量更高；将视频到文字的映射的结果作为反馈，输入到原有的文字到视频的生成器中，增强文字到视频生成器的生成能力，使得生成视频和输入文字匹配度更高，且在样本数据很少的情况下，也能稳定表现；还考虑时间上的多尺度特征，使得生成视频时间连续性好，质量更加好。

其次参照附图描述根据本发明实施例提出的基于对偶学习的跨模态文字生成视频的系统。

图4是本发明一个实施例的基于对偶学习的跨模态文字生成视频的系统结构示意图。

如图4所示，该基于对偶学习的跨模态文字生成视频的系统10包括：第一构建模块100、第二构建模块200、训练模块300、生成模块400和修复模块500。

其中，第一构建模块100，用于构建文字到视频的生成模型。

在本发明的一个实施例中，采用长短时记忆神经网络，融合网络和三维反卷积神经网络构建所述生成模型。

第二构建模块，用于构建视频到文字的映射模型。

其中，采用三维卷积神经网络和长短时记忆神经网络构建所述映射模型。训练模块，用于利用对偶学习机制联合训练生成模型和映射模型，以获得训练模型。

生成模块，用于将预设文字输入训练模型中，以生成对应初始视频。

在本发明的一个实施例中，生成模块进一步包括：

文字信息提取单元，用于利用长短时记忆网络提取预设文字中的文字信息；

视频映射单元，用于利用三维反卷积神经网络模型将文字信息映射到多尺度视觉信息上，以生成初始视频。

修复模块，用于利用映射模型将初始视频映射出新文字，并将新文字反馈给生成模型，判断新文字与预设文字是否匹配，进而对初始视频进行修复，获得最终映射视频。

在本发明的一个实施例中，修复模块进一步包括：

视频信息提取单元，用于利用卷积神经网络提取初始视频中的视频信息；

文字映射单元，用于利用长短时记忆网络将视频信息映射出新文字；

匹配单元，用于将新文字反馈到生成模型，以判断新文字与预设文字是否匹配，若匹配，则将初始视频作为最终映射视频，若不匹配，则获取损失信息，并根据损失信息对初始视频进行修复，获得最终映射视频。

需要说明的是，前述对基于对偶学习的跨模态文字生成视频的方法实施例的解释说明也适用于该系统，此处不再赘述。

根据本发明实施例提出的基于对偶学习的跨模态文字生成视频的系统，使用对偶学习的机制，同时学习文字到视频和视频到文字的双向映射，通过联合学习双向映射，减少文字到视频单向映射中的信息损失，使得生成视频的质量更高；将视频到文字的映射的结果作为反馈，输入到原有的文字到视频的生成器中，增强文字到视频生成器的生成能力，使得生成视频和输入文字匹配度更高，且在样本数据很少的情况下，也能稳定表现；还考虑时间上的多尺度特征，使得生成视频时间连续性好，质量更加好。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于对偶学习的跨模态文字生成视频的方法，其特征在于，包括以下步骤：

构建文字到视频的生成模型；

构建视频到文字的映射模型；

利用对偶学习机制联合训练所述生成模型和所述映射模型，以获得训练模型；

将预设文字输入所述训练模型中，以生成对应初始视频；

利用所述映射模型将所述初始视频映射出新文字，并将所述新文字反馈给所述生成模型，以判断所述新文字与所述预设文字是否匹配，进而对所述初始视频进行修复，获得最终映射视频，进一步包括：

利用卷积神经网络提取所述初始视频中的视频信息；

利用长短时记忆网络将所述视频信息映射出所述新文字；

将所述新文字反馈到所述生成模型，以判断所述新文字与所述预设文字是否匹配，若匹配，则将所述初始视频作为所述最终映射视频，若不匹配，则获取损失信息，并根据所述损失信息对所述初始视频进行修复，获得所述最终映射视频。

2.根据权利要求1所述的基于对偶学习的跨模态文字生成视频的方法，其特征在于，采用长短时记忆神经网络，融合网络和三维反卷积神经网络构建所述生成模型。

3.根据权利要求1所述的基于对偶学习的跨模态文字生成视频的方法，其特征在于，采用三维卷积神经网络和长短时记忆神经网络构建所述映射模型。

4.根据权利要求1所述的基于对偶学习的跨模态文字生成视频的方法，其特征在于，所述将预设文字输入所述训练模型中，以生成对应初始视频，进一步包括：

利用长短时记忆网络提取所述预设文字中的文字信息；

利用三维反卷积神经网络将所述文字信息映射到多尺度视觉信息上，以生成所述初始视频。

5.一种基于对偶学习的跨模态文字生成视频的系统，其特征在于，包括：

第一构建模块，用于构建文字到视频的生成模型；

第二构建模块，用于构建视频到文字的映射模型；

训练模块，用于利用对偶学习机制联合训练所述生成模型和所述映射模型，以获得训练模型；

生成模块，用于将预设文字输入所述训练模型中，以生成对应初始视频；

修复模块，用于利用所述映射模型将所述初始视频映射出新文字，并将所述新文字反馈给所述生成模型，判断所述新文字与所述预设文字是否匹配，进而对所述初始视频进行修复，获得最终映射视频；

其中，所述修复模块，进一步包括：

视频信息提取单元，用于利用卷积神经网络提取所述初始视频中的视频信息；

文字映射单元，用于利用长短时记忆网络将所述视频信息映射出所述新文字；

匹配单元，用于将所述新文字反馈到所述生成模型，以判断所述新文字与所述预设文字是否匹配，若匹配，则将所述初始视频作为所述最终映射视频，若不匹配，则获取损失信息，并根据所述损失信息对所述初始视频进行修复，获得所述最终映射视频。

6.根据权利要求5所述的基于对偶学习的跨模态文字生成视频的系统，其特征在于，采用长短时记忆神经网络，融合网络和三维反卷积神经网络构建所述生成模型。

7.根据权利要求5所述的基于对偶学习的跨模态文字生成视频的系统，其特征在于，采用三维卷积神经网络和长短时记忆神经网络构建所述映射模型。

8.根据权利要求5所述的基于对偶学习的跨模态文字生成视频的系统，其特征在于，所述生成模块进一步包括：

文字信息提取单元，用于利用长短时记忆网络提取所述预设文字中的文字信息；

视频映射单元，用于利用三维反卷积神经网络模型将所述文字信息映射到多尺度视觉信息上，以生成所述初始视频。