CN110717054B - 基于对偶学习的跨模态文字生成视频的方法及系统 - Google Patents

基于对偶学习的跨模态文字生成视频的方法及系统 Download PDF

Info

Publication number
CN110717054B
CN110717054B CN201910872485.6A CN201910872485A CN110717054B CN 110717054 B CN110717054 B CN 110717054B CN 201910872485 A CN201910872485 A CN 201910872485A CN 110717054 B CN110717054 B CN 110717054B
Authority
CN
China
Prior art keywords
video
mapping
characters
model
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910872485.6A
Other languages
English (en)
Other versions
CN110717054A (zh
Inventor
朱文武
刘月
王鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201910872485.6A priority Critical patent/CN110717054B/zh
Publication of CN110717054A publication Critical patent/CN110717054A/zh
Application granted granted Critical
Publication of CN110717054B publication Critical patent/CN110717054B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/435Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/438Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Processing Or Creating Images (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于对偶学习的跨模态文字生成视频的方法及系统,其中,该方法包括以下步骤:构建文字到视频的生成模型;构建视频到文字的映射模型;利用对偶学习机制联合训练生成模型和映射模型,以获得训练模型;将预设文字输入训练模型中,以生成对应初始视频;利用映射模型将初始视频映射出新文字,并将新文字反馈给生成模型,以判断新文字与预设文字是否匹配,进而对初始视频进行修复,获得最终映射视频。该方法考虑文字信息和视频信息之间的双向映射,更好地实现文字到视频的生成,同时,也使得生成视频的质量更高,与用户需求匹配度更高。

Description

基于对偶学习的跨模态文字生成视频的方法及系统
技术领域
本发明涉及多模态生成模型技术领域,特别涉及一种基于对偶学习的跨模态文字生成视频的方法及系统。
背景技术
当前,在用户与机器的语言、视觉交互场景方面,用户体验非常重要。用户输入文字或语言,机器能够根据用户输入生成相对应的视频,但其生成的视频是否逼真以及与用户输入是否一致上都还存在一些问题。如,现有的由文字生成视频的方法只考虑文字到视频的单向映射,将文字数据和视频数据映射到同一隐空间,再根据隐空间数据点重构视频,达到从文字生成视频的目的。在技术层面,具体的步骤是先将文字映射到隐空间,再从隐空间生成对应的视频。
但这种方法没有考虑到文字和视频包含的信息是不对等、不平衡的:文字通常信息较少;视频通常信息较多,包含了物体、运动等多方面的信息。将文字和视频共同映射到同一个空间会损失信息,导致生成视频的效果不好、与输入文字不匹配等问题。虽然,已有解决该问题的技术,但这类的方法均是训练一个判别器判别视频是真或假、是否与输入文字相匹配。这样的学习过程不稳定,且生成的视频通常是类似的,不具有多样性。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于对偶学习的跨模态文字生成视频的方法,该方法考虑文字信息和视频信息之间的双向映射,更好地实现文字到视频的生成,也考虑视频在时间上的多尺度特征,学习文字到视频多尺度特征的映射,生成模型表现更好。
本发明的另一个目的在于提出一种基于对偶学习的跨模态文字生成视频的系统。
为达到上述目的,本发明一方面提出了基于对偶学习的跨模态文字生成视频的方法,包括以下步骤:构建文字到视频的生成模型;构建视频到文字的映射模型;利用对偶学习机制联合训练所述生成模型和所述映射模型,以获得训练模型;将预设文字输入所述训练模型中,以生成对应初始视频;利用所述映射模型将所述初始视频映射出新文字,并将所述新文字反馈给所述生成模型,判断所述新文字与所述预设文字是否匹配,进而对所述初始视频进行修复,获得最终映射视频。
本发明实施例的基于对偶学习的跨模态文字生成视频的方法,使用对偶学习的机制,同时学习文字到视频和视频到文字的双向映射,通过联合学习双向映射,减少文字到视频单向映射中的信息损失,使得生成视频的质量更高;将视频到文字的映射的结果作为反馈,输入到原有的文字到视频的生成器中,增强文字到视频生成器的生成能力,使得生成视频和输入文字匹配度更高,且在样本数据很少的情况下,也能稳定表现;还考虑时间上的多尺度特征,使得生成视频时间连续性好,质量更加好。
另外,根据本发明上述实施例的基于对偶学习的跨模态文字生成视频的方法还可以具有以下附加的技术特征:
在本发明的一个实施例中,所述生成模型中采用长短时记忆神经网络,融合网络和三维反卷积神经网络。
在本发明的一个实施例中,所述映射模型中采用三维卷积神经网络和长短时记忆神经网络。
在本发明的一个实施例中,所述将预设文字输入所述训练模型中,以生成对应初始视频,进一步包括:
利用长短时记忆网络提取所述预设文字中的文字信息,再利用三维反卷积神经网络模型将所述文字信息映射到多尺度视觉信息上,以生成所述初始视频。
在本发明的一个实施例中,所述利用所述映射模型将所述初始视频映射出新文字,并将所述新文字反馈给所述生成模型,判断所述新文字与所述预设文字是否匹配,进而对所述初始视频进行修复,获得最终映射视频,进一步包括:
利用三维卷积神经网络提取所述初始视频中的视频信息,并利用长短时记忆网络将所述视频信息映射出所述新文字,并反馈到所述生成模型,以判断所述新文字与所述预设文字是否匹配,若匹配,则将所述初始视频作为所述最终映射视频,若不匹配,则获取损失信息,并根据所述损失信息对所述初始视频进行修复,获得所述最终映射视频。
为达到上述目的,本发明另一方面提出了一种基于对偶学习的跨模态文字生成视频的系统,包括:第一构建模块,用于构建文字到视频的生成模型;第二构建模块,用于构建视频到文字的映射模型;训练模块,用于利用对偶学习机制联合训练所述生成模型和所述映射模型,以获得训练模型;生成模块,用于将预设文字输入所述训练模型中,以生成对应初始视频;修复模块,用于利用所述映射模型将所述初始视频映射出新文字,并将所述新文字反馈给所述生成模型,判断所述新文字与所述预设文字是否匹配,进而对所述初始视频进行修复,获得最终映射视频。
本发明实施例的基于对偶学习的跨模态文字生成视频的系统,使用对偶学习的机制,同时学习文字到视频和视频到文字的双向映射,通过联合学习双向映射,减少文字到视频单向映射中的信息损失,使得生成视频的质量更高;将视频到文字的映射的结果作为反馈,输入到原有的文字到视频的生成器中,增强文字到视频生成器的生成能力,使得生成视频和输入文字匹配度更高,且在样本数据很少的情况下,也能稳定表现;还考虑时间上的多尺度特征,使得生成视频时间连续性好,质量更加好。
另外,根据本发明上述实施例的基于对偶学习的跨模态文字生成视频的系统还可以具有以下附加的技术特征:
在本发明的一个实施例中,所述生成模型中采用长短时记忆神经网络,融合网络和三维反卷积神经网络。
在本发明的一个实施例中,所述映射模型中采用三维卷积神经网络和长短时记忆神经网络。
在本发明的一个实施例中,所述生成模块进一步包括:文字信息提取单元,用于利用长短时记忆网络提取所述预设文字中的文字信息;视频映射单元,用于利用三维反卷积神经网络模型将所述文字信息映射到多尺度视觉信息上,以生成所述初始视频。
在本发明的一个实施例中,所述修复模块进一步包括:视频信息提取单元,用于三维利用卷积神经网络提取所述初始视频中的视频信息;文字映射单元,用于利用长短时记忆网络将所述视频信息映射出所述新文字;匹配单元,用于将所述新文字反馈到所述生成模型,以判断所述新文字与所述预设文字是否匹配,若匹配,则将所述初始视频作为所述最终映射视频,若不匹配,则获取损失信息,并根据所述损失信息对所述初始视频进行修复,获得所述最终映射视频。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的一种基于对偶学习的跨模态文字生成视频的方法流程图;
图2为根据本发明实施例的另一种基于对偶学习的跨模态文字生成视频的方法流程图;
图3为根据本发明实施例的基于对偶学习的跨模态文字生成视频的方法工作原理图;
图4为根据本发明实施例的基于对偶学习的跨模态文字生成视频的系统结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的基于对偶学习的跨模态文字生成视频的方法及系统,首先将参照附图描述根据本发明实施例提出的基于对偶学习的跨模态文字生成视频的方法。
图1是本发明一个实施例的基于对偶学习的跨模态文字生成视频的方法流程图。
如图1所示,该基于对偶学习的跨模态文字生成视频的方法包括以下步骤:
在步骤S1中,构建文字到视频的生成模型。
其中,采用长短时记忆神经网络,融合网络和三维反卷积神经网络构建所述生成模型。
具体地,生成模型的工作过程为将文字输入处理成向量,输入到长短时记忆神经网络中,生成全局视觉向量和局部视觉向量,再将全局视觉向量和局部视觉向量输入融合网络,输出的融合向量最终输入到三维反卷积神经网络,得到生成视频。
在步骤S2中,构建视频到文字的映射模型。
其中,采用三维卷积神经网络和长短时记忆神经网络构建所述映射模型。
具体地,映射模块的工作过程为将视频输入三维卷积神经网络中,得到视频特征向量,再将视频特征向量输入长短时记忆神经网络,得到生成文字。
在步骤S3中,利用对偶学习机制联合训练生成模型和映射模型,以获得训练模型。
具体地,如图2所示,应用对偶学习机制联合训练文字到视频的生成模型,以及视频到文字的映射模型,以学习模型参数,生成训练模型。
其中,本发明实施例使用对偶学习的机制,联合学习文字到视频和视频到文字的双向映射,通过联合学习双向映射,减少文字到视频单向映射中的信息损失,使得生成视频的质量更高。
在步骤S4中,将预设文字输入训练模型中,以生成对应初始视频。
也就是说,用户向训练模型中输入文字,使用生成模块生成相对应的映射模块。或是用户语音等渠道识别出文字信息,再使用生成模块生成相应的映射模块。
具体而言,如图3所示,图中左边部分是文字到视频的映射部分,使用长短时记忆网络(LSTM)和三维反卷积神经网络(3D deCNN)模型实现,其中,先使用LSTM提取预设文字中的文字信息;再利用3D deCNN将文字信息映射到多尺度视觉信息上,从而从多尺度视觉信息生成初始视频。
在步骤S5中,利用映射模型将初始视频映射出新文字,并将新文字反馈给生成模型,以判断新文字与预设文字是否匹配,进而对初始视频进行修复,获得最终映射视频。
具体而言,如图3所示,图中的右边部分是视频到文字的映射部分,使用三维卷积神经网络(CNN)和长短时记忆网络(LSTM)模型实现,其中,先利用CNN提取初始视频中的视频信息;再利用LSTM将视频信息映射出新文字,然后该部分生成的新文字会反馈到生成模型,以判断新文字与预设文字是否匹配,若匹配,则将初始视频作为最终映射视频输出,若不匹配,则获取损失文字信息,并根据损失信息对初始视频进行修复,直至修复后的新文字与预设文字达到预设匹配度,那么此时获得的最终映射视频很好还原预设文字的内容,该最终映射视频质量更高。
简单来讲,本发明实施例将视频到文字的映射的结果作为反馈,输入到预设文字到视频的生成器中,增强文字到视频生成器的生成能力,使得生成视频和输入文字匹配度更高。
需要说明的是,在生成视频时,本发明实施例考虑视频在时间上的多尺度特征:整体特征和局部特征。整体特征反映了视频的总体场景,例如背景;局部特征反映了视频中物体的运动细节。使得从多尺度信息生成视频,使得生成视频时间连续性好、更逼真。
根据本发明实施例提出的基于对偶学习的跨模态文字生成视频的方法,使用对偶学习的机制,同时学习文字到视频和视频到文字的双向映射,通过联合学习双向映射,减少文字到视频单向映射中的信息损失,使得生成视频的质量更高;将视频到文字的映射的结果作为反馈,输入到原有的文字到视频的生成器中,增强文字到视频生成器的生成能力,使得生成视频和输入文字匹配度更高,且在样本数据很少的情况下,也能稳定表现;还考虑时间上的多尺度特征,使得生成视频时间连续性好,质量更加好。
其次参照附图描述根据本发明实施例提出的基于对偶学习的跨模态文字生成视频的系统。
图4是本发明一个实施例的基于对偶学习的跨模态文字生成视频的系统结构示意图。
如图4所示,该基于对偶学习的跨模态文字生成视频的系统10包括:第一构建模块100、第二构建模块200、训练模块300、生成模块400和修复模块500。
其中,第一构建模块100,用于构建文字到视频的生成模型。
在本发明的一个实施例中,采用长短时记忆神经网络,融合网络和三维反卷积神经网络构建所述生成模型。
第二构建模块,用于构建视频到文字的映射模型。
其中,采用三维卷积神经网络和长短时记忆神经网络构建所述映射模型。训练模块,用于利用对偶学习机制联合训练生成模型和映射模型,以获得训练模型。
生成模块,用于将预设文字输入训练模型中,以生成对应初始视频。
在本发明的一个实施例中,生成模块进一步包括:
文字信息提取单元,用于利用长短时记忆网络提取预设文字中的文字信息;
视频映射单元,用于利用三维反卷积神经网络模型将文字信息映射到多尺度视觉信息上,以生成初始视频。
修复模块,用于利用映射模型将初始视频映射出新文字,并将新文字反馈给生成模型,判断新文字与预设文字是否匹配,进而对初始视频进行修复,获得最终映射视频。
在本发明的一个实施例中,修复模块进一步包括:
视频信息提取单元,用于利用卷积神经网络提取初始视频中的视频信息;
文字映射单元,用于利用长短时记忆网络将视频信息映射出新文字;
匹配单元,用于将新文字反馈到生成模型,以判断新文字与预设文字是否匹配,若匹配,则将初始视频作为最终映射视频,若不匹配,则获取损失信息,并根据损失信息对初始视频进行修复,获得最终映射视频。
需要说明的是,前述对基于对偶学习的跨模态文字生成视频的方法实施例的解释说明也适用于该系统,此处不再赘述。
根据本发明实施例提出的基于对偶学习的跨模态文字生成视频的系统,使用对偶学习的机制,同时学习文字到视频和视频到文字的双向映射,通过联合学习双向映射,减少文字到视频单向映射中的信息损失,使得生成视频的质量更高;将视频到文字的映射的结果作为反馈,输入到原有的文字到视频的生成器中,增强文字到视频生成器的生成能力,使得生成视频和输入文字匹配度更高,且在样本数据很少的情况下,也能稳定表现;还考虑时间上的多尺度特征,使得生成视频时间连续性好,质量更加好。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种基于对偶学习的跨模态文字生成视频的方法,其特征在于,包括以下步骤:
构建文字到视频的生成模型;
构建视频到文字的映射模型;
利用对偶学习机制联合训练所述生成模型和所述映射模型,以获得训练模型;
将预设文字输入所述训练模型中,以生成对应初始视频;
利用所述映射模型将所述初始视频映射出新文字,并将所述新文字反馈给所述生成模型,以判断所述新文字与所述预设文字是否匹配,进而对所述初始视频进行修复,获得最终映射视频,进一步包括:
利用卷积神经网络提取所述初始视频中的视频信息;
利用长短时记忆网络将所述视频信息映射出所述新文字;
将所述新文字反馈到所述生成模型,以判断所述新文字与所述预设文字是否匹配,若匹配,则将所述初始视频作为所述最终映射视频,若不匹配,则获取损失信息,并根据所述损失信息对所述初始视频进行修复,获得所述最终映射视频。
2.根据权利要求1所述的基于对偶学习的跨模态文字生成视频的方法,其特征在于,采用长短时记忆神经网络,融合网络和三维反卷积神经网络构建所述生成模型。
3.根据权利要求1所述的基于对偶学习的跨模态文字生成视频的方法,其特征在于,采用三维卷积神经网络和长短时记忆神经网络构建所述映射模型。
4.根据权利要求1所述的基于对偶学习的跨模态文字生成视频的方法,其特征在于,所述将预设文字输入所述训练模型中,以生成对应初始视频,进一步包括:
利用长短时记忆网络提取所述预设文字中的文字信息;
利用三维反卷积神经网络将所述文字信息映射到多尺度视觉信息上,以生成所述初始视频。
5.一种基于对偶学习的跨模态文字生成视频的系统,其特征在于,包括:
第一构建模块,用于构建文字到视频的生成模型;
第二构建模块,用于构建视频到文字的映射模型;
训练模块,用于利用对偶学习机制联合训练所述生成模型和所述映射模型,以获得训练模型;
生成模块,用于将预设文字输入所述训练模型中,以生成对应初始视频;
修复模块,用于利用所述映射模型将所述初始视频映射出新文字,并将所述新文字反馈给所述生成模型,判断所述新文字与所述预设文字是否匹配,进而对所述初始视频进行修复,获得最终映射视频;
其中,所述修复模块,进一步包括:
视频信息提取单元,用于利用卷积神经网络提取所述初始视频中的视频信息;
文字映射单元,用于利用长短时记忆网络将所述视频信息映射出所述新文字;
匹配单元,用于将所述新文字反馈到所述生成模型,以判断所述新文字与所述预设文字是否匹配,若匹配,则将所述初始视频作为所述最终映射视频,若不匹配,则获取损失信息,并根据所述损失信息对所述初始视频进行修复,获得所述最终映射视频。
6.根据权利要求5所述的基于对偶学习的跨模态文字生成视频的系统,其特征在于,采用长短时记忆神经网络,融合网络和三维反卷积神经网络构建所述生成模型。
7.根据权利要求5所述的基于对偶学习的跨模态文字生成视频的系统,其特征在于,采用三维卷积神经网络和长短时记忆神经网络构建所述映射模型。
8.根据权利要求5所述的基于对偶学习的跨模态文字生成视频的系统,其特征在于,所述生成模块进一步包括:
文字信息提取单元,用于利用长短时记忆网络提取所述预设文字中的文字信息;
视频映射单元,用于利用三维反卷积神经网络模型将所述文字信息映射到多尺度视觉信息上,以生成所述初始视频。
CN201910872485.6A 2019-09-16 2019-09-16 基于对偶学习的跨模态文字生成视频的方法及系统 Active CN110717054B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910872485.6A CN110717054B (zh) 2019-09-16 2019-09-16 基于对偶学习的跨模态文字生成视频的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910872485.6A CN110717054B (zh) 2019-09-16 2019-09-16 基于对偶学习的跨模态文字生成视频的方法及系统

Publications (2)

Publication Number Publication Date
CN110717054A CN110717054A (zh) 2020-01-21
CN110717054B true CN110717054B (zh) 2022-07-15

Family

ID=69210515

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910872485.6A Active CN110717054B (zh) 2019-09-16 2019-09-16 基于对偶学习的跨模态文字生成视频的方法及系统

Country Status (1)

Country Link
CN (1) CN110717054B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112995537B (zh) * 2021-02-09 2023-02-24 成都视海芯图微电子有限公司 一种视频构建方法及系统
CN115311595B (zh) * 2022-06-30 2023-11-03 中国科学院自动化研究所 视频特征提取方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647255A (zh) * 2018-04-23 2018-10-12 清华大学 基于注意力回归的视频时序句子定位方法及装置
CN109684912A (zh) * 2018-11-09 2019-04-26 中国科学院计算技术研究所 一种基于信息损失函数的视频描述方法和系统
CN109767422A (zh) * 2018-12-08 2019-05-17 深圳市勘察研究院有限公司 基于深度学习的管道检测识别方法、存储介质及机器人
CN109978021A (zh) * 2019-03-07 2019-07-05 北京大学深圳研究生院 一种基于文本不同特征空间的双流式视频生成方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647255A (zh) * 2018-04-23 2018-10-12 清华大学 基于注意力回归的视频时序句子定位方法及装置
CN109684912A (zh) * 2018-11-09 2019-04-26 中国科学院计算技术研究所 一种基于信息损失函数的视频描述方法和系统
CN109767422A (zh) * 2018-12-08 2019-05-17 深圳市勘察研究院有限公司 基于深度学习的管道检测识别方法、存储介质及机器人
CN109978021A (zh) * 2019-03-07 2019-07-05 北京大学深圳研究生院 一种基于文本不同特征空间的双流式视频生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《基于高层语义的跨模态应用研究》;潘滢炜;《中国博士学位论文全文数据库 信息科技辑》;20181015(第10期);正文第29-31、64-67页 *
《对偶学习的理论和实验研究》;夏应策;《中国博士学位论文全文数据库 信息科技辑》;20180915(第9期);正文第3、43-44页 *

Also Published As

Publication number Publication date
CN110717054A (zh) 2020-01-21

Similar Documents

Publication Publication Date Title
CN110647636B (zh) 交互方法、装置、终端设备及存储介质
EP4009231A1 (en) Video frame information labeling method, device and apparatus, and storage medium
KR102127153B1 (ko) 사이클 gan과 세그맨테이션을 사용한 깊이 추정 방법 및 시스템
CN110717054B (zh) 基于对偶学习的跨模态文字生成视频的方法及系统
CN109472764B (zh) 图像合成和图像合成模型训练的方法、装置、设备和介质
CN112527115B (zh) 用户形象生成方法、相关装置及计算机程序产品
EP3885966A1 (en) Method and device for generating natural language description information
CN115064020B (zh) 基于数字孪生技术的智慧教学方法、系统及存储介质
CN114820871B (zh) 字体生成方法、模型的训练方法、装置、设备和介质
CN112149642A (zh) 一种文本图像识别方法和装置
KR102546631B1 (ko) 영상 데이터 증식 장치 및 방법
JP2022014776A5 (zh)
KR20190125029A (ko) 시계열 적대적인 신경망 기반의 텍스트-비디오 생성 방법 및 장치
CN109754383A (zh) 一种特效视频的生成方法及设备
CN112866577B (zh) 图像的处理方法、装置、计算机可读介质及电子设备
CN117234369B (zh) 数字人交互方法及系统、计算机可读存储介质、数字人设备
WO2021104274A1 (zh) 图文联合表征的搜索方法、系统、服务器和存储介质
CN113822114A (zh) 一种图像处理方法、相关设备及计算机可读存储介质
KR20210131221A (ko) 이미지를 처리하는 방법, 장치, 전자 기기, 저장 매체 및 프로그램
CN116757923A (zh) 一种图像生成方法、装置、电子设备及存储介质
CN116704405A (zh) 行为识别方法、电子设备及存储介质
CN115984949A (zh) 一种带有注意力机制的低质量人脸图像识别方法及设备
CN111597444B (zh) 一种搜索方法、装置、服务器、存储介质
KR20230068062A (ko) 스타일 이미지를 생성하는 장치
CN111126479A (zh) 一种基于无监督独特性优化的图像描述生成方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant