CN115249062B - 一种文本生成视频的网络模型、方法及装置 - Google Patents

一种文本生成视频的网络模型、方法及装置 Download PDF

Info

Publication number
CN115249062B
CN115249062B CN202211154367.XA CN202211154367A CN115249062B CN 115249062 B CN115249062 B CN 115249062B CN 202211154367 A CN202211154367 A CN 202211154367A CN 115249062 B CN115249062 B CN 115249062B
Authority
CN
China
Prior art keywords
text
video
network
module
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211154367.XA
Other languages
English (en)
Other versions
CN115249062A (zh
Inventor
肖春霞
李子青
罗飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202211154367.XA priority Critical patent/CN115249062B/zh
Publication of CN115249062A publication Critical patent/CN115249062A/zh
Application granted granted Critical
Publication of CN115249062B publication Critical patent/CN115249062B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于知识蒸馏和视觉循环单元的文本生成视频网络模型、方法及装置。首先公开了一种通过知识蒸馏从文本生成图像模型获取知识增强文本生成视频模型效果的方法。将文本生成图像模型作为教师网络,从中蒸馏文本到视觉内容映射的知识,这些知识作为生成视频中每一帧共享的抽象约束,从而提升生成每一帧的文本图像语意一致性。同时本发明公开了一种视觉循环单元,该模块迭代地根据输入文本和先前生成的帧预测下一帧,旨在改善视频的时序连贯性。

Description

一种文本生成视频的网络模型、方法及装置
技术领域
本发明涉及一种基于知识蒸馏和视觉循环单元的文本生成视频网络模型、方法及装置,尤其是能够生成文本-视觉语义一致性更好、时序连贯性更佳的视频。本发明属于计算机视觉中的图文互译领域,尤其涉及生成对抗网络、循环神经网络和知识蒸馏策略。
背景技术
文本生成视频(text to video generation, T2V)是一项跨模态的转换任务,旨在从文本描述生成与输入文本语义一致且真实连贯的视频,目前常用条件生成对抗网络来实现基于输入文本的视频生成,该任务有两个关键问题:1)文本-视觉语义一致性和 2)视频帧之间的时序连贯性。
对于文本-视觉语义一致性问题现有方法采取添加额外损失约束的手段,但其效果有限。现有的文本生成图像模型能很好的捕捉文本-视觉映射信息,然而现有的T2V工作忽略了文本生成图像模型的参考价值。对于视频帧之间的时序连贯性问题,现有方法对生成器和判别器分别加以改进:对于生成器,TGANs-C和BoGAN采用三维反卷积层来捕获全局时间信息,TFGAN和IRCGAN融合了二维反卷积层和时序处理模块,以捕获潜在空间中的时间信息;对于判别器,现有方法采用了三个判别器,从视频、帧和运动的角度来判断结果真假以及是否与文本一致,从而提高生成对抗网络的判别能力。然而,这些方法没有依据T2V任务的序列生成序列本质来设计网络结构,故这些结构不能很好的捕捉序列节点之间的关联。
发明内容
本发明旨在针对现有技术的不足,提供了一种基于知识蒸馏和视觉循环单元的文本生成视频网络模型、方法及装置,利用知识蒸馏(knowledge distillation,KD)得到文本生成图片模型中视觉-文本映射的知识,从而提升文本生成视频模型的生成能力,提高结果的视觉-文本语义一致性;为解决时序一致性问题,本发明针对图片序列生成的问题公开了一种新的视觉循环单元(visual recurrent unit, VRU)模块,该模块提供了一种新的循环神经网络和反卷积层之间的链接方式,使得网络的结构更合理,该模块能够在生成视频帧序列的同时能够保证帧与帧之间的时序连贯性。解决了文本-视觉语义一致性问题。
根据本发明的基于KD和VRU的文本生成视频网络,其包括初始输入文本,文本编码模块,视频帧生成模块,知识蒸馏模块和判别模块。初始输入文本负责提供生成视频所需要的文本描述,其紧连着文本编码系统。文本编码模块通过双向长短记忆循环神经网络将输入文本编码为单词特征向量和句子特征向量,再对句子特征向量通过条件增强模块采样得到连续的向量特征表示。条件增强模块即从独立的高斯分布中随机抽样潜空间向量特征表示,其中均值和协方差矩阵是句子特征向量的函数。在给定少量图像文本对的情况下,利用条件增强模块可以产生更多的训练对,其引入的随机性有利于对文本到图像的翻译建模,因为同一个句子通常对应于具有各种姿势和外观的对象,最终结果将更具有鲁棒性。
视频帧生成模块包括本专利提出的VRU,以及注意力模块和反卷积层。其中VRU模 块由门控循环单元、全连接层和反卷积生成层组成,其创新点在于改进了门控循环单元和 反卷积层间的连接方式,在时间步t,VRU将上一原始帧
Figure DEST_PATH_IMAGE001
和隐藏层
Figure DEST_PATH_IMAGE002
输入到门控循 环单元,再依次通过全连接层和反卷积生成层生成新的原始视频帧
Figure DEST_PATH_IMAGE003
Figure DEST_PATH_IMAGE004
由门控循环单 元更新以表示来自输入文本的时间信息和语义特征。同时,视频帧生成系统还通过注意力 模块使每一原始视频帧获得上下文编码向量;最后,将添加了上下文信息的原始帧通过二 维反卷积层生成最终视频帧。视频帧生成系统迭代重复以上步骤直到生成目标长度的视 频。
知识蒸馏模块包括教师网络、中间特征蒸馏模块和感知损失蒸馏模块,该系统创新地将文本生成图片网络中的知识采用KD技术蒸馏到文本生成视频网络中,用以提升视频帧视觉质量。其中,教师网络是一个预训练的文本生成图像网络,使用和文本生成视频网络相同的数据集进行预训练,该网络的输入是文本,生成结果是文本对应的图像,其特征是生成的图像质量更真实更符合语意;中间特征蒸馏模块采用改进的中间特征蒸馏思想,提取文本生成图像网络中间层参数中包含的视觉-文本映射知识,并创新地以一对多的形式将该知识作为不同时间步连接的反卷积层的共享抽象特征,中间层参数中的知识采用核对齐损失和注意力图进行提取,通过改进这两个损失优化生成器帮助其更好的生成原始帧;利用改进的感知损失蒸馏模块提取高层语义信息,具体来说将教师网络的判别器作为感知损失提取器,计算教师网络生成的图片和每一帧视频图像的感知损失差,并对所有帧的感知损失取平均得到视频感知感知损失用来优化生成器。
判别模块采用TGANs-C提出的结构,由视频判别器、帧判别器和运动判别器组成,从三个维度来判别结果的真假以及是否与文本一致,从而得到对抗损失用来更新生成器。
基于同一发明构思,本发明还包含一种,基于基于知识蒸馏和视觉循环单元的文本生成视频方法,其包括以下步骤:
步骤S1:输入视频的文字描述,使用双向长短记忆循环神经网络将输入文本编码为单词特征矩阵和句子特征矩阵;
步骤S2:将得到的句子特征向量通过条件增强模块采样得到连续的向量特征表示,再串联一个从正态分布中采样的噪声向量,输入到VRU迭代生成原始视频帧;
步骤S3:对负责生成图像的VRU中反卷积层中间层参数进行改进的中间特征知识 蒸馏。中间层参数包含视觉-文本映射知识,以一对多的形式对教师网络生成器中间层和本 模型反卷积层中间层参数计算核对齐损失和注意力图损失,通过梯度下降优化损失
Figure DEST_PATH_IMAGE005
以提供不同时间步原始帧的共享抽象特征,进而增强模型的语义一致性能力;具 体而言,
Figure DEST_PATH_IMAGE006
表示VRU在t时间步的中间层的损失函数,其中
Figure DEST_PATH_IMAGE007
表示被选中的中间层集合,p表 示被选中的某一中间层,
Figure DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE009
分别表示教师生成器和VRU被选中中间层的参数,
Figure DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE011
分别表示教师生成器和VRU被选中中间层参数的注意力图,
Figure DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE013
为超参数,KA(·)表示核对齐损失,该损失前的负号表示通过梯度下降提升参数的核对齐 相似性;最终总的中间特征损失为
Figure DEST_PATH_IMAGE014
,即所有时间步中间层所得损失 的均值。
步骤S4:将每一原始视频帧通过注意力模块获得上下文编码向量,再将添加了上下文信息的原始帧通过二维反卷积层生成最终视频帧。
步骤S5:将生成的视频输入视频判别网络、帧判别网络和运动判别网络,从三个维度判别视频的真假以及是否与文本一致,将得到对抗损失用来更新生成器。
步骤S6:对生成的最终帧计算感知损失蒸馏,使用预训练的教师网络判别器
Figure DEST_PATH_IMAGE015
从 高维度分别打分生成的视频帧及教师网络生成结果,通过梯度下降优化他们的差值增强本 模型的语义一致性能力,即对t时间步生成的单个帧,该过程可表示为:
Figure DEST_PATH_IMAGE016
其中输入教师网络生成图片
Figure DEST_PATH_IMAGE017
得到
Figure DEST_PATH_IMAGE018
对教师生成器的打分,输入本模型生成帧
Figure DEST_PATH_IMAGE019
得到
Figure DEST_PATH_IMAGE020
对本生成器的打分,
Figure DEST_PATH_IMAGE021
为超参数,最终总的感知损失为
Figure DEST_PATH_IMAGE022
进一步地,步骤S3的具体过程为:
从二维高斯分布中随机取样初始原始帧
Figure DEST_PATH_IMAGE023
,并将句子编码和一个随机噪音拼在 一起作为初始状态
Figure DEST_PATH_IMAGE024
;在时间步t,视觉循环单元根据上一原始帧和隐藏层信息生成新的 原始帧。即
Figure DEST_PATH_IMAGE025
Figure DEST_PATH_IMAGE026
Figure DEST_PATH_IMAGE027
将上一原始帧
Figure DEST_PATH_IMAGE028
和隐藏层信息
Figure DEST_PATH_IMAGE029
作为输入,并生成该时间步新的原始视频帧
Figure DEST_PATH_IMAGE030
,隐藏层信息
Figure DEST_PATH_IMAGE031
由VRU中的门控循环 单元更新以表示来自输入文本的时间信息和语义特征;
迭代生成直到生成需要的视频帧长度。
步骤S7中包含的帧鉴别器继承了教师网络中64x64分辨率图像鉴别器的架构和预训练的权重,同时我们在训练过程中微调帧鉴别器的权重。这样的方法避免了在训练早期随机初始化权重的不稳定性问题。
模型用到的超参λ KA λ Attn λ perc 根据用到的数据集选定,如使用SBMG数据集可分别选择0.7,60,0.0001。
通过本发明的知识蒸馏和视觉循环网络的文本生成视频的方法,可以生成视觉质量更高,且更加连贯的视频。
本发明的优点在于:
1)通过知识蒸馏技术借助了成熟的文本生成图像网络,增强了文本生成视频网络结果的语义一致性;
2)提出了一种新的视觉循环单元结构,该结构可以很好的捕捉序列节点之间的关联,使得前后帧时序连贯性更好。
附图说明
图1为本发明提出的基于知识蒸馏和视觉循环单元的文本生成视频网络示意图。
图2为本发明知识蒸馏模块的示意图。
图3为本发明提出的视觉循环单元内部结构示意图。
具体实施方式
下面通过具体实施例和附图对本发明作进一步的说明。本发明的实施例是为了使本发明的目的、技术方案及优点更加清晰明了,更好地使本领域的技术人员理解本发明,并不对本发明作任何的限制。
术语解释:
知识蒸馏(knowledge distillation,KD):知识蒸馏是指通过在繁琐的模型中提炼知识将笨拙的模型(教师)的学习行为转移到较小的模型(学生)的方法。
双向长短记忆循环神经网络(bi-directional Long Short-Term Memory NeuralNetwork, Bi-LSTM):在单向的循环神经网络中,模型实际上只使用到了“上文”的信息,而没有考虑到“下文”的信息。在实际场景中,预测可能需要使用到整个输入序列的信息。双向长短记忆循环神经网络在LSTM的基础上,结合了输入序列在前向和后向两个方向上的信息。对于t时刻的输出,前向LSTM层具有输入序列中t时刻以及之前时刻的信息,而后向LSTM层中具有输入序列中t时刻以及之后时刻的信息。两个LSTM层输出的向量可以使用相加、平均值或连接等方式进行处理。
生成对抗网络(Generative Adversarial Network, GAN):生成对抗网络主要包括两个部分,即生成器网络与判别器网络。生成器主要用来学习真实图像分布从而让自身生成的图像更加真实,以骗过判别器。判别器则需要对生成的图片进行真假判别。在整个过程中,生成器努力地让生成的图像更加真实,而判别器则努力地去识别出图像的真假,这个过程相当于一个二人博弈,随着时间的推移,生成器和判别器在不断地进行对抗,最终两个网络达到了一个动态均衡:生成器生成的图像接近于真实图像分布,而判别器识别不出真假图像。
门控循环单元(Gated Recurrent Unit, GRU):门控循环单元是LSTM的一个变体,在保持了LSTM的效果同时又使结构更加简单,是一种非常流行循环神经网络。门控循环单元由更新门和重置门控制:更新门控制前一时刻的状态信息被带入到当前状态中的程度,值越大前一时刻的状态信息带入越多;重置门控制忽略前一时刻的状态信息的程度,值越小说明忽略得越多。
本发明提供的一种基于知识蒸馏和视觉循环单元的文本生成视频网络模型,其包括以下模块:
其包括初始输入文本,文本编码模块,视频帧生成模块,知识蒸馏模块和判别模块。初始输入文本负责提供生成视频所需要的文本描述,其紧连着文本编码系统。文本编码模块通过双向长短记忆循环神经网络将输入文本编码为单词特征向量和句子特征向量,再对句子特征向量通过条件增强模块采样得到连续的向量特征表示。条件增强模块即从独立的高斯分布中随机抽样潜空间向量特征表示,其中均值和协方差矩阵是句子特征向量的函数。在给定少量图像文本对的情况下,利用条件增强模块可以产生更多的训练对,其引入的随机性有利于对文本到图像的翻译建模,因为同一个句子通常对应于具有各种姿势和外观的对象,最终结果将更具有鲁棒性。
视频帧生成模块包括本专利提出的VRU,以及注意力模块和反卷积层。其中VRU模 块由门控循环单元、全连接层和反卷积生成层组成,其创新点在于改进了门控循环单元和 反卷积层间的连接方式,在时间步t,VRU将上一原始帧
Figure DEST_PATH_IMAGE032
和隐藏层
Figure DEST_PATH_IMAGE033
输入到门控循 环单元,再依次通过全连接层和反卷积生成层生成新的原始视频帧
Figure DEST_PATH_IMAGE034
Figure DEST_PATH_IMAGE035
由门控循环单 元更新以表示来自输入文本的时间信息和语义特征。同时,视频帧生成系统还通过注意力 模块使每一原始视频帧获得上下文编码向量;最后,将添加了上下文信息的原始帧通过二 维反卷积层生成最终视频帧。视频帧生成系统迭代重复以上步骤直到生成目标长度的视 频。
知识蒸馏模块包括教师网络、中间特征蒸馏模块和感知损失蒸馏模块,该系统创新地将文本生成图片网络中的知识采用KD技术蒸馏到文本生成视频网络中,用以提升视频帧视觉质量。其中,教师网络是一个预训练的文本生成图像网络,使用和文本生成视频网络相同的数据集进行预训练,该网络的输入是文本,生成结果是文本对应的图像,其特征是生成的图像质量更真实更符合语意;中间特征蒸馏模块采用改进的中间特征蒸馏思想,提取文本生成图像网络中间层参数中包含的视觉-文本映射知识,并创新地以一对多的形式将该知识作为不同时间步连接的反卷积层的共享抽象特征,中间层参数中的知识采用核对齐损失和注意力图进行提取,通过改进这两个损失优化生成器帮助其更好的生成原始帧;利用改进的感知损失蒸馏模块提取高层语义信息,具体来说将教师网络的判别器作为感知损失提取器,计算教师网络生成的图片和每一帧视频图像的感知损失差,并对所有帧的感知损失取平均得到视频感知感知损失用来优化生成器。
判别模块采用TGANs-C提出的结构,由视频判别器、帧判别器和运动判别器组成,从三个维度来判别结果的真假以及是否与文本一致,从而得到对抗损失用来更新生成器。
优选地,中间特征蒸馏模块采用改进的中间特征蒸馏思想,提取文本生成图像网络中间层参数中包含的视觉-文本映射知识,并以一对多的形式将该知识作为不同时间步连接的反卷积层的共享抽象特征,在时间步t的损失函数为:
Figure DEST_PATH_IMAGE036
表示VRU在t时间步的中间层的损失函数,其中
Figure DEST_PATH_IMAGE037
表示被选中的中间层集合,p表 示被选中的某一中间层,
Figure DEST_PATH_IMAGE038
Figure DEST_PATH_IMAGE039
分别表示教师生成器和VRU被选中中间层的参数,
Figure DEST_PATH_IMAGE040
Figure DEST_PATH_IMAGE041
分别表示教师生成器和VRU被选中中间层参数的注意力图,
Figure DEST_PATH_IMAGE042
Figure DEST_PATH_IMAGE043
为超参数,KA(·)表示核对齐损失,该损失前的负号表示通过梯度下降提升参数的核对齐 相似性;最终总的中间特征损失为
Figure DEST_PATH_IMAGE044
,即所有时间步中间层所得损失 的均值。
基于同一发明构思,本发明还设计了一种基于知识蒸馏和视觉循环单元的文本生成视频模型的方法,具体实施方式的一个实例如下:
步骤S1:输入描述视频的文字信息,将输入文字编码为单词特征向量和句子特征向量;
步骤S2:将句子特征向量通过条件增强模块采样得到连续的向量特征表示,再与从高斯分布中采样的随机噪音拼接输入生成网络;
步骤S3:通过VRU模块迭代生成16帧原始视频帧;
步骤S4:选择同一文本-视频数据集上预训练的AttnGAN作为教师网络。对每一原 始视频帧计算核对齐和注意力图中间知识蒸馏损失,
Figure DEST_PATH_IMAGE045
以提取文本生成图 像模型中的视觉-文本映射知识,利用这一知识辅助文本生成视频模型每一原始视频帧的 生成;
步骤S5:通过注意力机制根据单词特征矩阵与视频帧区域特征向量计算帧图像区域上下文向量,增加其单词粒度的语义一致性,再输入到反卷积单元以生成最终视频帧;
步骤S6:将生成的十六帧最终视频帧输入到条件视频判别器、条件帧判别器和条件运动判别器中,得到对抗损失用来更新生成器。
步骤S7:通过教师判别器提取教师网络生成图片特征和十六帧最终帧特征来计算感知损失,从而从高维度约束生成结果达到文本生成图片教师网络结果的语义一致性水平。
基于同一发明构思,本申请还设计了一种基于知识蒸馏和视觉循环单元的文本生成视频装置,所述装置包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条指令,所述至少一条指令,所述至少一条指令由所述一个或多个处理器加载并执行以实现基于知识蒸馏和视觉循环单元的文本生成视频方法所执行的操作。
基于同一发明构思,本申请还设计了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现基于知识蒸馏和视觉循环单元的文本生成视频方法所执行的操作。
应当理解的是,这里所讨论的实施方案及实例只是为了说明,对本领域技术人员来说,可以加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (8)

1.一种文本生成视频的系统,其特征在于,包括以下模块:
文本编码模块,将输入文本编码为单词特征向量和句子特征向量,再对句子特征向量通过条件增强模块采样得到连续的向量特征表示;
视频帧生成模块,将文本编码模块的输出作为输入,生成视频帧,该模块包括视觉循环单元、注意力模块和反卷积层,其中视觉循环单元由门控循环单元、全连接层和反卷积生成层组成,其视觉循环单元在时间步t,将上一原始帧
Figure FDA0003966725740000011
和隐藏层ht-1输入到门控循环单元,再依次通过全连接层和反卷积生成层生成新的原始视频帧
Figure FDA0003966725740000012
ht由门控循环单元更新以表示来自输入文本的时间信息和语义特征;同时,通过注意力模块使每一原始视频帧获得上下文编码向量;最后,将添加了上下文信息的原始帧通过二维反卷积层生成最终视频帧;
知识蒸馏模块,包括教师网络、中间特征蒸馏模块和感知损失蒸馏模块,教师网络输入是文本,生成结果是文本对应的图像;中间特征蒸馏模块提取文本生成图像网络中间层参数中包含的视觉-文本映射知识,中间层参数中的知识采用核对齐损失和注意力图进行提取;感知损失蒸馏模块将教师网络的判别器作为感知损失提取器,计算教师网络生成的图片和每一帧视频图像的感知损失差,并对所有帧的感知损失取平均得到视频感知损失用来优化生成器;
判别模块,由视频判别器、帧判别器和运动判别器组成,从三个维度来判别结果的真假以及是否与文本一致。
2.根据权利要求1所述的文本生成视频的系统,其特征在于:
文本编码模块中通过双向长短记忆循环神经网络将输入文本编码为单词特征向量和句子特征向量。
3.根据权利要求1所述的文本生成视频的系统,其特征在于:
所述条件增强模块从独立的高斯分布中随机抽样潜空间向量特征表示,其中均值和协方差矩阵是句子特征向量的函数。
4.根据权利要求1所述的文本生成视频的系统,其特征在于:
教师网络为AttnGAN网络,使用和文本生成视频网络相同的数据集进行预训练。
5.根据权利要求1所述的文本生成视频的系统,其特征在于:
中间特征蒸馏模块采用改进的中间特征蒸馏思想,提取文本生成图像网络中间层参数中包含的视觉-文本映射知识,并以一对多的形式将该知识作为不同时间步连接的反卷积层的共享抽象特征,在时间步t的损失函数为:
Figure FDA0003966725740000021
其中,t为时间,
Figure FDA0003966725740000022
表示被选中的中间层集合,p表示被选中的某一中间层,
Figure FDA0003966725740000023
Figure FDA0003966725740000024
分别表示教师生成器和视觉循环单元被选中中间层的参数,
Figure FDA0003966725740000025
Figure FDA0003966725740000026
分别表示教师生成器和视觉循环单元被选中中间层参数的注意力图,λKA和λAttn为超参数,KA(·)表示核对齐损失,该损失前的负号表示通过梯度下降提升参数的核对齐相似性;最终总的中间特征损失为
Figure FDA0003966725740000027
即所有时间步中间层所得损失的均值。
6.一种使用权利要求1-5任一项所述文本生成视频的系统进行文本生成视频的方法,其特征在于,包括:
步骤S1:输入视频的文字描述将输入文本编码为单词特征矩阵和句子特征矩阵;
步骤S2:将得到的句子特征向量通过条件增强模块采样得到连续的向量特征表示,再串联一个从正态分布中采样的噪声向量,输入到视觉循环单元迭代生成原始视频帧;
步骤S3:通过中间特征知识蒸馏提取教师网络中的视觉-文本映射知识,将其作为所有原始帧的共享抽象特征传递给文本生成视频网络;
步骤S4:将每一原始视频帧通过注意力模块获得上下文编码向量,再将添加了上下文信息的原始帧通过二维反卷积层生成最终视频帧;
步骤S5:将生成的视频输入视频判别网络、帧判别网络和运动判别网络,从三个维度判别视频的真假以及是否与文本一致,将得到对抗损失用来更新生成器;
步骤S6:对生成的最终帧计算感知损失蒸馏,从高维度约束生成结果与文本生成图片模型的语义一致性能力达到一致。
7.一种文本生成视频的装置,其特征在于:所述装置包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条指令,所述至少一条指令,所述至少一条指令由所述一个或多个处理器加载并执行以实现如权利要求6所述的方法所执行的操作。
8.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求6所述的方法所执行的操作。
CN202211154367.XA 2022-09-22 2022-09-22 一种文本生成视频的网络模型、方法及装置 Active CN115249062B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211154367.XA CN115249062B (zh) 2022-09-22 2022-09-22 一种文本生成视频的网络模型、方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211154367.XA CN115249062B (zh) 2022-09-22 2022-09-22 一种文本生成视频的网络模型、方法及装置

Publications (2)

Publication Number Publication Date
CN115249062A CN115249062A (zh) 2022-10-28
CN115249062B true CN115249062B (zh) 2023-02-03

Family

ID=83700397

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211154367.XA Active CN115249062B (zh) 2022-09-22 2022-09-22 一种文本生成视频的网络模型、方法及装置

Country Status (1)

Country Link
CN (1) CN115249062B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116233491B (zh) * 2023-05-04 2023-07-18 阿里巴巴达摩院(杭州)科技有限公司 视频生成的方法及服务器
CN117056540B (zh) * 2023-10-10 2024-02-02 苏州元脑智能科技有限公司 基于文本生成多媒体对象的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109978021A (zh) * 2019-03-07 2019-07-05 北京大学深圳研究生院 一种基于文本不同特征空间的双流式视频生成方法
CN111695699A (zh) * 2020-06-12 2020-09-22 北京百度网讯科技有限公司 用于模型蒸馏的方法、装置、电子设备及可读存储介质
CN112528883A (zh) * 2020-12-15 2021-03-19 杭州义顺科技有限公司 一种基于反思网络的教学场景视频描述生成方法
CN113934890A (zh) * 2021-12-16 2022-01-14 之江实验室 一种自动文字生成场景视频的方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9807473B2 (en) * 2015-11-20 2017-10-31 Microsoft Technology Licensing, Llc Jointly modeling embedding and translation to bridge video and language
US11657264B2 (en) * 2018-04-09 2023-05-23 Nokia Technologies Oy Content-specific neural network distribution
CN108596265B (zh) * 2018-05-02 2022-04-08 中山大学 基于文本描述信息和生成对抗网络的视频生成模型
CN109919078A (zh) * 2019-03-05 2019-06-21 腾讯科技(深圳)有限公司 一种视频序列选择的方法、模型训练的方法及装置
US11636682B2 (en) * 2020-11-05 2023-04-25 International Business Machines Corporation Embedding contextual information in an image to assist understanding
CN113051420B (zh) * 2021-04-15 2022-07-05 山东大学 一种基于文本生成视频机器人视觉人机交互方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109978021A (zh) * 2019-03-07 2019-07-05 北京大学深圳研究生院 一种基于文本不同特征空间的双流式视频生成方法
CN111695699A (zh) * 2020-06-12 2020-09-22 北京百度网讯科技有限公司 用于模型蒸馏的方法、装置、电子设备及可读存储介质
CN112528883A (zh) * 2020-12-15 2021-03-19 杭州义顺科技有限公司 一种基于反思网络的教学场景视频描述生成方法
CN113934890A (zh) * 2021-12-16 2022-01-14 之江实验室 一种自动文字生成场景视频的方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Discriminator Modification in GAN for Text-to-Image Generation;Fei Fang et al.;《2022 IEEE International Conference on Multimedia and Expo (ICME)》;20220722;第1-6页 *
TextKD-GAN: Text Generation using Knowledge Distillation and Generative Adversarial Networks;Md. Akmal Haidar et al.;《arXiv》;20190423;第1-12页 *
多媒体内容理解的研究现状与展望;彭宇新 等;《计算机研究与发展》;20190131;第56卷(第1期);第183-208页 *

Also Published As

Publication number Publication date
CN115249062A (zh) 2022-10-28

Similar Documents

Publication Publication Date Title
CN115249062B (zh) 一种文本生成视频的网络模型、方法及装置
JP7164252B2 (ja) 画像処理方法、装置、電子機器及びコンピュータプログラム
Wu et al. Are you talking to me? reasoned visual dialog generation through adversarial learning
CN108388900B (zh) 基于多特征融合和时空注意力机制相结合的视频描述方法
Lu et al. Knowing when to look: Adaptive attention via a visual sentinel for image captioning
US20210224601A1 (en) Video sequence selection method, computer device, and storage medium
US20220198800A1 (en) Video processing method, apparatus and device, and computerreadable storage medium
CN109242090B (zh) 一种基于gan网络的视频描述及描述一致性判别方法
CN113673535B (zh) 一种多模态特征融合网络的图像描述生成方法
WO2022052530A1 (zh) 人脸矫正模型的训练方法、装置、电子设备及存储介质
Sharma et al. Visual image caption generator using deep learning
CN113220891B (zh) 基于无监督的概念到句子的生成对抗网络图像描述方法
CN115223020B (zh) 图像处理方法、装置、设备、存储介质及计算机程序产品
Wang et al. (2+ 1) D-SLR: an efficient network for video sign language recognition
CN116524593A (zh) 一种动态手势识别方法、系统、设备及介质
Zhou et al. Image generation from text with entity information fusion
CN109657589B (zh) 一种基于人体交互动作的体验者动作生成方法
KR20230121507A (ko) 그래프 기반 비디오 캡셔닝을 위한 지식 증류
CN115294353A (zh) 基于多层属性引导的人群场景图像字幕描述方法
CN117255998A (zh) 使用空间和时间上的注意力对来自视频序列的对象表示的无监督学习
Zhou et al. Joint scence network and attention-guided for image captioning
CN113569809A (zh) 一种图像处理方法、设备及计算机可读存储介质
CN114202606A (zh) 图像处理方法、电子设置、存储介质及计算机程序产品
CN113658285B (zh) 一种人脸照片到艺术素描的生成方法
CN111724467B (zh) 一种用于3d打印的体素模型生成方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant