CN118037898B

CN118037898B - 一种基于图像引导视频编辑的文本生成视频方法

Info

Publication number: CN118037898B
Application number: CN202410446159.XA
Authority: CN
Inventors: 张伟; 胡云飞; 陈云芳
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2024-04-15
Filing date: 2024-04-15
Publication date: 2024-06-18
Anticipated expiration: 2044-04-15
Also published as: CN118037898A

Abstract

本发明提出一种基于图像引导视频编辑的文本生成视频方法，该方法包括：获取生成目标视频的基础文本，利用文本分析模块对基础文本进行多个角度语义分析，生成多维度的文本特征向量；利用文本特征向量和微调的文本生成图像模型生成基础图像；利用文本特征向量和现有的文本生成视频模型生成基础视频；将基础图像、基础视频以及基础文本作为输入，通过图像和文本引导视频编辑，生成目标视频。本发明同时利用文本生成图像高质量高分辨率的优点以及文本生成视频优秀的时间建模，通过高质量的图像和文本引导视频编辑，实现文本生成高质量高分辨率视频。

Description

一种基于图像引导视频编辑的文本生成视频方法

技术领域

本申请涉及文本-视频跨模态领域，特别涉及一种基于图像引导视频编辑的文本生成视频方法。

背景技术

随着网络的发展，各种模态的数据越来越多，有文本、图片、语音、视频等，如何将这些信息关联起来，更好地理解数据并从中挖掘知识非常关键。随着人工智能的自然语言处理和计算机视觉领域的发展，计算能力的不断进步，跨模态学习已经成为可能。

在多模态的领域中，文本生成图像作为近几年的热点任务，已经实现了很大的进展，出现了包括CLIP、扩散模型、生成对抗网络等等优秀的模型，实际使用上也有不错的效果，能够生成一些真实且高质量的图片；但是在文本生成视频领域，由于视频不仅需要在空间上进行建模，还要保证时间上的一致性，此外，文本和视频数据量大小的不对称性也给文本-视频跨模态建模带了一些挑战。

现有公开的技术方案中，有的直接用文本-视频对进行建模，生成的视频虽然平滑连贯，但是质量不高甚至失真，亦或模型数据量太大或者需要的计算量太大，一般用户难以承受；有的在文本-图像模型的基础上对时间进行建模，生成的视频虽然在质量上有所突破，但是连贯性和时间一致性有所欠缺。因此，同时利用大规模高质量的文本-图像模型和小规模文本-视频模型，兼顾两者的优点能够生成高质量高分辨率的视频。

发明内容

发明目的，本发明为了解决文本生成视频任务中生成视频质量和分辨率不高的问题，考虑视频生成质量、分辨率和变化幅度，提出一种基于图像和文本引导视频编辑的文本生成视频方法。

技术方案，为了解决上述的技术问题，本发明提出一种基于图像引导视频编辑的文本生成视频方法，该方法包括如下步骤：

S101，获取生成目标视频的基础文本，利用文本分析模块对基础文本进行多个角度语义分析，生成多维度文本特征向量/>，/>表示文本特征向量的总维度数；

S102，利用文本特征向量和调整后的文本生成图像模型StableDiffusion生成基础图像/>；

S103，利用文本特征向量和文本生成视频模型Stable VideoDiffusion生成基础视频/>；

S104，将基础图像、基础视频/>以及基础文本/>作为输入，通过图像和文本引导视频编辑以生成目标视频。

进一步的，步骤S101中，文本分析模块通过提取输入的基础文本进行多角度的语义分析，包括但不限于主体分析、动作分析、背景分析、幅度分析、风格分析，输出多维度的文本特征向量/>。

进一步的，步骤S102中的具体方法如下：

采用文本生成图像模型Stable Diffusion作为基础模型，在Stable Diffusion的基础上，将文本-图像数据集LAION-5B的超分辨率子集laion-high-resolution作为图像文本对集合，计算图像文本对的一致性分数，筛选出一致性分数前1/10的文本图像对子集LAION-5B-H1_10，将LAION-5B-H1_10的文本图像对作为输入，对基础模型StableDiffusion进行训练再调整，使得调整的模型能够通过文本输出更高质量的图像；

利用调整后的Stable Diffusion对多维度的文本特征向量进行分析，获取数据集中的模板图像，通过正向的多级高斯噪声加噪生成噪声图像，再通过反向传播学习预测去噪过程生成不同的参考图像/>，/>表示参考图像总数，对参考图像进行图像质量评分计算，选出最优参考图像作为所述基础图像/>。

进一步的，S104的具体方法如下：

S201，对基础视频进行拆帧，将视频转换成视频序列/>，表示视频总帧数，/>表示上采样前图像横轴的像素总数，/>表示上采样前图像纵轴的像素总数，将视频帧序列/>上采样为视频帧图像序列，M表示上采样后图像横轴的像素总数，N表示表示上采样后图像纵轴的像素总数；

S202，将基础图像分割成基础前景图像/>和基础背景图像/>，将视频帧图像序列/>分割成视频帧前景图像序列/>和视频帧背景图像序列/>；

S203，利用视频帧前景图像序列和基础前景图像/>生成辅助前景图像序列/>；

S204，利用视频帧背景图像序列和基础背景图像/>生成辅助背景图像序列/>；

S205，将辅助前景图像序列和辅助背景图像序列融合渲染，获得辅助视频帧图像序列/>；

S206，利用基础文本判定视频变化幅度r，对辅助视频帧图像序列进行补帧以生成最终目标视频。

进一步的，步骤S201中，采用的上采样方法如下：

上采样后的视频帧图像的部分像素值，通过上采样前的视频帧/>的像素值获得，/>，计算公式如下：

；

其中

；

其中，表示上采样倍率，/>表示坐标为/>的上采样前的像素值，/>表示坐标为/>上采样后的像素值。

进一步的，步骤S202中，对基础图像和视频帧图像分割前进行图像增强预处理的方法如下：

（1）针对的图像矩阵，分别计算出横向和纵向两个方向的类差分矩阵/>和，其矩阵值分别为原图像矩阵像素值与横向或纵向相邻像素值之差的绝对值；

（2）计算两个方向的像素增强，计算公式如下：

；

其中，设置的窗口大小为，/>表示对应的权重系数，/>和/>表示各个方位的权重向量，/>和/>分别表示纵向和横向增强的像素值，/>和/>表示矩阵/>和/>横坐标从/>到/>，纵坐标从/>到/>处的值形成的子矩阵；

（3）将增强像素与原图像叠加生成预处理图像，计算公式如下：

；

其中，表示坐标/>叠加后的像素值，/>表示坐标/>叠加前的像素值，表示原图、横向以及纵向增强的权重系数。

步骤S203中的具体方法如下：

对视频帧前景图像序列和基础前景图像/>进行特征提取，包括关键点定位和轮廓提取，在保留视频帧前景图像序列/>内容的位置、轮廓、结构基础上，通过扩散模型将其替换成基础前景图像/>的内容，生成辅助前景图像序列/>。

进一步的，步骤S204中的具体方法如下：

对视频帧背景图像序列和基础背景图像/>进行特征提取，包括关键点定位和风格提取，通过扩散模型将视频帧背景图像序列/>和基础背景图像/>逐一进行风格融合和图像融合，生成辅助背景图像序列/>。

进一步的，步骤S206中，利用基础文本判定视频变化幅度r，对辅助视频帧图像序列进行补帧，生成最终目标视频，具体计算方法如下：

（1）计算相邻图像相似度的函数如下：

；

其中，表示图像/>和/>之间的相似度，/>和/>表示两个图像的均值，/>和/>表示两个图像的标准差，/>和/>表示稳定系数，/>；

（2）通过基础文本的关键词检索，计算每个相同关键词视频的帧间相似度：

；

其中，表示视频的帧间平均相似度，/>表示视频第t帧图像和第t+1帧图像之间的相似度，T表示视频总帧数；

（3）计算所有相同关键词视频的平均的帧间平均相似度：

；

其中，表示所有相同关键词视频的平均的帧间平均相似度，/>表示视频的帧间平均相似度，/>表示对应视频的权重，/>表示视频总数；

（4）计算变化幅度的函数如下：

；

其中，表示相同关键词视频的帧间平均相似度最大值；

（5）根据变化幅度r设置帧间相似度差异阈值为，其中，/>表示可设置的差异系数，/>，若相邻图像帧之间的相似度差异大于阈值，则通过扩散概率模型预测生成一系列图像帧，完成补帧操作生成最终目标视频。

有益效果，与现有技术相比，本发明的技术方案具有以下有益效果：

相较于传统使用单一模型的方法，以同时使用文本生成图像预训练模型和文本生成视频预训练模型为思路，利用文本生成图像高质量高分辨率的优点以及文本生成视频优秀的时间建模，通过高质量的图像和文本引导视频编辑，从而实现输入文本生成高质量高分辨率视频的功能。

附图说明

图1为本申请提供的文本生成视频方法流程示意图。

图2为本申请提供的图像和文本引导视频编辑方法流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案作进一步地详细描述。显然，以下所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提出一种基于图像引导视频编辑的文本生成视频方法，该方法包括如下步骤：

进一步的，步骤S102中的具体方法如下：

进一步的，如图2所示，S104的具体方法如下：

进一步的，步骤S201中，采用的上采样方法如下：

；

其中

；

其中，表示上采样倍率，/>表示坐标为/>的上采样前的像素值，/>表示坐标为/>上采样后的像素值，/>表示表示坐标为/>像素的权重。

（2）计算两个方向的像素增强，计算公式如下：

；

步骤S203中的具体方法如下：

进一步的，步骤S204中的具体方法如下：

（1）计算相邻图像相似度的函数如下：

；

（3）计算所有相同关键词视频的平均的帧间平均相似度：

；

（4）计算变化幅度的函数如下：

；

其中，表示相同关键词视频的帧间平均相似度最大值；

上述实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于图像引导视频编辑的文本生成视频方法，其特征在于，该方法包括如下步骤：

S104，将基础图像、基础视频/>以及基础文本/>作为输入，通过图像和文本引导视频编辑以生成目标视频；

S104的具体方法如下：

S201，对基础视频进行拆帧，将视频转换成视频序列/>，/>表示视频总帧数，/>表示上采样前图像横轴的像素总数，/>表示上采样前图像纵轴的像素总数，将视频帧序列/>上采样为视频帧图像序列，M表示上采样后图像横轴的像素总数，N表示表示上采样后图像纵轴的像素总数；

S202，将基础图像分割成基础前景图像/>和基础背景图像/>，将视频帧图像序列分割成视频帧前景图像序列/>和视频帧背景图像序列/>；

S206，利用基础文本判定视频变化幅度r，对辅助视频帧图像序列进行补帧以生成最终目标视频；

步骤S201中，采用的上采样方法如下：

；

其中

；

其中，表示上采样倍率，/>表示坐标为/>的上采样前的像素值，/>表示坐标为上采样后的像素值；

步骤S202中，对基础图像和视频帧图像分割前进行图像增强预处理的方法如下：

（1）针对的图像矩阵，分别计算出横向和纵向两个方向的类差分矩阵/>和/>，其矩阵值分别为原图像矩阵像素值与横向或纵向相邻像素值之差的绝对值；

（2）计算两个方向的像素增强，计算公式如下：

；

其中，设置的窗口大小为，/>表示对应的权重系数，/>和/>表示各个方位的权重向量，/>和/>分别表示纵向和横向增强的像素值，/>和/>表示矩阵和/>横坐标从/>到/>，纵坐标从/>到/>处的值形成的子矩阵；

；

其中，表示坐标/>叠加后的像素值，/>表示坐标/>叠加前的像素值，表示原图、横向以及纵向增强的权重系数；

步骤S203中的具体方法如下：

对视频帧前景图像序列和基础前景图像/>进行特征提取，包括关键点定位和轮廓提取，在保留视频帧前景图像序列/>内容的位置、轮廓、结构基础上，通过扩散模型将其替换成基础前景图像/>的内容，生成辅助前景图像序列；

步骤S204中的具体方法如下：

对视频帧背景图像序列和基础背景图像/>进行特征提取，包括关键点定位和风格提取，通过扩散模型将视频帧背景图像序列/>和基础背景图像/>逐一进行风格融合和图像融合，生成辅助背景图像序列/>；

步骤S206中，利用基础文本判定视频变化幅度r，对辅助视频帧图像序列进行补帧，生成最终目标视频，具体计算方法如下：

（1）计算相邻图像相似度的函数如下：

；

其中，表示图像/>和/>之间的相似度，/>和/>表示两个图像的均值，/>和表示两个图像的标准差，/>和/>表示稳定系数，/>；

；

（3）计算所有相同关键词视频的平均的帧间平均相似度：

；

（4）计算变化幅度的函数如下：

；

其中，表示相同关键词视频的帧间平均相似度最大值；

2.根据权利要求1所述的一种基于图像引导视频编辑的文本生成视频方法，其特征在于，步骤S101中，文本分析模块通过提取输入的基础文本进行多角度的语义分析，包括但不限于主体分析、动作分析、背景分析、幅度分析、风格分析，输出多维度的文本特征向量。

3.根据权利要求1所述的一种基于图像引导视频编辑的文本生成视频方法，其特征在于，步骤S102中的具体方法如下：

采用文本生成图像模型Stable Diffusion作为基础模型，在Stable Diffusion的基础上，将文本-图像数据集LAION-5B的超分辨率子集laion-high-resolution作为图像文本对集合，计算图像文本对的一致性分数，筛选出一致性分数前1/10的文本图像对子集LAION-5B-H1_10，将LAION-5B-H1_10的文本图像对作为输入，对基础模型Stable Diffusion进行训练再调整，使得调整的模型能够通过文本输出更高质量的图像；