CN118037898B - 一种基于图像引导视频编辑的文本生成视频方法 - Google Patents
一种基于图像引导视频编辑的文本生成视频方法 Download PDFInfo
- Publication number
- CN118037898B CN118037898B CN202410446159.XA CN202410446159A CN118037898B CN 118037898 B CN118037898 B CN 118037898B CN 202410446159 A CN202410446159 A CN 202410446159A CN 118037898 B CN118037898 B CN 118037898B
- Authority
- CN
- China
- Prior art keywords
- image
- video
- text
- representing
- basic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000004458 analytical method Methods 0.000 claims abstract description 29
- 239000013598 vector Substances 0.000 claims abstract description 24
- 238000009792 diffusion process Methods 0.000 claims description 19
- 239000011159 matrix material Substances 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 7
- 230000001502 supplementing effect Effects 0.000 claims description 7
- 230000004927 fusion Effects 0.000 claims description 6
- 238000003709 image segmentation Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000009877 rendering Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000009471 action Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Landscapes
- Studio Circuits (AREA)
Abstract
本发明提出一种基于图像引导视频编辑的文本生成视频方法,该方法包括:获取生成目标视频的基础文本,利用文本分析模块对基础文本进行多个角度语义分析,生成多维度的文本特征向量;利用文本特征向量和微调的文本生成图像模型生成基础图像;利用文本特征向量和现有的文本生成视频模型生成基础视频;将基础图像、基础视频以及基础文本作为输入,通过图像和文本引导视频编辑,生成目标视频。本发明同时利用文本生成图像高质量高分辨率的优点以及文本生成视频优秀的时间建模,通过高质量的图像和文本引导视频编辑,实现文本生成高质量高分辨率视频。
Description
技术领域
本申请涉及文本-视频跨模态领域,特别涉及一种基于图像引导视频编辑的文本生成视频方法。
背景技术
随着网络的发展,各种模态的数据越来越多,有文本、图片、语音、视频等,如何将这些信息关联起来,更好地理解数据并从中挖掘知识非常关键。随着人工智能的自然语言处理和计算机视觉领域的发展,计算能力的不断进步,跨模态学习已经成为可能。
在多模态的领域中,文本生成图像作为近几年的热点任务,已经实现了很大的进展,出现了包括CLIP、扩散模型、生成对抗网络等等优秀的模型,实际使用上也有不错的效果,能够生成一些真实且高质量的图片;但是在文本生成视频领域,由于视频不仅需要在空间上进行建模,还要保证时间上的一致性,此外,文本和视频数据量大小的不对称性也给文本-视频跨模态建模带了一些挑战。
现有公开的技术方案中,有的直接用文本-视频对进行建模,生成的视频虽然平滑连贯,但是质量不高甚至失真,亦或模型数据量太大或者需要的计算量太大,一般用户难以承受;有的在文本-图像模型的基础上对时间进行建模,生成的视频虽然在质量上有所突破,但是连贯性和时间一致性有所欠缺。因此,同时利用大规模高质量的文本-图像模型和小规模文本-视频模型,兼顾两者的优点能够生成高质量高分辨率的视频。
发明内容
发明目的,本发明为了解决文本生成视频任务中生成视频质量和分辨率不高的问题,考虑视频生成质量、分辨率和变化幅度,提出一种基于图像和文本引导视频编辑的文本生成视频方法。
技术方案,为了解决上述的技术问题,本发明提出一种基于图像引导视频编辑的文本生成视频方法,该方法包括如下步骤:
S101,获取生成目标视频的基础文本 ,利用文本分析模块对基础文本进行多个角度语义分析,生成多维度文本特征向量/>,/>表示文本特征向量的总维度数;
S102,利用文本特征向量和调整后的文本生成图像模型StableDiffusion生成基础图像/>;
S103,利用文本特征向量和文本生成视频模型Stable VideoDiffusion生成基础视频/>;
S104,将基础图像、基础视频/>以及基础文本/>作为输入,通过图像和文本引导视频编辑以生成目标视频。
进一步的,步骤S101中,文本分析模块通过提取输入的基础文本进行多角度的语义分析,包括但不限于主体分析、动作分析、背景分析、幅度分析、风格分析,输出多维度的文本特征向量/>。
进一步的,步骤S102中的具体方法如下:
采用文本生成图像模型Stable Diffusion作为基础模型,在Stable Diffusion的基础上,将文本-图像数据集LAION-5B的超分辨率子集laion-high-resolution作为图像文本对集合,计算图像文本对的一致性分数,筛选出一致性分数前1/10的文本图像对子集LAION-5B-H1_10,将LAION-5B-H1_10的文本图像对作为输入,对基础模型StableDiffusion进行训练再调整,使得调整的模型能够通过文本输出更高质量的图像;
利用调整后的Stable Diffusion对多维度的文本特征向量进行分析,获取数据集中的模板图像,通过正向的多级高斯噪声加噪生成噪声图像,再通过反向传播学习预测去噪过程生成不同的参考图像/>,/>表示参考图像总数,对参考图像进行图像质量评分计算,选出最优参考图像作为所述基础图像/>。
进一步的,S104的具体方法如下:
S201,对基础视频进行拆帧,将视频转换成视频序列/>,表示视频总帧数,/>表示上采样前图像横轴的像素总数,/>表示上采样前图像纵轴的像素总数,将视频帧序列/>上采样为视频帧图像序列,M表示上采样后图像横轴的像素总数,N表示表示上采样后图像纵轴的像素总数;
S202,将基础图像分割成基础前景图像/>和基础背景图像/>,将视频帧图像序列/>分割成视频帧前景图像序列/>和视频帧背景图像序列/>;
S203,利用视频帧前景图像序列和基础前景图像/>生成辅助前景图像序列/>;
S204,利用视频帧背景图像序列和基础背景图像/>生成辅助背景图像序列/>;
S205,将辅助前景图像序列和辅助背景图像序列融合渲染,获得辅助视频帧图像序列/>;
S206,利用基础文本判定视频变化幅度r,对辅助视频帧图像序列进行补帧以生成最终目标视频。
进一步的,步骤S201中,采用的上采样方法如下:
上采样后的视频帧图像的部分像素值,通过上采样前的视频帧/>的像素值获得,/>,计算公式如下:
;
;
;
;
;
;
其中
;
其中,表示上采样倍率,/>表示坐标为/>的上采样前的像素值,/>表示坐标为/>上采样后的像素值。
进一步的,步骤S202中,对基础图像和视频帧图像分割前进行图像增强预处理的方法如下:
(1)针对的图像矩阵,分别计算出横向和纵向两个方向的类差分矩阵/>和,其矩阵值分别为原图像矩阵像素值与横向或纵向相邻像素值之差的绝对值;
(2)计算两个方向的像素增强,计算公式如下:
;
其中,设置的窗口大小为,/>表示对应的权重系数,/>和/>表示各个方位的权重向量,/>和/>分别表示纵向和横向增强的像素值,/>和/>表示矩阵/>和/>横坐标从/>到/>,纵坐标从/>到/>处的值形成的子矩阵;
(3)将增强像素与原图像叠加生成预处理图像,计算公式如下:
;
其中,表示坐标/>叠加后的像素值,/>表示坐标/>叠加前的像素值,表示原图、横向以及纵向增强的权重系数。
步骤S203中的具体方法如下:
对视频帧前景图像序列和基础前景图像/>进行特征提取,包括关键点定位和轮廓提取,在保留视频帧前景图像序列/>内容的位置、轮廓、结构基础上,通过扩散模型将其替换成基础前景图像/>的内容,生成辅助前景图像序列/>。
进一步的,步骤S204中的具体方法如下:
对视频帧背景图像序列和基础背景图像/>进行特征提取,包括关键点定位和风格提取,通过扩散模型将视频帧背景图像序列/>和基础背景图像/>逐一进行风格融合和图像融合,生成辅助背景图像序列/>。
进一步的,步骤S206中,利用基础文本判定视频变化幅度r,对辅助视频帧图像序列进行补帧,生成最终目标视频,具体计算方法如下:
(1)计算相邻图像相似度的函数如下:
;
其中,表示图像/>和/>之间的相似度,/>和/>表示两个图像的均值,/>和/>表示两个图像的标准差,/>和/>表示稳定系数,/>;
(2)通过基础文本的关键词检索,计算每个相同关键词视频的帧间相似度:
;
其中,表示视频的帧间平均相似度,/>表示视频第t帧图像和第t+1帧图像之间的相似度,T表示视频总帧数;
(3)计算所有相同关键词视频的平均的帧间平均相似度:
;
其中,表示所有相同关键词视频的平均的帧间平均相似度,/>表示视频的帧间平均相似度,/>表示对应视频的权重,/>表示视频总数;
(4)计算变化幅度的函数如下:
;
其中,表示相同关键词视频的帧间平均相似度最大值;
(5)根据变化幅度r设置帧间相似度差异阈值为,其中,/>表示可设置的差异系数,/>,若相邻图像帧之间的相似度差异大于阈值,则通过扩散概率模型预测生成一系列图像帧,完成补帧操作生成最终目标视频。
有益效果,与现有技术相比,本发明的技术方案具有以下有益效果:
相较于传统使用单一模型的方法,以同时使用文本生成图像预训练模型和文本生成视频预训练模型为思路,利用文本生成图像高质量高分辨率的优点以及文本生成视频优秀的时间建模,通过高质量的图像和文本引导视频编辑,从而实现输入文本生成高质量高分辨率视频的功能。
附图说明
图1为本申请提供的文本生成视频方法流程示意图。
图2为本申请提供的图像和文本引导视频编辑方法流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案作进一步地详细描述。显然,以下所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提出一种基于图像引导视频编辑的文本生成视频方法,该方法包括如下步骤:
S101,获取生成目标视频的基础文本 ,利用文本分析模块对基础文本进行多个角度语义分析,生成多维度文本特征向量/>,/>表示文本特征向量的总维度数;
S102,利用文本特征向量和调整后的文本生成图像模型StableDiffusion生成基础图像/>;
S103,利用文本特征向量和文本生成视频模型Stable VideoDiffusion生成基础视频/>;
S104,将基础图像、基础视频/>以及基础文本/>作为输入,通过图像和文本引导视频编辑以生成目标视频。
进一步的,步骤S101中,文本分析模块通过提取输入的基础文本进行多角度的语义分析,包括但不限于主体分析、动作分析、背景分析、幅度分析、风格分析,输出多维度的文本特征向量/>。
进一步的,步骤S102中的具体方法如下:
采用文本生成图像模型Stable Diffusion作为基础模型,在Stable Diffusion的基础上,将文本-图像数据集LAION-5B的超分辨率子集laion-high-resolution作为图像文本对集合,计算图像文本对的一致性分数,筛选出一致性分数前1/10的文本图像对子集LAION-5B-H1_10,将LAION-5B-H1_10的文本图像对作为输入,对基础模型StableDiffusion进行训练再调整,使得调整的模型能够通过文本输出更高质量的图像;
利用调整后的Stable Diffusion对多维度的文本特征向量进行分析,获取数据集中的模板图像,通过正向的多级高斯噪声加噪生成噪声图像,再通过反向传播学习预测去噪过程生成不同的参考图像/>,/>表示参考图像总数,对参考图像进行图像质量评分计算,选出最优参考图像作为所述基础图像/>。
进一步的,如图2所示,S104的具体方法如下:
S201,对基础视频进行拆帧,将视频转换成视频序列/>,表示视频总帧数,/>表示上采样前图像横轴的像素总数,/>表示上采样前图像纵轴的像素总数,将视频帧序列/>上采样为视频帧图像序列,M表示上采样后图像横轴的像素总数,N表示表示上采样后图像纵轴的像素总数;
S202,将基础图像分割成基础前景图像/>和基础背景图像/>,将视频帧图像序列/>分割成视频帧前景图像序列/>和视频帧背景图像序列/>;
S203,利用视频帧前景图像序列和基础前景图像/>生成辅助前景图像序列/>;
S204,利用视频帧背景图像序列和基础背景图像/>生成辅助背景图像序列/>;
S205,将辅助前景图像序列和辅助背景图像序列融合渲染,获得辅助视频帧图像序列/>;
S206,利用基础文本判定视频变化幅度r,对辅助视频帧图像序列进行补帧以生成最终目标视频。
进一步的,步骤S201中,采用的上采样方法如下:
上采样后的视频帧图像的部分像素值,通过上采样前的视频帧/>的像素值获得,/>,计算公式如下:
;
;
;
;
;
;
其中
;
其中,表示上采样倍率,/>表示坐标为/>的上采样前的像素值,/>表示坐标为/>上采样后的像素值,/>表示表示坐标为/>像素的权重。
进一步的,步骤S202中,对基础图像和视频帧图像分割前进行图像增强预处理的方法如下:
(1)针对的图像矩阵,分别计算出横向和纵向两个方向的类差分矩阵/>和,其矩阵值分别为原图像矩阵像素值与横向或纵向相邻像素值之差的绝对值;
(2)计算两个方向的像素增强,计算公式如下:
;
其中,设置的窗口大小为,/>表示对应的权重系数,/>和/>表示各个方位的权重向量,/>和/>分别表示纵向和横向增强的像素值,/>和/>表示矩阵/>和/>横坐标从/>到/>,纵坐标从/>到/>处的值形成的子矩阵;
(3)将增强像素与原图像叠加生成预处理图像,计算公式如下:
;
其中,表示坐标/>叠加后的像素值,/>表示坐标/>叠加前的像素值,表示原图、横向以及纵向增强的权重系数。
步骤S203中的具体方法如下:
对视频帧前景图像序列和基础前景图像/>进行特征提取,包括关键点定位和轮廓提取,在保留视频帧前景图像序列/>内容的位置、轮廓、结构基础上,通过扩散模型将其替换成基础前景图像/>的内容,生成辅助前景图像序列/>。
进一步的,步骤S204中的具体方法如下:
对视频帧背景图像序列和基础背景图像/>进行特征提取,包括关键点定位和风格提取,通过扩散模型将视频帧背景图像序列/>和基础背景图像/>逐一进行风格融合和图像融合,生成辅助背景图像序列/>。
进一步的,步骤S206中,利用基础文本判定视频变化幅度r,对辅助视频帧图像序列进行补帧,生成最终目标视频,具体计算方法如下:
(1)计算相邻图像相似度的函数如下:
;
其中,表示图像/>和/>之间的相似度,/>和/>表示两个图像的均值,/>和/>表示两个图像的标准差,/>和/>表示稳定系数,/>;
(2)通过基础文本的关键词检索,计算每个相同关键词视频的帧间相似度:
;
其中,表示视频的帧间平均相似度,/>表示视频第t帧图像和第t+1帧图像之间的相似度,T表示视频总帧数;
(3)计算所有相同关键词视频的平均的帧间平均相似度:
;
其中,表示所有相同关键词视频的平均的帧间平均相似度,/>表示视频的帧间平均相似度,/>表示对应视频的权重,/>表示视频总数;
(4)计算变化幅度的函数如下:
;
其中,表示相同关键词视频的帧间平均相似度最大值;
(5)根据变化幅度r设置帧间相似度差异阈值为,其中,/>表示可设置的差异系数,/>,若相邻图像帧之间的相似度差异大于阈值,则通过扩散概率模型预测生成一系列图像帧,完成补帧操作生成最终目标视频。
上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰,都应涵盖在本发明的保护范围之内。
Claims (3)
1.一种基于图像引导视频编辑的文本生成视频方法,其特征在于,该方法包括如下步骤:
S101,获取生成目标视频的基础文本 ,利用文本分析模块对基础文本进行多个角度语义分析,生成多维度文本特征向量/>,/>表示文本特征向量的总维度数;
S102,利用文本特征向量和调整后的文本生成图像模型StableDiffusion生成基础图像/>;
S103,利用文本特征向量和文本生成视频模型Stable VideoDiffusion生成基础视频/>;
S104,将基础图像、基础视频/>以及基础文本/>作为输入,通过图像和文本引导视频编辑以生成目标视频;
S104的具体方法如下:
S201,对基础视频进行拆帧,将视频转换成视频序列/>,/>表示视频总帧数,/>表示上采样前图像横轴的像素总数,/>表示上采样前图像纵轴的像素总数,将视频帧序列/>上采样为视频帧图像序列,M表示上采样后图像横轴的像素总数,N表示表示上采样后图像纵轴的像素总数;
S202,将基础图像分割成基础前景图像/>和基础背景图像/>,将视频帧图像序列分割成视频帧前景图像序列/>和视频帧背景图像序列/>;
S203,利用视频帧前景图像序列和基础前景图像/>生成辅助前景图像序列/>;
S204,利用视频帧背景图像序列和基础背景图像/>生成辅助背景图像序列/>;
S205,将辅助前景图像序列和辅助背景图像序列融合渲染,获得辅助视频帧图像序列/>;
S206,利用基础文本判定视频变化幅度r,对辅助视频帧图像序列进行补帧以生成最终目标视频;
步骤S201中,采用的上采样方法如下:
上采样后的视频帧图像的部分像素值,通过上采样前的视频帧/>的像素值获得,/>,计算公式如下:
;
;
;
;
;
;
其中
;
其中,表示上采样倍率,/>表示坐标为/>的上采样前的像素值,/>表示坐标为上采样后的像素值;
步骤S202中,对基础图像和视频帧图像分割前进行图像增强预处理的方法如下:
(1)针对的图像矩阵,分别计算出横向和纵向两个方向的类差分矩阵/>和/>,其矩阵值分别为原图像矩阵像素值与横向或纵向相邻像素值之差的绝对值;
(2)计算两个方向的像素增强,计算公式如下:
;
其中,设置的窗口大小为,/>表示对应的权重系数,/>和/>表示各个方位的权重向量,/>和/>分别表示纵向和横向增强的像素值,/>和/>表示矩阵和/>横坐标从/>到/>,纵坐标从/>到/>处的值形成的子矩阵;
(3)将增强像素与原图像叠加生成预处理图像,计算公式如下:
;
其中,表示坐标/>叠加后的像素值,/>表示坐标/>叠加前的像素值,表示原图、横向以及纵向增强的权重系数;
步骤S203中的具体方法如下:
对视频帧前景图像序列和基础前景图像/>进行特征提取,包括关键点定位和轮廓提取,在保留视频帧前景图像序列/>内容的位置、轮廓、结构基础上,通过扩散模型将其替换成基础前景图像/>的内容,生成辅助前景图像序列;
步骤S204中的具体方法如下:
对视频帧背景图像序列和基础背景图像/>进行特征提取,包括关键点定位和风格提取,通过扩散模型将视频帧背景图像序列/>和基础背景图像/>逐一进行风格融合和图像融合,生成辅助背景图像序列/>;
步骤S206中,利用基础文本判定视频变化幅度r,对辅助视频帧图像序列进行补帧,生成最终目标视频,具体计算方法如下:
(1)计算相邻图像相似度的函数如下:
;
其中,表示图像/>和/>之间的相似度,/>和/>表示两个图像的均值,/>和表示两个图像的标准差,/>和/>表示稳定系数,/>;
(2)通过基础文本的关键词检索,计算每个相同关键词视频的帧间相似度:
;
其中,表示视频的帧间平均相似度,/>表示视频第t帧图像和第t+1帧图像之间的相似度,T表示视频总帧数;
(3)计算所有相同关键词视频的平均的帧间平均相似度:
;
其中,表示所有相同关键词视频的平均的帧间平均相似度,/>表示视频的帧间平均相似度,/>表示对应视频的权重,/>表示视频总数;
(4)计算变化幅度的函数如下:
;
其中,表示相同关键词视频的帧间平均相似度最大值;
(5)根据变化幅度r设置帧间相似度差异阈值为,其中,/>表示可设置的差异系数,/>,若相邻图像帧之间的相似度差异大于阈值,则通过扩散概率模型预测生成一系列图像帧,完成补帧操作生成最终目标视频。
2.根据权利要求1所述的一种基于图像引导视频编辑的文本生成视频方法,其特征在于,步骤S101中,文本分析模块通过提取输入的基础文本进行多角度的语义分析,包括但不限于主体分析、动作分析、背景分析、幅度分析、风格分析,输出多维度的文本特征向量。
3.根据权利要求1所述的一种基于图像引导视频编辑的文本生成视频方法,其特征在于,步骤S102中的具体方法如下:
采用文本生成图像模型Stable Diffusion作为基础模型,在Stable Diffusion的基础上,将文本-图像数据集LAION-5B的超分辨率子集laion-high-resolution作为图像文本对集合,计算图像文本对的一致性分数,筛选出一致性分数前1/10的文本图像对子集LAION-5B-H1_10,将LAION-5B-H1_10的文本图像对作为输入,对基础模型Stable Diffusion进行训练再调整,使得调整的模型能够通过文本输出更高质量的图像;
利用调整后的Stable Diffusion对多维度的文本特征向量进行分析,获取数据集中的模板图像,通过正向的多级高斯噪声加噪生成噪声图像,再通过反向传播学习预测去噪过程生成不同的参考图像/>,/>表示参考图像总数,对参考图像进行图像质量评分计算,选出最优参考图像作为所述基础图像/>。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410446159.XA CN118037898B (zh) | 2024-04-15 | 2024-04-15 | 一种基于图像引导视频编辑的文本生成视频方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410446159.XA CN118037898B (zh) | 2024-04-15 | 2024-04-15 | 一种基于图像引导视频编辑的文本生成视频方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118037898A CN118037898A (zh) | 2024-05-14 |
CN118037898B true CN118037898B (zh) | 2024-06-18 |
Family
ID=90986084
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410446159.XA Active CN118037898B (zh) | 2024-04-15 | 2024-04-15 | 一种基于图像引导视频编辑的文本生成视频方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118037898B (zh) |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102117654B1 (ko) * | 2019-04-29 | 2020-06-01 | 연세대학교 산학협력단 | 자연어 기반의 비디오 생성 방법 및 장치 |
EP4268473A4 (en) * | 2020-12-28 | 2024-05-22 | Samsung Electronics Co., Ltd. | SYSTEM AND METHOD FOR AUTOMATIC VIDEO RECONSTRUCTION WITH DYNAMIC POINT OF INTEREST |
CN114996515A (zh) * | 2022-05-31 | 2022-09-02 | 北京达佳互联信息技术有限公司 | 视频特征提取模型的训练方法、文本生成方法及装置 |
CN115249062B (zh) * | 2022-09-22 | 2023-02-03 | 武汉大学 | 一种文本生成视频的网络模型、方法及装置 |
CN116049523B (zh) * | 2022-11-09 | 2023-08-22 | 华中师范大学 | 一种ai智能生成古诗词情境视频的系统及其工作方法 |
CN116233491B (zh) * | 2023-05-04 | 2023-07-18 | 阿里巴巴达摩院(杭州)科技有限公司 | 视频生成的方法及服务器 |
CN116977903A (zh) * | 2023-08-15 | 2023-10-31 | 四川萃雅教育科技有限公司 | 一种通过文本智能生成短视频的aigc方法 |
CN117615200A (zh) * | 2023-11-27 | 2024-02-27 | Oppo广东移动通信有限公司 | 视频生成方法、装置、计算机可读存储介质及电子设备 |
CN117729370A (zh) * | 2023-12-12 | 2024-03-19 | 南京邮电大学 | 一种基于潜在扩散模型的文本生成视频方法及系统 |
-
2024
- 2024-04-15 CN CN202410446159.XA patent/CN118037898B/zh active Active
Non-Patent Citations (2)
Title |
---|
"Not Only Generative Art: Stable Diffusion for Content-Style Disentanglement in Art Analysis";Yankun Wu,et al;《ICMR》;20231231;全文 * |
基于多模态输入的对抗式视频生成方法;于海涛;杨小汕;徐常胜;;计算机研究与发展;20200707(第07期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN118037898A (zh) | 2024-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | Spatial information guided convolution for real-time RGBD semantic segmentation | |
Pan et al. | Loss functions of generative adversarial networks (GANs): Opportunities and challenges | |
CN110276354B (zh) | 一种高分辨率街景图片语义分割训练与实时分割方法 | |
Li et al. | Learning face image super-resolution through facial semantic attribute transformation and self-attentive structure enhancement | |
US20220198694A1 (en) | Disparity estimation optimization method based on upsampling and exact rematching | |
CN116682120A (zh) | 基于深度学习的多语种马赛克图像文本识别方法 | |
CN113723295A (zh) | 一种基于图像域频域双流网络的人脸伪造检测方法 | |
CN112037239B (zh) | 基于多层次显式关系选择的文本指导图像分割方法 | |
CN116385827A (zh) | 参数化人脸重建模型训练方法及关键点标签数据生成方法 | |
CN113140023A (zh) | 一种基于空间注意力的文本到图像生成方法及系统 | |
Yang | Application and development of digital enhancement of traditional sculpture art | |
Li et al. | Mapping new realities: Ground truth image creation with pix2pix image-to-image translation | |
CN117078921A (zh) | 一种基于多尺度边缘信息的自监督小样本汉字生成方法 | |
CN113240584A (zh) | 一种基于图片边缘信息的多任务手势图片超分辨率方法 | |
CN117292017A (zh) | 一种草图到图片跨域合成方法、系统及设备 | |
CN118037898B (zh) | 一种基于图像引导视频编辑的文本生成视频方法 | |
CN116823610A (zh) | 一种基于深度学习的水下图像超分辨率生成方法和系统 | |
CN114155560B (zh) | 基于空间降维的高分辨率人体姿态估计模型的轻量化方法 | |
CN116091885A (zh) | 一种基于rau-gan的肺结节数据增强方法 | |
CN113111906B (zh) | 一种基于单对图像训练的条件生成对抗网络模型的方法 | |
Jiang et al. | Tcgan: Semantic-aware and structure-preserved gans with individual vision transformer for fast arbitrary one-shot image generation | |
CN115115860A (zh) | 一种基于深度学习的图像特征点检测匹配网络 | |
CN114881858A (zh) | 基于多注意力机制融合的轻量级双目图像超分辨率方法 | |
Lin et al. | Click-pixel cognition fusion network with balanced cut for interactive image segmentation | |
Zhu et al. | Visual normalization of handwritten Chinese characters based on generative adversarial networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |