CN117201715A

CN117201715A - 一种视频生成方法、装置及可读存储介质

Info

Publication number: CN117201715A
Application number: CN202311181444.5A
Authority: CN
Inventors: 赵世琦; 魏家馨; 黄兵明; 马瑞涛
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2023-09-13
Filing date: 2023-09-13
Publication date: 2023-12-08

Abstract

本申请提供一种视频生成方法、装置及可读存储介质，获取文字说明，得到文本特征集合；获取视频帧合成特征集合，计算语义匹配相似度；获取情感倾向特征，计算情感匹配相似度，并基于语义匹配相似度以及情感匹配相似度确定各所述第一相似视频帧合成特征的总相似度，根据总相似度排名确定与每个文本特征最相似的第二相似视频帧合成特征；按照每个文本特征的时序对所述第二相似视频帧合成特征进行排列合成，得到最终视频文件。本申请实现了由视频文案生成短视频的自动化、批量化制作，大大缩短了视频制作时间，减少大量人工成本，呈现效果好，视频能够更精准的表达情感信息。

Description

一种视频生成方法、装置及可读存储介质

技术领域

本申请涉及视频处理技术领域，尤其涉及一种视频生成方法、装置及可读存储介质。

背景技术

随着短视频行业快速发展，各类短视频软件极大占据了民众的碎片时间。视频相比文字或静态图像，具备更全面的语义内涵，能表达更丰富的情绪和内容。目前，根据视频素材的来源视频制作可分为两种：一种为基于用户原创内容的视频创作；一种是基于视频文案，对互联网已有的视频素材资源进行剪辑、拼接来完成视频的生成。

对于第二种视频制作方法，主要包括人工以及计算机自动生成这两种制作方式。

其中，计算机自动生成是指基于计算机程序，对视频文案中的每个短句在互联网中检索与之匹配的图片，通过对图片添加各种特效及转场效果，生成由图片组成的幻灯片式的短视频，此种方法虽然实现了短视频的自动化生成，但这类视频的呈现效果较差，也会出现文字和图像语义不匹配的情况。

因此，如何利用智能化手段，对现有方法进行改进，使得能够自动化快速地生成符合视频文案语义的短视频，成为亟待解决的问题。

发明内容

本申请所要解决的技术问题是针对现有技术的上述不足，提供一种视频生成方法、装置及可读存储介质，用以解决现有技术存在的问题。

第一方面，本申请提供一种视频生成方法，所述方法包括：

S1.获取用于生成视频的文字说明，根据所述文字说明得到文本特征集合；

S2.获取用于生成视频的视频帧合成特征集合，计算所述文本特征集合中的每个文本特征与所述视频帧合成特征集合中的每个视频帧合成特征的语义匹配相似度，根据语义匹配相似度排名确定每个文本特征对应的预设数量的第一相似视频帧合成特征；

其中，所述视频帧合成特征集合基于原始视频集合得到；

S3.获取用于生成视频的情感倾向特征，计算各所述第一相似视频帧合成特征与所述情感倾向特征的情感匹配相似度，并基于语义匹配相似度以及情感匹配相似度确定各所述第一相似视频帧合成特征的总相似度，根据总相似度排名确定与每个文本特征最相似的第二相似视频帧合成特征；

S4.按照每个文本特征的时序对所述第二相似视频帧合成特征进行排列合成，得到最终视频文件。

在一些实施例中，S2之前，还包括：

S01.根据原始视频集合获取视频片段合集；

S02.基于稀疏采样算法对所述视频片段合集进行采样，得到视频帧序列集合；

S03.对所述视频帧序列集合进行特征提取，得到所述视频帧合成特征集合。

在一些实施例中，S02，包括：

S021.获取所述视频片段合集的总帧数以及视频片段长度；

S022.根据所述总帧数以及视频片段长度确定进行视频帧采样的最小帧间隔；

S023.根据所述最小帧间隔，确定视频帧序列中每一帧在所述视频片段合集中的时序号；

S024.根据所述时序号进行视频帧提取，得到所述视频帧序列集合。

在一些实施例中，S03，包括：

S031.将所述视频帧序列集合输入多模态预训练模型，得到视频帧特征序列集合，其中，所述多模态预训练模型基于互相匹配的图像文本对训练得到；

S032.基于特征合成算法，对所述视频帧特征序列集合中的每个视频帧特征序列按特征通道维度进行拼接，并通过卷积层进行特征通道数降低处理，得到所述视频帧合成特征集合。

在一些实施例中，S3中，通过以下公式计算各所述第一相似视频帧合成特征的总相似度：

其中，α为语义匹配相似度的权重因子，表示所述第一相似视频帧合成特征的总相似度，s_s表示所述第一相似视频帧合成特征与文本特征的语义匹配相似度，s_e表示所述第一相似视频帧合成特征与所述情感倾向特征的情感匹配相似度。

在一些实施例中，S1中，根据所述文字说明得到文本特征集合，包括：

S11.以所述文字说明中的标点符号为分割点，将所述文字说明分割为短句，将所述短句按顺序排列得到文本集合；

S12.将所述文本集合输入多模态预训练模型，得到所述文本特征集合，其中，所述多模态预训练模型基于互相匹配的图像文本对训练得到。

在一些实施例中，S2中，通过余弦相似度算法计算所述文本特征集合中的每个文本特征与所述视频帧合成特征集合中的每个视频帧合成特征的语义匹配相似度；

S3中，通过余弦相似度算法计算各所述第一相似视频帧合成特征与所述情感倾向特征的情感匹配相似度。

第二方面，本申请提供一种视频生成装置，所述装置包括：

文本特征获取模块，其设置为获取用于生成视频的文字说明，根据所述文字说明得到文本特征集合；

语义匹配模块，其设置为获取用于生成视频的视频帧合成特征集合，计算所述文本特征集合中的每个文本特征与所述视频帧合成特征集合中的每个视频帧合成特征的语义匹配相似度，根据语义匹配相似度排名确定每个文本特征对应的预设数量的第一相似视频帧合成特征；

其中，所述视频帧合成特征集合基于原始视频集合得到；

情感匹配模块，其设置为获取用于生成视频的情感倾向特征，计算各所述第一相似视频帧合成特征与所述情感倾向特征的情感匹配相似度，并基于语义匹配相似度以及情感匹配相似度确定各所述第一相似视频帧合成特征的总相似度，根据总相似度排名确定与每个文本特征最相似的第二相似视频帧合成特征；

视频生成模块，其设置为按照每个文本特征的时序对所述第二相似视频帧合成特征进行排列合成，得到最终视频文件。

第三方面，本申请提供一种视频生成装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以实现上述第一方面所述的视频生成方法。

第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的视频生成方法。

本申请提供的视频生成方法、装置及可读存储介质，具体的，获取用于生成视频的文字说明，根据所述文字说明得到文本特征集合；获取用于生成视频的视频帧合成特征集合，计算所述文本特征集合中的每个文本特征与所述视频帧合成特征集合中的每个视频帧合成特征的语义匹配相似度，根据语义匹配相似度排名确定每个文本特征对应的预设数量的第一相似视频帧合成特征；其中，所述视频帧合成特征集合基于原始视频集合得到；获取用于生成视频的情感倾向特征，计算各所述第一相似视频帧合成特征与所述情感倾向特征的情感匹配相似度，并基于语义匹配相似度以及情感匹配相似度确定各所述第一相似视频帧合成特征的总相似度，根据总相似度排名确定与每个文本特征最相似的第二相似视频帧合成特征；按照每个文本特征的时序对所述第二相似视频帧合成特征进行排列合成，得到最终视频文件。本申请提供一种视频生成方法，基于人工智能技术，提出了完整的由文本生成视频的全部流程，实现了由视频文案生成短视频的自动化、批量化制作，大大缩短了视频制作时间，减少大量人工成本；同时，生成的视频完全由指定视频库中的动态视频片段拼接而成，呈现效果远好于基于静态图像的幻灯片式短视频。此外，本申请提出了一种非均匀的视频稀疏采样方法，解决了视频生成效果与计算成本间的矛盾，解决了现有采样策略无法利用时序信息的缺陷，在提高了视频文案语义与每个视频片段匹配的准确度的同时，基本没有增加额外的计算成本。另外，本申请提出一种语义及情感匹配相似度计算方法，能够在匹配不同模态语义的同时，生成与预设情感倾向匹配的视频，使得视频能够更精准的表达情感信息。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请实施例提供的一种视频生成方法的流程图；

图2提供了一种视频稀疏采样方法的示意图；

图3为本申请计算总相似度的示意图；

图4为本申请实施例提供的又一种视频生成方法的流程图；

图5为本申请实施例中将视频帧序列集合与文本集合共同输入到多模态预训练模型中的示意图；

图6为本申请实施例提供的一种视频生成装置的结构示意图；

图7为本申请实施例提供的一种视频生成装置的结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

为使本领域技术人员更好地理解本申请的技术方案，下面将结合附图对本申请实施方式作进一步地详细描述。

可以理解的是，此处描述的具体实施例和附图仅仅用于解释本申请，而非对本申请的限定。

可以理解的是，在不冲突的情况下，本申请中的各实施例及实施例中的各特征可相互组合。

可以理解的是，为便于描述，本申请的附图中仅示出了与本申请相关的部分，而与本申请无关的部分未在附图中示出。

可以理解的是，本申请的实施例中所涉及的每个单元、模块可仅对应一个实体结构，也可由多个实体结构组成，或者，多个单元、模块也可集成为一个实体结构。

可以理解的是，本申请的实施例中的术语“第一”、“第二”等是用于区别不同的对象，或者用于区别对同一对象的不同处理，而不是用于描述对象的特定顺序。

可以理解的是，在不冲突的情况下，本申请的流程图和框图中所标注的功能、步骤可按照不同于附图中所标注的顺序发生。

可以理解的是，本申请的流程图和框图中，示出了按照本申请各实施例的系统、装置、设备、方法的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可代表一个单元、模块、程序段、代码，其包含用于实现规定的功能的可执行指令。而且，框图和流程图中的每个方框或方框的组合，可用实现规定的功能的基于硬件的系统实现，也可用硬件与计算机指令的组合来实现。

可以理解的是，本申请实施例中所涉及的单元、模块可通过软件的方式实现，也可通过硬件的方式来实现，例如单元、模块可位于处理器中。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

本申请提供一种视频生成方法，该方法的工作处理流程可以通过电子设备实现，例如计算机、手持智能终端等，为便于解释说明，本申请各实施例中以方法执行主题为计算机进行阐述。

图1为本申请实施例提供的视频生成方法的示意图，如图1所示，本申请提供一种视频生成方法，所述方法包括：

其中，用于生成视频的文字说明可以是由用户指定，也可以是由计算机从预设的内容中获取，也可以是由计算机随机获取。可选的，用于生成视频的文字说明可以是计算机通过网络搜索等方式获取，也可以是由用户将用于生成视频的文字说明发送至计算机，本申请对此不做限定。

可选的，用于生成视频的文字说明可以是单一类型的语言，也可以是多种语言文字的组合，本申请对此不做限定。

具体的，本步骤中，根据所述文字说明得到文本特征集合，包括：

其中，标点符号例如逗号、句号、分号、感叹号、问号等，计算机首先将标点符号作为分割点，将整段文字说明分割为数个短句，并按顺序排列得到文本集合，作为多模态预训练模型的输入。

本步骤中，多模态预训练模型为视觉-语言预训练模型，该模型通过将视觉模态信号与语言模态信号对齐，实现对两种模态语义的融合理解，在训练时通常使用海量匹配的图像文本对，分别输入到模型的文本编码器和图像编码器中，获得该图像文本对的图像特征与文本特征，之后将图像特征与文本特征共同输入到模态融合模块中进行不同模态特征的对齐融合，此外，通过掩码语言建模、掩码图像建模、对比学习、图文匹配等预训练任务对模型进行训练，当模型的损失函数收敛后，将模型微调便可用于图文检索、视觉问答、视觉推理等下游任务。

可选的，可以使用CLIP(Contrastive Language-Image Pre-training，对比语言-图像预训练模型)、ALIGN(A Large-scale ImaGe and Noisy-text embedding，大规模图像和噪声文本嵌入模型)等模型结构，在经过大量数据进行预训练后，获得多模态预训练模型。

在得到多模态预训练模型后，计算机通过将文本集合输入到多模态预训练模型中，可得到文本特征集合。文本特征集合指文本集合中的每一个短句，经过多模态预训练模型而获得的文本特征组成的特征向量集合。

其中，所述视频帧合成特征集合基于原始视频集合得到，视频帧合成特征集合可以是在生成视频之前就提前得到，也可以是在生成视频时得到。

由于对于视觉语义信息的提取和理解的计算成本相对较高，为了满足应用中实时性的要求，视频帧合成特征集合可以是在生成视频之前就提前得到，并将获得的视频帧合成特征集合预先存储，在生成视频时，计算机直接获取存储的视频帧合成特征集合进行使用即可，由此可以极大提高本申请方法的实时性。

以视频帧合成特征集合在生成视频之前就提前得到的情况为例进行解释说明，在S2之前，还包括：

S01.根据原始视频集合获取视频片段合集；

其中，原始视频集合为由大量影视作品、新闻画面、视频广告、用户原创视频等各类主题、风格、形式的视频组成的视频集合，原始视频集合为最终生成的视频中全部视频画面的内容来源，通过指定原始视频集合的范围，可以确定最终生成音乐视频的风格、题材、主题等，例如，将原始视频集合限定为科幻题材影视作品的集合，最终生成的视频就为科幻影视作品风格；将原始视频集合限定为自然纪录片视频的集合，最终生成的视频就为自然纪录片风格。

在步骤S01中，在获得原始视频集合后，计算机可利用镜头边界检测模型对原始视频集合进行镜头分割，获得视频片段集合。对于原始视频集合中的每一个原始视频，大多都是由多个连贯的镜头结合转场效果拼接而成的，每个镜头指具有连续画面和语义的视频片段。而利用镜头边界检测模型，就可以实现自动化的镜头分割，将完整的长视频，分割为数段长度为数秒至数十秒的视频片段，每个视频片段中的语义或画面是连贯的，两个不同视频片段间存在显著的图像特征差异或视频语义差异。

可选的，使用基于有监督训练或无监督训练的深度神经网络模型，可实现端到端的镜头边界检测能力，相关处理过程可以通过现有技术实现，本申请对此不做赘述。

在得到视频片段合集后，计算机对视频片段集合中的每个视频片段进行视频稀疏采样，获得其视频帧序列，并合成视频帧序列集合。每一个视频都是由非常多个视频帧排序组成的，若直接对全部视频信息进行特征提取，其计算成本将极其高昂，而在同一视频片段中，相邻两帧间的画面和语义变化是几乎可以忽略不记的。

在现有技术中，当前的视频稀疏采样方法通常为均匀采样，均匀采样后可计算得到视频帧序列的平均视频帧表示，然而此种方法缺乏对时序信息的利用，例如无法分辨人打开橱柜和人关闭橱柜这两个视频片段的差异，且对于视频生成场景，更关注视频最初的画面语义匹配是否准确，所以视频片段中头部的语义信息要比尾部的语义信息重要。

本申请中，计算机对于视频进行稀疏采样，从视频中抽取少量视频帧代表整段视频，既能够保证少量视频帧与整段视频的语义接近，又能极大的减少计算成本。

具体的，S02，包括：

S021.获取所述视频片段合集的总帧数以及视频片段长度；

基于以上S021-S024的步骤，设定视频片段合集的总帧数为S，视频片段长度为T(单位：秒)，定义从该视频片段合集中取t＝floor(T)帧作为视频帧序列，则最小帧间隔为：

其中，floor(x)函数为将x向下取整到个位，则视频帧序列中每一帧在视频片段中的时序号计算公式为：

例如，图2提供了一种视频稀疏采样方法的示意图，其中，横轴代表视频片段帧序号，向上箭头代表采样抽取的视频帧序号，图2中(a)为采用均匀采样方法采集的视频帧序号，图2中(b)为采用本申请的稀疏采样方法采集的视频帧序号，假设该视频片段共245帧，视频长度为10.2s，根据图2可以看出在采样数相同的情况下，本申请的稀疏采样方法可以更关注视频头部语义信息的抽取，从而满足视频生成场景的需要。

在得到视频帧序列集合后，计算机对所述视频帧序列集合进行特征提取，得到所述视频帧合成特征集合。

本申请中，S03，包括：

其中，多模态预训练模型可以采用前文S1中的模型，计算机通过将视频帧序列集合输入到多模态预训练模型中，可得到视频帧特征序列集合。视频帧特征序列集合指视频帧序列集合中的每一个序列中的每一个视频帧都经过多模态预训练模型，而获得的视频帧特征按顺序排成序列组成的特征向量集合。

在得到视频帧特征序列集合后，计算机采用特征合成算法得到视频帧合成特征集合。特征合成算法是指将多个指定视觉特征向量做特征合成处理，获得单一视觉特征向量。在本步骤中，计算机对视频帧特征序列集合中的每个视频帧特征序列按特征通道维度拼接，并通过卷积层降低其特征通道数，将视频帧特征序列中的多个视觉特征向量，合成一个单一的视觉特征向量，其特征向量维度与单个文本特征向量维度相同，从而可以方便与文本特征直接进行计算。

通过采用上述S032中的特征合成方法，一方面，不会对整个方法的计算结果造成太多影响。另一方面，由于本申请采用了非均匀的视频稀疏采样方法，使得在特征合成后，依然能对不同时序的内容相近的视频语义进行判断，且更关注视频头部语义信息的抽取，满足视频生成场景的需要。

在一些实施例中，步骤S2中，可以通过余弦相似度算法计算所述文本特征集合中的每个文本特征与所述视频帧合成特征集合中的每个视频帧合成特征的语义匹配相似度，然后根据语义匹配相似度排名确定每个文本特征对应的预设数量的第一相似视频帧合成特征。

具体的，余弦相似度算法的计算公式具体如下：

其中，x和y为两种不同的向量，本步骤中分别为文本特征以及视频帧合成特征，其向量长度为n。两向量的余弦相似度处于[-1，1]区间内，若为1，说明两向量的相似度最高。

在本步骤中，利用相似度算法，将文本特征集合中每个文本特征与视频帧合成特征集合中每个视频帧合成特征两两计算语义匹配相似度s_s，对于每个短句的文本特征，将与其进行相似度计算的全部视频帧合成特征按照相似度高低排序，按照相似度由高到低选择预设数量(例如k个，k为大于等于1的正整数)的第一相似视频帧合成特征。其中，预设数量可以由用户自定义设置，例如10、20或者25等，本申请对该数量不做具体限定。

其中，情感倾向特征是指由用户指定的情感特征向量，具体是指快乐、悲伤、平静、愤怒等情绪表达。该情感倾向特征可以是由用户手动输入，也可以是用户在既有情感倾向中进行选择，本申请不做限定。

在获得情感倾向特征后，计算机可以基于prompt engineering(提示工程)的方法，套用一些预先设置的模板，获得人为构造的情感倾向文本。预设模板包括“一个…的动作”、“一种…的画面”、“一系列…的图像”等等，对于预设模板的形式，本方法不做限定，在省略号处填入情感倾向词，便可获得人为构造的情感倾向文本。然后，计算机将此人为构造的情感倾向文本输入到多模态预训练模型中，便可获得情感倾向特征向量。

可选的，步骤S3中，通过余弦相似度算法计算各所述第一相似视频帧合成特征与所述情感倾向特征的情感匹配相似度。

具体的，余弦相似度算法的计算公式具体如下：

其中，x和y为两种不同的向量，本步骤中分别为第一相似视频帧合成特征以及情感倾向特征，其向量长度为n。两向量的余弦相似度处于[-1，1]区间内，若为1，说明两向量的相似度最高。

图3为本申请计算总相似度的示意图，如图3所示，在得到情感匹配相似度后，计算机进一步通过以下公式计算各所述第一相似视频帧合成特征的总相似度：

其中，α为语义匹配相似度的权重因子，若0<|α|<1，则语义匹配相似度对总相似度的贡献度更高，若|α|>1，则情感匹配相似度对总相似度的贡献度更高，可以根据实际情况选择不同的数值，例如0.5、1.5等，本步骤不做具体限定；s_t表示所述第一相似视频帧合成特征的总相似度，s_s表示所述第一相似视频帧合成特征与文本特征的语义匹配相似度，s_e表示所述第一相似视频帧合成特征与所述情感倾向特征的情感匹配相似度。

在得到总相似度后，计算机根据总相似度排名，便可以获得与文本集合中每个短句最匹配的视频片段，即与每个文本特征最相似的第二相似视频帧合成特征。

在得到与每个文本特征最相似的第二相似视频帧合成特征后，计算机可以按照每个文本特征的时序对所述第二相似视频帧合成特征进行排列合成，通过首尾拼接剪辑得到最终视频文件。

本申请提供一种视频生成方法，基于人工智能技术，提出了完整的由文本生成视频的全部流程，实现了由视频文案生成短视频的自动化、批量化制作，大大缩短了视频制作时间，减少大量人工成本；同时，生成的视频完全由指定视频库中的动态视频片段拼接而成，呈现效果远好于基于静态图像的幻灯片式短视频。

此外，本申请提出了一种非均匀的视频稀疏采样方法，解决了视频生成效果与计算成本间的矛盾，解决了现有采样策略无法利用时序信息的缺陷，在提高了视频文案语义与每个视频片段匹配的准确度的同时，基本没有增加额外的计算成本。

另外，本申请提出一种语义及情感匹配相似度计算方法，能够在匹配不同模态语义的同时，生成与预设情感倾向匹配的视频，使得视频能够更精准的表达情感信息。

在一些实施例中，以视频帧合成特征集合在生成视频时得到的情况为例进行解释说明，图4为本申请实施例提供的视频生成方法的另一示意图，如图4所示，本申请提供一种视频生成方法，包括：

1)获得视频片段集合；

2)基于视频稀疏采样方法对视频片段集合采样，获得视频帧序列集合；

3)获得用于生成视频的文字说明，并根据标点分割成短句，获得文本集合；

4)将视频帧序列集合与文本集合共同输入到多模态预训练模型中，获得视频帧特征序列集合与文本特征集合；

图5为本申请实施例中将视频帧序列集合与文本集合共同输入到多模态预训练模型中的示意图，如图5所示，将视频帧序列集合与文本集合共同输入到多模态预训练模型中，可以分别得到对应的视频帧特征序列集合与文本特征集合。

5)基于特征合成算法，由视频帧特征序列集合合成获得视频帧合成特征集合；

6)利用相似度算法，分别计算获得针对文本特征集合中每个文本特征，视频帧合成特征集合中每个视频帧合成特征的语义匹配相似度，获得语义匹配相似度最高的数个视频帧合成特征；

7)获得待生成视频的情感倾向特征向量，与语义匹配相似度最高的数个视频帧合成特征分别计算情感匹配相似度，并计算获得总相似度；

8)根据总相似度排名，按照文本特征的时序排列，剪辑合成最终视频文件。

关于对于上述步骤的详细限定，可以参考前述各实施例，本申请在此不再赘述。

应该理解的是，虽然上述实施例中的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

图6为本申请实施例提供的视频生成装置的示意图，如图6所示，本申请提供一种视频生成装置，所述装置包括：

文本特征获取模块11，其设置为获取用于生成视频的文字说明，根据所述文字说明得到文本特征集合；

语义匹配模块12，其设置为获取用于生成视频的视频帧合成特征集合，计算所述文本特征集合中的每个文本特征与所述视频帧合成特征集合中的每个视频帧合成特征的语义匹配相似度，根据语义匹配相似度排名确定每个文本特征对应的预设数量的第一相似视频帧合成特征；

其中，所述视频帧合成特征集合基于原始视频集合得到；

情感匹配模块13，其设置为获取用于生成视频的情感倾向特征，计算各所述第一相似视频帧合成特征与所述情感倾向特征的情感匹配相似度，并基于语义匹配相似度以及情感匹配相似度确定各所述第一相似视频帧合成特征的总相似度，根据总相似度排名确定与每个文本特征最相似的第二相似视频帧合成特征；

视频生成模块14，其设置为按照每个文本特征的时序对所述第二相似视频帧合成特征进行排列合成，得到最终视频文件。

本申请提供一种视频生成装置，基于人工智能技术，提出了完整的由文本生成视频的全部流程，实现了由视频文案生成短视频的自动化、批量化制作，大大缩短了视频制作时间，减少大量人工成本；同时，生成的视频完全由指定视频库中的动态视频片段拼接而成，呈现效果远好于基于静态图像的幻灯片式短视频。此外，能够在匹配不同模态语义的同时，生成与预设情感倾向匹配的视频，使得视频能够更精准的表达情感信息。

关于对视频生成装置的限定，可以参考本申请上述各实施例中对于视频生成方法的限定，本实施例在此不再赘述。

图7为本申请实施例提供的视频生成装置的示意图，如图7所示，在一些实施例中，本申请提供一种视频生成装置，包括存储器22和处理器21，存储器中存储有计算机程序，处理器被设置为运行所述计算机程序以执行本申请上述各实施例中的视频生成方法。

其中，存储器与处理器连接，存储器可采用闪存或只读存储器或其他存储器，处理器可采用中央处理器或单片机。

在一些实施例中，本申请提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现本申请上述各实施例中的视频生成方法。

该计算机可读存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、计算机程序模块或其他数据)的任何方法或技术中实施的易失性或非易失性、可移除或不可移除的介质。计算机可读存储介质包括但不限于RAM(Random Access Memory，随机存取存储器)，ROM(Read-Only Memory，只读存储器)，EEPROM(Electrically ErasableProgrammable read only memory，带电可擦可编程只读存储器)、闪存或其他存储器技术、CD-ROM(Compact Disc Read-Only Memory，光盘只读存储器)，数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。

可以理解的是，以上实施方式仅仅是为了说明本申请的原理而采用的示例性实施方式，然而本申请并不局限于此。对于本领域内的普通技术人员而言，在不脱离本申请的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本申请的保护范围。

Claims

1.一种视频生成方法，其特征在于，所述方法包括：

其中，所述视频帧合成特征集合基于原始视频集合得到；

2.根据权利要求1所述的视频生成方法，其特征在于，S2之前，还包括：

S01.根据原始视频集合获取视频片段合集；

3.根据权利要求2所述的视频生成方法，其特征在于，S02，包括：

S021.获取所述视频片段合集的总帧数以及视频片段长度；

4.根据权利要求2所述的视频生成方法，其特征在于，S03，包括：

5.根据权利要求1-4任一项所述的视频生成方法，其特征在于，S3中，通过以下公式计算各所述第一相似视频帧合成特征的总相似度：

6.根据权利要求1-4任一项所述的视频生成方法，其特征在于，S1中，根据所述文字说明得到文本特征集合，包括：

7.根据权利要求1-4任一项所述的视频生成方法，其特征在于，S2中，通过余弦相似度算法计算所述文本特征集合中的每个文本特征与所述视频帧合成特征集合中的每个视频帧合成特征的语义匹配相似度；

8.一种视频生成装置，其特征在于，所述装置包括：

其中，所述视频帧合成特征集合基于原始视频集合得到；

9.一种视频生成装置，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以实现如权利要求1-7中任一项所述的视频生成方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的视频生成方法。