CN114297440A

CN114297440A - 视频自动生成方法、装置、计算机设备及存储介质

Info

Publication number: CN114297440A
Application number: CN202111647936.XA
Authority: CN
Inventors: 伍隆辉
Original assignee: Shenzhen Fuzhifu Information Technology Co ltd
Current assignee: Shenzhen Fuzhifu Information Technology Co ltd
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-04-08

Abstract

本发明实施例公开了视频自动生成方法、装置、计算机设备及存储介质。方法包括：获取文本信息以及背景视频；判断文本信息是否是链接；若文本信息是链接，则爬取文本信息内的URL链接，并从URL链接内解析出文本内容；判断文本内容的长度是否符合要求；若文本内容的长度不符合要求，则对文本内容进行分割合并，以得到若干个段落；对若干个段落分别生成文本摘要；对每个段落的文本摘要进行文本校验和汇总，以得到视频文案；根据视频文案以及背景视频生成短视频；若文本信息不是链接，则确定文本信息为文本内容，并执行判断文本内容的长度是否符合要求。通过实施本发明实施例的方法可实现自动生成视频，减轻了工作量，大幅提高视频生成效率。

Description

视频自动生成方法、装置、计算机设备及存储介质

技术领域

本发明涉及视频生成方法，更具体地说是指视频自动生成方法、装置、计算机设备及存储介质。

背景技术

基于短视频的娱乐和营销经济日渐流行，现有的视频制作，绝大部分以人工手工制作为主，或虽有自动化视频制作的工具，也均是对固定的视频模板中固定素材的简单替换，但视频制作过程非常耗费人力，效率很低，特别是在移动环境中，在移动设备上手动制作视频的体验还不是很理想。

因此，有必要设计一种新的方法，实现自动生成视频，减轻了工作量，大幅提高视频生成效率。

发明内容

本发明的目的在于克服现有技术的缺陷，提供视频自动生成方法、装置、计算机设备及存储介质。

为实现上述目的，本发明采用以下技术方案：视频自动生成方法，包括：

获取文本信息以及背景视频；

判断所述文本信息是否是链接；

若所述文本信息是链接，则爬取所述文本信息内的URL链接，并从所述URL链接内解析出文本内容；

判断所述文本内容的长度是否符合要求；

若所述文本内容的长度不符合要求，则对所述文本内容进行分割合并，以得到若干个段落；

对若干个段落分别生成文本摘要；

对每个段落的文本摘要进行文本校验和汇总，以得到视频文案；

根据所述视频文案以及所述背景视频生成短视频；

若所述文本信息不是链接，则确定所述文本信息为文本内容，并执行所述判断所述文本内容的长度是否符合要求。

其进一步技术方案为：所述判断所述文本内容的长度是否符合要求之后，还包括：

若所述文本内容的长度符合要求，则确定所述文本内容为视频文案，并执行所述根据所述视频文案以及所述背景视频生成短视频。

其进一步技术方案为：所述对所述文本内容进行分割合并，以得到若干个段落，包括：

根据所述文本内容的长度以及文本摘要的长度对所述文本内容进行分割，以得到若干个自然段；

以递归方式合并若干个所述自然段，以得到若干个段落。

其进一步技术方案为：所述对若干个段落分别生成文本摘要，包括：

将若干个段落分别输入抽象摘要生成模型内进行文本摘要生成，以得到若干个段落的文本摘要；

其中，所述抽象摘要生成模型是通过带有摘要文本标签的段落作为样本集训练基于自注意力机制的Transformer模型所得的。

其进一步技术方案为：所述对每个段落的文本摘要进行文本校验和汇总，以得到视频文案，包括：

对每个段落的文本摘要进行校验补齐，汇总校验补齐后的每个段落的文本摘要，以形成视频文案。

其进一步技术方案为：所述根据所述视频文案以及所述背景视频生成短视频，包括

根据所述视频文案生成音频文件；

对所述音频文件进行波形分析，并匹配每个段落的文本摘要，以得到带时间轴的字幕文件；

合并所述背景视频、带时间轴的字幕文件以及音频文件，以得到短视频。

其进一步技术方案为：所述背景视频包括终端上传的背景视频，或者，根据终端选择的视频标签在视频素材库内匹配得到的关联度符合要求的视频素材。

本发明还提供了视频自动生成装置，包括：

获取单元，用于获取文本信息以及背景视频；

信息判断单元，用于判断所述文本信息是否是链接；

爬取单元，用于若所述文本信息是链接，则爬取所述文本信息内的URL链接，并从所述URL链接内解析出文本内容；

长度判断单元，用于判断所述文本内容的长度是否符合要求；

分割合并单元，用于若所述文本内容的长度不符合要求，则对所述文本内容进行分割合并，以得到若干个段落；

摘要生成单元，用于对若干个段落分别生成文本摘要；

文案生成单元，用于对每个段落的文本摘要进行文本校验和汇总，以得到视频文案；

短视频生成单元，用于根据所述视频文案以及所述背景视频生成短视频；

第一确定单元，用于若所述文本信息不是链接，则确定所述文本信息为文本内容，并执行所述判断所述文本内容的长度是否符合要求。

本发明还提供了一种计算机设备，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现上述的方法。

本发明还提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法。

本发明与现有技术相比的有益效果是：本发明通过获取文本信息以及背景视频，根据文本信息确定文本内容，并对长度不符合要求的文本内容进行分割合并、文本摘要生成以及文本校验和汇总，以生成视频文案，对于长度符合要求的文本内容，直接确定为视频文案，将视频文案结合背景视频生成短视频，实现自动生成视频，减轻了工作量，大幅提高视频生成效率。

下面结合附图和具体实施例对本发明作进一步描述。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的视频自动生成方法的应用场景示意图；

图2为本发明实施例提供的视频自动生成方法的流程示意图；

图3为本发明实施例提供的视频自动生成方法的子流程示意图；

图4为本发明实施例提供的视频自动生成方法的子流程示意图；

图5为本发明实施例提供的视频自动生成装置的示意性框图；

图6为本发明实施例提供的视频自动生成装置的分割合并单元的示意性框图；

图7为本发明实施例提供的视频自动生成装置的短视频生成单元的示意性框图；

图8为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1和图2，图1为本发明实施例提供的视频自动生成方法的应用场景示意图。图2为本发明实施例提供的视频自动生成方法的示意性流程图。该视频自动生成方法应用于服务器中。该服务器与终端进行数据交互，从终端获取用户上传的文本信息以及与背景视频相关的内容，对文本信息进行判断，以提取出文本内容，根据文本内容的长度进行处理，生成视频文案，视频文案以及所述背景视频生成短视频。

图2是本发明实施例提供的视频自动生成方法的流程示意图。如图2所示，该方法包括以下步骤S110至S200。

S110、获取文本信息以及背景视频。

在本实施例中，文本信息是指由终端上传的且带有视频合成相关的文本内容的信息。

背景视频是指终端上传的用于短视频背景的视频，或者，根据终端选择的视频标签在视频素材库内匹配得到的关联度符合要求的视频素材。

具体地，文本可以是系统推荐展示的或系统中可供搜索的热点新闻、生活和地理人文等方面的多样化文本，也可为视频制作者通过手机输入或拷贝的文本，包括URL格式文本链接。文本统一存储为便于检索的文本格式，包括但不限于XML、Json等格式文件或关系型数据库如MySQL表中字符串字段，便于制作者通过人机交互界面进行查询。

用户输入的、或系统推荐的文本可统一存储于XML、Json等格式文件或关系型数据库，查询方式取决于存储格式。作为示例，假如制作者要查询系统是否有想要的文本，以下MySQL文本存储表TextInfo中的Text字段可用于存储文本,TextType用于分类，Date1为输入时间戳。例如，输入文本分类和内容等关键字，如“新闻”和“阿富汗”，系统可用如下SQL于分别检索出10条最新新闻和10条有关阿富汗的最新新闻。

当然，用户直接输入或拷贝的、系统推荐的、或系统根据用户所提供链接实时爬取解析的文本，展示在移动设备上的系统用户编辑窗，供用户检查和修改。文本信息还可以是编辑所得，用户也可通过移动设备上的人机交互界面，用关键字进行查询匹配，用户选中查询输出文本后，该文本展示在系统用户编辑窗，供用户中检查和修改，用户修改确认过的、或直接确认的文本，将作为文本内容，进行后续处理操作。

S120、判断所述文本信息是否是链接；

S130、若所述文本信息是链接，则爬取所述文本信息内的URL链接，并从所述URL链接内解析出文本内容。

如果文本信息为URL链接，则需要爬取并解析URL链接。由于目标网站的爬取许可和解析格式不尽相同，为简单起见，本实施例可限定能爬取的主流网站供用户选择。由于网页爬虫如基于requests库的Python爬虫为通用技术，此处不再赘述。

S140、判断所述文本内容的长度是否符合要求。

在自动合成视频时，视频中音频及字幕的长度需要控制，为使音频及字幕长度可控，对输入文本内容生成的文本摘要的长度需可控。

在本实施例中，假设视频字幕或音频最大长度为L，由于所生成的摘要长度近似于M，当L≤M，则所述文本内容的长度符合要求，否则，所述文本内容的长度不符合要求。

S150、若所述文本内容的长度不符合要求，则对所述文本内容进行分割合并，以得到若干个段落。

在本实施例中，若干个段落是指对文本内容进行分割合并后得到的若干个段文字。

假设视频字幕或音频最大长度为L，由于摘要生成模型对任意长度文本所生成的摘要长度近似于M，故输入文本内容最多可分割为N个段落，这里N为输入值为L/M的向下取整数函数的输出。对每个段落生成段落摘要，汇总的全文摘要长度近似于N*M，由此实现视频音频和字幕的长度可控。所以需要将输入文本分割为多个自然段，再以递归方式将这些自然段落合并为最多N个段落。

在一实施例中，请参阅图3，上述的步骤S150可包括步骤S151～S152。

S151、根据所述文本内容的长度以及文本摘要的长度对所述文本内容进行分割，以得到若干个自然段。

在本实施例中，若干个自然段是指根据所述文本内容的长度以及文本摘要的长度对所述文本内容进行分割，形成的若干个完整的自然段。

S152、以递归方式合并若干个所述自然段，以得到若干个段落。

假设文本内容长度为T，将minPa预设为最小段落长度，这里minPa为输入为T/N的向上取整函数输出值。如果文本内容长度小于视频字幕或音频最大长度L，或所含自然段数小于最大可分割段数，直接将该文本内容作为全文的文本摘要。对其它文本内容，递归分割合并算法的思路如下：从文本内容的第一自然段开始迭代，如长度不小于minPa，标记本段为完成段，迭代到下一自然段；如长度小于minPa，与下一自然段合并，如合并后仍小于minPa，继续向下合并，直至合并长度不小于minPa，标记合并段为完成段；如当前合并段已合并最后自然段但长度仍小于minPa，将当前合并段与前一完成段合并，标记新合并段为完成段；如新迭代首段为最后自然段但长度小于minPa，该段与上一完成段合并，标记新合并段为完成段。

实际操作中，还有两个因素需要考虑：合并后，段落长度几乎都大于minPa，段落总数几乎都会小于N；所生成的文本摘要长度有限制，多数情况下生成的段落的文本摘要长度都小于M，少数情况下段落的文本摘要最后一句会在中间截止，需按原文补齐。由于这两个因素，为尽量让全文的文本摘要长度接近L，可将最小段落长度的下限阀值调整为alpha*minPa，此处alpha为0.5到1之间的值，一般设为0.8。

S160、对若干个段落分别生成文本摘要。

在本实施例中，文本摘要是指每个段落的内容提要。

在本实施例中，将若干个段落分别输入抽象摘要生成模型内进行文本摘要生成，以得到若干个段落的文本摘要；

对抽象摘要生成模型进行自监督微调，即自监督学习，以增强模型的概括句式提取能力，然后将有摘要的文本作为训练数据，对抽象摘要生成模型的抽象摘要任务进行有监督微调。相比传统方法，基于抽象摘要生成模型的文本摘要生成质量有了很大改善，但距离实用水平仍有距离，一个主要原因是有摘要的中文文本训练数据较少，自监督微调通过自动生成更多的概括性文本作为摘要和训练数据，来解决预训练模型文本摘要任务实用化问题。

基于自注意力机制的Transformer模型是一种Encoder-Decoder深度网络架构，它不仅提高了机器翻译等任务的准确率，还催生了以Bert和APT等预训练模型为代表的自然语言处理应用开发新模式：基于海量数据和昂贵GPU硬件训练出来的预训练模型被开放共享，下游应用加载预训练模型，用少量有标签数据对模型进行有监督或无监督学习又称微调，用微调后的模型来执行下游应用任务。这种新开发范式不需要拥有大量基础数据和算力，不需要从零开始训练模型，极大降低了自然语言处理应用开发难度和时间。

该抽象摘要生成模型在训练时，需要进行模型加载、自监督微调和有监督微调，才可以进行模型的实用；需先加载一个具备摘要生成能力的预训练模型；由于中文摘要稀缺，为了让模型能更好的理解特定领域摘要任务，对模型进行自监督微调；接下来，通过有限的中文摘要，对模型进行有监督微调；最后，给定输入文本内容，用微调好的模型生成摘要。需要说明，基于Transformer架构的预训练模型大多具备摘要生成能力，对于特定领域的无摘要文本，通过将概括句式作为摘要和训练数据，对预训练模型进行自监督微调，增强了模型在特定领域的概括句式提取能力。

在本实施例中，选用谷歌T5预训练模型的多语种版mT5作为预训练模型，mT5预训练模型的微调方法和谷歌T5的一样。mT5模型加载完成后，可当成黑盒子使用。用PyTorch框架下Huggingface接口加载mt5-base模型即mT5基础版的模型文件和分词表，便构建了一个能生成抽象摘要的基础训练模型，在对mT5模型摘要生成任务进行特定领域微调和评估过程中，编码器和解码器的输入和掩码处理，解码器的自回归输入和移位操作处理等可遵照T5模型的相关方法，微调方法和评估脚本可参照T5模型的内容。

对于自监督微调过程，给定一个有抽象摘要生成能力的中文预训练模型如谷歌mT5，为了让模型具备更好的特定领域抽象摘要生成能力，需对模型进行针对特定领域的微调。考虑到中文摘要数据稀缺，能否从特定领域文本中自动提取有代表性的概括性句式，是模型能否在特定领域生成实用化抽象摘要的关键。自监督微调方式下，常用的句式提取方法是从文本中随机提取句式或提取首句。相比常用方法，本实施例提供了一种更好的基于最长公共子序列的概括序列选择算法：给定一个多句号中文文本，根据概括序列选择算法，将文本分解为概括和非概括句式序列；概括句式序列组成了摘要任务摘要，非概括句式序列组成了摘要任务文本。由此，对模型摘要任务特定领域自监督微调，转化为特定领域有监督微调，训练数据由最佳概括序列选择算法生成，微调和评估方法可参考T5预训练模型方法。

对于有监督微调过程，经过自监督微调，预训练模型增强了在特定领域的概括句式提取能力。不过，为生成抽象摘要，还需对模型进行通用领域的，针对抽象摘要生成任务的有监督微调。给定预训练模型、文本和摘要，有监督微调就是常用的有监督学习，这里不赘述，预训练模型有监督微调完成后，给定一个特定领域的输入文本，模型就能生成一个实用的抽象式摘要。

本实施例方法实现了少样本学习训练效果。这里的少样本学习是指，预训练模型进行特定领域文本的自监督微调后，其有监督微调任务中的训练数据无需大量语料，也无需是来自特定领域的定制化摘要，就能取到不错摘要的效果。在训练中，用了1600条中文新闻摘要语料和一个型号3060的GPU，在半小时左右完成了40个epoches有监督训练，，事实上训练到第17个epoch时，rouge-l分值已超过0.55。

S170、对每个段落的文本摘要进行文本校验和汇总，以得到视频文案。

在本实施例中，视频文案是指生成短视频的相关文案内容。

具体地，对每个段落的文本摘要进行校验补齐，汇总校验补齐后的每个段落的文本摘要，以形成视频文案。

抽象摘要生成模型生成的文本摘要有字数限制，文本摘要最后一句存在不是一个完整句式的可能性。在正式输出文本摘要时，如校验发现最后一句未以句号结尾，需根据文本内容进行补齐逻辑处理。整个视频文案生成过程如下：短文本的文本内容直接输出为视频文案；中、长文本经文本递归分割汇总生成为多个段落，分别由抽象摘要生成模型生成多个段落的文本摘要；对某些段落的文本摘要进行校验补齐，将校验补齐段落的文本摘要汇总为视频文案，这些短路的文本摘要是最后一句存在不是一个完整句式的文本摘要。

S180、根据所述视频文案以及所述背景视频生成短视频。

在本实施例中，短视频是指根据用户输入的文本信息以及背景视频生成的相关视频文件。

在一实施例中，请参阅图4，上述的步骤S180可包括步骤S181～S183。

S181、根据所述视频文案生成音频文件。

在本实施例中，音频文件是指根据视频文案生成的音频数据。

具体地，采用tts语音合成工具对视频文案进行配音，以生成音频文件，在本实施例中，tts语音合成工具对视频文案进行配音属于现有技术，此处不再赘述。

S182、对所述音频文件进行波形分析，并匹配每个段落的文本摘要，以得到带时间轴的字幕文件。

在本实施例中，带时间轴的字幕文件是指以时间轴为基准的字幕。

在本实施例中，采用librosa对音频文件进行波形分析，并匹配每个段落的文本摘要，以得到带时间轴的字幕文件。

S183、合并所述背景视频、带时间轴的字幕文件以及音频文件，以得到短视频。

在本实施例中，当以视频标签来确定背景视频时，背景视频以对象存储形式存储于阿里云OSS数据库，作为预收集的带标签素材库。存储视频时，通过人工提取的原文关键词给视频打标签。执行自动视频生成任务时，如果用户选择系统自动提供的视频素材，则根据用户点击的可选视频素材标签，系统自动从素材库匹配相关高的视频作为视频素材了；如果是用户选择自主上传视频素材，则以用户提供的视频文件作为背景视频。

预收集一些特定领域的相关或弱相关视频素材，打好标签存于视频素材库；将输入文本内容自动生成为视频文案；通过第三方工具将视频文案转化为字幕和音频；用户点击系统的可选视频标签，从视频素材库提取出最匹配的背景视频文件，或用户上传自己的背景视频素材；将音频、字幕与视频文件合成为完整视频；将合成视频自动发布到视频平台。

具体地，提取视频背景后，通过Text-to-Speech工具将视频文案转化为定制化语音，通过文本断句和音频波谱切割方式生成带时间戳的字幕。然后，根据音频时长对视频素材进行切割或多段合并，使用ffmpeg视频编辑工具进行字幕打轴和音视频合并，添加专有片头片尾，最终形成推荐的短视频。合成结束后，系统通过提供一键发布接口，将所合成短视频上传至用户平台账户并激活。

S190、若所述文本信息不是链接，则确定所述文本信息为文本内容，并执行所述步骤S140。

S200、若所述文本内容的长度符合要求，则确定所述文本内容为视频文案，并执行所述步骤S180。

上述的视频自动生成方法，通过获取文本信息以及背景视频，根据文本信息确定文本内容，并对长度不符合要求的文本内容进行分割合并、文本摘要生成以及文本校验和汇总，以生成视频文案，对于长度符合要求的文本内容，直接确定为视频文案，将视频文案结合背景视频生成短视频，实现自动生成视频，减轻了工作量，大幅提高视频生成效率。

图5是本发明实施例提供的一种视频自动生成装置300的示意性框图。如图5所示，对应于以上视频自动生成方法，本发明还提供一种视频自动生成装置300。该视频自动生成装置300包括用于执行上述视频自动生成方法的单元，该装置可以被配置于服务器中。具体地，请参阅图5，该视频自动生成装置300包括获取单元301、信息判断单元302、爬取单元303、长度判断单元304、分割合并单元305、摘要生成单元306、文案生成单元307、短视频生成单元308、第一确定单元309以及第二确定单元310。

获取单元301，用于获取文本信息以及背景视频；信息判断单元302，用于判断所述文本信息是否是链接；爬取单元303，用于若所述文本信息是链接，则爬取所述文本信息内的URL链接，并从所述URL链接内解析出文本内容；长度判断单元304，用于判断所述文本内容的长度是否符合要求；分割合并单元305，用于若所述文本内容的长度不符合要求，则对所述文本内容进行分割合并，以得到若干个段落；摘要生成单元306，用于对若干个段落分别生成文本摘要；文案生成单元307，用于对每个段落的文本摘要进行文本校验和汇总，以得到视频文案；短视频生成单元308，用于根据所述视频文案以及所述背景视频生成短视频；第一确定单元309，用于若所述文本信息不是链接，则确定所述文本信息为文本内容，并执行所述判断所述文本内容的长度是否符合要求。第二确定单元310，用于若所述文本内容的长度符合要求，则确定所述文本内容为视频文案，并执行所述根据所述视频文案以及所述背景视频生成短视频。

在一实施例中，如图6所示，所述分割合并单元305包括分割子单元3051以及自然段合并子单元3052。

分割子单元3051，用于根据所述文本内容的长度以及文本摘要的长度对所述文本内容进行分割，以得到若干个自然段；自然段合并子单元3052，用于以递归方式合并若干个所述自然段，以得到若干个段落。

在一实施例中，所述摘要生成单元306，用于将若干个段落分别输入抽象摘要生成模型内进行文本摘要生成，以得到若干个段落的文本摘要；其中，所述抽象摘要生成模型是通过带有摘要文本标签的段落作为样本集训练基于自注意力机制的Transformer模型所得的。

在一实施例中，文案生成单元307，用于对每个段落的文本摘要进行校验补齐，汇总校验补齐后的每个段落的文本摘要，以形成视频文案。

在一实施例中，如图7所示，所述短视频生成单元308包括音频生成子单元3081、波形分析子单元3082以及文件合并子单元3083。

音频生成子单元3081，用于根据所述视频文案生成音频文件；波形分析子单元3082，用于对所述音频文件进行波形分析，并匹配每个段落的文本摘要，以得到带时间轴的字幕文件；文件合并子单元3083，用于合并所述背景视频、带时间轴的字幕文件以及音频文件，以得到短视频。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述视频自动生成装置300和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

上述视频自动生成装置300可以实现为一种计算机程序的形式，该计算机程序可以在如图8所示的计算机设备上运行。

请参阅图8，图8是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是服务器，其中，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图8，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令，该程序指令被执行时，可使得处理器502执行一种视频自动生成方法。

该处理器502用于提供计算和控制能力，以支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行一种视频自动生成方法。

该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如下步骤：

获取文本信息以及背景视频；判断所述文本信息是否是链接；若所述文本信息是链接，则爬取所述文本信息内的URL链接，并从所述URL链接内解析出文本内容；判断所述文本内容的长度是否符合要求；若所述文本内容的长度不符合要求，则对所述文本内容进行分割合并，以得到若干个段落；对若干个段落分别生成文本摘要；对每个段落的文本摘要进行文本校验和汇总，以得到视频文案；根据所述视频文案以及所述背景视频生成短视频；若所述文本信息不是链接，则确定所述文本信息为文本内容，并执行所述判断所述文本内容的长度是否符合要求。

其中，所述背景视频包括终端上传的背景视频，或者，根据终端选择的视频标签在视频素材库内匹配得到的关联度符合要求的视频素材。

在一实施例中，处理器502在实现所述判断所述文本内容的长度是否符合要求步骤之后，还实现如下步骤：

在一实施例中，处理器502在实现所述对所述文本内容进行分割合并，以得到若干个段落步骤时，具体实现如下步骤：

根据所述文本内容的长度以及文本摘要的长度对所述文本内容进行分割，以得到若干个自然段；以递归方式合并若干个所述自然段，以得到若干个段落。

在一实施例中，处理器502在实现所述对若干个段落分别生成文本摘要步骤时，具体实现如下步骤：

将若干个段落分别输入抽象摘要生成模型内进行文本摘要生成，以得到若干个段落的文本摘要；其中，所述抽象摘要生成模型是通过带有摘要文本标签的段落作为样本集训练基于自注意力机制的Transformer模型所得的。

在一实施例中，处理器502在实现所述对每个段落的文本摘要进行文本校验和汇总，以得到视频文案步骤时，具体实现如下步骤：

在一实施例中，处理器502在实现所述根据所述视频文案以及所述背景视频生成短视频步骤时，具体实现如下步骤：

根据所述视频文案生成音频文件；对所述音频文件进行波形分析，并匹配每个段落的文本摘要，以得到带时间轴的字幕文件；合并所述背景视频、带时间轴的字幕文件以及音频文件，以得到短视频。

应当理解，在本申请实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令，计算机程序可存储于一存储介质中，该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序，其中该计算机程序被处理器执行时使处理器执行如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述判断所述文本内容的长度是否符合要求步骤之后，还实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述对所述文本内容进行分割合并，以得到若干个段落步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述对若干个段落分别生成文本摘要步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述对每个段落的文本摘要进行文本校验和汇总，以得到视频文案步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述根据所述视频文案以及所述背景视频生成短视频步骤时，具体实现如下步骤：

所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.视频自动生成方法，其特征在于，包括：

获取文本信息以及背景视频；

判断所述文本信息是否是链接；

判断所述文本内容的长度是否符合要求；

对若干个段落分别生成文本摘要；

根据所述视频文案以及所述背景视频生成短视频；

2.根据权利要求1所述的视频自动生成方法，其特征在于，所述判断所述文本内容的长度是否符合要求之后，还包括：

3.根据权利要求1所述的视频自动生成方法，其特征在于，所述对所述文本内容进行分割合并，以得到若干个段落，包括：

以递归方式合并若干个所述自然段，以得到若干个段落。

4.根据权利要求1所述的视频自动生成方法，其特征在于，所述对若干个段落分别生成文本摘要，包括：

5.根据权利要求1所述的视频自动生成方法，其特征在于，所述对每个段落的文本摘要进行文本校验和汇总，以得到视频文案，包括：

6.根据权利要求1所述的视频自动生成方法，其特征在于，所述根据所述视频文案以及所述背景视频生成短视频，包括

根据所述视频文案生成音频文件；

7.根据权利要求1所述的视频自动生成方法，其特征在于，所述背景视频包括终端上传的背景视频，或者，根据终端选择的视频标签在视频素材库内匹配得到的关联度符合要求的视频素材。

8.视频自动生成装置，其特征在于，包括：

获取单元，用于获取文本信息以及背景视频；

信息判断单元，用于判断所述文本信息是否是链接；

摘要生成单元，用于对若干个段落分别生成文本摘要；

9.一种计算机设备，其特征在于，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。

10.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。