CN113938745B

CN113938745B - 一种视频生成方法、终端及存储介质

Info

Publication number: CN113938745B
Application number: CN202010676888.6A
Authority: CN
Inventors: 蔡云龙
Original assignee: TCL Technology Group Co Ltd
Current assignee: TCL Technology Group Co Ltd
Priority date: 2020-07-14
Filing date: 2020-07-14
Publication date: 2023-05-09
Anticipated expiration: 2040-07-14
Also published as: CN113938745A

Abstract

本发明公开了一种视频生成方法、终端及存储介质，所述视频生成方法包括：对演示文稿的文字进行识别，生成与所述演示文稿对应的文档；将所述文档进行扩充，将扩充后的所述文档转换为音频；通过视频合成技术将所述音频与所述演示文稿进行合成，得到合成后的视频。本发明将演示文稿转换为视频内容，从而生成高清、高保真的视频资料，简化了演示文稿转换为视频的操作，提高了转换效率，解决了转换后视频音质低的技术问题。

Description

一种视频生成方法、终端及存储介质

技术领域

本发明涉及终端应用领域，尤其涉及一种视频生成方法、终端及存储介质。

背景技术

在展会进行产品展示或者远程教育展示时，通常会使用PPT技术；但是，在演示的过程当中，所使用的PPT只能由演讲者进行翻阅，而不可能时时刻刻被观看者翻阅；而且，在PPT被使用过后，一些观看者并未保存PPT，不能在展示过后重新翻阅；在演讲过后，即便得到PPT，没有音频的加持，观看者也难以理解PPT里面的内容；因此，在这种情况下，需要将PPT及演讲时的音频转换为视频内容，观看者在翻阅PPT时，就能够听到演讲者当时的音频内容，方便观看者进行理解。

为了便于观看者进行理解，现有的一种方式为屏幕录制，在客户端播放PPT时，通过驱动服务指令进行实时录制，然后将录制后的视频资料发送给其他客户端，然而在录制过程当中，会存在音质不好、音频与PPT内容不同步的现象；而另外一种方式则是手动书写讲解文本，然后通过TTS转换技术转换为音频内容，再插入对应的PPT，在播放的同时进行屏幕录制；这种方式虽然解决了音质的问题，但是需要手工书写讲解文本、手动对应音频及手动翻阅PPT，导致整个过程非常繁琐，转换过程效率非常低。

因此，现有技术还有待于改进和发展。

发明内容

针对现有技术缺陷，本发明提供一种视频生成方法、终端及存储介质，将演示文稿转换为视频内容，提高转换效率，解决转换后视频音质低的技术问题。

本发明解决技术问题所采用的技术方案如下：

第一方面，本发明提供一种视频生成方法，其中，所述视频生成方法包括以下步骤：

对演示文稿的文字进行识别，生成与所述演示文稿对应的文档；

将所述文档进行扩充，将扩充后的所述文档转换为音频；

通过视频合成技术将所述音频与所述演示文稿进行合成，得到合成后的视频。

进一步地，还包括：

预先根据所述演示文稿设置对应的扩展文字信息；

通过语音采集装置获取所述演示文稿对应的讲解内容，并通过语音转换技术将所述讲解内容转换为解说词；

根据所述解说词及所述扩展文字信息生成训练样本，并基于所述训练样本对预设的神经网络模型进行训练，得到扩充模型。

进一步地，所述对演示文稿的文字进行识别，生成与所述演示文稿对应的文档，具体包括以下步骤：

将所述演示文稿转换为多帧图像，并对所述多帧图像进行排序；其中，所述多帧图像的排列顺序与所述演示文稿的页码顺序相对应；

通过场景文字识别技术识别排序后的所述多帧图像中的文字内容，并根据所述文字内容生成所述文档；其中，所述文档包含所述演示文稿中的所有文字。

进一步地，所述通过场景文字识别技术识别排序后的所述多帧图像中的文字内容，具体包括以下步骤：

确定各帧图像中的文字、表格及图标的位置；

根据所述位置对各帧图像中的所述文字、所述表格及所述图标进行排序；

根据排序顺序提取各帧图像中的所述文字，以及提取所述表格及所述图标中的文字。

进一步地，所述将所述文档进行扩充，将扩充后的所述文档转换为音频，具体包括以下步骤：

获取所述扩充模型；

根据所述扩充模型对所述文档进行扩充处理，得到所述扩充后的文档；

将所述扩充后的文档转换为所述音频。

进一步地，将所述演示文稿转换为多帧图像，并对所述多帧图像进行排序，所述音频包括多个语音片段；

其中，所述多个语音片段与所述多帧图像为一一对应的关系。

进一步地，所述通过视频合成技术将所述音频与所述演示文稿进行合成，得到合成后的视频，具体包括以下步骤：

根据所述多帧图像的排列顺序，分别对所述多帧图像及对应的语音片段进行缓存，以得到所述多帧图像的缓存序列以及所述多个语音片段的缓存序列；

从所述多帧图像的缓存序列中读取图像，并从所述多个语音片段的缓存序列中读取对应的语音片段；

将读取的图像循环嵌入对应的语音片段的音轨中进行合成，得到合成后的视频。

进一步地，所述将读取的图像循环嵌入对应的语音片段的音轨中，得到所述合成后的视频，之后还包括：

删除缓存的所述多帧图像及对应的语音片段。

第二方面，本发明还提供一种终端，其中，包括处理器，以及与所述处理器连接的存储器，所述存储器存储有视频生成程序，所述视频生成程序被所述处理器执行时用于实现如第一方面所述的视频生成方法的操作。

第三方面，本发明还提供一种存储介质，其中，所述存储介质存储有视频生成程序，所述视频生成程序被处理器执行时用于实现如第一方面所述的视频生成方法的操作。

本发明采用上述技术方案具有以下效果：

本发明将演示文稿转换为视频内容，从而生成高清高保真的视频资料，简化演示文稿转换为视频的操作，提高转换效率，解决转换后视频音质低的技术问题。

附图说明

图1是本发明实施例中视频生成方法的流程图。

图2是本发明实施例中识别文字的处理流程图。

图3是本发明实施例中扩充文档的处理流程图。

图4是本发明实施例中合成视频的处理流程图。

图5是本发明实施例中终端的功能原理图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例一

在使用演示文稿(即PPT，以下以PPT进行简称)的情景下，需要配合现场讲解才能加深对PPT内容的理解；在讲解过后，为了便于观看者翻阅及学习PPT的内容，通常需要将PPT及现场讲解音频合成视频内容。

一般情况下，通常采用录屏加现场录音的方式合成视频，这种合成视频的方式操作简单，但是所合成的视频音质较低，若现场嘈杂，则不便于观看者视频；另外一种则是采用手动书写文字内容的方式，通过转换技术将手动书写的文字内容转换为音频，再配合录屏技术，合成视频内容，这种方式可以解决视频音质低的问题，但是操作复杂，而且需要手写文字内容，转换效率低下。

本实施例的主要目的在于：提供一种视频生成方法，在满足视频音质高的情况下，简化PPT转视频需要的操作，以及提高PPT转视频的效率，从而得到高质量高保真的视频资料。

如图1所示，在本实施例的一种实现方式当中，所述视频生成方法包括以下步骤：

步骤S100，对演示文稿的文字进行识别，生成与所述演示文稿对应的文档。

在本实施例中，所述视频生成方法应用于终端中，所述终端包括但不限于移动终端、平板电脑以及计算机等设备；所述视频生成方法不仅适用于PPT转视频的转换方式当中，而且还适用于图片转视频的转换方式当中，例如：图片转短视频等；本实施例主要以PPT转视频的转换方式进行说明。

在本实施例中，在对PPT进行转换之前，需要预先根据所述PPT设置对应的扩展文字信息，所述扩展文字信息以文档的格式进行存储；然后，通过语音采集装置获取所述PPT对应的讲解内容，并通过语音转换技术将所述讲解内容转换为解说词；在得到所述解说词之后，可根据所述解说词及所述扩展文字信息生成训练样本，待生成所述训练样本后，基于所述训练样本对预设的神经网络模型进行训练，得到扩充模型，并将得到的扩充模型与所述PPT进行关联存储；其中，所述扩充模型可用于对所述PPT进行转换时，对生成的文档进行扩展，从而可以保证扩展后的文档转换为意思连贯的音频内容。

即所述步骤S100之前还包括：

步骤S001，预先根据所述演示文稿设置对应的扩展文字信息；

步骤S002，通过语音采集装置获取所述演示文稿对应的讲解内容，并通过语音转换技术将所述讲解内容转换为解说词；

步骤S003，根据所述解说词及所述扩展文字信息生成训练样本，并基于所述训练样本对预设的神经网络模型进行训练，得到扩充模型。

在本实施例中，在对所述PPT进行转换时，需要将所述PPT转换为多帧图像，并对所述多帧图像进行排序；其中，所述多帧图像的排列顺序与所述PPT的页码顺序相对应；简而言之，将所述PPT中的每一页内容转换为一帧图像，然后将每一页对应的图像进行处理；在对每帧所述图像进行处理时，需要对每帧图像中的文字进行识别，从而生成包含所述PPT所有文字的文档。

具体地，在对每帧图像的文字进行识别时，需要采用场景文字识别模块(即STRM模块)进行识别，利用场景文字识别技术识别每一帧图像中的文字，从而根据识别的文字内容生成每一帧图像的文档，其中，每一帧图像对应生成一个文档。

考虑到每一页PPT中的文字可能是插入图片中的文字，也可能是PPT中的原文字，因此，无法直接通过程序获取这些文字，在本实施例中，统一使用场景文字识别模块识别PPT中的原文字及插入图片中的文字。

在对PPT转换为多帧图像时，可利用开源的转换工具将PPT转换为多帧图像，例如：可利用win32com、PIL等转换工具将PPT转换为多帧图像；在转换之后，按照PPT中每一页的页码顺序，将转换后的所述多帧图像进行对应排序，并将排序后的所述多帧图像进行保存；其中，转换后的图像为It{i＝1，N}，N为PPT的页码数。

即所述步骤S100具体包括以下步骤：

步骤S110，将所述演示文稿转换为多帧图像，并对所述多帧图像进行排序；其中，所述多帧图像的排列顺序与所述演示文稿的页码顺序相对应；

步骤S120，通过场景文字识别技术识别排序后的所述多帧图像中的文字内容，并根据所述文字内容生成所述文档；其中，所述文档包含所述演示文稿中的所有文字。

进一步地，在将PPT转换为所述多帧图像之后，需要确定每一帧图像中的文字、表格及图标的位置；在确定文字、表格及图标的位置时，需要采用现有的开源算法提取位置信息，例如：采用Yolov3算法实现对文字表格位置进行提取；所述开源算法的数据包可直接从网络数据库中调取。

在确定各图像中的文字、表格及图标的位置后，可根据所述位置对各图像中的所述文字、所述表格及所述图标进行排序，进而根据排序顺序提取各图像中的所述文字，以及提取所述表格及所述图标中的文字。

在识别各图像中的文字时，可使用seq2seq模型(一种基于LSTM的模型，其中，LSTM表示Long Short-Term Memory，即长短期记忆网络)的识别技术进行识别。所述seq2seq模型包括编码器部分和解码器部分。其中：

所述seq2seq模型的编码器部分使用基于CNN的Resnet算法(一种基于卷积神经网络的算法，即R-CNN)完成对各图像的特征进行提取；其中，Resnet算法由54层组成，每个block(即运算块)中包括3*3个卷积运算；编码器的输出通道逐层增加，初始输出通道为32，到最后一层卷积输出通道为512，考虑到CNN受限于感受野，在Resnet算法后面添加两层LSTM，输出h1，h2......hn，其中h1，h2......hn为根据提取特征输出的目标字符串，n为目标字符串长度，n为正整数。

所述seq2seq模型的解码部分使用循环注意力实现，主要使用LSTM实现，对于t时刻的输出St，利用解码器的输出h{i＝1，n}与t-1时刻的输出St-1得到注意力权重at，at与h{i＝1，n}进行加权相乘得到当前时刻的注意力Ct，为了使输出具备自我纠错能力，注意力之间添加自适应门(AG)，利用上一时刻的Ct-1、St-1和Ct进行加权相乘得到ft，ft与本时刻注意力Ct进行维度合并，然后送入多层LSTM，再经过softmax函数计算出t时刻的输出St，最终得到输出序列S1、S2、S3......Sn，具体处理过程如图2所示。

如图2所示，在实际应用时，在识别各帧图像中文字的过程当中，包括以下步骤：

步骤S11，通过win32com+PIL工具将PPT转换为多帧图像；

步骤S12，采用Yolov3算法对各图像中的文字位置进行提取；

步骤S13，编码器编码；

步骤S14，解码器解码，输出识别文字。

在训练模型的过程中，为了方便处理表格信息，将表格的文字标签用markdown格式进行替换；最后利用大量的文字、表格图片以及对应的标准文本；在推理阶段只需要输入PPT图片即可获得图片里面所有文字和表格信息。

在所述步骤S120中，所述通过场景文字识别技术识别排序后的所述多帧图像中的文字内容，具体包括以下步骤：

步骤S121，确定各帧图像中的文字、表格及图标的位置；

步骤S122，根据所述位置对各帧图像中的所述文字、所述表格及所述图标进行排序；

步骤S123，根据排序顺序提取各帧图像中的所述文字，以及提取所述表格及所述图标中的文字。

本实施例将所述PPT转换为多帧图像，并对每帧图像的文字进行提取，从而将提取的文字转换为文档，使得PPT可以转换为对应的文档，并且文档中的文字顺序与PPT中的文字顺序相对应，以便于后续转换的音频内容与PPT的内容相对应。

如图1所示，在本实施例的一种实现方式当中，所述视频生成方法还包括以下步骤：

步骤S200，将所述文档进行扩充，将扩充后的所述文档转换为音频。

在本实施例中，在提取各图像中的文字及生成文档之后，还需要将所述文档进行扩充处理，所述扩充处理即通过预先设置的扩充模型对所述文档进行文字扩展，从而保证扩展后的文档为意思连贯的文档内容。

在对所述文档进行扩充时，可采用扩充模型进行扩充，所述扩充模型可以采用文本扩充模型TEM，其中，所述文本扩充模型TEM为基于树模型的文本扩充模型；考虑到STRM中提取的文字表格并不是完整连贯的语句，并不能直接用于PPT讲解，通过扩充模型对STRM模型的处理结果进行扩充，使提取文字后生成的文档成为一段流畅充实的文档。

在对生成的文档进行扩充时，需要获取扩充模型；简而言之，利用PPT演讲时的解说词和STRM提取出的文字组成训练样本，并基于所述训练样本对预设的神经网络模型进行训练，得到扩充模型；然后，根据所述扩充模型对生成的文档进行扩充处理，得到所述扩充后的文档。

本申请的一种优选的实施例中，所述预设的神经网络模型为GPT2模型，利用训练样本对所述GPT2模型进行训练，以得到训练后的且满足一定条件的GPT2模型，即扩充模型。其中，GPT2模型为一种预训练模型，其模型结构中的文本经过词嵌入和位置嵌入层，编码器与解码器的结构均为transfomerblock格式，编码之后计算多头自注意力，然后再送入解码器。

GPT2模型的解码器输入起始符(GO)，获得输出y₀，进而将y₀与隐含层输入h₀作为输入，计算下一时刻输出；以此类推，对于t时刻，输入y_i＝{i＝0，t-1}、h_i＝{i＝0，t-1}得到y_t，GPT2模型根据文本的输出和状态决定其输出，这种方式保证了输出文本的连贯性和可读性。

在训练和推理的过程中，STRM模块输出的多个结果之间使用‘*-*’进行连接；训练文本扩充模型时，中文预训练模型可采用开源模型，例如：哈工大的中文预训练模型，所述哈工大的中文预训练模型基于Transformers的双向编码表示(BERT)，该中文预训练模型将WWM技术应用在了中文BERT中，采用中文维基百科数据进行了预训练，包括：情感分类，命名实体识别，句对分类，篇章分类，机器阅读理解。

如图3所示，在实际应用时，在对文档进行扩充的过程当中，包括以下步骤：

步骤S21，载入GPT2模型；

步骤S22，文本预处理；

步骤S23，解说词嵌入和位置向量嵌入；

步骤S24，自注意力计算。

在得到扩充后的文档之后，可通过TTS技术(即文本转语音技术)将所述扩充后的文档转换为所述音频；其中，TTS采用比较成熟的google框架Tacotron V2，它是一种端到端的文本转语音模型；基于此框架训练的中文可用模型已经开源，直接调用tensorflow的import_graph即可实现文本转语音操作。

在得到所述音频之后，所述音频包括多个语音片段；其中，所述多个语音片段与所述多帧图像为一一对应的关系。

即所述步骤S200具体包括以下步骤：

步骤S210，获取所述扩充模型；

步骤S220，根据所述扩充模型对所述文档进行扩充处理，得到所述扩充后的文档；

步骤S230，将所述扩充后的文档转换为所述音频。

本实施例根据扩充模型对生成的文档进行扩充处理，得到语句顺畅的文档；并且，将扩充后的文档转换为音频，使得PPT转换视频后的音频音质高，而且语句顺畅，同时也使得转换后的视频中的音频能够与PPT的内容相对应。

步骤S300，通过视频合成技术将所述音频与所述演示文稿进行合成，得到合成后的视频。

在本实施例中，在将扩充后的文档转换为音频之后，即可将步骤S100中得到的多帧图像与步骤S200中得到的多个语音片段进行合成，最后合成一个完整的视频；在合成视频时，通过视频合成技术将所述音频与所述PPT进行合成，其中，所述视频合成技术可采用ffmpeg实现视频合成；所述ffmpeg是一种音视频编解码工具，其提供多种媒体格式的封装和解封装，包括多种音视频编码、多种协议的流媒体、多种色彩格式转换、多种采样率转换、多种码率转换等。

在合成视频时，通过所述ffmpeg读取每一帧图像及对应音频的输入源，然后对读取的图像及音频进行解封装，解码每一帧图像及对应音频的数据，将解码后的图像数据插入对应音频数据中，得到合成视频数据；对合成后的视频数据进行编码，最后对合成后的视频数据进行封装。

具体地，先获取每帧图像及其对应的音频，读取PPT中所有图像的大小和所有所有音频的大小，然后对每帧图像及其对应的音频分配分配一段内存进行存储；每帧图像及其音频的存储顺序可按照PPT的页码顺序(即图像的顺序)进行排序。

在排序存储之后，配置ffmpeg编码器及编码器参数，其中，所述编码器参数包括：输出视频码率、输出视频清晰度、编码格式及压缩格式等。

在配置ffmpeg编码器及其参数之后，即可合成视频；在合成视频时，先从图像队列中读取一张图像，再读入每帧图像所对应的音频；在每帧图像的音频轨道结束之前，一直循环合成这张图像，直到音频轨道结束。

待一帧图像合成之后，读入图像队列中下一张图像及其对应的音频，按照上述合成规则进行合成。

当队列为空时，结束合成视频，并释放内存空间；最后，得到一个完整的视频文件。

如图4所示，在实际应用时，在合成视频的过程当中，包括以下步骤：

步骤S31，读取图片和音频数据；

步骤S32，通过malloc分配缓存空间；

步骤S33，创建图片、音频列队；

步骤S34，读取及处理列队中的数据，

步骤S35，判断列队是否为空；若为是，则执行步骤S36；若为否，则执行步骤S34；

步骤S36，释放缓存空间。

待合成视频之后，所述视频中的音频内容与PPT的内容相对应，即PPT每一页中的内容都有对应的语音讲解，而且，语音讲解的内容流畅，加深观看者对PPT内容的记忆和理解。

即所述步骤S300具体包括以下步骤：

步骤S310，根据所述多帧图像的排列顺序，分别对所述多帧图像及对应的语音片段进行缓存，以得到所述多帧图像的缓存序列以及所述多个语音片段的缓存序列；

步骤S320，从所述多帧图像的缓存序列中读取图像，并从所述多个语音片段的缓存序列中读取对应的语音片段；

步骤S330，将读取的图像循环嵌入对应的语音片段的音轨中进行合成，得到合成后的视频；

步骤S340，删除缓存的所述多帧图像及对应的语音片段。

本实施例将PPT转换为视频内容，从而生成高清高保真的视频资料，简化PTT转换为视频的操作，提高转换效率，解决转换后视频音质低的技术问题。

实施例二

如图5所示，本实施例提供一种终端，其中，包括处理器10，以及与所述处理器10连接的存储器20，所述存储器20存储有视频生成程序，所述视频生成程序被所述处理器10执行时用于实现如实施例一所述的视频生成方法的操作；具体如上所述。

实施例三

本实施例提供一种存储介质，其中，所述存储介质存储有视频生成程序，所述视频生成程序被处理器执行时用于实现如实施例一所述的视频生成方法的操作；具体如上所述。

综上所述，本发明将PPT转换为视频内容，从而生成高清高保真的视频资料，简化PTT转换为视频的操作，提高转换效率，解决转换后视频音质低的技术问题。

当然，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关硬件(如处理器，控制器等)来完成，所述的程序可存储于一计算机可读取的存储介质中，所述程序在执行时可包括如上述各方法实施例的流程。其中所述的存储介质可为存储器、磁碟、光盘等。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种视频生成方法，其特征在于，所述视频生成方法包括以下步骤：

所述对演示文稿的文字进行识别，生成与所述演示文稿对应的文档，具体包括以下步骤：

通过场景文字识别技术识别排序后的所述多帧图像中的文字内容，并根据所述文字内容生成所述文档；其中，所述文档包含所述演示文稿中的所有文字；

所述通过场景文字识别技术识别排序后的所述多帧图像中的文字内容，包括：

确定各图像中的文字、表格及图标的位置，根据所述位置对各图像中的所述文字、所述表格及所述图标进行排序，进而根据排序顺序提取各图像中的所述文字，以及提取所述表格及所述图标中的文字；

将所述文档进行扩充，将扩充后的所述文档转换为音频；

通过视频合成技术将所述音频与所述演示文稿进行合成，得到合成后的视频；

预先根据所述演示文稿设置对应的扩展文字信息；

根据所述解说词及所述扩展文字信息生成训练样本，并基于所述训练样本对预设的神经网络模型进行训练，得到扩充模型；

所述将所述文档进行扩充，将扩充后的所述文档转换为音频，具体包括以下步骤：

获取所述扩充模型；

将所述扩充后的文档转换为所述音频。

2.根据权利要求1所述的视频生成方法，其特征在于，所述通过场景文字识别技术识别排序后的所述多帧图像中的文字内容，具体包括以下步骤：

确定各帧图像中的文字、表格及图标的位置；

3.根据权利要求1所述的视频生成方法，其特征在于，将所述演示文稿转换为多帧图像，并对所述多帧图像进行排序，所述音频包括多个语音片段；

4.根据权利要求3所述的视频生成方法，其特征在于，所述通过视频合成技术将所述音频与所述演示文稿进行合成，得到合成后的视频，具体包括以下步骤：

5.根据权利要求4所述的视频生成方法，其特征在于，所述将读取的图像循环嵌入对应的语音片段的音轨中，得到所述合成后的视频，之后还包括：

删除缓存的所述多帧图像及对应的语音片段。

6.一种终端，其特征在于，包括处理器，以及与所述处理器连接的存储器，所述存储器存储有视频生成程序，所述视频生成程序被所述处理器执行时用于实现如权利要求1-5任一项所述的视频生成方法的操作。

7.一种存储介质，其特征在于，所述存储介质存储有视频生成程序，所述视频生成程序被处理器执行时用于实现如权利要求1-5任一项所述的视频生成方法的操作。