CN115225962A

CN115225962A - 视频生成方法、系统、终端设备及介质

Info

Publication number: CN115225962A
Application number: CN202210726814.8A
Authority: CN
Inventors: 刘颖麒; 陈文华; 周邯
Original assignee: Shenzhen Yeahka Technology Co ltd
Current assignee: Shenzhen Yeahka Technology Co ltd
Priority date: 2022-06-24
Filing date: 2022-06-24
Publication date: 2022-10-21
Anticipated expiration: 2042-06-24
Also published as: CN115225962B

Abstract

本发明公开了一种视频生成方法、系统、终端设备以及计算机可读存储介质，该视频生成方法包括：获取目标图片，并针对所述目标图片进行优化处理得到待展示图片；根据预设视频动态特效将所述待展示图片转换为对应的视频文件，并根据预设转场特效针对所述视频文件进行拼接得到目标视频。本发明能够实现自动将图片文件转换为视频文件，进而提升用户体验。

Description

视频生成方法、系统、终端设备及介质

技术领域

本发明涉及数据处理领域，尤其是涉及一种视频生成方法、系统、终端设备以及计算机可读存储介质。

背景技术

图片和视频属于两种不同的承载信息的方式，，它们有其各自的特点：

关于图片形式：在拍摄在瞬间完成，用户可在关键时刻记录关键信息。但是，静态信息表达能力有限，并且由于压缩算法的影响，图片经常会被压缩后传输导致多次分享后图片清晰度大大降低，图片可能出现清晰度不高，颜色、饱和度和对比度等参数失真的情况。另外，多张图片需要用户主动切换进行展示，导致用户操作复杂。

关于视频形式：动态信息表达能力更充分，且播放过程不需要手动操作。但是，拍摄需要持续一段时间，导致操作过程比较繁琐，并且拍摄过程中包含了长时间的无效片段。

因此，如何将图片与视频的优点进行有效结合，以提升用户体验，是十分必要的问题。

发明内容

本发明的主要目的在于提供一种视频生成方法、系统、终端设备以及计算机可读存储介质，旨在实现自动将图片文件转换为视频文件，进而提升用户体验。

为实现上述目的，本发明提供一种视频生成方法，所述视频生成包括：

获取目标图片，并针对所述目标图片进行优化处理得到待展示图片；

根据预设视频动态特效将所述待展示图片转换为对应的视频文件，并根据预设转场特效针对所述视频文件进行拼接得到目标视频。

可选地所述优化处理包括：针对图片的恢复、美化和筛选，所述针对所述目标图片进行优化处理得到待展示图片的步骤，包括：

针对目标图片进行恢复得到恢复图片；

对所述恢复图片进行美化得到美化图片；

针对所述美化图片进行筛选得到待展示图片。

可选地，所述针对目标图片进行恢复得到恢复图片的步骤，包括：

对所述目标图片进行卷积处理，以提取所述目标图片的浅层特征表示；

根据所述浅层特征表示，通过深层特征提取模块提取所述目标图片的深层特征表示，其中，所述深层特征提取模块包括基于无偏移窗口机制的特征提取模块和基于偏移窗口机制的特征提取模块；

根据所述深层特征表示进行上采样操作，以对所述目标图片进行恢复得到恢复图片。

可选地，在所述对所述恢复图片进行美化得到美化图片的步骤之前，还包括：

通过预训练的图像增强算法确定所述恢复图片对应的多项式滤波器、椭圆滤波器和渐变滤波器；

通过所述多项式滤波器对所述恢复图片进行滤波处理得到第一处理结果，通过所述椭圆滤波器对所述第一处理结果进行滤波处理得到第二处理结果，并通过所述渐变滤波器对所述第一处理结果进行滤波处理得到第三处理结果；

将所述第二处理结果和第二处理结果进行相加得到第四处理结果；

所述对所述恢复图片进行美化得到美化图片的步骤，包括：

通过所述第四处理结果对所述恢复图片进行美化得到美化图片。

可选地，所述针对所述美化图片进行筛选得到待展示图片的步骤，包括：

通过预训练的分类神经网络对所述美化图片进行筛选得到合格图片；

通过预训练的美学评分算法，确定所述合格图片的图片分数，并将高于预设分数阈值的图片分数所对应的合格图片作为备选图片；

通过预训练的感知哈希算法和预训练的直方图方法，确定所述备选图片的相似度，并根据所述相似度对所述备选图片进行筛选得到待展示图片；

在所述根据所述相似度对所述备选图片进行筛选得到待展示图片的步骤之后，还包括：

通过所述预训练的分类神经网络，对所述待展示图片进行分类确定图片类别，并根据所述图片类别将所述待展示图片导入对应的图片集合，以针对所述图片集合中的图片进行视频转换操作。

可选地，在所述根据预设视频动态特效将所述待展示图片转换为对应的视频文件的步骤之前，还包括：

为所述待展示图片添加与所述图片类别匹配的背景音乐，同时，根据用户触发的文字添加指令为所述待展示图片添加描述文本。

可选地，所述根据预设视频动态特效将所述待展示图片转换为对应的视频文件，并根据预设转场特效针对所述视频文件进行拼接得到目标视频的步骤，包括：

根据预设视频特效，获取所述待展示图片对应的具备动态效果的视频流；

基于预设文案生成AI语音和字幕文本，将所述AI语音与所述背景音乐进行调整合并，并且，根据所述AI语音的时长调节所述视频流的时长，获取与所述AI语音的时长一致的包含字幕文本、调整合并的AI语音和背景音乐的目标视频流；或者，

根据所述背景音乐的节拍对所述待展示图片对应的具备动态效果的视频流的时长进行调整得到目标视频流；

根据预设转场特效将所述目标视频流进行拼接得到视频文件。

为实现上述目的，本发明还提供一种视频生成系统，所述视频生成系统，包括：

预处理模块，用于获取目标图片，并针对所述目标图片进行优化处理得到待展示图片；

视频转换模块，用于根据预设视频动态特效将所述待展示图片转换为对应的视频文件，并根据预设转场特效针对所述视频文件进行拼接得到目标视频。

其中，本发明视频生成系统的各个功能模块各自在运行时均实现如上所述的视频生成方法的步骤。

为实现上述目的，本发明还提供一种终端设备，所述终端设备包括：存储器、处理器和存储在所述存储器上并可在所述处理器上运行的视频生成程序，所述视频生成程序被所述处理器执行时实现如上所述的视频生成方法的步骤。

此外，为实现上述目的，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有视频生成程序，所述视频生成程序被处理器执行时实现如上所述的视频生成方法的步骤。

此外，为实现上述目的，本发明还提供计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现如上所述的视频生成方法的步骤。

本发明提供一种视频生成方法、系统、终端设备、计算机可读存储介质以及计算机程序产品，获取目标图片，并针对所述目标图片进行优化处理得到待展示图片；根据预设视频动态特效将所述待展示图片转换为对应的视频文件，并根据预设转场特效针对所述视频文件进行拼接得到目标视频。

相比于现有技术中的图片和视频展示方式，在本发明中，终端设备在获取到用户发送的目标图片，并将该目标图片进行优化处理得到待展示图片后，为了避免图片经常会被压缩后传输导致多次分享后图片清晰度大大降低，图片可能出现清晰度不高，颜色、饱和度和对比度等参数失真等问题，且需要用户主动切换多张图片进行展示，导致用户操作复杂的问题，终端设备将待展示图片转换为对应的视频文件，以视频形式对图片进行展示，提升了用户体验。本发明结合图片和视频的优势，既能够瞬间完成拍摄，用户可在关键时刻记录关键信息，也能够将高质量图片转换成视频文件，减少视频拍摄过程中的无效片段，提升视频质量，进而提升用户体验。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的结构示意图；

图2为本发明视频生成方法一实施例的流程示意图；

图3为本发明视频生成方法一实施例的语音频谱分隔示意图；

图4为本发明视频生成方法一实施例的声音频谱图中能量突变点提取示意图；

图5为本发明视频生成系统一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。

需要说明的是，本发明实施例终端设备可以是用于将图片文件转化为视频文件的终端设备，该终端设备具体可以是智能手机、个人计算机和服务器等。

如图1所示，该设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的设备结构并不构成对设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及视频生成程序。操作系统是管理和控制设备硬件和软件资源的程序，支持视频生成程序以及其它软件或程序的运行。在图1所示的设备中，用户接口1003主要用于与客户端进行数据通信；网络接口1004主要用于与服务器建立通信连接；而处理器1001可以用于调用存储器1005中存储的视频生成程序，并执行以下操作：

进一步地，所述预处理操作包括：所述优化处理包括：针对图片的恢复、美化和筛选，所述针对所述目标图片进行优化处理得到待展示图片的步骤，包括：

针对目标图片进行恢复得到恢复图片；

对所述恢复图片进行美化得到美化图片；

针对所述美化图片进行筛选得到待展示图片。

进一步地，处理器1001还可以用于调用存储器1005中存储的视频生成程序，还执行以下操作：

进一步地，在所述对所述恢复图片进行美化得到美化图片的步骤之前，处理器1001还可以用于调用存储器1005中存储的视频生成程序，还执行以下操作：

处理器1001还可以用于调用存储器1005中存储的视频生成程序，还执行以下操作：

进一步地，在所述根据预设视频动态特效将所述待展示图片转换为对应的视频文件的步骤之前，处理器1001还可以用于调用存储器1005中存储的视频生成程序，还执行以下操作：

参照图2，图2为本发明视频生成方法第一实施例的流程示意图。

在本实施例中，提供了界面切换方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以不同于此处的顺序执行所示出或描述的步骤。

考虑到图片文件和视频文件各自的优劣，为了提升用户体验，在本实施例中，旨在将各个图片经过预处理后，将图片转化为视频文件，既能够保障用户在关键时刻记录关键信息，也能够简化用户操作，避免视频拍摄过程中的繁琐操作。

本实施例中的视频生成方法，包括：

步骤S10，获取目标图片，并针对所述目标图片进行优化处理操作得到待展示图片；

需要说明的是，在本实施例中，用户在完成拍摄后将得到多个目标图片，但是由于此时的目标图片可能由于用户的拍摄会产生质量问题，比如，图片不清晰、不完整和重复拍摄等问。

因此，终端设备在获取用户发送的目标图片后，将针对目标图片进行优化处理操作，此时，目标图片的数量至少为一张，而终端设备执行的预处理操作可以包括：图片恢复、图片美化和图片筛选等，最终得到待展示图片。

步骤S20，根据预设视频动态特效将所述待展示图片转换为对应的视频文件，并根据预设转场特效针对所述视频文件进行拼接得到目标视频。

终端设备在获取到用户发送的目标图片，并将该目标图片进行预处理得到待展示图片后，为了避免图片经常会被压缩后传输导致多次分享后图片清晰度大大降低，图片可能出现清晰度不高，颜色、饱和度和对比度等参数失真等问题，且需要用户主动切换多张图片进行展示，导致用户操作复杂的问题，终端设备将根据预设视频动态特效将待展示图片转换为对应的视频文件，以视频形式对图片进行展示，并根据预设转场特效针对视频文件进行拼接得到目标视频，进而提升了用户体验。

在本实施例中，终端设备在获取用户发送的目标图片后，将针对目标图片进行优化处理操作，终端设备执行的优化处理操作可以包括：图片恢复、图片美化和图片筛选等，最终得到待展示图片。进而，终端设备将待展示图片转换为对应的视频文件，以视频形式对图片进行展示，提升了用户体验。

相比于现有技术中的图片和视频展示方式，在本发明中，终端设备在获取到用户发送的目标图片，并将该目标图片进行优化处理得到待展示图片后，为了避免图片经常会被压缩后传输导致多次分享后图片清晰度大大降低，图片可能出现清晰度不高，颜色、饱和度和对比度等参数失真等问题，且需要用户主动切换多张图片进行展示，导致用户操作复杂的问题，终端设备将待展示图片转换为对应的视频文件，以视频形式对图片进行展示，提升了用户体验。本发明结合了图片和视频的优势，既能够瞬间完成拍摄，用户可在关键时刻记录关键信息，也能够将高质量图片转换成视频文件，减少了视频拍摄过程中的无效片段，提升了视频质量，进而提升了用户体验。

基于本发明视频生成方法的第一实施例，提出本发明视频生成方法的第二实施例。

相比于第一实施例，在本实施例中，上述步骤S10中，“针对所述目标图片进行优化处理得到待展示图片”，可以包括：

步骤S101，针对目标图片进行恢复得到恢复图片；

步骤S102，对所述恢复图片进行美化得到美化图片；

步骤S103，针对所述美化图片进行图片筛选得到待展示图片。

需要说明的是，在本实施例中，终端设备所执行的针对目标图片的优化处理可以包括：图片恢复、图片美化和图片筛选等操作，以最终得到待展示图片。

具体地，例如，终端设备首先对单张或者多张目标图片统一进行图片恢复得到恢复图片，并将该恢复图片进行图片美化得到美化图片，最终将美化图片进行图片筛选，最终得到待展示图片。在本实施例中，为了提升图片处理效率，终端设备在处理多张目标图片时，将采用并行方式进行预处理操作，即，多张目标图片可同时进行预处理，同时，图片恢复、图片美化和图片筛选等操作也可同时执行，在此基础上，能够大幅度提升图片处理效率。

进一步地，上述步骤S101中，“对所述目标图片进行卷积处理，以提取所述目标图片的浅层特征”，可以包括：

步骤S1011，对所述目标图片进行卷积处理，以提取所述目标图片的浅层特征表示；

步骤S1012，基于所述浅层特征表示，通过深层特征提取模块提取所述目标图片的深层特征表示，其中，所述深层特征提取模块包括基于无偏移窗口机制的特征提取模块和基于偏移窗口机制的特征提取模块；

步骤S1013，根据所述深层特征表示进行上采样操作得到恢复图片。

为了得到细节更加清晰的图片，终端设备对目标图片进行恢复处理的过程，包括：

a)对目标图片中，尤其是低分辨率图片进行卷积处理，提取图片的浅层特征表示SF1；

b)深层特征提取模块由n₁个特征提取模块B串行连接，每个特征提取模块B由n₂个基于无偏移窗口机制的特征提取模块W和基于偏移窗口机制的特征提取模块SW串行连接的模块对组成。在此基础上，以浅层特征表示SF1为输入，使用深层特征提取模块提取深层特征表示DF2；

c)以深层特征表示DF2为输入，采用上采样操作得到更加清晰，细节更丰富的恢复图片。

进一步地，在上述步骤S102，“对所述恢复图片进行图片美化得到美化图片”之前，还包括：

步骤S104，通过图像增强算法确定所述恢复图片对应的多项式滤波器、椭圆滤波器和渐变滤波器；

步骤S105，通过所述多项式滤波器进行滤波处理得到第一处理结果，通过所述椭圆滤波器对所述第一处理结果进行滤波处理得到第二处理结果，并通过所述渐变滤波器对所述第一处理结果进行滤波处理得到第三处理结果；

步骤S106，将所述第二处理结果和第二处理结果进行相加得到第四处理结果；

而上述步骤S102，“对所述恢复图片进行图片美化得到美化图片”，可以包括：

步骤S1021，通过所述第四处理结果对所述恢复图片进行美化得到美化图片。

需要说明的是，在本实施例中，终端设备针对目标图片进行图片恢复后，为了提升图片质量，需要进一步对图片美化，终端设备对恢复图片进行美化的过程，包括：

a)使用预训练的图像增强算法获取恢复图片对应的多项式滤波器、椭圆滤波器和渐变滤波器的参数；

b)利用上述的多项式滤波器对恢复图片进行滤波处理，得到第一处理结果P1；

c)针对第一处理结果P1分别使用椭圆滤波器、渐变滤波器进行滤波处理得到第二处理结果P2和第三处理结果P3；

d)将第二处理结果P2和第三处理结果P3相加得到第四处理结果P4。

进而，根据第四处理结果P4对恢复图片进行美化得到美化图片。

进一步地，上述步骤S103中，“针对所述美化图片进行图片筛选得到待展示图片”，可以包括：

步骤S1031，通过预训练的分类神经网络对所述美化图片进行筛选得到合格图片；

步骤S1032，通过预训练的美学评分算法，确定所述合格图片的图片分数，并将低于预设分数阈值的图片分数所对应的合格图片作为备选图片；

步骤S1033，通过预训练的感知哈希算法和预训练的直方图方法，确定所述备选图片的相似度，并根据所述相似度对所述备选图片进行筛选得到待展示图片；

需要说明的是，在本实施例中，在对恢复图片进行图片美化得到美化图片后，由于在美化图片中，可能存在纯黑色或者无内容图片，或者因抖动所产生的失焦图片和模糊图片等，又或者重复的图片等因此，需要对美化图片进行筛选。本实施例中的预设图片标准包括：对无内容图片和模糊图片等无效图片进行筛选。

具体地，终端设备进行美化图片进行图片筛选的过程，包括：

1)通过预训练的分类神经网络筛选出不合格的图片，包括失焦、抖动、无内容等，这些不合格图片都丢弃掉，余下的图片作为合格图片进入下一阶段，这一步是下一步美学评分的初筛；

2)通过预训练的美学评分算法给所有的合格图片打分，去除低于预设分数阈值的图片，并将高于预设分数阈值的图片分数所对应的合格图片作为备选图片，这一步可以保证后续图片的美观性；

3)通过预训练的感知哈希算法和直方图方法计算备选图片之间的相似度.对于相似度过高的图片，根据上一步的美学评分进行排名，并结合生成视频所需的图片张数，只保留前一张或前几张图片，其他图片即使评分高于上一步中的预设分数阈值，也会被丢弃，这一步可以保证后续图片的多样性。

在上述步骤S1033，“根据所述相似度对所述备选图片进行筛选得到待展示图片”之后，还包括：

步骤S1034，通过所述预训练的分类神经网络，对所述待展示图片进行分类确定图片类别，并根据所述图片类别将所述待展示图片导入对应的图片集合，以针对所述图片集合中的图片进行视频转换操作。

终端设备可通过预训练的分类神经网络对上一步得到的所有待展示图片进行分类，比如食物、人像、风景和聚会等，并将相同类别的图片放到一起，后续即可按此种顺序生成视频，使得生成的视频的主题性更明确，比如在视频前段是食物主题时，全部视频内容都是食物，而视频后段是餐厅环境主题时，全部视频内容都是餐厅环境，此时能够避免出现食物视频和环境视频相互穿插的问题。

在本实施例中，对所述目标图片进行卷积处理，以提取所述目标图片的浅层特征表示；基于所述浅层特征表示，通过包含无偏移窗口机制和偏移窗口机制的特征提取模块，提取所述目标图片的深层特征表示；针对所述深层特征表示进行上采样操作得到恢复图片。通过图像增强算法确定所述恢复图片对应的多项式滤波器、椭圆滤波器和渐变滤波器；通过所述多项式滤波器进行滤波处理得到第一处理结果，通过所述椭圆滤波器对所述第一处理结果进行滤波处理得到第二处理结果，并通过所述渐变滤波器对所述第一处理结果进行滤波处理得到第三处理结果；将所述第二处理结果和第二处理结果进行相加得到第四处理结果，并通过所述第四处理结果对所述恢复图片进行美化得到美化图片。通过预训练的分类神经网络对美化图片进行筛选得到合格图片；通过预训练的美学评分算法，确定格图片的图片分数，并将高于预设分数阈值的图片分数所对应的合格图片作为备选图片；通过预训练的感知哈希算法和预训练的直方图方法，确定备选图片的相似度，并根据相似度对备选图片进行筛选得到待展示图片。最终，根据所述图片类别将所述待展示图片导入对应的图片集合，以针对所述图片集合中的图片进行视频转换操作。

在本发明中，在将图片文件转化为视频文件之前，将自动通过卷积操作、包含无偏移窗口机制和偏移窗口机制的特征提取模块、上采样操作、图像增强算法、滤波处理、人工智能分类算法、美学评分算法和神经网络模型，完成从目标图片中获取待展示图片。因此，本发明能够自动进行图片处理，以将处理完成的图片转换成视频文件，提升了图片处理效率。在此基础上，进一步提升了视频生成质量和视频生成效率，避免了用户端的繁琐操作，提升了用户体验。

基于本发明视频生成方法的第一实施例和第二实施例，提出本发明视频生成方法的第三实施例。

在本实施例中，在上述步骤S20，“根据预设视频动态特效将所述待展示图片转换为对应的视频文件”之前，还可以包括：

步骤S30，根据用户触发的文字添加指令为所述待展示图片添加描述文本，同时，为所述待展示图片添加与所述图片类别匹配的背景音乐。

终端设备在通过恢复、美化和筛选操作获取待展示图片后，可参照筛选过程得到的图片类别(比如重庆火锅、风景人像等)，根据预设的背景音乐匹配规则，为各个待展示图片匹配一致风格的背景音乐。另外，若用户给图片添加了图片描述，那么，终端设备可根据用户触发的文字添加指令，为待展示图片添加描述文本，并且，也可进一步描述文本添加动态文字特效。

进一步地，上述步骤S20中，“根据预设视频动态特效将所述待展示图片转换为对应的视频文件，并根据预设转场特效针对所述视频文件进行拼接得到目标视频”步骤，可以包括：

步骤S201，根据预设视频特效，获取所述待展示图片对应的具备动态效果的视频流；

终端设备在获取到待展示图片后，可将图片持续播放得到视频流，但是该视频流为静止的图片流，没有动态效果，而持续时间可以认为是无限的。进而，可在该视频流加入视频特效，比如视角移动和视角拉近等，得到具备动态效果的视频流。

步骤S202，基于预设文案生成AI语音和字幕文本，将所述AI语音与所述背景音乐进行调整合并，并且，根据所述AI语音的时长调节所述视频流的时长，获取与所述AI语音的时长一致的包含字幕文本、调整合并的AI语音和背景音乐的目标视频流；

终端设备在获取到具备动态效果的视频流后，若是用户根据该视频流添加了文案，终端设备将根据该文案生成对应的AI语音，同时制作对应的字幕文本，并将该AI语音与该字幕文本进行匹配。其中，AI语音与该字幕文本进行匹配过程如下：

1)当一句话结束时，频谱图中会出现明显的间隔，根据间隔可以初步确认每句话的起止时间，如图3所示，0.16-1.16秒、1.34-4.71秒和5.08-5.94秒分别是第一、第二、第三句话，中间出现了0.178和0.368秒的间隔

2)若此时对应的文本内容为“浓浓的肉香夹杂着辣椒香与辛辣味直钻入鼻子，你闻到了吗？”，文字只有一个语音间隔，因此可将语音分为两句话，分别对应0.16-4.71秒和5.08-5.94秒，两句话之间有一个0.368秒的间隔。

另外，终端设备也需将AI语音与背景音乐合并，并调小背景音乐音量，突出AI语音内容。同时，根据AI语音的时长调节视频流的时长，使得后续拼接视频的总时长与AI语音的持续时长一致，最终获取包含字幕文本、调整合并的AI语音和背景音乐的目标视频流。

步骤S203，根据所述背景音乐的节拍对所述待展示图片对应的具备动态效果的视频流的时长进行调整得到目标视频流；

终端设备在获取到具备动态效果的视频流后，若是用户并未为该视频流添加文案，那么，终端设备可进行背景音乐踩点转场，比如，提取背景音乐的节拍，并根据背景音乐的节拍对视频流的时长进行调整，使得转场时间正好与背景音乐的节拍一致。通过此种方式也可获取目标视频流。

其中，背景音乐的节拍提取方式如下：

1)通过计算声音频谱图的能量累积，如图4所示，确定能量突变点；

2)如果是多声部曲子需要先做频域分析，因为不同乐器在频谱上位置是不一样的，进而通过计算频谱能量变化来得到突变；

3)通过能量突变点的相关性计算节拍的速度；

4)选取与预估节拍速度一致的能量突变点进行节拍提取。

步骤S204，根据预设转场特效将所述目标视频流进行拼接得到视频文件。

终端设备确定目标视频流之后，将针对各个目标视频流进行拼接，可在各个目标视频流之间插入转场特效，最终得到完整的视频文件。

在本实施例中，终端设备根据预设的背景音乐匹配规则，为各个待展示图片匹配一致风格的背景音乐。另外，终端设备可根据用户触发的文字添加指令，为待展示图片添加描述文本。终端设备在获取到待展示图片后，可将图片持续播放得到视频流，在该视频流加入视频特效，比如视角移动和视角拉近等，得到具备动态效果的视频流。终端设备将根据文案生成对应的AI语音，同时制作对应的字幕文本，并将该AI语音与该字幕文本进行匹配。终端设备也需将AI语音与背景音乐合并。同时，根据AI语音的时长调节视频流的时长，最终获取包含字幕文本、调整合并的AI语音和背景音乐的目标视频流。最终将针对各个目标视频流进行拼接，可在各个目标视频流之间插入转场特效，最终得到完整的视频文件。

在本发明中，能够自动通过动态特效将图片转化为视频流，并通过转场特效将多个视频流拼接为一个完整的视频，因此，本发明提升了视频生成质量和视频生成效率，避免了用户端的繁琐操作，进一步提升了用户体验。

此外，本发明实施例还提出一种视频生成系统，参照图5，图5为本发明视频生成一实施例的功能模块示意图。如图5所示，本发明视频生成系统，包括：

预处理模块10，用于获取目标图片，并针对所述目标图片进行优化处理得到待展示图片；

视频转换模块20，用于根据预设视频动态特效将所述待展示图片转换为对应的视频文件，并根据预设转场特效针对所述视频文件进行拼接得到目标视频。

进一步地，所述优化处理包括：针对图片的恢复、美化和筛选，所述预处理模块10，包括：

恢复单元，用于针对目标图片进行恢复得到恢复图片；

美化单元，用于对所述恢复图片进行美化得到美化图片；

筛选单元，用于针对所述美化图片进行筛选得到待展示图片。

进一步地，所述恢复单元，包括：

卷积处理子单元，用于对所述目标图片进行卷积处理，以提取所述目标图片的浅层特征表示；

提取子单元，用于基于所述浅层特征表示，通过深层特征提取模块提取所述目标图片的深层特征表示，其中，所述深层特征提取模块包括基于无偏移窗口机制的特征提取模块和基于偏移窗口机制的特征提取模块；

上采样子单元，用于根据所述深层特征表示进行上采样操作，以对所述目标图片进行恢复得到恢复图片。

进一步地，所述预处理模块10，包括：

滤波器确定单元，用于通过预训练的图像增强算法确定所述恢复图片对应的多项式滤波器、椭圆滤波器和渐变滤波器；

滤波单元，用于通过所述多项式滤波器对所述恢复图片进行滤波处理得到第一处理结果，通过所述椭圆滤波器对所述第一处理结果进行滤波处理得到第二处理结果，并通过所述渐变滤波器对所述第一处理结果进行滤波处理得到第三处理结果；

累加单元，用于将所述第二处理结果和第二处理结果进行相加得到第四处理结果；

所述美化单元，包括：

美化子单元，用于通过所述第四处理结果对所述恢复图片进行美化得到美化图片。

进一步地，所述筛选单元，包括：

合格图片获取单元，用于通过预训练的分类神经网络对所述美化图片进行筛选得到合格图片；

备选图片确定子单元，用于通过预训练的美学评分算法，确定所述合格图片的图片分数，并将高于预设分数阈值的图片分数所对应的合格图片作为备选图片；

待展示图片确定子单元，用于通过预训练的感知哈希算法和预训练的直方图方法，确定所述备选图片的相似度，并根据所述相似度对所述备选图片进行筛选得到待展示图片；

所述筛选单元，包括：

分类子单元，用于通过所述预训练的分类神经网络，对所述待展示图片进行分类确定图片类别，并根据所述图片类别将所述待展示图片导入对应的图片集合，以针对所述图片集合中的图片进行视频转换操作。

进一步地，所述视频生成系统，还包括：

添加模块，用于为所述待展示图片添加与所述图片类别匹配的背景音乐，同时，根据用户触发的文字添加指令为所述待展示图片添加描述文本。

进一步地，所述视频转换模块20，包括：

视频流获取单元，用于根据预设视频特效，获取所述待展示图片对应的具备动态效果的视频流；

第一目标视频流获取单元，用于基于预设文案生成AI语音和字幕文本，将所述AI语音与所述背景音乐进行调整合并，并且，根据所述AI语音的时长调节所述视频流的时长，获取与所述AI语音的时长一致的包含字幕文本、调整合并的AI语音和背景音乐的目标视频流；

第二目标视频流获取单元，用于根据所述背景音乐的节拍对所述待展示图片对应的具备动态效果的视频流的时长进行调整得到目标视频流；

拼接单元，用于根据预设转场特效将所述目标视频流进行拼接得到视频文件。

本发明视频生成系统的各个功能模块的具体实施方式与上述视频生成方法各实施例基本相同，在此不做赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有视频生成程序，所述视频生成程序被处理器执行时实现如上所述的视频生成方法的步骤。

本发明视频生成系统和计算机可读存储介质的各实施例，均可参照本发明视频生成方法各个实施例，此处不再赘述。

此外，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现如以上视频生成方法的任一项实施例所述的视频生成方法的步骤。

本发明计算机程序产品的具体实施例与上述视频生成方法的各实施例基本相同，在此不作赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种视频生成方法，其特征在于，所述视频生成方法包括：

2.如权利要求1所述的视频生成方法，其特征在于，所述优化处理包括：针对图片的恢复、美化和筛选，所述针对所述目标图片进行优化处理得到待展示图片的步骤，包括：

针对目标图片进行恢复得到恢复图片；

对所述恢复图片进行美化得到美化图片；

针对所述美化图片进行筛选得到待展示图片。

3.如权利要求2所述的视频生成方法，其特征在于，所述针对目标图片进行恢复得到恢复图片的步骤，包括：

4.如权利要求2所述的视频生成方法，其特征在于，在所述对所述恢复图片进行美化得到美化图片的步骤之前，还包括：

所述对所述恢复图片进行美化得到美化图片的步骤，包括：

5.如权利要求2所述的视频生成方法，其特征在于，所述针对所述美化图片进行筛选得到待展示图片的步骤，包括：

6.如权利要求5所述的视频生成方法，其特征在于，在所述根据预设视频动态特效将所述待展示图片转换为对应的视频文件的步骤之前，还包括：

7.如权利要求6所述的视频生成方法，其特征在于，所述根据预设视频动态特效将所述待展示图片转换为对应的视频文件，并根据预设转场特效针对所述视频文件进行拼接得到目标视频的步骤，包括：

8.一种视频生成系统，其特征在于，所述视频生成系统包括：

9.一种终端设备，其特征在于，所述终端设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的视频生成程序，所述视频生成程序被所述处理器执行时实现如权利要求1至7中任一项所述的视频生成方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有视频生成程序，所述视频生成程序被处理器执行时实现如权利要求1至7中任一项所述的视频生成方法的步骤。