CN114025235A

CN114025235A - 视频生成方法、装置、电子设备及存储介质

Info

Publication number: CN114025235A
Application number: CN202111342478.9A
Authority: CN
Inventors: 王愈; 李健; 武卫东; 陈明
Original assignee: Beijing Sinovoice Technology Co Ltd
Current assignee: Beijing Sinovoice Technology Co Ltd
Priority date: 2021-11-12
Filing date: 2021-11-12
Publication date: 2022-02-08

Abstract

本发明实施例提供一种视频生成方法、装置、电子设备及存储介质，该方法包括：将目标音频文件划分为N个音频子片段，N为大于或者等于2的整数；在与目标音频文件关联的多个图像片段中，获取N个音频子片段中的每个音频子片段分别对应的目标图像片段，目标图像片段为与音频子片段匹配度最高的图像片段；根据N个音频子片段，对N个目标图像片段进行对应修改；根据N个音频子片段和修改后的目标图像片段，生成目标视频。本发明通过为音频子片段筛选出更为匹配的图像片段，并对筛选出的图像片段进行修改，可以实现减小修改幅度，提升修改效率，且可使得修改后的图像片段与音频子片段更加契合，提升了目标视频的播放效果。

Description

视频生成方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种视频生成方法、装置、电子设备及存储介质。

背景技术

随着计算机技术的发展，人们可以根据需求依据音频对图像序列进行修改，以将修改后的图像序列配合音频播放。相比于单独播放音频，图像序列配合音频进行播放的方式，可以增强趣味性，优化用户的视听体验。

现有技术中，在根据音频修改图像序列时，需要根据音频对现有图像序列做局部修改，音频与图像序列中某帧图像的对应关系是根据音频和图像序列的播放顺序配置的，如果音频期望的画面与原图像对应的画面差距太大，则修改幅度较大，容易出现修改不到位，修改后的效果不理想的问题。

由此可见，现有技术中，在基于音频进行图像修改时，容易修改不到位，导致修改后的图像序列与音频的匹配效果不佳。

发明内容

本发明实施例提供了一种视频生成方法、装置、电子设备及存储介质，以解决现有技术中在基于音频进行图像修改时，存在的容易修改不到位，导致修改后的图像序列与音频的匹配效果不佳的问题。

第一方面，本发明实施例提供了一种视频生成方法，所述方法包括：

将目标音频文件划分为N个音频子片段，N为大于或者等于2的整数；

在与所述目标音频文件关联的多个图像片段中，获取所述N个音频子片段中的每个所述音频子片段分别对应的目标图像片段，所述目标图像片段为与所述音频子片段匹配度最高的图像片段；

根据所述N个音频子片段，对N个目标图像片段进行对应修改；

根据所述N个音频子片段和修改后的N个所述目标图像片段，生成目标视频。

第二方面，本发明实施例提供了一种视频生成装置，所述装置包括：

划分模块，用于将目标音频文件划分为N个音频子片段，N为大于或者等于2的整数；

获取模块，用于在与所述目标音频文件关联的多个图像片段中，获取所述N个音频子片段中的每个所述音频子片段分别对应的目标图像片段，所述目标图像片段为所述音频子片段匹配度最高的图像片段；

修改模块，用于根据所述N个音频子片段，对N个目标图像片段进行对应修改；

生成模块，用于根据所述N个音频子片段和修改后的N个所述目标图像片段，生成目标视频。

第三方面，本发明实施例提供了一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上述第一方面所述的视频生成方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述的视频生成方法的步骤。

本发明实施例技术方案，通过将目标音频文件切分为N个音频子片段，获得每个音频子片段对应的匹配度最高的目标图像片段，根据音频子片段修改对应的目标图像片段，并根据N个音频子片段以及修改后的目标图像片段生成目标视频，可以实现为音频子片段筛选出更为匹配的图像片段并对筛选出的图像片段进行修改，可以实现减小修改幅度，提升修改效率，且可使得修改后的图像片段与音频子片段更加契合，提升了目标视频的播放效果。

附图说明

图1表示本发明实施例提供的视频生成方法的示意图；

图2表示本发明实施例提供的表征向量预测模型的工作原理示意图；

图3表示本发明实施例提供的依据音频内容进行图像修改的一具体实例示意图；

图4表示本发明实施例提供的视频生成方法的一实施过程示意图；

图5表示本发明实施例提供的视频生成装置的示意图；

图6表示本发明实施例提供的一种电子设备结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

在本发明的各种实施例中，应理解，下述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

本发明实施例提供了一种应用于电子设备的视频生成方法，参见图1所示，所述方法包括：

步骤101、将目标音频文件划分为N个音频子片段，N为大于或者等于2的整数。

电子设备针对目标音频文件，提取目标音频文件的语音信号特征，根据目标音频文件的语音信号特征获取目标音频文件对应的音频帧序列，通过划分音频帧序列(划分音频帧序列即为划分目标音频文件)，可以获得N个音频子片段。

其中，N个音频子片段对应的帧数可以相等，也可以不等，帧数相等，即为音频子片段对应的时长相等，帧数不等，即为音频子片段对应的时长不相等。例如，可以将一个总帧数为100帧的音频帧序列划分为帧数均为10帧的10个音频子片段，每个音频子片段对应的时长相等，也可以切分为2个长度为5帧和9个长度为10帧的音频子片段。由此可见，不同音频子片段对应的时长可以相等也可以不等。

步骤102、在与所述目标音频文件关联的多个图像片段中，获取所述N个音频子片段中的每个所述音频子片段分别对应的目标图像片段，所述目标图像片段为与所述音频子片段匹配度最高的图像片段。

目标图像片段对应的时间长度可以大于或者等于匹配的音频子片段对应的时间长度，针对目标图像片段对应的时间长度大于匹配的音频子片段对应的时间长度的情况，目标图像片段对应的时间长度与匹配的音频子片段对应的时间长度之差需要在预设的误差范围内。例如，预设的误差范围的极值为50ms时，则目标图像片段对应的时间长度最多可以比匹配的音频子片段对应的时间长度长50ms。其中，预设的误差范围可以由用户自行配置。

其中，多个图像片段的图像内容与目标音频文件关联，和/或，多个图像片段与目标音频文件形成有绑定关系，即，多个图像片段与目标音频文件之间的关联可以为：多个图像片段的图像内容与目标音频文件的音频内容具有关联性，和/或，多个图像片段与目标音频文件预先建立有绑定关系。如，多个图像片段与目标音频文件对应于同一类型视频文件，多个图像片段与目标音频文件的生成时间在同一个时间范围内，用户将多个图像片段与目标音频文件进行了关联，多个图像片段包括的人物内容与目标音频文件相关。

下面通过举例对上述几种关联情况进行介绍。针对多个图像片段与目标音频文件对应于同一类型视频文件的情况，可以为多个图像片段与目标音频文件都对应于同一部电影，如，多个图像片段截取自电影A，目标音频文件也截取于电影A。

针对多个图像片段与目标音频文件的生成时间在同一个时间范围内的情况，可以为：多个图像片段生成于某个时间范围内的第一时间区间，目标音频文件生成于该时间范围内的第二时间区间，则可以认为多个图像片段与目标音频文件具有关联。

针对用户将多个图像片段与目标音频文件进行关联的情况，用户可以根据需求自行关联多个图像片段与目标音频文件，即，用户可以预先建立多个图像片段与目标音频文件的绑定关系。

针对多个图像片段包括的人物内容与目标音频文件相关的情况，可以为多个图像片段均包括人物A，目标音频文件的音频内容与人物A相关，则可以认定多个图像片段与目标音频文件存在关联关系。

需要说明的是，多个图像片段与目标音频文件之间的关联情况不限于上述所列举的几种，本领域技术人员还可以根据需求设置其他的关联情况，这里不做进一步限定。

针对每个音频子片段，可以获取当前音频子片段对应的目标图像片段，其中，目标图像片段为多个图像片段中与音频子片段匹配度最高的图像片段，通过获取与音频子片段匹配度最高的图像片段，可以在根据音频子片段修改目标图像片段时，减小修改幅度、提高修改效率。

例如，当一音频子片段的期望动作为嘴部完全张开，需要在图像片段A和图像片段B中获取音频子片段对应的目标图像片段时，图像片段A中人物的嘴张开，图像片段B中人物的嘴闭合，由于音频子片段的期望动作为嘴部完全张开，所以图像片段A中的人物口型与期望口型更为符合，修改幅度更小，即，确定图像片段A为该音频子片段对应的目标图像片段。

其中，多个图像片段可以来源于一个或多个图像文件，即，针对每个音频子片段，可以在来源于同一图像文件的多个图像片段中寻找匹配度最高的目标图像片段，也可以在来源于多个图像文件的多个图像片段中寻找匹配度最高的目标图像片段。例如，多个图像片段可以都来源于图像文件A，也可以来源于图像文件B和图像文件C。

步骤103、根据所述N个音频子片段，对N个所述目标图像片段进行对应修改。

在针对N个音频子片段中的每个音频子片段，获取了音频子片段对应的目标图像片段之后，可以根据N个音频子片段，对N个目标图像片段进行对应修改，即，针对每个音频子片段，分别修改其对应的目标图像片段的图像内容，通过修改图像内容使修改后的目标图像片段与音频子片段的匹配度提高，进而可以使得修改后的目标图像片段配合音频子片段进行播放。

在根据N个音频子片段，对N个目标图像片段进行对应修改时，可以将每个音频子片段和对应的目标图像片段输入目标修改模型，以通过目标修改模型，根据音频子片段修改对应的目标图像片段。其中，目标修改模型为现有模型，且目标修改模型为通过训练得到，训练数据为大量的有声视频文件。

下面对目标修改模型的训练过程进行简要介绍，目标修改模型对应的训练数据为大量的有声视频文件，训练过程如下：获取多个有声视频文件；对于每个有声视频文件，分离出音频帧序列和图像序列。将每个视频文件的图像序列和音频帧序列组对，每对(图像序列，音频帧序列)作为一组训练数据；用上述得到的多个数据对，进行模型训练，得到目标修改模型。

步骤104、根据所述N个音频子片段和修改后的N个所述目标图像片段，生成目标视频。

根据N个音频子片段，修改每个音频子片段对应的目标图像片段，获得N个修改后的目标图像片段之后，可以根据修改后的N个目标图像片段获得图像序列，再将图像序列与目标音频文件组合，获得目标视频。

其中，目标视频为目标音频文件搭配图像序列后最终合成的视频，修改后的图像序列用于配合目标音频文件，以增强趣味性，优化用户的视听体验。

本发明上述实施过程，通过将目标音频文件切分为N个音频子片段，获得每个音频子片段对应的匹配度最高的目标图像片段，根据音频子片段修改对应的目标图像片段，并根据N个音频子片段以及修改后的目标图像片段生成目标视频，可以实现为音频子片段筛选出更为匹配的图像片段并对筛选出的图像片段进行修改，可以实现减小修改幅度，提升修改效率，且可使得修改后的图像片段与音频子片段更加契合，提升了目标视频的播放效果。

本发明一可选实施例中，所述获取所述N个音频子片段中的每个所述音频子片段分别对应的目标图像片段，包括：

针对所述N个音频子片段中的每个所述音频子片段，获取所述音频子片段对应的预测图像表征向量；

针对所述多个图像片段中的每个所述图像片段，获取所述图像片段对应的图像表征向量；

根据N个所述预测图像表征向量以及所述多个图像片段对应的多个图像表征向量，获取每个所述音频子片段分别对应的目标图像片段。

在获取每个音频子片段分别对应的目标图像片段时，首先需要针对每个音频子片段，获得对应的音频表征向量，其中，N个音频表征向量为N个音频子片段输入表征向量预测模型后获得的N个音频表征向量，N个音频表征向量与N个音频子片段一一对应。然后，根据每个音频子片段分别对应的音频表征向量，获得每个音频子片段对应的预测图像表征向量，并获取多个图像片段分别对应的图像表征向量。最后，根据N个预测图像表征向量以及多个图像表征向量，获得每个音频子片段分别对应的目标图像片段。

本发明上述实施过程，通过获取每个音频子片段的预测图像表征向量以及多个图像片段分别对应的图像表征向量，并根据预测图像表征向量和图像表征向量，获得每个音频子片段分别对应的目标图像片段，提高了在多个图像片段中获得目标图像片段的可行性以及准确性。

可选的，所述根据N个所述预测图像表征向量以及所述多个图像片段对应的多个图像表征向量，获取每个所述音频子片段分别对应的目标图像片段，包括：

针对每个所述预测图像表征向量，在所述多个图像片段对应的多个图像表征向量中，根据向量距离确定与当前预测图像表征向量匹配度最高的目标图像表征向量；

将所述目标图像表征向量对应的图像片段，确定为当前预测图像表征向量对应的音频子片段的目标图像片段。

在获得多个图像片段对应的图像表征向量后，可以建立图像片段与图像表征向量的对应关系，在获得音频子片段对应的预测图像表征向量后，针对每一个预测图像表征向量，计算与所有图像表征向量的向量距离，其中，上述向量距离可以为欧氏距离、曼哈顿距离或者余弦距离，当然不限于上述几种向量距离，这里不做进一步限定。通过计算预测图像表征向量与所有图像表征向量的欧式距离、曼哈顿距离或者余弦距离，获取计算结果，基于计算结果获得与该预测图像表征向量之间的向量距离最短的图像表征向量，即，获取与当前预测图像表征向量匹配度最高的目标图像表征向量，然后根据上述对应关系，查找目标图像表征向量对应的图像片段，将该图像片段确定为当前预测图像表征向量对应的音频子片段的目标图像片段。

例如，当根据余弦距离确定与当前预测图像表征向量匹配度最高的目标图像表征向量时，余弦距离越小，证明预测图像表征向量与该图像表征向量的匹配度越高，由此可得，在预测图像表征向量与所有图像表征向量的余弦距离中，余弦距离最小的图像表征向量对应的图像片段，为该预测图像表征向量对应的音频子片段的目标图像片段。

本发明上述实施过程，通过获取预测图像表征向量与所有图像表征向量的向量距离，根据向量距离，获得N个音频子片段分别对应的目标图像片段，为筛选目标图像片段提供了切实可行的方案，提高了筛选的准确性。

本发明一可选实施例中，所述针对所述N个音频子片段中的每个所述音频子片段，获取所述音频子片段对应的预测图像表征向量，包括：

将所述N个音频子片段输入表征向量预测模型，获取每个所述音频子片段对应的预测图像表征向量。

本发明实施例可以预先构建表征向量预测模型，构建方法如下：

获取大量有声视频文件，对于每个视频文件，分离出其中的图像内容(图像序列)和音频内容；对于分离出的音频内容，提取语音信号特征(如梅尔频谱)，获得该音频内容的音频帧序列。将每个视频文件的图像序列和音频帧序列组对，将上述每个数据对(图像序列，音频帧序列)，按播放时间切分成长度为N帧的子片段，以获得多个子片段(图像子片段，音频子片段)；将多个子片段作为训练数据，训练表征向量预测模型。该模型为神经网络模型，包括三个模块：音频表征模块、图像表征模块以及预测模块。

参见图2所示，表征向量预测模型包括音频表征模块、图像表征模块和预测模块。其中，音频表征模块用于根据输入的音频子片段，获得该音频子片段对应的音频表征向量；图像表征模块用于根据输入的图像片段，获得该图像片段的图像表征向量；预测模块用于根据音频表征向量，预测出该音频表征向量对应的预测图像表征向量。三个子模块可以单独使用。其中，预测模块还包括一计算单元，用于计算预测图像表征向量和图像表证向量之间的向量距离。

将N个音频子片段输入表征向量预测模型后，首先通过音频表征模块获得N个音频子片段分别对应的音频表征向量，然后通过预测模块，根据N个音频表征向量获得每个音频表征向量分别对应的预测图像表征向量，由于音频表征向量与音频子片段具有对应关系，而且音频表征向量与预测图像表征向量具有对应关系，则预测图像表征向量与音频子片段具有对应关系，其中，预测图像表征向量为该音频子片段对应的理想图像片段的图像表征向量。

可选的，所述针对所述多个图像片段中的每个所述图像片段，获取所述图像片段对应的图像表征向量，包括：

将所述多个图像片段输入表征向量预测模型，获取每个所述图像片段对应的图像表征向量。

在获取多个图像片段中的每个图像片段对应的图像表征向量时，需要将每个图像片段输入表征向量预测模型，具体为，将图像片段输入表征向量预测模型的图像表征模块，通过图像表征模块，可以针对每个图像片段，获得对应的图像表征向量。

本发明上述实施过程，在获得每个图像片段对应的图像表征向量和每个音频子片段对应的预测图像表征向量时，通过表征向量预测模型的自动化处理提高了图像表征向量和预测图像表征向量的获取效率，且同时提高了准确性。

本发明一可选实施例中，所述目标图像片段包括目标人物，所述根据所述N个音频子片段，对N个所述目标图像片段进行对应修改，包括：

针对每个所述音频子片段，根据所述音频子片段的音频内容，修改对应的目标图像片段中所述目标人物的口型和肢体动作中的至少一项。

在根据N个音频子片段，对N个目标图像片段进行对应修改时，可以将音频子片段和与音频子片段对应的目标图像片段输入目标修改模型，在目标修改模型中，针对每个音频子片段，根据音频内容修改对应的目标图像片段，使目标图像片段与对应的音频子片段相契合，以获取音频子片段的期望画面。

例如，当音频子片段A对应目标图像片段a，音频子片段B对应目标图像片段b时，将音频子片段A和目标图像片段a输入目标修改模型，根据音频子片段A修改目标图像片段a，将音频子片段B和目标图像片段b输入目标修改模型，根据音频子片段B修改目标图像片段b。

针对目标图像片段而言，可以包括目标人物，不同的目标图像片段对应的目标人物可以相同或者相区别，针对每个目标图像片段，可以对应于至少一个目标人物。例如，目标图像片段a包括人物1和人物2，目标图像片段b可以包括人物3、人物4和人物5中的至少一个。

在根据目标音频文件的N个音频子片段，对N个目标图像片段进行对应修改时，参见图3所示，可以针对每个音频子片段，根据音频子片段的音频内容，利用目标修改模型对相应的目标图像片段进行图像内容修改，获得修改后的目标图像片段。其中，在进行图像内容修改时，可以修改目标图像片段中的目标人物的口型和肢体动作中的至少一项。通过修改口型可以使目标图像片段中的目标人物的口型更加符合音频子片段的期望口型；通过修改肢体动作可以使修改后的目标图像片段中的目标人物的肢体动作更加符合音频子片段的期望动作；通过修改口型和/或动作可以提高修改后的目标图像片段与音频子片段的契合度。

下面通过一实例对根据音频子片段修改目标图像片段的过程进行阐述。例如，当一音频子片段的期望口型为嘴部完全张开时，若该音频子片段对应的目标图像片段中目标人物为半张口状态，则根据该音频子片段，修改目标图像片段中目标人物的口型为嘴部完全张开。相应的，在音频子片段的期望肢体动作为震惊的情况下，则可以根据该音频子片段，修改目标图像片段中的目标人物的肢体动作为为表达震惊的状态。

本发明上述实施过程，通过根据音频子片段修改对应的目标图像片段中目标人物的口型和肢体动作中的至少一项，使修改后的目标图像片段中目标人物的口型和肢体动作中的至少一项更加契合音频子片段的期望口型和期望动作中的至少一项，使得修改后的目标图像片段与音频子片段更加契合。

本发明一可选实施例中，所述根据所述N个音频子片段和修改后的N个所述目标图像片段，生成目标视频，包括：

根据所述N个音频子片段在所述目标音频文件中的顺序，拼接修改后的所述目标图像片段，获得图像序列；组合所述图像序列和所述目标音频文件，生成所述目标视频。

在对N个音频子片段对应的目标图像片段进行修改之后，可以根据N个音频子片段和修改后的N个目标图像片段，生成目标视频。在生成目标视频时，首先需要根据N个音频子片段在目标音频文件中的序号，拼接修改后的目标图像片段，获得图像序列；然后再将该图像序列与目标音频文件组合，生成目标视频。其中，在进行图像拼接时，可以理解为：根据N个音频子片段在目标音频文件中的序号，确定N个目标图像片段的排序顺序，按照排序后的多个目标图像片段，基于拼接技术进行拼接，生成图像序列。

举例说明，将目标音频文件划分音频子片段1和音频子片段2，按照目标音频文件的播放顺序应先播放音频子片段1，再播放音频子片段2，在音频子片段1对应修改后的目标图像片段A，音频子片段2对应修改后的目标图像片段B的情况下，按照修改后的目标图像片段A在前，修改后的目标图像片段B在后的顺序进行图像拼接，获得图像序列。

本发明上述实施过程，通过按照音频子片段在目标音频文件中的顺序拼接修改后的目标图像片段，获得图像序列，保证了修改后的目标图像片段拼接顺序的正确，进而可以基于图像序列和目标音频文件的组合，获取目标视频。

下面对本发明视频生成方法的整体实施过程进行简要介绍。参见图4所示，将目标音频文件切分为N个音频子片段，通过表征向量预测模型的音频表征模块获取N个音频子片段分别对应的音频表征向量，再将音频表征向量输入预测模块获得N个预测图像表征向量，通过表征向量预测模型的图像表征模块获取多个图像片段的图像表征向量。通过计算向量距离的方式获得预测图像表征向量对应的目标图像表征向量，再通过图像表征向量和图像片段的对应关系，将目标图像表征向量对应的图像片段，确定为当前预测图像表征向量对应的音频子片段的目标图像片段，通过上述方式获得N个音频子片段分别对应的N个目标图像片段。将N个目标图像片段和N个音频子片段输入目标修改模型，根据音频子片段修改对应的目标图像片段，获得N个修改后的目标图像片段，拼接N个修改后的目标图像片段，获得图像序列，最后组合图像序列和目标音频文件，获得目标视频。

以上为本发明的全部实施过程，通过将目标音频文件切分为N个音频子片段，获得每个音频子片段对应的匹配度最高的目标图像片段，根据音频子片段修改对应的目标图像片段，并根据N个音频子片段以及修改后的目标图像片段生成目标视频，可以实现为音频子片段筛选出更为匹配的图像片段并对筛选出的图像片段进行修改，可以实现减小修改幅度，提升修改效率，且可使得修改后的图像片段与音频子片段更加契合，提升了目标视频的播放效果。

进一步的，通过获得图像表征向量和预测图像表征向量，并根据图像表征向量和预测图像表征向量，获得目标图像片段，提高了获取目标图像片段的可行性；通过计算向量距离的方式为每个音频子片段筛选目标图像片段，提高了筛选的准确性；通过表征向量预测模型获得图像表征向量和预测图像表征向量，提高了获取效率和准确性；通过修改目标图像片段中目标人物的口型和肢体动作中的至少一项，保证修改后的目标图像片段与音频子片段更加契合；通过按照音频子片段在目标音频文件中的顺序，拼接修改后的目标图像片段，保证了拼接顺序的正确，进而可以基于图像序列和目标音频文件的组合，获取目标视频。

本发明实施例还提供了一种视频生成装置，参见图5所示，所述装置包括：

划分模块501，用于将目标音频文件划分为N个音频子片段，N为大于或者等于2的整数；

获取模块502，用于在与所述目标音频文件关联的多个图像片段中，获取所述N个音频子片段中的每个所述音频子片段分别对应的目标图像片段，所述目标图像片段为与所述音频子片段匹配度最高的图像片段；

修改模块503，用于根据所述N个音频子片段，对N个所述目标图像片段进行对应修改；

生成模块504，用于根据所述N个音频子片段和修改后的N个所述目标图像片段，生成目标视频。

可选的，所述获取模块包括：

第一获取子模块，用于针对所述N个音频子片段中的每个所述音频子片段，获取所述音频子片段对应的预测图像表征向量；

第二获取子模块，用于针对所述多个图像片段中的每个所述图像片段，获取所述图像片段对应的图像表征向量；

第三获取子模块，用于根据N个所述预测图像表征向量以及所述多个图像片段对应的多个图像表征向量，获取每个所述音频子片段分别对应的目标图像片段。

可选的，所述第三获取子模块包括：

第一确定单元，用于针对每个所述预测图像表征向量，在所述多个图像片段对应的多个图像表征向量中，根据向量距离确定与当前预测图像表征向量匹配度最高的目标图像表征向量；

第二确定单元，用于将所述目标图像表征向量对应的图像片段，确定为当前预测图像表征向量对应的音频子片段的目标图像片段。

可选的，所述第一获取子模块进一步用于：

将所述N个音频子片段输入表征向量预测模型，获取每个所述音频子片段对应的预测图像表征向量；

所述第二获取子模块进一步用于：

可选的，所述目标图像片段包括目标人物，所述修改模块进一步用于：

可选的，所述生成模块包括：

拼接子模块，用于根据所述N个音频子片段在所述目标音频文件中的顺序，拼接修改后的所述目标图像片段，获取图像序列；

组合子模块，用于组合所述图像序列和所述目标音频文件，生成所述目标视频。

以上为本发明实施例提供的视频生成装置，通过将目标音频文件切分为N个音频子片段，获得每个音频子片段对应的匹配度最高的目标图像片段，根据音频子片段修改对应的目标图像片段，并根据N个音频子片段以及修改后的目标图像片段生成目标视频，可以实现为音频子片段筛选出更为匹配的图像片段并对筛选出的图像片段进行修改，可以实现减小修改幅度，提升修改效率，且可使得修改后的图像片段与音频子片段更加契合，提升了目标视频的播放效果。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

优选的，本发明实施例还提供了一种电子设备，包括：处理器，存储器，存储在存储器上并可在处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述视频生成方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

举例如下，图6示出了一种电子设备的实体结构示意图。

如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令。处理器610用于执行以下步骤：将目标音频文件划分为N个音频子片段，N为大于或者等于2的整数；在与所述目标音频文件关联的多个图像片段中，获取所述N个音频子片段中的每个所述音频子片段分别对应的目标图像片段，所述目标图像片段为与所述音频子片段匹配度最高的图像片段；根据所述N个音频子片段，对N个所述目标图像片段进行对应修改；根据所述N个音频子片段和修改后的N个所述目标图像片段，生成目标视频。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述视频生成方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

本领域普通技术人员可以意识到，结合本发明实施例中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种视频生成方法，其特征在于，包括：

根据所述N个音频子片段，对N个所述目标图像片段进行对应修改；

2.根据权利要求1所述的方法，其特征在于，所述获取所述N个音频子片段中的每个所述音频子片段分别对应的目标图像片段，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据N个所述预测图像表征向量以及所述多个图像片段对应的多个图像表征向量，获取每个所述音频子片段分别对应的目标图像片段，包括：

4.根据权利要求2所述的方法，其特征在于，所述针对所述N个音频子片段中的每个所述音频子片段，获取所述音频子片段对应的预测图像表征向量，包括：

所述针对所述多个图像片段中的每个所述图像片段，获取所述图像片段对应的图像表征向量，包括：

5.根据权利要求1所述的方法，其特征在于，所述目标图像片段包括目标人物，所述根据所述N个音频子片段，对N个所述目标图像片段进行对应修改，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述N个音频子片段和修改后的N个所述目标图像片段，生成目标视频，包括：

根据所述N个音频子片段在所述目标音频文件中的顺序，拼接修改后的所述目标图像片段，获取图像序列；

组合所述图像序列和所述目标音频文件，生成所述目标视频。

7.一种视频生成装置，其特征在于，包括：

获取模块，用于在与所述目标音频文件关联的多个图像片段中，获取所述N个音频子片段中的每个所述音频子片段分别对应的目标图像片段，所述目标图像片段为与所述音频子片段匹配度最高的图像片段；

修改模块，根据所述N个音频子片段，对N个所述目标图像片段进行对应修改；

8.根据权利要求7所述的装置，其特征在于，所述获取模块包括：

9.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的视频生成方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的视频生成方法的步骤。