CN112528049B

CN112528049B - 视频合成方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN112528049B
Application number: CN202011494362.2A
Authority: CN
Inventors: 陶斐; 刘旭东; 袁磊; 梅晓茸
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2023-08-08
Anticipated expiration: 2040-12-17
Also published as: CN112528049A

Abstract

本公开关于一种视频合成方法、装置、电子设备及计算机可读存储介质，属于视频处理技术领域。所述方法包括：获取与第一多媒体文件组合能够表达目标主题的第二多媒体文件；响应于第一多媒体文件和第二多媒体文件组合在表达目标主题过程中的表现相匹配，将第一多媒体文件和第二多媒体文件合成目标视频。本公开基于目标主题，获取第二多媒体文件，进而将第二多媒体文件与第一多媒体文件合成目标视频。由于该目标主题并没有特定的应用场景，用户可根据实际的需求进行设置，且所合成的目标视频不仅能够表达目标主题，而且在表达目标主题时自然、不违和，因而在确保合成符合主题需要的视频的前提下，扩大了视频合成方法的应用范围。

Description

视频合成方法、装置、电子设备及计算机可读存储介质

技术领域

本公开涉及视频处理技术领域，尤其涉及一种视频合成方法、装置、电子设备及计算机可读存储介质。

背景技术

随着互联网技术的发展，聚焦于内容的视频分享应用迅速发展，越来越多的用户借助视频分享应用分享自己的工作、生活等。在这一过程中，如何自动地为用户合成视频变得至关重要。

相关技术在合成视频时，主要采用如下方法：获取用于合成目标视频的图像文件和多个音频文件；提取图像文件的图像特征及每个音频文件的音频特征；将该图像特征与每个音频特征进行拼接，得到多个拼接特征向量；将多个拼接特征向量输入到音画匹配模型中，输出多个匹配结果，该音画匹配模型由特定场景(例如，体育、山水风景等场景)下的视频文件训练得到；基于多个匹配结果，将图像文件与匹配的音频文件合成目标视频。

然而，相关技术只能合成特定应用场景下的视频，无法合成其他场景下的视频，因而应用范围较小，具有较强的局限性。

发明内容

本公开提供一种视频合成方法、装置、电子设备及计算机可读存储介质，以至少解决相关技术中应用范围小具有较强局限性的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频合成方法，所述方法包括：

获取用于合成目标视频的第一多媒体文件及所述目标视频对应的目标主题；

基于所述目标主题，获取与所述第一多媒体文件组合能够表达所述目标主题的第二多媒体文件，所述第一多媒体文件和所述第二多媒体文件为以音频和图像方式合成所述目标视频的不同类型的文件；

响应于所述第一多媒体文件和所述第二多媒体文件组合在表达所述目标主题过程中的表现相匹配，将所述第一多媒体文件和所述第二多媒体文件合成所述目标视频。

在另一种可能的实现方式中，所述基于所述目标主题，获取与所述第一多媒体文件组合能够表达所述目标主题的第二多媒体文件，包括：

获取多媒体文件集合，所述多媒体文件集合包括与所述第二多媒体文件类型相同的多个第三多媒体文件；

从所述第一多媒体文件中提取第一多媒体特征，并从所述多媒体文件集合包括的每个所述第三多媒体文件中提取第二多媒体特征；

将所述第一多媒体特征与每个所述第二多媒体特征进行拼接，得到多个第一拼接特征向量；

将所述多个第一拼接特征向量输入到主题预测模型中，输出多个第一预测主题；

根据所述多个第一预测主题和所述目标主题，从所述多媒体文件集合包括的多个第三多媒体文件中，获取所述第二多媒体文件。

在另一种可能的实现方式中，所述根据所述多个第一预测主题和所述目标主题，从所述多媒体文件集合包括的多个第三多媒体文件中，获取所述第二多媒体文件，包括：

计算所述多个第一预测主题与所述目标主题之间的相似度；

将与所述目标主题的相似度大于预设阈值的第一预测主题对应的第三多媒体文件，确定为所述第二多媒体文件。

在另一种可能的实现方式中，所述响应于所述第一多媒体文件和所述第二多媒体文件组合在表达所述目标主题过程中的表现相匹配，将所述第一多媒体文件和所述第二多媒体文件合成所述目标视频之前，还包括：

将所述第一多媒体特征、所述第二多媒体文件对应的第三多媒体特征、所述目标主题及第二预测主题进行拼接，得到第二拼接特征向量，所述第二预测主题为采用所述主题预测模型对所述第一多媒体文件和所述第二多媒体文件组合后的视频进行主题预测得到；

将所述第二拼接特征向量输入到匹配决策模型中，输出所述第一多媒体文件和所述第二多媒体文件的匹配结果。

在另一种可能的实现方式中，所述主题预测模型的训练过程为：

获取训练样本集合，所述训练样本集合包括多个训练样本视频，每个所述训练样本视频具有标注主题；

提取所述训练样本集合中每个所述训练样本视频中图像文件的图像特征及音频文件的音频特征；

将每个所述训练样本视频的图像特征及音频特征进行拼接，得到多个第三拼接特征向量；

将所述多个第三拼接特征向量输入到初始主题预测模型中，输出多个第三预测主题；

将每个所述第三预测主题和对应的标注主题输入到预先构建的第一损失函数中，输出多个第一损失函数值；

根据所述多个第一损失函数值，对所述初始主题预测模型的模型参数进行调整，得到所述主题预测模型。

在另一种可能的实现方式中，所述训练样本视频具有标注匹配结果，所述匹配决策模型的训练过程为：

将每个所述训练样本视频的音频特征、图像特征、标注主题及第三预测主题进行拼接，得到多个第四拼接特征向量；

将所述多个第四拼接特征向量输入到初始匹配决策模型中，输出多个预测匹配结果；

将每个所述预测匹配结果和对应的标注匹配结果输入到预先构建的第二损失函数中，输出多个第二损失函数值；

根据所述多个第二损失函数值，对所述初始匹配决策模型的模型参数进行调整，得到所述匹配决策模型。

根据本公开实施例的第二方面，提供一种视频合成装置，所述装置包括：

第一获取模块，用于获取用于合成目标视频的第一多媒体文件及所述目标视频对应的目标主题；

第二获取模块，用于基于所述目标主题，获取与所述第一多媒体文件组合能够表达所述目标主题的第二多媒体文件，所述第一多媒体文件和所述第二多媒体文件为以音频和图像方式合成所述目标视频的不同类型的文件；

合成模块，用于响应于所述第一多媒体文件和所述第二多媒体文件在表达所述目标主题过程中的表现相匹配，将所述第一多媒体文件和所述第二多媒体文件合成所述目标视频。

在另一种可能的实现方式中，所述第二获取模块，用于获取多媒体文件集合，所述多媒体文件集合包括与所述第二多媒体文件类型相同的多个第三多媒体文件；从所述第一多媒体文件中提取第一多媒体特征，并从所述多媒体文件集合包括的每个所述第三多媒体文件中提取第二多媒体特征；将所述第一多媒体特征与每个所述第二多媒体特征进行拼接，得到多个第一拼接特征向量；将所述多个第一拼接特征向量输入到主题预测模型中，输出多个第一预测主题；根据所述多个第一预测主题和所述目标主题，从所述多媒体文件集合包括的多个第三多媒体文件中，获取所述第二多媒体文件。

在另一种可能的实现方式中，所述第二获取模块，用于计算所述多个第一预测主题与所述目标主题之间的相似度；将与所述目标主题的相似度大于预设阈值的第一预测主题对应的第三多媒体文件，确定为所述第二多媒体文件。

在另一种可能的实现方式中，所述装置还包括：

第一拼接模块，用于将所述第一多媒体特征、所述第二多媒体文件对应的第三多媒体特征、所述目标主题及第二预测主题进行拼接，得到第二拼接特征向量，所述第二预测主题为采用所述主题预测模型对所述第一多媒体文件和所述第二多媒体文件组合后的视频进行主题预测得到；

第一输入输出模块，用于将所述第二拼接特征向量输入到匹配决策模型中，输出所述第一多媒体文件和所述第二多媒体文件的匹配结果。

在另一种可能的实现方式中，用于训练所述主题预测模型的装置包括：

第三获取模块，用于获取训练样本集合，所述训练样本集合包括多个训练样本视频，每个所述训练样本视频具有标注主题；

第一提取模块，用于提取所述训练样本集合中每个所述训练样本视频中图像文件的图像特征及音频文件的音频特征；

第二拼接模块，用于将每个所述训练样本视频的图像特征及音频特征进行拼接，得到多个第三拼接特征向量；

第二输入输出模块，用于将所述多个第三拼接特征向量输入到初始主题预测模型中，输出多个第三预测主题；

第三输入输出模块，用于将每个所述第三预测主题和对应的标注主题输入到预先构建的第一损失函数中，输出多个第一损失函数值；

第一调整模块，用于根据所述多个第一损失函数值，对所述初始主题预测模型的模型参数进行调整，得到所述主题预测模型。

在另一种可能的实现方式中，所述训练样本视频具有标注匹配结果，用于训练所述匹配决策模型的装置包括：

第三拼接模块，用于将每个所述训练样本视频的音频特征、图像特征、标注主题及第三预测主题进行拼接，得到多个第四拼接特征向量；

第四输入输出模块，用于将所述多个第四拼接特征向量输入到初始匹配决策模型中，输出多个预测匹配结果；

第五输入输出模块，用于将每个所述预测匹配结果和对应的标注匹配结果输入到预先构建的第二损失函数中，输出多个第二损失函数值；

第二调整模块，用于根据所述多个第二损失函数值，对所述初始匹配决策模型的模型参数进行调整，得到所述匹配决策模型。

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现一方面所述的视频合成方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行第一方面所述的视频合成方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，所述计算机程序产品中的指令由电子设备的处理器执行时，使得电子设备能够执行上述第一方面所述的视频合成方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

基于目标主题，获取第二多媒体文件，进而将第二多媒体文件与第一多媒体文件合成目标视频。由于该目标主题并没有特定的应用场景，用户可根据实际的需求进行设置，且所合成的目标视频不仅能够表达目标主题，而且在表达目标主题时自然、不违和，因而在确保合成符合主题需要的视频的前提下，扩大了视频合成方法的应用范围。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种视频合成方法所涉及的实施环境。

图2是根据一示例性实施例示出的一种视频合成方法所涉及的实施环境。

图3是根据一示例性实施例示出的一种深度神经网络的框架图。

图4是根据一示例性实施例示出的一种视频合成方法的流程图。

图5是根据一示例性实施例示出的另一种视频合成方法的流程图。

图6是根据一示例性实施例示出的一种训练主题预测模型的方法的流程图。

图7是根据一示例性实施例示出的一种训练匹配决策模型的方法的流程图。

图8是根据一示例性实施例示出的一种视频合成装置的框图。

图9示出了本公开一个示例性实施例提供的一种电子设备的结构框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开所涉及的用户信息可以为经用户授权或者经过各方充分授权的信息。

本公开实施例提供的视频合成方法涉及到模型训练及应用所训练的模型进行视频合成两个过程，这两个过程可在同一电子设备中完成，也可以在不同的电子设备中完成，即模型训练在一个电子设备中实现，视频合成过程在安装有所训练模型的另一个电子设备中实现。该电子设备可以为终端或服务器。

针对上述两种情况，本公开实施例提供的视频合成方法涉及的实施环境以图1和图2为例进行说明。

参见图1，该实施环境包括服务器101和终端102。

其中，服务器101为视频分享应用的后台服务器。服务器101可以为单独的服务器，也可以为由多个服务器组成的服务器集群。服务器101具有较强的计算能力，能够训练主题预测模型和匹配决策模型。服务器101中安装有所训练的主题预测模型和匹配决策模型，基于所安装的主题预测模型和匹配决策模型，对于给定的音频文件和主题，能够为该音频文件获取主题匹配的图像文件，对于给定的图像文件和主题，能够为该图像文件获取主题匹配的音频文件。

终端102安装有视频分享应用，该终端102可以为智能手机、平板电脑、笔记本电脑等，基于该终端102用户可向服务器发送待合成视频的音频文件或图像文件，并查看服务器所合成的视频。

上述服务器101与终端102之间可通过有线网络或无线网络进行通信。

参见图2，该实施环境包括服务器103、终端102及服务器104。

服务器103为视频分享应用的后台服务器。服务器103可以为单独的服务器，也可以为由多个服务器组成的服务器集群。服务器103中安装有服务器104所训练的主题预测模型和匹配决策模型，基于所安装的主题预测模型和匹配决策模型，对于给定的音频文件和主题，能够为该音频文件获取主题匹配的图像文件，对于给定的图像文件和主题，能够为该图像文件获取主题匹配的音频文件。

终端102与图1中的终端102相同，此处不再赘述。

服务器104可以为单独的服务器，也可以为由多个服务器组成的服务器集群。服务器104具有较强的计算能力，能够训练主题预测模型和匹配决策模型。

上述服务器103与终端102之间可通过有线网络或无线网络进行通信。服务器103与服务器104之间可通过有线网络或无线网络进行通信。

本公开实施例所训练的匹配决策模型采用深度神经网络，参见图3，该匹配决策模型包括两层一维卷积层、一层最大池化层、两层全连接层，其中，卷积层用于从不同多媒体文件中提取音频特征和图像特征；最大池化层用于对提取的音频特征和图像特征进行降维处理；全连接层用于将提取的音频特征和图像特征进行拼接。该深度神经网络结构主要针对音频特征、图像特征、标注主题、预测主题这四个输入进行建模。

本公开实施例的应用场景包括但不限于如下两种：

第一种场景、对于用户给定的音频文件及主题，获取与该音频文件组合能够表达该主题，且与该音频文件合并在表达该主题的主题内容时比较自然没有违和感的图像文件，从而合成满足用户需求的视频。

第二种场景、对于用户给定的图像文件及主题，获取与该图像文件组合能够表达该主题，且与该图像文件合并在表达该主题的主题内容时比较自然没有违和感的音频文件，从而合成满足用户需求的视频。

基于上述几种实施环境，图4是根据一示例性实施例示出的一种视频合成方法的流程图，如图4所示，视频合成方法用于电子设备中，本公开实施例提供的方法包括以下步骤。

在步骤401中，获取用于合成目标视频的第一多媒体文件及目标视频对应的目标主题。

其中，第一多媒体文件为用户给定的、用于合成目标视频的文件，该第一多媒体文件可以为音频文件，可以为图像文件。当第一多媒体文件为音频文件时，采用本公开实施例提供的方法能够为该音频文件匹配合适的图像文件，从而合成目标视频；当第一多媒体文件为图像文件时，采用本公开实施例提供的方法能够为图像文件匹配合适的音频文件，从而合成目标视频。

目标主题为用户预先为目标视频指定的主题，该目标主题可以为由用户进行自定义，也可以由借助目标视频合成界面提供给用户，进而由用户进行选择。该目标主题可以为汽车、手机、笔记本、冰箱、电视机等等。目标主题的数量通常为一个，当然，如果用户想要合成的视频同时表达多个主题，该目标主题的数量可以为多个，例如，用户想要合成一个喜剧视频，则该目标主题可以为滑稽、欢快两个。

在步骤402中，基于目标主题，获取与第一多媒体文件组合能够表达目标主题的第二多媒体文件。

其中，第二多媒体文件和第一多媒体文件为以音频和图像方式合成目标视频的不同类型的文件。当第一多媒体文件为音频文件时，第二多媒体文件为图像文件；当第一多媒体文件为图像文件时，第二多媒体文件为音频文件。

本公开实施例在获取与第一多媒体文件组合能够表达目标主题的第二多媒体文件时，可采用如下方法：

4021、获取多媒体文件集合。

其中，多媒体文件集合包括多个第三多媒体文件，该第三多媒体文件和第一多媒体文件为以音频和图像方式合成目标视频的不同类型的文件。如果第一多媒体文件为音频文件，则多媒体文件集合为图像文件集合，该多媒体文件集合包括的第三多媒体文件为图像文件；如果第二多媒体文件为图像文件，则多媒体文件集合为音频文件集合，该多媒体文件集合包括的第三多媒体文件为音频文件。

在获取多媒体文件集合时，可采用如下几种方式：

第一种方式、从音频文件的数据库或图像文件的数据库中，获取多个音频文件或图像文件，组成多媒体文件集合。

第二种方式、从互联网上获取多个音频文件或图像文件，组成多媒体文件集合。

第三种方式、获取其他用户所发布的多个视频，并将其他用户发布的多个视频，组成多媒体文件集合。

当然，还可采用其他方式获取多媒体文件集合，此处不再一一说明。

4022、从第一多媒体文件中提取第一多媒体特征，并从多媒体文件集合包括的每个第三多媒体文件中提取第二多媒体特征。

针对第一多媒体文件的类型，在提取第一多媒体文件的第一多媒体特征时采取的方法是不同的，如果第一多媒体文件为音频文件，该第一多媒体特征为音频特征，则将该第一多媒体文件输入到音频处理模块中，并将该音频处理模块最后一层的隐形数值(hiddenvalue)作为第一多媒体特征；如果第一多媒体文件为图像文件，该第一多媒体特征为图像特征，则将该第一多媒体文件输入到图像处理模块中，并将该图像处理模块最后一层的隐形数值作为第一多媒体特征。

针对第三多媒体文件的类型，在提取每个第三多媒体文件的第二多媒体特征时采取的方法是不同的，如果第三多媒体文件为音频文件，该第二多媒体特征为音频特征，则将该第三多媒体文件输入到音频处理模块中，并将该音频处理模块最后一层的隐形数值(hidden value)作为第二多媒体特征；如果第三多媒体文件为图像文件，该第二多媒体特征为图像特征，则将该第三多媒体文件输入到图像处理模块中，并将该图像处理模块最后一层的隐形数值作为第二多媒体特征。

4023、将第一多媒体特征与每个第二多媒体特征进行拼接，得到多个第一拼接特征向量。

为便于判断出第三多媒体文件与第一多媒体文件组合后的视频是否表达目标主题，本公开实施例将第一多媒体特征与每个第二多媒体特征进行拼接，得到多个第一拼接特征向量。在进行拼接时，可将第一媒体特征拼接在第二多媒体特征的后面，也可将第二多媒体特征拼接在第一多媒体特征的后面。

4025、将多个第一拼接特征向量输入到主题预测模型中，输出多个第一预测主题。

其中，主题预测模型用于预测视频的主题。当将多个第一拼接特征向量输入到该主题预测模型中，经过该主题预测模型的处理，输出多个第一预测主题。

4026、根据多个第一预测主题和目标主题，从多媒体文件集合包括的多个第三多媒体文件中，获取第二多媒体文件。

本公开实施例通过计算多个第一预测主题与目标主题之间的相似度，进而基于相似度计算结果，将与目标主题的相似度大于预设阈值的第一预测主题对应的第三多媒体文件，确定为第二多媒体文件。其中，预设阈值可以为80％、90％等等。由于相似度是衡量两个主题相似程度的重要方法，本公开实施例提供的方法通过进行相似度计算，能够准确地获取到与第一多媒体文件组合后能够表达目标主题的第二多媒体文件，提高了所选取的第二多媒体文件的准确性。

在步骤403中，响应于第一多媒体文件和第二多媒体文件组合在表达目标主题过程中的表现相匹配，将第一多媒体文件和第二多媒体文件合成目标视频。

考虑到两个多媒体文件组合虽然能够表达同一主题，但是在表达这个主题时，合成的视频文件播放时用户可能会觉得比较违和、不自然，例如，在表达婚姻这一主题上，婚礼现场喜庆的图片和离婚痛苦的音乐是违和的，而这样的视频显然不是用户希望合成的视频。为了进一步确保合成的视频能够符合用户的需求，本公开实施例还将判断第一多媒体文件和第二多媒体文件在表达目标主题过程中的表现是否匹配，如果匹配，则将第一多媒体文件和第二多媒体文件合成目标视频。

本公开实施例在判断第一多媒体文件和第二多媒体文件在表达目标主题过程中的表现是否匹配，可采用如下方法：

4031、将第一多媒体特征、第二多媒体文件对应的第三多媒体特征、目标主题及第二预测主题进行拼接，得到第二拼接特征向量。

本公开实施例获取第二多媒体文件对应的第三多媒体文件特征，并获取采用主题预测模型对第一多媒体文件和第二多媒体文件组合后的视频进行主题预测得到的第二预测主题，并将第一多媒体特征、第三多媒体特征、目标主题及第二预测主题进行拼接，得到第二拼接特征向量。在进行拼接时，可按照一定的顺序进行拼接，也可以随机进行拼接。

4032、将第二拼接特征向量输入到匹配决策模型中，输出第一多媒体文件和第二多媒体文件的匹配结果。

其中，匹配决策模型用于判断两个多媒体文件组合后的视频在表达某一主题过程中的表现是否匹配。当将多个第二拼接特征向量输入到匹配决策模型中，经过该匹配解决模型的处理，输出多个匹配结果。多个匹配结果包括匹配和不匹配两种。

本公开实施例提供的方法采用匹配决策模型进行匹配判断，过滤掉违和、不自然的视频，生成的视频更能符合用户要求，用户满意度较高。另外，本公开实施例可以自动而快速地评价视频中的音频文件和图像文件是否匹配，降低了评价视频内容的成本。

基于上述步骤确定出的匹配结果，获取与第一多媒体文件组合在表达目标主题过程中的表现相匹配的第二多媒体文件，进而将该第一多媒体文件和第二多媒体文件进行合并。在合成目标视频时，可将第一多媒体文件和第二多媒体文件的时间戳对齐，并将时间戳对齐后的第一多媒体文件和第二多媒体文件合成目标视频。

本公开实施例中主题预测模型用来衡量音频文件与图像文件是如何表现一个主题的；匹配决策模型主要用来衡量在表现一个给定主题的前提下，该组音频文件与图像文件合成的视频在表达该给定主题过程中的表现是否匹配。由于引入了衡量是否能很好地表现主题这样的信息，因而本公开实施例能够应用在用户生产的无限制视频上。例如，用户想要表现的主题为“搞笑”，在这个主题下，即便是有违常理的音频文件与图像文件的组合，也可以被判别为匹配。

需要说明的是，上述步骤401、步骤402及步骤403中任一步骤均可由具有较强计算能力的终端执行，也可以由单个或多个服务器构成的服务器集群执行。

对于上述视频合成方法的详情流程，下面将以图5为例进行说明。

参见图5，将音频流信息号输入到音频处理模块，提取音频特征，并图像流信号输入到图像处理模块，提取图像特征，然后，将提取的音频特征和图像特征拼接后输入到主题预测模块，输出预测主题。接着，将音频特征、图像特征、预测主题及标注主题拼接后输入到匹配决策模块，输出匹配结果。

本公开实施例提供的方法，基于目标主题，获取第二多媒体文件，进而将第二多媒体文件与第一多媒体文件合成目标视频。由于该目标主题并没有特定的应用场景，用户可根据实际的需求进行设置，且所合成的目标视频不仅能够表达目标主题，而且在表达目标主题时自然、不违和，因而在确保合成符合主题需要的视频的前提下，扩大了视频合成方法的应用范围。另外，本公开实施例提供的方法无需用户手动操作，快速而大量的生成视频，降低了视频生产成本。

图6是根据一示例性实施例示出的一种训练主题预测模型的方法的流程图，如图6所示，训练主题预测模型的方法用于电子设备中，该电子设备可以为具有较强计算能力的终端或服务器，包括以下步骤。

601、获取训练样本集合。

其中，训练样本集合包括多个训练样本视频，每个训练样本视频具有标注主题。该训练样本视频可以为视频分享应用中用户生产的视频，也可以为从互联网上获取到的视频，该视频包括广告视频，也包括非广告视频，(例如，用户上传的个人视频)。采用用户生成的视频训练主题预测模型，确保所获取的训练样本视频没有应用场景限制，提高了模型的应用范围。同时，本公开实施例也会采用这些视频中的背景信息作为主题，例如，广告的行业信息、广告的一级或者二级类目、广告商(广告视频的发布者)的注册信息等等。

602、提取训练样本集合中每个训练样本视频中图像文件的图像特征及音频文件的音频特征。

对于训练样本集合中每个训练样本视频，将训练样本中进行音频和图像分离，得到音频文件和图像文件，然后，提取音频文件的音频特征及图像文件的图像特征。

603、将每个训练样本视频的图像特征及音频特征进行拼接，得到多个第三拼接特征向量。

基于上述步骤602中得到的音频特征和图像特征，将来源于同一训练样本视频的图像特征和音频特征进行拼接，得到多个第三拼接特征向量。

604、将多个第三拼接特征向量输入到初始主题预测模型中，输出多个第三预测主题。

其中，初始主题预测模型为待训练的模型。本公开实施例预先为初始主题预测模型设置初始模型参数，后续步骤对初始模型参数进行调整，最终得到主题预测模型。

605、将每个第三预测主题和对应的标注主题输入到预先构建的第一损失函数中，输出多个第一损失函数值。

606、根据多个第一损失函数值，对初始主题预测模型的模型参数进行调整，得到主题预测模型。

如果第一目标损失函数值不满足第一阈值条件，对初始主题预测模型的模型参数进行调整，并继续计算第一目标损失函数值，直至得到的函数值满足第一阈值条件。其中，第一阈值条件可根据处理精度进行设置。获取满足第一阈值条件时各个参数的参数值，并将满足第一阈值条件时各个参数的参数值所对应的初始主题预测模型，作为训练得到的主题预测模型。

本公开实施例提供的方法，基于标注主题的训练样本视频，对初始主题预测模型进行训练，使得训练后的主题预测模型能够预测视频的主题，从而在合成视频时准确判断出两个多媒体文件组合是否能够表达某一主题，提高所合成视频的准确性。

基于图6所训练的主题预测模型，图7是根据一示例性实施例示出的一种训练匹配决策模型的方法的流程图，如图7所示，训练匹配决策模型的方法用于电子设备中，该电子设备可以为具有较强计算能力的终端或服务器，包括以下步骤。

701、将每个训练样本视频的音频特征、图像特征、标注主题及第三预测主题进行拼接，得到多个第四拼接特征向量。

本公开实施例基于图6所训练的主题预测模型对匹配决策模型进行训练，在进行训练时可采用图6获取到的训练样本集合，该训练样本集合中每个训练样本视频具有标注匹配结果。该标注匹配结果可根据是否来源于同一视频进行确定，如果训练样本视频中的音频文件和图像文件来源于同一个视频，则该训练样本视频的标注匹配结果为“匹配”，如果来源于不同视频，则该训练样本视频的标注匹配结果为“不匹配”。

702、将多个第四拼接特征向量输入到初始匹配决策模型中，输出多个预测匹配结果。

其中，初始匹配决策模型为待训练的模型。本公开实施例预先为初始匹配决策模型设置初始模型参数，后续步骤对初始模型参数进行调整，最终得到匹配决策模型。

703、将每个预测匹配结果和对应的标注匹配结果输入到预先构建的第二损失函数中，输出多个第二损失函数值。

704、根据多个第二损失函数值，对初始匹配决策模型的模型参数进行调整，得到匹配决策模型。

如果第二目标损失函数值不满足第二阈值条件，对初始匹配决策模型的模型参数进行调整，并继续计算第二目标损失函数值，直至得到的函数值满足第二阈值条件。其中，第二阈值条件可根据处理精度进行设置。获取满足第二阈值条件时各个参数的参数值，并将满足第二阈值条件时各个参数的参数值所对应的初始匹配决策模型，作为训练得到的匹配决策模型。

需要说明的是，由于深度神经网络可以根据数据自行挖掘其中的规律，因此给定合适的训练数据，即可使该系统自行学习而无需人工手动设置匹配规则。匹配决策模型采用主题预测模型的输出作为输入来进行训练，因此，主题预测模型和匹配决策模型可以按照先后顺序分别训练。

本公开实施例提供的方法，基于标注主题和匹配结果的训练样本视频，对初始匹配决策模型进行训练，训练后的匹配决策模型能够预测两个多媒体文件在表达某一主题过程中的表现相匹配，提高了所合成视频的准确性。

图8是根据一示例性实施例示出的一种视频合成装置框图。参照图8，该装置包括：第一获取模块801、第二获取模块802及合成模块803。

第一获取模块801，用于获取用于合成目标视频的第一多媒体文件及目标视频对应的目标主题；

第二获取模块802，用于基于目标主题，获取与第一多媒体文件组合能够表达目标主题的第二多媒体文件，第一多媒体文件和第二多媒体文件为以音频和图像方式合成目标视频的不同类型的文件；

合成模块803，用于响应于第一多媒体文件和第二多媒体文件在表达目标主题过程中的表现相匹配，将第一多媒体文件和第二多媒体文件合成目标视频。

在另一种可能的实现方式中，第二获取模块802，用于获取多媒体文件集合，多媒体文件集合包括与第二多媒体文件类型相同的多个第三多媒体文件；从第一多媒体文件中提取第一多媒体特征，并从多媒体文件集合包括的每个第三多媒体文件中提取第二多媒体特征；将第一多媒体特征与每个第二多媒体特征进行拼接，得到多个第一拼接特征向量；将多个第一拼接特征向量输入到主题预测模型中，输出多个第一预测主题；根据多个第一预测主题和目标主题，从多媒体文件集合包括的多个第三多媒体文件中，获取第二多媒体文件。

在另一种可能的实现方式中，第二获取模块802，用于计算多个第一预测主题与目标主题之间的相似度；将与目标主题的相似度大于预设阈值的第一预测主题对应的第三多媒体文件，确定为第二多媒体文件。

在另一种可能的实现方式中，该装置还包括：

第一拼接模块，用于将第一多媒体特征、第二多媒体文件对应的第三多媒体特征、目标主题及第二预测主题进行拼接，得到第二拼接特征向量，第二预测主题为采用主题预测模型对第一多媒体文件和第二多媒体文件组合后的文件进行预测得到；

第一输入输出模块，用于将第二拼接特征向量输入到匹配决策模型中，输出第一多媒体文件和第二多媒体文件的匹配结果。

在另一种可能的实现方式中，用于训练主题预测模型的装置包括：

第三获取模块，用于获取训练样本集合，训练样本集合包括多个训练样本视频，每个训练样本视频具有标注主题；

第一提取模块，用于提取训练样本集合中每个训练样本视频中图像文件的图像特征及音频文件的音频特征；

第二拼接模块，用于将每个训练样本视频的图像特征及音频特征进行拼接，得到多个第三拼接特征向量；

第二输入输出模块，用于将多个第三拼接特征向量输入到初始主题预测模型中，输出多个第三预测主题；

第三输入输出模块，用于将每个第三预测主题和对应的标注主题输入到预先构建的第一损失函数中，输出多个第一损失函数值；

第一调整模块，用于根据多个第一损失函数值，对初始主题预测模型的模型参数进行调整，得到主题预测模型。

在另一种可能的实现方式中，训练样本视频具有标注匹配结果，用于训练匹配决策模型的装置包括：

第三拼接模块，用于将每个训练样本视频的音频特征、图像特征、标注主题及第三预测主题进行拼接，得到多个第四拼接特征向量；

第四输入输出模块，用于将多个第四拼接特征向量输入到初始匹配决策模型中，输出多个预测匹配结果；

第五输入输出模块，用于将每个预测匹配结果和对应的标注匹配结果输入到预先构建的第二损失函数中，输出多个第二损失函数值；

第二调整模块，用于根据多个第二损失函数值，对初始匹配决策模型的模型参数进行调整，得到匹配决策模型。

本公开实施例提供的装置，基于目标主题，获取第二多媒体文件，进而将第二多媒体文件与第一多媒体文件合成目标视频。由于该目标主题并没有特定的应用场景，用户可根据实际的需求进行设置，且所合成的目标视频不仅能够表达目标主题，而且在表达目标主题时自然、不违和，因而在确保合成符合主题需要的视频的前提下，扩大了视频合成方法的应用范围。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图9示出了本公开一个示例性实施例提供的一种电子设备900的结构框图。通常，设备900包括有：处理器901和存储器902。

处理器901可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器901可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器901可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器901还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器902可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器902中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器901所执行以实现本公开中方法实施例提供的视频合成方法。

在一些实施例中，电子设备900还可选包括有：外围设备接口903和至少一个外围设备。处理器901、存储器902和外围设备接口903之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口903相连。具体地，外围设备包括：电源909。

外围设备接口903可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器901和存储器902。在一些实施例中，处理器901、存储器902和外围设备接口903被集成在同一芯片或电路板上；在一些其他实施例中，处理器901、存储器902和外围设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

电源904用于为电子设备900中的各个组件进行供电。电源904可以是交流电、直流电、一次性电池或可充电电池。当电源904包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

本领域技术人员可以理解，图9中示出的结构并不构成对电子设备900的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器，上述指令可由电子设备900的处理器执行以完成上述图像处理方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本公开实施例提供了一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行图4所示的视频合成方法。

本公开实施例提供一种计算机程序产品，所述计算机程序产品中的指令由电子设备的处理器执行时，使得电子设备能够执行图3所示的视频合成方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频合成方法，其特征在于，所述方法包括：

响应于所述第一多媒体文件和所述第二多媒体文件在表达所述目标主题过程中的表现相匹配，将所述第一多媒体文件和所述第二多媒体文件合成所述目标视频。

2.根据权利要求1所述的视频合成方法，其特征在于，所述基于所述目标主题，获取与所述第一多媒体文件组合能够表达所述目标主题的第二多媒体文件，包括：

3.根据权利要求2所述的视频合成方法，其特征在于，所述根据所述多个第一预测主题和所述目标主题，从所述多媒体文件集合包括的多个第三多媒体文件中，获取所述第二多媒体文件，包括：

计算所述多个第一预测主题与所述目标主题之间的相似度；

4.根据权利要求2所述的视频合成方法，其特征在于，所述响应于所述第一多媒体文件和所述第二多媒体文件在表达所述目标主题过程中的表现相匹配，将所述第一多媒体文件和所述第二多媒体文件合成所述目标视频之前，还包括：

5.根据权利要求4所述的视频合成方法，其特征在于，所述主题预测模型的训练过程为：

6.根据权利要求2至3中任一项所述的视频合成方法，其特征在于，所述主题预测模型的训练过程为：

7.根据权利要求5所述的视频合成方法，其特征在于，所述训练样本视频具有标注匹配结果，所述匹配决策模型的训练过程为：

8.一种视频合成装置，其特征在于，所述装置包括：

9.根据权利要求8所述的视频合成装置，其特征在于，所述第二获取模块，用于获取多媒体文件集合，所述多媒体文件集合包括与所述第二多媒体文件类型相同的多个第三多媒体文件；从所述第一多媒体文件中提取第一多媒体特征，并从所述多媒体文件集合包括的每个所述第三多媒体文件中提取第二多媒体特征；将所述第一多媒体特征与每个所述第二多媒体特征进行拼接，得到多个第一拼接特征向量；将所述多个第一拼接特征向量输入到主题预测模型中，输出多个第一预测主题；根据所述多个第一预测主题和所述目标主题，从所述多媒体文件集合包括的多个第三多媒体文件中，获取所述第二多媒体文件。

10.根据权利要求9所述的视频合成装置，其特征在于，所述第二获取模块，用于计算所述多个第一预测主题与所述目标主题之间的相似度；将与所述目标主题的相似度大于预设阈值的第一预测主题对应的第三多媒体文件，确定为所述第二多媒体文件。

11.根据权利要求9所述的视频合成装置，其特征在于，所述装置还包括：

12.根据权利要求11所述的视频合成装置，其特征在于，用于训练所述主题预测模型的装置包括：

13.根据权利要求9至10中任一项所述的视频合成装置，其特征在于，用于训练所述主题预测模型的装置包括：

14.根据权利要求12所述的视频合成装置，其特征在于，所述训练样本视频具有标注匹配结果，用于训练所述匹配决策模型的装置包括：

15.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器;

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至7中任一项所述的视频合成方法。

16.一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至7中任一项所述的视频合成方法。