CN112040273A

CN112040273A - 视频合成方法及装置

Info

Publication number: CN112040273A
Application number: CN202010952419.2A
Authority: CN
Inventors: 崔宪坤; 刘才良
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-09-11
Filing date: 2020-09-11
Publication date: 2020-12-04
Anticipated expiration: 2040-09-11
Also published as: CN112040273B

Abstract

本申请提供了一种视频合成方法、装置、电子设备及计算机可读存储介质；方法包括：获取用于合成目标视频的图像素材；从至少两个特征维度，对图像素材进行特征提取，得到图像素材的图像特征；分别获取至少两个音频素材的音频特征；分别将各音频素材的音频特征与图像素材的图像特征进行匹配，得到各音频素材与图像素材的匹配度；基于各音频素材与图像素材的匹配度，从至少两个音频素材中筛选得到与图像素材相匹配的目标音频素材；基于图像素材和目标音频素材进行视频合成，得到目标视频。通过本申请，能够快速合成得到视频画面与视频配乐适配度较高的视频。

Description

视频合成方法及装置

技术领域

本申请涉及视频处理技术，尤其涉及一种视频合成方法及装置。

背景技术

随着互联网短视频在全球范围内的风靡，视频处理技术也在迅猛发展，其中，视频合成是视频处理领域的一项重要基础技术。在实际应用场景中，用户出于多样化的需求，往往希望能够自定义选择素材来合成视频。

相关技术中，在合成视频时，用户为了准确获得与视频画面相匹配的配乐，需要手动进行搜索，而手动搜索的方式十分不便且耗费时间。为了快速且便捷地为用户提供想要的配乐，相关技术中会自动推荐一些配乐供用户选择，以节省搜索时间，然而推荐的配乐一般是随机推荐的，或者基于当下的流行程度推荐的，难以匹配到与当前的视频画面匹配性较好的配乐，从而使得难以快速合成画面和配乐适配度较高的视频。

发明内容

本申请实施例提供一种视频合成方法、装置、电子设备及计算机可读存储介质，能够快速合成视频画面与配乐适配度较高的视频。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种视频合成方法，包括：

获取用于合成目标视频的图像素材；

从至少两个特征维度，对所述图像素材进行特征提取，得到所述图像素材的图像特征；分别获取至少两个音频素材的音频特征；

分别将各所述音频素材的音频特征与所述图像素材的图像特征进行匹配，得到各所述音频素材与所述图像素材的匹配度；

基于各所述音频素材与所述图像素材的匹配度，从所述至少两个音频素材中筛选得到与所述图像素材相匹配的目标音频素材；

基于所述图像素材和所述目标音频素材进行视频合成，得到所述目标视频。

本申请实施例提供一种视频合成装置，包括：

获取模块，用于获取用于合成目标视频的图像素材；

图像特征提取模块，用于从至少两个特征维度，对所述图像素材进行特征提取，得到所述图像素材的图像特征；

音频特征获取模块，用于分别获取至少两个音频素材的音频特征；

匹配模块，用于分别将各所述音频素材的音频特征与所述图像素材的图像特征进行匹配，得到各所述音频素材与所述图像素材的匹配度；

筛选模块，用于基于各所述音频素材与所述图像素材的匹配度，从所述至少两个音频素材中筛选得到与所述图像素材相匹配的目标音频素材；

合成模块，用于基于所述图像素材和所述目标音频素材进行视频合成，得到所述目标视频。

上述方案中，所述获取模块，还用于获取用于合成目标视频的视频素材，从所述视频素材中抽取至少一帧视频帧，将所述至少一帧视频帧作为图像素材；或者，响应于图像素材上传操作，获取到上传的至少一个图像，将所述至少一个图像作为用于合成目标视频的图像素材。

上述方案中，所述图像特征提取模块，还用于从至少两个特征维度，对所述图像素材进行特征提取，得到所述图像素材的至少两个维度特征；基于各所述维度特征的权值，对所述至少两个维度特征进行加权求和，得到所述图像素材的图像特征。

上述方案中，所述筛选模块，还用于基于各所述音频素材与所述图像素材的匹配度，确定各所述音频素材的推荐顺序；基于所述推荐顺序，对所述至少两个音频素材进行推荐；响应于对所述至少两个音频素材的选择操作，获取选择的目标音频素材。

上述方案中，所述视频合成装置还包括：特征拼接模块，用于获取目标用户的用户画像特征；将所述图像特征和所述用户画像特征进行特征拼接，得到所述图像素材的综合特征；所述匹配模块，还用于分别将各所述音频素材的音频特征与所述图像素材的综合特征进行匹配，得到各所述音频素材与所述图像素材的匹配度。

上述方案中，所述图像特征提取模块，还用于将所述图像素材输入至图像特征提取模型；通过所述图像特征提取模型，从所述至少两个特征维度，对所述图像素材进行特征提取，得到所述图像素材的图像特征；所述音频特征获取模块，还用于利用音频特征提取模型，分别对输入的所述至少两个音频素材进行特征提取，得到所述至少两个音频素材的音频特征。

上述方案中，所述图像特征提取模型包括至少两个子特征提取模型，所述子特征提取模型与特征维度呈一一对应关系；所述图像特征提取模块，还用于通过各所述子特征提取模型，分别对所述图像素材进行特征提取，得到所述图像素材的至少两个维度特征；基于各所述维度特征的权值，对所述至少两个维度特征进行加权求和，得到所述图像素材的图像特征。

上述方案中，所述视频合成装置还包括：模型训练模块，用于通过图像特征提取模型，从至少两个特征维度，对输入的样本图像素材集中的各个样本图像素材进行特征提取，得到所述样本图像素材集对应的样本图像特征集；通过音频特征提取模型，对输入的与所述样本图像素材集相匹配的样本音频素材集中的各个样本音频素材进行特征提取，得到所述样本音频素材集对应的样本音频特征集；确定所述样本图像特征集与所述样本音频特征集之间的差异值；基于所述差异值更新所述图像特征提取模型的模型参数以及所述音频特征提取模型的模型参数。

上述方案中，所述模型训练模块，还用于分别基于所述样本图像特征集和所述样本音频特征集，确定所述样本图像特征集的中心图像特征和所述样本音频特征集的中心音频特征；基于所述中心图像特征，对所述样本图像特征集中的各样本图像特征进行映射处理，得到所述样本图像特征集的映射图像特征集；基于所述中心音频特征，对所述样本音频特征集中的各样本音频特征进行映射处理，得到所述样本音频特征集的映射音频特征集；基于所述映射图像特征集和所述映射音频特征集，确定所述样本图像特征集与所述样本音频特征集之间的差异值。

本申请实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的视频合成方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的视频合成方法。

本申请实施例具有以下有益效果：

本申请实施例通过在获得用于合成目标视频的图像素材后，从至少两个维度提取图像素材的图像特征，并基于至少两个音频素材的音频素材，将各音频素材的音频特征与图像素材的图像特征进行匹配，基于匹配得到的各匹配度得到与图像素材相匹配的目标音频素材，然后对图像素材和目标音频素材进行视频合成得到目标视频，如此，通过对图像素材和音频素材的特征匹配，使得得到的目标音频素材与当前的图像素材拥有较高的匹配度，从而能够快速合成得到视频画面与视频配乐适配度较高的视频。

附图说明

图1是本申请实施例提供的视频合成系统的一个可选的结构示意图；

图2是本申请实施例提供的电子设备的一个可选的结构示意图；

图3是本申请实施例提供的视频合成方法的一个可选的流程示意图；

图4A是本申请实施例提供的视频合成界面的一个可选的示意图；

图4B是本申请实施例提供的呈现有推荐音频的视频合成界面的一个可选的示意图；

图5是本申请实施例提供的视频合成方法的一个可选的流程示意图；

图6是本申请实施例提供的用于提取图像特征的模型架构的一个可选的示意图；

图7是本申请实施例提供的用于提取图像特征的模型架构的一个可选的示意图；

图8是本申请实施例提供的视频合成方法的一个可选的流程示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)视频帧：视频是由静止的视频图像组成的，这些静止的视频图像被称为帧。

2)倒双塔模型：将一种信息划分为两种或两种以上维度信息的模型。

本申请实施例提供的倒双塔模型包括至少两个用于对图像素材进行特征提取的子特征提取模型，其中，子特征提取模型与特征维度呈一一对应关系，通过将图像素材输入至本申请实施例的倒双塔模型，可以输出得到图像素材至少两个维度的维度特征。

3)用户画像，包括用户兴趣画像及用户基础画像，基于用户画像进行特征提取可得到用户画像特征；其中，

用户兴趣画像，指真实用户的虚拟代表，是建立在一系列属性数据之上的目标用户模型，用于指示用户的兴趣分类；

用户基础画像，根据用户的真实姓名，性别、年龄，收入情况，常驻登录地等用户基础信息抽象出的标签化的用户的信息全貌。

随着互联网短视频的迅猛发展，对于视频的处理技术要求也越来越高。用户在使用视频应用时，常常希望自定义选择视频画面和视频配乐来合成自己需求的视频。相关技术中，在基于用户的自定义选择进行视频合成时，用户选择或上传图片素材后，客户端则会呈现相关的配乐功能项，供用户选择配乐，其中，配乐功能项一般是供用户进行搜索或者上传需要的配乐，该过程十分繁琐且耗时长。而为了快速为图像素材匹配合适的音乐，相关技术中会通过推荐的方式直接在客户端的图形界面中呈现一些配乐，用户仅需点击即可选择，而不用自行搜索或上传，能够较大的简化配乐匹配过程。但是，上述过程中，客户端推荐的配乐往往与图像素材的匹配度不佳，往往难以通过该种方式快速获得用户需求的配乐，仍然无法满足用户高效且便捷地合成匹配度较高的视频的需求。

基于此，本申请实施例提供一种视频合成方法、装置、电子设备和计算机可读存储介质，能够快速合成得到视频画面与视频配乐适配度较高的视频。

首先对本申请实施例提供的视频合成系统进行说明，图1为本申请实施例提供的视频合成系统100的一个可选的示意图，为实现支撑一个视频合成应用，终端400上设置有视频合成客户端，终端400通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。在一些实施例中，终端400可以是笔记本电脑，平板电脑，台式计算机，智能手机，专用消息设备，便携式游戏设备，智能音箱，智能手表等，但并不局限于此。服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。网络300可以是广域网或者局域网，又或者是二者的组合。终端400以及服务器200可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

终端400，用于通过视频合成客户端的图形界面410呈现视频合成界面，并在视频合成界面内呈现图像素材上传功能项；响应于针对图像素材上传功能项的图像素材上传操作，获取上传的用于合成目标视频的图像素材，将图像素材发送至服务器200；

服务器200，用于获取用于合成目标视频的图像素材，从至少两个特征维度，对图像素材进行特征提取，得到图像素材的图像特征；分别获取至少两个音频素材的音频特征；分别将各音频素材的音频特征与图像素材的图像特征进行匹配，得到各音频素材与图像素材的匹配度；基于各音频素材与图像素材的匹配度，确定各音频素材的推荐顺序；将推荐顺序发送至终端400；

终端400，还用于将至少两个音频素材按照推荐顺序呈现在视频合成界面上；响应于针对至少两个音频素材的选择操作，获取选择的目标音频素材并发送给服务器200，使得服务器200基于图像素材和目标音频素材进行视频合成，得到目标视频并返回至终端400。

接下来对本申请实施例提供的用于实施上述视频合成方法的电子设备进行说明，参见图2，图2是本申请实施例提供的电子设备500的结构示意图，在实际应用中，电子设备500可以实施为图1中的终端400或服务器200，以电子设备为图1所示的服务器200为例，对实施本申请实施例的视频合成方法的电子设备进行说明。图2所示的电子设备500包括：至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。电子设备500中的各个组件通过总线系统540耦合在一起。可理解，总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统540。

处理器510可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器550可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。

存储器550包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Me mory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memor y)。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。

在一些实施例中，存储器550能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统551，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块552，用于经由一个或多个(有线或无线)网络接口520到达其他计算设备，示例性的网络接口520包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块553，用于经由一个或多个与用户接口530相关联的输出装置531(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块554，用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的视频合成装置可以采用软件方式实现，图2示出了存储在存储器550中的视频合成装置555，其可以是程序和插件等形式的软件，包括以下软件模块：获取模块5551、图像特征提取模块5552、音频特征获取模块5553、匹配模块5554、筛选模块5555和合成模块5556，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的视频合成装置可以采用硬件方式实现，作为示例，本申请实施例提供的视频合成装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的视频合成方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD，Progra mmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmabl e Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

基于上述对本申请实施例的视频合成系统及电子设备的说明，接下来对本申请实施例提供的视频合成方法进行说明。在一些实施例中，本申请实施例提供的视频合成方法可以由终端单独实施，或由服务器单独实施，或由服务器及终端协同实施。

下面以终端实施为例，结合本申请实施例提供的终端的示例性应用和实施，说明本申请实施例提供的视频合成方法。

参见图3，图3是本申请实施例提供的视频合成方法的一个可选的流程示意图，将结合图3示出的步骤进行说明。

步骤101，终端获取用于合成目标视频的图像素材；

在实际实施时，终端响应于视频合成指令来触发本申请实施例的方法。其中，视频合成指令可以是终端基于用户通过视频合客户端的图形界面发出的触发操作生成。终端可以基于用户通过图形界面发出的图像素材上传操作，获得用户上传的图像素材。此外，视频合成指令还可以由与终端通信连接的其他设备发出，终端在接收到其他设备发出的视频合成指令后，从视频合成指令内解析得到用于合成目标视频的图像素材。

在一些实施例中，图3示出的步骤101可以通过如下方式实现，将结合各步骤进行说明。

终端获取用于合成目标视频的视频素材，从视频素材中抽取至少一帧视频帧，将至少一帧视频帧作为图像素材；

或者，终端响应于图像素材上传操作，获取到上传的至少一个图像，将至少一个图像作为用于合成目标视频的图像素材。

需要说明的是，视频素材也可以是终端基于用户发出的图像素材上传操作获得。其中，用户上传的视频素材或者上传的图像可以存储于终端本地，还可以存储于与终端通信连接的其他设备中。具体地，用户打开设置在终端中的视频合成客户端，终端呈现视频合成客户端的图形界面，在图形界面内呈现图像素材上传功能项，用户基于该图像素材上传功能项发出图像素材上传操作，视频合成客户端在接收到该图像素材上传操作后呈现图像素材的选择界面，该选择界面内呈现有视频素材或图像或者二者的组合，用户基于该选择界面，选择需要上传的至少一个视频素材或者至少一个图像，终端则基于用户的选择操作，获得视频素材或者图像。其中，视频合成客户端的图形界面可以通过悬浮窗口的方式呈现，还可以以其他方式呈现，本实施例不作具体限定。

举例来说，参照图4A，图4A是本申请实施例提供的视频合成界面的一个可选的示意图。在图4A示出的视频合成界面内，呈现有“拍摄”、“本地上传”和“智能模板”等三个图像素材上传功能项，用户可以基于其中任何一个发出触发操作进行相应的图像素材上传。例如，若用户触发“拍摄”，终端打开摄像头进行拍摄，拍摄得到视频素材或者图像。若用户触发“本地上传”，终端则在视频合成界面内呈现本地相册供用户选择，将用户选择的视频素材或者图像进行上传。若用户触发“智能模板，”终端则呈现智能模板选择界面，基于用户选择的模板打开本地相册供用户选择，将用户选择的视频素材或者图像进行上传，并将上传的视频素材或者图像与选择的模板进行合成，然后基于合成后的视频素材或者图像开始本申请实施例的步骤。其中，模板可以是对视频素材或者图像进行特效处理或滤镜处理的处理模板。

此外，在一些实施例中，视频素材或图像素材也可以是由其他设备发送至终端的。

在实际实施时，终端在获取视频素材后，对视频素材进行视频帧的抽取，以根据抽取的视频帧来进行相应的图像特征的提取。具体地，终端按照预设时间间隔，从视频素材内抽取至少一帧视频帧。例如，若视频素材的总时长为5s，预设时间间隔设置为1s，则终端从视频素材内抽取0s、1s、2s、3s、4s和5s处的六帧视频帧，将抽取的该六帧视频帧作为图像素材。

上述的图像素材获取方式中，通过获取得到的视频素材中提取视频帧作为图像素材可以有效的对视频素材进行特征的提取，从而对视频素材进行对应的音频匹配从而合成目标视频。而通过响应于图像素材上传操作，获取上传的图像作为图像素材，能够灵活的提供更多图像素材的获取方式，可以适应用户多方面的视频合成需求。

步骤102，从至少两个特征维度，对图像素材进行特征提取，得到图像素材的图像特征；

需要说明的是，特征维度为反映图像素材特性的一个或一类属性，本实施例的至少两个特征维度包括但不限于场景、实体、情感和动作等。其中，场景为图像素材内的背景环境，例如可以是草原、室内、天空等。在一些实施例中，场景还可以包括多个场景维度，例如天气、时间、季节和环境背景等。实体为图像素材内出现的独立存在的个体，例如可以是人、猫或狗等动物，也可以是石头、杯子、手机或吉他等物体。情感表征图像素材所具有的感情色彩，它一般是人为定义的，例如若图像素材内的人表现出悲伤表情，则将该图像素材的情感定义为悲伤，或是若图像素材的场景为阴雨天，也将该图像素材的情感定义为悲伤。动作为图像素材内的场景或实体等的动态行为，它由至少一张图像组成的图像素材共同构成，终端可以通过识别至少一张图像或者至少一帧视频帧之间实体或场景的内在联系来识别得到动作特征维度。

在实际实施时，终端通过对图像素材从至少两个特征维度进行图像识别，从而提取出图像素材的图像特征，该图像特征则包含有图像素材的至少两个特征维度的特征。终端识别得到的图像特征可以是至少两个特征维度的特征标签，例如若至少两个特征维度为场景、实体、情感和动作，则终端识别图像素材得到的特征标签可以是“晴天傍晚的街道”、“女孩”、“开心”和“走路”。进一步地，终端还将识别得到的特征标签进行编码，得到编码后的图像特征。其中，可以将特征标签编码为向量，以向量形式表示图像特征。

在一些实施例中，图3示出的步骤102可以通过如下方式实现，将结合各步骤进行说明。

终端从至少两个特征维度，对图像素材进行特征提取，得到图像素材的至少两个维度特征；基于各维度特征的权值，对至少两个维度特征进行加权求和，得到图像素材的图像特征。

在实际实施时，各维度特征的权值可以预先设置并存储于终端的客户端内，终端在提取图像素材的至少两个维度的维度特征后，基于各维度特征的权值，对各维度特征进行加权求和从而得到图像素材的图像特征。其中，各维度特征的权值可以根据实际需求自定义设置，例如，若需要体现强调图像素材的情感，则将情感的权值设置为相较于其他维度特征更大的权值，从而可以在后续的音频匹配中，匹配到更强调该情感的音频。

上述方式中，通过从至少两个特征维度提取图像素材的至少两个维度特征，并基于各维度特征的权值对各维度特征进行加权求和得到图像特征，能够灵活的对图像素材进行特征维度的调整，从而使其能够满足用户多样化的体验需求。

步骤103，分别获取至少两个音频素材的音频特征；

这里，至少两个音频素材可以存储于终端本地，还可以是存储于与终端通信连接的外部设备中，例如数据库服务器内，或者是分散的存储于终端本地或外部设备中，例如一部分音频素材存储于终端本地，另一部分存储于外部设备内，或者重复存储于终端本地或者外部设备内。终端可以从终端本地中获取存储的所有音频素材，或者从外部设备内获取其存储的所有音频素材。

在实际实施时，音频特征可以预先提取并存储于终端本地或者外部设备内，终端在提取到图像素材的图像特征后，即直接从终端本地或外部设备内分别获取存储的至少两个音频素材的音频特征。音频特征还可以是终端在获取到音频素材后，对音频素材进行特征提取得到。其中，音频素材可以包括至少一个特征标签，音频素材的特征标签例如可以是猫、可爱、摇滚、悲伤、欢快等。终端基于音频素材的特征标签，提取音频特征。具体地，终端基于音频素材的特征标签，对特征标签进行编码，得到音频特征。

在一些实施例中，图3示出的步骤102可以通过如下方式实现：将图像素材输入至图像特征提取模型；通过图像特征提取模型，从至少两个特征维度，对图像素材进行特征提取，得到图像素材的图像特征。相应的，图3示出的步骤103可以通过如下方式实现：利用音频特征提取模型，分别对输入的至少两个音频素材进行特征提取，得到至少两个音频素材的音频特征。

在实际实施时，图像特征提取模型和音频特征提取模型均为训练好的模型，采用的是通用的神经网络模型，例如可以是长短期记忆网络(LSTM，Long Sh ort-TermMemory)。终端将图像素材输入至图像特征提取模型，通过图像特征提取模型对图像素材进行多个特征维度的特征编码，得到图像特征。终端还将至少两个音频素材分别输入至音频特征提取模型，通过音频特征提取模型分别对至少两个音频素材进行特征编码，得到至少两个音频素材各自对应的音频特征。

在上述方式中，分别通过训练好的机器模型来进行图像素材和音频素材的特征提取，能够方便快捷且准确的提取到图像特征和音频特征。

在实际实施时，图像特征提取模型和音频特征提取模型为二者协同训练得到的，二者可以是预先训练好的，在需要对图像素材和音频素材进行特征提取时，终端调用图像特征提取模型和音频特征提取模型来分别对图像素材和音频素材进行特征提取。

在一些实施例中，参照图5，图5是本申请实施例提供的视频合成方法的一个可选的流程示意图，基于图3，在步骤101之前，还可以执行：

步骤201，终端通过图像特征提取模型，从至少两个特征维度，对输入的样本图像素材集中的各个样本图像素材进行特征提取，得到样本图像素材集对应的样本图像特征集；

在实际实施时，终端在执行步骤201之前，首先获取训练样本集。其中，训练样本包括多组样本素材，样本素材包括样本图像素材以及与样本图像素材相匹配的样本音频素材。样本图像素材与样本音频素材的匹配度为100％。训练样本集中的所有样本图像素材构成样本图像素材集，训练样本集中的所有样本音频素材构成样本音频素材集。

示例性地，终端在获取训练样本集后，将其中的样本图像素材集输入至图像特征提取模型中，通过图像素材提取模型，从至少两个特征维度，对样本图像素材集中的各个样本图像素材依次进行特征提取，得到各样本图像素材分别对应的样本图像特征，将所有样本图像素材对应的所有样本图像特征作为样本图像特征集。其中，图像特征提取模型可以是多任务模型。

在一些实施例中，参照图6，图6是本申请实施例提供的用于提取图像特征的模型架构的一个可选的示意图。图像特征提取模型包括至少两个子特征提取模型，子特征提取模型与特征维度呈一一对应关系。需要说明的是，子特征提取模型可以采用通用的卷积神经网络、循环神经网络或者深度神经网络，例如可以是LSTM模型，AlexNet模型等。在实际实施时，终端通过各子特征提取模型，分别对样本图像素材集进行特征提取，得到样本图像素材集的至少两个样本维度特征集，基于各样本维度特征集的权值，对至少两个样本维度特征集进行加权求和，得到样本图像素材集的样本图像特征集。

利用上述的用于提取图像特征的模型架构进行特征提取的方式中，通过对各特征维度设置相应的子特征提取模型，在进行图像特征提取时，能够更快速高效的对图像素材进行多维度的特征提取。

在一些实施例中，参照图7，图7是本申请实施例提供的用于提取图像特征的模型架构的一个可选的示意图。图像特征提取模型还可以包括一个主特征提取模型和至少两个子特征提取模型，子特征提取模型与特征维度呈一一对应关系。其中，主特征提取模型用于对样本图像素材集进行初步的特征提取，得到样本图像素材集的样本主特征集，然后终端将样本主特征集输入至各子特征提取模型中，通过各子特征提取模型对样本主特征集进行相应的特征维度的特征提取，得到各特征维度的样本维度特征集。在实际实施时，终端在得到各特征维度的样本维度特征集后，则基于各特征维度所对应的权值，对样本维度特征集进行加权求和，得到样本图像特征集。

利用上述的提取图像特征的模型架构进行特征提取的方式中，终端首先利用一个主特征提取模型来对样本图像素材集进行初步的特征提取，以筛选出样本图像素材集中的有用信息，然后利用各子特征提取模型对筛选得到的样本主特征集进行各特征维度的特征提取，使得各子特征提取模型的特征分析提取对象更为简单，从而提高了特征提取的效率。

步骤202，通过音频特征提取模型，对输入的与样本图像素材集相匹配的样本音频素材集中的各个样本音频素材进行特征提取，得到样本音频素材集对应的样本音频特征集；

在实际实施时，音频提取模型也可以采用通用的卷积神经网络、循环神经网络或者深度神经网络，例如可以是LSTM模型，AlexNet模型等。终端将样本图像素材集输入至音频特征提取模型，通过音频特征提取模型对样本音频素材集中的各样本音频素材的特征标签进行编码，得到各样本音频素材的样本音频特征，获得由各样本音频素材的样本音频特征组成的样本音频特征集。

步骤203，确定样本图像特征集与样本音频特征集之间的差异值；

需要说明的是，样本图像素材集合样本音频特征集中一一对应的样本图像素材和样本音频素材具有相匹配的特征标签，例如样本图像素材内含有实体猫这一特征标签，则对应样本音频素材中则包含有与实体猫相匹配的特征标签，该特征标签可以是人为标注的，例如可以是实体猫，也可以是“可爱”这一特征标签等。可以理解，通过模型提取得到的样本图像特征集和样本音频特征集则应当越接近，则表示模型的准确度越高。在实际实施时，终端通过计算样本图像特征集与样本音频特征集之间的距离来确定二者的差异值。

在一些实施例中，图5示出的步骤203可以通过如下方式实现，将结合各步骤进行说明。

终端分别基于样本图像特征集和样本音频特征集，确定样本图像特征集的中心图像特征和样本音频特征集的中心音频特征；

应当理解的是，样本图像特征集包括至少一个样本图像特征，样本图像特征集的中心图像特征可以是样本图像特征集中各样本图像特征的平均特征，终端通过计算样本图像特征集的平均值，得到中心图像特征。相应的，终端通过计算样本音频特征集的平均值，得到中心音频特征。

基于中心图像特征，对样本图像特征集中的各样本图像特征进行映射处理，得到样本图像特征集的映射图像特征集；

基于中心音频特征，对样本音频特征集中的各样本音频特征进行映射处理，得到样本音频特征集的映射音频特征集；

在实际实施时，终端对样本图像特征集中的各样本图像特征依次与中心图像特征做映射，得到映射图像特征集，并对样本音频特征集中的各样本音频特征依次与中心音频特征做映射，得到映射音频特征集。

基于映射图像特征集和映射音频特征集，确定样本图像特征集与样本音频特征集之间的差异值。

应当说明的是，终端可以是先得到映射图像特征集合映射音频特征集之后再基于二者确定差异值，还可以是依次得到各映射图像特征和对应的映射音频特征之后，确定该组训练样本素材的差异值，在得到各组训练样本素材对应的样本图像特征和样本音频特征之间的差异值之后，通过对各组训练样本素材对应的差异值求和取平均，得到样本图像素材集和样本音频素材集之间的差异值。

在实际实施时，终端采用公式(1)来确定样本图像素材集和样本音频素材集之间的差异值：

其中，DAMSoftmax(y_j)为样本图像素材集和样本音频素材集之间的差异值，i和j为第正整数，x_1j为第j个样本图像特征，x_2j为第j个样本音频特征，

为第j个样本图像特征对应的映射图像特征，

为第j个样本音频特征对应的映射音频特征，s和m为取值大于零的超参数。

上述的确定样本图像素材集和样本音频素材集之间的差异值的方法中，能够更加准确的表示两个特征集分布间的差异性，从而使得训练样本中相似的样本图像素材可以适配更多不同风格的样本音频素材。

步骤204，基于差异值更新图像特征提取模型的模型参数以及音频特征提取模型的模型参数。

在实际实施时，终端可通过如下方式实现对图像特征提取模型和音频特征提取模型的训练：

当差异值达到阈值时，基于确定差异值的损失函数确定相应的误差信号，其中，损失函数例如可以是如公式(1)所示的DAMsoftmax函数，将误差信号在图像特征提取模型和音频特征提取模型中反向传播，并在传播的过程中更新图像特征提取模型的各个层的模型参数以及音频特征提取模型的各个层的模型参数。

这里对反向传播进行说明，将训练样本输入到神经网络模型的输入层，经过隐藏层，最后达到输出层并输出结果，这是神经网络模型的前向传播过程，由于神经网络模型的输出结果与实际结果有误差，则计算输出结果与实际值之间的误差，并将该误差从输出层向隐藏层反向传播，直至传播到输入层，在反向传播的过程中，根据误差调整模型参数的值；不断迭代上述过程，直至收敛。

以损失函数为例，终端基于损失函数确定误差信号，误差信号从图像特征提取模型或音频特征提取模型的输出层反向传播，逐层反向传播误差信号，在误差信号到达每一层时，结合传导的误差信号来求解梯度(也就是损失函数对该层参数的偏导数)，将该层的参数更新对应的梯度值。

上述的方式中，通过在获取图像素材之前，首先训练图像特征提取模型和音频特征提取模型，使得能够得到训练好的用于更准确且高效的对图像素材和音频素材进行特征提取的模型工具，以供后续对图像素材进行相应的音频素材的匹配。

需要说明的是，在训练得到图像特征提取模型和音频特征提取模型之后，终端则可基于上述两个模型对图像素材和音频素材进行特征提取。在一些实施例中，图像特征提取模型包括至少两个子特征提取模型，在训练过程中，终端同时对至少两个子特征提取模型和音频特征提取模型进行模型参数的更新，以使各模型同时学习训练样本。相应的，图3示出的步骤102可以通过如下方式实现：通过各子特征提取模型，分别对图像素材进行特征提取，得到图像素材的至少两个维度特征；基于各维度特征的权值，对至少两个维度特征进行加权求和，得到图像素材的图像特征。

相应的，在基于上述方式得到图像素材的图像特征，并利用音频特征提取模型提取得到至少两个音频素材的音频特征后，则进一步对图像特征和至少两个音频素材的音频特征进行匹配。

步骤104，分别将各音频素材的音频特征与图像素材的图像特征进行匹配，得到各音频素材与图像素材的匹配度；

在实际实施时，终端可以利用相似度算法分别对各音频素材的音频特征与图像素材的图像特征进行匹配。其中，相似度算法例如可以是余弦相似度，终端通过计算音频特征与图像特征之间夹角的余弦值来确定二者的匹配度，余弦值越接近于1则表明音频特征与图像特征之间的夹角越接近于零，也即音频特征与图像特征的匹配度越高。这里，匹配度即为余弦值，取值范围为[-1,1]。

这里，是基于图像素材的图像特征与各音频素材的音频特征进行匹配，以得到各音频素材与图像素材的匹配度。在一些实施例中，还结合图像特征与目标用户的用户画像特征，来共同与各音频素材的音频特征进行匹配，以下进行说明。

基于图3，在步骤104之前，还可以执行：终端获取目标用户的用户画像特征；将图像特征和用户画像特征进行特征拼接，得到图像素材的综合特征。相应的，图3示出的步骤104可以通过如下方式实现：终端分别将各音频素材的音频特征与图像素材的综合特征进行匹配，得到各音频素材与图像素材的匹配度。

需要说明的是，目标用户为发出视频合成指令的用户，终端可以通过一定的用户标识来识别用户身份。例如，在视频合成应用场景中，用户可以在注册一个用户账号来作为其唯一身份标识，并被视频合成应用分配有相应的权限，用户可以在利用其用户账号登录该视频合成应用后，在视频合成界面内发出用于产生视频合成指令的触发操作，终端响应于该触发操作，生成视频合成指令以开始本申请的方法，并基于该触发操作，获得发出该视频合成指令的目标用户的用户账号，并基于该用户账号，获取与该用户账号绑定的用户画像数据。其中，用户画像数据包括但不限于用户基础画像数据以及用户兴趣画像数据。其中，用户基础画像数据可以是用户在注册用户账号时所填写。用户兴趣画像数据可以是基于用户在使用视频合成应用时的用户行为所得到的。在本实施例中，用户行为包括用户在进行视频合成时，对图像素材所选择的相应的音频素材的行为。用户画像数据可以存储于终端本地，还可以存储于服务器中，还可以存储于与终端或者服务器通信连接的外部设备中，例如与服务器通信连接的数据库服务器内。

在实际实施时，终端获得用户画像数据后，还对用户画像数据进行特征提取，得到用户画像特征。然后，终端将图像特征和用户画像特征进行特征拼接后，将拼接得到的综合特征与各视频素材的视频特征进行匹配，得到各音频素材与图像素材的匹配度。

步骤105，基于各音频素材与图像素材的匹配度，从至少两个音频素材中筛选得到与图像素材相匹配的目标音频素材；

本实施例中，终端可以通过比较各音频素材与图像素材的匹配度，得到匹配度最高的音频素材，并将该音频素材作为目标音频素材。

在一些实施例中，图3示出的标准105可以通过如下方式实现：

终端基于各音频素材与图像素材的匹配度，确定各音频素材的推荐顺序；基于推荐顺序，对至少两个音频素材进行推荐；响应于对至少两个音频素材的选择操作，获取选择的目标音频素材。

在实际实施时，终端基于各音频素材与图像素材的匹配度，对各音频素材进行排序，然后基于该排序确定各音频素材的推荐顺序，将音频素材按照推荐顺序依次呈现在终端的音频推荐界面内。在实际实施时，由于终端的显示区域有限，往往难以将所有音频素材同时呈现在音频推荐界面内，因而可以采用滑动或翻页的方式对音频素材进行呈现。

示例性的，参照图4B，图4B是本申请实施例提供的呈现有推荐音频的视频合成界面的一个可选的示意图。目标用户上传的是一段16s的视频素材，终端通过对视频素材进行视频帧的抽取，得到图像素材并对图像素材进行特征提取得到图像特征后，则可以利用该图像特征对音乐库内的各音频素材的音频特征进行匹配。其中，音乐库内各音频素材的音频特征可以是预先提取得到并存储的，在需要合成目标视频时，终端只需要从相应的存储地址内获取各音频素材的音频特征即可。图4B示出的图像素材内含有一只猫，则对应图像特征的特征标签包括实体猫，通过上述的步骤进行音频素材的匹配后，安装匹配度将音频素材进行推荐，图4B的图形界面内示出了5个推荐度前五的音频素材，目标用户可以通过向左滑动以使音频推荐界面内显示出更多音频素材。至此，目标用户则可基于音频推荐界面内推荐的音频素材触发选择操作，从至少两个音频素材内选择想要的目标音频素材。终端响应于该选择操作，获得目标音频素材。

步骤106，基于图像素材和目标音频素材进行视频合成，得到目标视频。

在实际实施时，终端在获得目标音频素材后，则将图像素材与音频素材进行视频合成得到目标视频。想要说明的是，若目标用户上传的是图像，则终端将上传的图像与目标音频素材进行视频合成。若目标用户上传的视频素材，这里，终端则将用户上传的原始的视频素材与目标音频素材进行视频合成，得到目标视频。

上述的视频合成方式中，在获得用于合成目标视频的图像素材后，从至少两个维度提取图像素材的图像特征，并基于至少两个音频素材的音频素材，将各音频素材的音频特征与图像素材的图像特征进行匹配，基于匹配得到的各匹配度得到与图像素材相匹配的目标音频素材，然后对图像素材和目标音频素材进行视频合成得到目标视频，通过对图像素材和音频素材的特征匹配，使得得到的目标音频素材与当前的图像素材拥有较高的匹配度，从而能够快速合成得到视频画面与视频配乐适配度较高的视频。

接下来继续对本申请实施例提供的视频合成方法进行介绍，图8是本申请实施例提供的视频合成方法的一个可选的流程示意图，参见图8，本申请实施例提供的视频合成方法由客户端、服务器协同实施。

步骤301，客户端呈现视频合成界面，并在视频合成界面内呈现图像素材上传功能项；

步骤302，客户端响应于针对图形素材上传功能项的图像素材上传操作，获取上传的用于合成目标视频的视频素材，从视频素材中抽取至少一帧视频帧，将至少一帧视频帧作为图像素材；

或者，响应于针对图形素材上传功能项的图像素材上传操作，获取上传的至少一个图像，将至少一个图像作为用于合成目标视频的图像素材；

步骤303，客户端发送图形素材至服务器；

步骤304，服务器从至少两个特征维度，对接收的图像素材进行特征提取，得到图像素材的图像特征；

步骤305，服务器分别获取至少两个音频素材的音频特征；

步骤306，服务器分别将各音频素材的音频特征与图像素材的图像特征进行匹配，得到各音频素材与图像素材的匹配度；

步骤307，服务器基于各音频素材与图像素材的匹配度，确定各音频素材的推荐顺序；

步骤308，服务器发送推荐顺序至客户端；

需要说明的是，推荐顺序携带有推荐的音频素材的标识信息。其中，音频素材的标识信息可以包括但不限于音频素材的名称以及音频素材的图标等。其中，音频素材的图标可以是音频素材的专辑封面。

步骤309，客户端在视频合成界面内按照推荐顺序呈现至少两个音频素材的选择功能项；

其中，音频素材的选择功能项利用音频素材的标识信息进行包装，即音频素材的选择功能项上呈现有音频素材的标识信息，以指示音频素材的唯一身份。步骤310，客户端响应于针对至少两个音频素材的选择功能项的选择操作，获取选择的目标音频素材；

步骤311，客户端发送目标音频素材至服务器；

步骤312，服务器基于图像素材和目标音频素材进行视频合成，得到目标视频；

步骤313，服务器发送目标视频至客户端。

上述的视频合成方式中，能够对当前的图像素材进行至少两个特征维度的特征提取，基于提取得到的图像特征与至少两个音频素材的音频特征进行匹配，从而能够得到与图像素材相匹配的目标音频素材，通过合成图像素材和目标音频素材，能够快速合成得到视频画面与视频配乐适配度较高的视频。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。在实际实施时，本申请实施例提供的视频合成方法可包括如下操作：

用户基于视频合成客户端的图形界面上传视频并发送配乐请求后，客户端解析该配乐请求，获得配乐请求中携带的用户上传的视频。然后客户端从视频中抽取至少一帧视频帧。对于视频帧的抽取，客户端可以抽取能够有效代表视频内容的视频帧，例如抽取与动作有关的帧作为视频帧。客户端还可以基于预设时间间隔对视频进行视频帧的抽取，例如每间隔预设时间间隔，从视频帧中抽取视频帧。

客户端在抽取视频帧之后，将得到的视频帧输入至一个倒双塔模型中，以提取得到视频的多维度的图像特征。其中，该倒双塔模型可以采用如图7所示的模型架构。客户端首先将视频帧输入至主特征提取模型，得到视频帧的主特征。然后将主特征分别输入至多个子特征提取模型，通过子特征提取模型提取得到多个维度的维度特征。然后将多个特征维度的维度特征进行拼接或者加权求和之后，得到视频帧的图像特征。其中，特征维度包括场景、实体、情感或动作等。

在一些实施例中，还对用于提取图像特征的图像特征提取模型和用于提取音频特征的音频特征提取模型进行训练。对模型的训练过程可以为预先进行。可以由客户端进行训练，还可以由服务器进行训练。训练过程具体为：将包含有样本图像和样本音频的训练样本输入至图像特征提取模型和音频特征提取模型中，以分别提取样本图像的样本图像特征和样本音频特征，然后基于上述公式(1)计算样本图像特征和样本音频特征之间的差异，基于该差异对图像特征提取模型和音频特征提取模型的模型参数进行更新。

其中，公式(1)中，采用x_1j和x_2j两个输入来分布对应图像特征和音频特征，为了更适用于本申请的视频合成中的音频匹配，采用指数函数以扩大视频的图像特征与音频的音频特征分布间的差异性，从而可以使得相似的视频能够适配到不同风格的音乐。

在一些实施例中，客户端还获取用户信息以结合视频的图像特征进行音频的匹配。其中，用户信息可以是用户画像数据，包括用户注册数据和用户行为数据。进一步地，客户端对用户画像数据进行编码，得到用户画像特征，然后将用户画像特征与视频帧的图像特征进行拼接，得到综合特征。

在实际实施时，客户端在基于视频帧和用户信息得到综合特征后，与音乐库内的各音频进行相似度匹配。需要说明的是，在与音乐库进行相似度匹配时，音乐库内的各音频均对应有为已编码的音频特征，客户端将各音频对应的音频特征分别与视频的图像特征进行相似度匹配，得到各音频与该视频的匹配度。这里，客户端利用余弦相似度算法对音频特征和视频特征进行相似度计算，得到对应的匹配度。

进一步地，客户端基于匹配度，对各音频进行排序，选取排序在前的N个音频进行推荐，将该N个音频呈现在客户端的图形界面内供用户浏览和选择。用户基于呈现的音频，选择需要的目标音频，客户端则基于用户的选择操作，获得用户选择的目标音频，然后将用户上传的视频与目标音频进行视频合成，得到目标视频，至此，完成视频的合成。

下面继续说明本申请实施例提供的视频合成装置555的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器550的视频合成装置555中的软件模块可以包括：

获取模块5551，用于获取用于合成目标视频的图像素材；

图像特征提取模块5552，用于从至少两个特征维度，对所述图像素材进行特征提取，得到所述图像素材的图像特征；

音频特征获取模块5553，用于分别获取至少两个音频素材的音频特征；

匹配模块5554，用于分别将各所述音频素材的音频特征与所述图像素材的图像特征进行匹配，得到各所述音频素材与所述图像素材的匹配度；

筛选模块5555，用于基于各所述音频素材与所述图像素材的匹配度，从所述至少两个音频素材中筛选得到与所述图像素材相匹配的目标音频素材；

合成模块5556，用于基于所述图像素材和所述目标音频素材进行视频合成，得到所述目标视频。

在一些实施例中，所述获取模块5551，还用于获取用于合成目标视频的视频素材，从所述视频素材中抽取至少一帧视频帧，将所述至少一帧视频帧作为图像素材；或者，响应于图像素材上传操作，获取到上传的至少一个图像，将所述至少一个图像作为用于合成目标视频的图像素材。

在一些实施例中，所述图像特征提取模块5552，还用于从至少两个特征维度，对所述图像素材进行特征提取，得到所述图像素材的至少两个维度特征；基于各所述维度特征的权值，对所述至少两个维度特征进行加权求和，得到所述图像素材的图像特征。

在一些实施例中，所述筛选模块5555，还用于基于各所述音频素材与所述图像素材的匹配度，确定各所述音频素材的推荐顺序；基于所述推荐顺序，对所述至少两个音频素材进行推荐；响应于对所述至少两个音频素材的选择操作，获取选择的目标音频素材。

在一些实施例中，存储在存储器550的视频合成装置555中的软件模块还可以包括：特征拼接模块，用于获取目标用户的用户画像特征；将所述图像特征和所述用户画像特征进行特征拼接，得到所述图像素材的综合特征；所述匹配模块5554，还用于分别将各所述音频素材的音频特征与所述图像素材的综合特征进行匹配，得到各所述音频素材与所述图像素材的匹配度。

在一些实施例中，所述图像特征提取模块5552，还用于将所述图像素材输入至图像特征提取模型；通过所述图像特征提取模型，从所述至少两个特征维度，对所述图像素材进行特征提取，得到所述图像素材的图像特征；所述音频特征获取模块5553，还用于利用音频特征提取模型，分别对输入的所述至少两个音频素材进行特征提取，得到所述至少两个音频素材的音频特征。

在一些实施例中，所述图像特征提取模型包括至少两个子特征提取模型，所述子特征提取模型与特征维度呈一一对应关系；所述图像特征提取模块5552，还用于通过各所述子特征提取模型，分别对所述图像素材进行特征提取，得到所述图像素材的至少两个维度特征；基于各所述维度特征的权值，对所述至少两个维度特征进行加权求和，得到所述图像素材的图像特征。

在一些实施例中，存储在存储器550的视频合成装置555中的软件模块还可以包括：模型训练模块，用于通过图像特征提取模型，从至少两个特征维度，对输入的样本图像素材集中的各个样本图像素材进行特征提取，得到所述样本图像素材集对应的样本图像特征集；通过音频特征提取模型，对输入的与所述样本图像素材集相匹配的样本音频素材集中的各个样本音频素材进行特征提取，得到所述样本音频素材集对应的样本音频特征集；确定所述样本图像特征集与所述样本音频特征集之间的差异值；基于所述差异值更新所述图像特征提取模型的模型参数以及所述音频特征提取模型的模型参数。

在一些实施例中，所述模型训练模块，还用于分别基于所述样本图像特征集和所述样本音频特征集，确定所述样本图像特征集的中心图像特征和所述样本音频特征集的中心音频特征；基于所述中心图像特征，对所述样本图像特征集中的各样本图像特征进行映射处理，得到所述样本图像特征集的映射图像特征集；基于所述中心音频特征，对所述样本音频特征集中的各样本音频特征进行映射处理，得到所述样本音频特征集的映射音频特征集；基于所述映射图像特征集和所述映射音频特征集，确定所述样本图像特征集与所述样本音频特征集之间的差异值。

需要说明的是，本申请实施例装置的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果，因此不做赘述。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的视频合成方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的方法，例如，如图3示出的视频合成方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(H TML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，通过本申请实施例能够快速合成得到视频画面与视频配乐适配度较高的视频。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种视频合成方法，其特征在于，所述方法包括：

获取用于合成目标视频的图像素材；

从至少两个特征维度，对所述图像素材进行特征提取，得到所述图像素材的图像特征；

分别获取至少两个音频素材的音频特征；

2.根据权利要求1所述的视频合成方法，其特征在于，所述获取用于合成目标视频的图像素材，包括：

获取用于合成目标视频的视频素材，从所述视频素材中抽取至少一帧视频帧，将所述至少一帧视频帧作为图像素材；

或者，响应于图像素材上传操作，获取到上传的至少一个图像，将所述至少一个图像作为用于合成目标视频的图像素材。

3.根据权利要求1所述的视频合成方法，其特征在于，所述从至少两个特征维度，对所述图像素材进行特征提取，得到所述图像素材的图像特征，包括：

从至少两个特征维度，对所述图像素材进行特征提取，得到所述图像素材的至少两个维度特征；

基于各所述维度特征的权值，对所述至少两个维度特征进行加权求和，得到所述图像素材的图像特征。

4.根据权利要求1所述的视频合成方法，其特征在于，所述基于各所述音频素材与所述图像素材的匹配度，从所述至少两个音频素材中筛选得到与所述图像素材相匹配的目标音频素材，包括：

基于各所述音频素材与所述图像素材的匹配度，确定各所述音频素材的推荐顺序；

基于所述推荐顺序，对所述至少两个音频素材进行推荐；

响应于对所述至少两个音频素材的选择操作，获取选择的目标音频素材。

5.根据权利要求1所述的视频合成方法，其特征在于，所述分别将各所述音频素材的音频特征与所述图像素材的图像特征进行匹配之前，所述方法还包括：

获取目标用户的用户画像特征；

将所述图像特征和所述用户画像特征进行特征拼接，得到所述图像素材的综合特征；

所述分别将各所述音频素材的音频特征与所述图像素材的图像特征进行匹配，得到各所述音频素材与所述图像素材的匹配度，包括：

分别将各所述音频素材的音频特征与所述图像素材的综合特征进行匹配，得到各所述音频素材与所述图像素材的匹配度。

6.根据权利要求1所述的视频合成方法，其特征在于，所述从至少两个特征维度，对所述图像素材进行特征提取，得到所述图像素材的图像特征，包括：

将所述图像素材输入至图像特征提取模型；

通过所述图像特征提取模型，从所述至少两个特征维度，对所述图像素材进行特征提取，得到所述图像素材的图像特征；

所述分别获取至少两个音频素材的音频特征包括：

利用音频特征提取模型，分别对输入的所述至少两个音频素材进行特征提取，得到所述至少两个音频素材的音频特征。

7.根据权利要求6所述的视频合成方法，其特征在于，所述图像特征提取模型包括至少两个子特征提取模型，所述子特征提取模型与特征维度呈一一对应关系；

所述通过所述图像特征提取模型，从所述至少两个特征维度，对所述图像素材进行特征提取，得到所述图像素材的图像特征，包括：

通过各所述子特征提取模型，分别对所述图像素材进行特征提取，得到所述图像素材的至少两个维度特征；

8.根据权利要求6所述的视频合成方法，其特征在于，所述获取用于合成目标视频的图像素材之前，所述方法还包括：

通过图像特征提取模型，从至少两个特征维度，对输入的样本图像素材集中的各个样本图像素材进行特征提取，得到所述样本图像素材集对应的样本图像特征集；

通过音频特征提取模型，对输入的与所述样本图像素材集相匹配的样本音频素材集中的各个样本音频素材进行特征提取，得到所述样本音频素材集对应的样本音频特征集；

确定所述样本图像特征集与所述样本音频特征集之间的差异值；

基于所述差异值更新所述图像特征提取模型的模型参数以及所述音频特征提取模型的模型参数。

9.根据权利要求8所述的视频合成方法，所述确定所述样本图像特征集与所述样本音频特征集之间的差异值，包括：

分别基于所述样本图像特征集和所述样本音频特征集，确定所述样本图像特征集的中心图像特征和所述样本音频特征集的中心音频特征；

基于所述中心图像特征，对所述样本图像特征集中的各样本图像特征进行映射处理，得到所述样本图像特征集的映射图像特征集；

基于所述中心音频特征，对所述样本音频特征集中的各样本音频特征进行映射处理，得到所述样本音频特征集的映射音频特征集；

基于所述映射图像特征集和所述映射音频特征集，确定所述样本图像特征集与所述样本音频特征集之间的差异值。

10.一种视频合成装置，其特征在于，所述装置包括：

获取模块，用于获取用于合成目标视频的图像素材；