CN113838490B

CN113838490B - 视频合成方法、装置、电子设备及存储介质

Info

Publication number: CN113838490B
Application number: CN202010595765.XA
Authority: CN
Inventors: 苏达; 张韵叠
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2022-11-11
Anticipated expiration: 2040-06-24
Also published as: US20230254550A1; CN113838490A; EP4160596A4; WO2021258814A1; EP4160596A1

Abstract

本发明实施例提供一种视频合成方法、装置、电子设备及存储介质，视频合成方法包括：获取用户给定的素材、视频合成策略选择信息、视频模板及视频模板的配置信息，视频模板包括至少一个片段，视频模板的配置信息包括每个片段的场景匹配信息；对用户给定的素材进行场景分析，得到素材中每个素材的场景特征信息；根据视频合成策略选择信息确定用户的视频合成策略，如果视频合成策略为定长合成策略，则根据素材中每个素材的场景特征信息和视频模板中每个片段的场景匹配信息，将每个素材与视频模板中每个片段进行场景匹配，选取每个素材中场景匹配的内容填入视频模板对应的片段中，以合成视频。上述方法不依赖于用户手动编辑且兼顾灵活性。

Description

视频合成方法、装置、电子设备及存储介质

技术领域

本申请涉及视频处理技术领域，具体涉及视频合成方法、装置、电子设备及存储介质。

背景技术

目前，在短视频流行的背景下，终端(例如手机)用户对于快速编辑生成视频的需求与日俱增。

短视频制作通常需要对素材进行拼接、滤镜、特效、配乐等操作，现有技术中通常使用以下两种方式生成视频，其一为用户手动完成对素材进行拼接、滤镜、特效、配乐等操作，但其一的方式过多依赖手动编辑，自动化程度和便捷性低；其二为用户通过点选素材源文件，选择定制化模板快速生成视频，在一些情况下还可通过后台分析自动帮助用户挑选合适素材、匹配模板生成短视频，然而，第二的方式通过模板固定不灵活，容易出现背景音乐不卡点，生成的视频长度固定化等问题。

因此，现有技术亟需一种不依赖手动编辑且兼顾灵活性的视频生成方案。

发明内容

本申请实施例提供一种视频合成方法、装置、电子设备、存储介质及计算机程序产品，能够快速生成视频，不依赖于用户手动编辑且兼顾灵活性。

第一方面，本申请实施例提供了一种视频合成方法，所述方法包括：

获取用户给定的素材、视频合成策略选择信息、视频模板以及所述视频模板的配置信息，其中，所述用户给定的素材类型包括图片素材和/或视频素材，所述视频模板包括至少一个片段，所述视频模板的配置信息包括所述至少一个片段中每个片段的场景匹配信息；

对所述用户给定的素材进行场景分析，得到所述素材中每个素材的场景特征信息，

根据视频合成策略选择信息确定用户的视频合成策略，如果所述视频合成策略为定长合成策略，根据所述素材中每个素材的场景特征信息和所述视频模板中每个片段的场景匹配信息，将每个素材与所述视频模板中每个片段进行场景匹配，选取每个素材中场景匹配的内容填入所述视频模板对应的片段中，以合成视频。

结合第一方面，在一种可行的实现方式中，所述方法还包括：

如果所述视频合成策略为不定长合成策略，则根据用户给定的素材预测第一时长；

如果所述第一时长大于所述视频模板的总时长，则选取所述视频模板中的至少一个片段增添至所述视频模板中，使得调整后的所述视频模板的总时长与所述第一时长之差不大于所述视频模板中最长片段的时长；

如果所述第一时长小于所述视频模板的总时长，则删减所述视频模板中的至少一个片段，使得调整后的所述视频模板的总时长与所述第一时长之差不大于所述视频模板中最长片段的时长；

根据所述素材中每个素材的场景特征信息和调整后的视频模板中每个片段的场景匹配信息，将每个素材与调整后的视频模板中每个片段进行场景匹配，选取每个素材中场景匹配的内容填入调整后的视频模板对应的片段中，以合成视频。

获取用户给定的背景音乐；

对所述用户给定的背景音乐进行节拍检测，得到所述用户给定的背景音乐的拍速；

根据所述背景音乐的拍速调整所述视频模板中至少一个片段的时长，使得所述视频模板中的所有片段的时长为所述拍速的整数倍；

然后执行“根据视频合成策略选择信息确定用户的视频合成策略”的步骤。

结合第一方面，在一种可行的实现方式中，在根据所述素材中每个素材的场景特征信息和所述视频模板中每个片段的场景匹配信息，将每个素材与所述视频模板中每个片段进行场景匹配之前，所述方法还包括：

确定所述用户给定的素材的数量；

判断所述用户给定的素材的数量是否大于所述视频模板的片段数量；

如果是，则对视频模板的至少一个片段进行拆分，使得所述视频模板的片段数量等于所述用户给定的素材的数量。

第二方面，本申请实施例提供一种视频合成的装置，所述装置包括：

第一获取模块，用于获取用户给定的素材、视频合成策略选择信息、视频模板以及所述视频模板的配置信息，其中，所述用户给定的素材类型包括图片素材和/或视频素材，所述视频模板包括至少一个片段，所述视频模板的配置信息包括所述至少一个片段中每个片段的场景匹配信息；

第一分析模块，用于对所述用户给定的素材进行场景分析，得到所述素材中每个素材的场景特征信息；以及

第一合成模块，用于根据视频合成策略选择信息确定用户的视频合成策略，如果所述视频合成策略为定长合成策略，根据所述素材中每个素材的场景特征信息和所述视频模板中每个片段的场景匹配信息，将每个素材与所述视频模板中每个片段进行场景匹配，选取每个素材中场景匹配的内容填入所述视频模板对应的片段中，以合成视频。

结合第二方面，在一种可行的实现方式中，所述装置还包括第一预测模块、第一调整模块、第二调整模块以及第二合成模块；

所述第一预测模块用于如果所述视频合成策略为不定长合成策略，则根据用户给定的素材预测第一时长；

所述第一调整模块用于如果所述第一时长大于所述视频模板的总时长，则选取所述视频模板中的至少一个片段增添至所述视频模板中，使得调整后的所述视频模板的总时长与所述第一时长之差不大于所述视频模板中最长片段的时长；

所述第二调整模块用于如果所述第一时长小于所述视频模板的总时长，则删减所述视频模板中的至少一个片段，使得调整后的所述视频模板的总时长与所述第一时长之差不大于所述视频模板中最长片段的时长；

所述第二合成模块用于根据所述素材中每个素材的场景特征信息和调整后的视频模板中每个片段的场景匹配信息，将每个素材与调整后的视频模板中每个片段进行场景匹配，选取每个素材中场景匹配的内容填入调整后的视频模板对应的片段中，以合成视频。

结合第二方面，在一种可行的实现方式中，所述装置还包括：第二获取模块、第一检测模块及第三调整模块；

所述第二获取模块用于获取用户给定的背景音乐；

所述第一检测模块用于对所述用户给定的背景音乐进行节拍检测，得到所述用户给定的背景音乐的拍速；

所述第三调整模块用于根据所述背景音乐的拍速调整所述视频模板中至少一个片段的时长，使得所述视频模板中的所有片段的时长为所述拍速的整数倍。

结合第二方面，在一种可行的实现方式中，所述装置还包括：第一确定模块、第一判断模块及第一拆分模块；

所述第一确定模块用于确定所述用户给定的素材的数量；

所述第一判断模块用于判断所述用户给定的素材的数量是否大于所述视频模板的片段数量；

所述第一拆分模块用于如果所述用户给定的素材的数量大于所述视频模板的片段数量，则对视频模板的至少一个片段进行拆分，使得所述视频模板的片段数量等于所述用户给定的素材的数量。

第三方面，本申请实施例提供一种电子设备，所述电子设备包括存储器、处理器、触摸传感器及显示屏，所述存储器中存储有计算机程序，所述处理器与所述存储器连接，所述处理器执行计算机程序以实现上述的第一方面或者第一方面的任一可能的实现方式中的方法的指令。

第四方面，本申请实施例提供一种计算机可读存储介质，包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行第一方面或者第一方面的任一可能的实现方式中的方法的指令。

第五方面，本申请实施例提供一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行第一方面或者第一方面的任一可能的实现方式中的方法的指令。

可以理解，本申请实施例提供的视频合成方案，用于实现根据用户指定的视频模板将用户选择的素材进行视频的合成，在合成的过程中，无需用户进行手动编辑，同时可以对用户的视频模板进行动态调整，能够实现音乐卡点和视频长度的灵活设置，相较于现有技术而言，本申请实施例提供的视频合成方法不依赖手动编辑且在使用视频模板的前提下能够兼顾视频合成的灵活性。

附图说明

图1为本申请实施例提供的电子设备的结构示意图；

图2是本发明实施例的电子设备的软件结构框图。

图3为本申请实施例提供的视频合成方法的一流程图；

图4为本发明实施例提供的视频合成方法相关的界面图；

图5为本发明实施例提供的视频合成方法相关的界面图；

图6为本发明实施例提供的视频合成方法中的视频模板片段的示意图；

图7为本发明实施例提供的视频合成方法中的视频模板的配置信息的示意图；

图8为本申请实施例提供的视频合成方法的又一流程图；

图9为本申请实施例提供的视频合成方法的又一流程图；

图10为本申请实施例提供的视频合成方法的又一流程图；

图11为本申请实施例提供的视频合成方法的片段裁剪示意图；

图12为本申请实施例提供的视频合成方法的又一流程图；

图13为本申请实施例提供的视频合成方法的素材匹配示意图；

图14为本申请实施例提供的视频合成方法的又一流程图；

图15为本申请实施例提供的视频合成装置的结构示意图。

具体实施方式

为了更好的理解本发明的技术方案，下面结合附图对本申请实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本申请中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b，或c中的至少一项(个)，可以表示：a，b，c，a-b，a-c，b-c，或a-b-c，其中a，b，c可以是单个，也可以是多个。

图1示出了电子设备100的结构示意图。

电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本发明实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

I2C接口是一种双向同步串行总线，包括一根串行数据线(serial data line，SDA)和一根串行时钟线(derail clock line，SCL)。在一些实施例中，处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器180K，充电器，闪光灯，摄像头193等。例如：处理器110可以通过I2C接口耦合触摸传感器180K，使处理器110与触摸传感器180K通过I2C总线接口通信，实现电子设备100的触摸功能。

I2S接口可以用于音频通信。在一些实施例中，处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块170耦合，实现处理器110与音频模块170之间的通信。在一些实施例中，音频模块170可以通过I2S接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。

PCM接口也可以用于音频通信，将模拟信号抽样，量化和编码。在一些实施例中，音频模块170与无线通信模块160可以通过PCM总线接口耦合。在一些实施例中，音频模块170也可以通过PCM接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。

UART接口是一种通用串行数据总线，用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中，UART接口通常被用于连接处理器110与无线通信模块160。例如：处理器110通过UART接口与无线通信模块160中的蓝牙模块通信，实现蓝牙功能。在一些实施例中，音频模块170可以通过UART接口向无线通信模块160传递音频信号，实现通过蓝牙耳机播放音乐的功能。

MIPI接口可以被用于连接处理器110与显示屏194，摄像头193等外围器件。MIPI接口包括摄像头串行接口(camera serial interface，CSI)，显示屏串行接口(displayserial interface，DSI)等。在一些实施例中，处理器110和摄像头193通过CSI接口通信，实现电子设备100的拍摄功能。处理器110和显示屏194通过DSI接口通信，实现电子设备100的显示功能。

GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号，也可被配置为数据信号。在一些实施例中，GPIO接口可以用于连接处理器110与摄像头193，显示屏194，无线通信模块160，音频模块170，传感器模块180等。GPIO接口还可以被配置为I2C接口，I2S接口，UART接口，MIPI接口等。

USB接口130是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口130可以用于连接充电器为电子设备100充电，也可以用于电子设备100与外围设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。该接口还可以用于连接其它电子设备，例如AR设备等。

可以理解的是，本发明实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备100的结构限定。在本申请另一些实施例中，电子设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中，充电管理模块140可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时，还可以通过电源管理模块141为电子设备供电。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，显示屏194，摄像头193，和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量，电池循环次数，电池健康状态(漏电，阻抗)等参数。在其它一些实施例中，电源管理模块141也可以设置于处理器110中。在另一些实施例中，电源管理模块141和充电管理模块140也可以设置于同一个器件中。

电子设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A，受话器170B等)输出声音信号，或通过显示屏194显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器110，与移动通信模块150或其它功能模块设置在同一个器件中。

无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，电子设备100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得电子设备100可以通过无线通信技术与网络以及其它设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(codedivision multiple access，CDMA)，宽带码分多址(wideband code division multipleaccess，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(global navigation satellite system，GLONASS)，北斗卫星导航系统(beidounavigation satellite system，BDS)，准天顶卫星系统(quasi-zenith satellitesystem，QZSS)和/或星基增强系统(satellite based augmentation systems，SBAS)。

电子设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot lightemitting diodes，QLED)等。在一些实施例中，电子设备100可以包括1个或N个显示屏194，N为大于1的正整数。

电子设备100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，电子设备100可以包括1个或N个摄像头193，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其它数字信号。例如，当电子设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样，电子设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。处理器110通过运行存储在内部存储器121的指令，和/或存储在设置于处理器中的存储器的指令，执行电子设备100的各种功能应用以及数据处理。

电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中，电子设备100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备100还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A，电极之间的电容改变。电子设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194，电子设备100根据压力传感器180A检测所述触摸操作强度。电子设备100也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中，作用于相同触摸位置，但不同触摸操作强度的触摸操作，可以对应不同的操作指令。例如：当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时，执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时，执行新建短消息的指令。

陀螺仪传感器180B可以用于确定电子设备100的运动姿态。在一些实施例中，可以通过陀螺仪传感器180B确定电子设备100围绕三个轴(即，x，y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的，当按下快门，陀螺仪传感器180B检测电子设备100抖动的角度，根据角度计算出镜头模组需要补偿的距离，让镜头通过反向运动抵消电子设备100的抖动，实现防抖。陀螺仪传感器180B还可以用于导航，体感游戏场景。

气压传感器180C用于测量气压。在一些实施例中，电子设备100通过气压传感器180C测得的气压值计算海拔高度，辅助定位和导航。

磁传感器180D包括霍尔传感器。电子设备100可以利用磁传感器180D检测翻盖皮套的开合。在一些实施例中，当电子设备100是翻盖机时，电子设备100可以根据磁传感器180D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态，设置翻盖自动解锁等特性。

加速度传感器180E可检测电子设备100在各个方向上(一般为三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态，应用于横竖屏切换，计步器等应用。

距离传感器180F，用于测量距离。电子设备100可以通过红外或激光测量距离。在一些实施例中，拍摄场景，电子设备100可以利用距离传感器180F测距以实现快速对焦。

接近光传感器180G可以包括例如发光二极管(LED)和光检测器，例如光电二极管。发光二极管可以是红外发光二极管。电子设备100通过发光二极管向外发射红外光。电子设备100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时，可以确定电子设备100附近有物体。当检测到不充分的反射光时，电子设备100可以确定电子设备100附近没有物体。电子设备100可以利用接近光传感器180G检测用户手持电子设备100贴近耳朵通话，以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式，口袋模式自动解锁与锁屏。

环境光传感器180L用于感知环境光亮度。电子设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合，检测电子设备100是否在口袋里，以防误触。

指纹传感器180H用于采集指纹。电子设备100可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照，指纹接听来电等。

温度传感器180J用于检测温度。在一些实施例中，电子设备100利用温度传感器180J检测的温度，执行温度处理策略。例如，当温度传感器180J上报的温度超过阈值，电子设备100执行降低位于温度传感器180J附近的处理器的性能，以便降低功耗实施热保护。在另一些实施例中，当温度低于另一阈值时，电子设备100对电池142加热，以避免低温导致电子设备100异常关机。在其它一些实施例中，当温度低于又一阈值时，电子设备100对电池142的输出电压执行升压，以避免低温导致的异常关机。

触摸传感器180K，也称“触控面板”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180K也可以设置于电子设备100的表面，与显示屏194所处的位置不同。

骨传导传感器180M可以获取振动信号。在一些实施例中，骨传导传感器180M可以获取人体声部振动骨块的振动信号。骨传导传感器180M也可以接触人体脉搏，接收血压跳动信号。在一些实施例中，骨传导传感器180M也可以设置于耳机中，结合成骨传导耳机。音频模块170可以基于所述骨传导传感器180M获取的声部振动骨块的振动信号，解析出语音信号，实现语音功能。应用处理器可以基于所述骨传导传感器180M获取的血压跳动信号解析心率信息，实现心率检测功能。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入，产生与电子设备100的用户设置以及功能控制有关的键信号输入。

马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。例如，作用于不同应用(例如拍照，音频播放等)的触摸操作，可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作，马达191也可对应不同的振动反馈效果。不同的应用场景(例如：时间提醒，接收信息，闹钟，游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。

指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195，或从SIM卡接口195拔出，实现和电子设备100的接触和分离。电子设备100可以支持1个或N个SIM卡接口，N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡，Micro SIM卡，SIM卡等。同一个SIM卡接口195可以同时插入多张卡。所述多张卡的类型可以相同，也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。电子设备100通过SIM卡和网络交互，实现通话以及数据通信等功能。在一些实施例中，电子设备100采用eSIM，即：嵌入式SIM卡。eSIM卡可以嵌在电子设备100中，不能和电子设备100分离。

电子设备100的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本发明实施例以分层架构的Android系统为例，示例性说明电子设备100的软件结构。

图2是本发明实施例的电子设备100的软件结构框图。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime)和系统库，以及内核层。

应用程序层可以包括一系列应用程序包。

如图2所示，应用程序包可以包括相机，图库，日历，通话，地图，导航，WLAN，蓝牙，音乐，视频，短信息等应用程序。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图2所示，应用程序框架层可以包括窗口管理器，内容提供器，视图系统，电话管理器，资源管理器，通知管理器等。

其中，窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。

在本申请的实施例中，应用程序框架层还可以包括活动管理器AMS用于负责管理Activity，负责系统中各组件的启动、切换、调度及应用程序的管理和调度等工作。

例如，当检测到手机进入桌面编辑模式后，第一应用可以调用活动管理器，设置两个窗口的模式。其中一个窗口可用于显示桌面实时的缩略图，另一个窗口则用于显示可供用户编辑桌面的相关控件，例如选择壁纸控件，添加桌面小工具控件，选择切换效果控件，开启或关闭相关功能的控件等。窗口管理器则根据活动管理器设置的两个窗口的模式绘制各个窗口相应的界面。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供电子设备100的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，电子设备振动，指示灯闪烁等。

Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

系统库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(Media Libraries)，三维图形处理库(例如：OpenGL ES)，2D图形引擎(例如：SGL)等。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如:MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动。

下面结合捕获拍照场景，示例性说明电子设备100软件以及硬件的工作流程。

以下实施例中所涉及的技术方案均可以在具有上述硬件架构和软件架构的电子设备100中实现。

本申请实施例提供的视频合成方法，应用于电子设备，用于实现根据用户指定的视频模板将用户选择的素材进行视频的合成，在合成的过程中，无需用户进行手动编辑，同时可以对用户的视频模板进行动态调整，能够实现音乐卡点和视频长度的灵活设置，相较于现有技术而言，本申请实施例提供的视频合成方法不依赖手动编辑且在使用视频模板的前提下能够兼顾视频合成的灵活性。

电子设备可以是图1所示的电子设备100，电子设备100可以是但不限于智能手机、平板电脑、个人数字助理(PDA，Personal Digital Assistant)、智能手环、智能手表等各类型的便携式/穿戴式移动终端，或者还可以是笔记本、台式机、一体机等各类型的计算机设备。

图3为本申请实施例提供的视频合成方法的流程图；

步骤S101：获取用户给定的素材、视频合成策略选择信息、视频模板以及视频模板的配置信息，其中，用户给定的素材类型包括图片素材和/或视频素材，视频模板包括至少一个片段，视频模板的配置信息包括至少一个片段中每个片段的场景匹配信息；

步骤S102：对用户给定的素材进行场景分析，得到素材中每个素材的场景特征信息；

步骤S103：根据视频合成策略选择信息确定用户的视频合成策略，如果视频合成策略为定长合成策略，则根据素材中每个素材的场景特征信息和视频模板中每个片段的场景匹配信息，将每个素材与视频模板中每个片段进行场景匹配，选取每个素材中场景匹配的内容填入视频模板对应的片段中，以合成视频。

在本实施例中，根据用户选择的视频合成策略确定用于期望合成的视频长度是否等于视频模板的长度，从而实现用户对合成视频的长度的灵活选择，通过分析素材的场景匹配合适的视频模板的片段，保证了视频模板带来的电影感。

下面对本说明书实施例提供的视频合成方法的具体技术方案进行详细的说明。

步骤S101，获取用户给定的素材、视频合成策略选择信息、视频模板以及视频模板的配置信息，其中，素材的类型包括图片素材和/或视频素材，视频模板包括至少一个片段，视频模板的配置信息包括至少一个片段中每个片段的场景匹配信息。

图4和图5为本发明实施例提供的视频合成方法相关的界面图；

电子设备能够响应于用户对电子设备的用户界面的操作获取获取用户给定的素材、视频合成策略选择信息、视频模板以及视频模板的配置信息，具体实现中，如图4所示，当用户需要进行视频合成时，用户可以通过图4所示的界面选取素材，素材可以为电子设备所保存的视频和图片或者用户从网络侧获得的视频或者图片；如图5所示，当用户选定素材的前后，用户可以通过图5所示的界面选取视频模板，例如用户选取“微风”对应的视频模板，当用户选定一个视频模板后，电子设备获取该视频模板对应的配置信息。如果用户未对视频模板进行选定，可以将默认视频模板作为给定的素材的视频模板。

在用户给定的素材的前后，电子设备可以向用户请求选择视频合成策略，例如于电子设备的屏幕中显示“定长”和“不定长”的控件，以供用户对视频合成策略进行选择。在本发明实施例中，视频合成策略包括定长合成策略和不定长合成策略。

图6为本发明实施例提供的视频合成方法中的视频模板的片段构成示意图；

一个视频模板通常包括一个或者多个片段和转场，如图6所示，视频模板包括片段1、转场1、片段2、转场2、片段3、转场3、片段4、转场4、片段5、转场5、片段6、转场6及片段7；其中，转场为片段与片段之间的过渡部分。

图7为本发明实施例提供的视频合成方法中的视频模板的配置信息示意图；

由图7可知，一个视频模板的配置信息通常包括：该视频模板中每个片段的时长信息、至少一个片段对于的效果参数(例如特效参数、滤镜参数等)、每个片段的场景匹配信息、默认背景音乐参数中的一个或者任意多个。其中，视频模板的每个片段为其默认背景音乐的拍速的整数倍，从而实现每个片段的音乐卡点。其中，场景匹配信息可以包含片段所适合的场景的类型信息或者大小信息等。

在本发明实施例中，用户可以选择视频模板对应的默认背景音乐作为待合成视频的背景音乐，也可以另外给定背景音乐作为待合成视频的背景音乐。

针对第一种情况，如果要实现音乐卡点，电子设备无需对视频模板的每个片段的时长进行调整；针对第二种情况，如果要实现音乐卡点，电子设备需要对用户给定的背景音乐进行节拍检测，得到用户给定的背景音乐的拍速，然后判断视频模板的每个片段的时长是否等于所得拍速的整数倍，将时长不等于所得拍速的整数倍的片段的时长进行调整，使得视频模板中的每个片段的时长为拍速的整数倍。

具体实现中，本发明实施例采用BPM(Beat Per Minute，拍数)检测方法对背景音乐进行节拍检测，获得拍速b(bpm)，其中，电子设备通过数字信号处理(DSP，DigitalSignal Processing)的方法对音频进行分析得到音乐节拍点的方法。通常的算法会将原始音频分割成若干片段，然后通过快速傅里叶变换得到频谱，最后基于声音能量进行滤波分析从而得到最终节拍点。

基于上述，如图8所示，在本发明实施例中，视频合成方法还包括：

步骤S201:获取用户给定的背景音乐；

步骤S202:对用户给定的背景音乐进行节拍检测，得到用户给定的背景音乐的拍速；

步骤S203:根据背景音乐的拍速调整视频模板中至少一个片段的时长，使得视频模板中的各个片段的时长为拍速的整数倍。

其中，步骤S201可以与步骤S101同时进行，也可以在步骤S101之前或者之后进行；同样地，步骤S202及步骤S203也可以在步骤S102之前或者之后进行，也可以与步骤S102同步进行，本发明对此不做具体限定。

可以理解，本发明实施例通过对给定的背景音乐进行节拍检测，从而获得给定的背景音乐的拍速，根据给定的背景音乐的拍速调整视频模板的各个片段的时长，从而使得视频模板中的各个片段的时长为拍速的整数倍，使得用户更换视频模板的背景音乐的情况下，实现音乐与视频片段之间的卡点。

步骤S102，对用户给定的素材进行场景分析，得到素材中每个素材的场景特征信息，其中，用户给定的素材类型包括图片素材和/或视频素材。

在本发明实施例中，作为一种示例，对用户给定的素材进行场景分析具体可以为对用户给定的素材进行显著性检测。

通常在面对一个场景时，人眼会自动地聚焦于某些引起兴趣区域，而选择性地忽略不感兴趣区域，这些人们感兴趣区域被称之为显著性区域。在计算视觉领域，通过图像处理的手段来模拟这一特性称作显著性检测。

现在显著性检测的实现主要分为两种类别：一种是通过传统的图像处理方法，第二种是通过深度学习。经过显著性检测处理的结果通常为一个灰度图，灰度值越高的地方表示显著性越高。

一个视频素材由连续的的帧构成，一帧即为一幅图像，一个图片素材由一幅图像构成，对用户给定的素材进行显著性检测具体为对各个素材的各个图像的画面进行显著性检测，得到两种检测结果：有主体和无主体；针对有主体的情况，电子设备确定主体在图像中所在的位置和大小，获得主体框，然后计算主体框的面积M和图像面积S的比值R＝M/S，当R大于第一阈值k1时判定该图像为小场景类型，当R小于第二阈值k2时判定该图像为大场景类型，当R小于或者等于k1且大于或者等于k2时判定该图像为普通场景类型；针对无主体的情况，电子设备判断该图像为大场景类型。

步骤S103，根据视频合成策略选择信息确定用户的视频合成策略，如果视频合成策略为定长合成策略，则根据素材中每个素材的场景特征信息和视频模板中每个片段的场景匹配信息，将每个素材与视频模板中每个片段进行场景匹配，选取每个素材中场景匹配的内容填入视频模板对应的片段中，以合成视频。

请参阅图9，在本发明实施例中，视频合成方法还包括：

步骤S301:如果视频合成策略为不定长合成策略，则根据用户给定的素材预测第一时长L；

其中，第一时长L与用户给定的素材的类型和数量相关联。具体地，如果用户给定的素材的类型既包括视频素材又包括图片素材，则第一时长L为视频素材预测总时长T1和图片素材预测总时长T2之和；如果用户给定的素材的类型仅包括视频素材，则第一时长L等于素材预测总时长T1，如果用户给定的素材的类型仅包括图片素材，则第一时长L等于图片素材预测总时长T2。

视频素材预测总时长T1等于各个的视频素材预测时长之和，其中，单个视频素材的预测时长与视频素材的自身时长相关联，在本发明一个或者多个实施例中，视频素材的自身时长越长，其对应的预测时长越长。其中，视频素材的自身时长为视频素材的原始时长或者经过步骤S203调整后的时长。

图片素材预测总时长T2与用户给定的素材中所包含的图片素材的数量相关联，在本发明一个或者多个实施例中，图片素材的数量越多，图片素材预测总时长T2越长。

示例性地，计算单个视频素材的预测时长对应的公式可以为：

其中，f(t)表示单个视频素材的预测时长，t表示该视频素材的自身时长。

示例性地，计算图片素材预测总时长T2对应的公式可以为：

其中，f(t)表示图片素材预测总时长T2，n表示图片素材的数量。

基于上述，计算第一时长L的对应的公式可以为：

其中，v表示视频素材的数量。

步骤S302:如果第一时长大于视频模板的总时长，则选取视频模板中的至少一个片段增添至视频模板中，使得调整后的视频模板的总时长与第一时长之差不大于视频模板中最长片段的时长；

具体地，以视频模板包括片段1、片段2及片段3为例进行说明，如果第一时长大于视频模板的总时长，则可以在视频模板后重复添加片段1、片段2及片段3中的一个或者多个，使得调整后的视频模板的总时长与第一时长之差不大于视频模板中最长片段的时长，从而使得调整后的视频模板的总时长尽可以接近第一时长，同时保证调整后的视频模板的各个片段的转场时间点能够与背景音乐的拍速契合，即视频模板的各个片段的转场时间点与背景音乐卡点。

优选地，在本发明实施例中，选取视频模板中的至少一个片段增添至视频模板中，使得调整后的视频模板的总时长与第一时长之差不大于视频模板中最长片段的时长，还可以为：选取视频模板中的至少一个片段增添至视频模板中，使得调整后的视频模板的总时长与第一时长之差不大于视频模板中任一片段的时长，以实现在保证视频模板的各个片段的转场时间点能够与背景音乐的拍速契合的前提下，最大可能的缩小调整后的视频模板的总时长与第一时长的差距。

步骤S303:如果第一时长小于视频模板的总时长，则删减视频模板中的至少一个片段，使得调整后的视频模板的总时长与第一时长之差不大于视频模板中最长片段的时长；

具体地，以视频模板包括片段1、片段2及片段3为例进行说明，如果第一时长大于视频模板的总时长，则可以删减视频模板中片段1、片段2及片段3中的一个或者多个，使得调整后的视频模板的总时长与第一时长之差不大于视频模板中最长片段的时长，从而使得调整后的视频模板的总时长尽可以接近第一时长，同时保证调整后的视频模板的各个片段的转场时间点能够与背景音乐的拍速契合，即视频模板的各个片段的转场时间点与背景音乐卡点。

优选地，在本发明实施例中，删减视频模板中的至少一个片段，使得调整后的视频模板的总时长与第一时长之差不大于视频模板中最长片段的时长，还可以为：删减视频模板中的至少一个片段，使得调整后的视频模板的总时长与第一时长之差不大于视频模板中任一片段的时长，以实现在保证视频模板的各个片段的转场时间点能够与背景音乐的拍速契合的前提下，最大可能的缩小调整后的视频模板的总时长与第一时长的差距。

步骤S304:根据素材中每个素材的场景特征信息和调整后的视频模板中每个片段的场景匹配信息，将每个素材与调整后的视频模板中每个片段进行场景匹配，选取每个素材中场景匹配的内容填入调整后的视频模板对应的片段中，以合成视频。

具体实现中，在步骤S103、步骤S304中，根据素材中每个素材的场景特征信息和调整后的视频模板中每个片段的场景匹配信息，将每个素材与调整后的视频模板中每个片段进行场景匹配，选取每个素材中场景匹配的内容填入调整后的视频模板对应的片段中，以合成视频，可以包括以下过程：

过程一：素材分类以及视频模板片段拆分

如图10所示，素材分类、模板片段拆分的过程可以包括：

步骤S401:确定素材的数量，其中，素材的数量为图片素材和视频素材的数量之和；

步骤S402:将视频素材按照时长从长到短进行排序并分类；

作为一种示例，视频素材按照以下规则进行分类：

将时长大于或者等于视频模板的最长片段的素材作为第一视频素材组；

将时长小于视频模板的最长片段且大于或者等于视频模板的最二长片段的素材作为第二视频素材组；

以此类推，将每个视频素材划分到对应的视频素材组。

步骤S403:判断素材的数量是否大于视频模板的片段的数量，如果是，则进入步骤S404，如果否，则进入步骤S405；

步骤S404:对视频模板的至少一个片段进行拆分，使得视频模板的片段数量等于素材的数量；

其中，在本发明实施例中，如果用户给定的素材仅包括图片素材或者视频素材，则电子设备从视频模板中时长最长的片段开始拆分，直至视频模板的片段数量等于素材数；

其中，在本发明实施例中，如果用户给定的素材既包括图片素材又包括视频素材，则电子设备从视频模板中时长最短的片段开始拆分，直至视频模板的片段数量等于素材数。示例性地，如图11所示，将时长最短的片段1拆分为片段2和片段3。

在本发明实施例中，可以将原始的片段拆分为一个或者多个片段，但需要注意的是，拆分得到的片段需要满足时长为拍速的整数倍，从而保证能够与音乐节拍达到卡点的效果。

步骤S405:将视频模板的片段按照时长从长到短进行排序。

过程二：视频素材匹配

如图12所示，视频素材匹配的过程可以包括：

步骤S406:将视频素材与视频模板的片段进行匹配，将场景最合适的素材裁剪放入对应的片段中；其中，本发明实施例视频素材的场景特征信息和片段的场景匹配信息判断视频素材与视频模板片段的匹配度。

在本发明实施例中，从最长的片段开始，按时长从长到短的顺序选择视频素材组进行场景匹配，如图13所示，首先将时长最长的片段(片段三)与第一视频素材组中的素材进行匹配，判断第一视频素材组中是否包括与最长的片段(片段三)相匹配的素材，如果有，则将第一视频素材组中场景最合适的素材的全部或者部分内容放入最长的片段(片段三)中；如果没有，则选择拍摄时间最靠前的素材的全部或者部分内容放入最长的片段(片段三)中。在其它实施方式中，如果最长的片段(片段三)没有匹配到合适的素材，也可以将第一视频素材组中时长最长的素材的全部或者部分内容放入最长的片段(片段三)中或者随机选择第一视频素材组中的一个视频素材的全部或者部分内容放入最长的片段(片段三)中。其中，如果使用过的视频素材的裁剪具有剩余部分，则将剩余部分放入容器C中。

进行视频模板中的最长的片段(片段三)与第一视频素材组中的素材进行匹配后，再进行时长为第二长的片段与第二视频素材组中的素材进行匹配，匹配规则与最长的片段和第一视频素材组的匹配规则相同，在此不重复赘述。

步骤S407：判断是否每个视频素材均已填入视频模板对应的片段中，如果否，则进入步骤S408，如果是，则进入步骤S409；

步骤S408：对于未被素材所填入的片段，从时长最长的片段开始匹配剩余的视频素材，使得每个剩余的视频素材中的全部或者部分内容分别填入一个未被素材所填入的片段中，其中，如果使用过的素材的裁剪具有剩余，则将剩余素材放入容器C中。

步骤S409：判断是否具有剩余的空片段，将剩余的空片段按照时长从长到短进行排序。

其中，上述步骤S401～S409中，有些步骤是非必要的，例如，步骤S409可以是非必要的。

过程三：图片素材匹配

如图14所示，图片素材匹配的过程可以包括：

步骤S410：使用图片素材填充视频模板中剩余的空片段；可选地，在本发明一个实施例中，图片素材根据剩余的空片段的排序，从最长的剩余空片段开始填充。

步骤S411：判断视频素材的所有片段是否已被填满，如果是，则结束本次流程；如果否，则进入步骤S412；

步骤S412：判断容器C是否为空，如果是，则进入步骤S413，如果否，则进入步骤S414；

步骤S413：使用用户给定的素材填充视频模板中剩余的空片段，然后返回步骤S411；

在本发明一种可选的实施例中，当用户给定的素材中既包括视频素材又包括图片素材时，优先使用视频素材填充视频模板中剩余的空片段，如果视频素材均已使用一次，再使用图片素材填充视频模板中剩余的空片段。

步骤S414：使用容器C中的剩余素材填充视频模板中剩余的空片段，然后返回步骤S411；

在本发明一种可选的实施例中，电子设备优先选择剩余的空片段中时长较长的片段匹配剩余素材，且在匹配剩余素材时，优先选择时长较长的剩余素材进行匹配。

在本发明实施方式中，当视频模板的片段被给定的素材填满后，视频合成方法还包括：

步骤S501：根据填充结果生成视频合成参数，其中，视频合成参数包括被选取的素材内容的播放顺序参数、被选取的素材内容的播放时间参数、效果参数(例如特效参数、滤镜参数等)等，其中，效果参数可以根据视频模板的配置信息确定。

步骤S502：根据视频合成参数对被选取的素材内容进行依次解码处理以及渲染处理，以合成视频。

其中，对被选取的素材内容进行解码处理具体为对被选取的素材内容进行标准化处理，使得各个素材内容转化为预定格式，预定格式包括图像编码格式、图像编码帧率和图像尺寸；进行解码处理后，基于视频合成参数中的效果参数，对被选取的素材内容进行渲染，以合成视频。

解码处理可以由视频编解码器(Video Codec)完成，视频编解码器(Video Codec)是指一个能够对数字视频进行压缩或者解压缩的程序或者设备。通常这种压缩属于有损数据压缩。视频是连续的图像序列，由连续的帧构成，一帧即为一幅图像。由于人眼的视觉暂留效应，当帧序列以一定的速率播放时，我们看到的就是动作连续的视频。由于连续的帧之间相似性极高，为便于储存传输，我们需要对原始的视频进行编码压缩，以去除空间、时间维度的冗余。常见的视频编解码器有H.26X系列(H.263、H.264等)，MPEG((Moving PictureExperts Group，动态图像专家组)系列(Mpeg1 VCD(Video Compact Disc，视频压缩碟片)、Mpeg2 DVD(Digital Video Disc，高密度数字视频光盘)、Mpeg4 AVC(Advanced VideoCodec，先进视频编解码)等)。

渲染处理可以由OpenGL(Open Graphics Library，开放图形库/开放式图形库)是用于渲染2D、3D矢量图形的跨语言、跨平台的应用程序编程接口(API，ApplicationProgram Interface)。在视频渲染的过程中可以通过GLSL-OpenGL Shading Language(是一个以C语言为基础的高阶着色语言)实现各种特效和滤镜效果。

本申请实施例还公开了一种视频合成装置，应理解，装置400能够执行视频合成方法中的各个步骤，为了避免重复，此处不再详述。如图15所示，装置400包括：第一获取模块410、第一分析模块420及第一合成模块430。

第一获取模块410，用于获取用户给定的素材、视频合成策略选择信息、视频模板以及视频模板的配置信息，其中，用户给定的素材类型包括图片素材和/或视频素材，视频模板包括至少一个片段，视频模板的配置信息包括至少一个片段中每个片段的场景匹配信息；

第一分析模块420，用于对用户给定的素材进行场景分析，得到素材中每个素材的场景特征信息；以及

第一合成模块430，用于根据视频合成策略选择信息确定用户的视频合成策略，如果视频合成策略为定长合成策略，根据素材中每个素材的场景特征信息和视频模板中每个片段的场景匹配信息，将每个素材与视频模板中每个片段进行场景匹配，选取每个素材中场景匹配的内容填入视频模板对应的片段中，以合成视频。

在一种可选地实施例中，装置400还包括第一预测模块、第一调整模块、第二调整模块以及第二合成模块；

第一预测模块用于如果视频合成策略为不定长合成策略，则根据用户给定的素材预测第一时长；

第一调整模块用于如果第一时长大于视频模板的总时长，则选取视频模板中的至少一个片段增添至视频模板中，使得调整后的视频模板的总时长与第一时长之差不大于视频模板中最长片段的时长；

第二调整模块用于如果第一时长小于视频模板的总时长，则删减视频模板中的至少一个片段，使得调整后的视频模板的总时长与第一时长之差不大于视频模板中最长片段的时长；

第二合成模块用于根据素材中每个素材的场景特征信息和调整后的视频模板中每个片段的场景匹配信息，将每个素材与调整后的视频模板中每个片段进行场景匹配，选取每个素材中场景匹配的内容填入调整后的视频模板对应的片段中，以合成视频。

在一种可选地实施例中，装置400还包括：第二获取模块、第一检测模块及第三调整模块；

第二获取模块用于获取用户给定的背景音乐；

第一检测模块用于对用户给定的背景音乐进行节拍检测，得到用户给定的背景音乐的拍速；

第三调整模块用于根据背景音乐的拍速调整视频模板中至少一个片段的时长，使得视频模板中的各个片段的时长为拍速的整数倍。

在一种可选地实施例中，装置400还包括：装置还包括：第一确定模块、第一判断模块及第一拆分模块；

第一确定模块用于确定用户给定的素材的数量；

第一判断模块用于判断用户给定的素材的数量是否大于视频模板的片段数量；

第一拆分模块用于如果用户给定的素材的数量大于视频模板的片段数量，则对视频模板的至少一个片段进行拆分，使得视频模板的片段数量等于所述用户给定的素材的数量。

本申请还提供的一种电子设备，如图1所示，电子设备100包括存储器121、处理器110，存储器121中存储有计算机程序，处理器110与存储器121连接，处理器110执行计算机程序以实现如上述的视频合成方法。

本申请还提供了一种计算机存储介质，包括计算机指令，当计算机指令在电子设备上运行时，使得电子设备执行如上述的视频合成方法中的各个步骤。

本申请还提供了一种计算机程序产品，当计算机程序产品在计算机上运行时，该计算机程序产品在计算机上运行时，使得计算机执行上述视频合成方法中的各个步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上，仅为本申请的具体实施方式，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种视频合成方法，其特征在于，所述方法包括：

根据视频合成策略选择信息确定用户的视频合成策略，如果所述视频合成策略为定长合成策略，根据所述素材中每个素材的场景特征信息和所述视频模板中每个片段的场景匹配信息，将每个素材与所述视频模板中每个片段进行场景匹配，选取每个素材中场景匹配的内容填入所述视频模板对应的片段中，以合成视频；

如果所述视频合成策略为不定长合成策略，则根据用户给定的素材预测第一时长，所述第一时长与所述用户给定的素材的类型和数量相关联；

2.根据权利要求1所述的视频合成方法，其特征在于，所述方法还包括：

获取用户给定的背景音乐；

3.根据权利要求1-2任一项所述的视频合成方法，其特征在于，在根据所述素材中每个素材的场景特征信息和所述视频模板中每个片段的场景匹配信息，将每个素材与所述视频模板中每个片段进行场景匹配之前，所述方法还包括：

确定所述用户给定的素材的数量；

4.一种视频合成的装置，其特征在于，所述装置包括：

第一合成模块，用于根据视频合成策略选择信息确定用户的视频合成策略，如果所述视频合成策略为定长合成策略，根据所述素材中每个素材的场景特征信息和所述视频模板中每个片段的场景匹配信息，将每个素材与所述视频模板中每个片段进行场景匹配，选取每个素材中场景匹配的内容填入所述视频模板对应的片段中，以合成视频；

所述装置还包括第一预测模块、第一调整模块、第二调整模块以及第二合成模块；

所述第一预测模块用于如果所述视频合成策略为不定长合成策略，则根据用户给定的素材预测第一时长，所述第一时长与所述用户给定的素材的类型和数量相关联；

5.根据权利要求4所述的视频合成的装置，其特征在于，所述装置还包括：第二获取模块、第一检测模块及第三调整模块；

所述第二获取模块用于获取用户给定的背景音乐；

6.根据权利要求4-5任一项所述的视频合成的装置，其特征在于，所述装置还包括：第一确定模块、第一判断模块及第一拆分模块；

所述第一确定模块用于确定所述用户给定的素材的数量；

7.一种电子设备，其特征在于，所述电子设备包括存储器、处理器、触摸传感器及显示屏，所述存储器中存储有计算机程序，所述处理器与所述存储器连接，所述处理器执行计算机程序以实现如权利要求1～3中任一项所述的视频合成方法。

8.一种计算机存储介质，其特征在于，包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行如权利要求1～3中任一项所述的视频合成方法的步骤。