CN112153463B

CN112153463B - 一种多素材视频合成方法、装置、电子设备及存储介质

Info

Publication number: CN112153463B
Application number: CN202010919534.XA
Authority: CN
Inventors: 霍锴
Original assignee: Shanghai Qiniu Information Technology Co ltd
Current assignee: Shanghai Qiniu Information Technology Co ltd
Priority date: 2020-09-04
Filing date: 2020-09-04
Publication date: 2023-06-16
Anticipated expiration: 2040-09-04
Also published as: CN112153463A

Abstract

本发明涉及视频合成技术领域，提供一种多素材视频合成方法、装置、电子设备及存储介质，方法包括：获取素材的路径以及所述素材的参数信息，所述参数信息包括显示时间；根据获取所述路径的顺序以及所述显示时间计算每个素材的起始时间，并判断所述每个素材的类型；基于多个素材的获取顺序以及所述起始时间分别将素材的每一帧输入视频编码器进行编码；将所述第二类型的多个素材输入音频解码器进行解码，并重采样多个素材的音频数据进行时间重叠判断后，将所述音频数据输入音频编码器进行编码；将所述视频编码器编码得到的视频帧与所述音频编码器编码得到的音频帧进行融合输出。本发明能够实现不同类型的多素材视频合成。

Description

一种多素材视频合成方法、装置、电子设备及存储介质

技术领域

本发明涉及视频合成技术领域，尤其涉及一种多素材视频合成方法、装置、电子设备及存储介质。

背景技术

如今，随着短视频的发展，越来越丰富的视频制作玩法开始流行，比如当下流行的把几张图片素材拼接，最后合成一个视频的所谓“动态相册”的功能。但能够制作视频的素材并不应该是仅仅只有图片，但却难以对视频、音频、甚至GIF动画这些不同类型的素材进行视频合成。可见，现有技术中，对于动态视频合成存在素材类型单一的问题。

发明内容

本发明实施例提供一种多素材视频合成方法，能够融合多种类型的素材，解决动态视频合成存在的素材类型单一的问题。

第一方面，本发明实施例提供一种多素材视频合成方法，所述方法包括以下步骤：

获取素材的路径以及所述素材的参数信息，所述参数信息包括显示时间；

根据获取所述路径的顺序以及所述显示时间计算每个素材的起始时间，并判断所述每个素材的类型；

若存在多个素材为第一类型，则基于多个素材的获取顺序以及所述起始时间分别将素材的每一帧输入视频编码器进行编码，直到满足对应素材的所述显示时间；

若存在多个素材为第二类型，则将所述第二类型的多个素材输入音频解码器进行解码，并重采样多个素材的音频数据进行时间重叠判断后，将所述音频数据输入音频编码器进行编码；

将所述视频编码器编码得到的视频帧与所述音频编码器编码得到的音频帧进行融合输出。

第二方面，本发明实施例还提供一种多素材视频合成装置，包括：

获取模块，用于获取素材的路径以及所述素材的参数信息，所述参数信息包括显示时间；

计算模块，用于根据获取所述路径的顺序以及所述显示时间计算每个素材的起始时间，并判断所述每个素材的类型；

编码模块，用于若存在多个素材为第一类型，则基于多个素材的获取顺序以及所述起始时间分别将素材的每一帧输入视频编码器进行编码，直到满足对应素材的所述显示时间；

解码模块，用于若存在多个素材为第二类型，则将所述第二类型的多个素材输入音频解码器进行解码，并重采样多个素材的音频数据进行时间重叠判断后，将所述音频数据输入音频编码器进行编码；

融合模块，用于将所述视频编码器编码得到的视频帧与所述音频编码器编码得到的音频帧进行融合输出。

第三方面，本发明实施例还提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述实施例提供的多素材视频合成方法中的步骤。

第四方面，一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述实施例提供的多素材视频合成方法中的步骤。

本发明实施例中，由于获取素材的路径以及所述素材的参数信息，所述参数信息包括显示时间；根据获取所述路径的顺序以及所述显示时间计算每个素材的起始时间，并判断所述每个素材的类型；若存在多个素材为第一类型，则基于多个素材的获取顺序以及所述起始时间分别将素材的每一帧输入视频编码器进行编码，直到满足对应素材的所述显示时间；若存在多个素材为第二类型，则将所述第二类型的多个素材输入音频解码器进行解码，并重采样多个素材的音频数据进行时间重叠判断后，将所述音频数据输入音频编码器进行编码；将所述视频编码器编码得到的视频帧与所述音频编码器编码得到的音频帧进行融合输出。通过获取多种类型的素材后，将多种类型中第一类型的素材分别有序的输入到视频编码器进行编码，并且将第二类型的素材输入到音频解码器进行解码后对时间重叠的情况进行混音处理后再输入到音频编码器进行编码，然后将编码得到的视频帧以及音频帧进行融合处理后输出多素材带有音频的动态视频，实现了动态视频中多种类型的素材融合，解决了动态视频合成存在的素材类型单一的问题，增强动态视频的呈现效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种多素材视频合成方法的流程图；

图2是本发明实施例提供的另一种多素材视频合成方法的流程图；

图3是本发明实施例提供的另一种多素材视频合成方法的流程图；

图4是本发明实施例提供的一种多素材视频合成装置的结构示意图；

图5是本发明实施例提供的另一种多素材视频合成装置的结构示意图；

图6是本发明实施例提供的另一种多素材视频合成装置的结构示意图；

图7是本发明实施例提供的另一种多素材视频合成装置的结构示意图；

图8是本发明实施例提供的另一种多素材视频合成装置的结构示意图；

图9是本发明实施例提供的另一种多素材视频合成装置的结构示意图；

图10是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请的说明书和权利要求书及附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

如图1所示，图1是本发明实施例提供的一种多素材视频合成方法的流程图，上述多素材视频合成方法包括以下步骤：

S101、获取素材的路径以及素材的参数信息，参数信息包括显示时间。

在本实施例中，上述多素材视频合成方法可以运用在智能手机、智能平板等终端设备上。上述多素材视频合成方法运行于其上的电子设备可以通过有线连接方式或者无线连接方式获取素材以及素材的参数信息、路径等。上述无线连接方式可以包括但不限于3G/4G连接、WiFi(Wireless-Fidelity)连接、蓝牙连接、WiMAX(Worldwide Interoperabilityfor Microwave Access)连接、Zigbee(低功耗局域网协议，又称紫峰协议)连接、UWB(ultrawideband)连接、以及其他现在已知或将来开发的无线连接方式。

上述的素材可以包括图片素材、gif动画素材、视频素材、音频素材等等类型。素材为多素材(多种类型的素材)，多素材的路径可以通过路径列表的形式表示，每个素材在路径列表中都有对应的路径，根据路径可以获取对应的素材。上述的参数信息可以表示素材的一些性能、特性对应的数据，且每个素材都有各自对应的参数信息，不同类型的素材对应的参数信息不同，同种类型的不同素材对应的参数信息也可以不同。上述的显示时间可以表示素材对应的展示时间，例如：第一输入的图片素材显示时间为5s，第二输入的视频素材显示时间为10s，第三输入的gif动画视频显示时间为5s。此外，在获取素材的同时，还可以对视频输出参数信息进行初始化设置，例如：对输出视频的每秒传输帧数(FPS)、分辨率、码率、音频采样率(预设的音频采样率)进行初始化设置。

S102、根据获取路径的顺序以及显示时间计算每个素材的起始时间，并判断每个素材的类型。

其中，获取每一个素材的路径时可以是串行获取，即依次获取。因此可以根据获取素材的先后顺序以及每个素材对应的显示时间，就可以计算出每个素材的起始时间，例如：获取到的第一个素材为图片素材，其显示时间为5s，起始时间为0；第二个素材为视频素材，显示时间为10s，起始时间承接在图片素材之后，即起始时间为5；第二个素材为gif动画素材，显示时间为5s，起始时间承接在视频素材之后，即起始时间为15。当然，上述只是示意列举，也开始是先获取到视频素材、gif动画素材等。上述判断每个素材的类型可以是计算出每个素材的起始时间之后再判断，也可以是在计算出每个素材的起始时间之前判断，具体判断时间不做唯一限定。判断出不同的素材类型后可以根据不同类型的素材执行不同的操作。

S103、若存在多个素材为第一类型，则基于多个素材的获取顺序以及起始时间分别将素材的每一帧输入视频编码器进行编码，直到满足对应素材的显示时间。

其中，上述的第一类型可以包括图片类型、gif动画类型、视频类型。当获取到的多素材中存在至少2个素材属于第一类型，则可以根据素材的获取顺序结合素材的起始时间、显示时间将素材的每一帧逐次的输入到视频编码器中进行编码，且输入到视频编码器中的素材需要等前一个素材的所有帧输入完成后，才开始对后一个素材的图片帧进行输入。

上述直到满足对应素材的显示时间可以表示在向视频编码器中输入图片帧时，可以根据每一帧的时间等信息计算当前显示时间，若当前显示时间达到该素材的显示时间时，可以停止该素材的继续输入，转而对下一个素材进行输入，例如：第一输入的图片素材A的显示时间为5s，将图片素材A输入到视频编码器中当前帧对应的当前显示时间为5s，则不用继续对该图片素材A的后续图片帧进行输入，接着进行输入视频素材。

S104、若存在多个素材为第二类型，则将第二类型的多个素材输入音频解码器进行解码，并重采样多个素材的音频数据进行时间重叠判断后，将音频数据输入音频编码器进行编码。

其中，第二类型可以包括音频类型，也即是音频素材。且作为一种可能的方式，视频素材中包括有视频数据的同时，也可以包括有音频数据。当包括有两者的情况下，可以对视频数据与音频数据进行分离。因此，上述的多个素材为第二类型即可以包括从视频数据中分离出来的音频数据，还可以包括直接获取到的音频数据。具体的，为了区分音频数据，可以将从视频素材中分离出来的音频数据作为以第一音频数据，将直接获取到音频数据作为第二音频数据。

为判断多个音频素材中包括的音频数据之间是否有重叠的信息，可以先将多个音频素材分别输入到音频解码器中解码，重新对各音频素材中的脉冲编码调制(PCM，pulsecode modulation)进行采样，并根据各音频素材的PCM数据判断第一音频数据与第二音频数据之间是否存在时间重叠的情况。上述PCM是MP3、MP4等音频文件编码解码时所用的格式，数字音频由模拟音频信号转换而来，转换的方式是通过取样与量化的过程。一般而言，数字信号是用脉冲编码调制(PCM：pulse code modulation)的格式表示。

上述完成时间重叠判断后，若存在重叠的部分，则可以将重叠的部分进行混音处理之后输入到音频编码器中进行编码。若不存在重叠的部分，则可以直接依次将第一音频数据以及第二音频数据输入到音频编码器中进行编码。

S105、将视频编码器编码得到的视频帧与音频编码器编码得到的音频帧进行融合输出。

其中，通过视频编码器对第一类型的多个素材进行编码之后可以得到编码后的视频帧，通过音频编码器对第二类型的多个素材进行编码之后可以得到编码之后的音频帧。此时可以将音频帧与视频帧通过muxer混合，最终以MP4格式进行输出，实现了一个多类型的动态视频的融合。

需要说明的是，上述的音频编码器、音频解码器以及视频编码器的信型号可以自定义选择。

本发明实施例中，由于获取素材的路径以及素材的参数信息，参数信息包括显示时间；根据获取路径的顺序以及显示时间计算每个素材的起始时间，并判断每个素材的类型；若存在多个素材为第一类型，则基于多个素材的获取顺序以及起始时间分别将素材的每一帧输入视频编码器进行编码，直到满足对应素材的显示时间；若存在多个素材为第二类型，则将第二类型的多个素材输入音频解码器进行解码，并重采样多个素材的音频数据进行时间重叠判断后，将音频数据输入音频编码器进行编码；将视频编码器编码得到的视频帧与音频编码器编码得到的音频帧进行融合输出。通过获取多种类型的素材后，将多种类型中第一类型的素材分别有序的输入到视频编码器进行编码，并且将第二类型的素材输入到音频解码器进行解码后对时间重叠的情况进行混音处理后再输入到音频编码器进行编码，然后将编码得到的视频帧以及音频帧进行融合处理后输出多素材带有音频的动态视频，实现了动态视频中多种类型的素材融合，解决了动态视频合成存在的素材类型单一的问题，增强动态视频的呈现效果。

如图2所示，图2是本发明实施例提供的另一种方法流程图，具体包括以下步骤：

S201、获取素材的路径以及素材的参数信息，参数信息包括显示时间。

S202、根据获取路径的顺序以及显示时间计算每个素材的起始时间，并判断每个素材的类型。

S203、若判断出素材为图片类型的图片素材，则根据预设的图片素材的单位传输帧数计算图片素材每一帧的间隔时间。

其中，在判断类型之前，可以对输出视频的多个参数进行初始化，例如：初始化每秒传输帧数(FPS)、分辨率、码率、音频采样率(预设的音频采样率)。当判断素材为图片素材时，可以基于图片素材的FPS计算每一帧图片的间隔时间，例如：图片素材的FPS为30，则每一帧的时间间隔为33ms。

S204、根据图片素材的起始时间以及图片素材每一帧的间隔时间计算图片素材的每一帧的时间戳。

其中，计算图片素材的每一帧的时间戳(timestamp，通常是一个字符序列，唯一地标识某一刻的时间)可以是将该图片素材的起始时间与间隔时间求和，即时间戳＝起始时间+间隔时间。从时间戳中，可以得知当前为图片素材的第几帧。

S205、持续将图片素材的剩余帧以及每一帧对应的时间戳输入到视频编码器，直到输入的图片素材帧数对应的时间戳满足图片素材的显示时间时，通过视频编码器对图片素材进行编码。

其中，持续将图片素材的剩余帧以及每一帧对应的时间戳输入到视频编码器中，可以实时计算出当前为第几帧，当满足条件后便可以通过视频编码器对输入的n帧图片进行编码。满足条件可以指输入的图片素材帧数对应的时间戳满足图片素材的显示时间，例如：图片素材的显示时间为2s，那么fps为30的情况下，需要将图片素材输入到视频编码器60帧一样的图片数据，其中，每一帧的时间戳是不同的，每个时间戳之间的间隔时间为33ms。

S206、若存在多个素材为第二类型，则将第二类型的多个素材输入音频解码器进行解码，并重采样多个素材的音频数据进行时间重叠判断后，将音频数据输入音频编码器进行编码。

S207、将视频编码器编码得到的视频帧与音频编码器编码得到的音频帧进行融合输出。

可选的，上述步骤S103还包括：

第一类型还包括动画类型，若判断出素材为动画类型的动画素材，则将动画素材输入到动画解码器中解码，输出动画素材的每一帧图片以及与每一帧图片对应的时间戳。

其中，上述的动画类型可以包括gif动画素材。当判断出第一类型中的素材为gif动画素材时，需要先将gif动画素材输入到动画解码器(gif解码器)中根据动画解码器的解码方式进行解码，提取gif动画素材中每一帧图片以及与每一帧图片对应的时间戳。

将每一帧图片对应的时间戳重新赋值为与动画素材的起始时间相加之后的图片重置时间戳。

其中，然后对解码后的每一帧图片对应的时间戳进行重新赋值，重新赋值后的得到的图片重置时间戳为该gif动画素材的每一帧图片对应的时间戳与起始时间之和，例如：gif动画素材的第k帧图片对应的时间戳为60，起始时间为5，则重置后的图片重置时间戳为65。

当图片素材的所有帧输入到视频编码器后，持续将动画素材的每一帧图片以及赋值后对应每一帧图片的图片重置时间戳输入到视频编码器。

其中，为了控制有序的将多个均为第一类型的素材分别有序的输入到视频编码器后，可以在前一个输入到视频编码器中的素材完成输入之后，再接着将后一个继续输入。也即是，当第一输入的为图片素材，则先完成图片素材的输入，然后再持续输入gif动画素材的每一帧图片以及赋值后对应每一帧图片的图片重置时间戳。

直到动画素材持续输入的图片重置时间戳满足动画素材的显示时间时，通过视频编码器对输入的动画素材的多帧图片进行编码。

其中，当持续输入gif动画素材的每一帧图片以及赋值后对应每一帧图片的图片重置时间戳之后，可以实时将图片重置时间戳与该gif动画素材的显示时间进行比较，判断图片重置时间戳是否达到显示时间。若达到时，则停止继续对gif动画素材的后续图片帧进行输入，并通过视频编码器对已输入的动画素材的多帧图片进行编码。作为一种可能的实施例方式，对于gif动画素材未输入的部分(超过显示时间的部分)可以进行丢弃。

可选的，上述步骤103还包括：

若判断出素材为视频类型的视频素材，则将视频素材进行分解，得到视频数据。

其中，第一类型中还包括视频类型。视频类型对应的素材为视频素材。若判断为视频素材，则可以将视频素材进行分解，在视频素材中既可以包括有视频数据，也可以包括有第一音频数据。

将视频数据输入到视频解码器进行解码，输出原始视频帧以及时间戳序列。

其中，针对视频数据的情况，可以将分解出来的视频数据输入到视频解码器中根据设定的解码方式进行解码。解码后可以提取出视频数据的原始视频帧以及时间戳序列。上述的原始视频帧可以表示视频素材中的视频数据与第一音频数据为混合之前的视频帧，上述的时间戳序列可以是指与原始视频帧的多个视频帧一一对应的时间戳组合形成的序列。

将每一原始图像帧对应的时间戳重新赋值为与视频素材的起始时间相加之后的视频重置时间戳。

其中，提取出原始图像帧以及原始图像帧对应的时间戳之后，可以对原始图像帧对应的时间戳进行重新赋值，得到视频重置时间戳。其每一帧对应的视频重置时间戳可以是该每一帧原始图像帧对应的时间戳与视频素材的起始时间之和。

当动画素材完成输入到视频编码器后，持续的将视频素材的每一原始图像帧以及对应每一原始图像帧赋值后的视频重置时间戳输入到视频编码器。

其中，为了控制有序的将不同类型的素材输入到视频编码器中编码，因此需要依次输入，所以当动画素材完成输入之后，再持续将视频素材的每一原始图像帧以及对应每一原始图像帧赋值后的视频重置时间戳输入到视频编码器。

直到视频重置时间戳满足视频素材的显示时间，通过视频编码器对输入的原始图像帧进行编码。

其中，可以实时判断视频重置时间戳是否满足视频素材的显示时间，不满足的情况下就继续输入，满足的情况下便可以停止继续输入，并通过视频编码器对已经输入的视频素材的原始图像帧进行编码。

可选的，上述将视频素材进行分解的步骤包括：

对视频素材进行分解，得到第一音频数据。

其中，视频素材中除了视频数据之外，还可以包括音频数据，因此对视频素材进行分解之后还可以得到上述的第一音频数据。

将第一音频数据输入到音频解码器进行解码，得到第一音频数据的音频采样率。

其中，音频采样率是指录音设备在一秒钟内对声音信号的采样次数，采样频率越高声音的还原就越真实越自然。在当今的主流采集卡上，采样频率一般共分为11025Hz、22050Hz、24000Hz、44100Hz、48000Hz五个等级，11025Hz能达到AM调幅广播的声音品质，而22050Hz和24000HZ能达到FM调频广播的声音品质。将第一音频数据输入到音频解码器之中，音频解码器可以对第一音频数据进行解码，并提取出第一音频数据中的音频采样率。

若判断出第一音频数据的音频采样率与预设的音频采样率不一致，则将解码得到的第一音频数据进行重采样。

采样到第一音频数据中的音频采样率后，可以判断第一音频数据的音频采样率与预设的音频采样率是否一致。若不一致，可以表示不满足预设的音频采样率，此时为了保证第一音频数据中的音频采样率满足预设的音频采样率，可以对解码得到的第一音频数据进行重采样，以保持预设的音频采样率。

在本发明实施例中，通过根据多素材的类型分别执行对应的操作，最后将不同类型的素材输入到视频编码器中进行编码，进而实现多种类型的素材进行视频合成，解决的视频合成的素材类型单一性问题。

如图3所示，图3是本发明实施例提供的另一种方法流程图，包括以下步骤：

S301、获取素材的路径以及素材的参数信息，参数信息包括显示时间。

S302、根据获取路径的顺序以及显示时间计算每个素材的起始时间，并判断每个素材的类型。

S303、若存在多个素材为第一类型，则基于多个素材的获取顺序以及起始时间分别将素材的每一帧输入视频编码器进行编码，直到满足对应素材的显示时间。

S304、当第一类型为视频类型时，对视频素材进行分解，得到第一音频数据。

S305、将第一音频数据输入到音频解码器进行解码，得到第一音频数据的音频采样率。

S306、若判断出第一音频数据的音频采样率与预设的音频采样率不一致，则将解码得到的第一音频数据进行重采样。

S307、第二类型包括音频类型，若判断出素材为音频类型的音频素材，则将音频素材输入到音频解码器解码，得到第二音频数据。

其中，对应音频类型的素材为音频素材，当判断出素材为音频类型的音频素材时，可以将音频素材输入到音频解码器根据预定的解码方式进行解码，得到第二音频数据。上述的第一音频数据与第二音频数据只起到区分作用，不进行大小、顺序区分。

S308、当判断第二音频数据的音频采样率与预设的音频采样率不一致，则对第二音频数据进行重采样。

其中，获取到第二音频数据的音频采样率后，可以判断第二音频数据的音频采样率与预设的音频采样率是否一致，若不一致，则可以依据预设的音频采样率对第二音频数据进行重采样。

S309、判断重采样后第一音频数据与重采样后第二音频数据是否存在时间重叠。

其中，对第二音频数据进行重采样之后，可以将重采样后的第一音频数据与重采样后第二音频数据进行比较，判断两者的时间是否出现重合现象。出现时间重合的情况时，需要对时间重合的音频数据部分进行处理，否则会出现数据播放混乱等情况。

S310、若重采样后第一音频数据与重采样后第二音频数据存在时间重叠，则将重采样后第一音频数据的音频采样率与重采样后第二音频数据的音频采样率相同的部分进行混音后，输入到音频编码器中进行编码。

其中，若重采样后第一音频数据与重采样后第二音频数据存在时间重叠，可以将时间重叠部分进行混音。上述混音是音乐制作中的一个步骤，是把多种来源的声音，整合至一个立体音轨或单音音轨中。这些混合声音信号，来源可能分别来自不同的乐器、人声或管弦乐，收录自现场演奏或录音室内。在混音的过程中，可以将每一个原始信号的频率、动态、音质、定位、残响和声场单独进行调整，让各音轨最佳化，之后再叠加于最终成品上。完成时间重叠部分的混音之后，便可以将第一音频数据与第二音频数据的音频采样率相同的PCM数据进行混音之后，输入到音频编码器中进行编码。

S311、若第一音频数据与第二音频数据不存在时间重叠，则有序将第一音频数据与第二音频数据输入到音频编码器中进行编码。

其中，也可以是第一音频数据与第二音频数据没有出现时间重叠的部分，此时则只需要按照顺序将第一音频数据与第二音频数据分别输入到音频编码器中进行编码即可。

S312、将视频编码器编码得到的视频帧与音频编码器编码得到的音频帧进行融合输出。

在本发明实施例中，当出现多个音频数据时，可以将多个音频数据先进行解码判断各自的音频采样率是否与预设的音频采样率一致。若是不一致的情况，则分别进行重采样，并将重采样后的音频数据进行时间重叠的判断，对出现时间重叠的数据部分进行混音处理之后再输入到音频编码器中编码，最后再将音频编码器编码得到的音频帧与视频编码器编码得到的视频帧进行混合输出。这样，可以避免音频数据时间重合的部分造成音频播放混乱的情况。同时对多种类型的素材进行融合，最终实现多素材类型的视频合成。

如图4所示，图4是本发明实施例提供的一种多素材视频合成装置的结构示意图，多素材视频合成装置400包括：

获取模块401，用于获取素材的路径以及素材的参数信息，参数信息包括显示时间；

计算模块402，用于根据获取路径的顺序以及显示时间计算每个素材的起始时间，并判断每个素材的类型；

编码模块403，用于若存在多个素材为第一类型，则基于多个素材的获取顺序以及起始时间分别将素材的每一帧输入视频编码器进行编码，直到满足对应素材的显示时间；

解码模块404，用于若存在多个素材为第二类型，则将第二类型的多个素材输入音频解码器进行解码，并重采样多个素材的音频数据进行时间重叠判断后，将音频数据输入音频编码器进行编码；

融合模块405，用于将视频编码器编码得到的视频帧与音频编码器编码得到的音频帧进行融合输出。

可选的，第一类型包括图片类型，如图5所示，图5是本发明实施例提供的另一种多素材视频合成装置的结构示意图，编码模块403包括：

提取单元4031，用于若判断出素材为图片类型的图片素材，则根据预设的图片素材的单位传输帧数计算图片素材每一帧的间隔时间；

第一计算单元4032，用于根据单位传输帧数计算图片素材每一帧的间隔时间；

第二计算单元4033，用于根据图片素材的起始时间以及图片素材每一帧的间隔时间计算图片素材的每一帧的时间戳；

第一编码单元4034，用于持续将图片素材的剩余帧以及每一帧对应的时间戳输入到视频编码器，直到输入的图片素材帧数对应的时间戳满足图片素材的显示时间时，通过视频编码器对图片素材进行编码。

可选的，第一类型还包括动画类型，如图6所示，图6是本发明实施例提供的另一种多素材视频合成装置的结构示意图，编码模块403还包括：

第一解码单元4035，用于若判断出素材为动画类型的动画素材，则将动画素材输入到动画解码器中解码，输出动画素材的每一帧图片以及与每一帧图片对应的时间戳；

第一赋值单元4036，用于将每一帧图片对应的时间戳重新赋值为与动画素材的起始时间相加之后的图片重置时间戳；

第一输入单元4037，用于当图片素材的所有帧输入到视频编码器后，持续将动画素材的每一帧图片以及赋值后对应每一帧图片的图片重置时间戳输入到视频编码器；

第二编码单元4038，用于直到动画素材持续输入的图片重置时间戳满足动画素材的显示时间时，通过视频编码器对输入的动画素材的多帧图片进行编码。

可选的，第一类型还包括视频类型，如图7所示，图7是本发明实施例提供的另一种多素材视频合成装置的结构示意图，编码模块403还包括：

分解单元4039，用于若判断出素材为视频类型的视频素材，则将视频素材进行分解，得到视频数据；

第二解码单元4100，用于将视频数据输入到视频解码器进行解码，输出原始视频帧以及时间戳序列；

第二赋值单元4101，用于将每一原始图像帧对应的时间戳重新赋值为与视频素材的起始时间相加之后的视频重置时间戳；

第二输入单元4102，用于当动画素材完成输入到视频编码器后，持续的将视频素材的每一原始图像帧以及对应每一原始图像帧赋值后的视频重置时间戳输入到视频编码器；

第三编码单元4103，用于直到视频重置时间戳满足视频素材的显示时间，通过视频编码器对输入的原始图像帧进行编码。

可选的，如图8所示，图8是本发明实施例提供的另一种多素材视频合成装置的结构示意图，分解单元4039包括：

分解子单元40391，用于对视频素材进行分解，得到第一音频数据；

音频解码子单元40392，用于将第一音频数据输入到音频解码器进行解码，得到第一音频数据的音频采样率；

重采样子单元40393，用于若判断出第一音频数据的音频采样率与预设的音频采样率不一致，则将解码得到的第一音频数据进行重采样。

可选的，第二类型包括音频类型，如图9所示，图9是本发明实施例提供的另一种多素材视频合成装置的结构示意图，解码模块404包括：

第三解码单元4041，用于若判断出素材为音频类型的音频素材，则将音频素材输入到音频解码器解码，得到第二音频数据；

重采样单元4042，用于当判断第二音频数据的音频采样率与预设的音频采样率不一致，则对第二音频数据进行重采样；

时间判断单元4043，用于判断重采样后第一音频数据与重采样后第二音频数据是否存在时间重叠；

混音单元4044，用于若重采样后第一音频数据与重采样后第二音频数据存在时间重叠，则将重采样后第一音频数据的音频采样率与重采样后第二音频数据的音频采样率相同的部分进行混音后，输入到音频编码器中进行编码；

第三输入单元4045，用于若第一音频数据与第二音频数据不存在时间重叠，则有序将第一音频数据与第二音频数据输入到音频编码器中进行编码。

如图10所示，图10是本发明实施例提供的一种电子设备的结构示意图，该电子设备1000包括：处理器1001、存储器1002、网络接口1003及存储在存储器1002上并可在处理器1001上运行的计算机程序，处理器1001执行计算机程序时实现实施例提供的多素材视频合成方法中的步骤。

具体的，处理器1001用于执行以下步骤：

获取素材的路径以及素材的参数信息，参数信息包括显示时间；

根据获取路径的顺序以及显示时间计算每个素材的起始时间，并判断每个素材的类型；

若存在多个素材为第一类型，则基于多个素材的获取顺序以及起始时间分别将素材的每一帧输入视频编码器进行编码，直到满足对应素材的显示时间；

若存在多个素材为第二类型，则将第二类型的多个素材输入音频解码器进行解码，并重采样多个素材的音频数据进行时间重叠判断后，将音频数据输入音频编码器进行编码；

将视频编码器编码得到的视频帧与音频编码器编码得到的音频帧进行融合输出。

可选的，第一类型包括图片类型，处理器1001执行的基于多个素材的获取顺序以及起始时间分别将素材的每一帧输入视频编码器进行编码，直到满足对应素材的显示时间的步骤包括：

若判断出素材为图片类型的图片素材，则根据预设的图片素材的单位传输帧数计算图片素材每一帧的间隔时间；

根据图片素材的起始时间以及图片素材每一帧的间隔时间计算图片素材的每一帧的时间戳；

持续将图片素材的剩余帧以及每一帧对应的时间戳输入到视频编码器，直到输入的图片素材帧数对应的时间戳满足图片素材的显示时间时，通过视频编码器对图片素材进行编码。

可选的，第一类型还包括动画类型，处理器1001执行的基于多个素材的获取顺序以及起始时间分别将素材的每一帧输入视频编码器进行编码，直到满足对应素材的显示时间的步骤还包括：

若判断出素材为动画类型的动画素材，则将动画素材输入到动画解码器中解码，输出动画素材的每一帧图片以及与每一帧图片对应的时间戳；

将每一帧图片对应的时间戳重新赋值为与动画素材的起始时间相加之后的图片重置时间戳；

当图片素材的所有帧输入到视频编码器后，持续将动画素材的每一帧图片以及赋值后对应每一帧图片的图片重置时间戳输入到视频编码器；

可选的，第一类型还包括视频类型，处理器1001执行的基于多个素材的获取顺序以及起始时间分别将素材的每一帧输入视频编码器进行编码，直到满足对应素材的显示时间的步骤还包括：

若判断出素材为视频类型的视频素材，则将视频素材进行分解，得到视频数据；

将视频数据输入到视频解码器进行解码，输出原始视频帧以及时间戳序列；

将每一原始图像帧对应的时间戳重新赋值为与视频素材的起始时间相加之后的视频重置时间戳；

当动画素材完成输入到视频编码器后，持续的将视频素材的每一原始图像帧以及对应每一原始图像帧赋值后的视频重置时间戳输入到视频编码器；

可选的，处理器1001执行的若判断出素材为视频类型的视频素材，则将视频素材进行分解的步骤还包括：

对视频素材进行分解，得到第一音频数据；

将第一音频数据输入到音频解码器进行解码，得到第一音频数据的音频采样率；

可选的，第二类型包括音频类型，处理器1001执行的将第二类型的多个素材输入音频解码器进行解码，并重采样多个素材的音频数据进行时间重叠判断后，将音频数据输入音频编码器进行编码的步骤包括：

若判断出素材为音频类型的音频素材，则将音频素材输入到音频解码器解码，得到第二音频数据；

当判断第二音频数据的音频采样率与预设的音频采样率不一致，则对第二音频数据进行重采样；

判断重采样后第一音频数据与重采样后第二音频数据是否存在时间重叠；

若重采样后第一音频数据与重采样后第二音频数据存在时间重叠，则将重采样后第一音频数据的音频采样率与重采样后第二音频数据的音频采样率相同的部分进行混音后，输入到音频编码器中进行编码；

若第一音频数据与第二音频数据不存在时间重叠，则有序将第一音频数据与第二音频数据输入到音频编码器中进行编码。

本发明实施例提供的电子设备1000能够实现多素材视频合成方法实施例中的各个实施方式，以及相应有益效果，为避免重复，这里不再赘述。

需要指出的是，图中仅示出了具有组件的1001-1003，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的电子设备1000是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable GateArray，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

电子设备1000可以是桌上型计算机、笔记本及掌上电脑等计算设备。电子设备1000可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

存储器1002至少包括一种类型的可读存储介质，可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器1002可以是电子设备1000的内部存储单元，例如该电子设备1000的硬盘或内存。在另一些实施例中，存储器1002也可以是电子设备1000的外部存储设备，例如该电子设备1000上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器1002还可以既包括电子设备1000的内部存储单元也包括其外部存储设备。本实施例中，存储器1002通常用于存储安装于电子设备1000的操作系统和各类应用软件，例如多素材视频合成方法的程序代码等。此外，存储器1002还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器1001在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器1001通常用于控制电子设备1000的总体操作。本实施例中，处理器1001用于运行存储器1002中存储的程序代码或者处理数据，例如运行多素材视频合成方法的程序代码。

网络接口1003可包括无线网络接口或有线网络接口，该网络接口1003通常用于在电子设备1000与其他电子设备之间建立通信连接。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器1001执行时实现实施例提供的多素材视频合成方法中的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现实施例多素材视频合成方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如各方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存取存储器(Random AccessMemory，简称RAM)等。

在本发明实施例中提到的第一、第二等并不表示大小，只是为了便于表述。以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种多素材视频合成方法，其特征在于，包括以下步骤：

若存在多个素材为第一类型，则基于多个素材的获取顺序以及所述起始时间分别将素材的每一帧输入视频编码器进行编码，直到满足对应素材的所述显示时间，当所述第一类型为图片类型时，其步骤包括：

若判断出所述素材为图片类型的图片素材，则根据预设的所述图片素材的单位传输帧数计算所述图片素材每一帧的间隔时间；

根据所述图片素材的所述起始时间以及所述图片素材每一帧的间隔时间计算所述图片素材的每一帧的时间戳；

持续将所述图片素材的剩余帧以及每一帧对应的时间戳输入到所述视频编码器，直到输入的图片素材帧数对应的时间戳满足所述图片素材的显示时间时，通过所述视频编码器对所述图片素材进行编码；

2.如权利要求1所述的多素材视频合成方法，其特征在于，当所述第一类型为动画类型时，其步骤包括：

若判断出所述素材为动画类型的动画素材，则将所述动画素材输入到动画解码器中解码，输出所述动画素材的每一帧图片以及与每一帧图片对应的时间戳；

将所述每一帧图片对应的时间戳重新赋值为与所述动画素材的所述起始时间相加之后的图片重置时间戳；

当所述图片素材的所有帧输入到所述视频编码器后，持续将所述动画素材的每一帧图片以及赋值后对应所述每一帧图片的图片重置时间戳输入到所述视频编码器；

直到所述动画素材持续输入的图片重置时间戳满足所述动画素材的所述显示时间时，通过所述视频编码器对所述输入的所述动画素材的多帧图片进行编码。

3.如权利要求1所述的多素材视频合成方法，其特征在于，当所述第一类型为视频类型时，其步骤包括：

若判断出所述素材为视频类型的视频素材，则将所述视频素材进行分解，得到视频数据；

将所述视频数据输入到视频解码器进行解码，输出原始视频帧以及时间戳序列；

将每一原始图像帧对应的时间戳重新赋值为与所述视频素材的起始时间相加之后的视频重置时间戳；

当所述视频素材完成输入到所述视频编码器后，持续的将所述视频素材的每一所述原始图像帧以及对应每一所述原始图像帧赋值后的视频重置时间戳输入到所述视频编码器；

直到所述视频重置时间戳满足所述视频素材的所述显示时间，通过所述视频编码器对输入的所述原始图像帧进行编码。

4.如权利要求3所述的多素材视频合成方法，其特征在于，所述若判断出所述素材为视频类型的视频素材，则将所述视频素材进行分解的步骤还包括：

对所述视频素材进行分解，得到第一音频数据；

将所述第一音频数据输入到所述音频解码器进行解码，得到所述第一音频数据的音频采样率；

若判断出所述第一音频数据的音频采样率与预设的音频采样率不一致，则将解码得到的所述第一音频数据进行重采样。

5.如权利要求1所述的多素材视频合成方法，其特征在于，所述第二类型包括音频类型，所述将所述第二类型的多个素材输入音频解码器进行解码，并重采样多个素材的音频数据进行时间重叠判断后，将所述音频数据输入音频编码器进行编码的步骤包括：

若判断出所述素材为音频类型的音频素材，则将所述音频素材输入到所述音频解码器解码，得到第二音频数据；

当判断所述第二音频数据的音频采样率与预设的音频采样率不一致，则对所述第二音频数据进行重采样；

判断重采样后第一音频数据与重采样后所述第二音频数据是否存在时间重叠；

若所述重采样后所述第一音频数据与重采样后所述第二音频数据存在时间重叠，则将重采样后所述第一音频数据的音频采样率与重采样后所述第二音频数据的音频采样率相同的部分进行混音后，输入到所述音频编码器中进行编码；

若所述第一音频数据与所述第二音频数据不存在时间重叠，则有序将所述第一音频数据与所述第二音频数据输入到所述音频编码器中进行编码。

6.一种多素材视频合成装置，其特征在于，包括：

编码模块，用于若存在多个素材为第一类型，则基于多个素材的获取顺序以及所述起始时间分别将素材的每一帧输入视频编码器进行编码，直到满足对应素材的所述显示时间，所述编码模块包括：

提取单元，用于若判断出所述素材为图片类型的图片素材，则根据预设的所述图片素材的单位传输帧数计算所述图片素材每一帧的间隔时间；

第一计算单元，用于根据所述单位传输帧数计算所述图片素材每一帧的间隔时间；

第二计算单元，用于根据所述图片素材的所述起始时间以及所述图片素材每一帧的间隔时间计算所述图片素材的每一帧的时间戳；

第一编码单元，用于持续将所述图片素材的剩余帧以及每一帧对应的时间戳输入到所述视频编码器，直到输入的图片素材帧数对应的时间戳满足所述图片素材的显示时间时，通过所述视频编码器对所述图片素材进行编码；

7.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的多素材视频合成方法中的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的多素材视频合成方法中的步骤。