CN114245036A

CN114245036A - 视频制作方法及装置

Info

Publication number: CN114245036A
Application number: CN202111571480.3A
Authority: CN
Inventors: 张鹏宇; 谢振威; 常志伟
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-03-25
Anticipated expiration: 2041-12-21
Also published as: CN114245036B

Abstract

本公开关于一种视频制作方法及装置。视频制作方法包括：响应于至少一个特效被触发的情况，获取至少一个特效对应的混合音频，其中，混合音频是至少一个特效中每个特效对应的音频信息按每个特效被触发的时间顺序进行混合得到的；基于待处理视频、至少一个特效和混合音频，得到目标视频。通过本公开，解决了相关技术中多个音频播放器共存导致内存压力大的问题。

Description

视频制作方法及装置

技术领域

本公开涉及音视频领域，尤其涉及一种视频制作方法及装置。

背景技术

在拍摄短视频时，往往会提供丰富的魔法表情让创作更有趣味。一个魔法表情中往往会包含多个特效，为了让用户获得更加沉浸式的体验，特效出现往往会伴随音乐播放。一般情况下，魔法表情在被不同事件触发时会出现不同的特效，而不同的特效出现时常会带有对应的音乐，上述不同的特效可以叠加并且每个特效持续时间都可以不一样，故对应音乐叠加和持续时间也不同。

目前的短视频拍摄场景，魔法表情播放音乐时会为每个特效对应的音乐都单独创建一个音频播放器，虽然能达到同时播放多个音乐的效果，但是多个音频播放器共存导致内存压力大，会面临机器性能的挑战。

发明内容

本公开提供一种视频制作方法及装置，以至少解决相关技术中多个音频播放器共存导致内存压力大的问题。

根据本公开实施例的第一方面，提供一种视频制作方法，包括：响应于至少一个特效被触发的情况，获取至少一个特效对应的混合音频，其中，混合音频是至少一个特效中每个特效对应的音频信息按每个特效被触发的时间顺序进行混合得到的；基于待处理视频、至少一个特效和混合音频，得到目标视频。

可选地，获取至少一个特效对应的混合音频，包括：获取至少一个特效对应的音频文件；按至少一个特效被触发的时间顺序，将至少一个特效中每个特效的标识对应的音频信息依次进行混合，得到混合音频，其中，标识用于指示每个特效在音频文件中的音频信息。

可选地，基于待处理视频、至少一个特效和混合音频，得到目标视频，包括：将至少一个特效中每个特效按各自被触发的时间与待处理视频进行编码，得到编码后的视频；按编码混合音频的时间戳和编码所述编码后的视频的时间戳满足预设的对应关系的方式，对编码后的视频和混合音频进行编码，得到目标视频，其中，预设的对应关系是基于采集待处理视频的时间戳和播放混合音频的时间戳确定的。

可选地，基于待处理视频、至少一个特效和混合音频，得到目标视频，包括：基于用户的指示，调整待处理视频的参数；对调整后的待处理视频、至少一个特效和混合音频进行编码，得到目标视频。

可选地，在基于待处理视频、至少一个特效和混合音频，得到目标视频之前，还包括：通过以下至少之一的接口得到混合音频：应用程序接口、内录接口。

可选地，响应于至少一个特效被触发的情况，包括以下至少之一：响应于至少一个特效被待处理视频中用户的信息触发，其中，用户的信息包括以下至少之一：用户的动作、用户的表情；响应于至少一个特效被待处理视频中预定事件触发，其中，预定事件包括以下至少之一：点击触摸屏幕、滑动触摸屏幕。

根据本公开实施例的第二方面，提供一种视频制作装置，包括：混合音频获取单元，被配置为响应于至少一个特效被触发的情况，获取至少一个特效对应的混合音频，其中，混合音频是至少一个特效中每个特效对应的音频信息按每个特效被触发的时间顺序进行混合得到的；编码单元，被配置为基于待处理视频、至少一个特效和混合音频，得到目标视频。

可选地，获混合音频获取单元，被配置为获取至少一个特效对应的音频文件；按至少一个特效被触发的时间顺序，将至少一个特效中每个特效的标识对应的音频信息依次进行混合，得到混合音频，其中，标识用于指示每个特效在音频文件中的音频信息。

可选地，编码单元，还被配置为将至少一个特效中每个特效按各自被触发的时间与待处理视频进行编码，得到编码后的视频；按编码混合音频的时间戳和编码所述编码后的视频的时间戳满足预设的对应关系的方式，对编码后的视频和混合音频进行编码，得到目标视频，其中，预设的对应关系是基于采集所述待处理视频的时间戳和播放混合音频的时间戳确定的。

可选地，编码单元，还被配置为基于用户的指示，调整待处理视频的参数；对调整后的待处理视频、至少一个特效和混合音频进行编码，得到目标视频。

可选地，编码单元，还被配置为在基于待处理视频、至少一个特效和混合音频，得到目标视频之前，通过以下至少之一的接口得到混合音频：应用程序接口、内录接口。

可选地，混合音频获取单元，还被配置为响应于至少一个特效被待处理视频中用户的信息触发，其中，用户的信息包括以下至少之一：用户的动作、用户的表情；响应于至少一个特效被待处理视频中预定事件触发，其中，预定事件包括以下至少之一：点击触摸屏幕、滑动触摸屏幕。

根据本公开实施例的第三方面，提供了一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行指令，以实现根据本公开的视频制作方法。

根据本公开实施例的第四方面，提供了一种计算机可读存储介质，当计算机可读存储介质中的指令被至少一个处理器运行时，促使至少一个处理器执行如上根据本公开的视频制作方法。

根据本公开实施例的第五方面，提供了一种计算机程序产品，包括计算机指令，计算机指令被处理器执行时实现根据本公开的视频制作方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

根据本公开的视频制作方法及装置，通过将一个魔法表情的每个特效对应的音频，按特效被触发的时间进行混合得到混合音频，再基于该混合音频来制作目标视频，使得无需单独播放每个特效的音频，只需播放一个混合音频即可，从而无需为每个特效的音频再单独创建音频播放器，仅需一个音频播放器来播放混合音频即可，从而节省了内存。因此，本公开解决了相关技术中多个音频播放器共存导致内存压力大的问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是示出相关技术中视频制作方法的整体流程示意图；

图2是示出根据本公开的示例性实施例的视频制作方法的实施场景示意图；

图3是根据一示例性实施例示出的一种视频制作方法的流程图；

图4是根据一示例性实施例示出的一种视频制作方法的整体流程示意图；

图5是根据一示例性实施例示出的一种视频制作装置的框图；

图6是根据本公开实施例的一种电子设备600的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

目前，短视频拍摄场景中魔法表情播放音乐时会为每个特效对应的音乐都单独创建一个音频播放器，具体流程如图1所示，然而，魔法表情中的每个特效对应的音乐均单独创建一个音频播放器，虽然也能达到同时播放多个音乐的效果，但是多个音频播放器共存导致内存压力大，会面临机器性能的挑战。本公开提供了一种视频制作方法，能够解决相关技术中多个音频播放器共存导致内存压力大的问题，下面以制作短视频为例进行说明。

图2是示出根据本公开的示例性实施例的视频制作方法的实施场景示意图，如图2所述，该实施场景包括服务器100、用户终端110和用户终端120，其中，用户终端不限于2个，包括并不限于手机、个人计算机等设备，用户终端可以安装用于采集视频的摄像头和用于制作短视频的应用程序，其中，该应用程序可以包含多个魔法表情，服务器可以是一个服务器，也可以是若干个服务器组成服务器集群，还可以是云计算平台或虚拟化中心。

用户终端110或120开启上述应用程序，并点击选择一个魔法表情(此时，选择该魔法表情即预定事件)进入到制作视频的界面并获取对应的音频1，用户终端110或120通过自身的摄像头采集视频，并识别待处理视频中用户的信息，如检测到用户眨眼了，则触发该魔法表情转换到另一个特效并获取对应的音频2，将所述音频1和音频2按各自对应的特效被触发的时间进行混合，得到相应的混合音频，然后基于待处理视频、魔法表情的两个特效和混合音频进行编码，得到目标视频。需要说明的是，上述魔法表情可以预先存储在服务器100中，即用户终端110或120选择一个魔法表情后，需要向服务器100发送获取请求，从而获取到对应的魔法表情的特效及对应的音频。

下面，将参照图3至图6详细描述根据本公开的示例性实施例的视频制作方法及装置。

图3是根据一示例性实施例示出的一种视频制作方法的流程图，如图3所示，视频制作方法包括以下步骤：

在步骤S301中，响应于至少一个特效被触发的情况，获取至少一个特效对应的混合音频，其中，混合音频是至少一个特效中每个特效对应的音频信息按每个特效被触发的时间顺序进行混合得到的。例如，上述至少一个特效实际为2个特效的情况，第一个特效被触发3秒后，第二个特效被触发，此时在第一个特效对应的音频播放3秒后引入第二个特效对应的音频开始混合，得到对应的混合音频。

根据本公开的示例性实施例，响应于至少一个特效被触发的情况，包括以下至少之一：响应于所述至少一个特效被所述待处理视频中用户的信息触发，其中，用户的信息包括以下至少之一：用户的动作、用户的表情；响应于所述至少一个特效被所述待处理视频中预定事件触发，其中，预定事件包括以下至少之一：点击触摸屏幕、滑动触摸屏幕。通过本实施例，可以基于用户的信息和/或预定事件方便、快速的触发特效。

需要说明的是，本实施例中用户的信息可以包括但不限于用户的动作、用户的表情，预定事件可以包括但不限于用户手指点击触摸屏幕、手指滑动触摸屏幕。下面以手指点击触摸屏幕触发长胡子特效为例进行说明，终端打开制作视频的程序后，通过摄像头拍摄到待处理视频，在拍摄的过程中检测到用户的手指触摸了屏幕，此时，长胡子特效被触发，即在待处理视频中将人脸相应部分添加胡子特效。

根据本公开的示例性实施例，获取至少一个特效对应的混合音频，包括：获取至少一个特效对应的音频文件；按至少一个特效被触发的时间顺序，将至少一个特效中每个特效的标识对应的音频信息依次进行混合，得到混合音频，其中，标识用于指示每个特效在音频文件中的音频信息。通过本实施例，通过为每个特效创建一个唯一的标识，使得可以基于该标识从音频文件中获取每个特效对应的音频信息，从而可以快速的按特效触发时间对各个特效的音频信息进行混合。需要说明的是，该混合过程可以在音频混合播放器中进行，并在后续使用时由该音频混合播放器传输给负责编码的部分，其中，音频混合播放器的原理是可以利用脉冲编码调制(Pulse-code modulation，缩写为PCM)混合算法，将多个音频PCM数据混合为一个PCM数据，混合后的PCM数据播放声音的效果与同时播放混合前的多个PCM数据效果一致，因此能将混合后的PCM数据用于播放与编码生成视频。

具体地，可以魔法表情中为每个特效定义一个key(相当于上述实施例的标识)，作为每个特效在音频混合播放器中的唯一标识。这个key和音乐路径不一样，因为不同特效可能出现播放同一个音乐，但是实际上是将这个音乐分割成多个部分，不同特效播放了这个音乐不同部分的情况，这种情况下虽然播放的音乐相同但是采用的key是不同的。因此，通过为每个特效定义一个单独的key，就建立了key与特效的一一对应关系，也就不需要为每个特效的音频单独创建一个音频播放器，而是将key传入音频混合播放器中，通过key对每个特效对应的音频的播放进行控制，来对每个特效的音频进行混合，从而得到混合音频，使得用一个混合播放器即可传输给负责编码的部分，以便用户后续编码制作视频。

返回图3，在步骤S302中，基于待处理视频、至少一个特效和混合音频，得到目标视频。在本步骤，可以在每个特效被触发时先与待处理视频进行编码混合，然后在与混合音频进行混合，但是本公开对此不进行限定，也可以是按着用户所需的顺序进行混合。

根据本公开的示例性实施例，在基于待处理视频、至少一个特效和混合音频，得到目标视频之前，还包括：通过以下至少之一的接口得到混合音频：应用程序接口、内录接口。通过本实施例，采用应用程序接口(Application Programming Interface，简称为API)、内录接口来代替麦克风，来获取用户编码的混合音频，可以使最终录制的视频达到消除环境音的效果。

具体地，相关技术是通过麦克风采集，但是麦克风采集时会把外部环境中嘈杂干扰的环境音也采集进来，因此编码生成的视频音质音频低，本公开中每个特效的音频经过音频混合播放器混合后，会生成只含有特效声音的PCM数据，然后将混合后的PCM数据播放同时传输进拍摄软件开发工具包(英语：Software Development Kit，缩写为SDK)中，也即通过API接口传输给拍摄SDK，拍摄SDK对采集的视频和PCM数据进行合成编码。相比相关技术将音频外放后再通过麦克风采集的方式，提升了音质，也避免了采集进嘈杂的环境音。

再有，还可以通过终端操作系统的内录接口传输PCM数据，即使用操作系统的内录功能直接采集操作系统播放的音频声音，此时音频采用的是操作系统自带的音频或者操作系统调用系统上的音频应用获取的音频，且可以由操作系统进行混合操作，混合后通过内录接口传输给拍摄SDK。但是，由于系统内录权限只开放给系统应用，因此第三方应用无法使用该权限进行开发。

根据本公开的示例性实施例，基于待处理视频、至少一个特效和混合音频，得到目标视频，包括：将至少一个特效中每个特效按各自被触发的时间与待处理视频进行编码，得到编码后的视频；按编码混合音频的时间戳和编码所述编码后的视频的时间戳满足预设的对应关系的方式，对编码后的视频和混合音频进行编码，得到目标视频，其中，预设的对应关系是基于采集所述待处理视频的时间戳和播放混合音频的时间戳确定的。通过本实施例，可以避免预览和录制音画同步感受不一致的问题。

具体地，本实施例中制作视频的场景下一般存在4个时间戳。摄像头采集视频的时间戳T1，混合音频播放的时间戳T2，编码待处理视频时间戳T3，编码混合音频的时间戳T4。T1和T2就是用户耳朵和眼镜主观感受到的时间戳，要做到录制视频音画同步效果与主观感受一致，就需要T3、T1与T4、T2对齐，也即T3和T4的对应关系与T1和T2的对应的关系一致。由于一般情况下混合音频是同时进行播放与编码，因此T2和T4相同，此时只需要编码时保证T1和T4对齐，就避免了预览和录制音画同步感受不一致的问题。

根据本公开的示例性实施例，基于待处理视频、至少一个特效和混合音频，得到目标视频，包括：基于用户的指示，调整待处理视频的参数；对调整后的待处理视频、至少一个特效和混合音频进行编码，得到目标视频。通过本实施例，在制作视频时，也可以根据用户需要为待处理视频添加其他特效，以满足每个用户的个性化需要。

例如，下面以手指点击触摸屏幕触发长胡子特效为例进行说明，首先，，终端打开制作视频的程序后，通过摄像头拍摄到待处理视频，在拍摄的过程中用户感觉到视频太暗，所以通过制作视频的程序中调亮功能，将待处理视频的亮度调整到用户想要的亮度，在调亮视频后，检测到用户的手指触摸了屏幕，此时，长胡子特效被触发，即在待处理视频中将人脸相应部分添加胡子特效。

综上，本公开适用于使用魔法表情创作短视频拍摄的场景，在使用魔法表情录制视频时，无需为每个音乐单独创建播放器，而是只创建一个音频混合播放器，该音频混合播放器支持多个音乐动态叠加混合播放，即支持多特效动态叠加时将需要播放的音乐实时混合为音频帧，并且直接将混合后的音频用于编码生成视频，提升了音质，也降低了内存和性能压力。为了更好的理解本公开，下面结合图4进行系统的说明。

图4是根据一示例性实施例示出的一种视频制作方法的整体流程示意图，如图4所示，终端启动制作短视频的应用程序，进入采集视频的界面，采集视频的过程中，用户感觉采集的视频过暗，可以调整采集视频的亮度，在调亮视频后，可以点击屏幕启动魔法表情，同时触发魔法表情的第一个特效(如图中特效1)，然后，识别摄像头采集的视频中用户的信息(如眨眼、摇头等)和/或预定事件(如点击屏幕、滑动触摸屏幕等)触发魔法表情的多个特效(如图中特效2、3等)。得到的特效1、2、3，其每个特效均有各自唯一个Key，如图中的Key1、Key2、Key3等，在每个特效被触发后，会将相应的Key发送到音频混合播放器中，按各个特效被触发的时间控制特效对应的音频播放，以进行混合得到混合音频，在得到混合音频后，可以通过API接口将混合音频传输给拍摄SDK，SDK按相应的时间戳将待处理视频和混合音频进行编码得到目标视频，其中，实际编码过程是将采集的视频的图像帧和混合音频的音频帧进行编码，得到目标视频，也即高音质视频。

图5是根据一示例性实施例示出的一种视频制作装置的框图。参照图5，该装置包括混合音频获取单元52和编码单元54。

混合音频获取单元52，被配置为响应于至少一个特效被触发的情况，获取至少一个特效对应的混合音频，其中，混合音频是至少一个特效中每个特效对应的音频信息按每个特效被触发的时间顺序进行混合得到的；编码单元54，被配置为基于待处理视频、至少一个特效和混合音频，得到目标视频。

可选地，混合音频获取单元52，被配置为获取至少一个特效对应的音频文件；按至少一个特效被触发的时间顺序，将至少一个特效中每个特效的标识对应的音频信息依次进行混合，得到混合音频，其中，标识用于指示每个特效在音频文件中的音频信息。

可选地，编码单元54，还被配置为在基于待处理视频、至少一个特效和混合音频，得到目标视频之前，通过以下至少之一的接口得到混合音频：应用程序接口、内录接口。

可选地，编码单元54，还被配置为将至少一个特效中每个特效按各自被触发的时间与待处理视频进行编码，得到编码后的视频；按编码混合音频的时间戳和编码所述编码后的视频的时间戳满足预设的对应关系的方式，对编码后的视频和混合音频进行编码，得到目标视频，其中，预设的对应关系是基于采集所述待处理视频的时间戳和播放混合音频的时间戳确定的。

可选地，编码单元54，还被配置为基于用户的指示，调整待处理视频的参数；对调整后的待处理视频、至少一个特效和混合音频进行编码，得到目标视频。

可选地，混合音频获取单元52，还被配置为响应于至少一个特效被待处理视频中用户的信息触发，其中，用户的信息包括以下至少之一：用户的动作、用户的表情；响应于至少一个特效被待处理视频中预定事件触发，其中，预定事件包括以下至少之一：点击触摸屏幕、滑动触摸屏幕。

根据本公开的实施例，可提供一种电子设备。图6是根据本公开实施例的一种电子设备600的框图，该电子设备包括至少一个存储器601和至少一个处理器602，所述至少一个存储器中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器执行时，执行根据本公开实施例视频制作方法。

作为示例，电子设备600可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备1000并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备600还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在电子设备600中，处理器602可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器602还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器602可运行存储在存储器中的指令或代码，其中，存储器601还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器601可与处理器602集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器601可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器601和处理器602可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器602能够读取存储在存储器601中的文件。

此外，电子设备600还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备的所有组件可经由总线和/或网络而彼此连接。

根据本公开的实施例，还可提供一种计算机可读存储介质，其中，当计算机可读存储介质中的指令被至少一个处理器运行时，促使至少一个处理器执行本公开实施例的视频制作方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开实施例，提供了一种计算机程序产品，包括计算机指令，计算机指令被处理器执行时实现本公开实施例的视频制作方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频制作方法，其特征在于，包括：

响应于至少一个特效被触发的情况，获取所述至少一个特效对应的混合音频，其中，所述混合音频是所述至少一个特效中每个特效对应的音频信息按所述每个特效被触发的时间顺序进行混合得到的；

基于待处理视频、所述至少一个特效和所述混合音频，得到目标视频。

2.如权利要求1所述的视频制作方法，其特征在于，所述获取所述至少一个特效对应的混合音频，包括：

获取所述至少一个特效对应的音频文件；

按所述至少一个特效被触发的时间顺序，将所述至少一个特效中每个特效的标识对应的音频信息依次进行混合，得到混合音频，其中，所述标识用于指示所述每个特效在所述音频文件中的音频信息。

3.如权利要求1所述的视频制作方法，其特征在于，所述基于所述待处理视频、所述至少一个特效和所述混合音频，得到所述目标视频，包括：

将所述至少一个特效中每个特效按各自被触发的时间与所述待处理视频进行编码，得到编码后的视频；

按编码所述混合音频的时间戳和编码所述编码后的视频的时间戳满足预设的对应关系的方式，对所述编码后的视频和所述混合音频进行编码，得到所述目标视频，其中，所述预设的对应关系是基于采集所述待处理视频的时间戳和播放所述混合音频的时间戳确定的。

4.如权利要求1所述的视频制作方法，其特征在于，所述基于所述待处理视频、所述至少一个特效和所述混合音频，得到所述目标视频，包括：

基于用户的指示，调整所述待处理视频的参数；

对调整后的待处理视频、所述至少一个特效和所述混合音频进行编码，得到所述目标视频。

5.如权利要求1所述的视频制作方法，其特征在于，在基于所述待处理视频、所述至少一个特效和所述混合音频，得到所述目标视频之前，还包括：通过以下至少之一的接口得到所述混合音频：应用程序接口、内录接口。

6.如权利要求1所述的视频制作方法，其特征在于，所述响应于至少一个特效被触发的情况，包括以下至少之一：

响应于所述至少一个特效被所述待处理视频中用户的信息触发，其中，所述用户的信息包括以下至少之一：用户的动作、用户的表情；

响应于所述至少一个特效被所述待处理视频中预定事件触发，其中，所述预定事件包括以下至少之一：点击触摸屏幕、滑动触摸屏幕。

7.一种视频制作装置，其特征在于，包括：

混合音频获取单元，被配置为响应于至少一个特效被触发的情况，获取所述至少一个特效对应的混合音频，其中，所述混合音频是所述至少一个特效中每个特效对应的音频信息按所述每个特效被触发的时间顺序进行混合得到的；

编码单元，被配置为基于待处理视频、所述至少一个特效和所述混合音频，得到目标视频。

8.一种电子设备，其特征在于，包括:

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的视频制作方法。

9.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1至6中任一项所述的视频制作方法。

10.一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令被处理器执行时实现如权利要求1至6中任一项所述的视频制作方法。