CN105959773A

CN105959773A - 多媒体文件的处理方法和装置

Info

Publication number: CN105959773A
Application number: CN201610285473.XA
Authority: CN
Inventors: 张征; 张烁
Original assignee: Rubik's Cube Sky Technology (beijing) Co Ltd
Current assignee: Weizhen Technology (Beijing) Co., Ltd
Priority date: 2016-04-29
Filing date: 2016-04-29
Publication date: 2016-09-21
Anticipated expiration: 2036-04-29
Also published as: CN105959773B

Abstract

本发明公开了一种多媒体文件的处理方法和装置。其中，该方法包括：按照接收到的控制指令的指示播放第一多媒体文件，并启动对目标对象的录制，第一多媒体文件至少包括视频数据和音频数据；分离掉第一多媒体文件中的音频数据，得到第二多媒体文件；在对目标对象的录制结束之后，合成录制目标对象得到的第三多媒体文件和第二多媒体文件，得到目标多媒体文件，第三多媒体文件包括录制得到的配音片段和/或视频片段。本发明解决了相关技术中，用户进行配音合成时操作效率较低的技术问题。

Description

多媒体文件的处理方法和装置

技术领域

本发明涉及数据处理领域，具体而言，涉及一种多媒体文件的处理方法和装置。

背景技术

在现有技术中，在用户自己对音视频进行编辑、合成时，需要掌握专业的音视频编辑知识。如，在配音音频和视频录制好之后，需要在电脑端，或者在专业的录音系统中使用专业的工具手动调整用户的配音音频和用户的视频与原视频之间的关系，如调整音频在原视频中的位置等，以产生较好的配音效果，整个过程非常复杂繁琐，操作难度比较高，且操作的效率很低。

针对相关技术中，用户进行配音合成时操作效率较低的技术问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种多媒体文件的处理方法和装置，以至少解决相关技术中，用户进行配音合成时操作效率较低的技术问题。

根据本发明实施例的一个方面，提供了一种多媒体文件的处理方法，该方法包括：按照接收到的控制指令的指示播放第一多媒体文件，并启动对目标对象的录制，其中，第一多媒体文件至少包括视频数据和音频数据；分离掉第一多媒体文件中的音频数据，得到第二多媒体文件；在对目标对象的录制结束之后，合成录制目标对象得到的第三多媒体文件和第二多媒体文件，得到目标多媒体文件，其中，第三多媒体文件包括录制得到的配音片段和/或视频片段。

进一步地，控制指令携带有用于指示第一多媒体文件中的播放起始位置的起始时间信息和用于指示播放结束位置的结束时间信息，其中，按照接收到的控制指令的指示播放第一多媒体文件，并启动对目标对象的录制包括：按照起始时间信息所指示的起始位置播放第一多媒体文件，并启动对目标对象的录制，其中，在第一多媒体文件播放至与结束时间信息对应的播放结束位置时，停止对目标对象的录制，并保存录制得到的多媒体子文件，多媒体子文件包括目标对象配音时的配音子片段和/或视频子片段。

进一步地，在保存录制得到的多媒体子文件之后，该方法还包括：将起始位置对应的时间点作为配音子片段和/或视频子片段的起始时间点，将结束位置对应的时间点作为配音子片段和/或视频子片段的结束时间点。

进一步地，在多媒体子文件为一个的情况下，在保存录制得到的多媒体子文件之后，该方法还包括：将多媒体子文件作为第三多媒体文件。

进一步地，在多媒体子文件为多个的情况下，在保存录制得到的多媒体子文件之后，该方法还包括：基于起始时间点对多个多媒体子文件的多个配音子片段进行拼接，得到配音片段，其中，配音片段的起始时间点为多个配音子片段的多个起始时间点中最早的起始时间点，配音片段的结束时间点为多个配音子片段的多个结束时间点中最晚的结束时间点；和/或，基于起始时间点对多个多媒体子文件的多个视频子片段进行拼接，得到视频片段，其中，视频片段的起始时间点为多个视频子片段的多个起始时间点中最早的起始时间点，视频片段的结束时间点为多个视频子片段的多个结束时间点中最晚的结束时间点。

进一步地，基于起始时间点对多个多媒体子文件的多个配音子片段进行拼接包括：按照起始时间对多个配音子片段进行排序，其中，排序后相邻的两个配音子片段为第一配音子片段和第二配音子片段，第一配音子片段的结束时间点不晚于第二配音子片段的起始时间点；判断第一配音子片段的结束时间点是否等于第二配音子片段的起始时间点；若第一配音子片段的结束时间点等于第二配音子片段的起始时间点，则拼接第一配音子片段和第二配音子片段；若第一配音子片段的结束时间点不等于第二配音子片段的起始时间点，则通过预设配音子片段来连接第一配音子片段和第二配音子片段，其中，预设配音子片段的音频时长等于第一配音子片段的结束时间点与第二配音子片段的起始时间点之间的时间长度。

进一步地，合成录制目标对象得到的第三多媒体文件和第二多媒体文件，得到目标多媒体文件包括：获取对应于第一多媒体文件的背景音乐数据；将背景音乐数据与配音片段中的配音数据合成至音频文件；将音频文件中的音频数据和/或视频片段中的视频数据，与第二多媒体中的数据进行合成，得到目标多媒体文件。

进一步地，在得到目标多媒体文件之后，该方法还包括：在播放目标多媒体文件时，在展示对应于第一多媒体文件中的视频数据的画面时，以画中画的形式展示对应于视频片段中数据的画面；和/或，在播放目标多媒体文件时，在展示对应于第一多媒体文件中的视频数据的画面时，若接收到切换指令，则以全屏覆盖的方式展示对应于视频片段中数据的画面。

根据本发明实施例的另一个方面，提供了一种多媒体文件的处理装置，该装置包括：启动单元，用于按照接收到的控制指令的指示播放第一多媒体文件，并启动对目标对象的录制，其中，第一多媒体文件至少包括视频数据和音频数据；第一处理单元，用于分离掉第一多媒体文件中的音频数据，得到第二多媒体文件；第二处理单元，用于在对目标对象的录制结束之后，合成录制目标对象得到的第三多媒体文件和第二多媒体文件，得到目标多媒体文件，其中，第三多媒体文件包括录制得到的配音片段和/或视频片段。

进一步地，控制指令携带有用于指示第一多媒体文件中的播放起始位置的起始时间信息和用于指示播放结束位置的结束时间信息，启动单元包括：启动模块，用于按照起始时间信息所指示的起始位置播放第一多媒体文件，并启动对目标对象的录制，其中，在第一多媒体文件播放至与结束时间信息对应的播放结束位置时，停止对目标对象的录制，并保存录制得到的多媒体子文件，多媒体子文件包括目标对象配音时的配音子片段和/或视频子片段。

在本发明实施例中，通过按照接收到的控制指令的指示播放第一多媒体文件，并启动对目标对象的录制，第一多媒体文件至少包括视频数据和音频数据；分离掉第一多媒体文件中的音频数据，得到第二多媒体文件；在对目标对象的录制结束之后，合成录制目标对象得到的第三多媒体文件和第二多媒体文件，得到目标多媒体文件，第三多媒体文件包括录制得到的配音片段和/或视频片段。从而解决了相关技术中，用户进行配音合成时操作效率较低的技术问题,实现了简化用户配音操作的技术效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的多媒体文件的处理方法的流程图；以及

图2是根据本发明实施例的多媒体文件的处理装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例，提供了一种多媒体文件的处理方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的多媒体文件的处理方法的流程图，如图1所示，该方法包括如下步骤：

步骤S101，按照接收到的控制指令的指示播放第一多媒体文件，并启动对目标对象的录制，第一多媒体文件至少包括视频数据和音频数据。

步骤S102，分离掉第一多媒体文件中的音频数据，得到第二多媒体文件。

步骤S103，在对目标对象的录制结束之后，合成录制目标对象得到的第三多媒体文件和第二多媒体文件，得到目标多媒体文件，第三多媒体文件包括录制得到的配音片段和/或视频片段。

通过上述实施例，按照接收到的控制指令的指示播放第一多媒体文件，并启动对目标对象的录制，第一多媒体文件至少包括视频数据和音频数据；分离掉第一多媒体文件中的音频数据，得到第二多媒体文件；在对目标对象的录制结束之后，合成录制目标对象得到的第三多媒体文件和第二多媒体文件，得到目标多媒体文件，第三多媒体文件包括录制得到的配音片段和/或视频片段，在用户进行配音时，对用户的配音和/或视频进行自动录制，在录制之后，直接在录制终端上进行合成，从而解决了相关技术中，用户进行配音合成时操作效率较低的技术问题，实现了简化用户配音操作的技术效果。

在上述实施例中，给定一段视频，用户可对视频中的声音或画面进行模仿，从而利用上述方法生成单一个人的或集体多人的模仿表演的视频。

如，在分段配音中，用户可以仅进行声音模仿，根据视频的字幕，逐句进行配音，然后将多段配音合并成完整的配音，并生成配音视频。

在整体连续配音中，视频连续播放，字幕用作提示，视频播放完成后完成配音，并生成配音视频。

在带有视频的声音模仿中，录制音频的同时录制用户的画面，录制完成之后，将录制的音频叠加至原视频中，并将用户的画面以画中画的形式叠加在原视频中，以便于用户对模仿的效果进行分析。

在多人合作配音时，每句字幕对应于一个角色，用户可选中其中一个角色进行配音，并生成一个待合作的配音作品，其他用户可选择剩余角色进行配音，在所有剩余角色都被配音后，生成最终配音作品。

本申请的上述方法可用于上述的应用场景，但不限于这些应用场景。

在步骤S101中，控制指令携带有用于指示第一多媒体文件中的播放起始位置的起始时间信息和用于指示播放结束位置的结束时间信息。按照接收到的控制指令的指示播放第一多媒体文件，并启动对目标对象的录制可以通过如下方式实现：按照起始时间信息所指示的起始位置播放第一多媒体文件，并启动对目标对象的录制，在第一多媒体文件播放至与结束时间信息对应的播放结束位置时，停止对目标对象的录制，并保存录制得到的多媒体子文件，多媒体子文件包括目标对象配音时的配音子片段和/或视频子片段。

需要说明的是，在保存录制得到的多媒体子文件之后，为了保证录制的多媒体子文件与待模仿的第一多媒体文件在时间轴上同步，可以将第一多媒体文件的播放起始位置对应的时间点作为配音子片段和/或视频子片段的起始时间点，将第一多媒体文件的播放结束位置对应的时间点作为配音子片段和/或视频子片段的结束时间点。

可选地，上述的控制指令也可以是用于模仿视频中某一段语音的指令，该段语音对应于一段字幕，而每一段字幕对应有一个起始时间和结束时间，因此，还可以由字幕确定录制的启示和结束时间。

如在分段配音时，系统会自动分析字幕文件，将每一段字幕的时间点和视频的时间点相匹配，每一句字幕对应于一个配音段。当用户在第一个配音段按下配音按钮(配音按钮用于触发控制指令)，开始从第一段配音，视频根据第一句的起始时间点，将视频自动调整到对应的时间开始播放，并自动消除视频原声，当配音进行到当前配音段的末尾时，视频自动暂停播放，录音停止，录制终端(如手机、平板等)保存录制得到的配音子片段和/或视频子片段，并以第一多媒体文件的时间为标准，为配音子片段和/或视频子片段设置起始时间点和结束时间点，如，从模仿视频(即第一多媒体文件)中的1分11秒开始模仿，到1分25秒结束，则配音子片段和/或视频子片段的起始时间点为1分11秒，结束时间点为1分25秒。

在一个录音段录制结束之后，可将当前配音段的视频和配音(即录制的配音子片段)的语音同时播放，以预览当前配音段的配音效果，根据配音效果，用户可以选择重新配音或者进入下一个配音段。

当所有的配音段都完成配音后，每段用户语音(即录制的配音子片段)均包含对应的字幕的起始和结束时间点，以便于后续进行拼接的时候，根据时间将录制的多段音频拼接为一个完整的配音片段。

在整体连续配音时，系统会自动分析字幕文件，将每一段字幕的时间点和视频的时间点相匹配，在用户按下配音按钮时，视频开始播放，字幕根据视频的时间点逐句同步显示，在每句字幕显示前，系统会提前提醒用户字幕即将到来，用户根据字幕提示进行配音，每句之间不间断，视频播放完成后，配音自动结束，用户在此过程中产生了完整的用户配音，得到一个完整的配音片段。

在多人合作配音时，将字幕中的每句对白标记为特定角色，如一段视频中包含角色A、角色B、角色C，那么本段视频中的每句对白会根据其所属的角色进行标记，该段视频即成为多角色配音视频。在多角色配音开始前，用户可选择配音角色，在进行配音时，可以以分段配音的形式对自己选择的角色进行配音，此时，其他角色的句子仅可播放；也可以以连续配音的形式对自己选择的角色进行配音，此时，系统会在用户选定的角色的句子出现时，提示用户进行配音，在其他角色出现时，提醒用户不发出声音，由于是连续配音，因此，即使在其他角色出现时，录音系统是一直打开的。

在多角色配音完成时，对于每一个配音角色，会生成一个配音作品(即上述的配音子片段)。如，当用户U第一次对一个包含3个角色(角色A、角色B、角色C)的“多角色配音视频”中的角色A进行配音后，将生成一个“待合作的配音作品S”，此作品S包含“用户U的声音(用于替代了原视频中角色A的声音)”，作品S可继续被其他用户配音，直到所有空缺角色被用户的配音替代，生成最终配音作品(即上述的配音子片段)，否则仍然继续生成待合作配音作品。

需要说明的是，在用户进行分段配音、整体连续配音及多人合作配音时，可以通过录制终端上的配音按钮启动配音，录制终端在录制配音的同时，还可以录制用户录音时的视频，得到视频子片段。

在一个可选的实施例中，在配音完成之后，在配音得到的多媒体子文件为一个的情况下，如对于整体连续配音，其得到的多媒体子文件即为一个，在保存录制得到的多媒体子文件之后，将多媒体子文件作为第三多媒体文件。即可以直接将录制得到的多媒体子文件作为第三多媒体文件。

需要说明的是，在多角色配音时，如在角色A对应的配音子片段完成之后，角色B的录音是在配音子片段的基础上进行录制，即直接将录制的角色B的音频叠加至该配音子片段中。因此，得到的多媒体子文件的数据也为一个，即可以直接将录制得到的多媒体子文件作为第三多媒体文件。对于分段配音，如果是分别将各个角色的音频录制完成之后再进行拼接，其相当于产生了多个多媒体子文件，则可以按照下述的方法进行拼接。

在另一个可选的实施例中，在配音完成之后，在多媒体子文件为多个的情况下，如在分段配音和多角色配音时会得到多个多媒体子文件，在保存录制得到的多媒体子文件之后，可以基于起始时间点对多个多媒体子文件的多个配音子片段进行拼接，得到配音片段，其中，配音片段的起始时间点为多个配音子片段的多个起始时间点中最早的起始时间点，配音片段的结束时间点为多个配音子片段的多个结束时间点中最晚的结束时间点；基于起始时间点对多个多媒体子文件的多个视频子片段进行拼接，得到视频片段，其中，视频片段的起始时间点为多个视频子片段的多个起始时间点中最早的起始时间点，视频片段的结束时间点为多个视频子片段的多个结束时间点中最晚的结束时间点。

具体地，基于起始时间对多个多媒体子文件的多个配音子片段进行拼接可以包括：按照起始时间对多个配音子片段进行排序(可以为按照时间顺序的正序或者倒序排序)，其中，排序后相邻的两个配音子片段为第一配音子片段和第二配音子片段，第一配音子片段的结束时间点不晚于第二配音子片段的起始时间点；判断第一配音子片段的结束时间点是否等于第二配音子片段的起始时间点；若第一配音子片段的结束时间点等于第二配音子片段的起始时间点，则拼接第一配音子片段和第二配音子片段；若第一配音子片段的结束时间点不等于第二配音子片段的起始时间点，则通过预设配音子片段来连接第一配音子片段和第二配音子片段，其中，预设配音子片段的音频时长等于第一配音子片段的结束时间点与第二配音子片段的起始时间点之间的时间长度。

上述的预设配音子片段中的音频可以为静音音频，在拼接时，按照上述起始时间点的位置，通过音频拼接工具将多段音频拼接成一个完整的音频，如果配音段之间存在时间间隙，则在时间间隙上填充静音音频(即表示没有声音的声音)。如，对于分段配音得到的多个配音子片段，以起始时间点为标准，将多个配音子片段按照时间顺序拼接在一起，如果配音段之间存在时间间隙，则填充静音音频，静音音频的长度可根据需求确定，若用户不是从视频的初始位置开始配音，也可以用静音音频填充。在将音频文件、视频片段和第二多媒体文件进行合成时，若音频文件、视频片段的时间起点不是0分0秒，则对其进行填充，以使其时间长度与第二多媒体文件相同。

可选地，为了保证第一配音子片段的结束时间点不晚于第二配音子片段的起始时间点，即保证第一配音子片段和第二配音子片段不重叠，可以在录制完时，按照原音的长度录制；或者在录制完成之后，对第一配音子片段和第二配音子片段重叠的部分进行切除；或者在录制完成之后，对超出原音长度的配音子片段进行压缩。

对于得到的视频子片段，可以使用相同的方法，通过视频拼接工具进行拼接，得到一个完整的视频片段，若两个视频子片段之间存在空隙，可以用预设画面填充，如黑色画面、黑白线条画面等。

在本申请的实施例中，合成录制目标对象得到的第三多媒体文件和第二多媒体文件，得到目标多媒体文件包括：获取对应于第一多媒体文件的背景音乐数据；将背景音乐数据与配音片段中的配音数据合成至音频文件；将音频文件中的音频数据和/或视频片段中的视频数据，与第二多媒体中的数据进行合成，得到目标多媒体文件。

具体地，可以对原视频(即第一多媒体文件中的视频)进行音视频分离，提取出不包含音频的视频(即第二多媒体文件中的视频)，将用户的配音数据中的语音与背景音乐数据中的音乐进行混音，生成最终用户配音，保存在音频文件中，将最终用户配音与不包含音频的原视频合并，产生用户配音视频(即目标多媒体文件)。

可选地，上述的背景音乐数据可以是从第一多媒体文件中分离出来的，也可以是从与第一多媒体文件关联的文件中得到的，还可以是根据需求自行选取的。

如果第一多媒体文件的音频为5.1声道或者更多声道，则提取其中可能是背景音的声道，并生成独立的配套的背景音文件；如果无法从第一多媒体文件中提取背景音，则人工寻找合适的背景音，并生成独立的配套的背景音文件；如果无法得到背景音，则存在无背景音的情形，则可以不用为视频配置背景音。

另外，用户还可以将原视频中的字幕分离出来，将用户配音、字幕与不包含音频的原视频合并，产生一个带字幕的，用户配音视频。

需要说明的是，在录音的过程中、混音的过程中，由于音频始终采用与原始视频中相同的时间轴，因此，可以保证音频与视频的同步，保证配音的效果。避免了人工进行配音时需要进行复杂操作的问题。

可选地，在得到目标多媒体文件之后，在播放目标多媒体文件时，即在展示对应于原始视频数据的画面时，以画中画的形式展示对应于视频片段中数据的画面(即用户录制的画面)，和/或，在展示对应于第一多媒体文件中的视频数据的画面时，若接收到切换指令，则以全屏覆盖的方式展示对应于视频片段中数据的画面。如，在原始画面的窗口中，开设一个小型窗口，以播放用户录制的视频，以便于用户将模仿的视频与原始视频进行对比；若在用户进行切换时(即在移动设备接收到切换指令时)，将用户录制的视频全屏化展示。

通过本申请的实施例，可以实现音视频分离、音视频合并的自动处理；分段配音模式下的多段语音自动拼接；通过对视频字幕的识别，依照字幕中的时间点实现多段配音，以及在整段配音下对用户配音起始点的引导，并完成用户配音音频、原视频和字幕的自动合成。在分段配音模式下，可反复对单句进行配音和预览，降低了配音难度，提高配音质量，配音完成后可立即生成配音视频。也可在用户配音的过程中录制用户的视频，从而生成带有用户画面的配音作品。使用该方法进行配音，显著降低了配音的门槛，使用户可不借助专业的音视频编辑工具也能完成出色的配音，同时为用户提供多种配音方式，对于追求完美或者希望降低配音难度的用户，可选分段配音，对于专业追求流畅体验的用户，可选整段配音，同时，由于整个了录制用户视频的功能，使用户的表演不局限在声音，同时带有生动的用户画面，从而可以极高的提高用户的使用体验。

上述的对视频或者音频进行录制的终端可以为移动终端(如手机、平板电脑等)，本申请的方法可以应用于移动终端，如以软件的形式存在于移动终端上，该软件中集成有视频播放器、音频拼接工具、音视频分离工具、音视频合成工具、音视频采集工具等音视频处理工具。并为软件配置配音按钮、配音模式等选项，供用户进行选择。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

本发明实施例还提供了一种多媒体文件的处理装置。需要说明的是，本发明实施例的多媒体文件的处理装置可以用于执行本发明实施例所提供的多媒体文件的处理方法。

图2是根据本发明实施例的多媒体文件的处理装置的示意图。如图2所示，该装置可以包括：启动单元10、第一处理单元20以及第二处理单元30。

启动单元10用于按照接收到的控制指令的指示播放第一多媒体文件，并启动对目标对象的录制，其中，第一多媒体文件至少包括视频数据和音频数据。

第一处理单元20用于分离掉第一多媒体文件中的音频数据，得到第二多媒体文件。

第二处理单元30用于在对目标对象的录制结束之后，合成录制目标对象得到的第三多媒体文件和第二多媒体文件，得到目标多媒体文件，其中，第三多媒体文件包括录制得到的配音片段和/或视频片段。

通过上述实施例，启动单元按照接收到的控制指令的指示播放第一多媒体文件，并启动对目标对象的录制，第一多媒体文件至少包括视频数据和音频数据；第一处理单元分离掉第一多媒体文件中的音频数据，得到第二多媒体文件；第二处理单元在对目标对象的录制结束之后，合成录制目标对象得到的第三多媒体文件和第二多媒体文件，得到目标多媒体文件，第三多媒体文件包括录制得到的配音片段和/或视频片段，在用户进行配音时，对用户的配音和/或视频进行自动录制，在录制之后，直接在录制终端上进行合成，从而解决了相关技术中，用户进行配音合成时操作效率较低的技术问题，实现了简化用户配音操作的技术效果。

上述的进行录制的终端可以为移动终端(如手机、平板电脑等)，上述的装置可以以用于控制移动终端，该装置中集成有视频播放器、音频拼接工具、音视频分离工具、音视频合成工具、音视频采集工具等音视频处理工具。

可选地，控制指令携带有用于指示第一多媒体文件中的播放起始位置的起始时间信息和用于指示播放结束位置的结束时间信息。启动单元包括：启动模块，用于按照起始时间信息所指示的起始位置播放第一多媒体文件，并启动对目标对象的录制，其中，在第一多媒体文件播放至与结束时间信息对应的播放结束位置时，停止对目标对象的录制，并保存录制得到的多媒体子文件，多媒体子文件包括目标对象配音时的配音子片段和/或视频子片段。

可选地，启动单元还可以包括：第一处理模块，用于在保存录制得到的多媒体子文件之后，将起始位置对应的时间点作为配音子片段和/或视频子片段的起始时间点，将结束位置对应的时间点作为配音子片段和/或视频子片段的结束时间点。

可选地，启动单元还可以包括：第二处理模块，用于在多媒体子文件为一个的情况下，在保存录制得到的多媒体子文件之后，将多媒体子文件作为第三多媒体文件。

可选地，启动单元还可以包括：第三处理模块，用于在多媒体子文件为多个的情况下，在保存录制得到的多媒体子文件之后，基于起始时间点对多个多媒体子文件的多个配音子片段进行拼接，得到配音片段，其中，配音片段的起始时间点为多个配音子片段的多个起始时间点中最早的起始时间点，配音片段的结束时间点为多个配音子片段的多个结束时间点中最晚的结束时间点；还用于基于起始时间点对多个多媒体子文件的多个视频子片段进行拼接，得到视频片段，其中，视频片段的起始时间点为多个视频子片段的多个起始时间点中最早的起始时间点，视频片段的结束时间点为多个视频子片段的多个结束时间点中最晚的结束时间点。

上述的第三处理模块还用于执行如下功能：按照起始时间对多个配音子片段进行排序，其中，排序后相邻的两个配音子片段为第一配音子片段和第二配音子片段，第一配音子片段的结束时间点不晚于第二配音子片段的起始时间点；判断第一配音子片段的结束时间点是否等于第二配音子片段的起始时间点；若第一配音子片段的结束时间点等于第二配音子片段的起始时间点，则拼接第一配音子片段和第二配音子片段；若第一配音子片段的结束时间点不等于第二配音子片段的起始时间点，则通过预设配音子片段来连接第一配音子片段和第二配音子片段，其中，预设配音子片段的音频时长等于第一配音子片段的结束时间点与第二配音子片段的起始时间点之间的时间长度。

可选地，第二处理单元包括：分离模块，用于获取对应于第一多媒体文件的背景音乐数据；第一合成模块，用于将背景音乐数据与配音片段中的配音数据合成至音频文件；第二合成将音频文件中的音频数据和/或视频片段中的视频数据，与第二多媒体中的数据进行合成，得到目标多媒体文件。

可选地,本申请的装置还可以包括，播放单元，用于在得到目标多媒体文件之后，在播放目标多媒体文件时，在展示对应于视频数据的画面时，以画中画的形式展示对应于视频片段中数据的画面。

上述的对视频或者音频进行录制的终端可以为移动终端(如手机、平板电脑等)，本申请的装置可以应用于移动终端，用于控制移动终端，该装置中集成有视频播放器、音频拼接工具、音视频分离工具、音视频合成工具、音视频采集工具等音视频处理工具。并为该装置配置配音按钮、配音模式等选项，供用户进行选择。

本实施例中所提供的各个模块与方法实施例对应步骤所提供的使用方法相同、应用场景也可以相同。当然，需要注意的是，上述模块涉及的方案可以不限于上述实施例中的内容和场景，且上述模块可以运行在计算机终端或移动终端，可以通过软件或硬件实现。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种多媒体文件的处理方法，其特征在于，包括：

按照接收到的控制指令的指示播放第一多媒体文件，并启动对目标对象的录制，其中，所述第一多媒体文件至少包括视频数据和音频数据；

分离掉所述第一多媒体文件中的音频数据，得到第二多媒体文件；

在对所述目标对象的录制结束之后，合成录制所述目标对象得到的第三多媒体文件和所述第二多媒体文件，得到目标多媒体文件，其中，所述第三多媒体文件包括录制得到的配音片段和/或视频片段。

2.根据权利要求1所述的方法，其特征在于，所述控制指令携带有用于指示所述第一多媒体文件中的播放起始位置的起始时间信息和用于指示播放结束位置的结束时间信息，其中，按照接收到的控制指令的指示播放第一多媒体文件，并启动对目标对象的录制包括：

按照所述起始时间信息所指示的起始位置播放所述第一多媒体文件，并启动对所述目标对象的录制，其中，在所述第一多媒体文件播放至与所述结束时间信息对应的播放结束位置时，停止对所述目标对象的录制，并保存录制得到的多媒体子文件，所述多媒体子文件包括所述目标对象配音时的配音子片段和/或视频子片段。

3.根据权利要求2所述的方法，其特征在于，在保存录制得到的多媒体子文件之后，

所述方法还包括：

将所述起始位置对应的时间点作为所述配音子片段和/或所述视频子片段的起始时间点，将所述结束位置对应的时间点作为所述配音子片段和/或所述视频子片段的结束时间点。

4.根据权利要求2或3所述的方法，其特征在于，在所述多媒体子文件为一个的情况下，在保存录制得到的多媒体子文件之后，所述方法还包括：

将所述多媒体子文件作为所述第三多媒体文件。

5.根据权利要求3所述的方法，其特征在于，在所述多媒体子文件为多个的情况下，

在保存录制得到的多媒体子文件之后，所述方法还包括：

基于起始时间点对多个所述多媒体子文件的多个配音子片段进行拼接，得到所述配音片段，其中，所述配音片段的起始时间点为所述多个配音子片段的多个起始时间点中最早的起始时间点，所述配音片段的结束时间点为所述多个配音子片段的多个结束时间点中最晚的结束时间点；和/或

基于起始时间点对多个所述多媒体子文件的多个视频子片段进行拼接，得到所述视频片段，其中，所述视频片段的起始时间点为所述多个视频子片段的多个起始时间点中最早的起始时间点，所述视频片段的结束时间点为所述多个视频子片段的多个结束时间点中最晚的结束时间点。

6.根据权利要求5所述的方法，其特征在于，基于起始时间点对多个所述多媒体子文件的多个配音子片段进行拼接包括：

按照起始时间对所述多个配音子片段进行排序，其中，排序后相邻的两个配音子片段为第一配音子片段和第二配音子片段，所述第一配音子片段的结束时间点不晚于所述第二配音子片段的起始时间点；

判断所述第一配音子片段的结束时间点是否等于所述第二配音子片段的起始时间点；

若所述第一配音子片段的结束时间点等于所述第二配音子片段的起始时间点，则拼接所述第一配音子片段和所述第二配音子片段；

若所述第一配音子片段的结束时间点不等于所述第二配音子片段的起始时间点，则通过预设配音子片段来连接所述第一配音子片段和所述第二配音子片段，其中，所述预设配音子片段的音频时长等于所述第一配音子片段的结束时间点与所述第二配音子片段的起始时间点之间的时间长度。

7.根据权利要求1所述的方法，其特征在于,合成录制所述目标对象得到的第三多媒体文件和所述第二多媒体文件，得到目标多媒体文件包括：

获取对应于所述第一多媒体文件的背景音乐数据；

将所述背景音乐数据与所述配音片段中的配音数据合成至音频文件；

将所述音频文件中的音频数据和/或所述视频片段中的视频数据，与所述第二多媒体中的数据进行合成，得到所述目标多媒体文件。

8.根据权利要求7所述的方法，其特征在于，在得到所述目标多媒体文件之后，所述方法还包括：

在播放所述目标多媒体文件时，在展示对应于所述第一多媒体文件中的视频数据的画面时，以画中画的形式展示对应于所述视频片段中数据的画面；和/或

在播放所述目标多媒体文件时，在展示对应于所述第一多媒体文件中的视频数据的画面时，若接收到切换指令，则以全屏覆盖的方式展示对应于所述视频片段中数据的画面。

9.一种多媒体文件的处理装置，其特征在于，包括：

启动单元，用于按照接收到的控制指令的指示播放第一多媒体文件，并启动对目标对象的录制，其中，所述第一多媒体文件至少包括视频数据和音频数据；

第一处理单元，用于分离掉所述第一多媒体文件中的所述音频数据，得到第二多媒体文件；

第二处理单元，用于在对所述目标对象的录制结束之后，合成录制所述目标对象得到的第三多媒体文件和所述第二多媒体文件，得到目标多媒体文件，其中，所述第三多媒体文件包括录制得到的配音片段和/或视频片段。

10.根据权利要求9所述的装置，其特征在于，所述控制指令携带有用于指示所述第一多媒体文件中的播放起始位置的起始时间信息和用于指示播放结束位置的结束时间信息，所述启动单元包括：

启动模块，用于按照所述起始时间信息所指示的起始位置播放所述第一多媒体文件，并启动对所述目标对象的录制，其中，在所述第一多媒体文件播放至与所述结束时间信息对应的播放结束位置时，停止对所述目标对象的录制，并保存录制得到的多媒体子文件，所述多媒体子文件包括所述目标对象配音时的配音子片段和/或视频子片段。