CN109819314B

CN109819314B - 音视频处理方法、装置、终端及存储介质

Info

Publication number: CN109819314B
Application number: CN201910165151.5A
Authority: CN
Inventors: 吴娜; 张玮维; 吴清源
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2019-03-05
Filing date: 2019-03-05
Publication date: 2022-07-12
Anticipated expiration: 2039-03-05
Also published as: CN109819314A

Abstract

本发明公开了一种音视频处理方法、装置、终端及存储介质，属于数据处理技术领域。本发明实施例基于第一音视频文件对应的至少两个音频，可以通过每个音频的音量调节控件，实现对该至少两个音频中的至少一个音频的音量分别进行调节的目的，从而，可以对该至少两个音频的音量进行细化的调节，以突出体现某个音频的音量，或者压低某个音频的音量，进而，可以基于调节后的音量，输出与第一音视频文件相对应的第二音视频文件，从而满足了用户对音视频音量的多样化需求，大大提高了对音量调节的灵活度。

Description

音视频处理方法、装置、终端及存储介质

技术领域

本发明涉及数据处理技术领域，特别涉及一种音视频处理方法、装置、终端及存储介质。

背景技术

随着数据处理技术的不断发展，出现了越来越多的音视频处理方法，例如，可以将多个音视频文件合并为一个音视频文件，进而，对该一个音视频文件的音量进行调节。

目前，常用的音视频处理方法为：对多个音视频文件的视频图像进行合并，使得具有相同时间戳的视频图像显示在同一个画布，从而得到一个视频，再将该多个音视频文件的音频作为音频片段合并为一个音频，进而，可以对该音频的音量进行调节，以基于调节音量后的音频和视频，输出新的音视频文件。

基于上述音视频处理方法，通过对合并后的音频的音量进行调节，可以实现调节整体音频音量的目的，然而，却无法进行细化调节，无法突出的体现某个被合并的音视频文件的声音，因此，对音量调节的灵活度较低，无法满足用户对音视频音量的多样化需求。

发明内容

本发明实施例提供了一种音视频处理方法、装置、终端及存储介质，能够解决只能整体调节音频音量，无法细化调节音量，对音量调节的灵活度低，无法满足用户对音视频音量的多样化需求的问题。所述技术方案如下：

一方面，提供了一种音视频处理方法，所述方法包括：

根据音视频编辑指令，将至少两个备选音视频文件合并为第一音视频文件，所述第一音视频文件由所述至少两个备选音视频文件的至少两个音频和一个视频封装得到，所述一个视频由所述至少两个备选音视频文件的至少两个视频合并得到；

在音视频编辑界面中，分别在所述至少两个音频的对应位置，显示所述至少两个音频的音量调节控件；

基于所述至少两个音频的音量调节控件，对所述至少两个音频中至少一个音频的音量进行调节；

当接收到音视频合并指令时，基于调节后的音量、所述至少两个音频以及所述一个视频进行合并，输出第二音视频文件。

在一种可能实现方式中，所述基于所述至少两个音频的音量调节控件，对所述至少两个音频中至少一个音频的音量分别进行调节包括：

当检测到对所述至少两个音频的音量调节控件中任一个音量调节控件的滑动操作时，获取滑动操作在音量条上的停止位置，获取所述停止位置对应的目标音量，将所述任一个音量调节控件对应的音频音量调节至所述目标音量。

在一种可能实现方式中，所述分别在所述至少两个音频的对应位置，显示所述至少两个音频的音量调节控件包括：

在每个音频的第一对应位置，显示所述每个音频的人声音量调节控件；

在所述每个音频的第二对应位置，显示所述每个音频的背景音量调节控件。

在一种可能实现方式中，所述方法还包括：

在对所述至少两个音频的音量分别进行调节的过程中，基于任一次调节后的音量，实时播放所述至少两个音频。

在一种可能实现方式中，所述基于任一次调节后的音量，实时播放所述至少两个音频包括：

同步获取任一次调节音量后的所述至少两个音频的脉冲编码调制PCM切片；

实时读取携带有相同时间戳的各个PCM切片进行播放。

在一种可能实现方式中，所述将至少两个备选音视频文件合并为第一音视频文件之后，所述方法还包括：

对所述第一音视频文件进行解封装，生成所述第一音视频文件的至少两个音频和一个视频。

一方面，提供了一种音视频处理装置，所述装置包括：

合并模块，用于根据音视频编辑指令，将至少两个备选音视频文件合并为第一音视频文件，所述第一音视频文件由所述至少两个备选音视频文件的至少两个音频和一个视频封装得到，所述一个视频由所述至少两个备选音视频文件的至少两个视频合并得到；

显示模块，用于在音视频编辑界面中，分别在所述至少两个音频的对应位置，显示所述至少两个音频的音量调节控件；

调节模块，用于基于所述至少两个音频的音量调节控件，对所述至少两个音频中至少一个音频的音量进行调节；

输出模块，用于当接收到音视频合并指令时，基于调节后的音量、所述至少两个音频以及所述一个视频进行合并，输出第二音视频文件。

在一种可能实现方式中，所述调整模块用于：

在一种可能实现方式中，所述显示模块用于：

在一种可能实现方式中，所述装置还包括：

实时播放模块，用于在对所述至少两个音频的音量分别进行调节的过程中，基于任一次调节后的音量，实时播放所述至少两个音频。

在一种可能实现方式中，所述实时播放模块用于：

实时读取携带有相同时间戳的各个PCM切片进行播放。

在一种可能实现方式中，所述装置还包括：

解封装模块，用于对所述第一音视频文件进行解封装，生成所述第一音视频文件的至少两个音频和一个视频。

一方面，提供了一种终端，所述终端包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条指令，所述指令由所述一个或多个处理器加载并执行以实现如上述音视频处理方法所执行的操作。

一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如上述音视频处理方法所执行的操作。

本发明实施例基于第一音视频文件对应的至少两个音频，可以通过每个音频的音量调节控件，实现对该至少两个音频中的至少一个音频的音量分别进行调节的目的，从而，可以对该至少两个音频的音量进行细化的调节，以突出体现某个音频的音量，或者压低某个音频的音量，进而，可以基于调节后的音量，输出与第一音视频文件相对应的第二音视频文件，从而满足了用户对音视频音量的多样化需求，大大提高了对音量调节的灵活度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种音视频处理方法的流程图；

图2是本发明实施例提供的一种音视频处理方法的流程图；

图3是本发明实施例提供的一种音视频处理方法的流程图；

图4是本发明实施例提供的一种音视频处理装置的结构示意图；

图5是本发明实施例提供的一种终端500的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1是本发明实施例提供的一种音视频处理方法的流程图，该音视频处理方法可以应用于任一种终端中。参见图1，该实施例包括：

101、根据音视频编辑指令，将至少两个备选音视频文件合并为第一音视频文件，该第一音视频文件由该至少两个备选音视频文件的至少两个音频和一个视频封装得到，该一个视频由该至少两个备选音视频文件的至少两个视频合并得到。

102、在音视频编辑界面中，分别在该至少两个音频的对应位置，显示该至少两个音频的音量调节控件。

103、基于该至少两个音频的音量调节控件，对该至少两个音频中至少一个音频的音量进行调节。

104、当接收到音视频合并指令时，基于调节后的音量、该至少两个音频以及该一个视频进行合并，输出第二音视频文件。

在一些实施例中，上述基于该至少两个音频的音量调节控件，对该至少两个音频中至少一个音频的音量分别进行调节包括：

当检测到对该至少两个音频的音量调节控件中任一个音量调节控件的滑动操作时，获取滑动操作在音量条上的停止位置，获取该停止位置对应的目标音量，将该任一个音量调节控件对应的音频音量调节至该目标音量。

在一些实施例中，上述分别在该至少两个音频的对应位置，显示该至少两个音频的音量调节控件包括：

在每个音频的第一对应位置，显示该每个音频的人声音量调节控件；

在该每个音频的第二对应位置，显示该每个音频的背景音量调节控件。

在一些实施例中，该方法还包括：

在对该至少两个音频的音量分别进行调节的过程中，基于任一次调节后的音量，实时播放该至少两个音频。

在一些实施例中，上述基于任一次调节后的音量，实时播放该至少两个音频包括：

同步获取任一次调节音量后的该至少两个音频的脉冲编码调制PCM切片；

实时读取携带有相同时间戳的各个PCM切片进行播放。

在一些实施例中，上述将至少两个备选音视频文件合并为第一音视频文件之后，该方法还包括：

对该第一音视频文件进行解封装，生成该第一音视频文件的至少两个音频和一个视频。

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

图2是本发明实施例提供的一种音视频处理方法的流程图。参见图2，该实施例包括：

201、终端获取至少两个备选音视频文件。

在本发明实施例中，该终端可以具有音视频处理功能，该至少两个备选音视频文件可以为该终端从服务器或者其他终端获取到的音视频文件，也可以为终端所录制的音视频文件。

例如，终端获取该至少两个备选音视频文件的过程可以包括以下步骤201A至步骤201B：

201A：终端显示音视频获取界面。

其中，该音视频获取界面可以显示导入区域，该导入区域用于终端显示至少两个备选音视频文件。该导入区域可以具有导入控件，该导入控件用于终端获取该至少两个备选音视频文件。此外，该音视频获取界面还可以显示音视频编辑控件，该音视频编辑控件用于指示终端开始对至少两个备选音视频文件进行合并。

201B：当终端检测到对该音视频获取界面上的导入控件的触发操作时，终端获取至少两个备选音视频文件。

具体地，当终端检测到对该导入控件的触发操作时，终端可以显示本地相册界面，该本地相册界面可以显示存储在终端本地的各个备选音视频文件和确认控件，每个备选音视频文件可以对应显示一个可勾选框。用户勾选了至少两个可勾选框之后，当终端检测到对该确认控件的触发操作时，终端可以将该至少两个可勾选框对应的至少两个备选音视频文件导入该音视频获取界面的导入区域。其中，终端可以根据该至少两个备选音视频文件的数目和该导入区域的尺寸，自动将该至少两个备选音视频文件显示在该导入区域中尺寸相同的至少两个子区域。

上述步骤201A至步骤201B为终端获取至少两个备选音视频文件的一种实现方式，基于该方式，终端可以根据用户需求，快速地从终端本地中获取到至少两个备选音视频文件。

当然，在其他实施例中，终端还可以通过其他方式来获取该至少两个音视频文件，例如，终端获取该至少两个备选音视频文件的过程还可以如下：终端可以在音视频获取界面显示至少两个固定位置的导入区域，每个导入区域可以显示一个导入控件，当终端检测到对任一个导入控件的触发操作时，终端可以显示本地相册界面，当终端检测到对该本地相册界面中的任一个备选音视频文件的选中操作时，终端可以基于该任一个导入控件所在导入区域的位置，将该选中操作对应的备选音视频文件，显示该任一个导入控件所在导入区域。在另一种实现方式中，当终端检测到对任一个导入控件的触发操作时，终端可以显示录制界面，当终端检测到对该录制界面上确认控件的触发操作时，终端可以将基于该录制界面录制到的备选音视频文件，加载到该任一个导入控件所在导入区域中。通过上述过程，终端可以根据至少两个导入区域，分别获取到至少两个备选音视频文件，并将每个备选音视频文件显示在与导入区域对应的固定位置，从而实现了用户可以根据自身需求，对备选音视频文件的显示位置进行自由选择，提高了终端获取备选音视频文件的灵活性。本发明实施例在此对至少两个备选音视频文件的获取方式不做限定。

202、终端获取音视频编辑指令。

在本发明实施例中，该音视频编辑指令用于指示终端对该至少两个备选音视频文件进行合并等处理。具体地，当终端检测到用户对该音视频获取界面的音视频编辑控件的触发操作时，终端可以触发该音视频编辑指令。

203、终端基于该音视频编辑指令，显示音视频编辑界面。

在本发明实施例中，该音视频编辑界面可以用于终端对该至少两个备选音视频文件对应的至少两个音频的音量分别进行调节，该音视频编辑界面可以显示合并进度条、音视频发布控件、音量调节控件以及时间条等。其中，该合并进度条用于表示该至少两个音视频文件的合并进度，该音视频发布控件可以用于指示终端结束对该至少两个音频的处理，该音视频发布控件还可以用于指示终端将该第一音视频文件处理完毕之后，发送到服务器等，该音量调节控件可以用于用户为每个音频设置符合需求的音量参数，该时间条用于表示该至少两个音频的播放进度。其中，该至少两个音频中的每个音频可以对应显示一个音量调节控件，当然，每个音频也可以对应显示两个或者多个音量调节控件，本发明实施例在此对该音视频编辑界面的具体内容不做限定。

204、终端根据该音视频编辑指令，将该至少两个备选音视频文件合并为第一音视频文件。

在本发明实施例中，该第一音视频文件由该至少两个备选音视频文件至少两个音频和一个视频得到的封装文件，该一个视频由该至少两个备选音视频文件的至少两个视频合并得到。例如，终端将该至少两个备选音视频文件合并为第一音视频文件的过程可以包括以下步骤204A至步骤204B：

204A：终端将该至少两个备选音视频文件的各个视频图像进行合并，生成一个视频。

其中，每个视频图像可以携带有对应的第一时间戳。

具体地，终端可以根据每个备选音视频文件中的各个视频图像所携带的第一时间戳，获取该至少两个备选音视频文件中携带有相同第一时间戳的各个视频图像，终端可以将该携带有相同第一时间戳的各个视频图像合并在一起，得到相同第一时间戳对应的合并视频图像，例如，终端可以根据该至少两个备选音视频文件在该音视频获取界面的显示位置，将该携带有相同第一时间戳的各个视频图像依次拼接在一起，从而得到该相同第一时间戳对应的合并视频图像。进而，终端可以根据第一时间戳从早到晚的顺序，将该至少两个备选音视频文件得到的各个合并视频图像依次进行拼接，得到该一个视频。基于步骤204A的过程，终端可以将该至少两个备选音视频文件中携带有相同第一时间戳的各个视频图像合并在一个视频画面中，从而终端可以同步播放该至少两个备选音视频文件的各个视频图像，而不用分别播放每个备选音视频文件的视频图像，满足了用户多样化需求。

204B：终端基于该至少两个备选音视频文件对应的至少两个音频和该一个视频，得到该第一音视频文件。

其中，该至少两个音频为终端基于该至少两个备选音视频文件得到的各个音频。具体地，终端可以将该至少两个备选音视频文件对应的至少两个音频和步骤204A得到的一个视频进行封装，从而得到该第一音视频文件。

上述步骤204A至步骤204B是终端基于至少两个备选音视频文件，得到第一音视频文件的过程，通过该过程，终端可以满足用户对视频图像的合并需求，且，终端可以获取到一个封装的音视频文件，便于终端管理，避免了多个音视频文件所造成了存储空间的浪费以及系统负担等。当然，在其他实施例中，终端还可以通过其他方式来获取该第一音视频文件，本发明实施例在此不做限定。

205、终端对该第一音视频文件进行解封装，生成该第一音视频文件的至少两个音频和一个视频。

206、终端在音视频编辑界面中，分别在该至少两个音频的对应位置，显示该至少两个音频的音量调节控件。

例如，终端在音视频编辑界面中，分别在该至少两个音频的对应位置，显示该至少两个音频的音量调节控件的具体过程可以如下：对于每个音频，终端可以在该音视频编辑界面中每个音频的第一对应位置，显示该每个音频的人声音量调节控件，终端可以在该每个音频的第二对应位置，显示该每个音频的背景音量调节控件。其中，该人声音量调节控件用于终端对该每个音频的人声音量进行调节，该背景音量调节控件用于终端对该每个音频的背景音量进行调节。

通过分别在该至少两个音频的对应位置，显示该至少两个音频的音量调节控件，使得终端可以基于各个音量调节控件，分别对该至少两个音频中的至少一个音频的音量进行调节，实现了对该至少两个音频的音量进行细化调节的目的，增强了对音量调节的灵活度。进而，通过在每个音频的对应位置，分别显示每个音频的人声音量调节控件和背景音量调节控件，使得终端可以对该至少两个音频的音量进行更加细化的调节，从而，可以实现突出人声音量或者背景音量的目的，使得对音量调节的灵活度更高，可以满足用户对音量的多样化需求。

需要说明的是，步骤202至步骤205是以终端先显示音视频编辑界面，再对至少两个备选音视频文件进行合并，进而对合并后的第一音视频文件进行解封装，以得到至少两个音频和一个视频为例进行说明的，其中，在终端对至少两个备选音视频文件进行合并的过程中，随着合并进度的增加，该音视频编辑界面的合并进度条可以从左到右、从白到黑逐渐加深显示颜色，当该至少两个备选音视频文件完全合并为第一音视频文件时，该合并进度条可以完全变为黑色，通过该合并进度条的显示颜色，用户可以实时了解到该至少两个备选音视频文件的合并进度，当然，该合并进度条还可以通过其他方式来表示终端对该至少两个备选音视频文件的合并进度，本发明实施例在此不做限定。

当然，在其他实施例中，终端还可以通过其他方式来显示音视频编辑界面，例如，当终端检测到对第一音视频文件进行解封装完毕之后，终端可以显示音视频编辑界面。此外，终端还可以在获取到第一音视频文件之后，显示该音视频编辑界面，本发明实施例在此对该音视频编辑界面的显示顺序不做限定。

207、当终端检测到对该至少两个音频的音频调节控件中任一个音频调节控件的滑动操作时，获取滑动操作在音量条上的停止位置，获取该停止位置对应的目标音量，将该任一个音频调节控件对应的音频音量调节至该目标音量。

在本发明实施例中，以终端基于该至少两个音频中的第一音频的第一音量调节控件，对该第一音频的音量进行调节为例，终端获取该第一音量调节控件在音量条上的停止位置对应的目标音量的过程可以包括以下步骤207A至步骤207B：

207A：当终端检测到对第一音量调节控件的滑动操作时，终端获取滑动操作在音量条上的停止位置所对应的音量参数。

其中，该第一音量调节控件可以为该第一音频对应的任一个音量调节控件，例如，该第一音量调节控件可以为该第一音频对应的人声音量调节控件或者背景音量调节。

具体地，当终端检测到用户对该第一音量调节控件的滑动结束操作时，终端可以确定该第一音量调节控件在音量条上的停止位置，进而，终端可以根据该停止位置，获取与该停止位置相关联的音量参数。例如，终端确定该第一音量调节控件在音量条上的停止位置为该音量条的中间位置，则终端可以获取到与该中间位置相关联的音量参数为50％。

207B：终端基于该音量参数和该第一音频的最大音量，获取该第一音频的目标音量。

其中，该目标音量可以为该第一音频的人声音量或者背景音量，当然，该目标音量也可以为该第一音频的整体音量，本发明实施例在此不做限定。

具体地，终端可以将该音量参数与该最大音量相乘，以得到该第一音频的目标音量。例如，该音量参数为50％，该最大音量为A，则该目标音量为A*50％，A为任意有理数。

上述是以终端获取第一音量调节控件的停止位置对应的目标音量为例进行说明的，同理，终端还可以获取其他任一音量调节控件的停止位置对应的目标音量，从而，终端可以对其他任一个音频的音量进行调节。且，终端还可以多次对各个音频的音量分别进行调节，从而将每个音频的音量调节到用户最满意的音量，满足用户对音频音量多样化的需求，本发明实施例在此不做一一赘述。

需要说明的是，步骤207是以终端通过获取滑动操作在音量条上的停止位置，来获取该目标音量为例进行说明的，当然，终端还可以通过获取用户在音频调节控件上输入的数值，来获取该目标音量，本发明实施例在此不做限定。

208、当终端接收到音视频合并指令时，终端基于调节后的音量、该至少两个音频以及该一个视频进行合并，输出第二音视频文件。

在本发明实施例中，该音视频合并指令用于指示终端结束对该至少两个音频的音量的调节，以基于调节后的音量、该至少两个音频以及该一个视频合并为第二音视频文件，该第二音视频文件为终端对该至少两个音频中的至少一个音频的音量进行调整后得到的音视频文件。以终端将该至少两个音频中的第一音频的音量调节至目标音量，而该至少两个音频中除该第一音频之外的其他音频的音量不变为例，终端输出该第二音视频文件的过程可以包括以下步骤208A至步骤208E：

208A：当终端检测到对音视频编辑界面上的音视频发布控件的触发操作时，终端获取音视频合并指令。

208B：终端基于该音视频合并指令，获取第一音频的各个第一PCM(Pulse CodeModulation，脉冲编码调制)切片和各个第二音频的各个第二PCM切片。

其中，该各个第二音频为该至少两个音频中除该第一音频之外的其他音频，PCM切片为音频对应的数字信号。每个第一PCM切片和每个第二PCM切片可以携带对应的第二时间戳。

具体地，终端可以分别对该第一音频和该各个第二音频进行解码，得到该第一音频的各个第一音频数据包，以及每个第二音频的各个第二音频数据包，进而，终端可以对该各个第一音频数据包和各个第二音频的各个第二音频数据包分别进行解码，从而，得到每个第一音频数据包的各个第一PCM切片和每个第二音频数据包的各个第二PCM切片。进而，终端可以将各个第一PCM切片放入该第一音频的第一数据队列中，将每个第二音频的各个PCM切片放入每个第二音频的第二数据队列中，以供终端后续进行调用。

208C：终端将每个第一PCM切片的音量调节至目标音量，得到与各个第一PCM切片对应的各个第三PCM切片。

其中，该第三PCM切片可以携带有相应的第二时间戳。

具体地，终端可以根据该目标音量，将每个第一PCM切片的振幅调节至与该目标音量相对应的振幅，从而生成与每个第一PCM切片对应的第三PCM切片。

208D：终端基于携带有相同第二时间戳的第二PCM切片和第三PCM切片，得到目标音频。

其中，该目标音频为终端基于各个第二PCM切片和各个第三PCM切片合并得到的一个音频。

具体地，终端可以从第一数据队列和各个第二数据队列中，获取携带有相同时间戳的各个第二PCM切片和第三PCM切片，终端可以将该携带有相同时间戳的各个第二PCM切片和第三PCM切片进行叠加，生成各个目标PCM切片。进而，终端可以根据第二时间戳从早到晚的顺序，依次将该各个目标PCM切片进行连接，生成该目标音频。当然，终端还可以通过其他方式来生成该目标音频，本发明实施例在此不做限定。

208E：终端基于目标音频和一个视频，输出第二音视频文件。

具体地，终端可以将该目标音频和该一个视频进行封装，生成该第二音视频文件，进而，终端可以将该第二音视频文件输出。

上述步骤208A至步骤208E是以终端对该至少两个音频中的一个音频的音量进行调节，而其他音频的音量不变为例，对终端输出第二音视频文件的过程进行说明的。同理，终端还可以对该至少两个音频中的两个或者多个音频的音量进行调节，输出该第二音视频文件，本发明实施例在此不做一一赘述。

需要说明的是，通过上述步骤208A至步骤208E，终端在接收到音视频合并指令时，对该至少两个音频全部进行解码，以基于最终调节后的音量，对相应的音频的音量进行调节，避免了每次调节音量后，终端都对各个音频进行解码所造成的资源浪费，大大减轻了系统的负担。

本发明实施例基于第一音视频文件对应的至少两个音频，可以通过每个音频的音量调节控件，实现对该至少两个音频中的至少一个音频的音量分别进行调节的目的，从而，可以对该至少两个音频的音量进行细化的调节，以突出体现某个音频的音量，或者压低某个音频的音量，进而，可以基于调节后的音量，输出与第一音视频文件相对应的第二音视频文件，从而满足了用户对音视频音量的多样化需求，大大提高了对音量调节的灵活度。进一步的，终端可以对每个音频的人声音量和背景音量分别进行调节，使得对该至少两个音频的音量的调节更加细化，更加提高了对音量调节的灵活度，可以满足用户的更多种需求。

上述图2所示实施例介绍了终端基于至少两个音频的音量调节控件，对至少两个音频中至少一个音频的音量分别进行调节，根据音视频合并指令输出第二音视频文件的过程。而在终端对该至少两个音频中至少一个音频的音量进行调节的过程中，终端还可以基于任一此调节后的音量，实时播放该至少两个音频，基于此，上述步骤207之后，该实时播放的过程可以包括以下步骤301至步骤302。图3是本发明实施例提供的一种音视频处理方法的流程图。参见图3，该实施例包括：

301、终端同步获取任一次调节音量后的该至少两个音频的脉冲编码调制PCM切片。

以终端第N次将第一音频的音量调节至目标音量为例，其中，N为任意正整数，终端同步获取该至少两个音频的脉冲编码调制PCM切片的过程可以包括以下步骤：

终端获取第N次将第一音频的音量调节至目标音量时，时间条上的进度线所对应的时间点，终端可以同步对该第一音频中该时间点之后的第一音频片段和各个第二音频中该时间点之后的各个第二音频片段分别进行解码，实时得到该第一音频片段的各个PCM切片和各个第二音频片段的各个PCM切片，终端可以根据该目标音量，实时对该第一音频片段的各个PCM切片的音量进行调节，从而得到对第一音频进行第N次调节音量后的各个PCM切片。其中，终端得到第N次调节音量后的各个PCM切片的过程与上述步骤207A至步骤207B同理，本发明实施例在此不做一一赘述。

与上述第N次调节第一音频的音量后，获取该至少两个音频的PCM切片的过程同理，终端可以同步获取到任一次调节音量后的该至少两个音频的PCM切片，本发明实施例在此不做一一赘述。

302、终端实时读取携带有相同时间戳的各个PCM切片进行播放。

在本发明实施例中，终端实时将携带有相同时间戳的各个PCM切片合并为目标PCM切片，终端可以通过音频播放功能，实时播放各个目标PCM切片。其中，终端实时生成目标PCM切片的过程与上述步骤207D中生成目标PCM切片的过程同理，本发明实施例在此不做一一赘述。

上述步骤301至步骤302为终端在对该至少两个音频中至少一个音频的音量进行调节的过程中，基于任一次的音量调节，实时播放该至少两个音频的过程，通过该过程，可以实现在调整音量的过程中，实时对音频音量进行预览的目的，从而，使得用户可以基于预览的音量，根据用户自身的需求，及时通过音量调节控件对任一个音频的音量进行调整，从而，可以高效的满足用户的需求，大大提高了对该至少两个音频的音量进行调整的效率。

图4是本发明实施例提供的一种音视频处理装置的结构示意图。参见图4，该装置包括：合并模块401、显示模块402、调节模块403和输出模块404。

合并模块401，用于根据音视频编辑指令，将至少两个备选音视频文件合并为第一音视频文件，该第一音视频文件由该至少两个备选音视频文件的至少两个音频和一个视频封装得到，该一个视频由该至少两个备选音视频文件的至少两个视频合并得到；

显示模块402，用于在音视频编辑界面中，分别在该至少两个音频的对应位置，显示该至少两个音频的音量调节控件；

调节模块403，用于基于该至少两个音频的音量调节控件，对该至少两个音频中至少一个音频的音量进行调节；

输出模块404，用于当接收到音视频合并指令时，基于调节后的音量、该至少两个音频以及该一个视频进行合并，输出第二音视频文件。

在一些实施例中，该调整模块403用于：

在一些实施例中，该显示模块402用于：

在一些实施例中，该装置还包括：

实时播放模块，用于在对该至少两个音频的音量分别进行调节的过程中，基于任一次调节后的音量，实时播放该至少两个音频。

在一些实施例中，该实时播放模块用于：

实时读取携带有相同时间戳的各个PCM切片进行播放。

在一些实施例中，该装置还包括：

解封装模块，用于对该第一音视频文件进行解封装，生成该第一音视频文件的至少两个音频和一个视频。

需要说明的是：上述实施例提供的音视频处理装置在音视频处理时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将终端的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音视频处理装置与音视频处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图5是本发明实施例提供的一种终端500的结构框图。该终端500可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端500还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端500包括有：处理器501和存储器502。

处理器501可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器501可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器501也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器501可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器501还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器502可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器502还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器502中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器501所执行以实现本发明中方法实施例提供的音视频处理方法。

在一些实施例中，终端500还可选包括有：外围设备接口503和至少一个外围设备。处理器501、存储器502和外围设备接口503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口503相连。具体地，外围设备包括：射频电路504、显示屏505、摄像头506、音频电路507、定位组件508和电源509中的至少一种。

外围设备接口503可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器501和存储器502。在一些实施例中，处理器501、存储器502和外围设备接口503被集成在同一芯片或电路板上；在一些其他实施例中，处理器501、存储器502和外围设备接口503中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路504用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路504通过电磁信号与通信网络以及其他通信设备进行通信。射频电路504将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路504包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路504可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路504还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本发明对此不加以限定。

显示屏505用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏505是触摸显示屏时，显示屏505还具有采集在显示屏505的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器501进行处理。此时，显示屏505还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏505可以为一个，设置终端500的前面板；在另一些实施例中，显示屏505可以为至少两个，分别设置在终端500的不同表面或呈折叠设计；在再一些实施例中，显示屏505可以是柔性显示屏，设置在终端500的弯曲表面上或折叠面上。甚至，显示屏505还可以设置成非矩形的不规则图形，也即异形屏。显示屏505可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件506用于采集图像或视频。可选地，摄像头组件506包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件506还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路507可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器501进行处理，或者输入至射频电路504以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端500的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器501或射频电路504的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路507还可以包括耳机插孔。

定位组件508用于定位终端500的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件508可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源509用于为终端500中的各个组件进行供电。电源509可以是交流电、直流电、一次性电池或可充电电池。当电源509包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端500还包括有一个或多个传感器510。该一个或多个传感器510包括但不限于：加速度传感器511、陀螺仪传感器512、压力传感器513、指纹传感器514、光学传感器515以及接近传感器516。

加速度传感器511可以检测以终端500建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器511可以用于检测重力加速度在三个坐标轴上的分量。处理器501可以根据加速度传感器511采集的重力加速度信号，控制显示屏505以横向视图或纵向视图进行用户界面的显示。加速度传感器511还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器512可以检测终端500的机体方向及转动角度，陀螺仪传感器512可以与加速度传感器511协同采集用户对终端500的3D动作。处理器501根据陀螺仪传感器512采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器513可以设置在终端500的侧边框和/或显示屏505的下层。当压力传感器513设置在终端500的侧边框时，可以检测用户对终端500的握持信号，由处理器501根据压力传感器513采集的握持信号进行左右手识别或快捷操作。当压力传感器513设置在显示屏505的下层时，由处理器501根据用户对显示屏505的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器514用于采集用户的指纹，由处理器501根据指纹传感器514采集到的指纹识别用户的身份，或者，由指纹传感器514根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器501授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器514可以被设置终端500的正面、背面或侧面。当终端500上设置有物理按键或厂商Logo时，指纹传感器514可以与物理按键或厂商Logo集成在一起。

光学传感器515用于采集环境光强度。在一个实施例中，处理器501可以根据光学传感器515采集的环境光强度，控制显示屏505的显示亮度。具体地，当环境光强度较高时，调高显示屏505的显示亮度；当环境光强度较低时，调低显示屏505的显示亮度。在另一个实施例中，处理器501还可以根据光学传感器515采集的环境光强度，动态调节摄像头组件506的拍摄参数。

接近传感器516，也称距离传感器，通常设置在终端500的前面板。接近传感器516用于采集用户与终端500的正面之间的距离。在一个实施例中，当接近传感器516检测到用户与终端500的正面之间的距离逐渐变小时，由处理器501控制显示屏505从亮屏状态切换为息屏状态；当接近传感器516检测到用户与终端500的正面之间的距离逐渐变大时，由处理器501控制显示屏505从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图5中示出的结构并不构成对终端500的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述实施例中音视频处理方法。例如，该计算机可读存储介质可以是ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory，只读光盘)、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，上述程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音视频处理方法，其特征在于，所述方法包括：

显示音视频获取界面，所述音视频获取界面显示音视频编辑控件和至少两个固定位置的导入区域，每个所述导入区域具有一个导入控件，至少一个所述导入控件用于触发获取本地相册中的备选音视频文件，至少一个所述导入控件用于触发显示录制界面，获取用户录制的备选音视频文件；

响应于对所述导入控件的触发操作，获取至少两个备选音视频文件；

响应于对所述音视频编辑控件的触发操作，获取音视频编辑指令；

响应于所述音视频编辑指令，显示音视频编辑界面，所述音视频编辑界面显示合并进度条，所述合并进度条用于显示所述至少两个备选音视频文件的合并进度；

根据所述音视频编辑指令，将所述至少两个备选音视频文件合并为第一音视频文件，所述第一音视频文件由所述至少两个备选音视频文件的至少两个音频和一个视频封装得到，所述一个视频由所述至少两个备选音视频文件的至少两个视频合并得到；

对所述第一音视频文件进行解封装，生成所述第一音视频文件的至少两个音频和一个视频；

在所述音视频编辑界面中，分别在所述至少两个音频的对应位置，显示所述至少两个音频的音量调节控件；

基于所述至少两个音频的音量调节控件，对所述至少两个音频中至少一个音频的音量分别进行调节；

当接收到音视频合并指令时，基于调节后的音量、所述至少两个音频以及所述一个视频进行合并，输出第二音视频文件，在合并过程中，所述合并进度条实时变化颜色；

其中，所述将所述至少两个备选音视频文件合并为第一音视频文件，包括：

将携带有相同第一时间戳的各个视频图像合并在一起，得到相同第一时间戳对应的合并视频图像，进而生成一个视频；

基于所述至少两个备选音视频文件对应的至少两个音频和所述一个视频，得到所述第一音视频文件；

所述基于调节后的音量、所述至少两个音频以及所述一个视频进行合并，输出第二音视频文件，包括：

获取第一音频的各个第一脉冲调制PCM切片和各个第二音频的各个第二PCM切片，其中，所述各个第二音频为所述至少两个音频中除第一音频之外的其他音频，所述各个第一PCM切片和所述各个第二PCM切片均携带对应的第二时间戳；

将每个所述第一PCM切片的音量调节至目标音量，得到与所述各个第一PCM切片对应的各个第三PCM切片，所述各个第三PCM切片具有第二时间戳；

基于携带有相同第二时间戳的所述第二PCM切片和所述第三PCM切片，得到目标音频；

基于所述目标音频和所述一个视频，输出所述第二音视频文件。

2.根据权利要求1所述的方法，其特征在于，所述基于所述至少两个音频的音量调节控件，对所述至少两个音频中至少一个音频的音量分别进行调节包括：

当检测到对所述至少两个音频的音量调节控件中任一个音量调节控件的滑动操作时，获取所述滑动操作在音量条上的停止位置，获取所述停止位置对应的目标音量，将所述任一个音量调节控件对应的音频音量调节至所述目标音量。

3.根据权利要求1所述的方法，其特征在于，所述分别在所述至少两个音频的对应位置，显示所述至少两个音频的音量调节控件包括：

4.据权利要求1所述的方法，其特征在于，所述方法还包括：

5.据权利要求4所述的方法，其特征在于，所述基于任一次调节后的音量，实时播放所述至少两个音频包括：

实时读取携带有相同时间戳的各个PCM切片进行播放。

6.一种音视频处理装置，其特征在于，所述装置包括：

显示模块，用于显示音视频获取界面，所述音视频获取界面显示音视频编辑控件和至少两个固定位置的导入区域，每个所述导入区域具有一个导入控件，至少一个所述导入控件用于触发获取本地相册中的备选音视频文件，至少一个所述导入控件用于触发显示录制界面，获取用户录制的备选音视频文件；

获取模块，用于响应于对所述导入控件的触发操作，获取至少两个备选音视频文件；响应于对所述音视频编辑控件的触发操作，获取音视频编辑指令；

所述显示模块，还用于响应于所述音视频编辑指令，显示音视频编辑界面，所述音视频编辑界面显示合并进度条，所述合并进度条用于显示所述至少两个备选音视频文件的合并进度；

合并模块，用于根据所述音视频编辑指令，将所述至少两个备选音视频文件合并为第一音视频文件，所述第一音视频文件由所述至少两个备选音视频文件的至少两个音频和一个视频封装得到，所述一个视频由所述至少两个备选音视频文件的至少两个视频合并得到；

解封装模块，用于对所述第一音视频文件进行解封装，生成所述第一音视频文件的至少两个音频和一个视频；

所述显示模块，还用于在所述音视频编辑界面中，分别在所述至少两个音频的对应位置，显示所述至少两个音频的音量调节控件；

输出模块，用于当接收到音视频合并指令时，基于调节后的音量、所述至少两个音频以及所述一个视频进行合并，输出第二音视频文件，在合并过程中，所述合并进度条实时变化颜色；

其中，所述合并模块，被用于将携带有相同第一时间戳的各个视频图像合并在一起，得到相同第一时间戳对应的合并视频图像，进而生成一个视频；基于所述至少两个备选音视频文件对应的至少两个音频和所述一个视频，得到所述第一音视频文件；

所述输出模块，具体用于获取第一音频的各个第一脉冲调制PCM切片和各个第二音频的各个第二PCM切片，其中，所述各个第二音频为所述至少两个音频中除第一音频之外的其他音频，所述各个第一PCM切片和所述各个第二PCM切片均携带对应的第二时间戳；

7.根据权利要求6所述的装置，其特征在于，所述调节模块用于：

8.根据权利要求6所述的装置，其特征在于，所述显示模块用于：

9.根据权利要求6所述的装置，其特征在于，所述装置还包括：

10.根据权利要求9所述的装置，其特征在于，所述实时播放模块用于：

实时读取携带有相同时间戳的各个PCM切片进行播放。

11.一种终端，其特征在于，所述终端包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条指令，所述指令由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求5任一项所述的音视频处理方法所执行的操作。

12.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1至权利要求5任一项所述的音视频处理方法所执行的操作。