CN112837709B

CN112837709B - 一种音频文件拼接的方法及装置

Info

Publication number: CN112837709B
Application number: CN202110207967.7A
Authority: CN
Inventors: 张炜雄
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-02-24
Filing date: 2021-02-24
Publication date: 2022-07-22
Anticipated expiration: 2041-02-24
Also published as: US20220270649A1; US11756586B2; MX2022001624A; EP4050604A1; CN112837709A

Abstract

本公开涉及计算机技术领域，特别涉及一种音频文件拼接的方法及装置，用于，该方法为：智能终端响应于针对源多媒体文件触发的音频文件插入操作并确定目标插入位置，再基于获取的第一候选音频片段，确定第一候选音频片段对应的第一播放时长，然后，基于目标插入位置与第一播放时长，在源多媒体文件播放过程中，将源多媒体文件对应的源音频文件切换至第一候选音频片段，获得拼接后的最新的源音频文件，这样，智能终端可以在保留源音频文件的基础上，实现在源音频文件的任意位置插入第一候选音频片段的目的，从而满足了用户对音频多样性的要求，也提高了用户对智能终端的体验满意度。

Description

一种音频文件拼接的方法及装置

技术领域

本公开涉及计算机技术领域，特别涉及一种音频文件拼接的方法及装置。

背景技术

随着多媒体技术的普及，通过终端拍摄多媒体文件，如通过移动操作系统等中的短视频应用程序拍摄短视频等，已逐渐成为人们日常化的一种活动。随之而来，在对多媒体文件进行编辑、发布时，为了更好的表达多媒体文件的内容，以获得更高的展示曝光和点击量，终端可以为多媒体文件录制相应的音频文件。

已有技术下，在一段多媒体文件录制音频文件后，若对录制的部分录音音频文件的效果不满意，往往存在无法拼接其他音频或者拼接处理占用大量内存等问题。

因此，需要设计一种新的方法，以解决上述问题。

发明内容

本公开实施例提供一种音频文件拼接的方法及装置，用于解决已有技术下录音音频文件不能与原始音频文件进行随意拼接的问题。

本公开实施例提供的具体技术方案如下：

第一方面，一种音频文件拼接的方法，包括：

响应于针对源多媒体文件触发的音频文件插入操作，在所述源多媒体文件中确定目标插入位置；

获取第一候选音频片段，确定所述第一候选音频片段对应的第一播放时长；

基于所述目标插入位置与所述第一播放时长，在所述源多媒体文件播放过程中，将所述源多媒体文件对应的源音频文件切换至所述第一候选音频片段，获得拼接后的最新的源音频文件。

可选的，所述获取第一候选音频片段，包括：

基于本地音频数据，选取所述第一候选音频片段；或者，

响应于针对所述目标插入位置触发的录制操作，将获得的录音音频数据，作为所述第一候选音频片段。

可选的，所述响应于针对所述目标插入位置触发的录制操作，将获得的录音音频数据，作为所述第一候选音频片段，包括：

基于所述目标插入位置和所述源多媒体文件对应的源音频文件，确定所述录音音频数据的最大录制时长；

响应于针对所述目标插入位置触发的录制操作，启动录制；

基于所述最大录制时长或/和针对所述录音音频数据触发的停止录制操作，停止录制；

将获得的所述录音音频数据，作为所述第一候选音频片段。

可选的，所述方法还包括：

基于拼接文件不允许被覆盖，响应于所述目标插入位置对应的所述源音频文件是拼接文件，去使能音频文件插入操作。

可选的，所述基于所述目标插入位置和所述源多媒体文件对应的源音频文件，确定所述录音音频数据的最大录制时长，包括：

响应于所述源多媒体文件对应的源音频文件中拼接文件不允许被覆盖，则将在所述目标插入位置到其之后第一个拼接文件的起始时刻之间的时长，作为所述录音音频数据的最大录制时长。

可选的，基于所述目标插入位置与所述第一播放时长，在所述源多媒体文件播放过程中，将所述源多媒体文件对应的源音频文件切换至所述第一候选音频片段，获得拼接后的最新的源音频文件，包括：

基于所述目标插入位置，在播放所述源多媒体文件对应的源音频文件的过程中，由所述源多媒体文件对应的源音频文件切换至所述第一候选音频片段；

基于所述第一候选音频片段已播放所述第一播放时长，由所述第一候选音频片段切换至所述源多媒体文件对应的源音频文件。

可选的，所述方法还包括：

响应于取消操作，确定需要取消的第一候选音频片段；

在播放所述源多媒体文件对应的源音频文件的过程中，由所述第一候选音频片段切换至由所述源多媒体文件对应的源音频文件。

第二方面，一种音频文件拼接的装置，包括：

第一确定单元，用于响应于针对源多媒体文件触发的音频文件插入操作，在所述源多媒体文件中确定目标插入位置；

第二确定单元，用于获取第一候选音频片段，确定所述第一候选音频片段对应的第一播放时长；

拼接单元，用于基于所述目标插入位置与所述第一播放时长，在所述源多媒体文件播放过程中，将所述源多媒体文件对应的源音频文件切换至所述第一候选音频片段，获得拼接后的最新的源音频文件。

可选的，所述获取第一候选音频片段，所述第二确定单元用于：

基于本地音频数据，选取所述第一候选音频片段；或者，

可选的，所述响应于针对所述目标插入位置触发的录制操作，将获得的录音音频数据，作为所述第一候选音频片段，所述第二确定单元用于：

响应于针对所述目标插入位置触发的录制操作，启动录制；

将获得的所述录音音频数据，作为所述第一候选音频片段。

可选的，所述第二确定单元还用于：

可选的，所述基于所述目标插入位置和所述源多媒体文件对应的源音频文件，确定所述录音音频数据的最大录制时长，所述第二确定单元用于：

可选的，基于所述目标插入位置与所述第一播放时长，在所述源多媒体文件播放过程中，将所述源多媒体文件对应的源音频文件切换至所述第一候选音频片段，获得拼接后的最新的源音频文件，所述拼接单元用于：

可选的，所述拼接单元还用于：

响应于取消操作，确定需要取消的第一候选音频片段；

第三方面，一种计算机设备，包括：

存储器，用于存储可执行指令；

处理器，用于读取并执行所述存储器中存储的可执行指令，以实现上述第一方面中任一项所述的方法。

第四方面，一种计算机可读存储介质，当所述计算机可读存储介质中的指令由处理器执行时，使得所述处理器能够执行上述第一方面中任一项所述的方法。

第五方面，一种计算机程序产品，包含可执行指令，当所述计算机程序产品的可执行指令由处理器执行时，能够实现上述第一方面中任一项所述的方法。

本公开实施例中，智能终端响应于针对源多媒体文件触发的音频文件插入操作并确定目标插入位置，再基于获取的第一候选音频片段，确定第一候选音频片段对应的第一播放时长，然后，基于目标插入位置与第一播放时长，在源多媒体文件播放过程中，将源多媒体文件对应的源音频文件切换至第一候选音频片段，获得拼接后的最新的源音频文件，这样，智能终端可以在保留源音频文件的基础上，实现在源音频文件的任意位置插入第一候选音频片段的目的，从而满足了用户对音频多样性的要求，也提高了用户对智能终端的体验满意度，进而也解决了已有技术下录音音频文件不能与原始音频文件进行随意拼接的问题。

附图说明

图1为本公开实施例中智能终端进行音频文件拼接的流程示意图；

图2A为本公开实施例中第一种应用场景的示意图；

图2B为本公开实施例中第二种应用场景的示意图；

图3为本公开实施例中智能终端获取第一候选音频片段的示意图；

图4为本公开实施例中智能终端获得录音音频数据的流程示意图；

图5为本公开实施例中智能终端确定最大录制时长的应用场景一的示意图；

图6为本公开实施例中智能终端确定最大录制时长的应用场景二的示意图；

图7为本公开实施例中智能终端确定最大录制时长的应用场景三的示意图；

图8为本公开实施例中智能终端获得录音音频数据的应用场景四的示意图；

图9为本公开实施例中智能终端获得录音音频数据的应用场景五的示意图；

图10为本公开实施例中智能终端获得第一候选音频片段的示意图；

图11为本公开实施例中第三种应用场景的示意图；

图12为本公开实施例中智能终端获得拼接后的最新的源音频文件的示意图；

图13为本公开实施例中智能终端播放拼接后最新的源音频文件的跳转应用场景一的示意图；

图14为本公开实施例中智能终端播放拼接后最新的源音频文件的跳转应用场景二的示意图；

图15为本公开实施例中智能终端播放拼接后最新的源音频文件的跳转应用场景三的示意图；

图16为本公开实施例中智能终端播放拼接后最新的源音频文件的跳转应用场景四的示意图；

图17为本公开实施例中智能终端响应回撤操作的应用场景一的示意图；

图18为本公开实施例中智能终端响应回撤操作的应用场景二的示意图；

图19为本公开实施例中音频文件拼接的装置的逻辑架构示意图；

图20为本公开实施例中音频文件拼接的装置的实体架构示意图。

具体实施方式

在视频或其他多媒体文件制作和生产过程中，常用的改变原始音频方式有以下两种：

方式一、重新为整段多媒体文件录制新的录音音频文件来替换原有音频文件。

由于录音音频文件的连续性，采用方式一需要为整段多媒体文件重新录制新的录音音频文件，并不能保留该段多媒体文件的原有音频文件，若新录制的录音音频文件仍存在部分录音音频文件的效果不佳，则还需重新录制整段多媒体文件的录音音频文件，那么，就造成了大量的重复性录制操作，随之造成了用户的大量时间浪费，也降低了用户的体验满意度。

方式二、采用专业的音频处理软件对录音音频文件进行相应的处理。

采用方式二需要借助专业设备，由此既增加了音频文件处理的操作难度，也增大了音频文件处理的成本，若在终端上安装专业的音频处理软件，由于专业的音频处理软件通常需占用大量内存，那么，终端不仅会因占用大量内存而导致运行不畅，甚至程序崩溃等，也存在着音频处理软件与终端的操作系统不兼容的问题。

为了解决已有技术下多媒体文件的录音音频文件不能与原始音频文件进行随意拼接的问题，本公开实施例中，智能终端响应于针对源多媒体文件触发的音频文件插入操作确定目标插入位置，在获取第一候选音频片段之后，基于目标插入位置与第一候选音频片段对应的第一播放时长，在源多媒体文件播放过程中，将源多媒体文件对应的源音频文件切换至第一候选音频片段，获得最新的源音频文件，从而实现第一候选音频片段与源音频文件的随意拼接。在本公开实施例中，所述智能终端可以为智能移动终端，平板电脑，笔记本电脑，智能掌上设备，个人电脑(Personal Computer，PC)，计算机，智能屏，各类可穿戴设备，个人数字助理(Personal Digital Assistant，PDA)等。在本公开中不作限定。

下面结合附图对本公开一些实施方式做出进一步详细说明。

参阅图1所示，本公开实施例中，智能终端进行音频文件拼接的具体流程如下：

步骤100：响应于针对源多媒体文件触发的音频文件插入操作，在源多媒体文件中确定目标插入位置。

本公开实施例中，智能终端在音频文件编辑界面上，呈现需要进行音频文件拼接的源多媒体文件，然后，智能终端响应于针对源多媒体文件触发的音频插入操作，在源多媒体文件中确定需要插入音频文件的插入时间点，即目标插入位置。

在一些实施例中，该源多媒体文件可以是短视频，也可以是音频文件。

例如，参阅图2A所示，以多媒体文件A为短视频为例。

智能终端在音频文件编辑界面上，基于多媒体文件A的源播放总时长(如，10s)呈现多媒体文件A的播放提示信息(如，播放进度条和置于播放进度条上的滑块)。用户通过滑动播放进度条上的滑块，确定了需要进行音频文件插入的插入时间点，从而触发音频文件插入操作。

假设滑块位于多媒体文件A的播放时间点3s处时，用户触发了音频文件插入操作。

那么，智能终端接收到针对多媒体文件A触发的音频插入操作，并响应于针对多媒体文件A触发的音频插入操作，将3s确定为插入音频文件的插入时间点，即目标插入位置。

在一些实施例中，参阅图2B所示，以多媒体文件A为音频文件为例。

智能终端在音频文件编辑界面上，基于多媒体文件A的源播放总时长(如，15s)呈现多媒体文件A的播放提示信息(如，播放进度条和置于播放进度条上的滑块)。

用户通过滑动播放进度条上的滑块，确定了需要进行音频文件插入的插入时间点，从而触发音频文件插入操作。

步骤110：获取第一候选音频片段，确定第一候选音频片段对应的第一播放时长。

本公开实施例中，在执行步骤110时，智能终端可以采用多种方式，包含但不限于以下两种：

方式一，智能终端基于本地音频数据，选取所述第一候选音频片段。

本公开实施例中，智能终端可以将本地音频数据，作为第一候选音频片段。

例如，参阅图3所示，仍以多媒体文件A为短视频为例。

假设智能终端确定的目标插入位置是3s，以及获取的第一候选音频片段是本地音频数据2。

那么，智能终端响应于用户点击的“插入”按钮，跳转到本地音频数据库，从中选择本地音频数据2作为第一候选音频片段。

方式二，智能终端响应于针对所述目标插入位置触发的录制操作，将获得的录音音频数据，作为第一候选音频片段。

本公开实施例中，智能终端可以通过启动录制功能的方式，录制一段满意的录音音频数据，然后，将该录音音频数据作为第一候选音频片段，具体的，参阅图4所示，智能终端采用录制方式，获得第一候选音频片段的步骤如下：

步骤1101：基于目标插入位置和源多媒体文件对应的源音频文件，确定所述录音音频数据的最大录制时长。

本公开实施例中，智能终端在源多媒体文件上确定目标插入位置之后，在响应针对源多媒体文件上触发的录制操作之前，需要基于目标插入位置和源多媒体文件对应的源音频文件，确定录音音频数据的最大录制时长。具体的，智能终端确定的录音音频数据的最大录制时长存在如下三种情况：

情况一，智能终端响应于源多媒体文件对应的源音频文件中无拼接文件，则将源多媒体文件的源结束时刻和目标插入位置之间的时长，作为录音音频数据的最大录制时长。

具体实施中，若源多媒体文件首次插入音频文件，即，智能终端响应于源多媒体文件对应的源音频文件中无拼接文件，则确定录音音频数据的最长录制时长为：源多媒体文件的源结束时刻和目标插入位置之间的时长。需要注意的是，本公开实施例中，所谓拼接文件是指上一次插入到源多媒体文件对应的源音频文件中的第一候选音频片段。

本公开实施例中，提及的拼接文件所表征的含义均相同，在此不再赘述。

例如，参阅图5所示，仍以多媒体文件A为短视频为例。

假设智能终端确定的目标插入位置为3s，多媒体文件A的源播放总时长为10s(即，源结束时刻为10s)，以及针对多媒体文件A首次插入音频文件(即，无拼接文件)。

那么，智能终端响应于多媒体文件A对应的源音频文件中无拼接文件，将多媒体文件A的源结束时刻和目标插入位置之间的时长，即10-3＝7s，确定为录音音频数据的录制最大时长，即该录音音频数据的录制最大时长为7s。

情况二，智能终端响应于源多媒体文件对应的源音频文件中拼接文件允许被覆盖，则将源多媒体文件的源结束时刻和目标插入位置之间的时长，作为录音音频数据的最大录制时长。

具体实施中，智能终端响应于源多媒体文件对应的源音频文件中拼接文件允许被覆盖，那么，与在源多媒体文件对应的源音频文件中无拼接文件的响应方式相同，智能终端同样确定录音音频数据的最长录制时长为：源多媒体文件的源结束时刻和目标插入位置之间的时长。

例如，参阅图6所示，仍以多媒体文件A为短视频为例。

假设智能终端确定的目标插入位置为3s，多媒体文件A的源播放总时长为10s(即，源结束时刻为10s)，以及多媒体文件A对应的源音频文件中存在两段拼接文件，依次为拼接文件1和拼接文件2，且拼接文件允许被覆盖。

又假设拼接文件1的起始时刻为1.5s、结束时刻为4s，拼接文件2的起始时刻为6s、结束时刻为8s。

那么，智能终端响应于源多媒体文件对应的源音频文件中拼接文件允许被覆盖，将多媒体文件A的源结束时刻和目标插入位置之间的时长，即10-3＝7s，确定为录音音频数据的录制最大时长，即该录音音频数据的录制最大时长为7s。

情况三，智能终端响应于源多媒体文件对应的源音频文件中拼接文件不允许被覆盖，则将在目标插入位置到其之后的第一个拼接文件的起始时刻之间的时长，作为录音音频数据的最大录制时长。

具体实施中，智能终端响应于源多媒体文件对应的源音频文件中拼接文件不允许被覆盖，那么，智能终端需要先循环确定拼接文件的起始时刻和结束时刻，并基于目标插入位置，确定目标插入位置之后的第一个拼接文件，然后，智能终端将目标插入位置到第一个拼接文件的起始时刻之间的时长，确定为录音音频数据的最长录制时长。

例如，参阅图7所示，仍以多媒体文件A为短视频为例。

假设智能终端确定的目标插入位置为3s，多媒体文件A的源播放总时长为10s(即，源结束时刻为10s)，以及多媒体文件A对应的源音频文件中存在两段拼接文件，依次为拼接文件1和拼接文件2，且拼接文件不允许被覆盖。

又假设拼接文件1的起始时刻为1.5s、结束时刻为2s，拼接文件2的起始时刻为5s、结束时刻为8s。

那么，智能终端首先确定拼接文件1的起始时刻和结束时刻，以及拼接文件2的起始时刻和结束时刻，然后，基于目标插入位置(即，3s)，确定目标插入位置之后的第一个拼接文件为拼接文件2，则智能终端将目标插入位置到拼接文件2的起始时刻之间的时长，即5-3＝2s，确定为录音音频数据的录制最大时长(即，2s)。

步骤1102：响应于针对目标插入位置触发的录制操作，启动录制。

具体实施中，智能终端响应于针对目标插入位置触发的录制操作，启动录制功能，开始录制该录音音频数据。

步骤1103：基于最大录制时长或/和针对录音音频数据触发的停止录制操作，停止录制。

本公开实施例中，智能终端响应于停止录制操作，停止录制录音音频数据的方式，包含但不限于如下两种：

方式一，若在录音音频数据的最大录制时长超时之前，智能终端接收到针对录音音频数据触发的停止录制操作，则停止录制。

例如，参阅图8所示，仍以多媒体文件A为短视频为例。

仍假设智能终端确定的目标插入位置为3s，多媒体文件A的源播放总时长为10s(即，源结束时刻为10s)，以及多媒体文件A对应的源音频文件中存在两段拼接文件，依次为拼接文件1和拼接文件2，且拼接文件不允许被覆盖。

那么，智能终端基于拼接文件1和拼接文件2各自对应的起始时刻和结束时刻，确定目标插入位置之后的第一个拼接文件是拼接文件2，则智能终端将目标插入位置(即，3s)到拼接文件2的起始时刻(即，5s)之间的时长，即5-3＝2s，确定为录音音频数据的最大录制时长(即，2s)。

又假设在录音音频数据的最大录制时长超时之前，智能终端接收到针对录音音频数据触发的停止录制操作，以及停止录制操作的触发时刻为4s。

那么，智能终端响应于针对录音音频数据触发的停止录制操作，停止录制，从而获得相应的录音音频数据。

方式二，若在录音音频数据的最大录制时长超时之前，智能终端未接收到针对录音音频数据触发的停止录制操作，则录音音频数据的录制时长达到最大录制时长时，停止录制。

例如，参阅图9所示，仍以多媒体文件A为短视频为例。

又假设在录音音频数据的最大录制时长超时之前，智能终端未接收到针对录音音频数据触发的停止录制操作。

那么，当录音音频数据的录制时长达到最大录制时长时，智能终端停止录制，从而获得录音音频数据。

步骤1104：将获得的录音音频数据，作为第一候选音频片段。

本公开实施例中，在执行步骤1103之后，智能终端获得录音音频数据，然后，智能终端将获得的录音音频数据作为第一候选音频片段，此时，第一候选音频片段的起始时刻是目标插入位置；第一候选音频片段对应的第一播放时长为录音音频数据的录制时长。

例如，参阅图10所示，仍以对媒体文件A为短视频为例。

又假设拼接文件1的起始时刻为1.5s、结束时刻为2s，拼接文件2的起始时刻为5s、结束时刻为8s；以及智能终端获得的录音音频数据的录制时长为最大录制时长。

那么，智能终端将获得的录音音频数据，作为第一候选音频片段，即第一候选音频片段的起始时刻为3s、对应的第一播放时长为5-3＝2s。

步骤120：基于目标插入位置与第一播放时长，在源多媒体文件播放过程中，将源多媒体文件对应的源音频文件切换至第一候选音频片段，获得拼接后的最新的源音频文件。

本公开实施例中，智能终端在执行步骤110之后，获得第一候选音频片段，在执行步骤120之前，智能终端需要通过检测以确定源多媒体文件对应的源音频文件中是否存在拼接文件，那么，对应的检测结果包含但不限于如下两种情形：

情形一，若智能终端通过检测确定源多媒体文件对应的源音频文件中存在拼接文件，则还需检测目标插入位置对应的源音频文件是否存在拼接文件，则包含但不限于如下两种情况：

1、若智能终端确定目标插入位置对应的源音频文件中存在拼接文件，且拼接文件不允许被覆盖，则智能终端响应于目标插入位置对应的源音频文件是拼接文件，去使能音频文件插入操作，其中，去使能音频文件插入操作表征智能终端将音频文件插入操作无效化，即智能终端将不对源多媒体文件对应的源音频文件进行裁剪。

例如，参阅图11所示，仍以多媒体文件A为短视频为例。

假设智能终端确定的目标插入位置为6s，多媒体文件A的源播放总时长为10s(即，源结束时刻为10s)，以及多媒体文件A对应的源音频文件中存在两段拼接文件，依次为拼接文件1和拼接文件2，且拼接文件不允许被覆盖。

那么，智能终端基于目标插入位置(即，6s)，确定目标插入位置对应的源音频文件是拼接文件2，则将“拼接”按钮置灰，无效化音频文件插入操作。

2、若智能终端确定目标插入位置对应的源音频文件中存在拼接文件，且拼接文件允许被覆盖，或者，智能终端确定目标插入位置对应的源音频文件中无拼接文件，则智能终端基于目标插入位置和第一播放时长，采用如下操作，获得拼接后的最新的源音频文件：

操作1，智能终端基于目标插入位置，在播放源多媒体文件对应的源音频文件的过程中，由源多媒体文件对应的源音频文件切换至第一候选音频片段。

操作2，智能终端基于第一候选音频片段已播放第一播放时长，由第一候选音频片段切换至源多媒体文件对应的源音频文件。

例如，参阅图12所示，仍以多媒体文件A为短视频为例。

又假设拼接文件1的起始时刻为1.5s、结束时刻为2s，拼接文件2的起始时刻为5s、结束时刻为8s，以及智能终端目标插入位置为3s、获得的第一候选音频片段(即，录音音频数据)的第一播放时长为2s。

那么，智能终端基于目标插入位置(即，3s)，在播放多媒体文件A对应的源音频文件的过程中，由多媒体文件A对应的源音频文件切换至第一候选音频片段；

智能终端基于第一候选音频片段已播放第一播放时长(即，5s)，由第一候选音频片段切换至多媒体文件A对应的源音频文件。

在一些实施例中，参阅图13所示，仍以多媒体文件A为短视频为例。

仍假设多媒体文件A的源播放总时长为10s(即，源结束时刻为10s)，且拼接文件不允许被覆盖，以及多媒体文件A未拼接文件的音频文件记为源音频文件A。

又假设第一源音频文件中包含有4个拼接文件，分别记为拼接文件1、拼接文件2、拼接文件3、拼接文件4，以及拼接文件1的起始时刻为0s、结束时刻为2s，拼接文件2的起始时刻为3s、结束时刻为3.5s，拼接文件3的起始时刻为9s、结束时刻为10s，拼接文件4的起始时刻为6.5s、结束时刻为7.5s。

又假设多媒体文件A对应的源音频文件中，由源音频文件A切换至拼接文件的切换点记为第一播放切换点，以及由拼接文件切换至源音频文件A的切换点记为第二播放切换点，则多媒体文件A对应的源音频文件中已存在的第一播放切换点和第二播放切换点依次为，

针对拼接文件1的第一播放切换点1为0s、第二播放切换点1为2s，

针对拼接文件2的第一播放切换点2为3s、第二播放切换点2为3.5s，

针对拼接文件3的第一播放切换点5为9s、第二播放切换点5为10s，

针对拼接文件4的第一播放切换点4为6.5s、第二播放切换点4为7.5s。

又假设智能终端确定的目标插入位置为5s、以及第一候选音频片段对应的第一播放时长为1s。

那么，第一候选音频片段对应的第一播放切换点5为5s，第二播放切换点5为6s，则智能终端在播放拼接后的最新的源音频文件时，在第一播放切换点1(即0s)，播放拼接文件1，在第二播放切换点2(即2s)时，跳转到源音频文件A并开始播放源音频文件A，

在第一播放切换点2(即3s)，从源音频文件A跳转到拼接文件2并开始播放拼接文件2，在第二播放切换点2(即3.5s)，从拼接文件2跳转到源音频文件A并开始播放源音频文件A，

在第一播放切换点5(即5s)，从源音频文件A跳转到第一候选音频片段并开始播放第一候选音频片段，在第二播放切换点5(即6s)，从第一候选音频片段跳转到源音频文件A并开始源音频文件A，

在第一播放切换点4(即6.5s)，从源音频文件A跳转到拼接文件4并开始播放拼接文件4，在第二播放切换点4(即7.5s)，从拼接文件4跳转到源音频文件A并开始播放源音频文件A，

在第一播放切换点3(即9s)，从源音频文件A跳转到拼接文件3并开始播放拼接文件3，在第二播放切换点3(即10s)停止播放。

在一些实施例中，参阅图14所示，仍以多媒体文件A为短视频为例。

仍假设多媒体文件A的源播放总时长为10s(即，源结束时刻为10s)，且拼接文件允许被覆盖，以及多媒体文件A未拼接文件的音频文件记为源音频文件A。

又假设第一源音频文件中包含有4个拼接文件，分别记为拼接文件1、拼接文件2、拼接文件3、拼接文件4，由源音频文件A切换至拼接文件的切换点记为第一播放切换点，以及由拼接文件切换至源音频文件A的切换点记为第二播放切换点，则在多媒体文件A对应的源音频文件中，已存在的第一播放切换点和第二播放切换点依次为，

针对拼接文件3的第一播放切换点3为9s、第二播放切换点3为10s，

针对拼接文件4的第一播放切换点4为6s、第二播放切换点4为7.5s。

又假设智能终端确定的目标插入位置为5s、以及第一候选音频片段对应的第一播放时长为2s，且第一候选音频片段的第一播放时长覆盖了拼接文件4的前半部分音频文件。

那么，第一候选音频片段对应的第一播放切换点5为5s，第二播放切换点5为7s，则智能终端在播放拼接后的最新的源音频文件时，在第一播放切换点1(即0s)，播放拼接文件1，在第二播放切换点2(即2s)时，跳转到源音频文件A并开始播放源音频文件A，

在第一播放切换点5(即5s)，从源音频文件A跳转到第一候选音频片段并开始播放第一候选音频片段，在第二播放切换点5(即7s)，从第一候选音频片段跳转到拼接文件4并开始播放拼接文件4，在第二播放切换点4(即7.5s)，从拼接文件4跳转到源音频文件A并开始播放源音频文件A，

在一些实施例中，参阅图15所示，仍以多媒体文件A为短视频为例。

又假设智能终端确定的目标插入位置为7s、以及第一候选音频片段对应的第一播放时长为1s，且第一候选音频片段的第一播放时长覆盖了拼接文件4的后半部分音频文件。

那么，第一候选音频片段对应的第一播放切换点5为7s，第二播放切换点5为8s，则智能终端在播放拼接后的最新的源音频文件时，在第一播放切换点1(即0s)，播放拼接文件1，在第二播放切换点2(即2s)时，跳转到源音频文件A并开始播放源音频文件A，

在第一播放切换点4(即6s)，从源音频文件A跳转到拼接文件4并播放拼接文件4，

在第一播放切换点5(即7s)，从拼接文件4跳转到第一候选音频片段并开始播放第一候选音频片段，在第二播放切换点5(即8s)，从第一候选音频片段跳转到源音频文件A并开始播放源音频文件A，

在一些实施例中，参阅图16所示，仍以多媒体文件A为短视频为例。

又假设智能终端确定的目标插入位置为3.25s、以及第一候选音频片段对应的第一播放时长为4.75s，且第一候选音频片段的第一播放时长覆盖了拼接文件2的前半部分音频文件和涵盖了拼接文件4。

那么，第一候选音频片段对应的第一播放切换点5为3.25s，第二播放切换点5为8s，则智能终端在播放拼接后的最新的源音频文件时，在第一播放切换点1(即0s)，播放拼接文件1，在第二播放切换点2(即2s)时，跳转到源音频文件A并开始播放源音频文件A，

在第一播放切换点2(即3s)，从源音频文件A跳转到拼接文件2并开始播放拼接文件2，

在第一播放切换点5(即3.25s)，从拼接文件2跳转到第一候选音频片段并开始播放第一候选音频片段，在第二播放切换点5(即8s)，从第一候选音频片段跳转到源音频文件A并开始播放源音频文件A，

本公开实施例中，智能终端通过响应于音频插入操作，确定目标插入位置，然后，基于目标插入位置，在源音频文件的任意位置获取第一候选音频片段，再基于目标插入位置和第一候选音频片段对应的第一播放时长，通过切换点，可以在保留源音频文件的基础上，实现在源音频文件中任意位置拼接第一候选音频片段，从而在智能终端播放拼接后的最新的源音频文件时，做到第一候选音频片段和源多媒体文件对应的源音频文件的无缝衔接，进而解决了已有技术下实现音频文件拼接方法的繁琐。

在一些实施例中，智能终端在获得拼接后的最新的源音频文件之后，还可以基于对最新的源音频文件的满意程度，对最新的源音频文件进行如下操作：

1、智能终端响应于取消操作，确定需要取消的第一候选音频片段。

本公开实施例中，智能终端在获得最新的源音频文件之后，可以通过响应取消操作，获得需要取消的第一候选音频片段。

2、智能终端在播放源多媒体文件对应的源音频文件的过程中，由第一候选音频片段切换至由源多媒体文件对应的源音频文件。

本公开实施例中，智能终端在确定需要取消的任意一个第一候选音频片段之后，可以在播放源多媒体文件对应的源音频文件的过程中，由第一候选音频片段切换至由源多媒体文件对应的源音频文件，从而获得任意一种满足用户要求的任意版本的最新的源音频文件。

例如，参阅图17所示，仍以多媒体文件A为短视频为例。

又假设智能终端获得的拼接后的最新的源音频文件中已存在，针对拼接文件1的第一播放切换点1为0s、第二播放切换点1为2s，针对拼接文件2的第一播放切换点2为3s，针对拼接文件5的第一播放切换点5为3.25s、第二播放切换点5为8s，针对拼接文件3的第一播放切换点3为9s、第二播放切换点3为10s。

又假设智能终端接收到取消操作指令，确定需要取消拼接文件5，以及拼接文件5的插入时间要晚于拼接文件2和拼接文件4的插入时间，且拼接文件5的播放时长覆盖了部分拼接文件2和全部的拼接文件4。

那么，智能终端响应于取消操作，确定需要取消的第一候选音频文件为拼接文件5，则智能终端在播放最新的源音频文件时，在第一播放切换点1(即0s)，播放拼接文件1，在第二播放切换点2(即2s)时，跳转到源音频文件A并开始播放源音频文件A，

在第一播放切换点4(即6s)，从源音频文件A跳转到拼接文件4并开始播放拼接文件4，在第二播放切换点4(即7.5s)，从拼接文件4跳转到源音频文件A并开始播放源音频文件A，

在一些实施例中，参阅图18所示，仍以多媒体文件A为短视频为例。

又假设智能终端获得的拼接后的最新的源音频文件中已存在：针对拼接文件1的第一播放切换点1为0s、第二播放切换点1为2s，针对拼接文件2的第一播放切换点2为3s，针对拼接文件5的第一播放切换点5为3.25s、第二播放切换点5为8s，针对拼接文件3的第一播放切换点3为9s、第二播放切换点3为10s。

又假设智能终端接收到取消操作指令，确定需要取消拼接文件2，以及拼接文件2的插入时间要早于拼接文件5的插入时间，且拼接文件2被拼接文件5的播放时长覆盖了一部分音频文件。

那么，智能终端响应于取消操作，确定需要取消的第一候选音频文件为拼接文件2，则智能终端在播放最新的源音频文件时，在第一播放切换点1(即0s)，播放拼接文件1，在第二播放切换点2(即2s)时，跳转到源音频文件A并开始播放源音频文件A，

在第一播放切换点5(即3.25s)，从源音频文件A跳转到拼接文件5并开始播放第一候选音频片段，在第二播放切换点5(即8s)，从拼接文件5跳转到源音频文件A并开始播放源音频文件A，

这样，采用本公开实施例中公开的方法，智能终端可以实现在源音频文件和至少一个拼接文件之间进行平滑跳转，从而做到了在保留源音频文件的基础上，在源多媒体文件对应的源音频文件中任意位置插入拼接文件，当遇回撤操作时，可以随意进行回撤操作，从而满足了用户对插入音频文件多样性的要求。

基于同一发明构思，参阅图19所示，本公开实施例中提供一种计算机设备(如，智能终端)，包括：

第一确定单元1910，用于响应于针对源多媒体文件触发的音频文件插入操作，在所述源多媒体文件中确定目标插入位置；

第二确定单元1920，用于获取第一候选音频片段，确定所述第一候选音频片段对应的第一播放时长；

拼接单元1930，用于基于所述目标插入位置与所述第一播放时长，在所述源多媒体文件播放过程中，将所述源多媒体文件对应的源音频文件切换至所述第一候选音频片段，获得拼接后的最新的源音频文件。

可选的，所述获取第一候选音频片段，所述第二确定单元1920用于：

基于本地音频数据，选取所述第一候选音频片段；或者，

可选的，所述响应于针对所述目标插入位置触发的录制操作，将获得的录音音频数据，作为所述第一候选音频片段，所述第二确定单元1920用于：

响应于针对所述目标插入位置触发的录制操作，启动录制；

将获得的所述录音音频数据，作为所述第一候选音频片段。

可选的，所述第二确定单元1920还用于：

可选的，所述基于所述目标插入位置和所述源多媒体文件对应的源音频文件，确定所述录音音频数据的最大录制时长，所述第二确定单元1920用于：

可选的，基于所述目标插入位置与所述第一播放时长，在所述源多媒体文件播放过程中，将所述源多媒体文件对应的源音频文件切换至所述第一候选音频片段，获得拼接后的最新的源音频文件，所述拼接单元1930用于：

可选的，所述拼接单元1930还用于：

响应于取消操作，确定需要取消的第一候选音频片段；

基于同一发明构思，参阅图20所示，本申请实施例提供一种计算机设备，例如，电子设备2000可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图20，电子设备2000可以包括以下一个或多个组件：处理组件2002，存储器2004，电源组件2006，多媒体组件2008，音频组件2010，输入/输出(I/O)的接口2012，传感器组件2014，以及通信组件2016。

处理组件2002通常控制电子设备2000的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件2002可以包括一个或多个处理器2020来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件2002可以包括一个或多个模块，便于处理组件2002和其他组件之间的交互。例如，处理组件2002可以包括多媒体模块，以方便多媒体组件2008和处理组件2002之间的交互。

存储器2004被配置为存储各种类型的数据以支持在电子设备2000的操作。这些数据的示例包括用于在电子设备2000上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器2004可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件2006为电子设备2000的各种组件提供电力。电源组件2006可以包括电源管理系统，一个或多个电源，及其他与为电子设备2000生成、管理和分配电力相关联的组件。

多媒体组件2008包括在电子设备2000和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件2008包括一个前置摄像头和/或后置摄像头。当电子设备2000处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件2010被配置为输出和/或输入音频信号。例如，音频组件2010包括一个麦克风(MIC)，当电子设备2000处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器2004或经由通信组件2016发送。在一些实施例中，音频组件2010还包括一个扬声器，用于输出音频信号。

I/O接口2012为处理组件2002和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件2014包括一个或多个传感器，用于为电子设备2000提供各个方面的状态评估。例如，传感器组件2014可以检测到电子设备2000的打开/关闭状态，组件的相对定位，例如所述组件为电子设备2000的显示器和小键盘，传感器组件2014还可以检测电子设备2000或电子设备2000一个组件的位置改变，用户与电子设备2000接触的存在或不存在，电子设备2000方位或加速/减速和电子设备2000的温度变化。传感器组件2014可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件2014还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件2014还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件2016被配置为便于电子设备2000和其他设备之间有线或无线方式的通信。电子设备2000可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件2116经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件2016还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备2000可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述实施例中计算机设备执行的任意一种方法。

基于同一发明构思，本公开实施例提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由处理器执行时，能够执行上述实施例中计算机设备执行的任意一种方法。

基于同一发明构思，本公开实施例提供一种计算机程序产品，包含可执行指令，当所述计算机程序产品的可执行指令由处理器执行时，能够实现如上述实施例中计算机设备执行的任意一种方法。

综上所述，本公开实施例中，智能终端响应于针对源多媒体文件触发的音频文件插入操作并确定目标插入位置，再基于获取的第一候选音频片段，确定第一候选音频片段对应的第一播放时长，然后，基于目标插入位置与第一播放时长，在源多媒体文件播放过程中，将源多媒体文件对应的源音频文件切换至第一候选音频片段，获得拼接后的最新的源音频文件，这样，智能终端可以在保留源音频文件的基础上，实现在源音频文件的任意位置插入第一候选音频片段的目的，从而满足了用户对音频多样性的要求，也提高了用户对智能终端的体验满意度，进而也解决了已有技术下录音音频文件不能与原始音频文件进行随意拼接的问题。

另外，智能终端基于目标插入位置和第一候选音频片段对应的第一播放时长，在源多媒体文件对应的源音频文件中设置切换点，即虚拟裁剪方式，而非对源多媒体文件对应的源音频文件进行真实裁剪，因此，在播放拼接后的最新的源音频文件时，通过播放切换点实现在第一候选音频片段和源音频文件之间的自由跳转，从而实现了插入音频和原音的无缝衔接；进而，如果智能终端需要对拼接后的源音频文件进行回撤操作，可以通过删除拼接文件对应的播放切换点的方式来实现回撤操作，从而节约了时间，也降低了操作复杂度。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本公开的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本公开范围的所有变更和修改。

显然，本领域的技术人员可以对本公开实施例进行各种改动和变型而不脱离本公开实施例的精神和范围。这样，倘若本公开实施例的这些修改和变型属于本公开权利要求及其等同技术的范围之内，则本公开也意图包含这些改动和变型在内。

Claims

1.一种音频文件拼接的方法，其特征在于，包括：

基于所述目标插入位置与所述第一播放时长，在所述源多媒体文件播放过程中，将所述源多媒体文件对应的源音频文件切换至所述第一候选音频片段，获得拼接后的最新的源音频文件，其中，所述最新的源音频文件包括所述源音频文件、所述第一候选音频片段，以及所述第一候选音频片段对应的第一播放切换点和第二播放切换点，所述第一候选音频片段与所述源音频文件具有重叠的播放时段。

2.如权利要求1所述的方法，其特征在于，所述获取第一候选音频片段，包括：

基于本地音频数据，选取所述第一候选音频片段；或者，

3.如权利要求2所述的方法，其特征在于，所述响应于针对所述目标插入位置触发的录制操作，将获得的录音音频数据，作为所述第一候选音频片段，包括：

响应于针对所述目标插入位置触发的录制操作，启动录制；

将获得的所述录音音频数据，作为所述第一候选音频片段。

4.如权利要求2所述的方法，其特征在于，所述方法还包括：

5.如权利要求3所述的方法，其特征在于，所述基于所述目标插入位置和所述源多媒体文件对应的源音频文件，确定所述录音音频数据的最大录制时长，包括：

6.如权利要求1-5任一项所述的方法，其特征在于，基于所述目标插入位置与所述第一播放时长，在所述源多媒体文件播放过程中，将所述源多媒体文件对应的源音频文件切换至所述第一候选音频片段，获得拼接后的最新的源音频文件，包括：

7.如权利要求6所述的方法，其特征在于，所述方法还包括：

响应于取消操作，确定需要取消的第一候选音频片段；

8.一种音频文件拼接的装置，其特征在于，包括：

拼接单元，用于基于所述目标插入位置与所述第一播放时长，在所述源多媒体文件播放过程中，将所述源多媒体文件对应的源音频文件切换至所述第一候选音频片段，获得拼接后的最新的源音频文件，其中，所述最新的源音频文件包括所述源音频文件、所述第一候选音频片段，以及所述第一候选音频片段对应的第一播放切换点和第二播放切换点，所述第一候选音频片段与所述源音频文件具有重叠的播放时段。

9.如权利要求8所述的装置，其特征在于，所述获取第一候选音频片段，所述第二确定单元用于：

基于本地音频数据，选取所述第一候选音频片段；或者，

10.如权利要求9所述的装置，其特征在于，所述响应于针对所述目标插入位置触发的录制操作，将获得的录音音频数据，作为所述第一候选音频片段，所述第二确定单元用于：

响应于针对所述目标插入位置触发的录制操作，启动录制；

将获得的所述录音音频数据，作为所述第一候选音频片段。

11.如权利要求9所述的装置，其特征在于，所述第二确定单元还用于：

12.如权利要求10所述的装置，其特征在于，所述基于所述目标插入位置和所述源多媒体文件对应的源音频文件，确定所述录音音频数据的最大录制时长，所述第二确定单元用于：

13.如权利要求8-12任一项所述的装置，其特征在于，基于所述目标插入位置与所述第一播放时长，在所述源多媒体文件播放过程中，将所述源多媒体文件对应的源音频文件切换至所述第一候选音频片段，获得拼接后的最新的源音频文件，所述拼接单元用于：

14.如权利要求13所述的装置，其特征在于，所述拼接单元还用于：

响应于取消操作，确定需要取消的第一候选音频片段；

15.一种计算机设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于读取并执行所述存储器中存储的可执行指令，以实现如权利要求1-7任一项所述的方法。

16.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由处理器执行时，使得所述处理器能够执行如权利要求1-7任一项所述的方法。