CN115544296A

CN115544296A - 音频数据的存储方法及其相关设备

Info

Publication number: CN115544296A
Application number: CN202110739730.3A
Authority: CN
Inventors: 朱逸程
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2022-12-30
Also published as: WO2023273904A1

Abstract

本申请提供了一种音频数据的存储方法和相关设备，通过将背景音频文件和用户录制的录音音频文件分开存储，利用背景音频录音音频文件和录音音频文件中的第一标识将背景音频文件和用户录制的录音音频文件关联，录音音频文件对应的音频的播放时长小于背景音频文件对应的音频的播放时长，录音音频仅仅包括背景音频中用户实际发声的时间段，录音音频和背景音频中相同的部分(背景音频中除过用户实际发声的时间段之外的音频数据)只需要在背景音频中存储一次即可，减少了录音音频文件的大小，避免了对于录音音频及背景音频之间相同的部分(即用户不发声的部分)的重复存储，降低存储资源浪费。

Description

音频数据的存储方法及其相关设备

技术领域

本申请涉及通信领域，更为具体的，涉及一种音频数据的存储方法及其相关设备。

背景技术

用户利用终端上的录歌应用(例如华为音乐、唱吧

、全民K歌

)录歌、去录音棚录歌、或者通过录制有声书等方式，将背景音频和用户实际的录音音频结合产生的音频文件，一般均是储存在多媒体容器(Multimedia Container)中。

但是在存储这些音频文件时，现有技术中存储音频文件的方式会消耗较多的存储资源，在存储海量的音频文件时，会导致很严重的存储资源浪费。

发明内容

本申请提供了一种音频数据的存储方法及其相关设备，将背景音频文件和用户录制的录音音频文件分开存储，针对背景音频录音音频文件和录音音频文件分别建立索引信息，通过索引信息中标识将背景音频文件和用户录制的录音音频文件关联，录音音频文件仅仅包括背景音频中用户实际发声的时间段，减少了录音音频文件的大小，从而降低了录音音频文件所需要的存储空间。

第一方面，提供了一种音频数据的存储方法，该方法由终端设备执行，该方法包括：获取与第一音频相关的背景音频文件以及录音音频文件，该录音音频文件对应的音频包括用户录音音频和背景音频，背景音频文件包括第一标识，该录音音频文件包括该第一标识，该第一标识用于关联背景音频文件和该录音音频文件；根据第一标识，播放背景音频文件对应的音频以及该录音音频文件对应的音频，该录音音频文件对应的音频的播放时长小于该第一音频的播放时长。

第一方面提供的音频数据的存储方法，将背景音频文件和用户录制的录音音频文件分开存储，利用背景音频录音音频文件和录音音频文件中的第一标识将背景音频文件和用户录制的录音音频文件关联，该录音音频文件对应的音频的播放时长小于该第一音频的播放时长，同时也小于背景音频文件对应的音频的播放时长，录音音频文件仅仅包括背景音频中用户实际发声的时间段，这样减少了录音音频文件的大小，从而降低了录音音频文件所需要的存储空间。

示例性的，背景音频文件以及录音音频文件可以存储在多媒体容器中。

在第一方面一种可能的实现方式中，该第一音频的播放时长与背景音频文件对应的音频的播放时长相同。

示例性的，背景音频文件对应的音频的播放时长可以为某一个歌曲的伴奏音乐或者背景音乐的总时长。

在第一方面一种可能的实现方式中，根据第一标识，播放背景音频文件对应的音频以及该录音音频文件对应的音频，包括：在第一时间段时，播放背景音频文件中与该第一时间段对应的音频，该第一时间段的长度小于背景音频文件对应的音频的播放时长；在第二时间段时，播放该录音音频文件对应的音频，该第二时间段为该录音音频文件对应的音频播放时间长度；其中，该第一音频的播放时长包括第一时间段和第二时间段，该第一时间段与第二时间段在时域上不重叠。

示例性的，该第一音频的播放时长为第一时间段的时长与第二时间段的时长之和。

在第一方面一种可能的实现方式中，背景音频文件包括第一索引部分，该第一索引部分包括该第一标识；该录音音频文件包括第二索引部分，该第二索引部分包括该第一标识和该第二时间段的指示信息，该第二时间段为用户的语音活跃度时间，用户的语音活跃度时间为用户录音音频中该用户实际发声的时间段。

示例性的，第一标识为背景音频的ID。

示例性的，通过索引部分的第一标识将录音音频文件和背景音频文件关联，将用户实际的发声时间点写入录音音频文件的索引部分，在存储时分别将索引信息添加至多媒体容器的索引中，录音音频和背景音频中相同的部分(背景音频中除过用户实际发声的时间段之外的音频数据)只需要在背景音频中存储一次即可，避免了对于录音音频及背景音频之间相同的部分(即用户不发声的部分)的重复存储，降低存储资源浪费。

在第一方面一种可能的实现方式中，该录音音频文件对应的音频包括：背景音频文件中与该第二时间段对应的音频、以及该用户录音音频中与该第二时间段对应的音频。

在第一方面一种可能的实现方式中，在终端设备获取与第一音频相关的背景音频文件以及录音音频文件之前，该方法还包括：终端设备接收用户的第一操作，该第一操作用于触发播放该第一音频。

在第一方面一种可能的实现方式中，该背景音频文件包括第一索引部分，第一索引部分包括：该第一标识、背景音频类型的标识，用户标识、背景音频的语音活跃度时间、以及背景音频包括的多个数据块的存储位置索引，该用户标识的值为空值，背景音频的语音活跃度时间的值为空值。

该录音音频文件包括第二索引部分，该第二索引部分包括：第一标识、该录音音频文件对应的音频的类型标识、以及该录音音频文件对应的音频包括的多个数据块的存储位置索引。

在第一方面一种可能的实现方式中，该方法还包括：接收用户的第二操作，该第二操作用于获取背景音频文件；根据第二操作，获取背景音频文件；播放背景音频文件对应的音频；在背景音频文件对应的音频播放过程中，录制用户录音音频，该用户录音音频包括用户实际发声的时间段以及用户不发声的时间段，该用户录音音频的时长和背景音频文件对应的音频时长相同；根据用户录音音频，检测该用户实际发声的时间段，该用户实际发声的时间段为用户的语音活跃度时间；获取该用户实际发声的时间段对应的背景音频；获取该用户实际发声的时间段内对应的用户录音音频；将该用户实际发声的时间段对应的背景音频，以及该用户实际发声的时间段对应的用户录音音频叠加，得到该录音音频文件对应的音频。

示例性的，可以根据利用语音端点检测VAD，检测该用户实际发声的时间段。

示例性的，背景音频文件对应的音频长度为230秒，用户录音音频的时间长度也为230，用户实际发声的时间段包括：[15,70]、[94,185]。即在背景音频第15秒至70秒之间的时间段、以及背景音频第94秒至185秒之间的时间段内用户实际发声，则录音音频文件对应的音频的时长为146秒。录音音频文件对应的音频包括：背景音频中第15秒至70秒之间的时间段、以及背景音频第94秒至185秒之间的时间段内的背景音频，以及用户录音音频中的第15秒至70秒之间的时间段、以及第94秒至185秒之间的时间段内用户实际发声。第一时间段包括：背景音频第0秒至15秒之间的时间段、以及背景音频第70秒至64秒之间的时间段、以及背景音频第185秒至230秒之间的时间段。第二时间段包括：背景音频第15秒至75秒之间的时间段、以及背景音频第84秒至185秒之间的时间段。

示例性的，在播放第一音频时，在语音活跃度时间(即第二时间段)内播放录音音频文件对应的音频，在背景音频除过语音活跃度时间之外的时间段内播放背景音频。

在第一方面一种可能的实现方式中，该方法还包括：终端设备获取该背景音频文件的第一索引部分中的背景音频的标识；终端设备将该背景音频的标识添加到该录音音频文件中的第二索引部分。

在第一方面一种可能的实现方式中，背景音频文件包括该第一索引部分，该第一索引部分包括：背景音频的标识、背景音频类型的标识，用户标识、背景音频的语音活跃度时间、以及背景音频包括的多个数据块的存储位置索引，该用户标识的值为空值，背景音频的语音活跃度时间的值为空值；该录音音频文件包括该第二索引部分，该第二索引部分包括：背景音频的标识、该录音音频文件对应的音频的类型标识、以及该录音音频文件对应的音频包括的多个数据块的存储位置索引。

示例性的，背景音频的类型包括：伴奏音乐、背景音乐。

示例性的，该录音音频文件对应的音频的类型包括：翻唱、录制音频等。

在第一方面一种可能的实现方式中，该第一标识为背景音频的标识。

在第一方面一种可能的实现方式中，该方法还包括：向服务器发送该录音音频文件。

第二方面，提供了一种音频数据的存储方法，该方法由服务器执行，该方法包括：获取第一音频相关的背景音频文件以及录音音频文件；存储背景音频文件以及该录音音频文件；其中，该录音音频文件对应的音频包括用户录音音频和背景音频，背景音频文件包括第一标识，该录音音频文件包括该第一标识，该第一标识用于关联背景音频文件和该录音音频文件，该录音音频文件对应的音频的时长小于该第一音频的时长，该第一音频的时长与背景音频文件对应的音频的时长相同。

第二方面提供的音频数据的存储方法，将背景音频文件和用户录制的录音音频文件分开存储，利用背景音频录音音频文件和录音音频文件中的第一标识将背景音频文件和用户录制的录音音频文件关联，该录音音频文件对应的音频的播放时长小于该第一音频的播放时长，同时也小于背景音频文件对应的音频的播放时长，录音音频文件仅仅包括背景音频中用户实际发声的时间段，这样减少了录音音频文件的大小，从而降低了录音音频文件所需要的存储空间。

在第二方面一种可能的实现方式中，该第一音频的时长包括第一时间段和第二时间段，该第一时间段与第二时间段在时域上不重叠；该第一时间段的长度小于背景音频文件对应的音频的时长，该第一时间段内播放为背景音频文件中与该第一时间段对应的音频，该第二时间段为该录音音频文件对应的音频播放时间长度。

在第二方面一种可能的实现方式中，背景音频文件包括第一索引部分，该第一索引部分包括该第一标识；该录音音频文件包括第二索引部分，该第二索引部分包括该第一标识和该第二时间段的指示信息，该第二时间段为用户的语音活跃度时间，该用户的语音活跃度时间为该用户录音音频中该用户实际发声的时间段。

示例性的，第一标识为背景音频的ID。

在第二方面一种可能的实现方式中，该录音音频文件对应的音频包括：背景音频文件中与该第二时间段对应的音频、以及该用户录音音频中与该第二时间段对应的音频。

在第二方面一种可能的实现方式中，该第一索引部分还包括：背景音频类型的标识，用户标识、背景音频的语音活跃度时间、以及背景音频包括的多个数据块的存储位置索引，该用户标识的值为空值，背景音频的语音活跃度时间的值为空值。

该第二索引部分还包括：该录音音频文件对应的音频的类型标识、以及该录音音频文件对应的音频包括的多个数据块的存储位置索引。

在第二方面一种可能的实现方式中，该第一标识包括背景音频的标识。

在第二方面一种可能的实现方式中，该获取录音音频文件，包括：

接收终端设备发送的该录音音频文件。

第三方面，提供了一种通信装置，该通信装置包括用于执行以上第一方面或者第一方面的任意一方面可能的实现方式中的各个步骤的单元。

第四方面，提供了一种通信装置，该通信装置包括至少一个处理器和存储器，该处理器和存储器耦合，该存储器存储有程序指令，当该存储器存储的程序指令被该处理器执行时执行以上第一方面或者第一方面的任意一方面可能的实现方式中的方法。

第五方面，提供了一种通信装置，该通信装置包括至少一个处理器和接口电路，至少一个处理器用于执行以上第一方面或者第一方面中的任意一方面可能的实现方式中的方法。

第六方面，提供了一种终端设备，该终端设备包括上述第三方面、第四方面或者第五方面提供的任一种通信装置。

第七方面，提供了一种通信装置，该通信装置包括至少一个处理器和存储器，该处理器和存储器耦合，该存储器存储有程序指令，当该存储器存储的程序指令被该处理器执行时执行以上第二方面或者第二方面的任意一方面可能的实现方式中的方法。

第八方面，提供了一种通信装置，该通信装置包括用于执行以上第二方面或者第二方面的任意一方面可能的实现方式中的各个步骤的单元。

第九方面，提供了一种通信装置，该通信装置包括至少一个处理器和接口电路，至少一个处理器用于执行以上第二方面或者第二方面的任意一方面可能的实现方式中的方法。

第十方面，提供了一种服务器，包括上述第七方面、第八方面或者第九方面提供的任一种通信装置。

第十一方面，提供了一种音频数据的存储系统，该系统包括：包括上述第六方面提供终端设备和上述第十方面提供的服务器。

第十二方面，提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序在被处理器执行时，用于执行第一方面或者第一方面中的任意可能的实现方式中的方法，或者用于执行第二方面或者第二方面中的任意可能的实现方式中的方法。

第十三方面，提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当该计算机程序被执行时，用于执行第一方面或者第一方面中的任意可能的实现方式中的方法，或者，用于执行第二方面或者第二方面中的任意可能的实现方式中的方法。

第十四方面，提供了一种芯片，该芯片包括：处理器，用于从存储器中调用并运行计算机程序，使得安装有该芯片的通信设备执行第一方面或者第一方面中的任意可能的实现方式中的方法，或者执行第二方面或者第二方面中的任意可能的实现方式中的方法。

本申请提供的音频数据的存储方法和相关设备，在多媒体容器存储录音音频文件及背景音频文件均使用音频信息索引，用于将录音音频及背景音频之间的关联关系，录音音频仅包括用户实际发声时间段的音频，减少录音音频的大小，从而降低了录音音频所需要的存储空间。并将用户实际的发声时间点写入音频信息索引中，在存储时分别将索引信息添加至多媒体容器的索引中，录音音频和背景音频中相同的部分(背景音频中除过用户实际发声的时间段之外的音频数据)只需要在背景音频中存储一次即可，避免了对于录音音频及背景音频之间相同的部分(即用户不发声的部分)的重复存储，降低存储资源浪费。并且，在录音时采用语音活跃度检测，舍弃了静音段和噪音段的录音，使得录制时的环境噪音大幅降低，提高用户体验。

附图说明

图1是一例视频数据和音频数据的索引部分的示意图。

图2是本申请提供的一例歌曲在时间轴上结构的示意图。

图3是本申请提供的一例适用于本申请实施例的通信系统架构的示意图。

图4是本申请提供的一例终端设备和服务器内部的软件架构的示意图。

图5是本申请提供的一例终端设备内部的软件架构的示意图。

图6是本申请在提供的一例音频数据的存储方法的示意性流程图。

图7是本申请在提供的一例用户在终端上触发选择某首歌进行翻唱录制的操作界面的示意图。

图8是本申请提供的一例伴奏音频(或者也可以称为伴奏音频文件)A1在多媒体容器中存储时的示意图。

图9是本申请提供的一例用户录音(或者也可以称为用户录音文件)A2在多媒体容器中存储时的示意图。

图10是本申请提供的一例语音音频(或者也可以称为语音音频文件)A3在多媒体容器中存储时的示意图。

图11是本申请在提供的一例用户在终端上触发选择某录制首歌进行播放的操作界面的示意图。

图12是本申请在提供的一例语音音频A3和伴奏音频A1播放时在时序上的示意图。

图13是本申请在提供的另一例音频数据的存储方法的示意性流程图。

图14是本申请提供的一例背景音频在时间轴上结构的示意图。

图15是本申请提供的一例背景音频(或者也可以称为背景音频文件)A4在多媒体容器中存储时的示意图。

图16是本申请提供的一例录音音频(或者可以称为录音音频文件)A5在多媒体容器中存储时的示意图。

图17是本申请提供的一例语音音频(或者可以称为语音音频文件)A6在多媒体容器中存储时的示意图。

图18是本申请在提供的一例语音音频A6和背景音频A4播放时在时序上的示意图。

图19是本申请实施例提供的一例终端设备的示意性框图。

图20是本申请实施例提供的一例芯片系统的示意性框图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本申请实施例的描述中，“多个”是指两个或多于两个。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

另外，本申请的各个方面或特征可以实现成方法、装置或使用标准编程和/或工程技术的制品。本申请中使用的术语“制品”涵盖可从任何计算机可读器件、载体或介质访问的计算机程序。例如，计算机可读介质可以包括，但不限于:磁存储器件(例如，硬盘、软盘或磁带等)，光盘(例如，压缩盘(compact disc，CD)、数字通用盘(digital versatile disc，DVD)等)，智能卡和闪存器件(例如，可擦写可编程只读存储器(erasable programmableread-only memory，EPROM)、卡、棒或钥匙驱动器等)。另外，本文描述的各种存储介质可代表用于存储信息的一个或多个设备和/或其它机器可读介质。术语“机器可读介质”可包括但不限于，无线信道和能够存储、包含和/或承载指令和/或数据的各种其它介质。

本申请的各个方面或特征可以实现成方法、装置或使用标准编程和/或工程技术的制品。本申请中使用的术语“制品”涵盖可从任何计算机可读器件、载体或介质访问的计算机程序。例如，计算机可读介质可以包括，但不限于:磁存储器件(例如，硬盘、软盘或磁带等)，光盘(例如，压缩盘(compact disc，CD)、数字通用盘(digital versatile disc，DVD)等)，智能卡和闪存器件(例如，可擦写可编程只读存储器(erasable programmable read-only memory，EPROM)、卡、棒或钥匙驱动器等)。另外，本文描述的各种存储介质可代表用于存储信息的一个或多个设备和/或其它机器可读介质。术语“机器可读介质”可包括但不限于，无线信道和能够存储、包含和/或承载指令和/或数据的各种其它介质。

随着人们生活水平的提高，越来越多的人通过去KTV唱歌、利用终端上的录歌应用(例如华为音乐、唱吧、全民K歌)翻唱歌曲、去录音棚录歌、录制有声书等去丰富自己的业余生活。对于通过这些方式，将背景音频和用户实际的录音音频结合产生的音频文件，目前基本上都是按照传统的某种压缩编码格式，储存在多媒体容器(Multimedia Container)中。

目前，音频文件的存储主要包括两个步骤，第一步：将音频文件进行多媒体编码，目的是将音频文件由模拟信号转为数字信号。例如，可以利用数字多媒体压缩格式(DivX)、动态影像专家压缩标准音频层面3(moving picture experts group audio layer III，MP3)等编码方式对音频文件进行多媒体编码；第二步：将编码后的不同的多媒体数据流联合起来加载到一个载体里面，这个载体称为多媒体容器，即将不同的多媒体数据流(多条音频流、字幕流、视频流等)联合起来加载到一个文件(即多媒体容器)里面，播放的时候分别对各条多媒体数据流进行解码。

多媒体容器文件格式定义了多媒体数据流在多媒体容器中存储方式，一般情况下，多媒体容器文件格式一般包括文件头部分、索引部分以及多媒体数据部分。

文件头部分：说明了多媒体数据符合的压缩标准以及规范信息。例如，可以在文件头部分规定每个数据块的大小(例如每个数据块存储的音频或者视频的时间长度等)。

索引部分：一个整体的多媒体文件通常会被分为若干块进行分别存储，各数据块之间也可能是不连续存储的，因此需要在索引部分建立多媒体数据的存储位置索引。图1所示的为一例视频数据和音频数据的索引部分的示意图。如图1中的a图所示的，音频数据的索引部分详细记载了音频数据的各个数据块存储位置索引，用来记录相应数据块的存储位置与基准位置或者参考位置偏移量(offset)。例如，如图1中的a图所示的，offset X表示音频数据的第一个数据块对应的存储位置与基准位置或者参考位置偏移量，第一个数据块可以为一定时间长度的音频数据。offset X+1表示音频数据的第二个数据块对应的存储位置与基准位置或者参考位置偏移量。第二个数据块在时间轴上是接续第一数据块的时间，每个数据块对应的音频长度可以由伴奏音频A1存储时的文件头部分的压缩标准规定，即offset的值的从小到大的顺序反应了offset对应的数据块在时间上先后顺序关系。例如，第一个数据块为音频数据的0至1秒的时间段内的数据，第二个数据块为音频数据的1至2秒的时间段内的数据，以此类推。例如，假设该音频数据的总时间长度为50秒，则可以存在50个offset的值。50个offset的值分别对应的数据块叠加，便可以得到完整的音频数据。在用户需要获取音频数据时，可以根据音频数据中的各个数据块的存储位置索引，获取各个数据块在内存中的存储位置，从而在内存中获取多个数据块，最终获取完整的数据流。

又例如，假设该音频数据的总时间长度为50秒，在文件头部分规定了压缩标准为一个数据块存储的音频数据的时长为1秒，则将该音频数据分成50个数据块进行存储，存在50个offset的值，假设用户需要播放35至45秒的音频数据，在终端接收到用户的播放操作时，终端可以将该音频数据的索引部分一次性的全部放到内存中，然后根据用户在播放中的操作(快进、快退、推动播放条至预定位置等)，获取该播放位置或者播放时间对应的数据块的offset值，然后根据offset值获取数据块的存储位置，从而在内存中获取数据块并播放预定位置或者时间的音频数据。

图1中的b图所示的视频数据存储位置索引部分，其原理和音频数据索引部分类似。

由于各数据块的大小可能不同，因此也可能需要在索引部分建立各种多媒体数据块的尺寸大小索引，用来记录相应数据块的尺寸大小。此外，在索引部分还可以建立了其他索引，例如，音频和视频同步索引等等。用户使用的电脑或手机上播放这些多媒体容器文件时，一般是将索引部分一次性的全部放到内存中，然后在播放中根据操作(快进、快退等)来通过数据索引得到所需的数据。

多媒体数据部分是经过压缩的多媒体数据，包括视频数据、音频数据、文本数据(例如字幕等)及其他多媒体数据。

目前，对于音频文件以及视频文件，均是利用上述的方式保存在服务器中或者用户使用的客户端设备中。

例如，用户利用终端上的K歌软件翻唱或者演唱某歌曲时，通过麦克风采集用户的发声，直接叠加上该歌曲对应的伴奏音频，得到用户翻唱这首歌的完整音频(即干声+伴奏)。该完整音频文件会存在服务器及用户的手机或其他设备客户端的多媒体容器中。

图2所示的为本申请提供的一例歌曲在时间轴上结构的示意图，如图2所示的，在时间轴上，歌曲的前奏阶段(歌曲的开始(即0秒)至15秒)、中段(歌曲的第70秒至94秒)、以及收尾阶段(歌曲的第185秒至230秒)的时间段内都是无人声的(仅有伴奏音乐而无人声)。假设用户录制该歌曲共五次，那这五次在这些无人声阶段的音频数据是完全相同的。如果按照上述的多媒体容器文件格式存储用户录制的音频文件，则会存在5个单独的音频文件，每个音频文件均按照多媒体容器文件格式单独存储。每个音频的时间长度均和整个伴奏音频的时间长度相同，即为完整的伴奏音频的时间长度。但实际上，由于歌曲的前奏阶段、中段、收尾阶段这些时间段的音频数据是完全相同的，对于5个单独的音频文件，这些时间段的音频数据完全没有必要重复存储5份，不同的用户翻唱海量的歌曲按照上述方式存储时，会导致很严重的存储资源浪费。

应理解，图2所示的例子不应该对本申请实施例中的歌曲在时间轴上结构产生限制，在本申请的其他实例中，歌曲在时间轴上结构可以和图2所示结构的不同。

结合图2所示的例子，当用户在手机K歌软件中录制图2所示的歌曲的翻唱歌曲时，实际上该歌曲前面的纯音乐伴奏的时间长度(歌曲的前奏阶段(时间长度为15秒)、中段(时间长度为24秒)、以及收尾阶段(时间长度为45秒)的无人声时间段的时间长度)有84秒，利用现有的音频数据保存方法，对于这84秒的纯音乐伴奏，不同用户每翻唱一次，就会将这段84秒纯音乐重复保存一次，这样重复存储实际上是冗余的。一个用户多次翻唱这首歌，则这段84秒纯音乐数据需要重复保存多次。而海量的不同用户翻唱这首歌，这段84秒纯音乐数据也需要重复保存多次，会导致很严重的存储资源浪费。

并且，在用户利用麦克风录歌或者录音频的过程中，在用户不发声的时间段(即前奏之类的纯伴奏时间)，麦克风会将用户侧的环境噪声录入，最后保存到音频文件中，导致用户录制的音频文件质量较差，用户体验不好。

有鉴于此，本申请提供了一种音频数据的存储方法，将背景音频和用户录制的录音音频分开存储，录音音频仅仅包括背景音频中用户实际发声的时间段，减少了用户录制音频的大小，从而降低了录制音频所需要的存储空间。针对背景音频和用户录制音频分别建立索引信息，通过索引信息将用户录制音频和背景音频关联，在存储时分别将索引信息添加至多媒体容器的索引中，用户录制音频和背景音频中相同的部分(背景音频中除过用户实际发声的时间段之外的音频数据)只需要在背景音频中存储一次即可，避免了用户录制音频和背景音频中相同的部分重复存储，从而降低需要的存储空间，降低存储资源浪费。

参考图3，图3所示的为本申请实施例提供的一种实现本申请提供的音频数据的存储方法的通信系统100的示意图。

示例性的，通信系统中100可以包括各种终端设备(也可称为电子设备)和服务器103，例如，终端设备可以包括手机101、平板电脑102等。用户利用终端设备可以进行音频文件的录制以及视频文件的录制等，位于云端的服务器103用于存储用户录制的音频文件和视频文件等。并且，云端的服务器还可以存储海量的背景音乐以及伴奏音乐等。

当然，通信系统100中还可以包括笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、手持计算机、上网本、个人数字助理(personaldigital assistant，PDA)、可穿戴电子设备、虚拟现实设备等IOT(internet of things，物联网)设备，图3中未示出。

其中，通信系统100内的各个终端之间、以及终端和服务器之间可以通过通信网络互联。示例性的，该通信网络可以是有线网络，也可以是无线网络。例如，上述通信网络可以是局域网(local area networks，LAN)，也可以是广域网(wide area networks，WAN)，例如互联网。上述通信网络可使用任何已知的网络通信协议来实现，上述网络通信协议可以是各种有线或无线通信协议，诸如以太网、通用串行总线(universal serial bus，USB)、火线(FIREWIRE)、全球移动通讯系统(global system for mobile communications，GSM)、通用分组无线服务(general packet radio service，GPRS)、码分多址接入(code divisionmultiple access，CDMA)、宽带码分多址(wideband code division multiple access，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(long term evolution，LTE)、蓝牙、无线保真(wireless fidelity，Wi-Fi)、NFC、基于互联网协议的语音通话(voice over Internet protocol，VoIP)、支持网络切片架构的通信协议或任何其他合适的通信协议。

也就是说，通信系统100内的各个设备可按照一定的通信协议和组网策略组建网络(即组网)，使得系统内的各个终端之间可以互相通信。

图4所示的本申请提供的一例终端设备和服务器内部的软件架构的示意图。如图4所示的，终端设备(或者也可以称为客户端设备)包括播放模块，索引信息采集模块、索引信息制作模块。服务器包括存储模块。

其中，服务器中的存储模块可以包括多媒体容器，用于存储海量的背景音频(例如、伴奏音乐、背景音乐等)。

终端设备的播放模块用于识别用户的视频或者音频录制指令、视频或者音频播放指令等。

在识别到用户的视频或者音频录制指令后，终端可以从服务器中的多媒体容器中获取需要录制的视频或者音频的背景音频(例如背景音频或者伴奏音频等)。

在获取到背景音频或者伴奏音频后，播放模块开始播放背景音频或者伴奏音频，索引信息采集模块开始采集索引信息。

索引信息采集模块：用于采集索引信息包括的具体内容、以及进行用户语音或者视频的录制。其中，索引信息包括：用户信息(例如用户ID)、音频或者视频的类型等。例如：音频的类型包括：伴奏、用户录音、翻唱、原唱、背景音频、录制音频等，视频的类型包括：录制视频、背景视频、背景音频等。索引信息采集模块可以记录伴奏或者背景音乐的ID等。

索引信息制作模块：主要用于将用户录制的音频数据或者视频数据从模拟信号转换为数字信号，并生成录音文件或者原始视频文件。并且，根据索引信息包括的具体内容，生成索引信息，进一步的，将录音文件或者原始视频文件和索引信息结合，存储在服务器上的多媒体容器中。

通过以上过程，便完成了音频文件或者视频文件的录制以及存储。

在播放模块识别到用户的播放指令后，终端可以从服务器中的多媒体容器中获取储存的视频文件或者音频文件，根据视频文件或者音频文件索引部分的索引信息，在服务器中获取对应的背景音频，将背景音频和视频文件或者音频文件进行叠加，就可以播放自己录制的音频或者视频。

可选的，索引信息采集模块还可以用于采集用户录音过程中的语音活跃度，例如，可以利用语音端点检测(voice activity detection，VAD)检测用户在录制音频或者视频过程中具体的发声时间区间，并记录发声时间区间。索引信息制作模块根据语音活跃度和录音文件或者原始视频文件，生成最终的音频文件或者视频文件，并将音频文件或者视频文件利用索引信息的方式保存在多媒体容器中。

应理解，服务器中的存储模块还可以位于终端上，即终端也可以包括多媒体容器，存储用于存储海量的背景音频以及用户录制的音频文件或者视频文件等。例如图5所示的，终端也可以包括多媒体容器。

应该理解，图4和图5所示的各个模块仅仅是示例性的，不应该对本申请终端设备和服务器的内部架构产生任何的限制。例如，在本申请另一些实施例中，执行图4和图5中所述的各个功能的模块还可以是其它模块，或者，还可以多个模块共同完成一个或者多个功能，或者，终端设备和服务器的内部架构也可以采用与图4和图5所示的例子中不同的结构和模块，或者还可以包括更多或者更少的模块、或者多种不同模块方式的组合等。本申请实施例在此不作限制。

下面结合具体的例子说明本申请提供的方法。

假设：用户利用终端(例如手机)K歌软件录制某首歌的翻唱，图6所示的为本申请在提供的一例音频数据的存储方法的示意性流程图。

如图6所示的，该方法包括：

S201，终端接收用户的操作，该操作用于触发用选择某首歌进行翻唱录制。

例如，用户打开终端某一个K歌软件(例如华为音乐等)，打开该应用程序后，显示的界面如图7中的a图所示的，用户选择“唱歌”菜单后，显示的界面如图7中的b图所示的，用户选择需要翻唱的歌曲，假设用户需要翻唱的歌曲为图2所示的歌曲，用户输入歌曲名“XXX”进行搜索，显示的界面如图7中的c图所示的,用于向用户显示搜索到的相关歌曲的不同版本。用户在如图7中的c图中所示的界面上选择需要翻唱的版本，假设用户选择了第一个歌曲版本进行翻唱，则终端可以从服务器的对媒体容器中获取该歌曲对应的伴奏音频(用A1表示)。

S202，终端根据用户操作(例如输入的歌曲名称)，从服务器获取或者下载该歌曲对应的伴奏音频到本地。

例如，终端可以根据用户的操作，向服务器发送请求，该请求包括伴奏音频A1的信息(例如伴奏音频的名称、标识等)，服务器根据请求，将终端需要的伴奏音频A1发送给终端，在终端获取伴奏音频A1后，显示的界面图7中的d图所示的。

例如，伴奏音频A1时间长度为如图2所示的230秒。

图8所示为本申请提供的一例伴奏音频(或者也可以称为伴奏音频文件)A1在多媒体容器中存储时的示意图，如图8所示的，伴奏音频A1对应的索引部分包括伴奏音频A1的音频数据存储位置索引和音频信息索引。

其中，音频信息索引包括：用户ID(userID)、伴奏ID(musicID)、音频类型ID(wavID)以及语音活跃度时间(activeLabel)。

由于用户没有实际翻唱这个伴奏，即该伴奏音频A1可以为任何一个用户使作为伴奏或者背景音乐使用，因此，伴奏音频A1的音频信息索引中，用户ID(userID)的值为空(例如可以用NA表示)，或者可以不存在用户ID。

语音活跃度时间用于指示用于在翻唱时实际发声的时间段，由于用户没有实际翻唱这个伴奏，或者在伴奏音频中不存在用户实际发声的时间段，因此，语音活跃度时间的值为空(例如可以用NA表示)，或者可以不存在语音活跃度时间。

音频类型ID(wavID)用于指示音频的类型。

可选的，在本申请中，音频的类型包括：用户录音、伴奏(或者可以称为伴奏音频或者背景音频)、原唱、翻唱、录制音频(或者也可以称为语音音频)。由于伴奏音频A1为伴奏，假设用于“1”表示伴奏类型，则A1的音频类型ID为1。

伴奏ID(musicID)用于唯一标识该伴奏音频。假设：伴奏音频A1的伴奏ID(musicID)为0032。

如图8所示的，伴奏音频A1(或者可以称为伴奏音频文件A1)的音频数据存储位置索引表示将伴奏音频A1分成了T个数据块分别存储，其中，每个数据块对应的音频长度可以由伴奏音频A1存储时的文件头部分的压缩标准规定。offsetZ+1可以表示伴奏音频A1的第一个数据块对应的存储位置，或者伴奏音频A1的第一个数据块实际存储位置与基准位置或者参考位置偏移量，根据位置偏移量可以计算出第一个数据块的实际的存储位置。第一个数据块的可以为一定时间长度的音频数据。offsetZ+2表示伴奏音频A1的第二个数据块对应的存储位置与基准位置或者参考位置偏移量。第二个数据块在时间轴上是接续第一数据块的时间，即offset的值的从小到大的顺序反应了offset对应的数据块在时间上先后顺序关系。例如，文件头部分的压缩标准规定每个数据块对应的音频长度为1秒，如果伴奏音频A1时间总长度为200秒，则存储位置索引部分存在200个offset的值，即T的值为200。offsetZ+1对应的第一个数据块为伴奏音频A1的0至1秒时间段内的数据，offsetZ+2对应的第二个数据块为伴奏音频A1的1至2秒时间段内的数据，以此类推。T个offset的值分别对应的数据块叠加，便可以得到完整的伴奏音频A1。在终端需要获取伴奏音频A1时，可以根据伴奏音频A1各个数据块的存储位置索引，获取各个数据块在内存中的存储位置，从而在内存中获取多个数据块，最终获取完整的伴奏音频A1。

应理解，图8仅仅是示例性的，不应该对伴奏音频A1对应的索引部分存储的方式造成限制，在本申请中，音频数据存储位置索引和音频信息索引还可以以其他形式或者排列方式存储，或者还可以包括更多或者更少的信息，本申请对此不作限制。

可选的，在本申请中，对于音频类型(wavID)而言，用户录音表示该音频为麦克风采集的用户的录音，不包括伴奏音频或者背景音频。伴奏表示该音频至包括背景音频或者伴奏音频，不包括人声，即不包括麦克风采集的用户的录音。翻唱表示该音频为歌曲伴奏音频和用户(非该歌曲的原始演唱者)录音的叠加。原唱表示该音频为歌曲伴奏音频和原始演唱者录音的叠加。录制音频表示该音频为背景音频和和用户录音的叠加。其中，翻唱和原唱主要针对于歌曲类型的音频录制，而录制音频主要针对于非歌曲的录制(例如录制带有背景音乐有声书、录制带有背景音乐的短视频等)。

还应理解，在本申请中，对于采用相同的伴奏音频录制的不同的翻唱音频而言，不同的翻唱音频对应的伴奏ID(musicID)是相同的，但是不同的翻唱音频对应的ID是不相同的，即一个翻唱音频的ID用于唯一标识一个翻唱音频。不同的翻唱音频对应的用户ID可以相同(对应于同一个用户多次重复录制的情况)，也可以不同(对应用于不同的用户分别录制的情况)。

还应理解，在本申请实施例中，对伴奏音频A1的索引部分添加音频信息索引可以在S201之前进行，即作为一个预处理的过程。例如，可以对服务器中的所有伴奏音频的索引部分均添加音频信息索引，其中，音频信息索引包括：伴奏ID、音频类型ID等。

S203，终端记录用户的信息以及伴奏音频的信息。例如：用户ID，伴奏音频A1的ID、伴奏音频的音频类型ID等。

S204，终端根据用户的录制指令，触发麦克风开始录制用户翻唱的语音音频。例如，用户可以在如图7中的d图所示的界面上选择需要的伴奏，点击“演唱”，在用户点击演唱后，麦克风开始录制用户翻唱的语音音频。

S205，在录制的开始时，终端开启语音活跃度检测功能，例如开启VAD检测，用于检测用户实际发声的具体时间区间，并记录具体的发声时间段。

其中，用户ID用于唯一标识该用户。

S206，在录制完成之后，终端对用户翻唱的语音音频进行数字化编码，将音频模拟信号转化为数字信号，生成用户录音A2。

该用户录音(或者也可以称为用户录音文件)A2为这一首歌完整时间段的用户录音，用户录音A2包括用户实际发声阶段、噪音段(无用户声音但是存在环境噪音)及静音段(无用户声音也不存在环境噪音)。用户录音A2为麦克风采集的用户的录音，不包括伴奏音频，用户录音A2的时间长度和伴奏音频A1的时间长度(例如如图2所示的230秒)相同。对于用户录音A2，视为用户在所有时间段均有发声。

示例性的，图9所示为本申请提供的一例用户录音A2在多媒体容器中存储时的示意图，如图9所示的，用户录音A2对应的索引部分包括用户录音A2的音频数据存储位置索引和音频信息索引。其中，音频信息索引包括：用户ID(userID)、伴奏ID(musicID)、音频类型ID(wavID)以及语音活跃度时间(activeLabel)。

其中，用户录音A2中仅仅包括用户的录音，不包括伴奏音频，因此，伴奏ID(musicID)的值为空(例如可以用NA表示)，或者可以不存在伴奏ID。

假设：用户ID(userID)为2930。

对于用户录音A2，由于用户从伴奏开始到结束均视为在录制这首歌，语音活跃度时间为完整的伴奏音频的时长(例如如图2所示的230秒)，因此，语音活跃度时间的值为空(例如可以用NA表示)，或者可以不存在语音活跃度时间，或者，语音活跃度时间的值为整个伴奏音频A1的时长。

A2的音频类型ID(wavID)为用户录音，假设用于“0”表示用户录音，则A2的音频类型ID为0。

如图9所示的，用户录音A2(或者可以称为用户录音文件A2)的音频数据存储位置索引表示将用户录音A2分成了S个数据块分别存储，offsetW+1表示用户录音A2的第一个数据块对应的存储位置，或者用户录音A2的第一个数据块实际存储位置与基准位置或者参考位置偏移量，根据位置偏移量可以计算出第一个数据块的实际的存储位置。第一个数据块的可以为一定时间长度的音频。每个数据块对应的音频长度可以由用户录音A2存储时的文件头部分的压缩标准规定。offsetW+2表示用户录音A2的第二个数据块对应的存储位置与基准位置或者参考位置偏移量。W个offset的值分别对应的数据块叠加，便可以得到完整的用户录音A2。

应理解，图9仅仅是示例性的，不应该对用户录音A2对应的索引部分存储的方式造成限制，在本申请中，音频数据存储位置索引和音频信息索引还可以以其他形式或者排列方式存储，或者还可以包括更多或者更少的信息，本申请对此不作限制。

S207，终端根据语音活跃度检测结果、用户录音A2以及伴奏音频A1，生成语音音频A3(或者也可以称为播放音频A3)。

具体的，在S207中，由于在S203中已经获取了用户在录制过程具体的发声时间区间。假设：用户发声时间段为[t₁,t₂]、[t₃,t₄]、[t₅,t₆]，即用户在这首歌完整的时间长度内，在时间区间[t₁,t₂]、[t₃,t₄]以及[t₅,t₆]内实际发声。例如，t₁、t₂、t₃、t₄、t₅、t₆的单位可以为“秒”，表示一个时间点。以[t₁,t₂]为例，t₁表示用户发声的起始时间，t₂表示用户发声的结束时间，假设t₁等于5.34S,t₂等于7.15S，则表示在5.34S至7.15S这个时间段内，用户实际上进行了翻唱。在除过[t₁,t₂]、[t₃,t₄]、[t₅,t₆]之外的时间区间上(例如包括歌曲的前奏阶段、中段、以及收尾阶段等)，不存在用户的声音。并且，在除过[t₁,t₂]、[t₃,t₄]、[t₅,t₆]之外的时间区间上，针对任意一个用户在利用该伴奏音频进行翻唱录制时，对应的音频均是相同的。

可选的，最为另一种可能的实现方式，用户发声时间区间的记录方式还可以为起始时间以及持续的时间长度。例如：起始时间为伴奏音频第5分5秒，持续时长10秒。本申请对于发声时间区间的记录方式不作限制。

因此，对于用户录音A2，仅需要保存[t₁,t₂]、[t₃,t₄]、[t₅,t₆]时间段内的音频数据，其他时间段的数据如[t₂,t₃]，[t₄,t₅]等可以视为噪音段(无用户声音但是存在环境噪音)及静音段(无用户声音也不存在环境噪音)需要予以舍弃。终端截取伴奏音频A1在发声时间区间内的伴奏音频，并截取用户录音A2在发声时间区间内的录音，将截取到的两部分(用户发声时间段内的伴奏音频和用户发声时间段内的录音)整合或者叠加，生成语音音频A3。换句话说，语音音频(或者也可以称为语音音频文件)A3的时间长度小于用户录音A2或者伴奏音频A1的时间长度，在时间的角度上，语音音频A3为用户录音A2或者伴奏音频A1的子集，语音音频A3和伴奏音频A1在时域上的重叠时间区间为用户发声的时间。

例如，结合上述的例子，假设用户演唱的为图2所示的歌曲，其中，语音音频A3是根据：伴奏音频A1的第15秒至70秒、以及第94秒至185秒之间的时间段的背景音频、以及用户录音A2的第15秒至70秒之间的时间段、以及第94秒至185秒之间的时间段的用户录音合成的。语音音频A3包括用户实际发声时间段内的伴奏音频以及用户录音，为用户实际翻唱的音频文件，本申请中，语音音频A3也可以称为翻唱音频A3。

用户发声时间段为[15,70]、[94,185]。即在伴奏音频A1第15秒至70秒之间的时间段、以及伴奏音频A1第94秒至185秒之间的时间段内用户实际发声。伴奏音频A1总时间长度为230秒，语音音频A3的时间长度为146秒。语音音频A3和伴奏音频A1在时域上的重叠时间长度为146秒。重叠的时间区间为：伴奏音频A1第15秒至70秒之间的时间段、以及伴奏音频A1第94秒至185秒之间的时间段。在时域上，语音音频A3为伴奏音频A1的子集。

S208，终端根据用户的信息、伴奏的音频的信息以及语音活跃度检测结果，生成语音音频A3的音频信息索引(或者也可以称为翻唱信息索引)，音频信息索引包括：用户ID、伴奏ID、音频类型ID，语音活跃时间。

例如，终端设备可以获取伴奏音频A1的索引部分的背景音频ID(musicID)，将背景音频ID(即第一标识)添加到语音音频A3的音频信息索引中。

结合上述的示例：对于语音音频(或者也可称为翻唱音频)A3，用户ID(userID)为2930。

由于使用伴奏音频A1，因此，伴奏ID(musicID)也为0032。

语音音频A3的音频类型为翻唱，假设用于“2”表示翻唱类型，则语音音频A3的音频类型ID(wavID)为2。

语音活跃度时间(activeLabel)为[15,70]、[94,185]，表示用户在伴奏音频A1第15秒至70秒之间的时间段、以及伴奏音频A1第94秒至185之间的时间段用户实际发声。换句话说，语音音频A3的时间长度为146秒。

S209，终端将语音音频A3存储在服务器中的多媒体容器中，并且，在语音音频A3索引部分，添加音频信息索引，即语音音频A3对应的索引部分包括语音音频A3的音频数据存储位置索引和音频信息索引，通过语音音频A3的音频信息索引，就可以将语音音频A3和伴奏音频A1关联。

示例性的，图10所示为本申请提供的一例语音音频A3在多媒体容器中存储时的示意图，如图10所示的，语音音频A3对应的索引部分包括语音音频A3的音频数据存储位置索引和音频信息索引。

其中，用户ID(userID)为2930，伴奏ID(musicID)也为0032，语音音频A3的音频类型ID(wavID)为2。语音活跃度时间(activeLabel)为[15,70]、[94,185]。可选的，在本申请中，对于伴奏音频或者背景音频在多媒体容器中存储时的音频信息索引部分，以及采用该伴奏音频或者背景音频录制的录制音频或者翻唱在多媒体容器中存储时的音频信息索引部分，两个索引部分的伴奏ID(musicID)是相同的，但是音频类型(wavID)是不同的。换句话说，两个不同的音频文件可以对应相同的伴奏ID，但是对应不同的音频类型。例如，图8和图10所示的，伴奏音频A1和语音音频A3分别为伴奏音频和采用该伴奏音频录制的翻唱音频，两者索引部分中的伴奏ID(musicID)是相同的，但是音频类型(wavID)是不同的。

如图10所示的，语音音频A3(或者可以称为伴语音音频文件A3)的音频数据存储位置索引表示将语音音频A3分成了V个数据块分别存储，offsetU+1表示语音音频A3的第一个数据块对应的存储位置，或者语音音频A3的第一个数据块实际存储位置与基准位置或者参考位置偏移量，根据位置偏移量可以计算出第一个数据块的实际的存储位置。第一个数据块的可以为一定时间长度的音频。每个数据块对应的音频长度可以由语音音频A3存储时的文件头部分的压缩标准规定。

S210,终端设备接收用户的操作，该操作用于触发播放用户的录制的歌曲指令。

例如，用户打开终端上的K歌软件(例如华为音乐等)，打开该应用后，显示的界面如图11中的a图所示的，用户选择“我的”菜单，显示的界面如图11中的b图所示的，用户选择“本地录音”后，显示的界面如图11中的c图所示的，用户选择需要播放的录音音频，例如需要播放“XXX”歌曲，则触发了终端播放用户的录制的歌曲指令(即语音音频A3)。

应理解，在本申请实施例中，图7和图11所示的界面图仅仅是示例性的，不应该对本申请实施例中用户触发实例中的终端界面产生任何限制。例如，在本申请另一些实施例中，终端显示的界面上的图标可以包括比图7或者图11所示界面上显示的更多或更少图标，或者组合某些图标，或者拆分某些图标，或者不同的图标等。本申请实施例在此不作限制。

S211，终端根据播放指令，从服务器获取语音音频A3，同时根据A3对应的索引部分(包括音频数据存储位置索引和音频信息索引)，获取伴奏ID，根据伴奏ID从服务器取对应的伴奏音频A1。

例如，终端接收到用户的操作后，可以向服务器发送播放请求，该播放请求包括：语音音频A3的ID、用户ID等。服务器根据语音音频A3的ID以及用户ID，获取语音音频A3，根据A3对应的索引部分(如图11所示的)，获取伴奏ID(musicID)，根据伴奏ID，便可以在多媒体容器中确定出伴奏音频A1。服务器便可向终端发送伴奏音频A1和语音音频A3。

作为另外一种可能的实现方式，服务器根据语音音频A3的ID以及用户ID，获取语音音频A3，根据A3对应的索引部分(如图10所示的)，获取伴奏ID(musicID)之后，由于同一个伴奏ID可能对应多个音频文件，不同音频文件对应的音频类型不同，例如：一个伴奏ID对应三个音频文件，其中一个音频文件的音频类型为伴奏，一个音频文件的音频类型为翻唱，另一个音频文件的录制音频，由于A3的音频类型为翻唱，因此，还需要确定伴奏ID对应的音频文件的音频类型(wav)，从而根据伴奏ID和伴奏ID对应的音频文件的音频类型，唯一确定伴奏音频A1。作为一种可能的实现方式，可以设定A3的音频类型与伴奏ID对应音频文件的音频类型之间的映射关系，例如，“翻唱”类型对应“伴奏”类型，“录制音频”类型对应“背景音频”等，从而可以根据A3的音频类型，确定伴奏ID对应的音频文件的类型为伴奏，从而确定伴奏ID对应的音频的音频类型标识(wavID)为“1”(假设：用“1”表示伴奏类型，用“0”表示用户录音类型、用“2”表示翻唱类型，用“3”表示录制音频类型)。根据伴奏ID和伴奏ID对应的音频的音频类型(wavID)为“1”，便可以在多媒体容器中确定出伴奏音频A1。服务器便可向终端发送伴奏音频A1和语音音频A3。

在服务器获取到语音音频A3和伴奏音频A1后，可以语音音频A3和伴奏音频A1发送给终端。其中，语音音频文件A3和伴奏音频文件A1可以理解为与第一音频相关的背景音频文件以及录音音频文件。即语音音频文件A3为与第一音频相关的录音音频文件，伴奏音频文件A1为与第一音频相关的背景音频文件。在播放第一音频时，实质上为播放语音音频文件A3和伴奏音频文件A1。

S212，终端根据音频信息索引中的语音活跃度时间播放语音音频A3和伴奏音频A1，便可以播放自己完整的翻唱音频。例如，用户利用终端播放翻唱音频时显示的界面可以如图11中的d图所示的。

终端获取到语音音频A3和伴奏音频A1后，确定语音音频A3的语音活跃度时间(activeLabel)为[15,70]、[94,185]，即语音音频A3的语音活跃度时间不是从0开始的，则确定需要首先播放与语音音频A3关联的伴奏音频A1，然后在语音活跃度时间内播放语音音频A3，在伴奏音频A1除过语音活跃度时间之外的时间段内播放伴奏音频A1。

图12所示的为一例语音音频A3和伴奏音频A1播放时在时序上的示意图。

如图12所示的，在播放的过程中，可以分为如下五个阶段进行：

阶段一[0-15s]：终端首先开始播放伴奏音频A1至第15秒的时间，例如，终端根据需要播放的伴奏音频A1的时间长度(15秒)以及伴奏音频A1在存储时的压缩规则，确定需要读取的offset个数，假设：假设伴奏音频A1的压缩标准(或者压缩规则)为一个数据块存储1秒钟时长的音频数据，则确定需要获取offset1至offset15对应的数据块。终端根据伴奏音频A1的offset1至offset15，获取offset1至offset15对应的15个数据块，然后按照15个数据块在时间上的先后顺序(按照offset值从小到大的顺序依次播放)。

阶段二[15s-70s]：在伴奏音频A1播放到15秒后，停止播放伴奏音频A1，开始播放语音音频A3。语音音频A3播放开始播放55秒之后，即播放到伴奏音频A1的第70秒。在播放语音音频A3时，终端根据需要播放的语音音频A3的时间长度(55秒)以及语音音频A3在存储时的压缩规则，确定需要读取的offset个数，例如；语音音频A3的压缩标准为一个数据块存储1秒钟的音频数据，则确定需要获取offset1至offset55对应的55个数据块，终端根据语音音频A3的offset1至offset55，获取offset1至offset55对应的55个数据块，然后按照55个数据块在时间的先后顺序(即offset值从小到大的顺序依次播放)。

阶段三[70s-94s]：在播放完语音音频A3的前55秒之后，停止播放语音音频A3，接着从伴奏音频A1的第70秒开始播放伴奏音频A1(即开始播放伴奏音频A1的offset70对应的数据块)，直至播放到伴奏音频A1的第94秒。

阶段四[94s-185s]：在伴奏音频A1播放到第94秒(播放完伴奏音频A1的offset94对应的数据块)之后，停止播放伴奏音频A1，开始播放语音音频A3(即开始播放语音音频A3的第56秒至146秒)，语音音频A3播放91秒(即播放完语音音频A3的offset146对应的数据块)之后，播放到伴奏音频A1的第185秒，此时，语音音频A3播放完毕。

阶段五[185s-230s]：接着播放伴奏音频A1的第185秒之后的部分，直至伴奏A1播放完毕。

由于语音音频A3的时间长度为用户实际发声时间的时间长度，小于用户录音A2的时间长度或者伴奏音频A1的时间长度，因此，可以减少语音音频A3的大小，从而降低语音音频A3需要的存储空间，对于除过用户实际发声的时间段之外的音频数据只需要在伴奏音频A1存储一次即可，降低存储资源浪费。

作为另一可能的情况，假设：语音音频A3的语音活跃度时间(activeLabel)为[0,70]、[94,185]，则终端首先开始播放语音音频A3，在语音音频A3播放到第70秒时，开始播放伴奏音频A1，即从伴奏音频A1的第70秒开始播放伴奏音频A1，直至播放到伴奏音频A1的第94秒，之后继续播放语音音频A3，语音音频A3播放91秒之后，即播放到伴奏音频A1的第185秒，接着播放伴奏音频A1的第185之后的部分，直至伴奏A1播放完毕。

可选的，在上述的实施例中，终端还可以将伴奏音频A1和语音音频A3存储在本地，例如存储在终端上的多媒体容器中，而不用存储在服务器其中的多媒体容器中。

本申请实施例提供的音频数据的存储方法，在多媒体容器存储录音音频及伴奏音频均使用音频信息索引，建立了翻唱音频及伴奏音频之间的关联关系，翻唱音频仅包括用户实际发声时间段的音频，减少翻唱音频的大小，从而降低了翻唱音频所需要的存储空间。并将发声时间点写入翻唱音频的音频信息索引中，通过索引信息将录音音频和伴奏音频关联，在存储时分别将索引信息添加至多媒体容器的索引中，录音音频和伴奏音频中相同的部分(伴奏音频中除过用户实际发声的时间段之外的音频数据)只需要在伴奏音频中存储一次即可，避免了对于录音音频及伴奏音频之间相同的部分(即用户不发声的部分)的重复存储，降低存储资源浪费。并且，在录音时采用语音活跃度检测，舍弃了静音段和噪音段的录音，使得录制时的环境噪音大幅降低，提高用户体验。

例如：当用户在手机K歌软件中如图2所示的翻唱歌曲时，实际上该歌曲前面的纯音乐伴奏的时间(即前奏阶段、中段、以及收尾阶段的无人声时间段的时间长度)有84秒，利用本申请提供的方法，对于这84秒的纯音乐伴奏，在用户最终录制好的音频文件中是不需要保存的，即用户最终录制好的音频文件仅包括用户实际发声的时间段的音频，这首歌的总时间长度为230秒，用户最终录制好的音频的时间长度约为146秒，因此，只需要存储该146秒的音频文件，可以降低需要存储的音频文件的大小，进一步的降低存储空间的消耗。并且，在最终录制好的音频文件的索引部分利用音频信息索引将用户最终录制好的音频文件和完整的伴奏音乐关联，在播放的时候将完整的伴奏音乐和用户最终录制好的音频按照音频信息索引中的用户发声的时间段进行叠加，便可以播放完整的用户录制音频。

对于用户一次录制音频而言，这段84秒纯音乐只在背景音乐中保存一次，不需要在用户录制的音频中重复保存，而海量的不同用户翻唱这首歌时，每一个用户录制好的录制音频均不需要保存这段84秒纯音乐，降低存储空间的消耗。并且，在用户录音时采用语音活跃度检测，舍弃了录制过程中的静音段和噪音段的录音，使得录制时的环境噪音大幅降低，提高用户体验。

下面结合另一个场景说明本申请提供的方法。

假设：多个用户(以两个为例)在终端(例如手机)软件中利用某个背景音乐进行有声书的录制，如图13所示的，图13所示的为本申请提供一例音频数据的存储方法的示意性流程图，如图13所示的，该方法包括：

S301，终端接收用户的操作，该操作用于触发用选择背景音频进行有声书的录制。

S302，终端根据用户操作，从服务器获取该背景音频(用A4表示)，并下载到本地。

示例性的，在S302中，该背景音频A4可以为另一个人的旁白，也可是纯音乐，或者也可以是旁白和纯音乐的组合等。本申请在此不作限制。

示例性的，图14所示为背景音频A4在时间轴上结构的示意图，如图14所示的，在时间轴上，背景音频A4的第0秒至第35秒、第121秒至第170秒、以及第296秒至第328秒的时间段内都是无用户录音的(仅有背景音乐或者旁白，而无用户实际发声)，对于不同的用户利用该背景音频A4录制的多个有声书文件，或者同一个用户利用该背景音频A4多次录制的多个有声书文件，这些无用户录音部分的音频数据是完全相同的。

假设在本实例中，如图14所示的，用户1在背景音频A4的第35秒至第121秒内实际发声，用户2在背景音频A4的第170秒至第296秒内实际发声。

图15所示为背景音频(或者也可以称为背景音频文件)A4在多媒体容器中存储时的示意图，如图15所示的，背景音频A4对应的索引部分包括背景音频A4的音频数据存储位置索引和音频信息索引。其中，音频信息索引包括：用户ID(userID)、背景音频ID(musicID)、以及语音活跃度时间(activeLabel)。

由于用户没有实际录制这个背景音频A4，即该背景音频A4可以为任何一个用户使作为背景音乐使用，因此，背景音频A4的音频信息索引中，用户ID(userID)的值为空(例如可以用NA表示)，或者可以不存在用户ID。

语音活跃度时间用于指示用于在录制时实际发声的时间段，由于用户没有实际录制这个背景音频A4，或者在背景音频A4中不存在用户实际发声的时间段，因此，语音活跃度时间的值为空(例如可以用NA表示)，或者可以不存在语音活跃度时间。

可选的，背景音频A4的音频信息索引还可以包括：音频类型ID(wavID)，音频类型包括：录音、原唱、背景音乐(或者也可称为伴奏)、翻唱或者。其中，背景音频A4为的音频类型为背景音乐。假设用于“1”表示背景音乐的类型，则A4的音频类型ID为1。

背景音频ID(musicID)用于唯一标识该背景音频，假设：背景音频A4的背景音频ID(musicID)为0069。

如图15所示的，背景音频A4(或者可以称为背景音频文件A4)的音频数据存储位置索引表示将背景音频A4分成了L个数据块分别存储，每个数据块对应的音频长度可以由背景音频A4存储时的文件头部分的压缩标准规定。offsetM+1可以表示背景音频A4的第一个数据块对应的存储位置，或者背景音频A4的第一个数据块实际存储位置与基准位置或者参考位置偏移量，根据位置偏移量可以计算出第一个数据块的实际的存储位置。第一个数据块的可以为一定时间长度的音频数据。offsetM+2表示背景音频A4的第二个数据块对应的存储位置与基准位置或者参考位置偏移量。第二个数据块在时间轴上是接续第一数据块的时间，第二个数据块在时间轴上是接续第一数据块的时间，即offset的值的从小到大的顺序反应了offset对应的数据块在时间上先后顺序关系。L个offset的值分别对应的数据块叠加，便可以得到完整的背景音频A4。在终端需要获取背景音频A4时，可以根据背景音频A4各个数据块的存储位置索引，获取各个数据块在内存中的存储位置，从而在内存中获取多个数据块，最终获取完整的背景音频A4。

应理解，图15仅仅是示例性的，不应该对背景音频A4对应的索引部分存储的方式造成限制，在本申请中，音频数据存储位置索引和音频信息索引还可以以其他形式或者排列方式存储，本申请对此不作限制。

还应理解，在本申请实施例中，对背景音频A4的索引部分添加音频信息索引可以在S301之前进行，即作为一个预处理的过程。例如，可以对服务器中的所有背景音频的索引部分均添加音频信息索引。

S303，终端记录用户的信息以及背景音频的信息，例如：记录用户1和用户2的ID，背景音频ID等。

S304，终端根据用户的录制指令，触发麦克风开始录制语音音频。

S305，在录制的过程中，终端开启语音活跃度检测功能，例如开启VAD检测，用于检测用户1和用户2的实际发声的具体时间区间，并记录具体的发声时间段。

假设在本实例中，用户1在背景音频A4的第35秒至第121秒内实际发声，用户2在背景音频A4的第170秒至第296秒内实际发声。

S306，在录制完成之后，终端对录制的语音音频进行数字化编码后，生成录音音频A5。

该录音音频A5为背景音频完整时间段内的用户1和用户2的录音，在录音音频A5中，包括用户1和用户2实际发声阶段、噪音段(无用户声音但是存在环境噪音)及静音段(无用户声音也不存在环境噪音)。录音音频A5为麦克风采集的用户的录音，不包括背景音频A4。该录音音频A5的时间长度和背景音频A4的时间长度相同。

示例性的，图16所示为录音音频A5(或者可以称为录音音频文件A5)在多媒体容器中存储时的示意图，如图16所示的，录音音频A5对应的索引部分包括录音音频A5的音频数据存储位置索引和音频信息索引。其中，音频信息索引包括：用户ID(userID)、背景音频(musicID)、以及语音活跃度时间(activeLabel)。

由于录音音频A5中仅仅包括用户的录音，不包括背景音频，因此，背景音频(musicID)的值为空(例如可以用NA表示)，或者可以不存在伴奏ID。

假设：用户1的ID(user1,ID)为3310，用户2的ID(use2,ID)为3320。

对于录音音频A5，由于用户从背景音频开始到结束均在录制有声书，语音活跃度时间为完整的背景音频的时长，因此，语音活跃度时间的值为空(例如可以用NA表示)，或者可以不存在语音活跃度时间，或者，语音活跃度时间的值为整个背景音频A4的时长。

可选的，录音音频A5的音频信息索引还可以包括：音频类型ID(wavID)，音频类型包括：录音、原唱、背景音乐(或者也可称为伴奏)或者翻唱。其中，录音音频A5为的音频类型为用户录音。假设用于“0”表示用户录音，则A5的音频类型ID(wavID)为0。

如图16所示的，录音音频A5的音频数据存储位置索引表示将录音音频A5分成了N个数据块分别存储，每个数据块对应的视频时间长度可以由存储时的文件头部分的压缩标准规定。offsetP+1表示录音音频A5的第一个数据块对应的存储位置，或者录音音频A5的第一个数据块实际存储位置与基准位置或者参考位置偏移量，根据位置偏移量可以计算出第一个数据块的实际的存储位置。第一个数据块的可以为一定时间长度的音频。每个数据块对应的音频长度可以由录音音频A5存储时的文件头部分的压缩标准规定。offsetP+2表示录音音频A5的第二个数据块对应的存储位置与基准位置或者参考位置偏移量，第一个数据块在时域上位于第二个数据块之前，即offset的值的从小到大的顺序反应了offset对应的数据块在时间上先后顺序关系。N个offset的值分别对应的数据块叠加，便可以得到完整的录音音频A5。

应理解，图16仅仅是示例性的，不应该对录音音频A5对应的索引部分存储的方式造成限制，在本申请中，音频数据存储位置索引和音频信息索引还可以以其他形式或者排列方式存储，本申请对此不作限制。

S307，终端根据语音活跃度检测结果、录音音频A5以及背景音频A4，生成语音音频A6(或者也可以称为播放音频A6)。

具体的，在307中，由于在S303中已经获取了用户在录制过程具体的发声时间区间。假设：用户发声时间段为[t₇,t₈]、[t₁₀,t₁₁]，即用户在背景音频A4完整的时间长度内，在时间区间[t₇,t₈]、[t₁₀,t₁₁]内实际发声。在除过[t₇,t₈]、[t₁₀,t₁₁]之外的时间区间上，不存在用户的声音。

因此，对于录音音频A5，仅需要保存[t₇,t₈]、[t₁₀,t₁₁]时间段内的音频数据，其他时间段的数据如[t₁,t₇]，[t₉,t₁₀]等可以视为噪音段(无用户声音但是存在环境噪音)及静音段(无用户声音也不存在环境噪音)需要予以舍弃。终端截取背景音频A4在发声时间区间内的背景音频，并截取用户1和用户2在录音音频A5在发声时间区间内的录音，将将截取到的两部分(用户发声时间段内的背景音频和用户发声时间段内的录音)整合或者叠加，生成语音音频A6。换句话说，语音音频A6的时间长度小于录音音频A5的时间长度或者背景音频A4的时间长度，在时间轴的维度上，语音音频A6为录音音频A5或者背景音频A4的子集。语音音频A6包括用户实际发声时间段内的背景音频以及用户录音，为用户实际录制的音频文件。语音音频A6和背景音频A4在时域上的重叠时间区间为用户发声的时间。

其中，语音音频A6是根据：背景音频A4第35秒至121秒之间的时间段、以及第170秒至296秒之间的时间段的背景音频、以及用户1在背景音频A4的第35秒至121秒之间的时间段的用户录音、用户2在背景音频A4的第170秒至296秒之间的时间段的用户录音合成的。语音音频A6包括用户实际发声时间段内的背景音频以及用户录音，为用户实际录制的音频文件。

用户1实际发声时间段为[35，121]，用户2实际发声时间[170,296]，即存在两个发声时间段，第一个时间段为：用户1在背景音频A4的第35秒至第121内的时间段发声，第二个时间段为：用户2在背景音频A4的第170秒至296内的时间段发声。背景音频A4时间长度为328秒，语音音频A6的时间长度为212秒。语音音频A6包括：用户1发声时间段为[35,121]以及用户2发声时间段为[170,296]，即在背景音频A4的第35秒至121秒之间的时间段、以及第170秒至296秒之间的时间段内用户实际发声。语音音频A6和背景音频A4在时域上的重叠时间长度为212秒，重叠的时间区间为：背景音频A4的第35秒至121秒之间的时间段、以及背景音频A4的第170秒至296秒之间的时间段。在时域上，语音音频A6为背景音频A4的子集。

S308，终端根据用户的信息、背景音频的信息以及语音活跃度检测结果，生成语音音频A6的音频信息索引，音频信息索引包括：用户ID、背景音频ID(mus i c I D)、语音活跃时间。

结合上述的示例：对于语音音频A6，用户1的ID(userID)为3310。用户2的ID(userID)为3320。

背景音频ID(musicID)为0069。

语音活跃度时间(activeLabel)为：[35,121]、[170,296]。换句话说，语音音频A6的时间长度为212秒。

S309，终端将语音音频A6存储在服务器中的多媒体容器中。并且，在语音音频A6对应的索引部分添加音频信息索引，即语音音频A6对应的索引部分包括语音音频A6的音频数据存储位置索引和音频信息索引，音频信息索引用于指示语音音频A6和背景音频A4之间的关联关系。

例如，终端设备可以获取背景音频A4的索引部分的背景音频ID(musicID)，将背景音频ID添加到语音音频A6的音频信息索引中。

示例性的，图17所示为语音音频(或者可以称为语音音频文件)A6在多媒体容器中存储时的示意图，如图17所示的，语音音频A6对应的索引部分包括语音音频A6的音频数据存储位置索引和音频信息索引。其中，音频信息索引包括：用户ID(userID)、背景音频ID(musicID)、以及语音活跃度时间(activeLabel)。

其中，用户1的ID(userID)为3310。用户2的ID(userID)为3320。

背景音频ID(musicID)也为0069。语音活跃度时间(activeLabel)为[35,121]、[170,296]。

可选的，语音音频A6的音频信息索引还可以包括：音频类型ID(wavID)，其中，语音音频A6为的音频类型为有声书音频。假设用于“3”表示有声书音频类型，则语音音频A6的音频类型ID(wavID)为3。

其中，如图17所示的，语音音频A6包括的数据块的个数(即offset的个数)是根据：背景音频A4的第35秒至121秒之间的时间段、以及第170秒至296秒之间的时间段的音频数据的时间长度、用户1在背景音频A4的第35秒至121秒之间的时间段的录音、用户2在背景音频A4的第170秒至296秒之间的时间段的录音、以及语音音频A6的压缩规则得到的。语音音频A6的文件头部分的压缩标准规定了语音音频A6的每个offset值对应的数据块存储的音频数据的时间长度。offsetR+1表示语音音频A6的第一个数据块对应的存储位置，或者语音音频A6的第一个数据块实际存储位置与基准位置或者参考位置偏移量，根据位置偏移量可以计算出第一个数据块的实际的存储位置。每个数据块的可以为一定时间长度的音频。

例如，假设背景音频A4、录音音频A5以及语音音频A6的压缩标准均为一个数据块存储1秒钟时长的音频数据，则语音音频A6的offsetR+1对应的数据块由背景音频A4的offsetM+35对应的数据块以及录音音频A5的offsetP+35对应的数据块合成，语音音频A6的offset R+2对应的数据块由背景音频A4的offsetM+36对应的数据块以及录音音频A5的offsetP+36对应的数据块合成，以此类推，语音音频A6的offsetR+86对应的数据块由背景音频A4的offsetM+121对应的数据块以及录音音频A5的offsetP+121对应的数据块合成。语音音频A6的offset R+87对应的数据块由背景音频A4的offsetM+170对应的数据块以及录音音频A5的offsetP+170对应的数据块合成，语音音频A6的offset R+212对应的数据块由背景音频A4的offsetM+296对应的数据块以及录音音频A5的offsetP+296对应的数据块合成。

其中，D等于212，即语音音频A6分成212个数据块存储。L等于328，即背景音频A4分成328个数据块存储，N也等于328，即录音音频A5也被分成328个数据块存储。

应理解，图17仅仅是示例性的，不应该对语音音频A6对应的索引部分存储的方式造成限制，在本申请中，音频数据存储位置索引和音频信息索引还可以以其他形式或者排列方式存储，本申请对此不作限制。

S310,终端设备接收用户的操作，该操作用于触发播放用户的录制的有声书音频。

例如，终端接收到用户的操作后，可以向服务器发送播放请求，该播放请求包括：语音音频A6的ID、用户1或者用户2的ID等。服务器根据语音音频A6的ID以及用户ID，获取语音音频A6，根据A6对应的索引部分(如图16所示的)，获取背景音频的(musicID)，根据背景音频ID，便可以在多媒体容器中确定出背景音频A4。

其中，语音音频文件A6和背景音频文件A4可以理解为与一个音频相关的背景音频文件以及录音音频文件。即语音音频文件A6为与该音频相关的录音音频文件，背景音频文件A4为与该音频相关的背景音频文件。

S311，终端根据播放指令，从服务器获取语音音频A6，同时根据A6对应的索引部分(包括音频数据存储位置索引和音频信息索引)，获取的背景音频A4的ID，根据背景音频的ID获取对应的背景音频A4。

S312，终端根据音频信息索引中的语音活跃度时间播放语音音频A6和背景音频A4，便可以播放自己完整的音频。

图18所示的为一例根据音频信息索引中的语音活跃度时间播放背景音频A4和语音音频A6的在时序上的示意图。

如图18所示的，在播放的过程中，可以分为如下五个阶段进行：

阶段一[0-35s]：终端首先开始播放背景音频A4至第35秒的时间。

阶段二[35s-121s]：在背景音频A4播放到第35秒后，停止播放背景音频A4，开始播放语音音频A6。语音音频A6播放播放86秒后停止，即播放到背景音频A4的第121秒。

阶段三[121s-170s]：在播放完语音音频A6的前86秒之后，即播放到背景音频A4的第121秒，停止播放语音音频A6，接着从背景音频A4的第121秒开始播放背景音频A4，直至播放到背景音频A4的第170秒。

阶段四[170s-296s]：在背景音频A4播放到第170秒时，停止播放背景音频A4，开始播放语音音频A6的第87秒，语音音频A6播放123秒之后，即播放到背景音频A4的第296秒。此时，语音音频A6播放完毕。

阶段五[296s-328s]：在语音音频A6播放完毕之后，接着播放背景音频A4的第296秒之后的部分，背景音频A4播放完毕。

由于语音音频A6的时间长度为用户实际发声时间的时间长度，小于背景音频A4的时间长度，因此，可以减少语音音频A6的大小，从而降低语音音频A6需要的存储空间，对于除过用户实际发声的时间段之外的音频数据只需要在背景音频中存储一次即可，降低存储资源浪费。并且，在录音时采用语音活跃度检测，舍弃了静音段和噪音段的录音，使得录制时的环境噪音大幅降低，提高用户体验。

本申请提供的音频数据的存储方法，将背景音频和用户录制的录音音频分开存储，录音音频仅仅包括背景音频中用户实际发声的时间段，将背景音频中除过用户实际发声的时间段之外的音频数据在背景音频存储一次即可，针对背景音频和用户录制音频分别建立索引信息，将用户录制音频和背景音频关联，在存储时分别添加至多媒体容器的索引中，减少了录音音频的大小，录音音频和背景音频中相同的部分只需要在背景音频中存储一次即可，避免了录音音频和背景音频中相同的部分重复存储，从而降低需要的存储空间，降低存储资源浪费。并且，在录音时采用语音活跃度检测，用户录制音频不包括静音段和噪音段的录音，使得录制时的环境噪音大幅降低，提高用户体验。

应理解，上述只是为了帮助本领域技术人员更好地理解本申请实施例，而非要限制本申请实施例的范围。本领域技术人员根据所给出的上述示例，显然可以进行各种等价的修改或变化，例如，上述方法各个方法中某些步骤可以不必须的，或者可以新加入某些步骤等。或者上述任意两种或者任意多种实施例的组合。这样的修改、变化或者组合后的方案也落入本申请实施例的范围内。

还应理解，上述各个实施例中的参数代码仅仅是示例性的，不应该本申请实施例中的信息携带的参数代码格式产生任何限制。在本申请另一些实施例中，本申请实施例中的信息携带的参数代码格式还可以为其他格式等。本申请实施例在此不作限制。

还应理解，本申请实施例中的方式、情况、类别以及实施例的划分仅是为了描述的方便，不应构成特别的限定，各种方式、类别、情况以及实施例中的特征在不矛盾的情况下可以相结合。

还应理解，在本申请的实施例中涉及的各种数字编号仅为描述方便进行的区分，并不用来限制本申请的实施例的范围。上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

还应理解，上文对本申请实施例的描述着重于强调各个实施例之间的不同之处，未提到的相同或相似之处可以互相参考，为了简洁，这里不再赘述。

上述结合图1-图18描述了本申请实施例提供的音频数据的储存方法的实施例，下面描述本申请实施例提供的终端设备和服务器。

本实施例可以根据上述方法，对各个设备(包括上述的终端以及服务器)进行功能模块的划分。例如，可以对应各个功能，划分为各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块可以采用硬件的形式实现。需要说明的是，本实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

需要说明的是，上述方法实施例涉及的各步骤的相关内容，均可以援引到对应功能模块的功能描述，此处不再赘述。

本申请实施例提供的终端设备和服务器，用于执行上述方法实施例提供任一种音频数据的储存方法，因此可以达到与上述实现方法相同的效果。在采用集成的单元的情况下，终端设备或者服务器可以包括处理模块、存储模块和通信模块。其中，处理模块可以用于对终端设备或者服务器的动作进行控制管理。例如，可以用于支持终端设备或者服务器执行处理单元执行的步骤。存储模块可以用于支持存储程序代码和数据等。通信模块，可以用于支持终端设备或者服务器与其他设备的通信。

其中，处理模块可以是处理器或控制器。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，数字信号处理(digital signal processing，DSP)和微处理器的组合等等。存储模块可以是存储器。通信模块具体可以为射频电路、蓝牙芯片、Wi-Fi芯片等与其他终端设备交互的设备。

图19所示的为一例本申请提供的终端设备结构的示意图，如图19所示的，该终端设备400可以包括处理器410，外部存储器接口420，内部存储器421，通用串行总线(universal serial bus，USB)接口430，天线1，天线2，移动通信模块440，无线通信模块460，音频模块470，扬声器470A，受话器470B，麦克风470C，耳机接口470D，传感器模块480等。

可以理解的是，本申请实施例示意的结构并不构成对终端设备400的具体限定。在本申请另一些实施例中，终端设备400可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器410可以包括一个或多个处理单元，例如：处理器410可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

处理器410中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器410中的存储器为高速缓冲存储器。该存储器可以保存处理器410刚用过或循环使用的指令或数据。如果处理器410需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器410的等待时间，因而提高了系统的效率。

终端设备400的无线通信功能可以通过天线1，天线2，移动通信模块440，无线通信模块460，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。终端设备400中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块440可以提供应用在终端设备400上的包括2G/4G/4G/4G等无线通信的解决方案。移动通信模块440可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块440可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块440还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块440的至少部分功能模块可以被设置于处理器410中。在一些实施例中，移动通信模块440的至少部分功能模块可以与处理器410的至少部分模块被设置在同一个器件中。

无线通信模块460可以提供应用在终端设备400上的包括无线局域网(wirelesslocal area networks，WLAN)，如无线保真(wireless fidelity，Wi-Fi)网络，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块460可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块460经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器410。无线通信模块460还可以从处理器410接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，终端设备400的天线1和移动通信模块440耦合，天线2和无线通信模块460耦合，使得终端设备400可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通信系统(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(codedivision multiple access，CDMA)，宽带码分多址(wideband code division multipleaccess，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，LTE，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(global navigation satellitesystem，GLONASS)，北斗卫星导航系统(beidou navigation satellite system，BDS)，准天顶卫星系统(quasi-zenith satellite system，QZSS)和/或星基增强系统(satellitebased augmentation systems，SBAS)。

终端设备400通过GPU，显示屏494，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏494和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器410可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏494用于显示图像，视频等。显示屏494包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot lightemitting diodes，QLED)等。在一些实施例中，终端设备400可以包括1个或N个显示屏494，N为大于1的正整数。

终端设备400可以通过ISP，摄像头493，视频编解码器，GPU，显示屏494以及应用处理器等实现拍摄功能。

ISP用于处理摄像头493反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头493中。

摄像头493用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，终端设备400可以包括1个或N个摄像头493，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当终端设备400在做频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。终端设备400可以支持一种或多种视频编解码器。这样，终端设备400可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG4，MPEG4等。

外部存储器接口420可以用于连接外部存储卡，例如Micro SD卡，实现扩展终端设备400的存储能力。外部存储卡通过外部存储器接口420与处理器410通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器421可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器410通过运行存储在内部存储器421的指令，从而执行终端设备400的各种功能应用以及数据处理。内部存储器421可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储终端设备400使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器421可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。

终端设备400可以通过音频模块470，扬声器470A，受话器470B，麦克风470C，耳机接口470D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块470用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块470还可以用于对音频信号编码和解码。在一些实施例中，音频模块470可以设置于处理器410中，或将音频模块470的部分功能模块设置于处理器410中。

扬声器470A，也称“喇叭”，用于将音频电信号转换为声音信号。终端设备400可以通过扬声器470A收听音乐，或收听免提通话。

受话器470B，也称“听筒”，用于将音频电信号转换成声音信号。当终端设备400接听电话或语音信息时，可以通过将受话器470B靠近人耳接听语音。

麦克风470C，也称“话筒”、“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风470C发声，将声音信号输入到麦克风470C。终端设备400可以设置至少一个麦克风470C。在另一些实施例中，终端设备400可以设置两个麦克风470C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，终端设备400还可以设置三个，四个或更多麦克风470C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

耳机接口470D用于连接有线耳机。耳机接口470D可以是USB接口430，也可以是4.4mm的开放移动终端设备平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

传感器模块480中可以包括压力传感器，陀螺仪传感器，气压传感器，磁传感器，加速度传感器，距离传感器，接近光传感器，指纹传感器，温度传感器，触摸传感器，环境光传感器，骨传导传感器等。

当然，终端设备400还可以包括充电管理模块、电源管理模块、电池、按键、指示器以及1个或多个SIM卡接口等，本申请实施例对此不做任何限制。

应理解，终端设备400执行上述相应步骤的具体过程请参照前文中所述的各个实施例中描述的终端执行步骤的相关描述，为了简洁，这里不加赘述。

本申请实施例还提供一种芯片系统，如图20所示，该芯片系统包括至少一个处理器510和至少一个接口电路520。处理器510和接口电路520可通过线路互联。例如，接口电路520可用于从其它装置(例如终端设备500的存储器)接收信号。又例如，接口电路520可用于向其它装置(例如处理器510)发送信号。示例性的，接口电路520可读取存储器中存储的指令，并将该指令发送给处理器510。当所述指令被处理器510执行时，可使得终端设备执行上述实施例中的终端或者服务器执行的各个步骤。当然，该芯片系统还可以包含其他分立器件，本申请实施例对此不作具体限定。

还应理解，以上装置中单元的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且装置中的单元可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分单元以软件通过处理元件调用的形式实现，部分单元以硬件的形式实现。例如，各个单元可以为单独设立的处理元件，也可以集成在装置的某一个芯片中实现，此外，也可以以程序的形式存储于存储器中，由装置的某一个处理元件调用并执行该单元的功能。这里该处理元件又可以称为处理器，可以是一种具有信号处理能力的集成电路。在实现过程中，上述方法的各步骤或以上各个单元可以通过处理器元件中的硬件的集成逻辑电路实现或者以软件通过处理元件调用的形式实现。在一个例子中，以上任一装置中的单元可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个专用集成电路(application specificintegrated circuit，ASIC)，或，一个或多个数字信号处理器(digital signalprocessor，DSP)，或，一个或者多个现场可编程门阵列(field programmable gate array，FPGA)，或这些集成电路形式中至少两种的组合。再如，当装置中的单元可以通过处理元件调度程序的形式实现时，该处理元件可以是通用处理器，例如中央处理器(centralprocessing unit，CPU)或其它可以调用程序的处理器。再如，这些单元可以集成在一起，以片上系统(system-on-a-chip，SOC)的形式实现。

本申请实施例还提供一种装置，该装置包含在者终端设备或者服务器中，该装置具有实现上述实施例中任一方法中终端设备或者服务器的功能。该功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括至少一个与上述功能相对应的模块或单元。例如，检测模块或单元、显示模块或单元、确定模块或单元、以及计算模块或单元等。

本申请实施例还提供了一种音频数据的储存的系统，该系统包括：上述方法实施例中提供的终端和服务器。

本申请实施例还提供了一种计算机可读存储介质，用于存储计算机程序代码，该计算机程序包括用于执行上述本申请实施例提供的任意一种音频数据的储存方法的指令。该可读介质可以是只读存储器(read-only memory,ROM)或随机存取存储器(randomaccess memory,RAM)，本申请实施例对此不做限制。

本申请还提供了一种计算机程序产品，该计算机程序产品包括指令，当该指令被执行时，以使得终端以及服务器执行对应于上述方法中的对应的操作。

本申请实施例还提供了一种位于通信装置中的芯片，该芯片包括：处理单元和通信单元，该处理单元，例如可以是处理器，该通信单元例如可以是输入/输出接口、管脚或电路等。该处理单元可执行计算机指令，以使所述通信装置执行上述本申请实施例提供的任一种音频数据的储存方法。

可选地，该计算机指令被存储在存储单元中。

可选地，该存储单元为该芯片内的存储单元，如寄存器、缓存等，该存储单元还可以是该终端内的位于该芯片外部的存储单元，如ROM或可存储静态信息和指令的其他类型的静态存储设备，随机RAM等。其中，上述任一处提到的处理器，可以是一个CPU，微处理器，ASIC，或一个或多个用于控制上述的反馈信息的传输方法的程序执行的集成电路。该处理单元和该存储单元可以解耦，分别设置在不同的物理设备上，通过有线或者无线的方式连接来实现该处理单元和该存储单元的各自的功能，以支持该系统芯片实现上述实施例中的各种功能。或者，该处理单元和该存储器也可以耦合在同一个设备上。

其中，本实施例提供的终端设备、计算机可读存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。

可以理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是ROM、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是RAM，其用作外部高速缓存。RAM有多种不同的类型，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DRRAM)。

在本申请中可能出现的对各种消息/信息/设备/网元/系统/装置/动作/操作/流程/概念等各类客体进行了赋名，可以理解的是，这些具体的名称并不构成对相关客体的限定，所赋名称可随着场景，语境或者使用习惯等因素而变更，对本申请中技术术语的技术含义的理解，应主要从其在技术方案中所体现/执行的功能和技术效果来确定。

在本申请的各个实施例中，如果没有特殊说明以及逻辑冲突，不同的实施例之间的术语和/或描述具有一致性、且可以相互引用，不同的实施例中的技术特征根据其内在的逻辑关系可以组合形成新的实施例。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请的实施例中的方法可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机程序或指令。在计算机上加载和执行所述计算机程序或指令时，全部或部分地执行本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机程序或指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是集成一个或多个可用介质的服务器等数据存储设备。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个可读存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的可读存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种音频数据的存储方法，其特征在于，所述方法包括：

终端设备获取与第一音频相关的背景音频文件以及录音音频文件，所述录音音频文件对应的音频包括用户录音音频和背景音频，所述背景音频文件包括第一标识，所述录音音频文件包括所述第一标识，所述第一标识用于关联所述背景音频文件和所述录音音频文件；

所述终端设备根据所述第一标识，播放所述背景音频文件对应的音频以及所述录音音频文件对应的音频，所述录音音频文件对应的音频的播放时长小于所述第一音频的播放时长。

2.根据权利要求1所述的方法，其特征在于，

所述第一音频的播放时长与所述背景音频文件对应的音频的播放时长相同。

3.根据权利要求1或2所述的方法，其特征在于，所述终端设备根据所述第一标识，播放所述背景音频文件对应的音频以及所述录音音频文件对应的音频，包括：

在第一时间段时，所述终端设备播放所述背景音频文件中与所述第一时间段对应的音频，所述第一时间段的长度小于所述背景音频文件对应的音频的播放时长；

在第二时间段时，所述终端设备播放所述录音音频文件对应的音频，所述第二时间段为所述录音音频文件对应的音频播放时间长度；

其中，所述第一音频的播放时长包括所述第一时间段和所述第二时间段，所述第一时间段与第二时间段在时域上不重叠。

4.根据权利要求3所述的方法，其特征在于，

所述背景音频文件包括第一索引部分，所述第一索引部分包括所述第一标识；

所述录音音频文件包括第二索引部分，所述第二索引部分包括所述第一标识和所述第二时间段的指示信息，所述第二时间段为用户的语音活跃度时间，所述用户的语音活跃度时间为所述用户录音音频中所述用户实际发声的时间段。

5.根据权利要求3或4所述的方法，其特征在于，

所述录音音频文件对应的音频包括：所述背景音频文件中与所述第二时间段对应的音频、以及所述用户录音音频中与所述第二时间段对应的音频。

6.根据权利要求1至5中任一项所述的方法，其特征在于，在终端设备获取与第一音频相关的背景音频文件以及录音音频文件之前，所述方法还包括：

所述终端设备接收用户的第一操作，所述第一操作用于触发播放所述第一音频。

7.根据权利要求1至6中任一项所述的方法，其特征在于，

所述背景音频文件包括第一索引部分，所述第一索引部分包括：所述第一标识、所述背景音频类型的标识，用户标识、所述背景音频的语音活跃度时间、以及所述背景音频包括的多个数据块的存储位置索引，所述用户标识的值为空值，所述背景音频的语音活跃度时间的值为空值；

所述录音音频文件包括第二索引部分，所述第二索引部分包括：所述第一标识、所述录音音频文件对应的音频的类型标识、以及所述录音音频文件对应的音频包括的多个数据块的存储位置索引。

8.根据权利要求1至7中任一项所述的方法，其特征在于，所述方法还包括：

所述终端设备接收用户的第二操作，所述第二操作用于获取所述背景音频文件；

所述终端设备根据所述第二操作，获取所述背景音频文件；

所述终端设备播放所述背景音频文件对应的音频；

在所述背景音频文件对应的音频播放过程中，所述终端设备录制用户录音音频，所述用户录音音频包括用户实际发声的时间段以及用户不发声的时间段，所述用户录音音频的时长和所述背景音频文件对应的音频时长相同；

所述终端设备根据所述用户录音音频，检测所述用户实际发声的时间段，所述用户实际发声的时间段为用户的语音活跃度时间；

所述终端设备获取所述用户实际发声的时间段对应的背景音频；

所述终端设备获取所述用户实际发声的时间段内对应的用户录音音频；

所述终端设备将所述用户实际发声的时间段对应的背景音频，以及所述用户实际发声的时间段对应的用户录音音频叠加，得到所述录音音频文件对应的音频。

9.根据权利要求8所述的方法，其特征在于，所述终端设备根据录制所述用户的语音，检测用户实际发声的时间段，包括：

所述终端设备根据利用语音端点检测VAD，检测所述用户实际发声的时间段。

10.根据权利要求8或9所述的方法，其特征在于，所述方法还包括：

所述终端设备获取所述背景音频文件的第一索引部分中的背景音频的标识；

所述终端设备将所述背景音频的标识添加到所述录音音频文件中的第二索引部分。

11.根据权利要求10所述的方法，其特征在于，

所述背景音频文件包括所述第一索引部分，所述第一索引部分包括：所述背景音频的标识、所述背景音频类型的标识，用户标识、所述背景音频的语音活跃度时间、以及所述背景音频包括的多个数据块的存储位置索引，所述用户标识的值为空值，所述背景音频的语音活跃度时间的值为空值；

所述录音音频文件包括所述第二索引部分，所述第二索引部分包括：背景音频的标识、所述录音音频文件对应的音频的类型标识、以及所述录音音频文件对应的音频包括的多个数据块的存储位置索引。

12.根据权利要求8至11中任一项所述的方法，其特征在于，所述方法还包括：

所述终端设备向服务器发送所述录音音频文件。

13.一种音频数据的存储方法，其特征在于，所述方法包括：

服务器获取第一音频相关的背景音频文件以及录音音频文件；

所述服务器存储所述背景音频文件以及所述录音音频文件；

其中，所述录音音频文件对应的音频包括用户录音音频和背景音频，所述背景音频文件包括第一标识，所述录音音频文件包括所述第一标识，所述第一标识用于关联所述背景音频文件和所述录音音频文件，所述录音音频文件对应的音频的时长小于所述第一音频的时长，所述第一音频的时长与所述背景音频文件对应的音频的时长相同。

14.根据权利要求13所述的方法，其特征在于，

所述第一音频的时长包括第一时间段和第二时间段，所述第一时间段与第二时间段在时域上不重叠；

所述第一时间段的长度小于所述背景音频文件对应的音频的时长，所述第一时间段内播放为所述背景音频文件中与所述第一时间段对应的音频，所述第二时间段为所述录音音频文件对应的音频播放时间长度。

15.根据权利要求14所述的方法，其特征在于，

16.根据权利要求14或15所述的方法，其特征在于，

17.根据权利要求15所述的方法，其特征在于，

所述第一索引部分还包括：所述背景音频类型的标识，用户标识、所述背景音频的语音活跃度时间、以及所述背景音频包括的多个数据块的存储位置索引，所述用户标识的值为空值，所述背景音频的语音活跃度时间的值为空值；

所述第二索引部分还包括：所述录音音频文件对应的音频的类型标识、以及所述录音音频文件对应的音频包括的多个数据块的存储位置索引。

18.根据权利要求16至17中任一项所述的方法，其特征在于，

所述第一标识为所述背景音频的标识。

19.根据权利要求13至18中任一项所述的方法，其特征在于，所述服务器获取录音音频文件，包括：

所述服务器接收终端设备发送的所述录音音频文件。

20.一种终端设备，其特征在于，包括：处理器及存储器；所述处理器和存储器耦合，所述存储器存储有程序指令，当所述存储器存储的程序指令被所述处理器执行时执行如权利要求1至12中任一项所述的方法。

21.一种服务器，其特征在于，包括：处理器及存储器；所述处理器和存储器耦合，所述存储器存储有程序指令，当所述存储器存储的程序指令被所述处理器执行时执行如权利要求13至19中任一项所述的方法。

22.一种音频数据的存储系统，所述系统包括终端设备和服务器，其特征在于，所述终端设备用于执行如权利要求1至12中任一项所述的方法，所述服务器用于执行如权利要求13至19中任一项所述的方法。

23.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储了计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1至12中任一项所述的方法，或者执行如权利要求13至19中任一项所述的方法。

24.一种芯片，其特征在于，包括：处理器，用于从存储器中调用并运行计算机程序，使得安装有所述芯片的通信设备执行如权利要求1至12中任一项所述的方法，或者，执行如权利要求13至19中任一项所述的方法。