CN108831513B

CN108831513B - 录制音频数据的方法、终端、服务器和系统

Info

Publication number: CN108831513B
Application number: CN201810628850.4A
Authority: CN
Inventors: 刘东平; 廖志勤
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Chengdu kugou business incubator management Co.,Ltd.
Priority date: 2018-06-19
Filing date: 2018-06-19
Publication date: 2021-01-01
Anticipated expiration: 2038-06-19
Also published as: CN108831513A

Abstract

本申请提供了一种录制音频数据的方法、终端、服务器和系统，属于计算机技术领域。所述方法包括：终端在接收到伴奏播放指令时，可以获取人声数据对应的人声调整值，并且开始录制人声数据，播放伴奏数据，使用人声调整值对录制的人声数据中开始录制的音频帧进行丢帧处理，然后将丢帧处理后的人声数据与伴奏数据进行混音处理，得到录制的音频数据。采用本发明，可以提高人声数据与伴奏数据的匹配率。

Description

录制音频数据的方法、终端、服务器和系统

技术领域

本发明涉及计算机技术领域，特别涉及一种录制音频数据的方法、终端、服务器和系统。

背景技术

随着计算机技术和网络技术的发展，出现了越来越多的录制歌曲的应用程序，用户可以在这类应用程序中，触发播放伴奏数据，移动终端在检测到伴奏的播放指令时，移动终端中播放器可以播放伴奏数据，同时移动终端中录音器可以开始录制人声数据，主播可以跟随伴奏开始唱歌，然后将录制的人声数据和伴奏数据发送至后台服务器。

移动终端检测到伴奏播放指令时，可以立即启动录音器录制人声数据，然而播放器会有音频延迟(也就是说接收到播放指令时，会延迟一段时间播放伴奏数据)，主播一般是听到伴奏时，才演唱歌曲，所以音频延迟的这段时间内，录制的环境声音数据，将与伴奏数据的一开始进行混音处理，会造成人声数据与伴奏数据不匹配。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种录制音频数据的方法、终端、服务器和系统。所述技术方案如下：

第一方面，提供了一种录制音频数据的方法，所述方法包括：

接收伴奏播放指令，获取人声数据对应的人声调整值；

录制人声数据，并播放所述伴奏播放指令对应的伴奏数据；

根据所述人声调整值，对录制的人声数据中开始录制的音频帧进行丢帧处理；

将丢帧处理后的人声数据与伴奏数据进行混音处理，得到录制的音频数据。

可选的，所述获取人声数据对应的人声调整值，包括：

获取本地预先存储的第一人声调整值，并确定第一设备类型，其中，所述第一设备类型为执行所述方法的设备的设备类型；

获取所述第一设备类型对应的第二人声调整值；

将所述第一人声调整值和所述第二人声调整值之和，确定为所述人声数据对应的人声调整值。

可选的，所述获取所述第一设备类型对应的第二人声调整值，包括：

向服务器发送人声调整值的获取请求，其中，所述获取请求中携带有所述第一设备类型；

接收服务器发送的所述第一设备类型对应的第二人声调整值。

可选的，所述获取请求中还携带有所述伴奏数据所属应用程序的第一版本号；

所述接收服务器发送的所述第一设备类型对应的第二人声调整值，包括：

接收所述服务器发送的所述第一设备类型和所述第一版本号对应的第二人声调整值。

可选的，所述根据所述人声调整值，对录制的人声数据中开始的音频帧进行丢帧处理，包括：

如果获取到的人声调整值在预设数值范围内，则根据所述人声调整值，对录制的人声数据中开始的音频帧进行丢帧处理。

可选的，所述人声调整值为音频帧的目标数目；

所述根据所述人声调整值，对录制的人声数据中开始录制的音频帧进行丢帧处理，包括：

确定录制的人声数据中，开始录制的目标数目个音频帧；

对所述目标数目个音频帧进行丢帧处理。

可选的，所述人声调整值为目标录制时长；

确定录制的人声数据中，开始录制时目标录制时长内录制的音频帧；

对确定出的音频帧进行丢帧处理。

可选的，所述方法还包括：

如果未获取到所述第一设备类型对应的第二人声调整值，则向服务器发送人声调整值的添加请求，其中，所述添加请求中携带有所述第一设备类型。

第二方面，提供了一种录制音频数据的方法，所述方法包括：

接收终端发送的人声调整值的获取请求，其中，所述获取请求中携带有所述终端的第一设备类型；

根据预先存储的设备类型与人声调整值的对应关系，确定所述第一设备类型对应的第二人声调整值；

向所述终端发送所述第一设备类型对应的第二人声调整值。

可选的，所述获取请求中还携带有所述终端中生成所述获取请求的应用程序的第一版本号；

所述根据预先存储的设备类型与人声调整值的对应关系，确定所述第一设备类型对应的第二人声调整值，包括：

根据预先存储的版本号、设备类型和人声调整值的对应关系，确定所述第一设备类型和所述第一版本号对应的第二人声调整值；

所述向所述终端发送所述第一设备类型对应的第二人声调整值，包括：

向所述终端发送所述第一设备类型和所述第一版本号对应的第二人声调整值。

可选的，所述方法还包括：

接收人声调整值的更改请求，其中，所述更改请求中携带有更改标识、第二设备类型和所述第二设备类型对应的第三人声调整值，所述更改标识用于指示更改的类型；

根据所述更改标识、所述第二设备类型和所述第三人声调整值，对所述设备类型与人声调整值的对应关系进行更改处理。

可选的，所述根据所述更改标识、所述第二设备类型和所述第三人声调整值，对所述设备类型与人声调整值的对应关系进行更改处理，包括：

如果所述更改标识为删除标识，则在所述设备类型与人声调整值的对应关系中，对应删除所述第二设备类型和所述第三人声调整值；

如果所述更改标识为插入标识，则在所述设备类型与人声调整值的对应关系中，对应插入所述第二设备类型和所述第三人声调整值；

如果所述更改标识为替换标识，则在所述设备类型与人声调整值的对应关系中，将所述第二设备类型的人声调整值替换为所述第三人声调整值。

可选的，所述更改请求中还携带有所述第二设备类型和所述第三人声调整值对应的第二版本号；

所述根据所述更改标识、所述第二设备类型和所述第三人声调整值，对所述设备类型与人声调整值的对应关系进行更改处理，包括：

根据所述更改标识、所述第二设备类型、所述第三人声调整值和所述第二版本号，对所述版本号、设备类型和人声调整值的对应关系进行更改处理。

可选的，所述根据所述更改标识、所述第二设备类型、所述第三人声调整值和所述第二版本号，对所述版本号、设备类型和人声调整值的对应关系进行更改处理，包括：

如果所述更改标识为删除标识，则在所述版本号、设备类型和人声调整值的对应关系中，对应删除所述第二设备类型、所述第二版本号和所述第三人声调整值；

如果所述更改标识为插入标识，则在所述版本号、设备类型和人声调整值的对应关系中，插入所述第二版本号、所述第二设备类型和所述第三人声调整值；

如果所述更改标识为替换标识，则在所述版本号、设备类型和人声调整值的对应关系中，将所述第二版本号和所述第二设备类型对应的人声调整值替换为所述第三人声调整值。

第三方面，提供了一种录制音频数据的终端，所述终端包括：

接收模块，用于接收伴奏播放指令；

获取模块，用于获取人声数据对应的人声调整值；

录制模块，用于录制人声数据；

播放模块，用于播放所述伴奏播放指令对应的伴奏数据；

调整模块，用于根据所述人声调整值，对录制的人声数据中开始录制的音频帧进行丢帧处理；

混音模块，用于将丢帧处理后的人声数据与伴奏数据进行混音处理，得到录制的音频数据。

可选的，所述获取模块，用于：

获取本地预先存储的第一人声调整值，并确定第一设备类型，其中，所述第一设备类型为执行所述终端的设备的设备类型；获取所述第一设备类型对应的第二人声调整值；将所述第一人声调整值和所述第二人声调整值之和，确定为所述人声数据对应的人声调整值。

可选的，所述获取模块包括：

发送子模块，用于向服务器发送人声调整值的获取请求，其中，所述获取请求中携带有所述第一设备类型；

接收子模块，用于接收服务器发送的所述第一设备类型对应的第二人声调整值。

所述接收子模块，用于：

可选的，所述调整模块，用于：

可选的，所述人声调整值为音频帧的目标数目；

所述调整模块，用于：

确定录制的人声数据中，开始录制的目标数目个音频帧；

对所述目标数目个音频帧进行丢帧处理。

可选的，所述人声调整值为目标录制时长；

所述调整模块，用于：

对确定出的音频帧进行丢帧处理。

可选的，所述终端还包括：

发送模块，用于：

第四方面，提供了一种录制音频数据的服务器，所述服务器包括：

接收模块，用于接收终端发送的人声调整值的获取请求，其中，所述获取请求中携带有所述终端的第一设备类型；

确定模块，用于根据预先存储的设备类型与人声调整值的对应关系，确定所述第一设备类型对应的第二人声调整值；

发送模块，用于向所述终端发送所述第一设备类型对应的第二人声调整值。

所述确定模块，用于：

所述发送模块，用于：

可选的，所述接收模块，还用于：

所述服务器还包括：

更改模块，用于根据所述更改标识、所述第二设备类型和所述第三人声调整值，对所述设备类型与人声调整值的对应关系进行更改处理。

可选的，所述更改模块，用于：

所述更改模块，用于：

可选的，所述更改模块，用于：

第五方面，提供了一种录制音频数据的系统，所述系统包括终端和服务器；

所述终端，如上述第三方面所述的终端；

所述服务器，如上述第四方面所述的服务器。

本发明实施例提供的技术方案带来的有益效果至少包括：

本发明实施例中，在播放器播放伴奏数据有音频延迟时，由于可以使用人声调整值，对人声数据中开始录制的音频帧进行丢帧处理，也就是将录制的环境声音数据删除，所以可以提高人声数据与伴奏数据的匹配率。

附图说明

图1是本发明实施例提供的一种录制音频数据的方法流程图；

图2是本发明实施例提供的一种获取人声调整值的流程示意图；

图3是本发明实施例提供的一种获取人声调整值的流程示意图；

图4是本发明实施例提供的一种混音处理的示意图；

图5是本发明实施例提供的一种调整人声调整值示意图；

图6是本发明实施例提供的一种录制音频数据的终端的结构示意图；

图7是本发明实施例提供的一种录制音频数据的终端的结构示意图；

图8是本发明实施例提供的一种录制音频数据的终端的结构示意图；

图9是本发明实施例提供的一种录制音频数据的服务器的结构示意图；

图10是本发明实施例提供的一种录制音频数据的服务器的结构示意图；

图11是本发明实施例提供的一种终端的结构示意图；

图12是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明实施例提供了一种录制音频数据的方法，该方法的执行主体可以是移动终端(后续可以简称为终端)和服务器。其中，终端可以是手机、平板电脑等，终端中可以安装有音频录制应用程序，该音频录制应用程序可以是直播应用程序，也可以是K歌应用程序(K歌应用程序指用户可以跟随伴奏一起唱歌的应用程序)，服务器可以是音频录制应用程序的后台服务器。

终端中可以设置有处理器、存储器和收发器等，处理器可以用于录制音频数据的处理，存储器可以用于录制音频数据过程中需要的数据以及产生的数据，收发器可以用于接收以及发送消息等。终端中还可以设置有屏幕等输入输出设备，屏幕可以用于显示音频录制应用程序的主界面等，终端中还可以设置有录音器和播放器，录音器可以用于录制用户的人声数据，播放器可以用于播放伴奏数据。

服务器中可以设置有处理器、存储器和收发器，处理器可以用于确定人声调整值的处理，存储器可以用于录制音频数据过程中需要的数据以及产生的数据，收发器可以用于接收以及发送消息等。

本实施例中以终端为手机、录制应用程序以直播应用程序为例，进行方案的详细描述，其它情况与之类似，本实施例不再累述。

在进行实施前，首先介绍一下本发明实施例中，所涉及的应用场景：

主播想要进行歌曲演唱直播，可以在终端中安装用于直播的直播应用程序，然后使用自己的账户和密码进行登录，在登录成功后，终端则会显示直播应用程序的主界面，在主界面中显示有视频直播选项和音频直播选项等。主播可以点击音频直播选项，终端则会检测到音频直播选项的点击指令，进入音频直播间。在音频直播间的界面中显示有伴奏选择按键，主播可以点击伴奏选择按键，终端则会接收到伴奏选择按键的点击指令，显示伴奏选择界面，主播可以找到自己想要演唱的歌曲，然后点击播放按键，终端则会接收到伴奏播放指令，可以开始播放伴奏数据，主播可以跟随主播演唱伴奏对应的歌曲，终端可以录制人声数据，将人声数据与伴奏数据进行合成，得到录制的音频数据，发送至直播应用程序的后台服务器(后续可以称为是服务器)。后台服务器可以将接收到音频数据发送至直播间的各账户所登录的终端，各账户所登录的终端接收到后，可以进行播放。

由于移动终端检测到伴奏播放指令时，可以立即启动录音器录制人声数据，然而播放器会有音频延迟(也就是说接收到播放指令时，会延迟一段时间播放伴奏数据)，主播一般是听到伴奏时，才演唱歌曲，所以音频延迟的这段时间内，录制的环境声音数据，将与伴奏的一开始进行混音处理，会造成人声数据与伴奏数据不匹配。

需要说明的是，录制的音频数据是以数据流的方式发送至服务器，也就是只要得到录制的音频数据，就会发送至服务器。

如图1所示，该方法的处理流程可以包括如下的步骤：

步骤101，终端接收伴奏播放指令，获取人声数据对应的人声调整值。

在实施中，终端在接收到伴奏播放指令时，可以从本地和/或从服务器获取人声数据对应的人声调整值。

可选的，有多种方式可以获取人声调整值，以下给出三种可行的方式：

方式一：从服务器和本地获取人声调整值，可以如下：

如图2所示，步骤201，终端获取本地预先存储的第一人声调整值，并确定第一设备类型。

其中，设备类型指设备的品牌和型号等，如品牌A手机X型号等，第一人声调整值一般是预设的，存储在直播应用程序的安装包中，随直播应用程序的安装包一起安装在终端上，存储在终端中。

终端可以从本地获取预先存储的第一人声调整值，并且通过系统程序，获取终端自身的设备类型(后续可以称为是第一设备类型)。

步骤202，终端获取第一设备类型对应的第二人声调整值。

在实施中，获取第一人声调整值的同时，还可以基于第一设备类型，获取第一设备类型对应的第二人声调整值。

可选的，如图3所示，可以从服务器获取第二人声调整值，相应的处理过程可以如下：

步骤2021，终端向服务器发送人声调整值的获取请求，其中，获取请求中携带有第一设备类型。

在实施中，终端可以生成人声调整值的获取请求，将第一设备类型添加至获取请求中，然后向服务器发送人声调整值的获取请求。

步骤2022，服务器接收终端发送的人声调整值的获取请求。

在实施中，服务器接收到终端发送的人声调整值的获取请求后，可以从中解析到第一设备类型。

步骤2023，服务器根据预先存储的设备类型与人声调整值的对应关系，确定第一设备类型对应的第二人声调整值。

其中，设备类型与人声调整值的对应关系可以预设(后续会描述建立该对应关系的过程)，并且存储至服务器中。

在实施中，服务器可以获取预先存储的设备类型与人声调整值的对应关系，在该对应关系中，查找第一设备类型对应的第二人声调整值。

可选的，获取请求中还携带有终端上安装的直播应用程序的第一版本号，相应的步骤2023的处理可以如下：

服务器根据预先存储的版本号、设备类型和人声调整值的对应关系，确定第一设备类型和应用程序的第一版本号对应的第二人声调整值。

其中，版本号、设备类型和人声调整值的对应关系可以预设，并且存储在服务器中。

在实施中，服务器可以从人声调整值的获取请求中，解析得到第一版本号和第一设备类型，然后获取预先存储的版本号、设备类型和人声调整值的对应关系，从中查找第一版本号和第一设备类型共同对应的第二人声调整值。

这样，由于不同的版本号的直播应用程序对应的第二人声调整值不相同，通过直播应用程序的版本号，即可以获取到版本号和设备类型共同的第二人声调整值，可以使获取到的第二人声调整值更准确。

步骤2024，服务器向终端发送第一设备类型对应的第二人声调整值。

在实施中，服务器在确定出第二人声调整值后，可以向终端发送确定出的第二人声调整值。该第二人声调整值与第一设备类型相对应。

可选的，服务器向终端发送第一设备类型和第一版本号对应的第二人声调整值。

在实施中，服务器在确定出第二人声调整值后，可以向终端发送确定出的第二人声调整值。该第二人声调整值与第一版本号、第一设备类型相对应。

步骤2025，终端接收服务器发送的第一设备类型对应的第二人声调整值。

可选的，服务器向终端发送第一设备类型和应用程序的第一版本号对应的第二人声调整值。

步骤203，终端将第一人声调整值和第二人声调整值之和，确定为人声数据对应的人声调整值。

在实施中，终端可以计算第一人声调整值和第二人声调整值之和，将其确定为人声数据对应的人声调整值，后续可以该人声调整值调整人声数据。例如，第一人声调整值为3，第二人声调整值为-2，第一人声调整值和第二人声调整值之和为1。

需要说明的是，从终端本地和服务器共同获取人声调整值这种方式，由于在确定的人声调整值不准确时，可以通过调整服务器侧的人声调整值，来调整人声数据对应的人声调整值，所以可以使人声数据对应的人声调整值更准确。而且由于终端本地也存储有一部分人声调整值，在获取不到服务器的人声调整值时(如网络延迟、服务器故障等)，可以直接使用终端本地存储的人声调整值对人声数据进行调整，所以可以尽可能的对人声数据进行调整。

方式二：从服务器获取人声调整值，可以如下：

终端向服务器发送人声调整值的获取请求，其中，获取请求中携带有第一设备类型。服务器接收终端发送的人声调整值的获取请求。服务器根据预先存储的设备类型与人声调整值的对应关系，确定第一设备类型对应的人声调整值。服务器向终端发送第一设备类型对应的人声调整值。终端接收服务器发送的第一设备类型对应的人声调整值。

在实施中，终端可以向服务器发送人声调整值的获取请求，并在其中携带第一设备类型。服务器接收到获取请求后，可以解析得到第一设备类型，然后基于预先存储的设备类型与人声调整值的对应关系，从中确定出第一设备类型对应的人声调整值，通知给终端，终端后续可以使用人声调整值对录制的人声数据进行调整。

另外，终端还可以向服务器发送人声调整值的获取请求，并在其中携带第一设备类型和第一版本号。服务器接收到获取请求后，可以解析得到第一设备类型和第一版本号，然后基于预先存储的版本号、设备类型与人声调整值的对应关系，从中确定出第一设备类型和第一版本号对应的人声调整值，通知给终端，终端后续可以使用人声调整值对录制的人声数据进行调整。

方式三：从终端本地获取人声调整值，可以如下：

终端中存储有设备类型与人声调整值的对应关系，可以根据预先存储的设备类型与人声调整值的对应关系，确定第一设备类型对应的人声调整值，将该人声调整值确定为人声数据对应的人声调整值。

另外，终端中存储有版本号、设备类型与人声调整值的对应关系，可以根据预先存储的该对应关系，确定第一设备类型和第一版本号对应的人声调整值，将该人声调整值确定为人声数据对应的人声调整值。

步骤102，终端录制人声数据，并播放伴奏播放指令对应的伴奏数据。

在实施中，终端在接收到伴奏播放指令时，可以首先下载伴奏播放指令对应的伴奏数据至本地，然后可以控制开启终端中的录音器，开始录制人声数据，并且控制开启终端中的播放器，播放伴奏播放指令对应的伴奏数据。

步骤103，终端根据人声调整值，对录制的人声数据中开始录制的音频帧进行丢帧处理。

其中，丢帧指丢弃音频数据中的某些多余的音频帧，在本发明实施例中，主要指丢弃人声数据中多余的音频帧。

在实施中，终端可以根据步骤101中确定出的人声调整值，对录制的人声数据中开始录制的音频帧进行丢帧处理，得到丢帧处理后的人声数据。

可选的，如果获取到的人声调整值在预设数值范围内，则终端根据人声调整值，对录制的人声数据中开始的音频帧进行丢帧处理。

其中，预设数值范围可以预设，并且存储在直播应用程序的安装包中，随直播应用程序的安装包一起安装在终端上，例如，预设数值范围可以是0～50个音频帧。

在实施中，终端在获取到人声数据对应的人声调整值，可以获取预设数值范围，然后判断获取到的人声调整值是否在预设数值范围内，如果在预设数值范围内，则使用获取到的人声调整值，对录制的人声数据中开始的音频帧进行丢帧处理。

这样，在服务器内部出现问题，给终端提供错误的人声调整值时，通过判断获取到的人声调整值是否在预设数值范围内，再去确定是否要进行丢帧处理，可以降低丢帧不准确的概率。

另外，如果获取到的人声调整值不在预设数值范围内，则终端可以不对录制的人声数据进行调整。

可选的，人声调整值可以是需要丢弃的音频帧的数目，相应的步骤103的处理可以如下：

确定录制的人声数据中，开始录制的目标数目个音频帧；对目标数目个音频帧进行丢帧处理。

在实施中，终端获取到的人声调整值为目标数目，终端可以在录制的人声数据中，开始录制的目标数目个音频帧，然后将这目标数目个音频帧删除。将目标数目个音频帧之后的第一个音频帧，确定为录制的人声数据中的第一个音频帧，将这第一个音频帧与伴奏数据中的第一个音频帧进行混音处理。

可选的，人声调整值可以是需要丢弃的音频帧的总时长(也可以称为是录制时长)，相应的步骤103的处理可以如下：

确定录制的人声数据中，开始录制时目标录制时长内录制的音频帧；对确定出的音频帧进行丢帧处理。

在实施中，终端获取到的人声调整值为目标录制时长，可以获取预先存储的每个音频帧的时长，然后使用目标录制时长除以每个音频帧的时长，得到丢弃的音频帧的数目。然后终端可以在录制的人声数据中，开始录制时该数目个音频，将确定出的该数目个音频帧删除。将该数目个音频帧之后的第一个音频帧，确定为录制的人声数据中的第一个音频帧，将这第一个音频帧与伴奏数据中的第一个音频帧进行混音处理。

需要说明的是，上述步骤103的两种处理方式中，以录音器为基准，一般是播放器有延迟，将录音器开始录制的多个音频帧删除后，即删除了环境噪声的音频帧，所以可以尽可能使人声数据的第一个音频帧与伴奏数据的第一个音频帧相匹配。

步骤104，终端将丢帧处理后的人声数据与伴奏数据进行混音处理，得到录制的音频数据。

在实施中，终端可以将丢帧处理后的人声数据与伴奏数据进行混音处理，得到录制的音频数据，然后将录制的音频数据发送至服务器。服务器可以确定直播间中的除主播账户之外的其它账户，然后将接收到的音频数据，发送至其它账户的登录终端。登录终端接收到后，可以进行播放。

需要说明的是，由于丢帧处理后的人声数据与伴奏数据的时间戳完全对应，所以可以直接时间戳相同的人声数据中的音频帧与伴奏数据中的音频帧进行混音处理。或者是，每当录制一个人声数据中的音频帧，就与当前还未混音处理的一个伴奏数据中的音频帧进行混音处理，如图4所示，人声数据中的第一个音频帧与伴奏数据中的第一个音频帧混音，人声数据中的第二个音频帧与伴奏数据中的第二个音频帧混音，依此类推。

另外，在本发明实施例中，在终端未获取到第一设备类型对应的第二人声调整值时，一般是由于服务器中未存储有第一设备类型对应的人声调整值，这时，终端可以请求服务器建立第一设备类型与第二人声调整值的对应关系，相应的处理可以如下：

如果未获取到第一设备类型对应的第二人声调整值，则向服务器发送人声调整值的添加请求，其中，添加请求中携带有第一设备类型。

在实施中，在终端向服务器发送人生调整值的获取请求之后，如果终端在预设时长内(预设时长可以由技术人员预设，如5秒)未获取到第二人声调整值，终端可以生成人声调整值的添加请求，并在添加请求中携带第一设备类型，向服务器发送该添加请求。

服务器接收到添加请求后，可以解析得到第一设备类型，重新查看设备类型与人声调整值的对应关系，如果确定该对应关系中不包括第一设备类型，可以向技术人员所使用的终端，发送添加第一设备类型对应的人声调整值的请求。

或者，服务器接收到添加请求后，可以解析得到第一设备类型，重新查看版本号、设备类型与人声调整值的对应关系，如果确定该对应关系中不包括第一设备类型，可以向技术人员所使用的终端，发送添加第一设备类型对应的人声调整值的请求。

另外，本发明实施例中，如图5所示，还提供了服务器更改人声调整值的处理过程，相应的处理可以如下：

步骤501，服务器接收人声调整值的更改请求。

在实施中，在直播应用程序上线后，如果管理人员想要对服务器中存储的设备类型与人声调整值的对应关系进行调整，可以打开管理终端中直播应用程序的管理程序，在管理程序的主界面中显示有更改人声调整值选项。管理人员可以点击更改人声调整值选项，管理终端则会检测到该选项的指令，并显示设备类型选择框、对应的人声调整值的选择框、以及对应的更改标识，管理人员可以选择要更改的设备类型(后续可以称为是第二设备类型)以及对应的人声调整(第三人声调整值)、以及更改标识。然后点击确定按键，管理终端则会检测到确定按键的点击指令，生成人声调整值的更改请求，并且在该更改请求中携带更改标识、第二设备类型和第二设备类型对应的第三人声调整值。

然后管理终端向服务器发送人声调整值的更改请求，服务器接收到该更改请求后，可以从其中解析得到更改标识、第二设备类型和第二设备类型对应的第三人声调整值。

可选的，如果是更改第二设备类型对应的第三人声调整值，上述选择的第三人声调整值是重新输入的，与服务器当前存储的第二设备类型对应的人声调整值不相同。如果是删除第二设备类型、以及对应的第三人声调整值，则第三人声调整值与服务器当前存储的第二设备类型对应的人声调整值相同，如果是插入第二设备类型、以及对应的第三人声调整值，说明服务器当前未存储有第二设备类型、以及对应的第三人声调整值。

步骤502，服务器根据更改标识、第二设备类型和第三人声调整值，对设备类型与人声调整值的对应关系进行更改处理。

在实施中，服务器获取到更改标识、第二设备类型和第二设备类型对应的第三人声调整值后，可以基于更改标识、第二设备类型和第三人声调整值，对当前存储的设备类型与人声调整值的对应关系进行更改处理。

可选的，对应不同的更改标识，有不同的处理方式相应的步骤502的处理可以如下：

如果更改标识为删除标识，则在设备类型与人声调整值的对应关系中，对应删除第二设备类型和第三人声调整值；如果更改标识为插入标识，则在设备类型与人声调整值的对应关系中，对应插入第二设备类型和第三人声调整值；如果更改标识为替换标识，则在设备类型与人声调整值的对应关系中，将第二设备类型的人声调整值替换为第三人声调整值。

在实施中，服务器存储有各种更改标识对应的处理方式，如果更改标识为删除标识，则可以在当前存储的设备类型与人声调整值的对应关系中，查找到第二设备类型，删除第二设备类型、以及对应的第三人声调整值。这种情况一般是市场中不存在第二设备类型的终端时发生。

如果更改标识为插入标识，则可以在当前存储的设备类型与人声调整值的对应关系中，对应插入第二设备类型与第三人声调整值。这种情况一般是新上市第二设备类型对应的终端后发生。

如果更改标识为替换标识，则可以在当前存储的设备类型与人声调整值的对应关系中，将第二设备类型对应的人声调整值，替换为第三人声调整值。这种情况一般是当前的人声调整值不能满足人声数据与伴奏数据对应时发生。

这样，可以随时对设备类型与人声调整值的对应关系进行调整。

可选的，人声调整值的更改请求中，还可以携带有第二设备类型和第三人声调整值对应的第二版本号，第二版本号指直播应用程序的版本号，在该过程中管理人员还可以选择应用程序的版本号。相应的步骤502的处理可以如下：

根据更改标识、第二设备类型、第三人声调整值和第二版本号，对版本号、设备类型和人声调整值的对应关系进行更改处理。

在实施中，服务器获取到更改标识、第二设备类型和第二设备类型对应的第三人声调整值、第二版本号后，可以基于更改标识、第二设备类型、第三人声调整值和第二版本号，对当前存储的版本号、设备类型与人声调整值的对应关系进行更改处理。

可选的，对应不同的更改标识，有不同的处理方式相应的处理可以如下：

如果更改标识为删除标识，则在版本号、设备类型和人声调整值的对应关系中，对应删除第二设备类型、第二版本号和第三人声调整值；如果更改标识为插入标识，则在版本号、设备类型和人声调整值的对应关系中，插入第二版本号、第二设备类型和第三人声调整值；如果更改标识为替换标识，则在版本号、设备类型和人声调整值的对应关系中，将第二版本号和第二设备类型对应的人声调整值替换为第三人声调整值。

在实施中，服务器存储有各种更改标识对应的处理方式，如果更改标识为删除标识，则可以在当前存储的版本号、设备类型与人声调整值的对应关系中，查找到第二版本号和第二设备类型，然后删除第二版本号、第二设备类型、以及对应的第三人声调整值。这种情况一般是市场中不存在第二设备类型的终端时发生，或者不存在第二版本号的直播应用程序时发生。

如果更改标识为插入标识，则可以在当前存储的版本号、设备类型与人声调整值的对应关系中，对应插入第二设备类型、第三人声调整值和第二版本号三者，建立起第二设备类型、第三人声调整值和第二版本号的对应关系。这种情况一般是新上市第二设备类型对应的终端后会发生，或者新上市第二版本号的直播应用程序时会发生。

如果更改标识为替换标识，则可以在当前存储的版本号、设备类型与人声调整值的对应关系中，查找到第二版本号和第二设备类型，然后将第二设备类型和第二版本号对应的人声调整值，替换为第三人声调整值。这种情况一般是当前的人声调整值不能满足人声数据与伴奏数据对应时发生。

这样，可以随时对版本号、设备类型与人声调整值的对应关系进行调整。

另外，本发明实施例中，还提供了确定第一人声调整值，建立设备类型与人声调整值的对应关系，相应的描述可以如下：

对于设备类型与人声调整值的对应关系中的每个设备类型，可以获取该设备类型下的大量终端，然后分别使用每个终端的播放器播放音频数据，并使用录制器录制播放的音频数据，计算录制到音频数据和开始播放音频数据的时间差，即为播放器的音频延迟，这样，可以得到每个终端的音频延迟。然后计算该设备类型下的各终端的音频延迟的平均值，将平均值与各终端的音频延迟分别取差值，将差值的绝对值大于预设数值的音频延迟删除，这样对于每种设备类型，都能确定出至少一个音频延迟。将所有设备类型下的音频延迟，求平均值，该平均值为第一人声调整值。并且对于每种设备类型下的音频延迟，求平均值，对于某个设备类型，在设备类型与人声调整值的对应关系中，人声调整值为该设备类型对应的音频延迟的平均值与第一人声调整值的差值。

这样，就可以确定出第一人声调整值，以及设备类型与人声调整值的对应关系。

另外，建立版本号、设备类型与人声调整值的对应关系的过程，与建立设备类型与人声调整值的对应关系的过程类似，此处不再赘述。

另外，上述实施例中，是以直播应用程序为例进行说明，在音频录制应用程序为K歌应用程序时，只不过录制的音频数据是最后一起上传至服务器的，其它处理与直播应用程序基本相同。

另外，还需要说明的是，后续在录音器开启有录制延迟时，也就是播放器先播放伴奏数据，录音器之后才能录制到人声数据，这样，相当于有一部分伴奏数据没有对应人声数据，也可以使用本发明实施例的方式，只不过获取到的人声数据对应的人声调整值是一个“负数”，在人声数据的开始部分补入“负数”的绝对值的音频帧，使录音器开启后录制的人声数据与伴奏数据相匹配。

例如，录音器延迟了10个音频帧，人声调整值为“-10”，应该是伴奏数据中第11个音频帧与录制的人声数据中第1个音频帧对应，然而在混音时，会将伴奏数据中第1个音频帧与录制的人声数据中第1个音频帧进行混音处理，导致伴奏数据和人声数据不匹配。如果在人声数据中的开始部分补入10个音频帧，这样之前录制的人声数据中第1个音频帧，就变成了第11个音频帧，人声数据中第11个音频帧与伴奏数据中第11个音频帧相匹配，虽然人声数据中前10个音频帧是空白帧，但是可以保证后面的人声数据与伴奏数据相匹配。

基于相同的技术构思，本发明实施例还提供了一种录制音频数据的终端，如图6所示，该终端包括：

接收模块610，用于接收伴奏播放指令；

获取模块620，用于获取人声数据对应的人声调整值；

录制模块630，用于录制人声数据；

播放模块640，用于播放所述伴奏播放指令对应的伴奏数据；

调整模块650，用于根据所述人声调整值，对录制的人声数据中开始录制的音频帧进行丢帧处理；

混音模块660，用于将丢帧处理后的人声数据与伴奏数据进行混音处理，得到录制的音频数据。

可选的，所述获取模块620，用于获取本地预先存储的第一人声调整值，并确定第一设备类型，其中，所述第一设备类型为执行所述终端的设备的设备类型；获取所述第一设备类型对应的第二人声调整值；将所述第一人声调整值和所述第二人声调整值之和，确定为所述人声数据对应的人声调整值。

可选的，如图7所示，所述获取模块620包括：

发送子模块621，用于向服务器发送人声调整值的获取请求，其中，所述获取请求中携带有所述第一设备类型；

接收子模块622，用于接收服务器发送的所述第一设备类型对应的第二人声调整值。

所述接收子模块622，用于：

可选的，所述调整模块650，用于：

可选的，所述人声调整值为音频帧的目标数目；

所述调整模块650，用于：

确定录制的人声数据中，开始录制的目标数目个音频帧；

对所述目标数目个音频帧进行丢帧处理。

可选的，所述人声调整值为目标录制时长；

所述调整模块650，用于：

对确定出的音频帧进行丢帧处理。

可选的，如图8所示，所述终端还包括：

发送模块670，用于：

需要说明的是：上述实施例提供的录制音频数据的终端在录制音频数据时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将终端的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的录制音频数据的终端与录制音频数据的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

基于相同的技术构思，本发明实施例还提供了一种录制音频数据的服务器，如图9所示，该服务器包括：

接收模块910，用于接收终端发送的人声调整值的获取请求，其中，所述获取请求中携带有所述终端的第一设备类型；

确定模块920，用于根据预先存储的设备类型与人声调整值的对应关系，确定所述第一设备类型对应的第二人声调整值；

发送模块930，用于向所述终端发送所述第一设备类型对应的第二人声调整值。

可选的，所述获取请求中还携带有所述终端上安装的应用程序的第一版本号；

所述确定模块920，用于

根据预先存储的版本号、设备类型和人声调整值的对应关系，确定所述第一设备类型和应用程序的第一版本号对应的第二人声调整值；

所述发送模块930，用于：

向所述终端发送所述第一设备类型和应用程序的第一版本号对应的第二人声调整值。

可选的，所述接收模块910，还用于：

如图10所示，所述服务器还包括：

更改模块940，用于根据所述更改标识、所述第二设备类型和所述第三人声调整值，对所述设备类型与人声调整值的对应关系进行更改处理。

可选的，所述更改模块940，用于：

所述更改模块940，用于：

可选的，所述更改模块940，用于：

需要说明的是：上述实施例提供的录制音频数据的服务器在录制音频数据时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将服务器的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的录制音频数据的服务器与录制音频数据的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图11示出了本发明一个示例性实施例提供的终端1100的结构框图。该终端1100可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio LayerIII，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group AudioLayer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1100还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1100包括有：处理器1101和存储器1102。

处理器1101可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1101可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1101也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1101可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1101还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1102可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1102还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1102中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1101所执行以实现本申请中方法实施例提供的录制音频数据的方法。

在一些实施例中，终端1100还可选包括有：外围设备接口1103和至少一个外围设备。处理器1101、存储器1102和外围设备接口1103之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1103相连。具体地，外围设备包括：射频电路1104、触摸显示屏1105、摄像头1106、音频电路1107、定位组件1108和电源1109中的至少一种。

外围设备接口1103可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1101和存储器1102。在一些实施例中，处理器1101、存储器1102和外围设备接口1103被集成在同一芯片或电路板上；在一些其他实施例中，处理器1101、存储器1102和外围设备接口1103中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1104用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1104通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1104将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1104包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1104可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1104还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1105用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1105是触摸显示屏时，显示屏1105还具有采集在显示屏1105的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1101进行处理。此时，显示屏1105还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1105可以为一个，设置终端1100的前面板；在另一些实施例中，显示屏1105可以为至少两个，分别设置在终端1100的不同表面或呈折叠设计；在再一些实施例中，显示屏1105可以是柔性显示屏，设置在终端1100的弯曲表面上或折叠面上。甚至，显示屏1105还可以设置成非矩形的不规则图形，也即异形屏。显示屏1105可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件1106用于采集图像或视频。可选地，摄像头组件1106包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1106还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1107可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1101进行处理，或者输入至射频电路1104以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1100的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1101或射频电路1104的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1107还可以包括耳机插孔。

定位组件1108用于定位终端1100的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件1108可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源1109用于为终端1100中的各个组件进行供电。电源1109可以是交流电、直流电、一次性电池或可充电电池。当电源1109包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1100还包括有一个或多个传感器1110。该一个或多个传感器1110包括但不限于：加速度传感器1111、陀螺仪传感器1112、压力传感器1113、指纹传感器1114、光学传感器1115以及接近传感器1116。

加速度传感器1111可以检测以终端1100建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1111可以用于检测重力加速度在三个坐标轴上的分量。处理器1101可以根据加速度传感器1111采集的重力加速度信号，控制触摸显示屏1105以横向视图或纵向视图进行用户界面的显示。加速度传感器1111还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1112可以检测终端1100的机体方向及转动角度，陀螺仪传感器1112可以与加速度传感器1111协同采集用户对终端1100的3D动作。处理器1101根据陀螺仪传感器1112采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1113可以设置在终端1100的侧边框和/或触摸显示屏1105的下层。当压力传感器1113设置在终端1100的侧边框时，可以检测用户对终端1100的握持信号，由处理器1101根据压力传感器1113采集的握持信号进行左右手识别或快捷操作。当压力传感器1113设置在触摸显示屏1105的下层时，由处理器1101根据用户对触摸显示屏1105的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1114用于采集用户的指纹，由处理器1101根据指纹传感器1114采集到的指纹识别用户的身份，或者，由指纹传感器1114根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1101授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1114可以被设置终端1100的正面、背面或侧面。当终端1100上设置有物理按键或厂商Logo时，指纹传感器1114可以与物理按键或厂商Logo集成在一起。

光学传感器1115用于采集环境光强度。在一个实施例中，处理器1101可以根据光学传感器1115采集的环境光强度，控制触摸显示屏1105的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏1105的显示亮度；当环境光强度较低时，调低触摸显示屏1105的显示亮度。在另一个实施例中，处理器1101还可以根据光学传感器1115采集的环境光强度，动态调整摄像头组件1106的拍摄参数。

接近传感器1116，也称距离传感器，通常设置在终端1100的前面板。接近传感器1116用于采集用户与终端1100的正面之间的距离。在一个实施例中，当接近传感器1116检测到用户与终端1100的正面之间的距离逐渐变小时，由处理器1101控制触摸显示屏1105从亮屏状态切换为息屏状态；当接近传感器1116检测到用户与终端1100的正面之间的距离逐渐变大时，由处理器1101控制触摸显示屏1105从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图11中示出的结构并不构成对终端1100的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图12是本发明实施例提供的一种计算机设备的结构示意图，该计算机设备1200可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)1201和一个或一个以上的存储器1202，其中，所述存储器1202中存储有至少一条指令，所述至少一条指令由所述处理器1201加载并执行以实现上述录制音频数据的方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种录制音频数据的方法，其特征在于，所述方法包括：

接收伴奏播放指令，获取人声数据对应的人声调整值；

录制人声数据，并播放所述伴奏播放指令对应的伴奏数据；

将丢帧处理后的人声数据与所述伴奏数据进行混音处理，得到录制的音频数据；

所述获取人声数据对应的人声调整值，包括：

获取所述第一设备类型对应的第二人声调整值；

2.根据权利要求1所述的方法，其特征在于，所述获取所述第一设备类型对应的第二人声调整值，包括：

接收所述服务器发送的所述第一设备类型对应的第二人声调整值。

3.根据权利要求2所述的方法，其特征在于，所述获取请求中还携带有所述伴奏数据所属应用程序的第一版本号；

所述接收所述服务器发送的所述第一设备类型对应的第二人声调整值，包括：

4.根据权利要求1至3任一所述的方法，其特征在于，所述根据所述人声调整值，对录制的人声数据中开始的音频帧进行丢帧处理，包括：

5.根据权利要求1至3任一所述的方法，其特征在于，所述人声调整值为音频帧的目标数目；

确定录制的人声数据中，开始录制的目标数目个音频帧；

对所述目标数目个音频帧进行丢帧处理。

6.根据权利要求1至3任一所述的方法，其特征在于，所述人声调整值为目标录制时长；

对确定出的音频帧进行丢帧处理。

7.根据权利要求2所述的方法，其特征在于，所述方法还包括：

如果未获取到所述第一设备类型对应的第二人声调整值，则向所述服务器发送人声调整值的添加请求，其中，所述添加请求中携带有所述第一设备类型。

8.一种录制音频数据的方法，其特征在于，所述方法包括：

向所述终端发送所述第一设备类型对应的第二人声调整值，所述第二人声调整值用于所述终端根据所述人声调整值，对录制的人声数据中开始录制的音频帧进行丢帧处理；将丢帧处理后的人声数据与伴奏数据进行混音处理，得到录制的音频数据。

9.根据权利要求8所述的方法，其特征在于，所述获取请求中还携带有所述终端中生成所述获取请求的应用程序的第一版本号；

10.根据权利要求8所述的方法，其特征在于，所述方法还包括：

11.根据权利要求10所述的方法，其特征在于，所述根据所述更改标识、所述第二设备类型和所述第三人声调整值，对所述设备类型与人声调整值的对应关系进行更改处理，包括：

12.根据权利要求10所述的方法，其特征在于，所述更改请求中还携带有所述第二设备类型和所述第三人声调整值对应的第二版本号；

13.根据权利要求12所述的方法，其特征在于，所述根据所述更改标识、所述第二设备类型、所述第三人声调整值和所述第二版本号，对所述版本号、设备类型和人声调整值的对应关系进行更改处理，包括：

14.一种录制音频数据的终端，其特征在于，所述终端包括：

接收模块，用于接收伴奏播放指令；

获取模块，用于获取人声数据对应的人声调整值；

录制模块，用于录制人声数据；

播放模块，用于播放所述伴奏播放指令对应的伴奏数据；

混音模块，用于将丢帧处理后的人声数据与伴奏数据进行混音处理，得到录制的音频数据；所述获取模块，用于：

15.根据权利要求14所述的终端，其特征在于，所述获取模块包括：

接收子模块，用于接收所述服务器发送的所述第一设备类型对应的第二人声调整值。

16.根据权利要求15所述的终端，其特征在于，所述获取请求中还携带有所述伴奏数据所属应用程序的第一版本号；

所述接收子模块，用于：

17.根据权利要求14至16任一所述的终端，其特征在于，所述调整模块，用于：

18.根据权利要求14至16任一所述的终端，其特征在于，所述人声调整值为音频帧的目标数目；

所述调整模块，用于：

确定录制的人声数据中，开始录制的目标数目个音频帧；

对所述目标数目个音频帧进行丢帧处理。

19.根据权利要求14至16任一所述的终端，其特征在于，所述人声调整值为目标录制时长；

所述调整模块，用于：

对确定出的音频帧进行丢帧处理。

20.根据权利要求15所述的终端，其特征在于，所述终端还包括：

发送模块，用于：

21.一种录制音频数据的服务器，其特征在于，所述服务器包括：

发送模块，用于向所述终端发送所述第一设备类型对应的第二人声调整值，所述第二人声调整值用于所述终端根据所述人声调整值，对录制的人声数据中开始录制的音频帧进行丢帧处理；将丢帧处理后的人声数据与伴奏数据进行混音处理，得到录制的音频数据。

22.根据权利要求21所述的服务器，其特征在于，所述获取请求中还携带有所述终端中生成所述获取请求的应用程序的第一版本号；

所述确定模块，用于：

所述发送模块，用于：

23.根据权利要求21所述的服务器，其特征在于，所述接收模块，还用于：

所述服务器还包括：

24.根据权利要求23所述的服务器，其特征在于，所述更改模块，用于：

25.根据权利要求23所述的服务器，其特征在于，所述更改请求中还携带有所述第二设备类型和所述第三人声调整值对应的第二版本号；

所述更改模块，用于：

26.根据权利要求25所述的服务器，其特征在于，所述更改模块，用于：

27.一种录制音频数据的系统，其特征在于，所述系统包括终端和服务器：

所述终端，如所述权利要求14-20中任一项权利要求所述的终端；

所述服务器，如所述权利要求21-26中任一项权利要求所述的服务器。