CN106531177B

CN106531177B - 一种音频处理的方法、移动终端以及系统

Info

Publication number: CN106531177B
Application number: CN201611116283.1A
Authority: CN
Inventors: 唐永春
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-12-07
Filing date: 2016-12-07
Publication date: 2020-08-11
Anticipated expiration: 2036-12-07
Also published as: CN106531177A

Abstract

本发明实施例公开了一种音频处理的方法，包括：通过语音输入设备接收第一音频信息；从第一移动终端的本地音频集合中获取第二音频信息，其中，所述第二音频信息为根据用户触发的音频选择指令所确定的；将所述第一音频信息与所述第二音频信息合成为第一混音音频信息；向至少一个第二移动终端发送所述第一混音音频信息。本发明还提供一种移动终端以及音频处理的系统。本发明实施例中移动终端可以直接获取已经下载好的第二音频信息，并与当前输入的第一音频信息进行混音，从而实现了在移动终端保持系统权限的情况下，仍可以进行音频信息的调取，以此提升方案的实用性和可行性。

Description

一种音频处理的方法、移动终端以及系统

技术领域

本发明涉及互联网技术领域，尤其涉及一种音频处理的方法、移动终端以及系统。

背景技术

随着互联网的不断发展，越来越多的用户开始热衷于与其他用户分享自己的乐趣。其中，游戏直播成为了目前最热门的一种分享方式之一，游戏直播方可以一边进行游戏，一边在游戏过程中和同一游戏频道内的用户进行语音直播互动。

为了增加游戏直播的趣味性，一些直播平台还可以通过调用第三方媒体播放器来获取音乐数据，然后跟麦克风采集到的语音数据进行混音，将混音后得到的音频发送给其他听众。

然而，现有的混音方式在个人电脑(英文全称：Personal Computer，英文缩写：PC)端可以实现，但是在移动端则难以实现，这是因为出于移动端安全性的考虑，通常情况下不支持跨进程调用，如果打破系统权限实现跨进程调用，则会使得移动端面临更严重的安全问题。

发明内容

本发明实施例提供了一种音频处理的方法、移动终端以及系统，移动终端可以直接获取已经下载好的第二音频信息，并与当前输入的第一音频信息进行混音，从而实现了在移动终端保持系统权限的情况下，仍可以进行音频信息的调取，以此提升方案的实用性和可行性。

有鉴于此，本发明第一方面提供了一种音频处理的方法，包括：

通过语音输入设备接收第一音频信息；

从第一移动终端的本地音频集合中获取第二音频信息，其中，所述第二音频信息为根据用户触发的音频选择指令所确定的；

将所述第一音频信息与所述第二音频信息合成为第一混音音频信息；

向至少一个第二移动终端发送所述第一混音音频信息。

本发明第二方面提供了一种音频处理的方法，包括：

接收第一移动终端发送的第一混音音频信息，所述第一混音音频信息为第一音频信息与第二音频信息合成的，所述第一音频信息为所述第一移动终端通过语音输入设备接收的，所述第二音频信息为从所述第一移动终端本地音频集合中获取的；

播放所述第一混音音频信息。

本发明第三方面提供了一种移动终端，包括：

第一接收模块，用于通过语音输入设备接收第一音频信息；

获取模块，用于从第一移动终端的本地音频集合中获取第二音频信息，其中，所述第二音频信息为根据用户触发的音频选择指令所确定的；

第一合成模块，用于将所述第一接收模块接收的所述第一音频信息与所述获取模块获取的所述第二音频信息合成为第一混音音频信息；

发送模块，用于向至少一个第二移动终端发送所述第一合成模块合成的所述第一混音音频信息。

本发明第四方面提供了一种移动终端，包括：

第一接收模块，用于接收第一移动终端发送的第一混音音频信息，所述第一混音音频信息为第一音频信息与第二音频信息合成的，所述第一音频信息为所述第一移动终端通过语音输入设备接收的，所述第二音频信息为从所述第一移动终端本地音频集合中获取的；

播放模块，用于播放所述第一接收模块接收的所述第一混音音频信息。

本发明第五方面提供了一音频处理的系统，所述系统包括第一移动终端以及第二移动终端；

所述第一移动终端通过语音输入设备接收第一音频信息；

所述第一移动终端从所述第一移动终端的本地音频集合中获取第二音频信息，其中，所述第二音频信息为根据用户触发的音频选择指令所确定的；

所述第一移动终端将所述第一音频信息与所述第二音频信息合成为第一混音音频信息；

所述第一移动终端向至少一个第二移动终端发送所述第一混音音频信息；

所述第二移动终端接收第一移动终端发送的第一混音音频信息；

所述第二移动终端播放所述第一混音音频信息。

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明实施例中，提供了一种音频处理的方法，具体为第一移动终端通过语音输入设备接收第一音频信息，并从第一移动终端的本地音频集合中获取第二音频信息，其中，第二音频信息为根据用户触发的音频选择指令所确定的，然后将第一音频信息与第二音频信息合成为第一混音音频信息，最后可以向至少一个第二移动终端发送该第一混音音频信息。通过上述方式，移动终端无需调用第三方媒体播放器来获取相关的第二音频信息，而是直接获取已经下载好的第二音频信息，并与当前输入的第一音频信息进行混音，从而实现了在移动终端保持系统权限的情况下，仍可以进行音频信息的调取，以此提升方案的实用性和可行性。

附图说明

图1为本发明实施例中音频处理的系统架构图；

图2为本发明实施例中音频处理的方法一个交互实施例示意图；

图3为本发明实施例中音频处理的方法一个实施例示意图；

图4为本发明实施例中语音直播采集端的语音数据处理流程示意图；

图5为本发明实施例中音频处理的方法另一个实施例示意图；

图6为本发明实施例中语音直播播放端的语音数据处理流程示意图；

图7为应用场景中音频处理的流程示意图；

图8为本发明实施例中第一移动终端一个实施例示意图；

图9为本发明实施例中第一移动终端另一个实施例示意图；

图10为本发明实施例中第一移动终端另一个实施例示意图；

图11为本发明实施例中第一移动终端另一个实施例示意图；

图12为本发明实施例中第一移动终端另一个实施例示意图；

图13为本发明实施例中第二移动终端一个实施例示意图；

图14为本发明实施例中第二移动终端另一个实施例示意图；

图15为本发明实施例中第二移动终端另一个实施例示意图；

图16为本发明实施例中第一移动终端一个实施例示意图；

图17为本发明实施例中第二移动终端一个实施例示意图；

图18为本发明实施例中音频处理的系统一个实施例示意图。

具体实施方式

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本发明应用于音频处理的系统，请参阅图1，图1为本发明实施例中音频处理的系统架构图，如图1所示，本发明主要应用于移动终端进行交互式应用直播的过程，其中，交互式应用具体可以是指游戏。一般通过游戏主播在某个游戏区服房间中，跟同区服房间的玩家一起交流来调动玩家的积极性。这个过程中，游戏主播可以通过麦克风采集的语音与自己添加的音乐背景进行结合，然后与听众进行交流互动。

主播在游戏中可以选择打开或者关闭麦克风来选择是否采集实时语音数据，发送给其它玩家听众,与玩家进行语音交互。主播在进行语音交互的过程中可以选择播放或者关闭背景音乐按钮，来选择是否向听众播放背景音乐，若选择播放背景音乐，则会将背景音乐和主播麦克风采集的语音一起发给听众，若选择不播放背景音乐，则只有主播麦克风的声音发送听从端。其中，麦克风数据与背景音乐的数据和接口是独立的，主播可选择播放其中一路、或者两路语音。方便主播根据需要和场景进行选择。

为了便于理解，请参阅图2，图2为本发明实施例中音频处理的方法一个交互实施例示意图，如图所示，具体为：

步骤101中，第一移动终端首先通过麦克风采集第一音频信息，然后通过用户选择的本地音频获取到相应的第二音频信息；

步骤102中，第一移动终端将第一音频信息和第二音频信息进行音轨合成，得到第一混音音频信息；

步骤103中，第一移动终端向至少一个第二移动终端发送第一混音音频信息，其中，第一移动终端主要为主播方使用的终端设备，至少一个第二移动终端为听众所使用的终端设备；

步骤104中，听众通过各自使用的第二移动终端播放第一混音音频信息；

步骤105中，当出现听众与主播互动的情况时，听众还可以通过第二移动终端向第一移动终端发送第三音频信息，第三音频信息为听众的语音信息；

步骤106中，在第一移动终端侧，将收到的第三音频信息与选择好的第二音频信息进行合成，得到第二混音音频信息；

步骤107中，第一移动终端通过扬声器播放第二混音音频信息。

下面将从第一移动终端的角度，对本发明中音频处理的方法进行介绍，请参阅图3，本发明实施例中远程调试的方法一个实施例包括：

201、通过语音输入设备接收第一音频信息；

本实施例中，第一移动终端通过语音输入设备接收第一音频信息。其中，第一移动终端为主播方采用的移动终端，语音输入设备可以直接把声音和语言转换成处理系统能够识别的代码输入，语音输入设备具体可以是麦克风。而第一音频信息则是主播方通过麦克风输入的语音信息，例如语音解说等。

202、从第一移动终端的本地音频集合中获取第二音频信息，其中，第二音频信息为根据用户触发的音频选择指令所确定的；

本实施例中，第一移动终端接收用户触发的音频选择指令，然后从本地音频集合中选择指令对应的第二音频信息，需要说明的是，这里的第二音频信息是已经下载好的音频文件，具体可以是音乐文件，且对音乐文件的格式不进行限定。

203、将第一音频信息与第二音频信息合成为第一混音音频信息；

本实施例中，第一移动终端将第一音频信息与第二音频信息进行合成，换言之，就是主播方可以在正在使用的第一移动终端中，将语音信息和音乐文件进行合成，得到第一混音信息信息。

可以理解的是，将两路音频合成的过程可以称为混音，混音是把多种来源的声音整合至一个立体音轨或单音音轨中。这些原始声音信号，来源可能分别来自不同的乐器、人声或管弦乐。在混音的过程中，第一移动终端会将每一个原始信号的频率、动态、音质、定位、残响和声场单独进行调整，让各音轨最佳化，之后再叠加于最终成品上。

204、向至少一个第二移动终端发送第一混音音频信息。

本实施例中，第一移动终端将合成后的第一混音音频信息，通过网络转发给至少一个第二移动终端，其中，至少一个第二移动终端为听众所使用的移动终端，收到该第一混音音频信息后，第二移动终端可以通过扬声器或者耳机等输出设备播放第一混音音频信息。

可选地，在上述图3对应的实施例的基础上，本发明实施例提供的音频处理的方法第一个可选实施例中，将第一音频信息与第二音频信息合成为第一混音音频信息之前，还可以包括：

根据预设的采样率对第一音频信息进行重采样处理；

根据预设的采样率对第二音频信息进行重采样处理；

将第一音频信息与第二音频信息合成为第一混音音频信息，可以包括：

将经过重采样处理后的第一音频信息与第二音频信息合成为第一混音音频信息，其中，第一混音音频信息具有预设的采样率。

本实施例中，第一移动终端在合成第一混音音频信息之前，还需要对第一音频信息和第二音频信息进行重采样处理，得到具有预设的采样率第一音频信息和第二音频信息。

重采样的目的是根据一类象元的信息内插出另一类象元信息的过程。频率对应于时间轴线，振幅对应于电平轴线，波是无限光滑的，弦线可以看成由无数点组成，由于存储空间是相对有限的，数字编码过程中需要对弦线的点进行采样。采样的过程就是抽取某点的频率值，很显然，在一秒中内抽取的点越多，获取得频率信息更丰富，为了复原波形，一次振动中必须有2个点的采样，人耳能够感觉到的最高频率约为20千赫兹(英文全称：kilohertz，英文缩写：kHz)，因此要满足人耳的听觉要求，则需要至少每秒进行40千次采样，用40kHz表达，这个40kHz就是采样率。本发明中的采样率可以设置为48kHz，在实际应用中，还可以设置为其他的采样值，此处仅为一个示意，并不应理解为对本方案的限定。

其次，本发明实施例中，移动终端还可以对获取到的第一音频信息和第二音频信息进行重采样处理，从而得到具有一致采用率的第一混音音频。通过上述方式，在对音频信息进行重采样的过程可以提升混音音频的分辨率，使得输出的混音音频具有较高的音质，从而令听众收听到更清晰的声音，以此提升方案的实用性。

可选地，在上述图3对应的实施例的基础上，本发明实施例提供的音频处理的方法第二个可选实施例中，通过语音输入设备接收第一音频信息之后，还可以包括：

采用预置语音处理方式对第一音频信息进行语音处理，其中，预置语音处理方式包括降低噪声、消除回声以及自动增益控制中的至少一种。

本实施例中，第一移动终端通过语音输入设备接收第一音频信息之后，还可以对第一音频信息进行语音处理，例如降低噪声、消除回声以及自动增益中的至少一种。

具体地，降低噪声又称降噪量，降低噪声的程度用分贝数表示。其中，降低噪声的方式也有多种，可以在安装电路元器件的时候进行合理布局，使得回路尽可能短，也可以通过电路器件的调节来降低噪声。

消除回声的基本原理就是用一个人为干预的信号波，去消除通讯过程中产生的回音信号，同时保留其它正常的语音信号，以达到通讯的正常使用。目前各品牌回音消除器产品的方案，基本都是在会场声源的输出端，同步获取一个音频信号，对此信号做一定延时的位移加上反相，同时根据使用条件的不同，将该信号的幅度放大到“二次声源”平均的幅度值范围。处理后的信号与会场声源输入端的信号进行逻辑加的处理，从而抵消回音信号。会场其它的语音信号，因为没有抵消信号，所以正常输入系统。

自动增益控制是限幅输出的一种，利用线性放大和压缩放大的有效组合对助昕器的输出信号进行调整。当弱信号输入时，线性放大电路工作，保证输出信号的强度。当输入信号达到一定强度时，启动压缩放大电路，使输出幅度降低。也就是说，自动增益控制功能可以通过改变输入输出压缩比例自动控制增益的幅度。

其次，本发明实施例中，移动终端可以对从麦克风输入的第一音频信息进行语音处理，从而提升第一音频信息的音质，使得最后输出的第一混音信息也具有较好播放效果，以此增强方案的实用性。

可选地，在上述图3、图3对应的第一种或第二种实施例的基础上，本发明实施例提供的音频处理的方法第三个可选实施例中，将第一音频信息与第二音频信息合成为第一混音音频信息之后，还可以包括：

按照预设音频格式对第一混音音频信息进行编码；

对编码后的第一混音音频信息进行封装处理，并得到音频数据包；

向至少一个第二移动终端发送第一混音音频信息，可以包括：

向至少一个第二移动终端发送音频数据包。

本实施例中，将说明第一移动终端如何对第一混音音频信息并转发给至少一个第二移动终端的。

具体地，请参阅图4，图4为本发明实施例中语音直播采集端的语音数据处理流程示意图，如图所示，步骤301中，第一移动终端通过麦克风采集到语音信息，即第一音频信息；步骤302中，第一移动终端将从麦克风采集到的语音信息进行重采样处理，得到一定采样率的语音信息；进一步地在步骤303中对语音信息还可以进行降噪处理、回声消除处理以及自动增益控制处理等；步骤304中，对经过语音处理后的语音信息按照指定格式进行编码，编码是信息从一种形式或格式转换为另一种形式的过程，用预先规定的方法将文字、数字或其它对象编成数码，或将信息或者数据转换成规定的电脉冲信号；再在步骤305中对编码后的语音信息进行组包，组包就是按照自己制定的协议组装数据包，比如某几个字节代表什么意思，最后在步骤306中通过网络发送给直播间内的听众收听，即通过至少一个第二移动终端接收相应的语音数据包。

再次，本发明实施例中，介绍了如何对第一混音音频信息进行处理方式，通过对第一混音音频信息进行编码和封装处理，可以得到音频数据包，直接通过网络向听众发送音频数据包即可，以此保证方案的可行性和可操作性。

可选地，在上述图3对应的实施例的基础上，本发明实施例提供的音频处理的方法第四个可选实施例中，从第一移动终端的本地音频集合中获取第二音频信息之后，还可以包括：

接收至少一个第二移动终端发送的第三音频信息；

将第三音频信息与第二音频信息合成为第二混音音频信息；

播放第二混音音频信息。

本实施例中，当用户从第一移动终端的本地音频集合中选择了第二音频信息之后，还可以接收其他听众通过至少一个第二移动终端发送的第三音频信息，其中，第三音频信息主要是听众通过第二移动终端上的语音输入设备输入的语音信息。然后由第一移动终端将第三音频信息与第二音频信息进行合成，得到第二混音音频信息，具体地，第二混音音频信息就是由听众所发出的语音与背景音乐结合的音频。

由第一移动终端通过扬声器或者耳机等输出设备，播放第二混音音频信息。

其次，本发明实施例中，主播方除了可以向听众发送第一混音音频信息，还可以接收听众发送的第三音频信息，然后将合成第二混音音频信息，并播放该第二混音音频信息。通过上述方式，可以使得主播方也能够收听到听众的语音，从而丰富了直播元素和内容，让主播和听众均可以在音乐的氛围下更好的体验交互式应用。

上述实施例是从第一移动终端的角度对本发明中音频处理的方法进行介绍，下面将以第二移动终端的角度对本发明中音频处理的方法进行介绍，请参阅图5，本发明实施例中音频处理的方法一个实施例包括：

401、接收第一移动终端发送的第一混音音频信息，第一混音音频信息为第一音频信息与第二音频信息合成的，第一音频信息为第一移动终端通过语音输入设备接收的，第二音频信息为从第一移动终端本地音频集合中获取的；

本实施例中，第二移动终端接收第一移动终端发送的第一混音音频信息，其中，第一移动终端为主播方采用的移动终端，第二移动终端为听众采用的移动终端。第一移动终端通过语音输入设备接收第一音频信息，即接收语音信息，以外，用户触发的音频选择指令，然后从本地音频集合中选择指令对应的第二音频信息，需要说明的是，这里的第二音频信息是已经下载好的音频文件，具体可以是音乐文件，且对音乐文件的格式不进行限定。

在第一移动终端侧将第一音频信息与第二音频信息进行合成，得到第一混音音频信息，进而将第一混音音频信息发送给至少一个第二移动终端，从而使得各个第二移动终端接收到第一混音音频信息。

402、播放第一混音音频信息。

本实施例中，第二移动终端通过扬声器或者耳机等输出设备，播放该第一混音音频信息。

本发明实施例中，第二移动终端还可以接收第一移动终端发送的第一混音音频信息，其中，第一混音音频信息为第一音频信息与第二音频信息合成的，第一音频信息为第一移动终端通过语音输入设备接收的，而第二音频信息为从第一移动终端本地音频集合中获取的，然后播放第一混音音频信息。通过上述方式，移动终端无需调用第三方媒体播放器来获取相关的第二音频信息，而是直接获取已经下载好的第二音频信息，并与当前输入的第一音频信息进行混音，从而实现了在移动终端保持系统权限的情况下，仍可以进行音频信息的调取，以此提升方案的实用性和可行性。

可选地，在上述图5对应的实施例的基础上，本发明实施例提供的音频处理的方法第一个可选实施例中，接收第一移动终端发送的第一混音音频信息，可以包括：

接收第一移动终端发送的音频数据包，音频数据包为按照预设音频格式对第一混音音频信息进行编码以及封装处理后得到的；

对音频数据包进行解封装处理；

对解析后的音频数据包进行解码处理，并获取到第一混音音频信息。

本实施例中，将说明第二移动终端如何对第一移动终端发送的音频数据包进行处理，并获取到第一混音音频信息。其中，音频数据包具体可以是语音数据包。

具体地，请参阅图6，图6为本发明实施例中语音直播播放端的语音数据处理流程示意图，如图所示，步骤501中，第二移动终端通过网络接收到第一移动终端发送的语音数据包，即音频数据包；步骤502中第二移动终端对接收到的语音数据包进行解封装处理，解封装就是封装的逆过程，拆解协议包，处理包头中的信息，取出净荷中的业务信息，数据封装和解封装是一对逆过程；然后在步骤503中，第二移动终端再将解封装后的语音数据包通过解码器进行解码，解码是用特定方法把数码还原成它所代表的内容或将电脉冲信号、光信号或无线电波等转换成它所代表的信息的过程。最后，步骤504中可以将解码后的语音数据包送入扬声器进行播放。

其次，本发明实施例中，介绍了如何对第一移动终端发送的音频数据包进行处理，即通过对音频数据包的解封装和解码，得到第一混音音频信息，以此保证方案的可行性和可操作性。

可选地，在上述图5对应的实施例的基础上，本发明实施例提供的音频处理的方法第一个可选实施例中，接收第一移动终端发送的第一混音音频信息之后，还可以包括：

通过语音输入设备接收第三音频信息；

向第一移动终端发送第三音频信息，以使第一移动终端将第三音频信息与第二音频信息合成为第二混音音频信息。

本实施例中，当听众通过第二移动终端接收到第一移动终端发送的第一混音音频信息之后，也就可以获取第一混音音频信息中的混入的第二音频信息，即背景音乐。此时，如果听众想要与主播方进行互动，还可以通过语音输入设备输入第三音频信息，即输入自己的语音信息。由第二移动终端向第一移动终端发送该第三音频信息，如果出现同时有多名听众通过语音输入设备输入语音时，也可以一起发送到第一移动终端，第一移动终端能够将一路或一路以上的音频信息与背景音乐进行合成，得到第二混音音频信息。

其次，本发明实施例中，听众除了可以收听主播方发送的第一混音音频信息，还可以通过语音输入设备输入第三音频信息，并向第一移动终端发送该第三音频信息，使得主播方可以播放合成后的第二混音音频信息。通过上述方式，可以使得主播方也能够收听到听众的语音，从而丰富了直播元素和内容，让主播和听众均可以在音乐的氛围下更好的体验交互式应用。

为便于理解，下面可以以一个具体应用场景对本发明中音频处理的工作流程过程进行详细描述，请参阅图7，图7为应用场景中音频处理的流程示意图，具体为：

步骤601中，主播方采用安装在移动终端上的程序采集麦克风数据，即通过麦克风获取到语音数据，并将该语音数据发送到重采样节点；

步骤602中，读取背景音乐数据，并发送到重采样节点，根据设定的采样率对背景音乐数据进行重采样，且背景音乐数据不需要经过语音处理过程，直接送到采集混音节点进行混音即可；

步骤603中，重采样节点根据设定的采样率对语音数据进行重采样；

步骤604中，判断采集到的数据是否来源于麦克风，若是，则进入步骤605，反之，则跳转至步骤606，进行麦克风语音与背景音乐混音与处理；

步骤605中，重采样后的数据若是麦克风采集到的数据，则还需要经过麦克风数据处理节点，进行降噪处理、消除回声以及自动增益控制等语言处理过程，经过处理后的麦克风语音数据送到采集混音节点，等待混音；

步骤606中，若是同时有麦克风和背景音乐数据，则进行混音，并送往下一处理节点，这样麦克风数据和背景音乐数据就混合成一股语音数据了，若是主播只有麦克风或者背景音乐一路语音，则直接往下一个节点传输，这样通过混合后，听众就只接收一路数据，直接解包解码进行播放即可；

步骤607中，编码节点将混音后的数据按照设定的格式进行编码；

步骤608中，组包节点将编码后的数据按照规定的网络包格式进行组包；

步骤609中，将组包好的数据通过网络发往同一区服房间的其他听众；

步骤610中，同时，主播方还可以听到其他听众的语音，因此可以将背景音乐数据和其他听众的语音都存放到播放混音节点，形成语音数据包，供主播自己收听；

步骤611中，主播方通过移动终端对接收到的语音数据包进行解包；

步骤612中，将解包后的数据通过解码器进行解码，同时将解码后的数据送入播放混音节点；

步骤613中，播放混音节点将收到的解码后的语音数据与传入的背景音乐数据进行混音处理，然后将混音后的数据送到扬声器进行播放；

步骤614中，实现主播方通过扬声器播放别人语音和自己的背景音乐。

下面对本发明中的第一移动终端进行详细描述，请参阅图8，所述第一移动终端70包括：

第一接收模块701，用于通过语音输入设备接收第一音频信息；

获取模块702，用于从第一移动终端的本地音频集合中获取第二音频信息，其中，所述第二音频信息为根据用户触发的音频选择指令所确定的；

第一合成模块703，用于将所述第一接收模块701接收的所述第一音频信息与所述获取模块702获取的所述第二音频信息合成为第一混音音频信息；

发送模块704，用于向至少一个第二移动终端发送所述第一合成模块703合成的所述第一混音音频信息。

本实施例中，第一接收模块701通过语音输入设备接收第一音频信息，获取模块702从第一移动终端的本地音频集合中获取第二音频信息，其中，所述第二音频信息为根据用户触发的音频选择指令所确定的，第一合成模块703将所述第一接收模块701接收的所述第一音频信息与所述获取模块702获取的所述第二音频信息合成为第一混音音频信息，发送模块704向至少一个第二移动终端发送所述第一合成模块703合成的所述第一混音音频信息。

本发明实施例中，提供了一种移动终端，具体为第一移动终端通过语音输入设备接收第一音频信息，并从第一移动终端的本地音频集合中获取第二音频信息，其中，第二音频信息为根据用户触发的音频选择指令所确定的，然后将第一音频信息与第二音频信息合成为第一混音音频信息，最后可以向至少一个第二移动终端发送该第一混音音频信息。通过上述方式，移动终端无需调用第三方媒体播放器来获取相关的第二音频信息，而是直接获取已经下载好的第二音频信息，并与当前输入的第一音频信息进行混音，从而实现了在移动终端保持系统权限的情况下，仍可以进行音频信息的调取，以此提升方案的实用性和可行性。

可选地，在上述图8所对应的实施例的基础上，请参阅图9，本发明实施例提供的第一移动终端的另一实施例中，

所述第一移动终端70还包括：

第一采样模块705，用于所述第一合成模块703将所述第一音频信息与所述第二音频信息合成为第一混音音频信息之前，根据预设的采样率对所述第一音频信息进行重采样处理；

第二采样模块706，用于根据所述预设的采样率对所述第二音频信息进行重采样处理；

所述第一合成模块703包括：

合成单元7031，用于将经过重采样处理后的所述第一音频信息与所述第二音频信息合成为所述第一混音音频信息，其中，所述第一混音音频信息具有所述预设的采样率。

可选地，在上述图8所对应的实施例的基础上，请参阅图10，本发明实施例提供的第一移动终端的另一实施例中，

所述第一移动终端70还包括：

处理模块707，用于所述第一接收模块701通过语音输入设备接收第一音频信息之后，采用预置语音处理方式对所述第一音频信息进行语音处理，其中，所述预置语音处理方式包括降低噪声、消除回声以及自动增益控制中的至少一种。

可选地，在上述图8、图9或图10所对应的实施例的基础上，请参阅图11，本发明实施例提供的第一移动终端的另一实施例中，

所述第一移动终端70还包括：

编码模块708，用于所述第一合成模块703将所述第一音频信息与所述第二音频信息合成为第一混音音频信息之后，按照预设音频格式对所述第一混音音频信息进行编码；

封装模块709，用于对所述编码模块708编码后的所述第一混音音频信息进行封装处理，并得到音频数据包；

所述发送模块704包括：

发送单元7041，用于向所述至少一个第二移动终端发送所述音频数据包。

可选地，在上述图8所对应的实施例的基础上，请参阅图12，本发明实施例提供的第一移动终端的另一实施例中，

所述第一移动终端70还包括：

第二接收模块710A，用于所述获取模块702从第一移动终端的本地音频集合中获取第二音频信息之后，接收所述至少一个第二移动终端发送的第三音频信息；

第二合成模块710B，用于将所述第二接收模块710A接收的所述第三音频信息与所述第二音频信息合成为第二混音音频信息；

播放模块710C，用于播放所述第二合成模块710B合成的所述第二混音音频信息。

上面对本发明中的第一移动终端进行介绍，下面将对本发明中的第二移动终端进行详细描述，请参阅图13，所述第二移动终端包括：

第一接收模块801，用于接收第一移动终端发送的第一混音音频信息，所述第一混音音频信息为第一音频信息与第二音频信息合成的，所述第一音频信息为所述第一移动终端通过语音输入设备接收的，所述第二音频信息为从所述第一移动终端本地音频集合中获取的；

播放模块802，用于播放所述第一接收模块801接收的所述第一混音音频信息。

本实施例中，第一接收模块801接收第一移动终端发送的第一混音音频信息，所述第一混音音频信息为第一音频信息与第二音频信息合成的，所述第一音频信息为所述第一移动终端通过语音输入设备接收的，所述第二音频信息为从所述第一移动终端本地音频集合中获取的，播放模块802播放所述第一接收模块801接收的所述第一混音音频信息。

可选地，在上述图13所对应的实施例的基础上，请参阅图14，本发明实施例提供的第二移动终端的另一实施例中，

所述第一接收模块801包括：

接收单元8011，用于接收所述第一移动终端发送的音频数据包，所述音频数据包为按照预设音频格式对所述第一混音音频信息进行编码以及封装处理后得到的；

解封单元8012，用于对所述接收单元8011接收的所述音频数据包进行解封装处理；

解码单元8013，用于对所述解封单元8012解析后的所述音频数据包进行解码处理，并获取到所述第一混音音频信息。

可选地，在上述图13所对应的实施例的基础上，请参阅图15，本发明实施例提供的第二移动终端的另一实施例中，

所述第二移动终端80还包括：

第二接收模块803，用于所述第一接收模块801接收第一移动终端发送的第一混音音频信息之后，通过语音输入设备接收第三音频信息；

发送模块804，用于向所述第一移动终端发送所述第二接收模块803接收的所述第三音频信息，以使所述第一移动终端将所述第三音频信息与所述第二音频信息合成为第二混音音频信息。

本发明实施例还提供了另一种第一移动终端，如图16所示，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该第一移动终端可以为包括手机、平板电脑、个人数字助理(英文全称：Personal DigitalAssistant，英文缩写：PDA)、销售终端(英文全称：Point of Sales，英文缩写：POS)、车载电脑等任意终端设备，以终端为手机为例：

图16示出的是与本发明实施例提供的第一移动终端相关的手机的部分结构的框图。参考图16，手机包括：射频(英文全称：Radio Frequency，英文缩写：RF)电路1010、存储器920、输入单元930、显示单元940、传感器950、音频电路960、无线保真(英文全称：wireless fidelity，英文缩写：WiFi)模块970、处理器980、以及电源990等部件。本领域技术人员可以理解，图16中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图16对手机的各个构成部件进行具体的介绍：

RF电路1010可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器980处理；另外，将设计上行的数据发送给基站。通常，RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(英文全称：LowNoise Amplifier，英文缩写：LNA)、双工器等。此外，RF电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(英文全称：Global System of Mobile communication，英文缩写：GSM)、通用分组无线服务(英文全称：General Packet Radio Service，英文缩写：GPRS)、码分多址(英文全称：Code Division Multiple Access，英文缩写：CDMA)、宽带码分多址(英文全称：Wideband Code Division Multiple Access,英文缩写：WCDMA)、长期演进(英文全称：LongTerm Evolution，英文缩写：LTE)、电子邮件、短消息服务(英文全称：Short MessagingService，英文缩写：SMS)等。

存储器920可用于存储软件程序以及模块，处理器980通过运行存储在存储器920的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器920可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器920可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元930可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元930可包括触控面板931以及其他输入设备932。触控面板931，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板931上或在触控面板931附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板931可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器980，并能接收处理器980发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板931。除了触控面板931，输入单元930还可以包括其他输入设备932。具体地，其他输入设备932可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元940可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元940可包括显示面板941，可选的，可以采用液晶显示器(英文全称：LiquidCrystal Display，英文缩写：LCD)、有机发光二极管(英文全称：Organic Light-EmittingDiode,英文缩写：OLED)等形式来配置显示面板941。进一步的，触控面板931可覆盖显示面板941，当触控面板931检测到在其上或附近的触摸操作后，传送给处理器980以确定触摸事件的类型，随后处理器980根据触摸事件的类型在显示面板941上提供相应的视觉输出。虽然在图16中，触控面板931与显示面板941是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板931与显示面板941集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器950，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板941的亮度，接近传感器可在手机移动到耳边时，关闭显示面板941和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路960、扬声器961，传声器962可提供用户与手机之间的音频接口。音频电路960可将接收到的音频数据转换后的电信号，传输到扬声器961，由扬声器961转换为声音信号输出；另一方面，传声器962将收集的声音信号转换为电信号，由音频电路960接收后转换为音频数据，再将音频数据输出处理器980处理后，经RF电路1010以发送给比如另一手机，或者将音频数据输出至存储器920以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块970可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图16示出了WiFi模块970，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器980是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器920内的软件程序和/或模块，以及调用存储在存储器920内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器980可包括一个或多个处理单元；优选的，处理器980可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器980中。

手机还包括给各个部件供电的电源990(比如电池)，优选的，电源可以通过电源管理系统与处理器980逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本发明实施例中，该终端所包括的处理器980还具有以下功能：

通过语音输入设备接收第一音频信息；

向至少一个第二移动终端发送所述第一混音音频信息。

本发明实施例还提供了另一种客户端，其中，客户端代理中包括了客户端代理，如图18所示，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(英文全称：Personal Digital Assistant，英文缩写：PDA)、销售终端(英文全称：Point of Sales，英文缩写：POS)、车载电脑等任意终端设备，以终端为手机为例：

图17示出的是与本发明实施例提供的第二移动终端相关的手机的部分结构的框图。参考图17，手机包括：射频(英文全称：Radio Frequency，英文缩写：RF)电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真(英文全称：wireless fidelity，英文缩写：WiFi)模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解，图17中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图17对手机的各个构成部件进行具体的介绍：

RF电路1010可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1080处理；另外，将设计上行的数据发送给基站。通常，RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(英文全称：LowNoise Amplifier，英文缩写：LNA)、双工器等。此外，RF电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(英文全称：Global System of Mobile communication，英文缩写：GSM)、通用分组无线服务(英文全称：General Packet Radio Service，英文缩写：GPRS)、码分多址(英文全称：Code Division Multiple Access，英文缩写：CDMA)、宽带码分多址(英文全称：Wideband Code Division Multiple Access,英文缩写：WCDMA)、长期演进(英文全称：LongTerm Evolution，英文缩写：LTE)、电子邮件、短消息服务(英文全称：Short MessagingService，英文缩写：SMS)等。

存储器1020可用于存储软件程序以及模块，处理器1080通过运行存储在存储器1020的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1030可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1030可包括触控面板1031以及其他输入设备1032。触控面板1031，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1080，并能接收处理器1080发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031，输入单元1030还可以包括其他输入设备1032。具体地，其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1040可包括显示面板1041，可选的，可以采用液晶显示器(英文全称：Liquid Crystal Display，英文缩写：LCD)、有机发光二极管(英文全称：Organic Light-Emitting Diode,英文缩写：OLED)等形式来配置显示面板1041。进一步的，触控面板1031可覆盖显示面板1041，当触控面板1031检测到在其上或附近的触摸操作后，传送给处理器1080以确定触摸事件的类型，随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图17中，触控面板1031与显示面板1041是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1031与显示面板1041集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1050，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1041和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1060、扬声器1061，传声器1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号，传输到扬声器1061，由扬声器1061转换为声音信号输出；另一方面，传声器1062将收集的声音信号转换为电信号，由音频电路1060接收后转换为音频数据，再将音频数据输出处理器1080处理后，经RF电路1010以发送给比如另一手机，或者将音频数据输出至存储器1020以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图17示出了WiFi模块1070，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1080是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1020内的软件程序和/或模块，以及调用存储在存储器1020内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1080可包括一个或多个处理单元；优选的，处理器1080可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1080中。

手机还包括给各个部件供电的电源1090(比如电池)，优选的，电源可以通过电源管理系统与处理器1080逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

在本发明实施例中，该终端所包括的处理器1080还具有以下功能：

播放所述第一混音音频信息。

请参阅图18，图18为本发明实施例中音频处理的系统一个实施例示意图，所述系统包括第一移动终端1101以及第二移动终端1102；

所述第一移动终端1101通过语音输入设备接收第一音频信息；

所述第一移动终端1101从所述第一移动终端1101的本地音频集合中获取第二音频信息，其中，所述第二音频信息为根据用户触发的音频选择指令所确定的；

所述第一移动终端1101将所述第一音频信息与所述第二音频信息合成为第一混音音频信息；

所述第一移动终端1101向至少一个第二移动终端1102发送所述第一混音音频信息；

所述第二移动终端1102接收第一移动终端1101发送的第一混音音频信息；

所述第二移动终端1102播放所述第一混音音频信息。

本发明实施例中，提供了一种音频处理的系统，具体为第一移动终端通过语音输入设备接收第一音频信息，并从第一移动终端的本地音频集合中获取第二音频信息，其中，第二音频信息为根据用户触发的音频选择指令所确定的，然后将第一音频信息与第二音频信息合成为第一混音音频信息，最后可以向至少一个第二移动终端发送该第一混音音频信息。通过上述方式，移动终端无需调用第三方媒体播放器来获取相关的第二音频信息，而是直接获取已经下载好的第二音频信息，并与当前输入的第一音频信息进行混音，从而实现了在移动终端保持系统权限的情况下，仍可以进行音频信息的调取，以此提升方案的实用性和可行性。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种音频处理的方法，其特征在于，包括：

通过第一移动终端上的语音输入设备接收第一音频信息，所述第一音频信息为直播中主播方的语音信息；

直接从所述第一移动终端的本地音频集合中获取第二音频信息，使得所述第一移动终端无需调用第三方媒体播放器来获取所述第二音频信息，其中，所述第二音频信息为根据用户触发的音频选择指令所确定的；所述第二音频信息为背景音乐；

接收至少一个第二移动终端发送的第三音频信息，所述第三音频信息是通过至少一个所述第二移动终端上的语音输入设备接收的所述直播中听众方的语音信息；

其中，所述第一移动终端以及至少一个所述第二移动终端参与所述直播；

将所述第一音频信息与直接从第一移动终端的本地音频集合中获取的所述第二音频信息合成为第一混音音频信息；

按照预设音频格式对所述第一混音音频信息进行编码；

对编码后的所述第一混音音频信息进行封装处理，并得到音频数据包；

将所述第三音频信息与所述第二音频信息合成为第二混音音频信息；

通过第一移动终端的输出设备播放所述第二混音音频信息，并向至少一个所述第二移动终端发送所述音频数据包，以使至少一个所述第二移动终端播放对应所述音频数据包的第一混音音频信息。

2.根据权利要求1所述的方法，其特征在于，所述将所述第一音频信息与直接从第一移动终端的本地音频集合中获取的所述第二音频信息合成为第一混音音频信息之前，所述方法还包括：

根据预设的采样率对所述第一音频信息进行重采样处理；

根据所述预设的采样率对所述第二音频信息进行重采样处理；

所述将所述第一音频信息与所述第二音频信息合成为第一混音音频信息，包括：

将经过重采样处理后的所述第一音频信息与所述第二音频信息合成为所述第一混音音频信息，其中，所述第一混音音频信息具有所述预设的采样率。

3.根据权利要求1所述的方法，其特征在于，所述通过第一移动终端上的语音输入设备接收第一音频信息之后，所述方法还包括：

采用预置语音处理方式对所述第一音频信息进行语音处理，其中，所述预置语音处理方式包括降低噪声、消除回声以及自动增益控制中的至少一种。

4.一种音频处理的方法，其特征在于，包括：

接收第一移动终端发送的音频数据包，所述音频数据包为按照预设音频格式对第一混音音频信息进行编码，对编码后的所述第一混音音频信息进行封装处理得到的；所述第一混音音频信息为第一音频信息与第二音频信息合成的，所述第一音频信息为通过所述第一移动终端上的语音输入设备接收的，所述第一音频信息为直播中主播方的语音信息，所述第二音频信息为直接从所述第一移动终端本地音频集合中获取的，而无需通过所述第一移动终端调用第三方媒体播放器来获取；所述第二音频信息为背景音乐；

通过第二移动终端上的语音输入设备接收第三音频信息，所述第三音频信息是为所述直播中听众方的语音信息；

通过所述第二移动终端的输出设备对所述音频数据包进行解封装处理；

通过所述第二移动终端的输出设备对解析后的所述音频数据包进行解码处理，并获取到所述第一混音音频信息；

通过所述第二移动终端的输出设备播放所述第一混音音频信息，并向所述第一移动终端发送所述第三音频信息，以使所述第一移动终端将所述第三音频信息与所述第二音频信息合成为第二混音音频信息，并播放所述第二混音音频信息。

5.一种移动终端，其特征在于，包括：

第一接收模块，用于通过第一移动终端上的语音输入设备接收第一音频信息，所述第一音频信息为直播中主播方的语音信息；

获取模块，用于直接从所述第一移动终端的本地音频集合中获取第二音频信息，使得所述第一移动终端无需调用第三方媒体播放器来获取所述第二音频信息，其中，所述第二音频信息为根据用户触发的音频选择指令所确定的；所述第二音频信息为背景音乐；

第二接收模块，用于在所述获取模块直接从所述第一移动终端的本地音频集合中获取第二音频信息之后，接收至少一个第二移动终端发送的第三音频信息，所述第三音频信息是通过至少一个所述第二移动终端上的语音输入设备接收的所述直播中听众方的语音信息；其中，所述第一移动终端以及至少一个所述第二移动终端参与所述直播；

第一合成模块，用于将所述第一接收模块接收的所述第一音频信息与所述获取模块直接从第一移动终端的本地音频集合中获取的所述第二音频信息合成为第一混音音频信息；

编码模块，用于所述第一合成模块将所述第一音频信息与所述第二音频信息合成为第一混音音频信息之后，按照预设音频格式对所述第一混音音频信息进行编码；

封装模块，用于对所述编码模块编码后的所述第一混音音频信息进行封装处理，并得到音频数据包；

第二合成模块，用于将所述第二接收模块接收的所述第三音频信息与所述第二音频信息合成为第二混音音频信息；

播放模块，用于通过第一移动终端的输出设备播放所述第二合成模块合成的所述第二混音音频信息；

发送模块，用于向至少一个所述第二移动终端发送所述第一合成模块合成的所述音频数据包，以使至少一个所述第二移动终端播放对应所述音频数据包的第一混音音频信息。

6.根据权利要求5所述的移动终端，其特征在于，所述移动终端还包括：

第一采样模块，用于所述第一合成模块将所述第一音频信息与所述第二音频信息合成为第一混音音频信息之前，根据预设的采样率对所述第一音频信息进行重采样处理；

第二采样模块，用于根据所述预设的采样率对所述第二音频信息进行重采样处理；

所述第一合成模块包括：

合成单元，用于将经过重采样处理后的所述第一音频信息与所述第二音频信息合成为所述第一混音音频信息，其中，所述第一混音音频信息具有所述预设的采样率。

7.根据权利要求5所述的移动终端，其特征在于，所述移动终端还包括：

处理模块，用于所述第一接收模块通过语音输入设备接收第一音频信息之后，采用预置语音处理方式对所述第一音频信息进行语音处理，其中，所述预置语音处理方式包括降低噪声、消除回声以及自动增益控制中的至少一种。

8.一种移动终端，其特征在于，包括：

第一接收模块，用于接收第一移动终端发送的音频数据包，所述音频数据包为按照预设音频格式对第一混音音频信息进行编码，对编码后的所述第一混音音频信息进行封装处理得到的；所述第一混音音频信息为第一音频信息与第二音频信息合成的，所述第一音频信息为通过所述第一移动终端上的语音输入设备接收的，所述第一音频信息为直播中主播方的语音信息，所述第二音频信息为直接从所述第一移动终端本地音频集合中获取的，而无需通过所述第一移动终端调用第三方媒体播放器来获取；所述第二音频信息为背景音乐；对接收的所述音频数据包进行解封装处理；对解析后的所述音频数据包进行解码处理，并获取到所述第一混音音频信息；

第二接收模块，用于所述第一接收模块接收第一移动终端发送的第一混音音频信息之后，通过第二移动终端上的语音输入设备接收第三音频信息，所述第三音频信息是为所述直播中听众方的语音信息；播放模块，用于通过所述第二移动终端的输出设备播放所述第一接收模块接收的所述第一混音音频信息；其中，所述第一移动终端以及至少一个所述第二移动终端参与所述直播；

发送模块，用于向所述第一移动终端发送所述第二接收模块接收的所述第三音频信息，以使所述第一移动终端将所述第三音频信息与所述第二音频信息合成为第二混音音频信息，并播放所述第二混音音频信息。

9.一种音频处理的系统，其特征在于，所述系统包括第一移动终端以及第二移动终端；

所述第一移动终端通过所述第一移动终端上的语音输入设备接收第一音频信息，所述第一音频信息为直播中主播方的语音信息；

所述第一移动终端直接从所述第一移动终端的本地音频集合中获取第二音频信息，使得所述第一移动终端无需调用第三方媒体播放器来获取所述第二音频信息，其中，所述第二音频信息为根据用户触发的音频选择指令所确定的；所述第二音频信息为背景音乐；

所述第一移动终端接收至少一个所述第二移动终端发送的第三音频信息，所述第三音频信息是通过至少一个所述第二移动终端上的语音输入设备接收的所述直播中听众方的语音信息；

所述第一移动终端将所述第一音频信息与直接从第一移动终端的本地音频集合中获取的所述第二音频信息合成为第一混音音频信息；

所述第一移动终端按照预设音频格式对所述第一混音音频信息进行编码；

所述第一移动终端对编码后的所述第一混音音频信息进行封装处理，并得到音频数据包；

所述第一移动终端将所述第三音频信息与所述第二音频信息合成为第二混音音频信息，并播放所述第二混音音频信息；

所述第一移动终端通过第一移动终端的输出设备播放所述第二混音音频信息，并向至少一个所述第二移动终端发送所述音频数据包；

所述第二移动终端接收第一移动终端发送的音频数据包；

所述第二移动终端对接收的所述音频数据包进行解封装处理；

所述第二移动终端对解析后的所述音频数据包进行解码处理，并获取到所述第一混音音频信息；

所述第二移动终端通过所述第二移动终端的输出设备播放所述第一混音音频信息。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有软件程序以及模块；所述软件程序以及模块被执行时实现如权利要求1至3或4中任一项所述的音频处理的方法。

11.一种移动终端，其特征在于，包括：存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器中存储的计算机程序；

所述计算机程序用于执行如权利要求1-3任一项所述的音频处理的方法。

12.一种移动终端，其特征在于，包括：存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器中存储的计算机程序；

所述计算机程序用于执行如权利要求4所述的音频处理的方法。