CN110166794B

CN110166794B - 一种直播音频处理方法、装置及系统

Info

Publication number: CN110166794B
Application number: CN201810386311.4A
Authority: CN
Inventors: 谢金运; 杨宇
Original assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Priority date: 2018-04-26
Filing date: 2018-04-26
Publication date: 2021-11-16
Anticipated expiration: 2038-04-26
Also published as: CN110166794A

Abstract

本发明涉及网络技术领域，尤其涉及一种直播音频处理方法、装置及系统，服务器接收主播端发送的至少两路直播音频流数据；观众端可以将接收到的用户输入混音比例发送给服务器，服务器根据观众端发送的混音比例指令，将至少两路直播音频流数据进行混音合成，并将混音合成后的直播音频流数据发送给所述观众端，其中，服务器可以为直播服务器，或者也可以分为执行接收主播端发送数据的直播服务器和执行混音合成的混音服务器，这样，在观众端实现对音频的混音比例修改，不同观众可以设置不同的混音比例，满足了不同观众对直播中音频的混音比例需求，提升了观众的直播观看体验。

Description

一种直播音频处理方法、装置及系统

技术领域

本发明涉及网络技术领域，尤其涉及一种直播音频处理方法、装置及系统。

背景技术

直播过程中，主播会有多路音频混音的需求，通常是指前景音和背景音的混音，其中，前景音为主播音频，例如主播自身的歌声、声音等，背景音例如为歌曲的伴奏、游戏软件中的声音等，混音后以供观众端进行直播收听和观看。

现有技术中，进行混音时，通常是主播端将多路音频，例如背景音和前景音进行混音后，合成为一路音频流数据，并以一路音频流数据推流给直播服务器，再由直播服务器分发给观众端。

但是现有技术中，由主播端进行音频混音合成，观众端只能接受主播端输出的一路音频流数据，是一条已混音的音频流数据，若观众对音频流数据中前景音和背景音的混合比例不满意时，只能由主播端再统一进行修改，修改后对所有观众端生效，无法满足不同观众对音频流数据中前景音和背景音的混合比例的需求。

发明内容

本发明实施例提供一种直播音频处理方法、装置及系统，以解决现有技术中只能由主播端进行混音比例的调整，无法满足不同观众需求的问题。

本发明实施例提供的具体技术方案如下：

本发明一个实施例提供了一种直播音频处理方法，包括：

接收主播端发送的至少两路直播音频流数据；

根据观众端发送的混音比例指令，将所述至少两路直播音频流数据进行混音合成；

将混音合成后的直播音频流数据发送给所述观众端。

结合本发明的一个实施例，所述至少两路直播音频流数据是所述主播端通过不同的音频采集设备采集到的。

结合本发明的一个实施例，进一步包括：若接收到所述观众端发送的新的混音比例指令，则根据所述新的混音比例指令，将后续接收到的至少两路直播音频流数据进行混音合成，并将后续混音合成后的直播音频流数据发送给所述观众端。这样，可以实现观众端随时修改混音比例，满足观众的需求，进一步提升用户的直播体验。

本发明另一个实施例提供了一种直播音频处理方法，包括：

接收用户输入的混音比例指令；

基于所述混音比例指令，向服务器发送直播拉流请求，其中，所述直播拉流请求中至少包括所述混音比例指令；

至少接收所述服务器返回的直播音频流数据，其中所述直播音频流数据是根据所述混音比例将主播端发送的至少两路直播音频流数据进行混音合成得到的。

结合本发明另一个实施例，接收用户输入的混音比例指令，具体包括：

接收用户通过预设的输入框输入的混音比例指令；

或者，接收用户通过预设的比例调节控件输入的混音比例指令。

本发明另一个实施例提供了一种直播音频处理系统，包括：直播服务器、主播端、观众端，其中，

所述主播端，用于将至少两路直播音频流数据发送给所述直播服务器；

所述直播服务器，用于接收所述主播端发送的至少两路直播音频流数据，并根据观众终端发送的混音比例指令，将所述至少两路直播音频流数据进行混音合成，将混音合成后的直播音频流数据发送给所述观众端；

所述观众端，用于接收所述直播服务器发送的所述混音合成后的直播音频流数据。

结合本发明另一个实施例，进一步包括：混音服务器；

所述直播服务器还用于，将所述至少两路直播音频流数据转发给所述混音服务器，则针对根据观众终端发送的混音比例指令，将所述至少两路直播音频流数据进行混音合成的步骤，由所述混音服务器执行。

结合本发明另一个实施例，所述混音服务器还用于：

将混音合成后的直播音频流数据转发给所述直播服务器，则针对所述将混音合成后的直播音频流数据发送给所述观众端的步骤，由所述直播服务器执行；或者，

针对所述将混音合成后的直播音频流数据发送给所述观众端的步骤，由所述混音服务器执行。

本发明另一个实施例提供了一种直播音频处理装置，包括：

接收模块，用于接收主播端发送的至少两路直播音频流数据；

混音合成模块，用于根据观众端发送的混音比例指令，将所述至少两路直播音频流数据进行混音合成；

发送模块，用于将混音合成后的直播音频流数据发送给所述观众端。

结合本发明另一个实施例，所述至少两路直播音频流数据是所述主播端通过不同的音频采集设备采集到的。

结合本发明另一个实施例，所述混音合成模块进一步用于：

若确定接收到所述观众端发送的新的混音比例指令，则根据所述新的混音比例指令，将后续接收到的至少两路直播音频流数据进行混音合成；

所述发送模块进一步用于：在所述混音合成模块根据所述新的混音比例指令，将后续接收到的至少两路直播音频流数据进行混音合成后，将后续混音合成后的直播音频流数据发送给所述观众端。

本发明另一个实施例提供了一种直播音频处理装置，包括：

第一接收模块，用于接收用户输入的混音比例指令；

发送模块，用于基于所述混音比例指令，向服务器发送直播拉流请求，其中，所述直播拉流请求中至少包括所述混音比例指令；

第二接收模块，用于至少接收所述服务器返回的直播音频流数据，其中所述直播音频流数据是根据所述混音比例将主播端发送的至少两路直播音频流数据进行混音合成得到的。

结合本发明另一个实施例，接收用户输入的混音比例指令，第一接收模块具体用于：

接收用户通过预设的输入框输入的混音比例指令；

本发明另一个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一种直播音频处理方法的步骤。

本发明实施例中，接收主播端发送的至少两路直播音频流数据；根据观众端发送的混音比例指令，将所述至少两路直播音频流数据进行混音合成；将混音合成后的直播音频流数据发送给所述观众端，观众端可以将接收到的用户输入混音比例发送给服务器，接收服务器返回的根据该混音比例进行混音合成的直播音频流数据，这样，在观众端实现了对音频的混音比例修改，不同观众可以设置不同的混音比例，可以针对不同观众的需求，进行混音合成，解决现有技术中只能由主播端进行混音比例的调整的问题，可以满足不同观众的混音比例需求，提升了观众的直播观看体验。

附图说明

图1为现有技术中直播音频处理方法的应用架构示意图；

图2为本发明实施例中直播音频处理系统结构示意图；

图3为本发明实施例中直播音频处理方法中推流应用架构示意图；

图4为本发明实施例中直播音频处理方法中拉流应用架构示意图；

图5a为本发明实施例中一种观众端的界面实现效果示意图；

图5b为本发明实施例中另一种观众端的界面实现效果示意图；

图5c为本发明实施例中另一种观众端的界面实现效果示意图；

图6为本发明实施例中直播音频处理方法的流程图；

图7为本发明实施例中一种直播音频处理装置结构示意图；

图8为本发明实施例中另一种直播音频处理装置结构示意图；

图9为本发明实施例中服务器结构示意图；

图10为本发明实施例中终端结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，并不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为便于对本发明实施例的理解，下面先对几个概念进行简单介绍：

前景音：为主播音频，例如主播自身的歌声、声音等。

背景音：例如为歌曲的伴奏、游戏软件中的声音等。

推流：为将直播内容推送至服务器的过程，即主播端通过直播协议将直播内容推送到服务器的过程。

拉流：为服务器已有直播内容，用指定地址进行拉取的过程，即观众端通过直播协议从服务器拉取直播内容的过程。

实际中，直播过程中，主播端可以将主播的声音和其它背景音等音频数据，以及采集到视频数据传输到观众端以供观众观看，针对直播过程中的音频数据，参阅图1所示，为现有技术中直播音频处理方法的架构示意图，主播端将多路音频数据进行外部的混音，将混音后的一路音频混合数据和视频数据推流到直播服务器，直播服务器再分发到观众端，以供观众观看，其中图1中a/v表示一路音频(audio)混合数据和一路视频(video)数据。

但是，如果不同观众想要调整前景音和背景音的混音比例，例如，观众觉得背景音太杂乱，希望只听到主播声音等，现有技术中，观众只能通过评论信息让主播看到，主播根据评论信息，主动调整前景音和背景音的混音比例，这对主播来说操作比较麻烦，并且混音比例修改会对所有观众生效，由于混音比例需要本来就是比较主观的思想，主播的调整无法满足不同观众的需求，降低了观众的直播体验。

参阅图2所示，为本发明实施例中的直播音频处理系统，包括主播端、直播服务器、混音服务器、观众端。

主播端和观众端均是面向用户的终端，可以是智能手机、平板电脑、便携式个人计算机、智能电视等任何智能设备。终端上可以安装有各种应用程序(Application，APP)，例如各种直播APP，终端可以通过直播APP向用户提供直播服务。

值得说明的是，直播过程通常分为推流和拉流两个部分，推流为主播端，也可以称为推流端，通过直播协议将音视频数据传输到服务器的过程，拉流为观众端，也可以称为拉流端，通过直播协议与服务器建立连接并从服务器接收音视频数据的过程。

主播端、观众端可以分别与直播服务器之间通过互联网相连，实现相互之间的通信。可选地，上述互联网使用标准通信技术和/或协议。互联网通常为因特网、但也可以是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan AreaNetwork，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。

为解决现有技术中只能由主播端进行混音比例的调整，无法满足不同观众需求的问题，本发明实施例中提供的直播音频处理系统，针对直播过程中的音频数据，在一种可能的实施方式中，主播端，用于将至少两路直播音频流数据发送给直播服务器；直播服务器，用于接收主播端发送的至少两路直播音频流数据，并根据观众终端发送的混音比例指令，将至少两路直播音频流数据进行混音合成，将混音合成后的直播音频流数据发送给观众端；观众端，用于接收直播服务器发送的混音合成后的直播音频流数据。这样，观众端可以对混音比例进行修改，根据观众需求设置混音比例，不同观众可以配置不同的混音比例，主播端不再进行音频合成，由服务器根据不同的观众端的混音比例需求，进行混音合成，并发送给相应的观众端，满足了不同观众对主播端的前景音和背景音的混音比例需求，提升了用户的直播体验。

其中，至少两路直播音频数据流是主播端通过不同的音频采集设备采集到的，也就是说，本发明实施例中，在主播端需要保证采集原始音频数据时，前景音和背景音是分离输入至直播推流软件的，例如，前景音通过麦克风输入，背景音通过主播端内部软件输入，例如播放伴奏的软件等。

进一步地，为提高实际功能实现的有效性，本发明实施例中，较佳的设置混音服务器，这时直播服务器不需要集成混音合成的功能，则直播服务器还用于，将至少两路直播音频流数据转发给混音服务器，则针对根据观众终端发送的混音比例指令，将至少两路直播音频流数据进行混音合成的步骤，由混音服务器执行。

其中，针对将混音合成后的直播音频流数据发送给观众端的步骤，本发明实施例中还提供了两种可能的实施方式，第一种实施方式：混音服务器还用于将混音合成后的直播音频流数据转发给直播服务器，则针对将混音合成后的直播音频流数据发送给观众端的步骤，由直播服务器执行；第二种实施方式：针对将混音合成后的直播音频流数据发送给观众端的步骤，由混音服务器执行。

也就是说，本发明实施例中，可以只设置一个服务器，即直播服务器，由直播服务器完成从主播端接收数据，进行混音合成并发送数据给观众端等全部步骤，也可以同时设置直播服务器和混音服务器，由直播服务器从主播端接收数据，并转发给混音服务器，混音服务器进行混音合成并发送数据给观众端，混音服务器也可以将混音合成的数据转发给直播服务器，再由直播服务器发送给观众端，对此，本发明实施例中并不进行限制。

其中，为便于描述和说明，本发明实施例中以下均以由混音服务器将混音后的音频流数据发送给观众端为例进行说明。

基于上述实施例中，本发明实施例中的直播音频处理方法，可以分为以下两部分进行介绍：

第一部分：直播音频处理方法中推流过程。

参阅图3所示，为本发明实施例中直播音频处理方法中推流应用架构示意图，主播端将音视频数据发送给相应的直播服务器，具体包括：

首先，主播端通过不同的音频和视频采集设备采集原始的音频数据和视频数据。

其中，视频采集设备，例如为摄像头等，通过摄像头采集主播的视频数据。

音频数据至少包括两路音频数据，例如分别为前景音和背景音，并且前景音和背景音由不同的音频采集设备采集，例如，前景音通过麦克风采集，背景音通过主播端中软件接口采集，这样，主播端就可以采集到至少两路音频数据。其中，图3中以2路音频数据为例，分别包括背景音频和主播音频，其中主播音频为前景音。

然后，主播端将直播流数据发送给直播服务器。

其中，直播流数据中可以包括至少两路直播音频流数据、和/或视频流数据等。

本发明实施例中，主播端不再进行音频混音合成，而是将至少两路音频数据分别使用单独的音频通道进行传输，直播过程中通常以流的形式进行数据传输，这样，根据直播协议，将至少两路音频数据和视频数据生成相应的直播数据流，即至少两路直播音频流数据和一路视频流数据，并发送给直播服务器，其中，图3中以两路音频流数据和一路视频流数据为例，图3中a/a/v表示两路路音频(audio)混合数据和一路视频(video)数据。

其中，本发明实施例中采用的直播协议，例如为实时消息传输协议(Real TimeMessaging Protocol，RTMP)协议，RTMP协议可以支持多路音频流数据的上行传输，当然可以采用其它支持多路音频流数据传输的直播协议，本发明实施例中并不进行限制。

这样，由于目前支持多路音频流数据传输的直播协议有很多，因此，本发明实施例中的直播音频处理方法，可以不需要修改现有的直播协议，适用性更灵活和广泛，可以很快进行推广使用。

最后，直播服务器接收主播端发送的直播流数据。

即接收主播端发送的至少两路直播音频流数据，以及视频流数据。

第二部分：直播音频处理方法中拉流过程。

参阅图4所示，为本发明实施例中直播音频处理方法中拉流应用架构示意图，观众端从服务器获取音视频数据，具体包括：

首先，直播服务器将直播流数据转发给混音服务器。

其中，直播流数据中至少包括两路直播音频流数据、和/或视频流数据等。

然后，混音服务器接收直播服务器发送的直播流数据。

然后，观众端接收用户输入的混音比例指令，并基于混音比例指令，向混音服务器发送直播拉流请求。

其中，直播拉流请求中至少包括混音比例指令。

例如，某个观众希望主播音频占总音频音量的90％，则可以发送背景音和主播音的混音比例和9:1。

其中，观众端接收用户输入的混音比例指令，可以包括以下几种实施方式：

第一种实施方式接收用户通过预设的输入框输入的混音比例指令。

例如，参阅图5a所示，为本发明实施例中一种观众端的界面实现效果示意图，可以在观众端的直播界面上设置一个输入框，由于通常直播过程中的音频数据分为前景音和背景音，因此可以只设置前景音和背景音的比例输入框，用户可以在相应的输入框中输入比例值，例如，输入为前景音：背景音＝3:2，则混音服务器将以前景音：背景音的混音比例为3:2来混音合成前景音和背景音。

又例如，参阅图5b所示，为本发明实施例中另一种观众端的界面实现效果示意图，可以在观众端直播界面上分别设置前景音占比输入框和背景音占比输入框，其中，占比表示在总音频流数据中的占比，用户输入数值，并且，用户也可以只输入其中一个，例如，只输入前景音占比为0.8，则可以认为背景音占比为0.2，其中，用户输入时，例如还可以在输入框右侧设置数值调节按钮控件，用户可以点击该按键输入比例值，也可以直接手动输入。

第二种实施方式：接收用户通过预设的比例调节控件输入的混音比例指令。

例如，参阅图5c所示，为本发明实施例中另一种观众端的界面实现效果示意图，可以设置前景音和背景音对应的混音比例的比例调节控件，不需要用户输入，可以直接拖动该比例调节控件上小比例调节尺即可，更加方便，例如，用户拖动该比例调节尺使得前景音和背景音的混音比例为7:3，即输入了混音比例为7:3，观众端将该混音比例发送给混音服务器，则混音服务器将以前景音和背景音的混音比例为7:3进行混音合成，生成混音合成后的音频流数据。

当然，本发明实施例中并不进行限于上述几种实施方式，可以根据需求和实际情况进行设置，上述实施例中的界面实现效果图也仅是一种可能的实现效果，还可以为其它控件实现，也可以包括更多不同控件等，对此并不进行限制，例如，也可以将输入控件设置为悬浮窗，在观看直播时自动隐藏，若在观看直播过程中，需要修改混音比例，可以触发弹出该悬浮窗，并在输入控件中输入新的混音比例，进而就可以拉取到重新混音合成后的音频流数据，这样，本发明实施例中，在观众端增加输入混音比例的用户界面(UserInterface，UI)控件，为观众端提供混音比例控制的选择权，观众通过观众端输入的混音比例可以发送给相应的混音服务器，实现对音频数据流的混音比例修改。

然后，混音服务器根据观众终端发送的混音比例指令，将至少两路直播音频流数据进行混音合成，将混音合成后的直播音频流数据发送给该观众端。

例如，图4中混音服务器从观众端请求获得混音比例后，将a/a/v进行混音后获得a/v，即将两路音频流数据和一路视频流数据处理成一路音频混合流数据和一路视频流数据。

进一步地，本发明实施例中，观众端不仅可以在观看直播前预先发送混音比例指令，也可以在直播过程中实时发送混音比例指令，来修改音频占比，即可以不断更新混音比例，本发明实施例中提供了一种可能的实施方式，若接收到观众端发送的新的混音比例指令，则根据新的混音比例指令，将后续接收到的至少两路直播音频流数据进行混音合成，并将后续混音合成后的直播音频流数据发送给观众端。

这样，对于观众端，不同观众可以设置不同的混音比例，混音服务器可以针对不同观众的需求，进行相应的混音合成，并发送给相应的观众端，满足不同观众对音频中前景音和背景音的混音需求，获得了更好的直播观看体验，并且，观众端也可以根据现有的直播协议进行拉流，由于推流过程中可以使用现有的支持多路音频流传输的直播协议，因此相应地观众端也可以仍使用现有的直播协议，不需要修改直播协议，可以快速进行推广使用，也具有更广的适用性。

本发明实施例中，对直播中的推流和拉流过程进行修改，使得主播端不再进行音频混音合成，而是分别使用单独的音频通道发送各路音频流数据，在服务器端根据观众端需求进行混音合成，在观众端增加了一个配置音频混音比例控制的选项，观众端可以对音频混音比例进行修改，满足不同观众的混音需求，提升了观众直播体验。

值得说明的是，本发明实施例中的系统以及应用场景架构图是为了更加清楚地说明本发明实施例中的技术方案，并不构成对本发明实施例提供的技术方案的限制，对于其它的应用场景架构和业务应用，本发明实施例提供的技术方案对于类似的问题，同样适用。

本发明各个实施例中，以直播音频处理方法用于图2所示的终端和服务器为例进行示意性说明。

为了解决现有技术中只能由主播端进行混音比例的调整，无法满足不同观众需求的问题，本发明实施例中，实现在观众端根据用户混音比例需求，拉取不同的混音比例的直播音频流数据。基于上述实施例，直播过程中主播端可以发送音频数据，也可以同时发送视频数据，本发明实施例中以对直播过程中的音频数据处理进行说明，因此这里仅以传输音频数据为例进行说明，参阅图6所示，为本发明实施例中，直播音频处理方法的流程图，该方法包括：

步骤600：主播端采集至少两路音频数据。

例如，可以包括一路前景音和一路背景音。

步骤601：主播端将至少两路直播音频流数据发送给直播服务器。

具体地，主播端可以根据直播协议，将至少两路音频数据分别通过单独的音频通道传输，生成至少两路直播音频流数据，并发送给直播服务器。

步骤602：直播服务器接收主播端发送的至少两路直播音频流数据。

步骤603：直播服务器将至少两路直播音频流数据转发给混音服务器。

步骤604：混音服务器接收直播服务器转发的至少两路直播音频流数据。

步骤605：观众端接收用户输入的混音比例指令。

具体地，观众端可以接收用户通过预设的输入框输入的混音比例指令；或者，接收用户通过预设的比例调节控件输入的混音比例指令。当然，还可以有其它的界面实现方式，本发明实施例中并不进行限制。

步骤606：观众端基于混音比例指令，向混音服务器发送直播拉流请求。

其中，直播拉流请求中至少包括混音比例指令。

进一步地，在直播过程中，观众端也可以只发送混音比例指令给混音服务器，也可以是混音服务器向观众端主动请求混音比例，对此并不进行限制。

步骤607：混音服务器根据观众终端发送的混音比例指令，将至少两路直播音频流数据进行混音合成。

步骤608：混音服务器将混音合成后的直播音频流数据发送给观众端。

这样，由观众端进行混音比例修改，混音服务器进行混音合成，观众端可以接收到自身所需的混音合成的音频流数据，满足自身的混音需求，提升观众的直播体验。

值得说明的是，上述图6对应的实施例的执行步骤，并不一定按照上述顺序进行执行，对于其它执行顺序并不进行限制，这里本发明实施例中仅是给出了一种可能的实施方式，不应对本发明实施例中直播音频处理方法进行限制。

基于上述实施例，参阅图7所示，本发明实施例中，服务器侧的直播音频处理装置，该装置通过硬件或者软硬件的结合实现成为服务器的全部或者一部分，具体包括：

接收模块70，用于接收主播端发送的至少两路直播音频流数据；

混音合成模块71，用于根据观众端发送的混音比例指令，将所述至少两路直播音频流数据进行混音合成；

发送模块72，用于将混音合成后的直播音频流数据发送给所述观众端。

可选的，所述至少两路直播音频流数据是所述主播端通过不同的音频采集设备采集到的。

结合本发明另一个实施例，所述混音合成模块71进一步用于：

所述发送模块72进一步用于：在所述混音合成模块根据所述新的混音比例指令，将后续接收到的至少两路直播音频流数据进行混音合成后，将后续混音合成后的直播音频流数据发送给所述观众端。

值得说明的是，该服务器可以为直播服务器，也可以为直播服务器和混音服务器，若包括直播服务器和混音服务器，则上述接收模块70属于直播服务器，上述混音合成模块71属于混音服务器，上述发送模块72可以属于直播服务器也可以属于混音服务器。

基于上述实施例，参阅图8所示，本发明实施例中，还提供了另一种观众端侧的直播音频处理装置，该装置通过硬件或者软硬件的结合实现成为观众端的全部或者一部分，具体包括：

第一接收模块80，用于接收用户输入的混音比例指令；

发送模块81，用于基于所述混音比例指令，向服务器发送直播拉流请求，其中，所述直播拉流请求中至少包括所述混音比例指令；

第二接收模块82，用于至少接收所述服务器返回的直播音频流数据，其中所述直播音频流数据是根据所述混音比例将主播端发送的至少两路直播音频流数据进行混音合成得到的。

可选的，接收用户输入的混音比例指令，第一接收模块80具体用于：

接收用户通过预设的输入框输入的混音比例指令；

基于上述实施例，参阅图9所示，本发明实施例中，一种服务器的结构示意图。

本发明实施例提供了一种服务器，该服务器可以包括处理器910(CenterProcessing Unit，CPU)、存储器920、输入设备930和输出设备940等，输入设备930可以包括键盘、鼠标、触摸屏等，输出设备940可以包括显示设备，如液晶显示器(Liquid CrystalDisplay，LCD)、阴极射线管(Cathode Ray Tube，CRT)等。

存储器920可以包括只读存储器(ROM)和随机存取存储器(RAM)，并向处理器910提供存储器920中存储的程序指令和数据。在本发明实施例中，存储器920可以用于存储直播音频处理方法的程序。

处理器910通过调用存储器920存储的程序指令，处理器910用于按照获得的程序指令执行：

接收主播端发送的至少两路直播音频流数据；

将混音合成后的直播音频流数据发送给所述观众端。

可选的，处理910进一步用于：

若接收到所述观众端发送的新的混音比例指令，则根据所述新的混音比例指令，将后续接收到的至少两路直播音频流数据进行混音合成，并将后续混音合成后的直播音频流数据发送给所述观众端。

为便于说明，本发明中的实施例以包括触摸屏的便携式多功能装置1000作示例性说明，本领域技术人员可以理解的，本发明中的实施例同样适用于其他装置，例如手持设备、车载设备、可穿戴设备、计算设备，以及各种形式的用户设备(User Equipment，UE)，移动台(Mobile station，MS)，终端(terminal)，终端设备(Terminal Equipment)等等。

图10示出了根据一些实施例的包括触摸屏的便携式多功能装置1000的框图，所述装置1000可以包括输入单元1030、显示单元1040、重力加速度传感器1051、接近光传感器1052、环境光传感器1053、存储器1020、处理器1090、射频单元1010、音频电路1060、扬声器1061、麦克风1062、WiFi(wireless fidelity，无线保真)模块1070、蓝牙模块1080、电源1093、外部接口1097等部件。

本领域技术人员可以理解，图10仅仅是便携式多功能装置的举例，并不构成对便携式多功能装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件。

所述输入单元1030可用于接收输入的数字或字符信息，以及产生与所述便携式多功能装置的用户设置以及功能控制有关的键信号输入。具体地，输入单元1030可包括触摸屏1031以及其他输入设备1032。所述触摸屏1031可收集用户在其上或附近的触摸操作(比如用户使用手指、关节、触笔等任何适合的物体在触摸屏上或在触摸屏附近的操作)，并根据预先设定的程序驱动相应的连接装置。触摸屏可以检测用户对触摸屏的触摸动作，将所述触摸动作转换为触摸信号发送给所述处理器1090，并能接收所述处理器1090发来的命令并加以执行；所述触摸信号至少包括触点坐标信息。所述触摸屏1031可以提供所述装置1000和用户之间的输入界面和输出界面。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触摸屏。除了触摸屏1031，输入单元1030还可以包括其他输入设备。具体地，其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键1032、开关按键1033等)、轨迹球、鼠标、操作杆等中的一种或多种。

所述显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及装置1000的各种菜单。进一步的，触摸屏1031可覆盖显示面板1041，当触摸屏1031检测到在其上或附近的触摸操作后，传送给处理器1090以确定触摸事件的类型，随后处理器1090根据触摸事件的类型在显示面板1041上提供相应的视觉输出。在本实施例中，触摸屏与显示单元可以集成为一个部件而实现装置1000的输入、输出、显示功能；为便于描述，本发明实施例以触摸屏代表触摸屏和显示单元的功能集合；在某些实施例中，触摸屏与显示单元也可以作为两个独立的部件。

所述重力加速度传感器1051可检测各个方向上(一般为三轴)加速度的大小，同时，所述重力加速度传感器1051还可用于检测终端静止时重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等。

装置1000还可以包括一个或多个接近光传感器1052，用于当所述装置1000距用户较近时(例如当用户正在打电话时靠近耳朵)关闭并禁用触摸屏以避免用户对触摸屏的误操作；装置1000还可以包括一个或多个环境光传感器1053，用于当装置1000位于用户口袋里或其他黑暗区域时保持触摸屏关闭，以防止装置1000在锁定状态时消耗不必要的电池功耗或被误操作，在一些实施例中，接近光传感器和环境光传感器可以集成在一颗部件中，也可以作为两个独立的部件。至于装置1000还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。虽然图10示出了接近光传感器和环境光传感器，但是可以理解的是，其并不属于装置1000的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

所述存储器1020可用于存储指令和数据，存储器1020可主要包括存储指令区和存储数据区，存储数据区可存储关节触摸手势与应用程序功能的关联关系；存储指令区可存储操作系统、至少一个功能所需的指令等；所述指令可使处理器1090执行本发明实施例中的直播音频处理方法。

处理器1090是装置1000的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1020内的指令以及调用存储在存储器1020内的数据，执行装置1000的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1090可包括一个或多个处理单元；优选的，处理器1090可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1090中。在一些实施例中，处理器、存储器、可以在单一芯片上实现，在一些实施例中，他们也可以在独立的芯片上分别实现。在本发明实施例中，处理器1090还用于调用存储器中的指令以实现本发明实施例中的直播音频处理方法。

所述射频单元1010可用于收发信息或通话过程中信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1090处理；另外，将设计上行的数据发送给基站。通常，RF电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，射频单元1010还可以通过无线通信与网络设备和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(Global System of Mobile communication，GSM)、通用分组无线服务(General PacketRadio Service，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

音频电路1060、扬声器1061、麦克风1062可提供用户与装置1000之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号，传输到扬声器1061，由扬声器1061转换为声音信号输出；另一方面，麦克风1062将收集的声音信号转换为电信号，由音频电路1060接收后转换为音频数据，再将音频数据输出处理器1090处理后，经射频单元1010以发送给比如另一终端，或者将音频数据输出至存储器1020以便进一步处理，音频电路也可以包括耳机插孔1063，用于提供音频电路和耳机之间的连接接口。

WiFi属于短距离无线传输技术，装置1000通过WiFi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图10示出了WiFi模块1070，但是可以理解的是，其并不属于装置1000的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

蓝牙是一种短距离无线通讯技术。利用蓝牙技术，能够有效地简化掌上电脑、笔记本电脑和手机等移动通信终端设备之间的通信，也能够成功地简化以上这些设备与因特网(Internet)之间的通信，装置1000通过蓝牙模块1080使装置1000与因特网之间的数据传输变得更加迅速高效，为无线通信拓宽道路。蓝牙技术是能够实现语音和数据无线传输的开放性方案。然图10示出了WiFi模块1070，但是可以理解的是，其并不属于装置1000的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

装置1000还包括给各个部件供电的电源1093(比如电池)，优选的，电源可以通过电源管理系统1094与处理器1090逻辑相连，从而通过电源管理系统1094实现管理充电、放电、以及功耗管理等功能。

装置1000还包括外部接口1097，所述外部接口可以是标准的Micro USB接口，也可以使多针连接器，可以用于连接装置1000与其他装置进行通信，也可以用于连接充电器为装置1000充电。

尽管未示出，装置1000还可以包括摄像头、闪光灯等，在此不再赘述。

基于上述实施例，本发明实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意方法实施例中的直播音频处理方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种直播音频处理方法，其特征在于，包括：

接收主播端发送的至少两路直播音频流数据；

根据观众端发送的混音比例指令，将所述至少两路直播音频流数据进行混音合成，所述混音比例指令用于指示各路音频直播流数据的混音比例，所述混音比例是基于所述各路音频直播流数据占总音频音量的占比确定的；

将混音合成后的直播音频流数据发送给所述观众端。

2.如权利要求1所述的方法，其特征在于，所述至少两路直播音频流数据是所述主播端通过不同的音频采集设备采集到的。

3.如权利要求1所述的方法，其特征在于，进一步包括：

4.一种直播音频处理方法，其特征在于，包括：

接收用户输入的混音比例指令；

基于所述混音比例指令，向服务器发送直播拉流请求，其中，所述直播拉流请求中至少包括所述混音比例指令，所述混音比例指令用于指示各路音频直播流数据的混音比例，所述混音比例是基于所述各路音频直播流数据占总音频音量的占比确定的；

5.如权利要求4所述的方法，其特征在于，接收用户输入的混音比例指令，具体包括：

接收用户通过预设的输入框输入的混音比例指令；

6.一种直播音频处理系统，其特征在于，包括：直播服务器、主播端、观众端，其中，

所述直播服务器，用于接收所述主播端发送的至少两路直播音频流数据，并根据观众终端发送的混音比例指令，将所述至少两路直播音频流数据进行混音合成，将混音合成后的直播音频流数据发送给所述观众端，所述混音比例指令用于指示各路音频直播流数据的混音比例，所述混音比例是基于所述各路音频直播流数据占总音频音量的占比确定的；

7.如权利要求6所述的系统，其特征在于，进一步包括：混音服务器；

8.如权利要求7所述的系统，其特征在于，所述混音服务器还用于：

9.一种直播音频处理装置，其特征在于，包括：

混音合成模块，用于根据观众端发送的混音比例指令，将所述至少两路直播音频流数据进行混音合成，所述混音比例指令用于指示各路音频直播流数据的混音比例，所述混音比例是基于所述各路音频直播流数据占总音频音量的占比确定的；

10.如权利要求9所述的装置，其特征在于，所述至少两路直播音频流数据是所述主播端通过不同的音频采集设备采集到的。

11.如权利要求9所述的装置，其特征在于，所述混音合成模块进一步用于：

12.一种直播音频处理装置，其特征在于，包括：

第一接收模块，用于接收用户输入的混音比例指令；

发送模块，用于基于所述混音比例指令，向服务器发送直播拉流请求，其中，所述直播拉流请求中至少包括所述混音比例指令，所述混音比例指令用于指示各路音频直播流数据的混音比例，所述混音比例是基于所述各路音频直播流数据占总音频音量的占比确定的；

13.如权利要求12所述的装置，其特征在于，接收用户输入的混音比例指令，第一接收模块具体用于：

接收用户通过预设的输入框输入的混音比例指令；

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1-5中任意一项所述方法的步骤。