CN112542183A

CN112542183A - 音频数据处理的方法、装置、设备及存储介质

Info

Publication number: CN112542183A
Application number: CN202011430169.2A
Authority: CN
Inventors: 雷新学; 刘树彬; 周文欢
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Apollo Intelligent Connectivity Beijing Technology Co Ltd
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2021-03-23
Anticipated expiration: 2040-12-09
Also published as: EP3982645A2; EP3982645A3; JP2021184607A; KR102569056B1; KR20210150326A; CN112542183B; US20220020395A1; US11626140B2

Abstract

本申请公开了音频数据处理的方法、装置、设备及存储介质，涉及数据处理领域。具体实现方案为：接收多个发声应用分别发送的发声请求，其中，各所述发声请求中分别包括与相应发声应用对应的端口的信息；通过所述发声应用对应的端口，获取所述发声应用对应的音频数据和混音参数；根据各所述音频数据的混音参数，将各所述音频数据进行混合，以生成待播放音频数据。根据本申请的技术解决了相关技术中因音频焦点的占用问题导致播放异常频率高的技术问题，可以降低音频播放异常的概率，提高音频播放的成功率，并且无需针对音频焦点设置管理方案和过多的容错机制，简化了车机端的音频管理系统的开发复杂度。

Description

音频数据处理的方法、装置、设备及存储介质

技术领域

本申请涉及数据处理领域，尤其涉及音频数据处理的方法、装置、设备及存储介质。

背景技术

相关技术中，用于车机端的音频管理系统通常采用发声应用申请音频焦点的方案播放音频。具体地，发声应用在发声时需要向音频焦点发送占用申请，在发声应用占用音频焦点的情况下播放相应的音频。在涉及多个发声应用均有发声需求的场景中，容易出现音频焦点被抢占以及音频焦点被占用后不释放等问题，从而导致播放异常的频率较高。

发明内容

本申请提供了一种音频数据处理的方法、装置、设备以及存储介质。

根据本申请的一方面，提供了一种音频数据处理方法，包括：

接收多个发声应用分别发送的发声请求，其中，各发声请求中分别包括与相应发声应用对应的端口的信息；

通过发声应用对应的端口，获取发声应用对应的音频数据和混音参数；

根据各音频数据的混音参数，将各音频数据进行混合，以生成待播放音频数据。

根据本申请的另一方面，提供了一种音频数据处理装置，包括：

发声请求接收模块，用于接收多个发声应用分别发送的发声请求，其中，各发声请求中分别包括与相应发声应用对应的端口的信息；

音频数据和混音参数获取模块，用于通过发声应用对应的端口，获取发声应用对应的音频数据和混音参数；

待播放音频数据生成模块，用于根据各音频数据的混音参数，将各音频数据进行混合，以生成待播放音频数据。

第三方面，本申请实施例提供一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本申请任意一项实施例所提供的方法。

第四方面，本申请实施例提供一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行本申请任意一项实施例所提供的方法。

第五方面，本申请实施例提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本申请任意一项实施例所提供的方法。

根据本申请的技术解决了相关技术中因音频焦点的占用问题导致播放异常频率高的技术问题，可以降低音频播放异常的概率，提高音频播放的成功率，并且无需针对音频焦点设置管理方案和过多的容错机制，简化了车机端的音频管理系统的开发复杂度。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请音频数据处理的方法的流程图；

图2是根据本申请注册及绑定端口的流程图；

图3是根据本申请注册端口的流程图；

图4根据本申请生成待播放音频数据的流程图；

图5根据本申请取消端口绑定的流程图；

图6是根据本申请音频数据处理装置的示意图；

图7是用来实现本申请实施例的音频数据处理的方法的电子设备的框图；

图8是可以实现本申请实施例的音频数据处理的方法的场景图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

如图1所示，申请实施例提供一种音频数据处理的方法，该方法可以包括以下步骤：

步骤S101：接收多个发声应用分别发送的发声请求，其中，各发声请求中分别包括与相应发声应用对应的端口的信息；

步骤S102：通过发声应用对应的端口，获取发声应用对应的音频数据和混音参数；

步骤S103：根据各音频数据的混音参数，将各音频数据进行混合，以生成待播放音频数据。

本申请实施例的上述方法可以应用于车机端的音频管理系统，具体地，通过上述方法，车机端的多媒体系统可以对多个发声应用的音频数据进行处理，并将生成的待播放音频数据发送至扬声器。其中，发声应用可以为安装在车机端的多媒体系统内的默认应用或第三方应用，例如，发声应用可以为FM(Frequency Modulation,调频)收音机应用、TTS(Text To Speech,文本转语音)应用、雷达报警应用、音乐播放应用、电话应用、地图导航应用等其他涉及音频播放的应用。

示例性地，在步骤S101中，可以通过音频选取器接收多个发声应用分别发送的发声请求。发声应用对应端口的信息可以为发声应用对应端口的端口号，音频选取器可以通过端口的端口号调用相应的端口。

示例性地，在步骤S102中，音频选取器通过调用发声应用对应的端口，从音频池(Sound pool)获取发声应用对应的音频数据和混音参数。其中，发声应用对应的音频数据和混音参数可以在加载前(例如在安装时)预先缓存至音频池，由此，可以实现音频数据和混音参数的低延迟加载。

端口可以为采用TCP/IP(Transmission Control Protocol/Internet Protocol,传输控制协议/网际协议)的以太网络端口。本领域技术人员可以理解的是，TCP/IP是指能够在多个不同网络间实现信息传输的协议簇，例如TCP/IP可以包括FTP、SMTP、TCP、UDP、IP等协议。由此，可以保证发声应用的音频数据和混音参数可以通过发声应用对应的端口及时、完整地从音频池传输至音频选取器。

示例性地，在步骤S103中，可以通过混音器接收音频选取器发送的各发声应用的音频数据和混音参数，并根据各发声应用的混音参数对各发声应用的音频数据进行处理，经过混合后生成单独的待播放音频数据并发送至扬声器。其中，待播放音频数据可以为各音频数据经过处理及混合后生成的混合音频流文件。

需要说明的是，相关技术中用于车机端的音频管理系统通常采用发声应用申请音频焦点的方案播放音频，具体地，发声应用在发声时需要向音频焦点发送占用申请，在发声应用占用音频焦点的情况下播放相应的音频。在涉及多个发声应用均有发声需求的场景中，容易出现音频焦点被抢占以及音频焦点被占用后不释放等问题，从而导致播放异常的频率较高。

根据本申请实施例的音频数据处理方法，通过接收发声应用发送的发声请求，根据发声请求中的发声应用对应的端口的信息，调用对应的端口直接获取发声应用的音频数据和混音参数，并根据混音参数对音频数据进行处理和混合得到待播放音频数据。由此，各发声应用的音频数据和混音参数可以通过其对应的端口及时、完整地传输至混音器进行处理及混合，从而可以及时地响应各发声应用的发声请求，避免了相关技术中因音频焦点的占用问题所导致的播放异常的情况发生，降低了音频播放异常的概率。再者，相比于相关技术中音频焦点的管理方案较为复杂且需要设置过多的容错机制，本申请实施例的音频数据处理方法无需针对音频焦点设置管理方案和过多的容错机制，简化了车机端的音频管理系统的开发复杂度。

如图2所示，在一种实施方式中，多个发声应用中包括第一发声应用，在步骤S101之前，该方法还包括：

步骤S201：接收第一发声应用发送的第一注册申请，第一注册申请中包括第一发声应用的标识、音频数据和混音参数；

步骤S202：在第一发声应用存在预设端口的情况下，为第一发声应用分配预设端口，并将预设端口与第一发声应用的标识、音频数据以及混音参数绑定；

步骤S203：将预设端口的信息返回给第一发声应用。

示例性地，在步骤S201中，可以通过音频池接收第一发声应用发送的第一注册申请。第一发声应用可以理解为当前正在发送第一注册申请的发声应用。其中，第一发声应用可以为多个，音频池可以同时接收多个第一发声应用发送的第一注册申请。音频池在接收第一发声应用发送的标识、音频数据和混音参数后，将第一发声应用发送的标识、音频数据和混音参数通过数据包的形式缓存至音频池。其中，发声应用的标识可以理解为表征发声应用的ID，音频池根据标识可以识别发送该标识的对应的发声应用。

在步骤S202中，可以根据第一发声应用的标识判断第一发声应用是否存在预设端口。第一发声应用与预设端口之间的对应关系可以是预先设置的，即预设端口仅注册分配给其预先设置的第一发声应用，而不可以注册以及分配给其他的发声应用。其中，第一发声应用可以为预先安装在车机端的默认应用。例如，第一发声应用可以为电话应用，且电话应用存在预先设置的第一预设端口，在收到电话应用发送的第一注册申请时，将电话应用注册并分配给预先设置的第一预设端口。又例如，第一发声应用还可以为地图导航应用，且地图导航应用存在预先设置的第二预设端口时，在收到地图导航应用发送的第一注册申请时，将地图导航应用注册并分配给预先设置的第二预设端口。

在步骤S203中，第一发声应用在接收到音频池返回的预设端口的信息后，保存预设端口的信息，以在第一发声应用发送发声请求时将其对应的预设端口的信息发送给音频选取器。其中，预设端口的信息可以包括预设端口的端口号。

通过上述方案，可以根据第一发声应用与预设端口的预设对应关系直接将第一发声应用分配并注册给相应的预设端口。并且，针对每个存在预设端口的第一发声应用，可以统一设置第一发声应用对应的混音参数，并缓存在音频池中与预设端口进行绑定。由此，在各第一发声应用的开发过程中无需单独编辑相应的混音参数，采用与各预设端口相对应的通用混音参数即可，从而统一了各第一发声应用相应的混音参数，降低了各第一发声应用的开发难度。

如图3所示，在一种实施方式中，多个发声应用中包括第二发声应用，在步骤S201之前，该方法还包括：

步骤S301：接收第二发声应用发送的第二注册申请，第二注册申请中包括第二发声应用的标识、音频数据和混音参数；

步骤S302：在第二发声应用不存在预设端口的情况下，为第二发声应用注册开放端口，并将开放端口与第二发声应用的标识、音频数据以及混音参数绑定；

步骤S303：将开放端口的信息返回给第二发声应用。

示例性地，在步骤S301中，可以通过音频池接收第二发声应用发送的第二注册申请。第二发声应用可以为多个，音频池可以同时接收多个第二发声应用发送的第二注册申请。

在步骤S302中，可以根据第二发声应用的标识判断第二发声应用是否存在预设端口。在第二发声应用不存在预设端口的情况下，可以根据多个开放端口的端口号的升序排列顺序顺次选择开放端口，并将该开放端口注册并分配给第二发声应用。其中，第二发声应用可以为后续下载并安装在车机端的第三方应用。

在上述方案中，通过为不具备预设端口的第二发声应用分配并绑定开放端口，可以满足第三方应用的音频播放需求，并且适配范围较广，从而可以提高车机端对第三方应用的兼容性，满足用户对多种第三方应用的使用需求。

如图4所示，在一种实施方式中，步骤S103可以包括：

步骤S401：针对每个发声应用，根据发声应用的混音参数，对发声应用的音频数据进行处理，以生成发声应用的音频流；

步骤S402：将各音频流混合，以生成待播放音频数据。

示例性地，各发声应用的音频数据可以包括多个音频文件，混音器根据各发声应用的混音参数，对音频数据中的多个音频文件进行编解码以及格式转换得到统一的音频流数据，然后将多个发声应用的音频流数据进行混合，最终得到时间戳对齐的合成音频流数据，并将合成音频流数据作为待播放音频数据传输至扬声器。

在一种实施方式中，混音参数包括发声类型、绑定时长、音量系数和附带参数中的至少一个。

示例性地，发声类型可以包括独占类型、共存类型和限时类型。独占类型是指，在该发声应用的预设播放时长内仅单独播放该发声应用的音频源。例如，发声类型为独占类型的发声应用可以为电话应用。进一步地，独占类型根据其预设播放时长可以划分为长期独占类型和短期独占类型。共存类型是指，在该发声应用的预设播放时长内可以与其他发声应用的音频源同时播放。例如，发声类型为共存类型的发声应用可以为音乐播放应用或地图导航应用。

绑定时长指的是发声应用与对应的端口注册绑定的时长。其中，发声类型为长期独占类型和共存类型的发声应用的绑定时长为无限大，即发声类型为长期独占类型和共存类型的发声应用始终与其对应的端口绑定。发声类型为限时类型的发声应用的绑定时长为预设值，且在注册绑定间隔绑定时长后取消与其对应端口的绑定关系。

音量系数指的是发声应用的音频源在播放时的音量与扬声器最大播放音量的比值，音量系数的数值范围可以为0～1，其中，0代表静音，1代表最大音量。

附带参数可以包括音轨播放方式，具体地，音轨播放方式可以包括单声道、双声道和立体声。

由此，根据混音参数将多个发声应用的音频数据经过处理及混合，可以得到综合了发声类型、绑定时长、音量系数和附带参数的多个因素的待播放音频数据，从而提高各发声应用的音频源的混音效果。

如图5所示，在一种实施方式中，在步骤S103之后，该方法还可以包括：

步骤S501：在接收发声应用的发声请求后间隔达到绑定时长的情况下，取消发声应用的标识、音频数据以及混音参数与对应的端口的绑定，并向发声应用发送解绑通知。

在一个示例中，在接收到某一发声应用A的发声请求后的间隔达到绑定时长的情况下，该发声应用A会向音频池发送解绑请求，并删除先前注册的端口的信息。音频池根据解绑请求取消该发声应用A的标识、音频数据以及混音参数与对应的端口的绑定。

在另一个示例中，在接收到某一发声应用B发声请求后间隔绑定时长的情况下，音频池主动取消发声应用B的标识、音频数据以及混音参数与对应的端口的绑定，并向发声应用B发送解绑通知。发声应用B在收到解绑通知之后，删除先前注册的端口的信息。

可以理解的是，在取消某一发声应用的标识、音频数据以及混音参数与对应的端口的绑定之后，对某一发声应用先前绑定的端口进行重置，以使该端口释放并处于空闲状态。

通过上述方案，可以根据预设的绑定时长及时取消发声应用与端口的绑定关系，从而及时地重置和释放端口，避免端口长期被占用。

下面参照图8描述根据本申请的一个应用场景示例中。

如图8所示，音频池接收各发声应用发送的注册申请。音频池根据各注册申请为相应的各发声应用分别分配对应的端口，并将分配的端口与发声应用的标识、音频数据以及混音参数绑定，然后将分配的端口的信息返回给发声应用。其中，多个端口的端口号可以为01-255。端口01-端口05为预设端口，用于供预设发声应用绑定，例如，端口01可以与FM收音机应用注册绑定，端口02可以与TTS应用注册绑定，端口03可以与音乐播放应用注册绑定，端口04可以与电话应用注册绑定，端口05可以与地图导航应用注册绑定。端口06-端口225为开放端口，用于供其他涉及音频播放的应用注册绑定。

音频选取器接收多个发声应用分别发送的发声请求，其中，各发声请求中分别包括与相应发声应用对应的端口的信息。音频选取器根据各端口的信息调用相应的端口，并通过相应的端口获取发声应用的音频数据和混音参数，并将发声应用的音频数据和混音参数传输给混音器。

混音器根据各发声应用的混音参数对各发声应用的音频数据进行处理以生成各发声应用的音频流，然后对各发声应用的音频流进行混合以生成待播放音频数据。车机喇叭根据待播放音频数据播放各发声应用的音频源。

如图6所示，本申请还提供一种音频数据处理的装置600，该装置可以包括以下组件：

发声请求接收模块601，用于接收多个发声应用分别发送的发声请求，其中，各发声请求中分别包括与相应发声应用对应的端口的信息；

音频数据和混音参数获取模块602，用于通过发声应用对应的端口，获取发声应用对应的音频数据和混音参数；

待播放音频数据生成模块603，用于根据各音频数据的混音参数，将各音频数据进行混合，以生成待播放音频数据。

在一种实施方式中，多个发声应用中包括第一发声应用，该装置600还包括：

第一注册申请接收模块，用于接收第一发声应用发送的第一注册申请，第一注册申请中包括第一发声应用的标识、音频数据和混音参数；

预设端口绑定模块，用于在第一发声应用存在预设端口的情况下，为第一发声应用分配预设端口，并将预设端口与第一发声应用的标识、音频数据以及混音参数绑定；

预设端口信息返回模块，用于将预设端口的信息返回给第一发声应用。

在一种实施方式中，多个发声应用中还包括第二发声应用，该装置600还包括：

接收第二发声应用发送的第二注册申请，第二注册申请中包括第二发声应用的标识、音频数据和混音参数；

在第二发声应用不存在预设端口的情况下，为第二发声应用注册开放端口，并将开放端口与第二发声应用的标识、音频数据以及混音参数绑定；

将开放端口的信息返回给第二发声应用。

在一种实施方式中，待播放音频数据生成模块603包括：

音频流生成单元，用于针对每个发声应用，根据发声应用的混音参数，对发声应用的音频数据进行处理，以生成发声应用的音频流；

待播放音频数据生成单元，用于将各音频流混合，以生成待播放音频数据。

在一种实施方式中，该装置600还包括：

解绑模块，用于在接收发声应用的发声请求后间隔达到绑定时长的情况下，取消发声应用的标识、音频数据以及混音参数与对应的端口的绑定，并向发声应用发送解绑通知。

根据本申请的实施例，本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7示出了可以用来实施本申请的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或要求的本申请的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序来执行各种适当的动作和处理。在RAM703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元70执行上文所描述的各个方法和处理，例如音频数据处理的方法。例如，在一些实施例中，音频数据处理的方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的音频数据处理的方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行音频数据处理的方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本申请的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，各发声应用的音频数据和混音参数可以通过其对应的端口及时、完整地传输至混音器进行处理及混合，从而可以及时地响应各发声应用的发声请求，避免了相关技术中因音频焦点的占用问题所导致的播放异常的情况发生，降低了音频播放异常的概率。再者，相比于相关技术中音频焦点的管理方案较为复杂且需要设置过多的容错机制，本申请实施例的音频数据处理方法无需针对音频焦点设置管理方案和过多的容错机制，简化了车机端的音频管理系统的开发复杂度。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种音频数据处理的方法，包括：

接收多个发声应用分别发送的发声请求，其中，各所述发声请求中分别包括与相应发声应用对应的端口的信息；

通过所述发声应用对应的端口，获取所述发声应用对应的音频数据和混音参数；

根据各所述音频数据的混音参数，将各所述音频数据进行混合，以生成待播放音频数据。

2.根据权利要求1所述的方法，其中，多个发声应用中包括第一发声应用，在所述接收多个发声应用分别发送的发声请求之前，还包括：

接收所述第一发声应用发送的第一注册申请，所述第一注册申请中包括所述第一发声应用的标识、音频数据和混音参数；

在所述第一发声应用存在预设端口的情况下，为所述第一发声应用分配所述预设端口，并将所述预设端口与所述第一发声应用的标识、音频数据以及混音参数绑定；

将所述预设端口的信息返回给所述第一发声应用。

3.根据权利要求1所述的方法，其中，多个发声应用中包括第二发声应用，在所述接收多个发声应用分别发送的发声请求之前，还包括：

接收所述第二发声应用发送的第二注册申请，所述第二注册申请中包括所述第二发声应用的标识、音频数据和混音参数；

在所述第二发声应用不存在预设端口的情况下，为所述第二发声应用注册开放端口，并将所述开放端口与所述第二发声应用的标识、音频数据以及混音参数绑定；

将所述开放端口的信息返回给所述第二发声应用。

4.根据权利要求1所述的方法，其中，根据各所述音频数据的混音参数，将各所述音频数据进行混合，以生成待播放音频数据，包括：

针对每个所述发声应用，根据所述发声应用的混音参数，对所述发声应用的音频数据进行处理，以生成所述发声应用的音频流；

将各所述音频流混合，以生成所述待播放音频数据。

5.根据权利要求4所述的方法，其中，所述混音参数包括发声类型、绑定时长、音量系数和附带参数中的至少一个。

6.根据权利要求5所述的方法，其中，生成待播放音频数据之后，还包括：

在接收所述发声应用的发声请求后间隔达到所述绑定时长的情况下，取消所述发声应用的标识、音频数据以及混音参数与对应的端口的绑定，并向所述发声应用发送解绑通知。

7.一种音频数据处理的装置，包括：

发声请求接收模块，用于接收多个发声应用分别发送的发声请求，其中，各所述发声请求中分别包括与相应发声应用对应的端口的信息；

音频数据和混音参数获取模块，用于通过所述发声应用对应的端口，获取所述发声应用对应的音频数据和混音参数；

待播放音频数据生成模块，用于根据各所述音频数据的混音参数，将各所述音频数据进行混合，以生成待播放音频数据。

8.根据权利要求7所述的装置，多个发声应用中包括第一发声应用，所述装置还包括：

第一注册申请接收模块，用于接收所述第一发声应用发送的第一注册申请，所述第一注册申请中包括所述第一发声应用的标识、音频数据和混音参数；

预设端口绑定模块，用于在所述第一发声应用存在预设端口的情况下，为所述第一发声应用分配所述预设端口，并将所述预设端口与所述第一发声应用的标识、音频数据以及混音参数绑定；

预设端口信息返回模块，用于将所述预设端口的信息返回给所述第一发声应用。

9.根据权利要求7所述的装置，多个发声应用中还包括第二发声应用，所述装置还包括：

将所述开放端口的信息返回给所述第二发声应用。

10.根据权利要求7所述的装置，其中，待播放音频数据生成模块包括：

音频流生成单元，用于针对每个所述发声应用，根据所述发声应用的混音参数，对所述发声应用的音频数据进行处理，以生成所述发声应用的音频流；

待播放音频数据生成单元，用于将各所述音频流混合，以生成所述待播放音频数据。

11.根据权利要求10所述的装置，其中，所述混音参数包括发声类型、绑定时长、音量系数和附带参数中的至少一个。

12.根据权利要求11所述的装置，还包括：

解绑模块，用于在接收所述发声应用的发声请求后间隔达到所述绑定时长的情况下，取消所述发声应用的标识、音频数据以及混音参数与对应的端口的绑定，并向所述发声应用发送解绑通知。

13.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使计算机执行权利要求1-6中任一项所述的方法。

15.一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现权利要求1-6中任一项所述的方法。